JP7435948B2 - Sound collection device, sound collection method and sound collection program - Google Patents
Sound collection device, sound collection method and sound collection program Download PDFInfo
- Publication number
- JP7435948B2 JP7435948B2 JP2020043913A JP2020043913A JP7435948B2 JP 7435948 B2 JP7435948 B2 JP 7435948B2 JP 2020043913 A JP2020043913 A JP 2020043913A JP 2020043913 A JP2020043913 A JP 2020043913A JP 7435948 B2 JP7435948 B2 JP 7435948B2
- Authority
- JP
- Japan
- Prior art keywords
- target sound
- microphone elements
- unit
- gain
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 12
- 230000035945 sensitivity Effects 0.000 claims description 112
- 238000001514 detection method Methods 0.000 claims description 111
- 238000012937 correction Methods 0.000 claims description 88
- 230000015572 biosynthetic process Effects 0.000 claims description 68
- 238000003786 synthesis reaction Methods 0.000 claims description 68
- 238000004364 calculation method Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 20
- 230000001629 suppression Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 239000000758 substrate Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本開示は、複数のマイクロホン素子を用いて目的音を収音する技術に関するものである。 The present disclosure relates to a technique for collecting target sound using a plurality of microphone elements.
従来、少なくとも2つのマイクロホン素子からの出力信号を用いて指向性を制御するビームフォーマが知られている。そして、このビームフォーマを用いて、周囲ノイズを抑圧し、目的音を周囲ノイズから分離して収音する収音装置がある。ビームフォーマのノイズ抑圧性能は、少なくとも2つのマイクロホン素子間の感度ばらつきにより劣化するおそれがある。 BACKGROUND ART Beamformers that control directivity using output signals from at least two microphone elements have been known. There is a sound collection device that uses this beamformer to suppress ambient noise and separate target sound from ambient noise. The noise suppression performance of the beamformer may deteriorate due to variations in sensitivity between at least two microphone elements.
例えば、特許文献1は、一般化サイドローブキャンセラ(以下、GSC(General Sidelobe Canceller)と呼ぶ)に自動キャリブレーション処理を組み合わせたビームフォーマを開示している。特許文献1においては、周囲ノイズによって複数のマイクロホン間の感度ばらつきが補正されている。
For example,
しかしながら、上記従来の技術では、指向性合成におけるノイズ抑圧性能が低下するおそれがあるので、更なる改善が必要とされていた。 However, with the above-mentioned conventional technology, there is a risk that the noise suppression performance in directional synthesis may deteriorate, so further improvement is required.
本開示は、上記の問題を解決するためになされたもので、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる技術を提供することを目的とする。 The present disclosure has been made to solve the above problems, and provides a technology that can improve noise suppression performance in directional synthesis and can collect target sound with a high S/N ratio. The purpose is to
本開示の一態様に係る収音装置は、複数のマイクロホン素子と、前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、を備え、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。 A sound collection device according to an aspect of the present disclosure includes a plurality of microphone elements, a sensitivity correction unit that corrects a sensitivity difference between the plurality of microphone elements by multiplying an output signal of the plurality of microphone elements by a gain, and an utterance. a target sound detection unit that detects a person's voice as a target sound; a gain control unit that controls the gain based on a detection result of the target sound detection unit; and a gain control unit that controls the gain of the plurality of microphone elements corrected by the sensitivity correction unit. a directional synthesis unit that uses the output signal to emphasize and collect the target sound coming from a predetermined direction; is detected, the gain is updated based on the output signals of the plurality of microphone elements, and when the target sound detection section does not detect the voice of the speaker, the gain is not updated.
本開示によれば、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。 According to the present disclosure, noise suppression performance in directional synthesis can be improved, and target sound can be collected with a high S/N ratio.
(本開示の基礎となった知見)
上記のように、従来技術においては、周囲ノイズによって複数のマイクロホン間の感度ばらつきが補正されている。
(Findings that formed the basis of this disclosure)
As described above, in the prior art, sensitivity variations among a plurality of microphones are corrected by ambient noise.
しかしながら、ノイズ源が、複数のマイクロホン素子で構成されるマイクロホンアレイの近傍にある場合、ノイズ源と各マイクロホン素子との距離差を無視することができず、ノイズ源から発生したノイズが各マイクロホン素子の位置での音圧差となって表れる。このようなマイクロホンアレイの近傍にあるノイズ源から発生したノイズによって複数のマイクロホン素子の感度補正又は自動キャリブレーションが行われた場合、正しく感度補正又は自動キャリブレーションが行えず、かえってその後段のビームフォーマの出力の性能を劣化させるおそれがあった。 However, when a noise source is near a microphone array consisting of multiple microphone elements, the distance difference between the noise source and each microphone element cannot be ignored, and the noise generated from the noise source is transmitted to each microphone element. This appears as a sound pressure difference at the position. If the sensitivity correction or automatic calibration of multiple microphone elements is performed due to noise generated from such a noise source near the microphone array, the sensitivity correction or automatic calibration may not be performed correctly, and the beamformer in the subsequent stage may be damaged. There was a risk that the output performance would deteriorate.
特に、GSCにおいては、ブロッキングマトリックスが、目的音方向に感度の死角を持つノイズ参照信号を作成する。しかしながら、複数のマイクロホン素子間に感度ばらつきがあると、目的音方向に感度の死角が形成できず、ノイズ参照信号に目的音が漏れこむ。この場合、後段の適応ノイズキャンセリングを経由した目的音が漏れ込んだノイズ参照信号が、重み付き和ビームフォーマの出力から差引かれることで、出力信号の目的音に歪を与えることがある。ノイズ参照信号に目的音が漏れ込まないようにするためには、少なくとも複数のマイクロホン素子間の感度を揃える必要がある。 In particular, in GSC, a blocking matrix creates a noise reference signal with a blind spot of sensitivity in the direction of the target sound. However, if there are variations in sensitivity among a plurality of microphone elements, a blind spot of sensitivity cannot be formed in the direction of the target sound, and the target sound leaks into the noise reference signal. In this case, the noise reference signal into which the target sound has leaked through the subsequent adaptive noise canceling is subtracted from the output of the weighted sum beamformer, which may distort the target sound of the output signal. In order to prevent the target sound from leaking into the noise reference signal, it is necessary to equalize the sensitivity of at least a plurality of microphone elements.
以上の課題を解決するために、本開示の一態様に係る収音装置は、複数のマイクロホン素子と、前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、を備え、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。 In order to solve the above problems, a sound collection device according to one aspect of the present disclosure includes a plurality of microphone elements and a sensitivity difference between the plurality of microphone elements by multiplying an output signal of the plurality of microphone elements by a gain. a target sound detection unit that detects the speaker's voice as the target sound, a gain control unit that controls the gain based on the detection result of the target sound detection unit, and the sensitivity correction unit. a directional synthesis section that emphasizes and collects the target sound coming from a predetermined direction using the corrected output signals of the plurality of microphone elements; If the detection unit detects the voice of the speaker, the gain is updated based on the output signals of the plurality of microphone elements, and if the target sound detection unit does not detect the voice of the speaker, The gain is not updated.
この構成によれば、複数のマイクロホン素子の出力信号にゲインを掛けることにより複数のマイクロホン素子間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音が強調して収音される。 According to this configuration, the sensitivity difference between the plurality of microphone elements is corrected by multiplying the output signals of the plurality of microphone elements by the gain. At this time, if the speaker's voice is detected, the gain is updated based on the output signals of the plurality of microphone elements, and if the speaker's voice is not detected, the gain is not updated. Then, using the output signals of the plurality of microphone elements whose sensitivity differences have been corrected, the target sound coming from a predetermined direction is emphasized and collected.
したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。 Therefore, when the speaker's voice, which is the target sound, is detected, the gain for correcting the sensitivity difference between multiple microphone elements is updated, so the sensitivity difference between the multiple microphone elements for the target sound is corrected. In the subsequent directional synthesis, it is possible to reduce the amount of the target sound leaking into the noise reference signal that has a blind spot in sensitivity in the direction of the target sound. As a result, the noise suppression performance in directional synthesis can be improved, and the target sound can be collected with a high S/N ratio.
また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子のうちの1つのマイクロホン素子の出力信号が前記音声と前記音声以外の非音声とのいずれであるかを判定する音声判定部を含んでもよい。 Further, in the above sound collection device, the target sound detection unit determines whether the output signal of one of the plurality of microphone elements is the voice or a non-voice other than the voice. It may also include a voice determination section.
この構成によれば、複数のマイクロホン素子のうちの1つのマイクロホン素子の出力信号が音声と非音声とのいずれであるかが判定されることにより、発話者の音声を容易に検出することができる。 According to this configuration, the voice of the speaker can be easily detected by determining whether the output signal of one of the plurality of microphone elements is voice or non-voice. .
また、上記の収音装置において、前記目的音検出部は、前記1つのマイクロホン素子の出力信号から特定の帯域の信号を抽出する第1抽出部を含み、前記音声判定部は、前記第1抽出部によって抽出された前記信号に対して前記音声と前記非音声とのいずれであるかを判定してもよい。 Further, in the above sound collection device, the target sound detection section includes a first extraction section that extracts a signal in a specific band from the output signal of the one microphone element, and the sound determination section includes the first extraction section. It may be determined whether the signal extracted by the unit is the voice or the non-voice.
この構成によれば、1つのマイクロホン素子の出力信号から抽出された特定の帯域の信号に対して音声と非音声とのいずれであるかが判定されるので、より高い精度で発話者の音声を検出することができる。 According to this configuration, it is determined whether the signal in a specific band extracted from the output signal of one microphone element is voice or non-voice, so the voice of the speaker can be detected with higher accuracy. can be detected.
また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から前記目的音が到来しているか否かを判定する目的音方向判定部と、前記目的音方向判定部によって前記目的音方向から前記目的音が到来していると判定され、かつ前記音声判定部によって前記1つのマイクロホン素子の出力信号が前記音声であると判定された場合、前記目的音が検出されたと判定する目的音判定部と、を含んでもよい。 Further, in the above-mentioned sound collection device, the purpose of the target sound detection unit is to determine whether or not the target sound is coming from a predetermined target sound direction using the output signals of the plurality of microphone elements. A sound direction determination unit and the target sound direction determination unit determine that the target sound is coming from the target sound direction, and the audio determination unit determines that the output signal of the one microphone element is the voice. The target sound determination unit may also include a target sound determining unit that determines that the target sound has been detected when the target sound is determined.
音声が検出されたか否かの判定のみでは、目的音方向以外の方向から発話があった場合も音声が検出されたと判定されてしまうおそれがある。一方、上記の構成によれば、音声が検出され、且つ目的音方向から目的音が到来している場合のみ、目的音が検出されたと判定され、ゲインが更新されるので、より高い精度で目的音を用いて感度差を補正することができる。 If only the determination is made as to whether or not speech has been detected, there is a risk that it will be determined that speech has been detected even if speech is made from a direction other than the direction of the target sound. On the other hand, according to the above configuration, only when a voice is detected and the target sound is coming from the direction of the target sound, it is determined that the target sound has been detected and the gain is updated. Sensitivity differences can be corrected using sound.
また、上記の収音装置において、前記目的音検出部は、前記複数のマイクロホン素子の出力信号から特定の帯域の信号を抽出する第2抽出部を含み、前記目的音方向判定部は、前記第2抽出部によって抽出された前記信号に対して前記目的音方向から前記目的音が到来しているか否かを判定してもよい。 Further, in the above sound collection device, the target sound detection unit includes a second extraction unit that extracts a signal in a specific band from the output signals of the plurality of microphone elements, and the target sound direction determination unit includes a second extraction unit that extracts a signal in a specific band from the output signals of the plurality of microphone elements, and It may be determined whether or not the target sound is coming from the target sound direction with respect to the signal extracted by the second extraction unit.
この構成によれば、複数のマイクロホン素子の出力信号から抽出された特定の帯域の信号に対して目的音方向から目的音が到来しているか否かが判定されるので、より高い精度で目的音方向から目的音が到来しているか否かを判定することができる。 According to this configuration, it is determined whether or not the target sound is coming from the target sound direction with respect to the signal of a specific band extracted from the output signals of the plurality of microphone elements, so that the target sound can be heard with higher accuracy. It can be determined whether the target sound is coming from the direction.
また、上記の収音装置において、前記目的音方向判定部は、前記複数のマイクロホン素子の出力信号の位相差を用いて、前記目的音が到来する方向を推定する方向推定部と、前記方向推定部によって推定された前記方向が、予め決められた前記目的音方向であるか否かを判定する方向判定部と、を含んでもよい。 Further, in the above sound collection device, the target sound direction determination unit includes a direction estimation unit that estimates a direction in which the target sound arrives using a phase difference between output signals of the plurality of microphone elements; and a direction determination unit that determines whether the direction estimated by the unit is the predetermined target sound direction.
目的音が到来する方向は、複数のマイクロホン素子の出力信号の位相差を用いることによって容易に推定することができる。そのため、目的音方向から目的音が到来しているか否かは、予め目的音方向が既知であれば、目的音が到来する方向の推定結果に基づいて容易に判定することができる。 The direction in which the target sound arrives can be easily estimated by using the phase difference between the output signals of the plurality of microphone elements. Therefore, whether or not the target sound is coming from the target sound direction can be easily determined based on the estimation result of the direction in which the target sound is coming, if the target sound direction is known in advance.
また、上記の収音装置において、前記目的音方向判定部は、前記複数のマイクロホン素子の出力信号を用いて前記目的音方向の信号を強調することにより前記目的音方向に指向性を形成する第1指向性合成部と、前記複数のマイクロホン素子の出力信号を用いて前記目的音方向に感度の死角を形成する第2指向性合成部と、前記第1指向性合成部からの出力信号の出力レベルと、前記第2指向性合成部からの出力信号の出力レベルとを比較し、前記目的音方向から前記目的音が到来しているか否かを判定するレベル比較判定部と、を含んでもよい。 Further, in the above-mentioned sound collection device, the target sound direction determination unit is configured to form a directivity in the target sound direction by emphasizing a signal in the target sound direction using the output signals of the plurality of microphone elements. a second directivity synthesis section that uses the output signals of the plurality of microphone elements to form a blind spot of sensitivity in the direction of the target sound, and an output signal from the first directionality synthesis section. and a level comparison determination unit that compares the level with the output level of the output signal from the second directional synthesis unit and determines whether or not the target sound is coming from the target sound direction. .
目的音方向から目的音が到来している場合、第1指向性合成部からの出力信号レベルは、第2指向性合成部からの出力信号レベルより大きくなる。そのため、第1指向性合成部からの出力信号レベルが、第2指向性合成部からの出力信号レベルより大きい場合、目的音方向から目的音が到来していると判定することができる。一方、目的音方向から目的音が到来していない場合、第1指向性合成部及び第2指向性合成部の出力信号には、周辺ノイズのみが含まれる。したがって、第1指向性合成部からの出力信号レベルは、第2指向性合成部からの出力信号レベルとほぼ等しくなるか、第2指向性合成部からの出力信号レベルよりも小さくなる。そのため、第1指向性合成部からの出力信号レベルが、第2指向性合成部からの出力信号レベル以下である場合、目的音方向から目的音が到来していないと判定することができる。 When the target sound is coming from the target sound direction, the output signal level from the first directional synthesis section is higher than the output signal level from the second directional synthesis section. Therefore, if the output signal level from the first directional synthesis section is higher than the output signal level from the second directional synthesis section, it can be determined that the target sound is coming from the direction of the target sound. On the other hand, when the target sound is not arriving from the target sound direction, the output signals of the first directional synthesis section and the second directional synthesis section include only peripheral noise. Therefore, the output signal level from the first directivity combining section is approximately equal to the output signal level from the second directivity combining section, or is smaller than the output signal level from the second directivity combining section. Therefore, when the output signal level from the first directional synthesis section is equal to or lower than the output signal level from the second directional synthesis section, it can be determined that the target sound is not coming from the direction of the target sound.
また、上記の収音装置において、前記ゲイン制御部は、前記複数のマイクロホン素子それぞれの出力信号の出力レベルを検出するレベル検出部と、前記目的音検出部によって前記発話者の前記音声が検出された場合に、前記レベル検出部によって検出された各出力レベルの時間平均レベルを算出する時間平均レベル算出部と、前記時間平均レベル算出部によって算出された前記時間平均レベルから、前記ゲインを更新した補正ゲインを算出する補正ゲイン算出部と、を含んでもよい。 Further, in the above sound collection device, the gain control section includes a level detection section that detects the output level of the output signal of each of the plurality of microphone elements, and a level detection section that detects the voice of the speaker by the target sound detection section. a time average level calculation unit that calculates a time average level of each output level detected by the level detection unit; and a time average level calculation unit that updates the gain from the time average level calculated by the time average level calculation unit. A correction gain calculation unit that calculates a correction gain may also be included.
この構成によれば、発話者の音声が検出された場合に、複数のマイクロホン素子それぞれの出力信号の出力レベルの時間平均レベルが算出される。そして、算出された時間平均レベルから、ゲインを更新した補正ゲインが算出されるので、複数のマイクロホン素子の出力信号に算出された補正ゲインを掛けることにより複数のマイクロホン素子間の感度差を補正することができる。 According to this configuration, when the voice of the speaker is detected, the time average level of the output level of the output signal of each of the plurality of microphone elements is calculated. Then, a correction gain that updates the gain is calculated from the calculated time average level, so the sensitivity difference between the plurality of microphone elements is corrected by multiplying the output signals of the plurality of microphone elements by the calculated correction gain. be able to.
また、上記の収音装置において、前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている1つのマイクロホン素子の前記時間平均レベルを基準として、前記1つのマイクロホン素子以外の他のマイクロホン素子の前記時間平均レベルが前記1つのマイクロホン素子の前記時間平均レベルと同じになるように前記他のマイクロホン素子の前記補正ゲインを算出してもよい。 Further, in the above-mentioned sound collection device, the correction gain calculation unit may calculate the time average level of one microphone element determined in advance among the plurality of microphone elements as a reference, and calculate The correction gain of the other microphone element may be calculated so that the time average level of the microphone element is the same as the time average level of the one microphone element.
この構成によれば、複数のマイクロホン素子のうちの予め決められている1つのマイクロホン素子の出力レベルに対して、他のマイクロホン素子の出力レベルが揃うように、複数のマイクロホン素子間の感度差を補正することができる。 According to this configuration, the sensitivity difference between the plurality of microphone elements is adjusted so that the output level of the other microphone elements is equal to the predetermined output level of one of the plurality of microphone elements. Can be corrected.
また、上記の収音装置において、前記補正ゲイン算出部は、前記複数のマイクロホン素子のうちの予め決められている少なくとも2つのマイクロホン素子の前記時間平均レベルの平均値を基準として、前記複数のマイクロホン素子の前記時間平均レベルが前記少なくとも2つのマイクロホン素子の前記時間平均レベルの前記平均値と同じになるように前記複数のマイクロホン素子の前記補正ゲインを算出してもよい。 Further, in the above-mentioned sound collection device, the correction gain calculation unit calculates the time average level of at least two predetermined microphone elements of the plurality of microphone elements as a reference. The correction gains of the plurality of microphone elements may be calculated such that the time average level of the element is the same as the average value of the time average levels of the at least two microphone elements.
この構成によれば、複数のマイクロホン素子のうちの予め決められている少なくとも2つのマイクロホン素子の出力レベルの平均値に対して、複数のマイクロホン素子の出力レベルが揃うように、複数のマイクロホン素子間の感度差を補正することができる。 According to this configuration, between the plurality of microphone elements, the output levels of the plurality of microphone elements are equalized with respect to the average value of the output levels of at least two microphone elements determined in advance among the plurality of microphone elements. The difference in sensitivity can be corrected.
また、上記の収音装置において、前記ゲイン制御部は、前記複数のマイクロホン素子それぞれの出力信号から特定の帯域の信号を抽出する第3抽出部を含み、前記レベル検出部は、前記第3抽出部によって抽出された各信号の出力レベルを検出してもよい。 Further, in the above sound collection device, the gain control section includes a third extraction section that extracts a signal in a specific band from the output signal of each of the plurality of microphone elements, and the level detection section includes the third extraction section. The output level of each signal extracted by the section may be detected.
この構成によれば、複数のマイクロホン素子それぞれの出力信号から抽出された特定の帯域の各信号の出力レベルが検出されるので、目的音以外のノイズによる影響を低減することができる。 According to this configuration, since the output level of each signal in a specific band extracted from the output signals of each of the plurality of microphone elements is detected, the influence of noise other than the target sound can be reduced.
また、上記の収音装置において、前記特定の帯域は、200Hzから500Hzの帯域であってもよい。 Moreover, in the above-mentioned sound collection device, the specific band may be a band from 200Hz to 500Hz.
この構成によれば、複数のマイクロホン素子それぞれの出力信号から抽出された200Hzから500Hzの帯域の各信号の出力レベルが検出される。したがって、200Hz以下の低域ノイズが除去されることで低域ノイズの影響を低減することができる。また、500Hz以上の帯域が除去されることでマイクロホンアレイの大きさよりも十分長い波長の音に限定し、マイクロホンアレイを構成するマイクロホン素子の位置による音圧の差異が少なくなる。これにより、精度良い感度補正が可能となる。 According to this configuration, the output level of each signal in the band from 200 Hz to 500 Hz extracted from the output signal of each of the plurality of microphone elements is detected. Therefore, by removing low-frequency noise of 200 Hz or less, the influence of low-frequency noise can be reduced. Furthermore, by removing the band of 500 Hz or more, the sound is limited to sounds with a wavelength sufficiently longer than the size of the microphone array, and the difference in sound pressure depending on the position of the microphone elements forming the microphone array is reduced. This enables accurate sensitivity correction.
本開示の他の態様に係る収音方法は、コンピュータが、複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正し、発話者の音声を目的音として検出し、前記目的音の検出結果に基づいて前記ゲインを制御し、補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音し、前記ゲインの制御において、前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。 In a sound collection method according to another aspect of the present disclosure, the computer corrects the sensitivity difference between the plurality of microphone elements by multiplying the output signals of the plurality of microphone elements by a gain, and uses the voice of the speaker as the target sound. detecting the target sound, controlling the gain based on the detection result of the target sound, and using the corrected output signals of the plurality of microphone elements to emphasize and collect the target sound coming from a predetermined direction. , in controlling the gain, if the voice of the speaker is detected, the gain is updated based on the output signals of the plurality of microphone elements, and if the voice of the speaker is not detected, the gain is updated. is not updated.
この構成によれば、複数のマイクロホン素子の出力信号にゲインを掛けることにより複数のマイクロホン素子間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音が強調して収音される。 According to this configuration, the sensitivity difference between the plurality of microphone elements is corrected by multiplying the output signals of the plurality of microphone elements by the gain. At this time, if the speaker's voice is detected, the gain is updated based on the output signals of the plurality of microphone elements, and if the speaker's voice is not detected, the gain is not updated. Then, using the output signals of the plurality of microphone elements whose sensitivity differences have been corrected, the target sound coming from a predetermined direction is emphasized and collected.
したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。 Therefore, when the speaker's voice, which is the target sound, is detected, the gain for correcting the sensitivity difference between multiple microphone elements is updated, so the sensitivity difference between the multiple microphone elements for the target sound is corrected. In the subsequent directional synthesis, it is possible to reduce the amount of the target sound leaking into the noise reference signal that has a blind spot in sensitivity in the direction of the target sound. As a result, the noise suppression performance in directional synthesis can be improved, and the target sound can be collected with a high S/N ratio.
本開示の他の態様に係る収音プログラムは、複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、発話者の音声を目的音として検出する目的音検出部と、前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部としてコンピュータを機能させ、前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない。 A sound collection program according to another aspect of the present disclosure includes a sensitivity correction unit that corrects sensitivity differences between the plurality of microphone elements by multiplying output signals of the plurality of microphone elements by a gain, and converts the voice of a speaker into a target sound. a target sound detection unit that detects the target sound as a target sound, a gain control unit that controls the gain based on the detection result of the target sound detection unit, and the output signals of the plurality of microphone elements corrected by the sensitivity correction unit. , the computer functions as a directional synthesis unit that emphasizes and collects the target sound coming from a predetermined direction, and the gain control unit controls when the voice of the speaker is detected by the target sound detection unit. , the gain is updated based on the output signals of the plurality of microphone elements, and the gain is not updated when the target sound detection unit does not detect the voice of the speaker.
この構成によれば、複数のマイクロホン素子の出力信号にゲインを掛けることにより複数のマイクロホン素子間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音が強調して収音される。 According to this configuration, the sensitivity difference between the plurality of microphone elements is corrected by multiplying the output signals of the plurality of microphone elements by the gain. At this time, if the speaker's voice is detected, the gain is updated based on the output signals of the plurality of microphone elements, and if the speaker's voice is not detected, the gain is not updated. Then, using the output signals of the plurality of microphone elements whose sensitivity differences have been corrected, the target sound coming from a predetermined direction is emphasized and collected.
したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。 Therefore, when the speaker's voice, which is the target sound, is detected, the gain for correcting the sensitivity difference between multiple microphone elements is updated, so the sensitivity difference between the multiple microphone elements for the target sound is corrected. In the subsequent directional synthesis, it is possible to reduce the amount of the target sound leaking into the noise reference signal that has a blind spot in sensitivity in the direction of the target sound. As a result, the noise suppression performance in directional synthesis can be improved, and the target sound can be collected with a high S/N ratio.
以下、本開示の実施の形態について図面を参照して詳細に説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。 Embodiments of the present disclosure will be described in detail below with reference to the drawings. Note that the following embodiments are examples that embody the present disclosure, and do not limit the technical scope of the present disclosure.
(実施の形態1)
図1は、本開示の実施の形態1における収音装置の構成を示すブロック図である。
(Embodiment 1)
FIG. 1 is a block diagram showing the configuration of a sound collection device according to
図1に示す収音装置101は、マイクロホンアレイ1、感度補正部2、目的音検出部3、感度補正制御部(ゲイン制御部)4及び指向性合成部5を備える。
The
マイクロホンアレイ1は、音響信号を電気信号に変換するn個(nは自然数)のマイクロホン素子11,12,・・・,1nを含む。マイクロホンアレイ1は、複数のマイクロホン素子を含む。
The
図2は、本開示の実施の形態1におけるマイクロホンアレイの設置位置の一例を示す図であり、図3は、本開示の実施の形態1におけるマイクロホンアレイのマイクロホン素子の配置例を示す図である。
FIG. 2 is a diagram illustrating an example of the installation position of the microphone array according to
図2に示すように、本実施の形態1におけるマイクロホンアレイ1は、車両内のディスプレイ201の近傍に配置される。ディスプレイ201は、カーナビゲーションシステムの構成要素である。また、ディスプレイ201の下方には、空気調和機の吹き出し口202が設けられている。吹き出し口202からは、冷却された空気又は暖められた空気が出力される。
As shown in FIG. 2, the
また、図3に示すマイクロホンアレイ1は、例えば、4つのマイクロホン素子11,12,13,14を備える。マイクロホン素子11,12,13,14は、四角形の基板上の四隅にそれぞれ配置される。基板の下部に配置されたマイクロホン素子11,12の水平方向の間隔は、例えば2cmである。また、基板の上部に配置されたマイクロホン素子13,14の水平方向の間隔は、例えば2cmである。さらに、マイクロホン素子11,13の垂直方向の間隔は、例えば2cmであり、マイクロホン素子12,14の垂直方向の間隔は、例えば2cmである。
Further, the
マイクロホンアレイ1と吹き出し口202との間隔は、例えば2cmである。マイクロホンアレイ1は、運転席に座る発話者の音声を目的音として取得する。このとき、吹き出し口202から出力される空気の音がノイズとして目的音に含まれる。吹き出し口202に最も近いマイクロホン素子13と、吹き出し口202との間隔は2cmであり、吹き出し口202から最も遠いマイクロホン素子11と、吹き出し口202との間隔は4cmである。マイクロホン素子11と吹き出し口202との間隔は、マイクロホン素子13と吹き出し口202との間隔の2倍となる。
The distance between the
この場合、ノイズ源である吹き出し口202と各マイクロホン素子11,13との距離差は無視することができず、吹き出し口202から発生したノイズが各マイクロホン素子11,13の位置での音圧差となって表れる。このようなマイクロホンアレイ1の近傍にあるノイズ源から発生したノイズを用いてマイクロホン素子11~14の感度補正が行われた場合、正しく感度補正が行えず、かえってその後段の指向性合成部(ビームフォーマ)の出力の性能を劣化させるおそれがあった。そこで、本実施の形態1における収音装置101は、目的音を用いてマイクロホン素子11~14の感度補正を行う。
In this case, the distance difference between the
なお、マイクロホンアレイ1が備えるマイクロホン素子の数は、4つに限定されない。また、複数のマイクロホン素子の配置位置についても、図3に示す配置位置に限定されない。
Note that the number of microphone elements included in the
マイクロホン素子11,12,・・・,1nのうちの1つのマイクロホン素子11の出力信号は、目的音検出部3に入力される。また、マイクロホン素子11,12,・・・,1nの各出力信号は、感度補正部2及び感度補正制御部4に入力される。
An output signal from one of the
感度補正部2は、複数のマイクロホン素子11,12,・・・,1nの出力信号にゲインを掛けることにより複数のマイクロホン素子11,12,・・・,1n間の感度差を補正する。感度補正部2は、各マイクロホン素子11,12,・・・,1nの出力信号に指定されたゲインを乗じることにより各マイクロホン素子11,12,・・・,1nの感度のばらつきを補正する。感度補正部2は、複数のマイクロホン素子11,12,・・・,1n間の感度を揃える。
The
目的音検出部3は、発話者の音声を目的音として検出する。目的音検出部3は、マイクロホン素子11,12,・・・,1nのうちの1つのマイクロホン素子11の出力信号を取得し、マイクロホンアレイ1で収音する目的音の有無を検出する。なお、本実施の形態1では、音声判定部32は、マイクロホン素子11の出力信号を用いて、目的音の有無を検出しているが、本開示は特にこれに限定されない。音声判定部32は、マイクロホン素子11,12,・・・,1nのうちのいずれか1つの出力信号を用いて目的音の有無を検出してもよい。
The target sound detection unit 3 detects the speaker's voice as the target sound. The target sound detection unit 3 acquires the output signal of one of the
なお、目的音検出部3の構成については、図4及び図5を用いて更に詳細に説明する。 Note that the configuration of the target sound detection section 3 will be explained in more detail using FIGS. 4 and 5.
感度補正制御部4は、目的音検出部3の検出結果に基づいてゲインを制御する。感度補正制御部4は、各マイクロホン素子11,12,・・・,1nの出力信号を取得し、目的音検出部3によって目的音が検出された場合に、感度補正部2における各マイクロホン素子11,12,・・・,1nからの出力信号に対する感度補正ゲインを算出する。
The sensitivity correction control section 4 controls the gain based on the detection result of the target sound detection section 3. The sensitivity correction control section 4 acquires the output signal of each
感度補正制御部4は、目的音検出部3によって発話者の音声が検出された場合、複数のマイクロホン素子の出力信号に基づいてゲインを更新し、目的音検出部3によって発話者の音声が検出されない場合、ゲインを更新しない。なお、感度補正制御部4の構成については、図6を用いて更に詳細に説明する。 When the target sound detection unit 3 detects the speaker's voice, the sensitivity correction control unit 4 updates the gain based on the output signals of the plurality of microphone elements, and the target sound detection unit 3 detects the speaker's voice. If not, do not update the gain. Note that the configuration of the sensitivity correction control section 4 will be explained in more detail using FIG. 6.
指向性合成部(ビームフォーマ)5は、感度補正部2によって補正された複数のマイクロホン素子の出力信号を用いて、所定の方向から到来する目的音を強調して収音する。指向性合成部5は、感度補正部2によって補正された各マイクロホン素子11,12,・・・,1nの出力信号を取得し、目的音のS/N比を改善する。
A directional synthesis section (beamformer) 5 uses the output signals of the plurality of microphone elements corrected by the
続いて、図1に示す目的音検出部3の構成について更に説明する。 Next, the configuration of the target sound detection section 3 shown in FIG. 1 will be further explained.
図4は、本開示の実施の形態1における収音装置の目的音検出部の構成を示すブロック図である。
FIG. 4 is a block diagram showing the configuration of the target sound detection section of the sound collection device according to
図4に示す目的音検出部3は、帯域通過フィルタ部(第1抽出部)31及び音声判定部32を備える。
The target sound detection section 3 shown in FIG. 4 includes a bandpass filter section (first extraction section) 31 and a
帯域通過フィルタ部31は、複数のマイクロホン素子11,12,・・・,1nのうちの1つのマイクロホン素子11の出力信号から特定の帯域の信号を抽出する。帯域通過フィルタ部31は、マイクロホン素子11の出力信号から、例えば200Hzから500Hzの帯域の信号を抽出する。帯域通過フィルタ部31は、マイクロホン素子11の出力信号から、人の発話した音声を抽出可能な帯域の信号を抽出する。
The
音声判定部32は、複数のマイクロホン素子11,12,・・・,1nのうちの1つのマイクロホン素子11の出力信号が音声と音声以外の非音声とのいずれであるかを判定する。音声判定部32は、帯域通過フィルタ部31によって抽出された信号に対して音声と非音声とのいずれであるかを判定する。
The
続いて、図4に示す音声判定部32の構成について更に説明する。
Next, the configuration of the
図5は、本開示の実施の形態1における収音装置の音声判定部の構成を示すブロック図である。
FIG. 5 is a block diagram showing the configuration of the audio determination section of the sound collection device according to
音声判定部32は、レベル検出部321、ノイズレベル検出部322、比較部323、時間-周波数変換部324、音声特徴量抽出部325及び判定部326を備える。
The
レベル検出部321は、マイクロホン素子11の出力信号の信号レベルを検出する。
The
ノイズレベル検出部322は、レベル検出部321によって検出された信号レベルのミニマム値をホールドすることでノイズレベルを検出する。
The noise
比較部323は、レベル検出部321の出力とノイズレベル検出部322の出力とを比較して波形レベルでの音声の有無を判定する。例えば、比較部323は、ノイズレベル検出部322によって検出されたノイズレベルの2倍の値を閾値に設定する。そして、比較部323は、レベル検出部321によって検出された信号レベルが閾値以上であるか否かを判定する。比較部323は、レベル検出部321によって検出された信号レベルが閾値以上である場合、マイクロホン素子11の出力信号に音声が含まれると判定する。一方、比較部323は、レベル検出部321によって検出された信号レベルが閾値より小さい場合、マイクロホン素子11の出力信号に音声が含まれないと判定する。
The
時間-周波数変換部324は、マイクロホン素子11の時間領域の出力信号を周波数領域の出力信号に変換する。
The time-
音声特徴量抽出部325は、周波数領域の出力信号から音声特徴量を抽出する。音声特徴量は、音声を示す特徴量である。音声特徴量抽出部325は、特許第5450298号明細書に示すような音声ピッチを用いて音声特徴量を抽出する方法、又は、特許第3849116号明細書に示すような調波構造の性質を特徴量として用いて音声特徴量を抽出する方法を用いてもよい。収音装置101が車載される場合には、図2に示すように、コンソールに埋め込まれたディスプレイ201周辺にマイクロホンアレイ1が組み込まれる。そのため、ノイズ源は、空気調和機の吹き出し口202となる。この場合、雑音のスペクトルは比較的単調であるため、音声特徴量抽出部325は、振幅スペクトルの交流成分又は振幅スペクトルのピークとディップとの比を音声特徴量として抽出してもよい。これにより、空気調和機の吹き出し口202から発生するノイズと音声とを判別することができる。
The audio
判定部326は、比較部323によってマイクロホン素子11の出力信号に音声が含まれると判定され、かつ音声特徴量抽出部325によってマイクロホン素子11の出力信号から音声特徴量が抽出された場合、マイクロホン素子11の出力信号が音声であると判定する。一方、判定部326は、比較部323によってマイクロホン素子11の出力信号に音声が含まれないと判定された場合、又は音声特徴量抽出部325によってマイクロホン素子11の出力信号から音声特徴量が抽出されない場合、マイクロホン素子11の出力信号が非音声であると判定する。判定部326は、音声及び非音声のいずれかを示す判定結果信号Odet(j)を感度補正制御部4へ出力する。なお、jは時間に対応するサンプル番号を示す。
If the
その結果、目的音検出部3は、マイクロホン素子11の出力信号が音声であると判定した場合、判定結果信号Odet(j)=1を出力し、マイクロホン素子11の出力信号が非音声であると判定した場合、判定結果信号Odet(j)=0を出力する。
As a result, when the target sound detection unit 3 determines that the output signal of the
続いて、図1に示す感度補正制御部4の構成について更に説明する。 Next, the configuration of the sensitivity correction control section 4 shown in FIG. 1 will be further explained.
図6は、本開示の実施の形態1における収音装置の感度補正制御部の構成を示すブロック図である。
FIG. 6 is a block diagram showing the configuration of the sensitivity correction control section of the sound pickup device according to
感度補正制御部4は、第1~n帯域通過フィルタ部(第3抽出部)411~41n、第1~nレベル検出部421~42n、第1~n平均レベル算出部(時間平均レベル算出部)431~43n及び補正ゲイン算出部44を備える。第1~n帯域通過フィルタ部411~41n、第1~nレベル検出部421~42n及び第1~n平均レベル算出部431~43nは、それぞれマイクロホン素子11~1nの数に応じて設けられる。例えば、マイクロホン素子11の出力信号x(1,j)は、第1帯域通過フィルタ部411に入力される。
The sensitivity correction control section 4 includes first to n band pass filter sections (third extraction section) 411 to 41n, first to n
第1~n帯域通過フィルタ部411~41nは、複数のマイクロホン素子11~1nそれぞれの出力信号から特定の帯域の信号を抽出する。なお、特定の帯域は、200Hzから500Hzの帯域である。
The first to nth
第1~nレベル検出部421~42nは、複数のマイクロホン素子11~1nそれぞれの出力信号の出力レベルを検出する。
The first to nth
第1~nレベル検出部421~42nは、各マイクロホン素子の出力信号x(i,j)の出力レベルLx(i,j)を下記の一般的な振幅平滑化の式(1)を用いて検出する。
The first to nth
Lx(i,j)=beta1・|x(i,j)|+(1-beta1)・Lx(i,j-1)・・・(1) Lx(i,j)=beta1・|x(i,j)|+(1−beta1)・Lx(i,j−1)...(1)
式(1)において、iはマイクロホン素子番号を示し、jは時間に対応するサンプル番号を示す。また、式(1)において、beta1は、重み係数を示し、平均化の速度を決めるパラメータである。 In equation (1), i indicates a microphone element number, and j indicates a sample number corresponding to time. Furthermore, in equation (1), beta1 indicates a weighting coefficient and is a parameter that determines the speed of averaging.
また、本実施の形態1では、第1~n帯域通過フィルタ部411~41nを通過した出力信号xbpf(i,j)が第1~nレベル検出部421~42nに入力される。そのため、第1~nレベル検出部421~42nは、第1~n帯域通過フィルタ部411~41nによって抽出された各マイクロホン素子の出力信号xbpf(i,j)の出力レベルLx(i,j)を下記の一般的な振幅平滑化の式(2)を用いて検出する。
Furthermore, in the first embodiment, the output signal xbpf(i,j) that has passed through the first to n band
Lx(i,j)=beta1・|xbp(i,j)|+(1-beta1)・Lx(i,j-1)・・・(2) Lx(i,j)=beta1・|xbp(i,j)|+(1−beta1)・Lx(i,j−1)...(2)
第1~n平均レベル算出部431~43nは、目的音検出部3によって発話者の音声が検出された場合に、第1~nレベル検出部421~42nによって検出された各出力レベルLx(i,j)の時間平均レベルAvex(i,j)を算出する。
The first to nth average
第1~n平均レベル算出部431~43nは、目的音検出部3によって目的音が検出される期間(判定結果信号Odet(j)=1)のみ、各マイクロホン素子の出力レベルLx(i,j)の長時間の平均値(時間平均レベルAvex(i,j))を下記の式(3)を用いて算出する。また、第1~n平均レベル算出部431~43nは、目的音検出部3によって目的音が検出されない期間(判定結果信号Odet(j)=0)、時間平均レベルAvex(i,j)を下記の式(4)を用いて算出する。すなわち、第1~n平均レベル算出部431~43nは、目的音検出部3によって発話者の音声が検出されなかった場合に、前回算出された時間平均レベルAvex(i,j-1)を今回の時間平均レベルAvex(i,j)として算出する。
The first to nth average
Avex(i,j)=beta2・|Lx(i,j)|+(1-beta2)・Avex(i,j-1) if Odet(j)=1・・・(3) Avex(i,j)=beta2・|Lx(i,j)|+(1−beta2)・Avex(i,j−1) if Odet(j)=1...(3)
Avex(i,j)=Avex(i,j-1) if Odet(j)=0・・・(4) Avex(i,j)=Avex(i,j-1) if Odet(j)=0...(4)
式(3)及び式(4)において、iはマイクロホン素子番号を示し、jは時間に対応するサンプル番号を示す。また、式(3)において、beta2は、重み係数であり、平均化の速度を決めるパラメータである。また、beta1>>beta2である。例えば、サンプリング周波数が16kHzである場合、beta1は、100m秒での平均レベルとなるように0.000625に設定され、beta2は、5秒での平均となるように0.0000125に設定される。マイクロホン素子の感度補正に用いる平均信号レベルに長時間の平均レベルが用いられることで正確に感度補正ゲインを算出することができる。 In equations (3) and (4), i indicates a microphone element number, and j indicates a sample number corresponding to time. Furthermore, in equation (3), beta2 is a weighting coefficient and is a parameter that determines the speed of averaging. Also, beta1>>beta2. For example, if the sampling frequency is 16 kHz, beta1 is set to 0.000625 to be the average level over 100 msec, and beta2 is set to 0.0000125 to be the average level over 5 seconds. By using a long-term average level as the average signal level used for sensitivity correction of the microphone element, it is possible to accurately calculate the sensitivity correction gain.
補正ゲイン算出部44は、第1~n平均レベル算出部431~43nによって算出された時間平均レベルから、ゲインを更新した感度補正ゲインを算出する。
The correction
補正ゲイン算出部44は、複数のマイクロホン素子11~1nのうちの予め決められている1つのマイクロホン素子11の時間平均レベルを基準として、1つのマイクロホン素子11以外の他のマイクロホン素子12~1nの時間平均レベルが1つのマイクロホン素子11の時間平均レベルと同じになるように他のマイクロホン素子12~1nの感度補正ゲインを算出する。すなわち、補正ゲイン算出部44は、第1~n平均レベル算出部431~43nによって算出された各マイクロホン素子11~1nの時間平均レベルAvex(i,j)と、マイクロホン素子11の時間平均レベルAvex(1,j)とを用いて、下記の式(5)により感度補正ゲインG(i,j)を算出する。
The correction
G(i,j)=Avex(1,j)/Avex(i,j)・・・(5) G(i,j)=Avex(1,j)/Avex(i,j)...(5)
上記の式(5)の感度補正ゲインが用いられる場合は、マイクロホン素子11を基準として、その他のマイクロホン素子12~1nの出力レベルが揃うように感度補正が行われることになる。
When the sensitivity correction gain of the above equation (5) is used, sensitivity correction is performed so that the output levels of the
なお、上記の式(5)では、補正ゲイン算出部44は、予め決められている1つのマイクロホン素子11の時間平均レベルを基準として感度補正ゲインを算出しているが、本開示は特にこれに限定されない。補正ゲイン算出部44は、マイクロホン素子11とは異なる他の1つのマイクロホン素子の時間平均レベルを基準として感度補正ゲインを算出してもよい。
Note that in the above equation (5), the correction
また、補正ゲイン算出部44は、複数のマイクロホン素子11~1nのうちの予め決められている少なくとも2つのマイクロホン素子の時間平均レベルの平均値を基準として、複数のマイクロホン素子11~1nの時間平均レベルが少なくとも2つのマイクロホン素子の時間平均レベルの平均値と同じになるように複数のマイクロホン素子11~1nの感度補正ゲインを算出してもよい。すなわち、補正ゲイン算出部44は、第1~n平均レベル算出部431~43nによって算出された各マイクロホン素子11~1nの時間平均レベルAvex(i,j)と、時間平均レベルAvex(i,j)の平均値とを用いて、下記の式(6)により感度補正ゲインG(i,j)を算出してもよい。
Further, the correction
G(i,j)={Avex(1,j)+Avex(2,j)+・・・+Avex(n,j)}/n/Avex(i,j)・・・(6) G(i,j)={Avex(1,j)+Avex(2,j)+...+Avex(n,j)}/n/Avex(i,j)...(6)
なお、上記の式(6)では、補正ゲイン算出部44は、マイクロホン素子11~1nのうちの全てのマイクロホン素子11~1nの時間平均レベルの平均値を基準として感度補正ゲインを算出しているが、本開示は特にこれに限定されない。補正ゲイン算出部44は、マイクロホン素子11~1nのうちの少なくとも2つのマイクロホン素子の時間平均レベルの平均値を基準として感度補正ゲインを算出してもよい。
Note that in the above equation (6), the correction
感度補正部2は、感度補正制御部4によって算出された各マイクロホン素子11~1nに対応する感度補正ゲインG(i,j)を各マイクロホン素子11~1nの出力信号x(i,j)に乗じることで感度補正を行う。
The
指向性合成部5は、感度補正部2によって補正された出力信号G(i,j)・x(i,j)を用いて、特許文献1に示されるGSCにより指向性合成(ビームフォーミング)する。また、指向性合成部5は、GSC以外のビームフォーミング処理、例えば、Maximum Likelihood法又はMinimum Variance法などの既存のビームフォーミング処理によりビームフォーミングしてもよい。
The
続いて、本開示の実施の形態1における収音装置101の動作について説明する。
Next, the operation of the
図7は、本開示の実施の形態1における収音装置の動作について説明するためのフローチャートである。
FIG. 7 is a flowchart for explaining the operation of the sound collection device in
まず、ステップS1において、目的音検出部3は、マイクロホン素子11から出力信号を取得し、感度補正部2及び感度補正制御部4、各マイクロホン素子11~1nから出力信号を取得する。
First, in step S1, the target sound detection unit 3 acquires an output signal from the
次に、ステップS2において、目的音検出部3は、マイクロホン素子11の出力信号から目的音(音声)が検出されたか否かを判定する。目的音検出部3は、マイクロホン素子11の出力信号から目的音が検出されたか否かを示す判定結果信号を感度補正制御部4へ出力する。
Next, in step S2, the target sound detection unit 3 determines whether the target sound (voice) is detected from the output signal of the
ここで、マイクロホン素子11の出力信号から目的音が検出されたと判定された場合(ステップS2でYES)、ステップS3において、感度補正制御部4は、複数のマイクロホン素子11~1nの出力信号に基づいて感度補正ゲインを更新する。 Here, if it is determined that the target sound is detected from the output signal of the microphone element 11 (YES in step S2), in step S3, the sensitivity correction control unit 4 to update the sensitivity correction gain.
一方、マイクロホン素子11の出力信号から目的音が検出されなかったと判定された場合(ステップS2でNO)、感度補正ゲインが更新されずに、ステップS4に処理が移行する。 On the other hand, if it is determined that the target sound is not detected from the output signal of the microphone element 11 (NO in step S2), the process proceeds to step S4 without updating the sensitivity correction gain.
次に、ステップS4において、感度補正部2は、各マイクロホン素子11~1nの出力信号に感度補正ゲインを掛けることにより各マイクロホン素子間の感度差を補正する。
Next, in step S4, the
次に、ステップS5において、指向性合成部5は、感度補正部2によって補正された各マイクロホン素子11~1nの出力信号を用いて、指向性を合成する。指向性が合成されることにより、所定の方向から到来する目的音が強調して収音される。
Next, in step S5, the
上記のように、複数のマイクロホン素子11~1nの出力信号にゲインを掛けることにより複数のマイクロホン素子11~1n間の感度差が補正される。このとき、発話者の音声が検出された場合、複数のマイクロホン素子11~1nの出力信号に基づいてゲインが更新され、発話者の音声が検出されない場合、ゲインが更新されない。そして、感度差が補正された複数のマイクロホン素子11~1nの出力信号を用いて、所定の方向から到来する目的音が強調して収音される。
As described above, the sensitivity difference between the plurality of
したがって、目的音である発話者の音声が検出された場合に、複数のマイクロホン素子11~1n間の感度差を補正するためのゲインが更新されるので、目的音に対する複数のマイクロホン素子11~1n間の感度差を補正することができ、後段の指向性合成において、目的音方向に感度の死角を有するノイズ参照信号に目的音が漏れこむ量を低減することができる。その結果、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができる。
Therefore, when the target sound of the speaker's voice is detected, the gain for correcting the sensitivity difference between the plurality of
(実施の形態2)
上記の実施の形態1では、目的音検出部3は、1つのマイクロホン素子の出力信号が音声と非音声とのいずれであるかを判定している。これに対し、実施の形態2では、目的音検出部は、複数のマイクロホン素子の出力信号を用いて予め決められた目的音方向から目的音が到来しているか否かをさらに判定する。
(Embodiment 2)
In the first embodiment described above, the target sound detection unit 3 determines whether the output signal of one microphone element is voice or non-voice. In contrast, in the second embodiment, the target sound detection unit further determines whether or not the target sound is coming from a predetermined target sound direction using the output signals of the plurality of microphone elements.
図8は、本開示の実施の形態2における収音装置の構成を示すブロック図である。
FIG. 8 is a block diagram showing the configuration of a sound collection device in
図8に示す収音装置102は、マイクロホンアレイ1、感度補正部2、感度補正制御部4、指向性合成部5及び目的音検出部6を備える。実施の形態1の収音装置101と異なる点は、目的音検出部6に複数のマイクロホン素子11、12,・・・,1nからの出力信号が入力されている点である。なお、本実施の形態2において、実施の形態1と同じ構成については同じ符号が付され、説明が省略される。
The
図9は、本開示の実施の形態2における収音装置の目的音検出部の構成を示すブロック図である。
FIG. 9 is a block diagram showing the configuration of the target sound detection section of the sound collection device in
図9に示す目的音検出部6は、帯域通過フィルタ部31、音声判定部32、帯域通過フィルタ部(第2抽出部)63、目的音方向判定部64及び目的音判定部65を備える。実施の形態1の目的音検出部3に対して、実施の形態2の目的音検出部6には、帯域通過フィルタ部63、目的音方向判定部64及び目的音判定部65が追加されている。
The target
帯域通過フィルタ部63は、複数のマイクロホン素子の出力信号から特定の帯域の信号を抽出する。帯域通過フィルタ部63は、マイクロホン素子11~1nそれぞれの出力信号から、例えば200Hzから500Hzの帯域の信号を抽出する。
The
目的音方向判定部64は、複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から目的音が到来しているか否かを判定する。目的音方向判定部64は、帯域通過フィルタ部63によって抽出された信号に対して目的音方向から目的音が到来しているか否かを判定する。ここで、車内に配置された収音装置102が、運転者の発話音声を収音する場合、運転者の発話音声がマイクロホンアレイ1に入射する角度は予め決められる。そのため、目的音方向判定部64は、発話音声の入射角度を予め記憶している。なお、目的音方向判定部64の構成については、図10及び図11を用いて更に詳細に説明する。
The target sound
目的音判定部65は、音声判定部32と目的音方向判定部64との2つの判定結果を用いて、目的音の有無を判定する。目的音判定部65は、目的音方向判定部64によって目的音方向から目的音が到来していると判定され、かつ音声判定部32によって1つのマイクロホン素子の出力信号が音声であると判定された場合、目的音が検出されたと判定する。また、目的音判定部65は、目的音方向判定部64によって目的音方向から目的音が到来していないと判定された場合、又は音声判定部32によって1つのマイクロホン素子の出力信号が音声ではないと判定された場合、目的音が検出されていないと判定する。
The target
続いて、図9に示す目的音方向判定部64の構成について更に説明する。
Next, the configuration of the target sound
図10は、本開示の実施の形態2における収音装置の目的音方向判定部の構成を示すブロック図である。なお、図10では、説明の都合上、2つのマイクロホン素子11,12からの出力信号が目的音方向判定部64に入力される例について説明する。
FIG. 10 is a block diagram showing the configuration of a target sound direction determining section of a sound collection device in
目的音方向判定部64は、遅延和指向性合成部(遅延和ビームフォーマ)(第1指向性合成部)641、傾度型指向性合成部(傾度型ビームフォーマ)(第2指向性合成部)642、目的音レベル検出部643、非目的音レベル検出部644及びレベル比較判定部645を備える。
The target sound
遅延和指向性合成部641は、複数のマイクロホン素子11~1nの出力信号を用いて目的音方向の信号を強調することにより目的音方向に指向性を形成する。遅延和指向性合成部641は、目的音方向に高い指向性感度を有する。図10に示す指向特性6411は、遅延和指向性合成部641の指向特性を示している。遅延和指向性合成部641の指向特性6411は、目的音方向に指向性を有しており、目的音方向の信号を強調する。
The delay-sum
遅延和指向性合成部641は、マイクロホン素子11とマイクロホン素子12との間の距離をdとし、目的音方向からの入射角度をθとすると、マイクロホン素子11からの出力信号を経路差Δ(Δ=dsinθ)だけ遅延させる。そして、遅延和指向性合成部641は、遅延させたマイクロホン素子11からの出力信号とマイクロホン素子12からの出力信号とを加算する。なお、距離d及び入射角度θは、不図示のメモリに予め記憶されている。
The delay-sum
傾度型指向性合成部642は、複数のマイクロホン素子11,12の出力信号を用いて目的音方向に感度の死角を形成する。図10に示す指向特性6421は、傾度型指向性合成部642の指向特性を示している。傾度型指向性合成部642の指向特性6421は、目的音方向に死角を有しており、目的音方向に垂直な方向の信号(ノイズ)を強調する。
The gradient-type
傾度型指向性合成部642は、マイクロホン素子11とマイクロホン素子12との間の距離をdとし、目的音方向からの音の入射角度をθとすると、マイクロホン素子11からの出力信号を経路差Δ(Δ=dsinθ)だけ遅延させる。そして、傾度型指向性合成部642は、遅延させたマイクロホン素子11からの出力信号から、マイクロホン素子12からの出力信号を減算する。なお、距離d及び入射角度θは、予め記憶されている。
The gradient-type
目的音レベル検出部643は、遅延和指向性合成部641の出力信号レベルを検出する。
The target sound
非目的音レベル検出部644は、傾度型指向性合成部642の出力信号レベルを検出する。
The non-target sound
レベル比較判定部645は、遅延和指向性合成部641からの出力信号の出力レベルと、傾度型指向性合成部642からの出力信号の出力レベルとを比較し、目的音方向から目的音が到来しているか否かを判定する。レベル比較判定部645は、目的音レベル検出部643によって検出された出力信号レベルと、非目的音レベル検出部644によって検出された出力信号レベルとを比較し、目的音方向から目的音が到来しているか否かを判定する。
The level comparison/judgment unit 645 compares the output level of the output signal from the delay sum
遅延和指向性合成部641は目的音方向に指向性を有している。そのため、目的音である発話者の音声は、遅延和指向性合成部641の出力に含まれる。一方、傾度型指向性合成部642は目的音方向に死角を有している。そのため、目的音である発話者の音声は、傾度型指向性合成部642の出力に殆ど含まれない。したがって、目的音方向から目的音が到来している場合、目的音レベル検出部643によって検出される出力信号レベルは大きくなり、非目的音レベル検出部644によって検出される出力信号レベルは小さくなる。レベル比較判定部645は、目的音レベル検出部643によって検出される出力信号レベル(目的音レベル)が非目的音レベル検出部644によって検出される出力信号レベル(非目的音レベル)より大きい場合、目的音方向から目的音が到来していると判定する。
The delay-sum
一方、目的音方向から目的音が到来していない場合、遅延和指向性合成部641及び傾度型指向性合成部642の出力には、周辺ノイズのみが含まれる。したがって、目的音レベル検出部643によって検出される出力信号レベルは、非目的音レベル検出部644によって検出される出力信号レベルとほぼ等しくなるか、非目的音レベル検出部644によって検出される出力信号レベルよりも小さくなる。レベル比較判定部645は、目的音レベル検出部643によって検出される出力信号レベル(目的音レベル)が非目的音レベル検出部644によって検出される出力信号レベル(非目的音レベル)以下である場合、目的音方向から目的音が到来していないと判定する。
On the other hand, when the target sound does not arrive from the target sound direction, the outputs of the delay-sum
実施の形態1では、音声が検出されると目的音が検出されたと判定していたため、目的音方向以外の方向から発話があった場合も目的音が検出されたと判定されてしまい、感度補正が行われる。一方、実施の形態2では、音声が検出され、且つ目的音方向から目的音が到来している場合のみ、目的音が検出されたと判定される。したがって、実施の形態2の収音装置102は、実施の形態1の収音装置101よりも精度良く目的音を用いて感度補正を行うことができる。
In the first embodiment, when a voice is detected, it is determined that the target sound has been detected. Therefore, even if speech is made from a direction other than the direction of the target sound, it is determined that the target sound has been detected, and sensitivity correction is performed. It will be done. On the other hand, in the second embodiment, it is determined that the target sound has been detected only when a voice is detected and the target sound is coming from the direction of the target sound. Therefore, the
続いて、本実施の形態2の変形例における目的音方向判定部の構成について更に説明する。 Next, the configuration of the target sound direction determining section in a modification of the second embodiment will be further described.
図11は、本開示の実施の形態2の変形例における収音装置の目的音方向判定部の構成を示すブロック図である。なお、図11では、説明の都合上、2つのマイクロホン素子11,12からの出力信号が目的音方向判定部64Aに入力される例について説明する。また、図9に示す目的音検出部6は、図9に示す目的音方向判定部64に替えて、図11に示す目的音方向判定部64Aを備える。
FIG. 11 is a block diagram showing the configuration of a target sound direction determining section of a sound collection device in a modification of
目的音方向判定部64Aは、目的音方向推定部(方向推定部)646及び方向判定部647を備える。
The target sound
目的音方向推定部646は、複数のマイクロホン素子の出力信号の位相差を用いて、目的音が到来する方向を推定する。不図示のメモリは、マイクロホン素子11とマイクロホン素子12との間の距離dを予め記憶している。目的音方向推定部646は、マイクロホン素子11とマイクロホン素子12との位相差と、マイクロホン素子11とマイクロホン素子12との間の距離dとに基づき、目的音方向からの音の入射角度θを推定する。
The target sound
方向判定部647は、目的音方向推定部646によって推定された方向が、予め決められた目的音方向であるか否かを判定する。方向判定部647は、目的音方向推定部646によって推定された方向が、予め記憶されている目的音方向を含む所定の範囲に入っている場合、目的音方向から目的音が到来していると判定する。一方、方向判定部647は、目的音方向推定部646によって推定された方向が、予め記憶されている目的音方向を含む所定の範囲に入っていない場合、目的音方向から目的音が到来していないと判定する。例えば、方向判定部647は、目的音方向推定部646によって推定された音の入射角度が、予め記憶されている目的音方向の角度の-5度~+5度の範囲に入っているか否かを判定してもよい。なお、不図示のメモリは、目的音方向の角度を予め記憶している。
The
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 Note that in each of the above embodiments, each component may be configured with dedicated hardware, or may be realized by executing a software program suitable for each component. Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるLSI(Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。 Part or all of the functions of the device according to the embodiments of the present disclosure are typically realized as an LSI (Large Scale Integration), which is an integrated circuit. These may be integrated into one chip individually, or may be integrated into one chip including some or all of them. Further, circuit integration is not limited to LSI, and may be realized using a dedicated circuit or a general-purpose processor. An FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connections and settings of circuit cells inside the LSI may be used.
また、本開示の実施の形態に係る装置の機能の一部又は全てを、CPU等のプロセッサがプログラムを実行することにより実現してもよい。 Further, some or all of the functions of the device according to the embodiment of the present disclosure may be realized by a processor such as a CPU executing a program.
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。 Moreover, all the numbers used above are exemplified to specifically explain the present disclosure, and the present disclosure is not limited to the illustrated numbers.
また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。 Further, the order in which the steps shown in the above flowchart are executed is for illustrative purposes to specifically explain the present disclosure, and an order other than the above may be used as long as the same effect can be obtained. . Further, some of the above steps may be executed simultaneously (in parallel) with other steps.
本開示に係る技術は、指向性合成におけるノイズ抑圧性能を向上させることができるとともに、目的音を高S/N比で収音することができるので、複数のマイクロホン素子を用いて目的音を収音する技術に有用である。 The technology according to the present disclosure can improve the noise suppression performance in directional synthesis and can collect the target sound with a high S/N ratio, so the technology can collect the target sound using multiple microphone elements. Useful for sound technology.
1 マイクロホンアレイ
2 感度補正部
3,6 目的音検出部
4 感度補正制御部
5 指向性合成部
11~1n マイクロホン素子
31 帯域通過フィルタ部
32 音声判定部
44 補正ゲイン算出部
63 帯域通過フィルタ部
64,64A 目的音方向判定部
65 目的音判定部
201 ディスプレイ
202 吹き出し口
321 レベル検出部
322 ノイズレベル検出部
323 比較部
324 時間-周波数変換部
325 音声特徴量抽出部
326 判定部
411~41n 第1~n帯域通過フィルタ部
421~42n 第1~nレベル検出部
431~43n 第1~n平均レベル算出部
641 遅延和指向性合成部
642 傾度型指向性合成部
643 目的音レベル検出部
644 非目的音レベル検出部
645 レベル比較判定部
646 目的音方向推定部
647 方向判定部
1
Claims (14)
前記複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正する感度補正部と、
発話者の音声を目的音として検出する目的音検出部と、
前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、
前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部と、
を備え、
前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音装置。 multiple microphone elements;
a sensitivity correction unit that corrects sensitivity differences between the plurality of microphone elements by multiplying output signals of the plurality of microphone elements by a gain;
a target sound detection unit that detects a speaker's voice as a target sound;
a gain control unit that controls the gain based on the detection result of the target sound detection unit;
a directional synthesis unit that emphasizes and collects the target sound coming from a predetermined direction using the output signals of the plurality of microphone elements corrected by the sensitivity correction unit;
Equipped with
The gain control unit updates the gain based on the output signals of the plurality of microphone elements when the target sound detection unit detects the voice of the speaker, and the gain control unit updates the gain based on the output signals of the plurality of microphone elements, and the target sound detection unit updates the utterance. not updating the gain if the voice of the person is not detected;
Sound collection device.
請求項1記載の収音装置。 The target sound detection unit includes a voice determination unit that determines whether the output signal of one of the plurality of microphone elements is the voice or non-voice other than the voice.
The sound collection device according to claim 1.
前記音声判定部は、前記第1抽出部によって抽出された前記信号に対して前記音声と前記非音声とのいずれであるかを判定する、
請求項2記載の収音装置。 The target sound detection unit includes a first extraction unit that extracts a signal in a specific band from the output signal of the one microphone element,
The voice determination unit determines whether the signal extracted by the first extraction unit is the voice or the non-voice.
The sound collection device according to claim 2.
前記複数のマイクロホン素子の出力信号を用いて、予め決められた目的音方向から前記目的音が到来しているか否かを判定する目的音方向判定部と、
前記目的音方向判定部によって前記目的音方向から前記目的音が到来していると判定され、かつ前記音声判定部によって前記1つのマイクロホン素子の出力信号が前記音声であると判定された場合、前記目的音が検出されたと判定する目的音判定部と、
を含む、
請求項2又は3記載の収音装置。 The target sound detection section includes:
a target sound direction determination unit that determines whether the target sound is coming from a predetermined target sound direction using output signals of the plurality of microphone elements;
When the target sound direction determination unit determines that the target sound is coming from the target sound direction, and the voice determination unit determines that the output signal of the one microphone element is the voice, a target sound determination unit that determines that the target sound has been detected;
including,
The sound collection device according to claim 2 or 3.
前記目的音方向判定部は、前記第2抽出部によって抽出された前記信号に対して前記目的音方向から前記目的音が到来しているか否かを判定する、
請求項4記載の収音装置。 The target sound detection unit includes a second extraction unit that extracts a signal in a specific band from the output signals of the plurality of microphone elements,
The target sound direction determination unit determines whether or not the target sound is coming from the target sound direction with respect to the signal extracted by the second extraction unit.
The sound collection device according to claim 4.
前記複数のマイクロホン素子の出力信号の位相差を用いて、前記目的音が到来する方向を推定する方向推定部と、
前記方向推定部によって推定された前記方向が、予め決められた前記目的音方向であるか否かを判定する方向判定部と、
を含む、
請求項4又は5記載の収音装置。 The target sound direction determination unit includes:
a direction estimation unit that estimates a direction in which the target sound arrives using a phase difference between output signals of the plurality of microphone elements;
a direction determination unit that determines whether the direction estimated by the direction estimation unit is the predetermined target sound direction;
including,
The sound collection device according to claim 4 or 5.
前記複数のマイクロホン素子の出力信号を用いて前記目的音方向の信号を強調することにより前記目的音方向に指向性を形成する第1指向性合成部と、
前記複数のマイクロホン素子の出力信号を用いて前記目的音方向に感度の死角を形成する第2指向性合成部と、
前記第1指向性合成部からの出力信号の出力レベルと、前記第2指向性合成部からの出力信号の出力レベルとを比較し、前記目的音方向から前記目的音が到来しているか否かを判定するレベル比較判定部と、
を含む、
請求項4又は5記載の収音装置。 The target sound direction determination unit includes:
a first directivity synthesis unit that forms directivity in the direction of the target sound by emphasizing a signal in the direction of the target sound using the output signals of the plurality of microphone elements;
a second directivity synthesis unit that uses the output signals of the plurality of microphone elements to form a blind spot of sensitivity in the direction of the target sound;
Comparing the output level of the output signal from the first directional synthesis section and the output level of the output signal from the second directional synthesis section, and determining whether or not the target sound is coming from the direction of the target sound. a level comparison determination unit that determines the
including,
The sound collection device according to claim 4 or 5.
前記複数のマイクロホン素子それぞれの出力信号の出力レベルを検出するレベル検出部と、
前記目的音検出部によって前記発話者の前記音声が検出された場合に、前記レベル検出部によって検出された各出力レベルの時間平均レベルを算出する時間平均レベル算出部と、
前記時間平均レベル算出部によって算出された前記時間平均レベルから、前記ゲインを更新した補正ゲインを算出する補正ゲイン算出部と、
を含む、
請求項1~7のいずれか1項に記載の収音装置。 The gain control section includes:
a level detection unit that detects the output level of the output signal of each of the plurality of microphone elements;
a time average level calculation unit that calculates a time average level of each output level detected by the level detection unit when the voice of the speaker is detected by the target sound detection unit;
a correction gain calculation unit that calculates a correction gain that updates the gain from the time average level calculated by the time average level calculation unit;
including,
The sound collection device according to any one of claims 1 to 7.
請求項8記載の収音装置。 The correction gain calculation unit calculates, based on the time average level of one microphone element predetermined among the plurality of microphone elements, the time average level of other microphone elements other than the one microphone element. calculating the correction gain of the other microphone element so that it is the same as the time average level of the one microphone element;
The sound collection device according to claim 8.
請求項8記載の収音装置。 The correction gain calculation unit is configured to calculate the time average level of the plurality of microphone elements such that the time average level of the plurality of microphone elements is equal to or less than the at least one microphone element based on the average value of the time average level of at least two predetermined microphone elements among the plurality of microphone elements. calculating the correction gain of the plurality of microphone elements so that it is the same as the average value of the time average level of two microphone elements;
The sound collection device according to claim 8.
前記レベル検出部は、前記第3抽出部によって抽出された各信号の出力レベルを検出する、
請求項8~10のいずれか1項に記載の収音装置。 The gain control section includes a third extraction section that extracts a signal in a specific band from the output signal of each of the plurality of microphone elements,
The level detection section detects the output level of each signal extracted by the third extraction section.
The sound collection device according to any one of claims 8 to 10.
請求項11記載の収音装置。 The specific band is a band from 200Hz to 500Hz,
The sound collection device according to claim 11.
複数のマイクロホン素子の出力信号にゲインを掛けることにより前記複数のマイクロホン素子間の感度差を補正し、
発話者の音声を目的音として検出し、
前記目的音の検出結果に基づいて前記ゲインを制御し、
補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音し、
前記ゲインの制御において、前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音方法。 The computer is
correcting sensitivity differences between the plurality of microphone elements by multiplying output signals of the plurality of microphone elements by a gain;
Detects the speaker's voice as the target sound,
controlling the gain based on the detection result of the target sound;
Emphasizing and collecting the target sound coming from a predetermined direction using the corrected output signals of the plurality of microphone elements;
In controlling the gain, when the voice of the speaker is detected, the gain is updated based on the output signals of the plurality of microphone elements, and when the voice of the speaker is not detected, the gain is updated. do not update,
Sound collection method.
発話者の音声を目的音として検出する目的音検出部と、
前記目的音検出部の検出結果に基づいて前記ゲインを制御するゲイン制御部と、
前記感度補正部によって補正された前記複数のマイクロホン素子の前記出力信号を用いて、所定の方向から到来する前記目的音を強調して収音する指向性合成部としてコンピュータを機能させ、
前記ゲイン制御部は、前記目的音検出部によって前記発話者の前記音声が検出された場合、前記複数のマイクロホン素子の前記出力信号に基づいて前記ゲインを更新し、前記目的音検出部によって前記発話者の前記音声が検出されない場合、前記ゲインを更新しない、
収音プログラム。 a sensitivity correction unit that corrects sensitivity differences between the plurality of microphone elements by multiplying output signals of the plurality of microphone elements by a gain;
a target sound detection unit that detects a speaker's voice as a target sound;
a gain control unit that controls the gain based on the detection result of the target sound detection unit;
Using the output signals of the plurality of microphone elements corrected by the sensitivity correction unit, the computer functions as a directional synthesis unit that emphasizes and collects the target sound coming from a predetermined direction;
The gain control unit updates the gain based on the output signals of the plurality of microphone elements when the target sound detection unit detects the voice of the speaker, and the gain control unit updates the gain based on the output signals of the plurality of microphone elements, and the target sound detection unit updates the utterance. not updating the gain if the voice of the person is not detected;
Sound recording program.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20205883.0A EP3823315B1 (en) | 2019-11-18 | 2020-11-05 | Sound pickup device, sound pickup method, and sound pickup program |
CN202011268693.4A CN112822578A (en) | 2019-11-18 | 2020-11-13 | Sound reception device, sound reception method, and storage medium storing sound reception program |
US17/098,753 US11900920B2 (en) | 2019-11-18 | 2020-11-16 | Sound pickup device, sound pickup method, and non-transitory computer readable recording medium storing sound pickup program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962936787P | 2019-11-18 | 2019-11-18 | |
US62/936,787 | 2019-11-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021081696A JP2021081696A (en) | 2021-05-27 |
JP7435948B2 true JP7435948B2 (en) | 2024-02-21 |
Family
ID=75965082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020043913A Active JP7435948B2 (en) | 2019-11-18 | 2020-03-13 | Sound collection device, sound collection method and sound collection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7435948B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006058395A (en) | 2004-08-17 | 2006-03-02 | Spectra:Kk | Sound signal input/output device |
JP2010232717A (en) | 2009-03-25 | 2010-10-14 | Toshiba Corp | Pickup signal processing apparatus, method, and program |
JP2011030022A (en) | 2009-07-27 | 2011-02-10 | Canon Inc | Noise determination device, voice recording device, and method for controlling noise determination device |
JP2012027101A (en) | 2010-07-20 | 2012-02-09 | Sharp Corp | Sound playback apparatus, sound playback method, program, and recording medium |
JP2012048119A (en) | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor |
-
2020
- 2020-03-13 JP JP2020043913A patent/JP7435948B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006058395A (en) | 2004-08-17 | 2006-03-02 | Spectra:Kk | Sound signal input/output device |
JP2010232717A (en) | 2009-03-25 | 2010-10-14 | Toshiba Corp | Pickup signal processing apparatus, method, and program |
JP2011030022A (en) | 2009-07-27 | 2011-02-10 | Canon Inc | Noise determination device, voice recording device, and method for controlling noise determination device |
JP2012027101A (en) | 2010-07-20 | 2012-02-09 | Sharp Corp | Sound playback apparatus, sound playback method, program, and recording medium |
JP2012048119A (en) | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor |
Also Published As
Publication number | Publication date |
---|---|
JP2021081696A (en) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5197458B2 (en) | Received signal processing apparatus, method and program | |
US8194882B2 (en) | System and method for providing single microphone noise suppression fallback | |
US9959886B2 (en) | Spectral comb voice activity detection | |
EP3823315B1 (en) | Sound pickup device, sound pickup method, and sound pickup program | |
CN110140360B (en) | Method and apparatus for audio capture using beamforming | |
EP3566462B1 (en) | Audio capture using beamforming | |
US20050207583A1 (en) | Audio enhancement system and method | |
US20070088544A1 (en) | Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset | |
US20110051953A1 (en) | Calibrating multiple microphones | |
JP2008512888A (en) | Telephone device with improved noise suppression | |
US8639499B2 (en) | Formant aided noise cancellation using multiple microphones | |
JP2011033717A (en) | Noise suppression device | |
JP2018132737A (en) | Sound pick-up device, program and method, and determining apparatus, program and method | |
KR20090037845A (en) | Method and apparatus for extracting the target sound signal from the mixed sound | |
WO2013132342A2 (en) | Voice signal enhancement | |
JP7435948B2 (en) | Sound collection device, sound collection method and sound collection program | |
JP2004078021A (en) | Method, device, and program for sound pickup | |
CN114930450A (en) | Method and apparatus for wind noise attenuation | |
KR101203926B1 (en) | Noise direction detection method using multi beamformer | |
EP3566228B1 (en) | Audio capture using beamforming | |
JP5180139B2 (en) | Voice detection device | |
JP2005258215A (en) | Signal processing method and signal processing device | |
JP2018170718A (en) | Sound collecting device, program, and method | |
JP4950971B2 (en) | Reverberation removal apparatus, dereverberation method, dereverberation program, recording medium | |
HIOKA et al. | DOA ESTIMATION OF SPEECH SIGNAL WITH A SMALL NUMBER OF MICROPHONE ARRAY IN REAL ACOUSTICAL ENVIRONMENT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7435948 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |