JP5958218B2 - Noise reduction device, voice input device, wireless communication device, and noise reduction method - Google Patents

Noise reduction device, voice input device, wireless communication device, and noise reduction method Download PDF

Info

Publication number
JP5958218B2
JP5958218B2 JP2012202715A JP2012202715A JP5958218B2 JP 5958218 B2 JP5958218 B2 JP 5958218B2 JP 2012202715 A JP2012202715 A JP 2012202715A JP 2012202715 A JP2012202715 A JP 2012202715A JP 5958218 B2 JP5958218 B2 JP 5958218B2
Authority
JP
Japan
Prior art keywords
sound
signal
voice
collected
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012202715A
Other languages
Japanese (ja)
Other versions
JP2013078117A (en
Inventor
孝朗 山邊
孝朗 山邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2012202715A priority Critical patent/JP5958218B2/en
Publication of JP2013078117A publication Critical patent/JP2013078117A/en
Application granted granted Critical
Publication of JP5958218B2 publication Critical patent/JP5958218B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

本発明はノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法に関する。   The present invention relates to a noise reduction device, a voice input device, a wireless communication device, and a noise reduction method.

音声信号に含まれるノイズ成分を低減して音声を聞き取りやすくするノイズキャンセル機能(ノイズ低減装置)がある。   There is a noise cancellation function (noise reduction device) that reduces the noise component contained in the audio signal and makes it easier to hear the audio.

ノイズキャンセル機能では、例えば、音声を主に収音するマイクロフォンによって収音された音声信号から、ノイズを主に収音するマイクロフォンによって収音されたノイズ信号を差し引くことで、音声信号に含まれるノイズ成分を除去することができる。   In the noise cancellation function, for example, the noise included in the audio signal is subtracted from the audio signal collected by the microphone that mainly collects sound from the audio signal collected by the microphone that mainly collects noise. Components can be removed.

特許文献1には、低減対象ではない音声成分がノイズ成分に混入する場合であっても、音声成分自体の低減を防止することができるノイズ低減装置に関する技術が開示されている。特許文献2には、ノイズ源の位置に関係なく大きなSN比の改善効果が得られるマイクロフォンシステムに関する技術が開示されている。また、特許文献3には、複数の環境において、マイクロフォンから入力される音声信号のノイズを好適に減じることができる音声処理装置に関する技術が開示されている。   Patent Document 1 discloses a technology relating to a noise reduction device that can prevent a reduction in sound component itself even when a sound component that is not a reduction target is mixed in the noise component. Patent Document 2 discloses a technique related to a microphone system capable of obtaining a large S / N ratio improvement effect regardless of the position of a noise source. Patent Document 3 discloses a technique related to a sound processing apparatus that can suitably reduce noise of a sound signal input from a microphone in a plurality of environments.

特開平6−67693号公報JP-A-6-67693 特開2000−305594号公報JP 2000-305594 A 特開2010−232862号公報JP 2010-2322862 A

特許文献1乃至3に開示されている技術では、周囲のノイズレベルが高い場合、音声信号に含まれるノイズ成分を適切に低減することができないという問題があった。また、音声を送受信するための無線通信装置では、ノイズが多い環境など様々な環境下において通話の品質を確保することが求められている。   The techniques disclosed in Patent Documents 1 to 3 have a problem that noise components included in an audio signal cannot be appropriately reduced when the ambient noise level is high. In addition, a wireless communication apparatus for transmitting and receiving voice is required to ensure call quality in various environments such as a noisy environment.

上記課題に鑑み本発明の目的は、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することである。   In view of the above problems, an object of the present invention is to provide a noise reduction device, a voice input device, a wireless communication device, and a noise reduction method that can appropriately reduce noise components contained in a voice signal even under various environments. That is.

本発明にかかるノイズ低減装置は、第1および第2のマイクロフォンの少なくとも一方で収音された音声に基づき音声区間を判定する音声区間判定器と、前記第1のマイクロフォンで収音された音に応じた第1の収音信号と前記第2のマイクロフォンで収音された音に応じた第2の収音信号とに基づき、前記音声の到来方向を検知する音声方向検知器と、前記音声区間判定器から出力された音声区間情報および前記音声方向検知器から出力された音声方向情報に基づき、前記第1の収音信号と前記第2の収音信号とを用いてノイズ低減処理を実施する適応フィルタと、を備え、前記音声方向検知器は、前記音声区間判定器が音声区間と判定した場合に、前記音声の到来方向を検知する。   The noise reduction device according to the present invention includes a voice section determination unit that determines a voice section based on voice collected by at least one of the first and second microphones, and a sound collected by the first microphone. A voice direction detector that detects a direction of arrival of the voice based on a first collected sound signal corresponding to the second collected sound signal corresponding to a sound collected by the second microphone, and the voice section Based on the voice section information output from the determiner and the voice direction information output from the voice direction detector, noise reduction processing is performed using the first sound pickup signal and the second sound pickup signal. An audio filter, and the voice direction detector detects the direction of arrival of the voice when the voice segment determiner determines that the voice segment is a voice segment.

前記音声方向検知器は、前記第1の収音信号と前記第2の収音信号の位相差に基づき前記音声の到来方向を検知してもよい。   The voice direction detector may detect the direction of arrival of the voice based on a phase difference between the first sound pickup signal and the second sound pickup signal.

前記適応フィルタは、前記第1の収音信号と前記第2の収音信号とのうち、より位相が早いいずれか一方の収音信号に含まれるノイズ成分を他方の収音信号を用いて低減してもよい。   The adaptive filter uses the other collected sound signal to reduce a noise component included in one of the first collected sound signal and the second collected sound signal that has an earlier phase. May be.

前記第1の収音信号の位相と前記第2の収音信号の位相の位相差が所定の範囲内である場合、前記適応フィルタはノイズ低減処理を実施することなく前記第1の収音信号または前記第2の収音信号を出力してもよい。   When the phase difference between the phase of the first sound pickup signal and the phase of the second sound pickup signal is within a predetermined range, the adaptive filter does not perform noise reduction processing and the first sound pickup signal Alternatively, the second sound collection signal may be output.

前記音声方向検知器は、前記第1の収音信号の大きさと前記第2の収音信号の大きさに基づき前記音声の到来方向を検知してもよい。   The voice direction detector may detect the direction of arrival of the voice based on the magnitude of the first collected sound signal and the magnitude of the second collected sound signal.

前記第1の収音信号の大きさが前記第2の収音信号の大きさよりも大きい場合、前記適応フィルタは、前記第1の収音信号と前記第2の収音信号とのうち、より大きさの大きいいずれか一方の収音信号に含まれるノイズ成分を他方の収音信号を用いて低減してもよい。   When the magnitude of the first collected sound signal is larger than the magnitude of the second collected sound signal, the adaptive filter is more preferably selected from the first collected sound signal and the second collected sound signal. You may reduce the noise component contained in any one of the large sound collection signals using the other sound collection signal.

前記第1の収音信号の大きさと前記第2の収音信号の大きさの差であるパワー差が所定の範囲内である場合、前記適応フィルタはノイズ低減処理を実施することなく前記第1の収音信号または前記第2の収音信号を出力してもよい。   If the power difference, which is the difference between the magnitude of the first collected signal and the magnitude of the second collected signal, is within a predetermined range, the adaptive filter does not perform the noise reduction process. Or the second sound collection signal may be output.

前記音声方向検知器は、前記第1の収音信号と前記第2の収音信号の位相差、並びに前記第1の収音信号の大きさおよび前記第2の収音信号の大きさに基づき、前記音声の到来方向を検知してもよい。   The sound direction detector is based on a phase difference between the first sound collection signal and the second sound collection signal, and a magnitude of the first sound collection signal and a magnitude of the second sound collection signal. The direction of arrival of the voice may be detected.

前記第1の収音信号の位相が前記第2の収音信号の位相よりも早い場合、前記音声区間判定器は、前記第1の収音信号に基づき音声区間を判定してもよく、前記第2の収音信号の位相が前記第1の収音信号の位相よりも早い場合、前記音声区間判定器は、前記第2の収音信号に基づき音声区間を判定してもよい。   When the phase of the first sound collection signal is earlier than the phase of the second sound collection signal, the speech segment determination unit may determine a speech segment based on the first sound collection signal, When the phase of the second sound collection signal is earlier than the phase of the first sound collection signal, the speech segment determination unit may determine a speech segment based on the second sound collection signal.

前記音声方向検知器には、前記第1および第2の収音信号としてサンプリング周波数が24kHz以上の信号が供給されてもよく、前記適応フィルタには、前記第1および第2の収音信号としてサンプリング周波数が12kHz以下の信号が供給されてもよい。   The voice direction detector may be supplied with a signal having a sampling frequency of 24 kHz or more as the first and second sound pickup signals, and the adaptive filter may be supplied with the first and second sound pickup signals. A signal having a sampling frequency of 12 kHz or less may be supplied.

前記音声区間判定器は、前記適応フィルタに出力される音声区間判定情報よりも更に高い確率で音声区間であると判定された音声区間判定情報を前記音声方向検知器に出力してもよい。   The speech segment determination device may output speech segment determination information determined to be a speech segment with a higher probability than the speech segment determination information output to the adaptive filter to the speech direction detector.

本発明にかかるノイズ低減装置を備えた音声入力装置において、前記第1のマイクロフォンは前記音声入力装置の第1の面に設けられていてもよく、前記第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられていてもよい。   In the voice input device provided with the noise reduction device according to the present invention, the first microphone may be provided on a first surface of the voice input device, and the second microphone may be provided on the first surface. And a second surface facing each other with a predetermined distance.

本発明にかかるノイズ低減装置を備えた無線通信装置において、前記第1のマイクロフォンは前記無線通信装置の第1の面に設けられていてもよく、前記第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられていてもよい。   In the wireless communication device including the noise reduction device according to the present invention, the first microphone may be provided on a first surface of the wireless communication device, and the second microphone is connected to the first surface. And a second surface facing each other with a predetermined distance.

本発明にかかるノイズ低減方法は、第1および第2のマイクロフォンの少なくとも一方で収音された音声に基づき音声区間を判定し、音声区間であると判定された場合に、前記第1のマイクロフォンで収音された音に応じた第1の収音信号と前記第2のマイクロフォンで収音された音に応じた第2の収音信号とに基づき前記音声の到来方向を検知し、前記音声区間の判定結果である音声区間情報および前記音声の到来方向を示す音声方向情報に基づきノイズ低減処理を実施する。   The noise reduction method according to the present invention determines a voice section based on voice collected by at least one of the first and second microphones, and determines that the voice section is a voice section, the first microphone uses the first microphone. Detecting the direction of arrival of the voice based on a first collected signal corresponding to the collected sound and a second collected signal corresponding to the sound collected by the second microphone; The noise reduction processing is performed based on the speech section information that is the determination result of the above and the speech direction information indicating the arrival direction of the speech.

本発明により、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。   According to the present invention, it is possible to provide a noise reduction device, a voice input device, a wireless communication device, and a noise reduction method that can appropriately reduce noise components included in a voice signal even under various environments.

実施の形態1にかかるノイズ低減装置を示すブロック図である。It is a block diagram which shows the noise reduction apparatus concerning Embodiment 1. FIG. 実施の形態1にかかるノイズ低減装置が備える音声区間判定器の一例を示すブロック図である。It is a block diagram which shows an example of the audio | voice area determination device with which the noise reduction apparatus concerning Embodiment 1 is provided. 実施の形態1にかかるノイズ低減装置が備える音声区間判定器の他の例を示すブロック図である。It is a block diagram which shows the other example of the audio | voice area determination device with which the noise reduction apparatus concerning Embodiment 1 is provided. 実施の形態1にかかるノイズ低減装置が備える音声方向検知器の一例を示すブロック図である。It is a block diagram which shows an example of the audio | voice direction detector with which the noise reduction apparatus concerning Embodiment 1 is provided. 実施の形態1にかかるノイズ低減装置が備える音声方向検知器の他の例を示すブロック図である。It is a block diagram which shows the other example of the audio | voice direction detector with which the noise reduction apparatus concerning Embodiment 1 is provided. 実施の形態1にかかるノイズ低減装置が備える適応フィルタの一例を示すブロック図である。It is a block diagram which shows an example of the adaptive filter with which the noise reduction apparatus concerning Embodiment 1 is provided. 実施の形態1にかかるノイズ低減装置の動作を説明するためのフローチャートである。3 is a flowchart for explaining an operation of the noise reduction apparatus according to the first exemplary embodiment; 実施の形態1にかかるノイズ低減装置の他の例を示すブロック図である。It is a block diagram which shows the other example of the noise reduction apparatus concerning Embodiment 1. FIG. 実施の形態1にかかるノイズ低減装置を用いた音声入力装置の一例を示す図である。It is a figure which shows an example of the audio | voice input apparatus using the noise reduction apparatus concerning Embodiment 1. FIG. 実施の形態1にかかるノイズ低減装置を用いた無線通信装置の一例を示す図である。1 is a diagram illustrating an example of a wireless communication device using a noise reduction device according to a first exemplary embodiment; 実施の形態2にかかるノイズ低減装置を示すブロック図である。It is a block diagram which shows the noise reduction apparatus concerning Embodiment 2. 実施の形態2にかかるノイズ低減装置が備える信号決定部の一例を示すブロック図である。It is a block diagram which shows an example of the signal determination part with which the noise reduction apparatus concerning Embodiment 2 is provided. 実施の形態2にかかるノイズ低減装置が備える信号決定部の動作を説明するためのフローチャートである。10 is a flowchart for explaining an operation of a signal determination unit provided in the noise reduction device according to the second exemplary embodiment; 実施の形態2にかかるノイズ低減装置が備える信号決定部の動作を説明するためのフローチャートである。10 is a flowchart for explaining an operation of a signal determination unit provided in the noise reduction device according to the second exemplary embodiment; 実施の形態2にかかるノイズ低減装置が備える適応フィルタの一例を示すブロック図である。It is a block diagram which shows an example of the adaptive filter with which the noise reduction apparatus concerning Embodiment 2 is provided. 実施の形態2にかかるノイズ低減装置の動作を説明するためのフローチャートである。10 is a flowchart for explaining the operation of the noise reduction apparatus according to the second exemplary embodiment; 実施の形態3にかかるノイズ低減装置を示すブロック図である。FIG. 6 is a block diagram illustrating a noise reduction device according to a third exemplary embodiment. 実施の形態3にかかるノイズ低減装置の動作を説明するためのフローチャートである。10 is a flowchart for explaining the operation of the noise reduction apparatus according to the third exemplary embodiment; 実施の形態4にかかる音声入力装置を示す図である。FIG. 6 is a diagram illustrating a voice input device according to a fourth embodiment. 実施の形態4にかかる音声入力装置の裏面に設けられた参照音用マイクロフォンの位置を説明するための図である。FIG. 10 is a diagram for explaining a position of a reference sound microphone provided on the back surface of the voice input device according to the fourth exemplary embodiment; 実施の形態4にかかる無線通信装置を示す図である。FIG. 6 illustrates a wireless communication apparatus according to a fourth embodiment.

<実施の形態1>
以下、図面を参照して本発明の実施の形態について説明する。
図1は、実施の形態1にかかるノイズ低減装置を示すブロック図である。図1に示すノイズ低減装置1は、音声用マイクロフォン11、参照音用マイクロフォン12、ADコンバータ13、14、音声区間判定器15、音声方向検知器16、適応フィルタ制御部17、および適応フィルタ18を有する。
<Embodiment 1>
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram of the noise reduction apparatus according to the first embodiment. The noise reduction apparatus 1 shown in FIG. 1 includes an audio microphone 11, a reference sound microphone 12, AD converters 13 and 14, an audio section determination unit 15, an audio direction detector 16, an adaptive filter control unit 17, and an adaptive filter 18. Have.

音声用マイクロフォン11および参照音用マイクロフォン12はそれぞれ、音声成分やノイズ成分を含む音を収音することができる。音声用マイクロフォン11は、主に音声成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ13に出力する。参照音用マイクロフォン12は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ14に出力する。例えば、参照音用マイクロフォン12で収音された音に含まれるノイズ成分は、音声用マイクロフォン11で収音された音に含まれるノイズ成分を低減するために用いられる。   Each of the sound microphone 11 and the reference sound microphone 12 can collect a sound including a sound component and a noise component. The sound microphone 11 picks up a sound mainly containing a sound component, converts it into an analog signal, and outputs the converted analog signal to the AD converter 13. The reference sound microphone 12 collects a sound mainly including a noise component, converts it into an analog signal, and outputs the converted analog signal to the AD converter 14. For example, the noise component included in the sound collected by the reference sound microphone 12 is used to reduce the noise component contained in the sound collected by the sound microphone 11.

なお、本実施の形態にかかるノイズ低減装置では、マイクロフォンが2つの場合(つまり、音声用マイクロフォン11と参照音用マイクロフォン12)の構成について説明するが、例えば参照音用マイクロフォンを更に追加してマイクロフォンを3つ以上設けてもよい。   In the noise reduction device according to the present embodiment, the configuration in the case of two microphones (that is, the voice microphone 11 and the reference sound microphone 12) will be described. For example, a reference sound microphone is further added to the microphone. Three or more may be provided.

ADコンバータ13は、音声用マイクロフォン11から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号21を生成する。ADコンバータ13で生成された収音信号21は、音声区間判定器15、音声方向検知器16、および適応フィルタ18に出力される。   The AD converter 13 samples the analog signal output from the audio microphone 11 at a predetermined sampling rate and converts it into a digital signal, and generates a sound pickup signal 21. The collected sound signal 21 generated by the AD converter 13 is output to the speech section determiner 15, the speech direction detector 16, and the adaptive filter 18.

ADコンバータ14は、参照音用マイクロフォン12から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号22を生成する。ADコンバータ14で生成された収音信号22は、音声方向検知器16および適応フィルタ18に出力される。   The AD converter 14 samples the analog signal output from the reference sound microphone 12 at a predetermined sampling rate, converts the analog signal into a digital signal, and generates a sound collection signal 22. The collected sound signal 22 generated by the AD converter 14 is output to the sound direction detector 16 and the adaptive filter 18.

本実施の形態において、音声用マイクロフォン11および参照音用マイクロフォン12に入力される音声の周波数帯域の例は、おおよそ100Hzから4000Hz程度である。よって、ADコンバータ13、14におけるサンプリング周波数を8kHz〜12kHz程度とすることで、音声成分を含むアナログ信号をデジタル信号として取り扱うことができる。
なお、本明細書では、主に音声成分を含む収音信号を音声信号とも記載し、主にノイズ成分を含む収音信号を参照信号とも記載する。
In the present embodiment, an example of the frequency band of sound input to the sound microphone 11 and the reference sound microphone 12 is approximately 100 Hz to 4000 Hz. Therefore, by setting the sampling frequency in the AD converters 13 and 14 to about 8 kHz to 12 kHz, an analog signal including an audio component can be handled as a digital signal.
In the present specification, a sound collection signal mainly including a sound component is also referred to as a sound signal, and a sound collection signal mainly including a noise component is also referred to as a reference signal.

音声区間判定器15は、ADコンバータ13から出力された収音信号21に基づき音声区間を判定する。そして、音声区間判定器15は、音声区間と判定した場合、音声方向検知器16および適応フィルタ制御部17に音声区間情報23、24をそれぞれ出力する。   The voice segment determination unit 15 determines a voice segment based on the sound collection signal 21 output from the AD converter 13. Then, when the speech segment determination unit 15 determines that the speech segment is a speech segment, it outputs the speech segment information 23 and 24 to the speech direction detector 16 and the adaptive filter control unit 17, respectively.

音声区間判定器15における音声区間判定処理には任意の技術を用いることができる。しかし、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間を判定する必要がある。この場合、例えば特願2010−260798に記載されている技術(以下、音声区間判定技術Aという)や、特願2011−020459に記載されている技術(以下、音声区間判定技術Bという)を用いることで、音声区間を高い精度で判定することができる。音声には人の声以外の音も含まれるが、この例では、主に人の声を検出する。   An arbitrary technique can be used for the speech segment determination processing in the speech segment determiner 15. However, when the noise reduction device is used in an environment where the noise level is high, it is necessary to determine the speech section with high accuracy. In this case, for example, the technique described in Japanese Patent Application No. 2010-260798 (hereinafter referred to as voice section determination technique A) or the technique described in Japanese Patent Application No. 2011-020659 (hereinafter referred to as voice section determination technique B) is used. Thus, it is possible to determine the voice section with high accuracy. The sound includes sounds other than human voices, but in this example, human voices are mainly detected.

音声区間判定技術Aでは、音声の主要部分である母音成分の持つ周波数スペクトルに着目し、音声区間を判定している。音声区間判定技術Aでは、適切なノイズレベルを帯域毎に設定し、母音周波数成分のピークとの信号対ノイズレベル比を求め、信号対ノイズレベル比が所定のレベル比かつ所定のピーク数であるか否かを観察することで、音声区間を判定している。   In the speech section determination technique A, the speech section is determined by paying attention to the frequency spectrum of the vowel component that is the main part of the speech. In the speech section determination technique A, an appropriate noise level is set for each band, a signal-to-noise level ratio with a peak of the vowel frequency component is obtained, and the signal-to-noise level ratio is a predetermined level ratio and a predetermined number of peaks. The voice section is determined by observing whether or not.

図2は、音声区間判定技術Aを用いた音声区間判定器15'の一例を示すブロック図である。図2に示す音声区間判定器15'は、フレーム化部31、スペクトル生成部32、帯域分割部33、周波数平均部34、保持部35、時間平均部36、ピーク検出部37、および音声判定部38を備える。   FIG. 2 is a block diagram illustrating an example of a speech segment determination unit 15 ′ using the speech segment determination technique A. 2 includes a framing unit 31, a spectrum generating unit 32, a band dividing unit 33, a frequency averaging unit 34, a holding unit 35, a time averaging unit 36, a peak detecting unit 37, and a voice determining unit. 38.

フレーム化部31は、収音信号21を予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、フレーム化入力信号と称す)を生成する。   The framing unit 31 sequentially cuts the sound pickup signal 21 in frame units (predetermined number of samples) having a predetermined time width, and generates an input signal in frame units (hereinafter referred to as a framed input signal).

スペクトル生成部32は、フレーム化部31から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine
Transform)等の直交変換法を用いるとよい。本実施の形態において、スペクトル生成部32は、少なくとも200Hzから700Hzのスペクトルパターンを生成する。
The spectrum generation unit 32 performs frequency analysis of the framing input signal output from the framing unit 31, converts the time-domain framing input signal into the frequency-domain framing input signal, and collects the spectrum. Is generated. The spectrum pattern is a collection of spectra for each frequency in which a frequency and energy at the frequency are associated with each other over a predetermined frequency band. The frequency transform method used here is not limited to a specific means, but requires a frequency resolution necessary for recognizing the spectrum of speech, and therefore has a relatively high resolution such as FFT (Fast Fourier Transform) or DCT (Discrete). Cosine
It is recommended to use an orthogonal transformation method such as Transform. In the present embodiment, the spectrum generation unit 32 generates a spectrum pattern of at least 200 Hz to 700 Hz.

後述する音声判定部38が音声区間を判定する際に検出する対象である、音声の特徴を示すスペクトル(以下、フォルマントと称す)には、通常、基音に相当する第1フォルマントから、その倍音部分である第nフォルマント(nは自然数)まで複数ある。このうち、第1フォルマントや第2フォルマントは200Hz未満の周波数帯域に存在することが多い。しかし、この帯域には、低域ノイズ成分が比較的高いエネルギーで含まれているため、フォルマントが埋没し易い。また700Hz以上のフォルマントは、フォルマント自体のエネルギーが低いため、やはりノイズ成分に埋没し易い。そのため、ノイズ成分に埋没し難い200Hzから700Hzのスペクトルパターンを音声区間の判定に用いることで、判定対象を絞り、効率的に音声区間の判定を行うことができる。   A spectrum (hereinafter referred to as a formant) that indicates a feature of a voice, which is a target to be detected when a voice determination unit 38 to be described later determines a voice section, usually includes a harmonic part from a first formant corresponding to a fundamental tone. There are a plurality of nth formants (where n is a natural number). Of these, the first formant and the second formant often exist in a frequency band of less than 200 Hz. However, since this band contains a low-frequency noise component with relatively high energy, formants are easily buried. Also, a formant of 700 Hz or more is easily buried in a noise component because the formant itself has low energy. Therefore, by using a spectrum pattern of 200 Hz to 700 Hz that is difficult to be buried in the noise component for the determination of the voice section, the determination target can be narrowed down and the voice section can be determined efficiently.

帯域分割部33は、適切な周波数帯域単位で音声に特徴的なスペクトルを検出するため、スペクトルパターンの各スペクトルを、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域に分割する。本実施の形態において、予め定められた帯域幅は、100Hzから150Hz程度の帯域幅とする。   In order to detect a spectrum characteristic of speech in an appropriate frequency band unit, the band dividing unit 33 divides each spectrum of the spectrum pattern into a plurality of divided frequency bands that are frequency bands divided by a predetermined bandwidth. To divide. In the present embodiment, the predetermined bandwidth is about 100 Hz to 150 Hz.

周波数平均部34は、分割周波数帯域毎の平均エネルギーを求める。本実施の形態では、周波数平均部34は、分割周波数帯域毎に、分割周波数帯域におけるすべてのスペクトルのエネルギーを平均するが、演算負荷軽減のためスペクトルのエネルギーの代わりにスペクトルの最大または平均振幅値(絶対値)を代用してもよい。   The frequency averaging unit 34 calculates average energy for each divided frequency band. In the present embodiment, the frequency averaging unit 34 averages the energy of all spectra in the divided frequency band for each divided frequency band. However, the maximum or average amplitude value of the spectrum is used instead of the spectrum energy in order to reduce the calculation load. (Absolute value) may be substituted.

保持部35は、RAM(Random Access Memory)、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ等の記憶媒体で構成され、帯域毎の平均エネルギーを過去の予め定められた数(本実施の形態においてはNとする)のフレーム分保持する。   The holding unit 35 is configured by a storage medium such as a RAM (Random Access Memory), an EEPROM (Electrically Erasable and Programmable Read Only Memory), and a flash memory, and the average energy for each band is set to a predetermined number in the past (this embodiment). N frames in the form) are held.

時間平均部36は、分割周波数帯域毎に、周波数平均部34で導出された平均エネルギーの時間方向の複数のフレームに渡る平均である帯域別エネルギーを導出する。すなわち、帯域別エネルギーは、分割周波数帯域毎の平均エネルギーの時間方向の複数のフレームに渡る平均値である。また、時間平均部36は、直前のフレームの分割周波数帯域毎の平均エネルギーに、重み付け係数と時定数を用いて平均化に準じる処理をして、帯域別エネルギーの代用値を求めてもよい。   The time averaging unit 36 derives, for each divided frequency band, band-specific energy that is an average over a plurality of frames in the time direction of the average energy derived by the frequency averaging unit 34. That is, the band-specific energy is an average value over a plurality of frames in the time direction of the average energy for each divided frequency band. In addition, the time averaging unit 36 may obtain a substitute value of the band-specific energy by performing a process according to averaging using the weighting coefficient and the time constant on the average energy for each divided frequency band of the immediately preceding frame.

ピーク検出部37は、スペクトルパターンの各スペクトルと、そのスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比(SNR:Signal to Noise ratio)を導出する。そして、ピーク検出部37は、スペクトル毎のSNRと、予め定められた第1閾値とを比較し、第1閾値を超えるか否かを判定する。SNRが第1閾値を超えるスペクトルがあると、このスペクトルをフォルマントとみなし、フォルマントが検出された旨を示す情報を、音声判定部38に出力する。   The peak detector 37 derives an energy ratio (SNR: Signal to Noise ratio) between each spectrum of the spectrum pattern and the band-specific energy in the divided frequency band in which the spectrum is included. Then, the peak detection unit 37 compares the SNR for each spectrum with a predetermined first threshold value, and determines whether or not the first threshold value is exceeded. If there is a spectrum whose SNR exceeds the first threshold value, this spectrum is regarded as a formant, and information indicating that a formant has been detected is output to the voice determination unit 38.

音声判定部38は、フォルマントが検出されたという情報をピーク検出部37から受け付けると、ピーク検出部37の判定結果に基づいて、該当フレームのフレーム化入力信号が音声であるか否か判定する。音声判定部38は、フレーム化入力信号が音声であると判定した場合、音声方向検知器16および適応フィルタ制御部17に音声区間情報23、24をそれぞれ出力する。   When receiving information from the peak detection unit 37 that the formant has been detected, the audio determination unit 38 determines whether the framed input signal of the corresponding frame is audio based on the determination result of the peak detection unit 37. When the speech determination unit 38 determines that the framed input signal is speech, the speech determination unit 38 outputs speech segment information 23 and 24 to the speech direction detector 16 and the adaptive filter control unit 17, respectively.

図2に示す音声区間判定器15'は、分割周波数帯域毎に、その分割周波数帯域の帯域別エネルギーを設定している。そのため、音声判定部38は、他の分割周波数帯域のノイズ成分の影響を受けずに、それぞれの分割周波数帯域毎にフォルマントの有無を精度よく判定することができる。   The speech section determination unit 15 ′ illustrated in FIG. 2 sets energy for each divided frequency band for each divided frequency band. Therefore, the voice determination unit 38 can accurately determine the presence / absence of a formant for each divided frequency band without being affected by noise components in other divided frequency bands.

上述したように、フォルマントには、第1フォルマントから、その倍音部分である第nフォルマントまで複数ある。したがって、任意の分割周波数帯域の帯域別エネルギー(ノイズレベル)が上昇し、フォルマントの一部がノイズに埋没しても、他の複数のフォルマントを検出できる場合がある。特に、周囲ノイズは低域に集中するため、基音に相当する第1フォルマントや2倍音に相当する第2フォルマントが低域のノイズに埋没していても、3倍音以上のフォルマントを検出できる可能性がある。よって、音声判定部38は、SNRが第1閾値を超えるスペクトルが所定数以上である場合、フレーム化入力信号が音声であると判定することで、よりノイズに強い音声区間の判定を行うことができる。   As described above, there are a plurality of formants from the first formant to the n-th formant, which is a harmonic part thereof. Therefore, even if the energy (noise level) of any divided frequency band is increased and a part of the formant is buried in noise, a plurality of other formants may be detected. In particular, since ambient noise is concentrated in the low range, even if the first formant corresponding to the fundamental tone and the second formant corresponding to the second overtone are buried in the low-frequency noise, the possibility of detecting a formant with a third or higher harmonic is possible. There is. Therefore, when the spectrum whose SNR exceeds the first threshold is greater than or equal to the predetermined number, the speech determination unit 38 can determine a speech section that is more resistant to noise by determining that the framed input signal is speech. it can.

以上で説明したように、音声区間判定技術Aを用いた音声区間判定器15'は、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部31と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部32と、スペクトルパターンの各スペクトルと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えるか否かを判定するピーク検出部37と、ピーク検出部の判定結果に基づいて、フレーム化入力信号が音声であるか否か判定する音声判定部38と、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出する周波数平均部34と、分割周波数帯域毎に、平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均部36と、を備える。   As described above, the speech segment determination unit 15 ′ using the speech segment determination technique A cuts out an input signal in units of frames having a predetermined time width, and generates a framed input signal. A spectrum generation unit 32 for converting the framing input signal from the time domain to the frequency domain to generate a spectrum pattern in which spectra for each frequency are collected, each spectrum of the spectrum pattern, and a predetermined bandwidth A peak detector 37 that determines whether or not the energy ratio of the divided frequency bands including the spectrum among the plurality of divided frequency bands that are the divided frequency bands to the energy by band exceeds a predetermined first threshold value. And a voice determination unit 38 that determines whether or not the framed input signal is voice based on the determination result of the peak detection unit, A frequency averaging unit 34 for deriving an average energy in the frequency direction of the spectrum in each divided frequency band of the spectrum pattern, and a time averaging unit 36 for deriving the energy by band that is an average of the average energy in the time direction for each divided frequency band. And comprising.

例えば、音声判定部38は、エネルギー比が第1閾値を超えるスペクトルが予め定められた数以上であると、フレーム化入力信号が音声であると判定することができる。   For example, the speech determination unit 38 can determine that the framed input signal is speech when the spectrum in which the energy ratio exceeds the first threshold is equal to or greater than a predetermined number.

次に、音声区間判定技術Bについて説明する。音声区間判定技術Bでは、子音の特徴であるスペクトルパターンが右上がりになる傾向があるという性質に着目して、音声区間を判定している。音声区間判定技術Bでは、子音のスペクトルパターンを中高域の周波数帯において測定し、更に部分的にノイズ成分によって埋没してしまった子音の周波数分布の特徴を、ノイズの影響があまり無かった帯域に特化して抽出することで、音声区間を高精度で判定することを可能にしている。   Next, the speech section determination technique B will be described. In the speech section determination technique B, the speech section is determined by paying attention to the property that the spectrum pattern that is a feature of the consonant tends to rise to the right. In the speech segment determination technique B, the spectrum pattern of the consonant is measured in the mid-high frequency band, and the characteristics of the frequency distribution of the consonant that is partially buried by the noise component are set in a band where there is not much influence of noise. By specializing and extracting, it is possible to determine the speech section with high accuracy.

図3は、音声区間判定技術Bを用いた音声区間判定器15''の一例を示すブロック図である。音声区間判定器15''は、フレーム化部41、スペクトル生成部42、帯域分割部43、平均導出部44、ノイズレベル導出部45、判定選択部46、および子音判定部47を備える。   FIG. 3 is a block diagram illustrating an example of a speech segment determination unit 15 ″ using the speech segment determination technique B. The speech section determiner 15 ″ includes a framing unit 41, a spectrum generating unit 42, a band dividing unit 43, an average deriving unit 44, a noise level deriving unit 45, a determination selecting unit 46, and a consonant determining unit 47.

フレーム化部41は、収音信号21を予め定められた時間幅を有するフレーム単位で順次切り出し、フレーム単位の入力信号であるフレーム化入力信号を生成する。   The framing unit 41 sequentially extracts the sound pickup signal 21 in units of frames having a predetermined time width, and generates a framing input signal that is an input signal in units of frames.

スペクトル生成部42は、フレーム化部41から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFTやDCT等の直交変換法を用いるとよい。   The spectrum generation unit 42 performs frequency analysis of the framing input signal output from the framing unit 41, converts the time-domain framing input signal into the frequency-domain framing input signal, and collects the spectrum. Is generated. The spectrum pattern is a collection of spectra for each frequency in which a frequency and energy at the frequency are associated with each other over a predetermined frequency band. The frequency conversion method used here is not limited to a specific means, but a frequency resolution necessary for recognizing a speech spectrum is necessary, and therefore, an orthogonal transformation method such as FFT or DCT having a relatively high resolution is used. Good.

帯域分割部43は、スペクトル生成部42が生成したスペクトルパターンの各スペクトルを、予め定められた帯域幅毎に分割し、複数の分割周波数帯域を生成する。本実施の形態において、帯域分割部43は、例えば、800Hz〜3.5kHzの周波数範囲について、例えば、100Hz〜300Hz程度の帯域幅毎に分割する。   The band dividing unit 43 divides each spectrum of the spectrum pattern generated by the spectrum generating unit 42 for each predetermined bandwidth, and generates a plurality of divided frequency bands. In the present embodiment, the band dividing unit 43 divides the frequency range of, for example, 800 Hz to 3.5 kHz for each bandwidth of about 100 Hz to 300 Hz, for example.

平均導出部44は、スペクトルパターンにおける、連接する、帯域分割部43が分割した分割周波数帯域(バンド)毎の平均エネルギーである帯域別平均エネルギーを導出する。   The average deriving unit 44 derives average energy for each band, which is an average energy for each divided frequency band (band) divided by the band dividing unit 43 in the spectrum pattern.

子音判定部47は、平均導出部44が導出した帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、そのフレーム化入力信号に子音が含まれると判定する。   The consonant determination unit 47 compares the band-by-band average energies derived by the average deriving unit 44. If the band-by-band average energy of the higher frequency band is higher, the consonant is included in the framed input signal. It is determined that

一般的に、子音はスペクトルパターンが右上がりになる傾向がある。そこで、音声区間判定技術Bを用いた音声区間判定器15''は、スペクトルパターンにおける帯域別平均エネルギーを導出し、その帯域別エネルギー同士を比較することで子音に特徴的な、スペクトルパターンにおける右上がりの傾向を検出する。そのため、音声区間判定器15''は、入力信号に子音が含まれる子音区間を精度よく検出することができる。   In general, consonants tend to have a spectral pattern that rises to the right. Therefore, the speech segment determination unit 15 ″ using the speech segment determination technique B derives the average energy for each band in the spectrum pattern and compares the energy for each band to the right in the spectrum pattern characteristic of the consonant. Detect upward trend. Therefore, the speech segment determination unit 15 ″ can accurately detect a consonant segment in which a consonant is included in the input signal.

子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた第1閾値以上であると、子音が含まれると判定する第1判定手段を備える。また、子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計測し、更にこの組み合わせが帯域を跨いで連続する場合に重み付けをして計数し、計数した計数値が、予め定められた第2閾値以上であると、子音が含まれると判定する第2判定手段を備える。子音判定部47は、第1判定手段と第2判定手段をそれぞれノイズレベルに応じて使い分ける。   The consonant determination unit 47 counts a combination in which the average energy for each band between adjacent bands is higher in the high frequency band than in the adjacent low frequency band, and the counted value is a predetermined first threshold value. If it is above, the 1st judgment means which judges that a consonant is contained is provided. In addition, the consonant determination unit 47 measures a combination in which the average energy for each band between adjacent bands is higher in the high frequency band than in the adjacent low frequency band, and when this combination continues across the bands And a second determination means for determining that a consonant is included when the counted value is equal to or greater than a predetermined second threshold value. The consonant determination unit 47 uses the first determination unit and the second determination unit in accordance with the noise level.

ここで、第1判定手段と第2判定手段とを適宜選択すべく、ノイズレベル導出部45は、フレーム化入力信号のノイズレベルを導出する。例えば、ノイズレベルは、フレーム化入力信号のすべての周波数帯域の帯域別平均エネルギーの平均値とすることができる。また、ノイズレベル導出部45は、フレーム化入力信号毎にノイズレベルを導出してもよいし、所定時間分のフレーム化入力信号のノイズレベルの平均値を用いてもよい。判定選択部46は、導出されたノイズレベルが所定の閾値未満の場合、第1判定手段を選択し、所定の閾値以上の場合、第2判定手段を選択する。   Here, the noise level deriving unit 45 derives the noise level of the framed input signal so as to select the first determination unit and the second determination unit as appropriate. For example, the noise level can be an average value of average energy for each frequency band of the framed input signal. Further, the noise level deriving unit 45 may derive a noise level for each framed input signal, or may use an average value of noise levels of the framed input signal for a predetermined time. The determination selection unit 46 selects the first determination unit when the derived noise level is less than the predetermined threshold, and selects the second determination unit when the derived noise level is equal to or higher than the predetermined threshold.

以上で説明したように、音声区間判定技術Bを用いた音声区間判定器15''は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部41と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部42と、スペクトルパターンにおける、連接する予め定められた帯域幅毎の平均エネルギーである帯域別平均エネルギーを導出する平均導出部44と、導出された帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、フレーム化入力信号に子音が含まれると判定する子音判定部47と、を備える。   As described above, the speech segment determination unit 15 ″ using the speech segment determination technique B includes the framing unit 41 that cuts out an input signal in units of a predetermined frame and generates a framed input signal, The spectrum generation unit 42 that converts the input signal from the time domain to the frequency domain and generates a spectrum pattern in which the spectrum for each frequency is collected, and the average energy for each predetermined bandwidth to be connected in the spectrum pattern The average deriving unit 44 for deriving the average energy for each band and the derived average energy for each band are compared. If the average energy for each band in the higher frequency band is higher, the framed input signal A consonant determination unit 47 that determines that a consonant is included.

例えば、子音判定部47は、スペクトルパターンの隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた閾値以上であると、子音が含まれると判定することができる。   For example, the consonant determination unit 47 counts combinations in which the average energy for each band between adjacent bands of the spectrum pattern is larger in the higher frequency band than in the adjacent lower frequency band, and the counted value is determined in advance. It is possible to determine that a consonant is included if it is equal to or greater than the threshold value.

なお、本実施の形態にかかるノイズ低減装置に上記の音声区間判定技術A、Bを適用する場合、製品毎にパラメータを設定することができる。すなわち、より確実な音声区間の判定が要求される製品に音声区間判定技術A、Bを適用する場合、音声区間判定のパラメータとしてより厳しい閾値を設定することができる。   In addition, when applying said audio | voice area determination technique A and B to the noise reduction apparatus concerning this Embodiment, a parameter can be set for every product. That is, when the speech segment determination techniques A and B are applied to a product that requires more reliable speech segment determination, a stricter threshold can be set as a parameter for speech segment determination.

また、図1に示すノイズ低減装置1では、音声は音声用マイクロフォン11において収音される確率が高いことを前提とし、音声区間判定器15が、音声用マイクロフォン11の収音信号21のみに基づき音声区間を判定する場合を示した。しかしながら、ノイズ低減装置の使用状況によっては、音声用マイクロフォン11よりも参照音用マイクロフォン12の方が多く音声を収音する場合も考えられる。よって、図8に示すノイズ低減装置2のように、音声区間判定器19が音声用マイクロフォン11の収音信号21および参照音用マイクロフォン12の収音信号22に基づき、音声区間を判定するように構成してもよい。   Further, in the noise reduction apparatus 1 shown in FIG. 1, it is assumed that the voice has a high probability of being picked up by the voice microphone 11, and the voice section determination unit 15 is based only on the sound pickup signal 21 of the voice microphone 11. The case where the speech section is determined is shown. However, depending on how the noise reduction device is used, there may be cases where the reference sound microphone 12 collects more sound than the sound microphone 11. Therefore, as in the noise reduction device 2 shown in FIG. 8, the speech section determination unit 19 determines the speech section based on the sound collection signal 21 of the sound microphone 11 and the sound collection signal 22 of the reference sound microphone 12. It may be configured.

この場合、例えば図8に示すノイズ低減装置2の音声区間判定器19は、音声用マイクロフォン11の収音信号21に音声が含まれているかを判定する回路と、参照音用マイクロフォン12の収音信号22に音声が含まれているかを判定する回路と、をそれぞれ備えるように構成してもよい。なお、図8に示すノイズ低減装置2の他の構成は図1に示したノイズ低減装置1の構成と同様である。   In this case, for example, the voice section determination unit 19 of the noise reduction device 2 illustrated in FIG. 8 includes a circuit that determines whether or not the sound collection signal 21 of the sound microphone 11 includes sound, and the sound collection of the reference sound microphone 12. And a circuit for determining whether the signal 22 includes sound. The other configuration of the noise reduction device 2 shown in FIG. 8 is the same as the configuration of the noise reduction device 1 shown in FIG.

図1に示すノイズ低減装置1の音声方向検知器16は、収音信号21と収音信号22とに基づき、音声の到来方向を検知し、音声方向情報25を適応フィルタ制御部17に出力する。音声の到来方向を検知する方法は、例えば収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する方法や、音声用マイクロフォン11で収音された音(収音信号21)の大きさと参照音用マイクロフォン12で収音された音(収音信号22)の大きさの差や比(パワー差やパワー比であり、これらを総称してパワー情報と称す)に基づき、音声の到来方向を検知する方法等がある。このとき、音声方向検知器16は、音声区間判定器15が音声区間と判定した場合に、音声の到来方向を検知している。つまり、音声方向検知器16は、音声が到来している音声区間において音声方向を検知し、音声区間以外のときは音声方向を検知していない。   The voice direction detector 16 of the noise reduction apparatus 1 shown in FIG. 1 detects the voice arrival direction based on the collected sound signal 21 and the collected sound signal 22, and outputs the voice direction information 25 to the adaptive filter control unit 17. . The method for detecting the voice arrival direction is, for example, a method for detecting the voice arrival direction based on the phase difference between the sound pickup signal 21 and the sound pickup signal 22, or a sound (sound pickup signal) collected by the voice microphone 11. 21) and the difference or ratio of the sound collected by the reference sound microphone 12 (sound collection signal 22) (power difference or power ratio, these are collectively referred to as power information). And a method of detecting the direction of arrival of voice. At this time, the voice direction detector 16 detects the arrival direction of the voice when the voice segment determination unit 15 determines that the voice segment is a voice segment. That is, the voice direction detector 16 detects the voice direction in the voice section where the voice has arrived, and does not detect the voice direction when the voice section is outside the voice section.

また、例えば、トランシーバーのような携帯機器(無線通信装置)や、無線通信装置に付属するスピーカーマイクロフォン(音声入力装置)のような小型機器に、本実施の形態にかかるノイズ低減装置を適用する場合、音声を拾い易い表側に音声用マイクロフォン11を設け、音声を拾い難い裏側に参照音用マイクロフォン12を設ける。これにより、音声用マイクロフォン11では音声成分を主に収音し、参照音用マイクロフォン12ではノイズ成分を主に収音することができる。   In addition, for example, when the noise reduction device according to the present embodiment is applied to a portable device (wireless communication device) such as a transceiver or a small device such as a speaker microphone (voice input device) attached to the wireless communication device. The sound microphone 11 is provided on the front side where it is easy to pick up the sound, and the reference sound microphone 12 is provided on the back side where it is difficult to pick up the sound. Thereby, the sound microphone 11 can mainly collect sound components, and the reference sound microphone 12 can mainly collect noise components.

上記の無線通信装置や音声入力装置は、一般的に人間の握りこぶしよりも少し小さい程度の大きさである。よって、音源と音声用マイクロフォン11との距離と、音源と参照音用マイクロフォン12との距離の差は、機器毎やマイクロフォンの配置により異なるものの、5〜10cm程度であると考えられる。ここで、音声の空間伝達速度を34000cm/sとすると、サンプリング周波数が8kHzの場合、1サンプル間において音声が伝達する距離は34000÷8000=4.25であるので、4.25cmとなる。仮に、音声用マイクロフォン11と参照音用マイクロフォン12との距離が5cmであれば、サ
ンプリング周波数が8kHzでは音声の方向を推定するには不十分である。
The above-described wireless communication device and voice input device are generally a little smaller than a human fist. Therefore, the difference between the distance between the sound source and the sound microphone 11 and the distance between the sound source and the reference sound microphone 12 is considered to be about 5 to 10 cm, although it differs depending on the device and the arrangement of the microphones. Here, assuming that the spatial transmission speed of sound is 34000 cm / s, the distance that the sound is transmitted between one sample is 34000 ÷ 8000 = 4.25 when the sampling frequency is 8 kHz, so that 4.25 cm. If the distance between the sound microphone 11 and the reference sound microphone 12 is 5 cm, a sampling frequency of 8 kHz is insufficient to estimate the sound direction.

この場合、サンプリング周波数を8kHzの3倍である24kHzとすると、34000÷24000≒1.42cmとなり、5cmの間に3〜4点の位相差ポイントを測定することができる。よって、収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する場合は、音声方向検知器16に入力される収音信号21と収音信号22のサンプリング周波数を24kHz以上にするとよい。   In this case, if the sampling frequency is set to 24 kHz, which is three times 8 kHz, 34000 / 24000≈1.42 cm, and 3 to 4 phase difference points can be measured within 5 cm. Therefore, when detecting the voice arrival direction based on the phase difference between the sound pickup signal 21 and the sound pickup signal 22, the sampling frequency of the sound pickup signal 21 and the sound pickup signal 22 input to the sound direction detector 16 is set to 24 kHz. This should be done.

図1に示すノイズ低減装置1において、例えばADコンバータ13、14から出力された収音信号21、22のサンプリング周波数が8〜12kHzである場合は、ADコンバータ13、14と音声方向検知器16との間に、サンプリング周波数変換器を設け、音声方向検知器16に供給される収音信号21、22のサンプリング周波数を24kHz以上に変換してもよい。   In the noise reduction apparatus 1 shown in FIG. 1, for example, when the sampling frequency of the collected sound signals 21 and 22 output from the AD converters 13 and 14 is 8 to 12 kHz, the AD converters 13 and 14 and the voice direction detector 16 Between them, a sampling frequency converter may be provided, and the sampling frequency of the collected sound signals 21 and 22 supplied to the sound direction detector 16 may be converted to 24 kHz or more.

一方、例えばADコンバータ13、14から出力された収音信号21、22のサンプリング周波数が24kHz以上である場合は、ADコンバータ13と音声区間判定器15との間、およびADコンバータ13、14と適応フィルタ18との間に、サンプリング周波数変換器を設け、音声区間判定器15および適応フィルタ18に供給される収音信号21、22のサンプリング周波数を8〜12kHzに変換してもよい。   On the other hand, for example, when the sampling frequency of the collected sound signals 21 and 22 output from the AD converters 13 and 14 is 24 kHz or more, the AD converters 13 and 14 and the AD converters 13 and 14 are adapted. A sampling frequency converter may be provided between the filter 18 and the sampling frequency of the collected sound signals 21 and 22 supplied to the speech section determination unit 15 and the adaptive filter 18 may be converted to 8 to 12 kHz.

まず、収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する場合について説明する。図4は、本実施の形態にかかるノイズ低減装置1が備える音声方向検知器の一例を示すブロック図である。図4に示す音声方向検知器16'は、基準信号バッファ51、基準信号抽出部52、比較信号バッファ53、比較信号抽出部54、相互相関値算出部55、および位相差情報取得部56を備える。   First, the case where the direction of arrival of voice is detected based on the phase difference between the collected sound signal 21 and the collected sound signal 22 will be described. FIG. 4 is a block diagram illustrating an example of a voice direction detector provided in the noise reduction device 1 according to the present embodiment. The voice direction detector 16 ′ shown in FIG. 4 includes a reference signal buffer 51, a reference signal extraction unit 52, a comparison signal buffer 53, a comparison signal extraction unit 54, a cross correlation value calculation unit 55, and a phase difference information acquisition unit 56. .

基準信号バッファ51は、ADコンバータ13から出力された収音信号21を一時的に蓄積する。比較信号バッファ53は、ADコンバータ14から出力された収音信号22を一時的に蓄積する。   The reference signal buffer 51 temporarily stores the collected sound signal 21 output from the AD converter 13. The comparison signal buffer 53 temporarily accumulates the sound collection signal 22 output from the AD converter 14.

ユーザが送話しているときのような、音源が一つで同時刻に発せられる音声は、各マイクロフォン11、12への伝達経路が異なるため各マイクロフォン11、12で検出される位相(遅延量)や振幅値(減衰量)に差が生じる。しかし、音源が一つで同時刻に発せられる音声は、各マイクロフォン11、12で検出される音声成分の位相や振幅値は一定の関係が成り立ち、相関性は非常に高いといえる。   The sound that is emitted at the same time with one sound source, such as when the user is transmitting, has a different transmission path to each microphone 11, 12, and therefore the phase (delay amount) detected by each microphone 11, 12 And the amplitude value (attenuation amount) is different. However, it can be said that the sound emitted by the same sound source with one sound source has a very high correlation since the phase and amplitude value of the sound components detected by the microphones 11 and 12 have a certain relationship.

一方、ノイズ成分のように音源が様々な場所に存在する場合、各マイクロフォン11、12で検出される音声成分の位相や振幅値は音源毎に異なる位相差になり、減衰量も異なるため、相関性は低い。本実施の形態では、音声区間において音声の到来方向を検知しているので、各マイクロフォン11、12で検出される音声成分の相関性は非常に高いといえる。よって、音声区間に限定して、この相関性を測定することで位相差を求めることができ、音源の方向を推定することができる。2つのマイクロフォン11、12の間における位相差は、例えば相互相関関数や最小二乗法を用いて算出することができる。 On the other hand, when the sound source exists in various places such as a noise component, the phase and amplitude value of the sound component detected by each of the microphones 11 and 12 has a different phase difference for each sound source, and the attenuation amount is also different. The nature is low. In the present embodiment, since the voice arrival direction is detected in the voice section, it can be said that the correlation between the voice components detected by the microphones 11 and 12 is very high. Therefore, the phase difference can be obtained by measuring this correlation only in the speech section, and the direction of the sound source can be estimated. The phase difference between the two microphones 11 and 12 can be calculated using, for example, a cross correlation function or a least square method.

2つの信号波形x1(t)とx2(t)の相互相関関数は次の式で表すことができる。
The cross-correlation function between the two signal waveforms x1 (t) and x2 (t) can be expressed by the following equation.

基準信号抽出部52は、収音信号(基準信号)21に含まれる信号波形x1(t)を抽出して固定する。比較信号抽出部54は、収音信号(比較信号)22に含まれる信号波形x2(t)を抽出し、当該信号波形x2(t)を移動する。相互相関値算出部55は、信号波形x1(t)と信号波形x2(t)とに対して畳み込み演算(積和演算)を実施することで、収音信号21と収音信号22の相関が高いポイントを判断する。このとき、収音信号22のサンプリング周波数とマイクロフォン11、12の空間的な距離から算出される最大位相差分に応じて、信号波形x2(t)を前後にシフトしながら畳み込み演算値を計算する。畳み込み演算値が最大となるポイントは符号が一致する場所であり最も相関が高いと判断することができる。   The reference signal extraction unit 52 extracts and fixes the signal waveform x1 (t) included in the collected sound signal (reference signal) 21. The comparison signal extraction unit 54 extracts the signal waveform x2 (t) included in the collected sound signal (comparison signal) 22, and moves the signal waveform x2 (t). The cross-correlation value calculation unit 55 performs a convolution operation (product-sum operation) on the signal waveform x1 (t) and the signal waveform x2 (t), so that the correlation between the sound collection signal 21 and the sound collection signal 22 is increased. Judge the high point. At this time, the convolution calculation value is calculated while shifting the signal waveform x2 (t) back and forth according to the maximum phase difference calculated from the sampling frequency of the sound pickup signal 22 and the spatial distance between the microphones 11 and 12. The point where the convolution calculation value is the maximum is the place where the codes match, and it can be determined that the correlation is the highest.

また、最小二乗法を用いる場合は、次の式を用いることができる。
When the least square method is used, the following equation can be used.

最小二乗法を用いる場合、基準信号抽出部52は、収音信号(基準信号)21に含まれる信号波形を抽出して固定する。比較信号抽出部54は、収音信号(比較信号)22に含まれる信号波形を抽出し、当該信号波形を移動する。相互相関値算出部55は、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形との差分値の二乗和を計算する。この二乗和が最小となるポイントは、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形とが互いに相似形となる(重なり合う)場所であり、最も相関が高いと判断することができる。最小二乗法を用いる場合は基準信号と比較信号の大きさを揃えることが望ましく、一方を基準として予め正規化しておくのが好ましい。   When the least square method is used, the reference signal extraction unit 52 extracts and fixes a signal waveform included in the collected sound signal (reference signal) 21. The comparison signal extraction unit 54 extracts a signal waveform included in the collected sound signal (comparison signal) 22 and moves the signal waveform. The cross-correlation value calculation unit 55 calculates the sum of squares of the difference values between the signal waveform included in the collected sound signal 21 and the signal waveform included in the collected sound signal 22. The point at which the sum of squares is minimum is a place where the signal waveform included in the collected sound signal 21 and the signal waveform included in the collected sound signal 22 are similar (overlapping) to each other, and is determined to have the highest correlation. be able to. When the least square method is used, it is desirable to make the sizes of the reference signal and the comparison signal uniform, and it is preferable to normalize in advance based on one of them.

相互相関値算出部55は、上記の演算により得られた、基準信号と比較信号の相関関係に関する情報を位相差情報取得部56に出力する。すなわち、相互相関値算出部55で相関が高いと判断された2つの信号波形(つまり、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形)は、音源を同一とする音声の信号波形である可能性が高い。よって、位相差情報取得部56は、相関が高いと判断された2つの信号波形の位相差を求めることで、音声用マイクロフォン11で収音された音声成分と参照音用マイクロフォン12で収音された音声成分の位相差を求めることができる。   The cross-correlation value calculation unit 55 outputs information regarding the correlation between the reference signal and the comparison signal obtained by the above calculation to the phase difference information acquisition unit 56. That is, the two signal waveforms determined to have high correlation by the cross-correlation value calculation unit 55 (that is, the signal waveform included in the sound collection signal 21 and the signal waveform included in the sound collection signal 22) have the same sound source. There is a high possibility that the waveform is an audio signal. Therefore, the phase difference information acquisition unit 56 obtains the sound component collected by the sound microphone 11 and the reference sound microphone 12 by obtaining the phase difference between the two signal waveforms determined to have high correlation. The phase difference of the voice component can be obtained.

そして、音声用マイクロフォン11で収音された音に含まれる音声成分の位相(つまり、収音信号21の音声成分の位相)が、参照音用マイクロフォン12で収音された音に含まれる音声成分の位相(つまり、収音信号22の音声成分の位相)よりも早い場合(つまり、位相差がプラスの場合)、参照音用マイクロフォン12よりも音声用マイクロフォン11に近い位置に音源がある、つまり、音声用マイクロフォン11に向かって話者が話していると推測することができる。   Then, the phase of the sound component included in the sound collected by the sound microphone 11 (that is, the phase of the sound component of the sound collection signal 21) is included in the sound collected by the reference sound microphone 12. Is earlier than the phase (that is, the phase of the sound component of the collected sound signal 22) (that is, when the phase difference is positive), the sound source is located closer to the sound microphone 11 than the reference sound microphone 12, that is, It can be estimated that the speaker is speaking into the voice microphone 11.

一方、音声用マイクロフォン11で収音された音に含まれる音声成分の位相が、参照音用マイクロフォン12で収音された音に含まれる音声成分の位相よりも遅い場合(つまり、位相差がマイナスの場合)、音声用マイクロフォン11よりも参照音用マイクロフォン12に近い位置に音源がある、つまり、参照音用マイクロフォン12に向かって話者が話していると推測することができる。   On the other hand, when the phase of the sound component included in the sound collected by the sound microphone 11 is slower than the phase of the sound component included in the sound collected by the reference sound microphone 12 (that is, the phase difference is negative). In this case, it can be estimated that the sound source is located closer to the reference sound microphone 12 than the sound microphone 11, that is, the speaker is speaking toward the reference sound microphone 12.

また、音声用マイクロフォン11で収音された音に含まれる音声成分の位相と、参照音用マイクロフォン12で収音された音に含まれる音声成分の位相との位相差が所定の範囲内である場合(−T<位相差<T、つまり、位相差の絶対値が所定の値Tよりも小さい場合)、音声用マイクロフォン11と参照音用マイクロフォン12の中間付近に音源が位置していると推測することができる。   Further, the phase difference between the phase of the sound component contained in the sound collected by the sound microphone 11 and the phase of the sound component contained in the sound collected by the reference sound microphone 12 is within a predetermined range. In this case (-T <phase difference <T, that is, when the absolute value of the phase difference is smaller than the predetermined value T), it is estimated that the sound source is located near the middle between the sound microphone 11 and the reference sound microphone 12. can do.

位相差情報取得部56は、取得した位相差情報を音声方向情報25として、適応フィルタ制御部17に出力する。   The phase difference information acquisition unit 56 outputs the acquired phase difference information as the voice direction information 25 to the adaptive filter control unit 17.

音声方向検知器16は、音声区間判定器15が音声区間と判定した場合に、音声の到来方向を検知している。よって、ノイズが混入した場合であっても、音声区間判定器15が音声区間と判定した場合は、音声用マイクロフォン11で収音される音声成分と参照音用マイクロフォン12で収音される音声成分の位相差を精度よく算出することができるので、音声方向を高精度に検知することができる。   The voice direction detector 16 detects the voice arrival direction when the voice section determiner 15 determines that the voice section is the voice section. Therefore, even if noise is mixed, if the voice segment determination unit 15 determines that the voice segment is present, the voice component collected by the voice microphone 11 and the voice component collected by the reference sound microphone 12 Therefore, the direction of voice can be detected with high accuracy.

次に、収音信号21と収音信号22のパワー情報に基づいて音声の到来方向を検知する場合について説明する。図5は、本実施の形態にかかるノイズ低減装置1が備える音声方向検知器の他の例を示すブロック図である。図5に示す音声方向検知器16''は、音声信号バッファ61、音声信号パワー算出部62、参照信号バッファ63、参照信号パワー算出部64、パワー差算出部65、およびパワー情報取得部66を備える。図5に示す音声方向検知器16''は、ある一定の単位時間における収音信号21および収音信号22のパワー情報(図5に示す場合は、パワー差)を求めることができる。   Next, a description will be given of a case where the voice arrival direction is detected based on the power information of the collected sound signal 21 and the collected sound signal 22. FIG. 5 is a block diagram illustrating another example of the voice direction detector included in the noise reduction device 1 according to the present embodiment. The audio direction detector 16 '' shown in FIG. 5 includes an audio signal buffer 61, an audio signal power calculation unit 62, a reference signal buffer 63, a reference signal power calculation unit 64, a power difference calculation unit 65, and a power information acquisition unit 66. Prepare. The voice direction detector 16 '' shown in FIG. 5 can obtain power information (power difference in the case of FIG. 5) of the sound pickup signal 21 and the sound pickup signal 22 in a certain unit time.

音声信号バッファ61は、単位時間分の収音信号21を蓄積するために、供給された収音信号21を一時的に蓄積する。参照信号バッファ63は、単位時間分の収音信号22を蓄積するために、供給された収音信号22を一時的に蓄積する。   The audio signal buffer 61 temporarily accumulates the supplied sound collection signal 21 in order to accumulate the sound collection signal 21 for a unit time. The reference signal buffer 63 temporarily accumulates the supplied sound collection signal 22 in order to accumulate the sound collection signal 22 for a unit time.

音声信号パワー算出部62は、音声信号バッファ61に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。また、参照信号パワー算出部64は、参照信号バッファ63に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。   The audio signal power calculation unit 62 calculates a power value per unit time by using the collected sound signals for the unit time accumulated in the audio signal buffer 61. In addition, the reference signal power calculation unit 64 calculates a power value per unit time by using the collected sound signals for the unit time accumulated in the reference signal buffer 63.

ここで、単位時間当たりのパワー値とは、単位時間における収音信号21、22の大きさであり、例えば、単位時間における収音信号21、22の振幅の最大値や、単位時間における収音信号21、22の振幅の積分値等を用いることができる。なお、本実施の形態では、収音信号21、22の大きさを示す値であれば、パワー値として上記の最大値や積分値以外の値を用いてもよい。   Here, the power value per unit time is the magnitude of the sound pickup signals 21 and 22 in unit time. For example, the maximum value of the amplitude of the sound pickup signals 21 and 22 in unit time or the sound pickup in unit time. An integrated value of the amplitude of the signals 21 and 22 can be used. In the present embodiment, any value other than the above maximum value or integral value may be used as the power value as long as the value indicates the magnitude of the sound pickup signals 21 and 22.

パワー差算出部65は、音声信号パワー算出部62で求めた収音信号のパワー値と、参照信号パワー算出部64で求めた収音信号のパワー値とのパワー差を算出し、算出されたパワー差をパワー情報取得部66に出力する。   The power difference calculation unit 65 calculates the power difference between the power value of the sound collection signal obtained by the audio signal power calculation unit 62 and the power value of the sound collection signal obtained by the reference signal power calculation unit 64 to calculate the power difference. The power difference is output to the power information acquisition unit 66.

パワー情報取得部66は、パワー差算出部65から出力されたパワー差に基づいて、収音信号21と収音信号22のパワー情報を取得する。   The power information acquisition unit 66 acquires the power information of the sound collection signal 21 and the sound collection signal 22 based on the power difference output from the power difference calculation unit 65.

例えば、音声用マイクロフォン11で収音された音の大きさが、参照音用マイクロフォン12で収音された音の大きさよりも大きい場合、つまり、収音信号21のパワー値が収音信号22のパワー値よりも大きい場合、参照音用マイクロフォン12よりも音声用マイクロフォン11に近い位置に音源がある、つまり、音声用マイクロフォン11に向かって話者が話していると推測することができる。   For example, when the loudness of the sound collected by the sound microphone 11 is larger than the loudness of the sound collected by the reference sound microphone 12, that is, the power value of the collected sound signal 21 is that of the collected sound signal 22. If it is greater than the power value, it can be assumed that the sound source is located closer to the sound microphone 11 than the reference sound microphone 12, that is, that the speaker is speaking toward the sound microphone 11.

一方、音声用マイクロフォン11で収音された音の大きさが、参照音用マイクロフォン12で収音された音の大きさよりも小さい場合、つまり、収音信号21のパワー値が収音信号22のパワー値よりも小さい場合、音声用マイクロフォン11よりも参照音用マイクロフォン12に近い位置に音源がある、つまり、参照音用マイクロフォン12に向かって話者が話していると推測することができる。   On the other hand, when the loudness of the sound collected by the sound microphone 11 is smaller than the loudness of the sound collected by the reference sound microphone 12, that is, the power value of the sound collection signal 21 is equal to that of the sound collection signal 22. If it is smaller than the power value, it can be estimated that the sound source is located closer to the reference sound microphone 12 than the sound microphone 11, that is, the speaker is speaking toward the reference sound microphone 12.

また、音声用マイクロフォン11で収音された音と、参照音用マイクロフォン12で収音された音の差が所定の範囲内である場合(−P<パワー差<P、つまり、パワー差の絶対値が所定の値Pよりも小さい場合)、音声用マイクロフォン11と参照音用マイクロフォン12の中間付近に音源が位置していると推測することができる。   When the difference between the sound collected by the sound microphone 11 and the sound collected by the reference sound microphone 12 is within a predetermined range (−P <power difference <P, that is, the absolute power difference) When the value is smaller than the predetermined value P), it can be estimated that the sound source is located near the middle between the sound microphone 11 and the reference sound microphone 12.

パワー情報取得部66は、取得したパワー情報(つまり、パワー差に関する情報)を音声方向情報25として、適応フィルタ制御部17に出力する。   The power information acquisition unit 66 outputs the acquired power information (that is, information regarding the power difference) to the adaptive filter control unit 17 as the voice direction information 25.

以上で説明したように、音声方向検知器16は、収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する方法や、収音信号21と収音信号22のパワー情報に基づいて音声の到来方向を検知する方法を用いることができる。位相差を用いる方法とパワー情報を用いる方法は、それぞれ単独で使用してもよいし、互いに組み合わせて使用してもよい。例えば、トランシーバーのような携帯機器(無線通信装置)や、無線通信装置に付属するスピーカーマイクロフォン(音声入力装置)のような小型機器は、持ち方によりマイク開口部が手で塞がれたり、衣服などによってマイク開口部が遮蔽されたりする場合がある。よって、音声方向を正確に検知するために、位相差を用いる方法とパワー情報を用いる方法を組み合わせて使用すると、音声方向をより高精度に検知することができる。   As described above, the voice direction detector 16 detects the voice arrival direction based on the phase difference between the collected sound signal 21 and the collected sound signal 22, and the power of the collected sound signal 21 and the collected sound signal 22. A method of detecting the direction of voice arrival based on information can be used. The method using the phase difference and the method using the power information may be used alone or in combination with each other. For example, in a portable device (wireless communication device) such as a transceiver or a small device such as a speaker microphone (voice input device) attached to the wireless communication device, the microphone opening may be blocked by a hand, For example, the microphone opening may be shielded. Therefore, if the method using the phase difference and the method using the power information are used in combination to accurately detect the voice direction, the voice direction can be detected with higher accuracy.

図1に示す適応フィルタ制御部17は、音声区間判定器15から出力された音声区間情報24および音声方向検知器16から出力された音声方向情報25に基づき、適応フィルタ18を制御するための制御信号を生成し、生成された制御信号26を適応フィルタ18に出力する。ここで、制御信号26は、音声区間情報24および音声方向情報25を含んでいる。   The adaptive filter control unit 17 shown in FIG. 1 is a control for controlling the adaptive filter 18 based on the voice section information 24 output from the voice section determiner 15 and the voice direction information 25 output from the voice direction detector 16. A signal is generated, and the generated control signal 26 is output to the adaptive filter 18. Here, the control signal 26 includes voice section information 24 and voice direction information 25.

適応フィルタ18は、収音信号21と収音信号22とを用いて、ノイズが低減された音声信号を生成し、このノイズが低減された音声信号を出力信号27として出力する。適応フィルタ18は、収音信号(音声信号)21に含まれたノイズ成分を低減するために、参照音用マイクロフォン12を用いてノイズ成分を含む参照音を収音し、この参照音に基づき収音信号21に含まれている可能性があるノイズ成分を擬似的に生成する。そして、適応フィルタ18は、収音信号21から、この擬似的に生成したノイズ成分を差し引くことで、ノイズ低減処理を実施することができる。   The adaptive filter 18 uses the sound collection signal 21 and the sound collection signal 22 to generate a sound signal with reduced noise, and outputs the sound signal with reduced noise as an output signal 27. The adaptive filter 18 collects a reference sound including a noise component by using the reference sound microphone 12 in order to reduce a noise component included in the collected sound signal (sound signal) 21, and collects the reference sound based on the reference sound. A noise component that may be included in the sound signal 21 is generated in a pseudo manner. The adaptive filter 18 can perform noise reduction processing by subtracting the pseudo-generated noise component from the collected sound signal 21.

ここで、参照音用マイクロフォン12に音声成分が多く混入すると、音声信号のレベルが低下するか、またはエコー成分となり音声信号の明瞭度が低下するおそれがある。よって、例えば、参照音用マイクロフォン12に音声成分が混入する場合の許容値を予め求めておき、音声成分の混入が許容値の範囲内であれば適応フィルタ18によるノイズ低減処理を行う。また、音声成分の混入が許容値の範囲外であれば、適応フィルタ18におけるノイズ低減処理を省略し、音声用マイクロフォン11の収音信号(音声信号)21をそのまま出力してもよい。   Here, when a large amount of audio component is mixed in the reference sound microphone 12, the level of the audio signal may decrease, or it may become an echo component and the intelligibility of the audio signal may decrease. Therefore, for example, an allowable value in the case where an audio component is mixed in the reference sound microphone 12 is obtained in advance, and if the mixing of the audio component is within the allowable value range, noise reduction processing by the adaptive filter 18 is performed. If the mixing of audio components is outside the allowable range, the noise reduction processing in the adaptive filter 18 may be omitted and the sound collection signal (audio signal) 21 of the audio microphone 11 may be output as it is.

また、音声成分の混入が許容値の範囲外の場合、音声用マイクロフォン11に主としてノイズ成分が、参照音用マイクロフォン12に主として音声成分が収音されている場合も想定される。この場合は、適応フィルタ18において、収音信号21と収音信号22とを入れ替えてもよい。つまり、参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱うことで、適応フィルタ18において適切にノイズ低減処理を実施することができる。   In addition, when the mixing of audio components is outside the allowable range, it is also assumed that noise components are mainly collected in the audio microphone 11 and audio components are mainly collected in the reference sound microphone 12. In this case, the sound collection signal 21 and the sound collection signal 22 may be interchanged in the adaptive filter 18. That is, the noise reduction processing can be appropriately performed in the adaptive filter 18 by treating the sound collection signal 22 of the reference sound microphone 12 as a sound signal and treating the sound collection signal 21 of the sound microphone 11 as a reference signal. .

適応フィルタ制御部17は、上記処理を実施するための制御信号26を適応フィルタ18に出力する。また、適応フィルタ制御部17に供給される音声区間情報24は、適応フィルタ18における適応フィルタ係数の更新のタイミングを決定する情報である。例えば、音声区間判定器において音声区間ではない(つまり、ノイズ区間)と判断された場合は、積極的にノイズ成分を低減するために、適応フィルタ18の適応フィルタ係数の更新を実施してもよい。一方、例えば、音声区間判定器において音声区間と判断された場合は、既存の適応フィルタ係数を用いて、ノイズ低減処理を実施してもよい。   The adaptive filter control unit 17 outputs a control signal 26 for performing the above processing to the adaptive filter 18. The speech section information 24 supplied to the adaptive filter control unit 17 is information for determining the update timing of the adaptive filter coefficient in the adaptive filter 18. For example, when the speech segment determination unit determines that it is not a speech segment (that is, a noise segment), the adaptive filter coefficient of the adaptive filter 18 may be updated in order to actively reduce the noise component. . On the other hand, for example, when it is determined that the speech section is determined to be a speech section, noise reduction processing may be performed using an existing adaptive filter coefficient.

また、例えば、図4に示す音声方向検知器16において求められた、音声用マイクロフォン11の収音信号21に含まれる音声成分の位相と、参照音用マイクロフォン12の収音信号22に含まれる音声成分の位相との位相差を位相差PD1とする。また、所定の値をT(正の値)とする。   Further, for example, the phase of the sound component included in the sound collection signal 21 of the sound microphone 11 and the sound included in the sound collection signal 22 of the reference sound microphone 12 obtained by the sound direction detector 16 shown in FIG. The phase difference from the component phase is defined as a phase difference PD1. The predetermined value is T (positive value).

適応フィルタ制御部17は、位相差PD1≧Tの関係が成り立つ場合は、例えば適応フィルタ18において通常のノイズ低減処理を行うよう制御する。すなわち、この場合は音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも早いので、適応フィルタ18は、収音信号(音声信号)21に含まれるノイズ成分を収音信号(参照信号)22を用いて低減することで出力信号27を生成する。このとき、音声区間判定器15は、音声用マイクロフォン11の収音信号21に基づいて音声区間を判定することができる。   If the relationship of phase difference PD1 ≧ T is established, the adaptive filter control unit 17 controls the adaptive filter 18 to perform normal noise reduction processing, for example. That is, in this case, since the phase of the sound pickup signal 21 of the sound microphone 11 is earlier than the phase of the sound pickup signal 22 of the reference sound microphone 12, the adaptive filter 18 is included in the sound pickup signal (voice signal) 21. An output signal 27 is generated by reducing the noise component using the collected sound signal (reference signal) 22. At this time, the voice section determination unit 15 can determine the voice section based on the sound collection signal 21 of the voice microphone 11.

適応フィルタ制御部17は、位相差PD1≦−Tの関係が成り立つ場合は、例えば適応フィルタ18において、収音信号21と収音信号22とを入れ替えるよう制御してもよい。すなわち、この場合は、参照用マイクロフォン12の収音信号22の位相が音声用マイクロフォン11の収音信号21の位相よりも早いので、適応フィルタ制御部17は参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱う。そして、適応フィルタ制御部17は適応フィルタ18において、収音信号(音声信号)22に含まれるノイズ成分を収音信号(参照信号)21を用いて低減するよう制御することで出力信号27を生成することができる。このとき、音声区間判定器15は、参照音用マイクロフォン12の収音信号22に基づいて音声区間を判定してもよい(図8の構成の場合)。参照用マイクロフォン12の収音信号22の位相が音声用マイクロフォン11の収音信
号21の位相よりも早い場合には、参照用マイクロフォン12の収音信号22のほうが音声用マイクロフォン11の収音信号21よりも音声区間検出に適しているからである。
If the relationship of phase difference PD1 ≦ −T is established, the adaptive filter control unit 17 may perform control so that the sound collection signal 21 and the sound collection signal 22 are switched in the adaptive filter 18, for example. That is, in this case, since the phase of the sound collection signal 22 of the reference microphone 12 is earlier than the phase of the sound collection signal 21 of the sound microphone 11, the adaptive filter control unit 17 performs the sound collection signal 22 of the reference sound microphone 12. Is treated as a sound signal, and the sound collection signal 21 of the sound microphone 11 is treated as a reference signal. Then, the adaptive filter control unit 17 generates an output signal 27 by controlling the adaptive filter 18 to reduce the noise component included in the collected sound signal (audio signal) 22 using the collected sound signal (reference signal) 21. can do. At this time, the speech section determination unit 15 may determine the speech section based on the sound collection signal 22 of the reference sound microphone 12 (in the case of the configuration in FIG. 8). When the phase of the sound pickup signal 22 of the reference microphone 12 is earlier than the phase of the sound pickup signal 21 of the sound microphone 11, the sound pickup signal 22 of the reference microphone 12 is more than the sound pickup signal 21 of the sound microphone 11. This is because it is more suitable for voice segment detection.

適応フィルタ制御部17は、−T<位相差PD1<Tの関係が成り立つ場合は、収音信号21、22は、適応フィルタ18におけるノイズ低減処理に不向きな信号であると判断することができる。この場合は、適応フィルタ18は収音信号21または収音信号22をそのまま出力してもよい。すなわち、音声用マイクロフォン11の収音信号21の位相と参照音用マイクロフォン12の収音信号22の位相の位相差の絶対値が所定の値(T)よりも小さい場合、適応フィルタ18はノイズ低減処理をすることなく収音信号21または収音信号22を出力信号27として出力してもよい。   The adaptive filter control unit 17 can determine that the collected sound signals 21 and 22 are unsuitable for noise reduction processing in the adaptive filter 18 when the relationship −T <phase difference PD1 <T holds. In this case, the adaptive filter 18 may output the collected sound signal 21 or the collected sound signal 22 as they are. That is, when the absolute value of the phase difference between the phase of the sound pickup signal 21 of the sound microphone 11 and the phase of the sound pickup signal 22 of the reference sound microphone 12 is smaller than a predetermined value (T), the adaptive filter 18 reduces noise. The sound collection signal 21 or the sound collection signal 22 may be output as the output signal 27 without processing.

なお、この場合、位相差PD1が小さい収音信号21、22はノイズ低減処理に不向きな信号であるため、少しでも良い条件を選択するために、適応フィルタ制御部17は、さらに、音の大きさを判定し、例えば音声用マイクロフォン11で収音された音の大きさが参照音用マイクロフォン12で収音された音の大きさよりも大きい場合、収音信号21を出力信号27として出力するよう制御してもよい。また、適応フィルタ制御部17は、例えば音声用マイクロフォン11で収音された音の大きさが参照音用マイクロフォン12で収音された音の大きさよりも小さい場合、収音信号22を出力信号27として出力してもよい。   In this case, since the collected sound signals 21 and 22 having a small phase difference PD1 are unsuitable for noise reduction processing, the adaptive filter control unit 17 further selects the sound level in order to select a slightly better condition. For example, if the volume of the sound collected by the voice microphone 11 is larger than the volume of the sound collected by the reference microphone 12, the collected sound signal 21 is output as the output signal 27. You may control. The adaptive filter control unit 17 also outputs the collected sound signal 22 as an output signal 27 when the loudness of sound collected by the speech microphone 11 is smaller than the loudness of sound collected by the reference sound microphone 12, for example. May be output as

収音信号21と収音信号22のパワー情報に基づいて音声の到来方向を検知した場合(図5参照)は、次の様に処理をすることができる。ここで、音声用マイクロフォン11の収音信号21の大きさと、参照音用マイクロフォン12の収音信号22の大きさとの差をパワー差PD2とする。また、所定の値をP(正の値)とする。   When the direction of voice arrival is detected based on the power information of the sound collection signal 21 and the sound collection signal 22 (see FIG. 5), the following processing can be performed. Here, the difference between the magnitude of the collected sound signal 21 of the voice microphone 11 and the magnitude of the collected sound signal 22 of the reference sound microphone 12 is referred to as a power difference PD2. The predetermined value is P (positive value).

パワー差PD2≧Pの関係が成り立つ場合は、例えば適応フィルタ18において通常のノイズ低減処理を行う。すなわち、この場合は音声用マイクロフォン11の収音信号21の大きさが参照音用マイクロフォン12の収音信号22の大きさよりも大きいので、適応フィルタ18は、収音信号(音声信号)21に含まれるノイズ成分を収音信号(参照信号)22を用いて低減することで出力信号27を生成する。このとき、音声区間判定器15は、音声用マイクロフォン11の収音信号21に基づいて音声区間を判定することができる。   When the relationship of power difference PD2 ≧ P holds, for example, the adaptive filter 18 performs normal noise reduction processing. That is, in this case, since the magnitude of the collected sound signal 21 of the voice microphone 11 is larger than the magnitude of the collected sound signal 22 of the reference sound microphone 12, the adaptive filter 18 is included in the collected sound signal (voice signal) 21. The output signal 27 is generated by reducing the noise component generated by using the collected sound signal (reference signal) 22. At this time, the voice section determination unit 15 can determine the voice section based on the sound collection signal 21 of the voice microphone 11.

パワー差PD2≦−Pの関係が成り立つ場合は、例えば適応フィルタ18において、収音信号21と収音信号22とを入れ替えてもよい。すなわち、この場合は参照用マイクロフォン12の収音信号22の大きさが音声用マイクロフォン11の収音信号21の大きさよりも大きいので、参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱う。そして、適応フィルタ18において、収音信号(音声信号)22に含まれるノイズ成分を収音信号(参照信号)21を用いて低減することで出力信号27を生成することができる。このとき、音声区間判定器15は、参照音用マイクロフォン12の収音信号22に基づいて音声区間を判定してもよい。   When the relationship of power difference PD2 ≦ −P is established, for example, the sound collection signal 21 and the sound collection signal 22 may be interchanged in the adaptive filter 18. That is, in this case, since the magnitude of the collected sound signal 22 of the reference microphone 12 is larger than the magnitude of the collected sound signal 21 of the sound microphone 11, the collected sound signal 22 of the reference sound microphone 12 is treated as a sound signal. The collected sound signal 21 of the sound microphone 11 is handled as a reference signal. Then, in the adaptive filter 18, the output signal 27 can be generated by reducing the noise component included in the collected sound signal (audio signal) 22 using the collected sound signal (reference signal) 21. At this time, the speech section determination unit 15 may determine the speech section based on the sound collection signal 22 of the reference sound microphone 12.

−P<パワー差PD2<Pの関係が成り立つ場合は、収音信号21、22は、適応フィルタ18におけるノイズ低減処理に不向きな信号であると判断することができる。この場合は、適応フィルタ18は収音信号21または収音信号22をそのまま出力してもよい。すなわち、音声用マイクロフォン11の収音信号21の大きさと参照音用マイクロフォン12の収音信号22の大きさのパワー差の絶対値が所定の値(P)よりも小さい場合、適応フィルタ18はノイズ低減処理をすることなく収音信号21または収音信号22を出力信号27として出力してもよい。   When the relationship of -P <power difference PD2 <P is established, it is possible to determine that the collected sound signals 21 and 22 are unsuitable for noise reduction processing in the adaptive filter 18. In this case, the adaptive filter 18 may output the collected sound signal 21 or the collected sound signal 22 as they are. That is, when the absolute value of the power difference between the magnitude of the sound pickup signal 21 of the sound microphone 11 and the magnitude of the sound pickup signal 22 of the reference sound microphone 12 is smaller than a predetermined value (P), the adaptive filter 18 is noisy. The sound collection signal 21 or the sound collection signal 22 may be output as the output signal 27 without performing the reduction process.

なお、この場合、パワー差PD2が小さい収音信号21、22はノイズ低減処理に不向きな信号であるため、少しでも良い条件を選択するために、適応フィルタ制御部17は、さらに、位相を判定し、例えば音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも早い場合、収音信号21を出力信号27として出力してもよい。また、例えば音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも遅い場合、収音信号22を出力信号27として出力してもよい。   In this case, since the collected sound signals 21 and 22 having a small power difference PD2 are signals unsuitable for noise reduction processing, the adaptive filter control unit 17 further determines the phase in order to select a condition that is a little better. For example, when the phase of the sound collection signal 21 of the sound microphone 11 is earlier than the phase of the sound collection signal 22 of the reference sound microphone 12, the sound collection signal 21 may be output as the output signal 27. For example, when the phase of the sound collection signal 21 of the sound microphone 11 is slower than the phase of the sound collection signal 22 of the reference sound microphone 12, the sound collection signal 22 may be output as the output signal 27.

図6は、適応フィルタ18の一例を示すブロック図である。適応フィルタ18は、遅延素子71_1〜71_n、乗算器72_1〜72_n+1、加算器73_1〜73_n、適応係数調整部74、減算器75、出力信号選択部76、およびセレクタ77を備える。   FIG. 6 is a block diagram illustrating an example of the adaptive filter 18. The adaptive filter 18 includes delay elements 71_1 to 71_n, multipliers 72_1 to 72_n + 1, adders 73_1 to 73_n, an adaptive coefficient adjustment unit 74, a subtractor 75, an output signal selection unit 76, and a selector 77.

セレクタ77は、適応フィルタ制御部17から出力された制御信号26(例えば、音声方向情報25)に応じて、収音信号21および収音信号22をそれぞれ音声信号81および参照信号82として出力する場合と、収音信号21および収音信号22をそれぞれ参照信号82および音声信号81として出力する場合とを切り替える。例えば、セレクタ77は、音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも早い場合、収音信号21および収音信号22をそれぞれ音声信号81および参照信号82として出力する。一方、セレクタ77は、参照用マイクロフォン12の収音信号22の位相が音声用マイクロフォン11の収音信号21の位相よりも早い場合、収音信号21および収音信号22をそれぞれ参照信号82および音声信号81として出力する。   When the selector 77 outputs the sound collection signal 21 and the sound collection signal 22 as the sound signal 81 and the reference signal 82, respectively, according to the control signal 26 (for example, the sound direction information 25) output from the adaptive filter control unit 17. And the case where the sound collection signal 21 and the sound collection signal 22 are output as the reference signal 82 and the sound signal 81, respectively. For example, when the phase of the sound collection signal 21 of the sound microphone 11 is earlier than the phase of the sound collection signal 22 of the reference sound microphone 12, the selector 77 converts the sound collection signal 21 and the sound collection signal 22 into the sound signal 81 and the sound collection signal 22, respectively. The reference signal 82 is output. On the other hand, when the phase of the sound collection signal 22 of the reference microphone 12 is earlier than the phase of the sound collection signal 21 of the sound microphone 11, the selector 77 converts the sound collection signal 21 and the sound collection signal 22 into the reference signal 82 and the sound, respectively. The signal 81 is output.

また、例えば、セレクタ77は、音声用マイクロフォン11の収音信号21の大きさが参照音用マイクロフォン12の収音信号22の大きさよりも大きい場合、収音信号21および収音信号22をそれぞれ音声信号81および参照信号82として出力する。一方、セレクタ77は、参照用マイクロフォン12の収音信号22の大きさが音声用マイクロフォン11の収音信号21の大きさよりも大きい場合、収音信号21および収音信号22をそれぞれ参照信号82および音声信号81として出力する。 For example, when the magnitude of the sound collection signal 21 of the sound microphone 11 is larger than the sound collection signal 22 of the reference sound microphone 12, the selector 77 outputs the sound collection signal 21 and the sound collection signal 22 respectively. The signal 81 and the reference signal 82 are output. On the other hand, when the magnitude of the collected sound signal 22 of the reference microphone 12 is larger than the magnitude of the collected sound signal 21 of the sound microphone 11, the selector 77 converts the collected sound signal 21 and the collected sound signal 22 into the reference signal 82 and the collected sound signal 22, respectively. An audio signal 81 is output.

遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nは、FIRフィルタを構成する。遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nを用いて参照信号82を処理することで、擬似ノイズ信号83が生成される。   The delay elements 71_1 to 71_n, the multipliers 72_1 to 72_n + 1, and the adders 73_1 to 73_n constitute an FIR filter. The pseudo noise signal 83 is generated by processing the reference signal 82 using the delay elements 71_1 to 71_n, the multipliers 72_1 to 72_n + 1, and the adders 73_1 to 73_n.

適応係数調整部74は、制御信号26(例えば、音声方向情報25及び音声区間信号24)に応じて、乗算器72_1〜72_n+1の係数を調整する。すなわち、適応係数調整部74は、音声区間情報24がノイズ区間(非音声区間)を示している場合、適応誤差が少なくなるように係数を調整する。一方、音声区間情報24が音声区間を示している場合、適応フィルタ18の係数を維持するか、または係数を微調整するのみとする。更に、適応係数調整部74は、適切ではない方向から音声が到来していることを音声方向情報25が示している場合、適応フィルタ18の係数を維持するか、または係数を微調整するのみとする。適切ではない方向から音声が到来していることを音声方向情報25が示している場合、ノイズ低減処理によるノイズ低減効果を意識的に落とすことにより音声成分がキャンセルされることを抑制することができる。なお、音声区間情報24がノイズ区間(非音声区間)を示し、且つ、適切ではない方向から音声が到来していることを音声方向情報25が示している場合であっても、係数調整部74は適応フィルタ18の係数を維持するか、または係数を微調整するのみとする。従って、音声成分が入力されたときに、キャンセルされることを抑制することができる。   The adaptive coefficient adjustment unit 74 adjusts the coefficients of the multipliers 72_1 to 72_n + 1 according to the control signal 26 (for example, the voice direction information 25 and the voice section signal 24). That is, the adaptive coefficient adjustment unit 74 adjusts the coefficient so that the adaptive error is reduced when the speech section information 24 indicates a noise section (non-speech section). On the other hand, when the speech section information 24 indicates a speech section, the coefficient of the adaptive filter 18 is maintained or only the coefficient is finely adjusted. Furthermore, when the voice direction information 25 indicates that the voice is coming from an inappropriate direction, the adaptive coefficient adjusting unit 74 maintains the coefficient of the adaptive filter 18 or only finely adjusts the coefficient. To do. When the voice direction information 25 indicates that the voice is coming from an inappropriate direction, it is possible to suppress the cancellation of the voice component by intentionally reducing the noise reduction effect by the noise reduction processing. . Even when the voice section information 24 indicates a noise section (non-voice section) and the voice direction information 25 indicates that voice is coming from an inappropriate direction, the coefficient adjustment unit 74 Maintains the coefficients of the adaptive filter 18 or only fine tunes the coefficients. Therefore, it is possible to suppress cancellation when a voice component is input.

減算器75は、音声信号81から疑似ノイズ信号83を差し引くことで、ノイズ低減処理後の信号84を生成し、出力信号選択部76に出力する。また、減算器75は、音声信号81から疑似ノイズ信号83を差し引くことで、フィードバック用の信号85を生成し、適応係数調整部74に出力する。なお、ノイズ低減処理後の信号84とフィードバック用の信号85は同一信号である。   The subtractor 75 generates a signal 84 after noise reduction processing by subtracting the pseudo noise signal 83 from the audio signal 81 and outputs the signal 84 to the output signal selection unit 76. Also, the subtractor 75 generates a feedback signal 85 by subtracting the pseudo noise signal 83 from the audio signal 81 and outputs the feedback signal 85 to the adaptive coefficient adjustment unit 74. The noise-reduced signal 84 and the feedback signal 85 are the same signal.

出力信号選択部76は、適応フィルタ制御部17から出力された制御信号26(例えば、音声方向情報25)に応じて、音声信号81を出力信号27としてそのまま出力するか、またはノイズ低減処理後の信号84を出力信号27として出力するかを選択する。例えば、適切ではない方向から音声が到来していることを音声方向情報25が示している場合(例えば、−T<位相差PD1<Tの場合)、出力信号選択部76は音声信号81を出力信号27としてそのまま出力する。一方、適切な方向から音声が到来していることを音声方向情報25が示している場合(例えば、位相差PD1≧T、位相差PD1≦−Tの場合)、出力信号選択部76はノイズ低減処理後の信号84を出力信号27として出力する。   The output signal selection unit 76 outputs the audio signal 81 as it is as the output signal 27 according to the control signal 26 (for example, the audio direction information 25) output from the adaptive filter control unit 17, or after noise reduction processing. Whether to output the signal 84 as the output signal 27 is selected. For example, when the voice direction information 25 indicates that voice is coming from an inappropriate direction (for example, when −T <phase difference PD1 <T), the output signal selection unit 76 outputs the voice signal 81. The signal 27 is output as it is. On the other hand, when the voice direction information 25 indicates that the voice is coming from an appropriate direction (for example, when the phase difference PD1 ≧ T and the phase difference PD1 ≦ −T), the output signal selection unit 76 reduces the noise. The processed signal 84 is output as the output signal 27.

次に、本実施の形態にかかるノイズ低減装置1の動作について説明する。図7は、本実施の形態にかかるノイズ低減装置1の動作を説明するためのフローチャートである。このフローチャートは例えば、音の受信が開始されたときに開始される。   Next, operation | movement of the noise reduction apparatus 1 concerning this Embodiment is demonstrated. FIG. 7 is a flowchart for explaining the operation of the noise reduction apparatus 1 according to the present embodiment. This flowchart is started, for example, when reception of sound is started.

音声方向検知器16で生成される音声方向情報25は、音声区間であることが確実な場合に更新される。よって、予め音声方向情報25を初期化し、所定の初期値に設定する(ステップS1)。ここで初期値とは、例えばノイズ低減装置を備える機器が適切な状態で使用された場合(マイクロフォンの位置が適切な状態で使用された場合)に設定されるパラメータである。   The voice direction information 25 generated by the voice direction detector 16 is updated when it is certain that it is a voice section. Therefore, the voice direction information 25 is initialized in advance and set to a predetermined initial value (step S1). Here, the initial value is a parameter that is set when, for example, a device including a noise reduction device is used in an appropriate state (when the position of the microphone is used in an appropriate state).

次に、音声区間判定器15を用いて、音声用マイクロフォン11において収音された音が音声区間であるか否かを判定する(ステップS2)。この際、音声区間と判定するための条件を厳しくすることで、音声区間を確実に判定することができる。なお、図1に示すノイズ低減装置1では、音声は音声用マイクロフォン11において収音される確率が高いことを前提とし、音声区間判定器15が、音声用マイクロフォン11の収音信号21のみに基づき音声区間を判定する場合を示した。しかしながら、ノイズ低減装置の使用状況によっては、音声用マイクロフォン11よりも参照音用マイクロフォン12の方が多く音声を収音する場合も考えられる。よって、図8に示すノイズ低減装置2のように、音声区間判定器19が音声用マイクロフォン11の収音信号21および参照音用マイクロフォン12の収音信号22に基づき、音声区間を判定するように構成してもよい。   Next, it is determined whether or not the sound collected by the voice microphone 11 is a voice section using the voice section determination unit 15 (step S2). At this time, the voice section can be reliably determined by tightening the conditions for determining the voice section. In the noise reduction apparatus 1 shown in FIG. 1, it is assumed that the voice has a high probability of being picked up by the voice microphone 11, and the voice section determination unit 15 is based only on the sound pickup signal 21 of the voice microphone 11. The case where the speech section is determined is shown. However, depending on how the noise reduction device is used, there may be cases where the reference sound microphone 12 collects more sound than the sound microphone 11. Therefore, as in the noise reduction device 2 shown in FIG. 8, the speech section determination unit 19 determines the speech section based on the sound collection signal 21 of the sound microphone 11 and the sound collection signal 22 of the reference sound microphone 12. It may be configured.

音声区間判定器15は、音声区間を検出した場合(ステップS3:Yes)、音声方向検知器16および適応フィルタ制御部17に音声区間情報23、24をそれぞれ出力する。そして、音声方向検知器16は、収音信号21と収音信号22とに基づき、音声の到来方向を検知する(ステップS4)。音声の到来方向を検知する方法は、例えば収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する方法や、音声用マイクロフォン11の収音信号21の大きさと参照音用マイクロフォン12の収音信号22の大きさに関するパワー情報(つまり、収音信号の差や比)に基づき、音声の到来方向を検知する方法等がある。   When the voice section is detected (step S3: Yes), the voice section determination unit 15 outputs the voice section information 23 and 24 to the voice direction detector 16 and the adaptive filter control unit 17, respectively. Then, the voice direction detector 16 detects the voice arrival direction based on the collected sound signal 21 and the collected sound signal 22 (step S4). The method for detecting the voice arrival direction is, for example, a method for detecting the voice arrival direction based on the phase difference between the sound pickup signal 21 and the sound pickup signal 22, or the size of the sound pickup signal 21 of the sound microphone 11 and the reference sound. For example, there is a method of detecting the direction of voice arrival based on the power information (that is, the difference or ratio of the collected sound signals) relating to the magnitude of the collected sound signal 22 of the microphone 12.

音声方向検知器16は、音声方向情報25を、新規に求めた音声の到来方向に更新する(ステップS5)。一方、音声区間判定器15において音声区間ではないと判断された場合(ステップS3:No)、音声方向検知器16は新規に音声の到来方向の検知を実施しないので、音声方向情報25は更新されない。音声区間以外の場合には、上記したような収音信号21と収音信号22の位相差やパワー情報を検出したとしても、収音信号21と収音信号22には音声が含まれていない可能性が高いためである。   The voice direction detector 16 updates the voice direction information 25 with the newly obtained voice arrival direction (step S5). On the other hand, when it is determined by the speech segment determining unit 15 that the speech segment is not a speech segment (step S3: No), the speech direction detector 16 does not newly detect the voice arrival direction, so the speech direction information 25 is not updated. . In a case other than the voice section, even if the phase difference or power information between the collected sound signal 21 and the collected sound signal 22 as described above is detected, the collected sound signal 21 and the collected sound signal 22 do not include sound. This is because the possibility is high.

ここで上述したように、音声方向検知器16で生成される音声方向情報25は、音声区間であることが確実な場合に更新されることが好ましい。図1に示すノイズ低減装置1では、音声区間情報23と音声区間情報24は1つの音声区間判定器15から同時に出力される信号であったが、変形例として、音声方向検知器16に出力される音声区間情報は、適応フィルタ制御部17に出力される音声区間情報よりも条件を厳しくして判定された音声区間情報としてもよい。
言い換えれば、音声方向検知器16に出力される音声区間情報は、適応フィルタ制御部17に出力される音声区間情報よりも更に高い確率で音声区間であると判定された音声区間情報としてもよい。
As described above, the voice direction information 25 generated by the voice direction detector 16 is preferably updated when it is certain that the voice section is a voice section. In the noise reduction apparatus 1 shown in FIG. 1, the voice section information 23 and the voice section information 24 are signals that are simultaneously output from one voice section determiner 15, but are output to the voice direction detector 16 as a modification. The speech segment information may be speech segment information determined with stricter conditions than the speech segment information output to the adaptive filter control unit 17.
In other words, the voice segment information output to the voice direction detector 16 may be voice segment information determined to be a voice segment with a higher probability than the voice segment information output to the adaptive filter control unit 17.

より具体的な1つ目の例として、1つの音声区間判定器15に第1の条件と第1の条件より厳しい第2の条件の2つの条件を設定し同時に2つの音声区間判定を行いながら、それぞれ適用フィルタ制御部17と音声方向検知器16に出力する。また、より具体的な2つ目の例として、音声区間判定器15の代わりに適応フィルタ制御用の第1音声区間判定器(図示せず)と適応フィルタ制御用とは別の音声方向検知用の第2音声区間判定器(図示せず)を設けておき、第1音声区間判定器及び第2音声区間判定器の両方にADコンバータ13から収音信号21を入力する。第1音声区間判定器は、収音信号21に基づき第1の条件で音声区間判定を行い、音声区間判定を行った結果の第1音声区間情報を適応フィルタ制御部17に対し出力する。第2音声区間判定器は、収音信号21に基づき第1の条件より厳しい第2の条件で音声区間判定を行い、音声区間判定を行った結果の第2音声区間情報を音声方向検知器16に対し出力する。 As a more specific first example, two conditions, a first condition and a second condition that is stricter than the first condition, are set in one voice section determiner 15 and two voice sections are determined simultaneously. , Respectively, to the applied filter control unit 17 and the voice direction detector 16. As a more specific second example, instead of the speech segment determining unit 15, a first speech segment determining unit (not shown) for adaptive filter control and a speech direction detecting unit different from the adaptive filter controlling unit are used. The second voice segment determiner (not shown) is provided, and the sound collection signal 21 is input from the AD converter 13 to both the first voice segment determiner and the second voice segment determiner. The first speech segment determiner performs speech segment determination under the first condition based on the collected sound signal 21, and outputs first speech segment information as a result of performing speech segment determination to the adaptive filter control unit 17. The second speech segment determination device performs speech segment determination under a second condition that is stricter than the first condition based on the collected sound signal 21, and the second speech segment information obtained as a result of the speech segment determination is used as the speech direction detector 16. Is output.

第2の条件を第1の条件より厳しくする方法として、例えば、第1音声区間判定器および第2音声区間判定器に音声区間判定技術Aを用いる場合の例としては、ピーク検出部37でスペクトル毎のSNRを取得し、対象となるスペクトルが音声の特徴であるピークを有するか判定する際に、SNRと予め定められた第1閾値を用いて判断していたが、この第1閾値を第2音声区間判定器では第1音声区間判定器よりSNRの値として大きい値に設定することなどが考えられる。 As a method of making the second condition stricter than the first condition, for example, as an example of using the speech segment determination technique A for the first speech segment determiner and the second speech segment determiner, Each SNR is acquired, and when determining whether the target spectrum has a peak that is a feature of speech, it is determined using the SNR and a predetermined first threshold. For example, it may be possible to set the SNR value to a larger value in the two speech segment determiner than in the first speech segment determiner.

これらの変形例によれば、適応フィルタ制御に利用する音声区間判定においては、音声区間と判定する条件を甘めとする(音声区間と判定されやすい閾値の設定とする)ことで、ノイズの多い環境下で、正確な音声区間判定ができずに音声を消し去ってしまうことを抑止し、かつ、音声方向検知に利用する音声区間判定においては、音声区間と判定する条件を厳しくとする(音声区間と判定されにくい閾値の設定とする)ことで、話者の位置を正確に判定することが可能となる。すなわち、通話中は、マイクロフォンと話者の位置は、固定される場合が多いため、音声方向検知器は厳しい条件で音声区間と検知された場合にのみ、音声方向情報を更新すればよい。従って、音声方向検知器に出力するための音声区間判定は条件を厳しくとする(音声区間と判定されにくい閾値の設定とする)ことが有効である。 According to these modified examples, in the voice section determination used for adaptive filter control, the condition for determining the voice section is relaxed (the threshold is set to be easily determined as the voice section), so that there is a lot of noise. In the environment, it is possible to prevent the voice from being erased without being able to accurately determine the voice segment, and in the voice segment determination used for voice direction detection, the condition for determining the voice segment is made strict (voice By setting a threshold value that is difficult to determine as a section), it is possible to accurately determine the position of the speaker. That is, since the positions of the microphone and the speaker are often fixed during a call, the voice direction detector needs to update the voice direction information only when the voice section is detected under severe conditions. Therefore, it is effective to make the condition of the speech section to be output to the speech direction detector strict (setting a threshold value that is difficult to determine the speech section).

次に、適応フィルタ制御部17は、音声方向検知器16から過去に行った音声方向の更新に基づいた現時点における音声方向情報25を取得する(ステップS6)。そして、参照音用マイクロフォン12で収音された参照音が、音声用マイクロフォン11で収音された音に含まれるノイズ成分の低減に利用可能か否か判断する(ステップS7)。   Next, the adaptive filter control unit 17 acquires the current voice direction information 25 based on the voice direction update performed in the past from the voice direction detector 16 (step S6). Then, it is determined whether or not the reference sound collected by the reference sound microphone 12 can be used to reduce noise components contained in the sound collected by the sound microphone 11 (step S7).

適応フィルタ制御部17は、参照音用マイクロフォン12で収音された参照音を用いてノイズ低減処理を実施可能であると判断した場合(ステップS7:Yes)、適応フィルタ18によるノイズ低減処理を実施する(ステップS8)。一方、適応フィルタ制御部17は、参照音用マイクロフォン12で収音された参照音を用いてノイズ低減処理を実施するのは不可能であると判断した場合(ステップS7:No)、適応フィルタ18によるノイズ低減処理を実施しない。   When the adaptive filter control unit 17 determines that the noise reduction process can be performed using the reference sound collected by the reference sound microphone 12 (step S7: Yes), the adaptive filter control unit 17 performs the noise reduction process by the adaptive filter 18 (Step S8). On the other hand, when the adaptive filter control unit 17 determines that it is impossible to perform the noise reduction process using the reference sound collected by the reference sound microphone 12 (step S7: No), the adaptive filter 18 Noise reduction processing by is not performed.

例えば、音声用マイクロフォン11の収音信号21に含まれる音声成分の位相と、参照音用マイクロフォン12の収音信号22に含まれる音声成分の位相との位相差を用いて、音声方向を検知した場合は、以下のように処理をする。   For example, the sound direction is detected using the phase difference between the phase of the sound component included in the sound collection signal 21 of the sound microphone 11 and the phase of the sound component included in the sound collection signal 22 of the reference sound microphone 12. If so, proceed as follows:

位相差PD1≧Tの関係が成り立つ場合(ステップS7:Yes)、例えば適応フィルタ18において通常のノイズ低減処理を行う(ステップS8)。一方、位相差PD1≦−Tの関係が成り立つ場合(ステップS7:Yes)、例えば参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱う。そして、適応フィルタ18において、収音信号22に含まれるノイズ成分を収音信号21を用いて低減することで出力信号27を生成することができる(ステップS8)。   When the relationship of phase difference PD1 ≧ T is established (step S7: Yes), for example, normal noise reduction processing is performed in the adaptive filter 18 (step S8). On the other hand, when the relationship of the phase difference PD1 ≦ −T is established (step S7: Yes), for example, the collected sound signal 22 of the reference sound microphone 12 is treated as a sound signal, and the collected sound signal 21 of the sound microphone 11 is used as a reference signal. deal with. Then, the adaptive filter 18 can generate the output signal 27 by reducing the noise component included in the collected sound signal 22 using the collected sound signal 21 (step S8).

また、−T<位相差PD1<Tの関係が成り立つ場合、音声用マイクロフォン11と音源との距離及び参照音用マイクロフォン12と音源との距離が同等である可能性が高いので、収音信号21、22は、適応フィルタ18におけるノイズ低減処理に不向きな信号であると判断することができる(ステップS7:No)。この場合は、適応フィルタ18はノイズ低減処理を実施することなく、収音信号21または収音信号22を出力信号としてそのまま出力する。   Further, when the relationship of -T <phase difference PD1 <T is established, there is a high possibility that the distance between the sound microphone 11 and the sound source and the distance between the reference sound microphone 12 and the sound source are equal to each other. , 22 can be determined to be unsuitable signals for noise reduction processing in the adaptive filter 18 (step S7: No). In this case, the adaptive filter 18 outputs the collected sound signal 21 or the collected sound signal 22 as an output signal without performing noise reduction processing.

この場合、例えば音声用マイクロフォン11の収音信号21の大きさが参照音用マイクロフォン12の収音信号22の大きさよりも大きい場合、収音信号21を出力信号27として出力してもよい。また、例えば音声用マイクロフォン11の収音信号21の大きさが参照音用マイクロフォン12の収音信号22の大きさよりも小さい場合、収音信号22を出力信号27として出力してもよい。   In this case, for example, when the magnitude of the sound collection signal 21 of the sound microphone 11 is larger than the magnitude of the sound collection signal 22 of the reference sound microphone 12, the sound collection signal 21 may be output as the output signal 27. For example, when the sound collection signal 21 of the sound microphone 11 is smaller than the sound collection signal 22 of the reference sound microphone 12, the sound collection signal 22 may be output as the output signal 27.

また、例えば、音声用マイクロフォン11の収音信号21の大きさと、参照音用マイクロフォン12の収音信号22の大きさとを用いて、音声方向を検知した場合は、以下のように処理をする。   For example, when the direction of sound is detected using the magnitude of the sound pickup signal 21 of the sound microphone 11 and the sound pickup signal 22 of the reference sound microphone 12, the following processing is performed.

パワー差PD2≧Pの関係が成り立つ場合(ステップS7:Yes)、例えば適応フィルタ18において通常のノイズ低減処理を行う(ステップS8)。一方、パワー差PD2≦−Pの関係が成り立つ場合(ステップS7:Yes)、例えば参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱う。そして、適応フィルタ18において、収音信号22に含まれるノイズ成分を収音信号21を用いて低減することで出力信号27を生成することができる(ステップS8)。   When the relationship of power difference PD2 ≧ P is established (step S7: Yes), for example, normal noise reduction processing is performed in the adaptive filter 18 (step S8). On the other hand, when the relationship of power difference PD2 ≦ −P is established (step S7: Yes), for example, the collected sound signal 22 of the reference sound microphone 12 is treated as a sound signal, and the collected sound signal 21 of the sound microphone 11 is used as a reference signal. deal with. Then, the adaptive filter 18 can generate the output signal 27 by reducing the noise component included in the collected sound signal 22 using the collected sound signal 21 (step S8).

−P<パワー差PD2<Pの関係が成り立つ場合は、音声用マイクロフォン11と音源との距離及び参照音用マイクロフォン12と音源との距離が同等である可能性が高いので、収音信号21、22は、適応フィルタ18におけるノイズ低減処理に不向きな信号であると判断することができる(ステップS7:No)。この場合は、適応フィルタ18はノイズ低減処理を実施することなく、収音信号21または収音信号22を出力信号としてそのまま出力する。   When the relationship of -P <power difference PD2 <P holds, the distance between the sound microphone 11 and the sound source and the distance between the reference sound microphone 12 and the sound source are highly likely to be equal. 22 can be determined to be a signal unsuitable for noise reduction processing in the adaptive filter 18 (step S7: No). In this case, the adaptive filter 18 outputs the collected sound signal 21 or the collected sound signal 22 as an output signal without performing noise reduction processing.

この場合、例えば音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも早い場合、収音信号21を出力信号27として出力してもよい。また、例えば音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも遅い場合、収音信号22を出力信号27として出力してもよい。   In this case, for example, when the phase of the sound collection signal 21 of the sound microphone 11 is earlier than the phase of the sound collection signal 22 of the reference sound microphone 12, the sound collection signal 21 may be output as the output signal 27. For example, when the phase of the sound collection signal 21 of the sound microphone 11 is slower than the phase of the sound collection signal 22 of the reference sound microphone 12, the sound collection signal 22 may be output as the output signal 27.

ノイズ低減装置1は、音声用マイクロフォン11等により音(音声やノイズ)を受信しているか否かをチェックする(ステップS9)。そして、音を受信している場合(ステップS9:Yes)、ステップS2以降の処理を繰り返す。一方、音を受信していない場合(ステップS9:No)、ノイズ低減装置1によるノイズ低減処理が終了する。   The noise reduction device 1 checks whether or not sound (voice or noise) is received by the voice microphone 11 or the like (step S9). And when the sound is received (step S9: Yes), the process after step S2 is repeated. On the other hand, when the sound is not received (step S9: No), the noise reduction process by the noise reduction apparatus 1 ends.

次に、本実施の形態にかかるノイズ低減装置を用いた音声入力装置について説明する。図9は、本実施の形態にかかるノイズ低減装置を用いた音声入力装置500の一例を示す図である。図9(a)は、音声入力装置500の前面図であり、図9(b)は、音声入力装置500の背面図である。図9に示すように、音声入力装置500はコネクタ503を介して無線通信装置510に接続可能に構成されている。無線通信装置510は一般的な無線機であり、所定の周波数において他の無線通信装置と通信可能に構成されている。無線通信装置510には音声入力装置500を介して話者の音声が入力される。   Next, a voice input device using the noise reduction device according to the present embodiment will be described. FIG. 9 is a diagram illustrating an example of a voice input device 500 using the noise reduction device according to the present embodiment. FIG. 9A is a front view of the voice input device 500, and FIG. 9B is a rear view of the voice input device 500. As shown in FIG. 9, the voice input device 500 is configured to be connectable to the wireless communication device 510 via a connector 503. The wireless communication device 510 is a general wireless device, and is configured to be able to communicate with other wireless communication devices at a predetermined frequency. The voice of the speaker is input to the wireless communication device 510 via the voice input device 500.

音声入力装置500は、本体501、コード502、及びコネクタ503を有する。本体501は、話者の手で把持されるのに適するサイズ及び形状に構成されており、マイクロフォン、スピーカー、電子回路、ノイズ低減装置を内蔵する。図9(a)に示すように、本体501の前面にはスピーカー506および音声用マイクロフォン505が設けられている。図9(b)に示すように、本体501の背面には参照音用マイクロフォン508およびベルトクリップ507が設けられている。本体501の頂面には、LED509が設けられている。本体501の側面にはPTT(Push To Talk)504が設けられている。LED509は、音声入力装置500による話者の音声の検出状態を話者に対して報知する。PTT504は、無線通信装置510を音声送信状態とするためのスイッチであり、突起状部分が筐体内に押し込まれることを検出する。   The voice input device 500 includes a main body 501, a code 502, and a connector 503. The main body 501 is configured to have a size and shape suitable for being held by a speaker's hand, and includes a microphone, a speaker, an electronic circuit, and a noise reduction device. As shown in FIG. 9A, a speaker 506 and an audio microphone 505 are provided on the front surface of the main body 501. As shown in FIG. 9B, a reference sound microphone 508 and a belt clip 507 are provided on the back surface of the main body 501. An LED 509 is provided on the top surface of the main body 501. A PTT (Push To Talk) 504 is provided on a side surface of the main body 501. The LED 509 notifies the speaker of the detection state of the speaker's voice by the voice input device 500. The PTT 504 is a switch for setting the wireless communication device 510 in a voice transmission state, and detects that the protruding portion is pushed into the housing.

本実施の形態にかかるノイズ低減装置1は音声入力装置500に内蔵されており、ノイズ低減装置1が備える音声用マイクロフォン11が音声入力装置500の音声用マイクロフォン505に対応し、ノイズ低減装置1が備える参照音用マイクロフォン12が音声入力装置500の参照音用マイクロフォン508に対応している。また、ノイズ低減装置1から出力される出力信号27は、音声入力装置500のコード502を経由して無線通信装置510に供給される。すなわち、音声入力装置500は、ノイズ低減装置1でノイズ低減処理された後の出力信号27を、無線通信装置510に供給する。よって、無線通信装置510から他の無線通信装置に送信される音声はノイズ低減処理された音声となる。   The noise reduction device 1 according to the present embodiment is built in the voice input device 500. The voice microphone 11 included in the noise reduction device 1 corresponds to the voice microphone 505 of the voice input device 500, and the noise reduction device 1 is provided. The provided reference sound microphone 12 corresponds to the reference sound microphone 508 of the voice input device 500. Further, the output signal 27 output from the noise reduction device 1 is supplied to the wireless communication device 510 via the code 502 of the voice input device 500. That is, the voice input device 500 supplies the wireless communication device 510 with the output signal 27 that has been subjected to noise reduction processing by the noise reduction device 1. Therefore, the sound transmitted from the wireless communication apparatus 510 to another wireless communication apparatus is a sound subjected to noise reduction processing.

次に、本実施の形態にかかるノイズ低減装置を用いた無線通信装置(トランシーバー)600について説明する。図10は、本実施の形態にかかるノイズ低減装置を用いた無線通信装置600の一例を示す図である。図10(a)は、無線通信装置600の前面図であり、図10(b)は、無線通信装置600の背面図である。図10に示すように、無線通信装置600は、入力ボタン601、表示部602、スピーカー603、音声用マイクロフォン604、PTT(Push To Talk)605、スイッチ606、アンテナ607、参照音用マイクロフォン608、および蓋609を備える。   Next, a radio communication apparatus (transceiver) 600 using the noise reduction apparatus according to this embodiment will be described. FIG. 10 is a diagram illustrating an example of a wireless communication device 600 using the noise reduction device according to the present embodiment. FIG. 10A is a front view of the wireless communication apparatus 600, and FIG. 10B is a rear view of the wireless communication apparatus 600. As shown in FIG. 10, the wireless communication apparatus 600 includes an input button 601, a display unit 602, a speaker 603, an audio microphone 604, a PTT (Push To Talk) 605, a switch 606, an antenna 607, a reference sound microphone 608, and A lid 609 is provided.

本実施の形態にかかるノイズ低減装置1は無線通信装置600に内蔵されており、ノイズ低減装置1が備える音声用マイクロフォン11が無線通信装置600の音声用マイクロフォン604に対応し、ノイズ低減装置1が備える参照音用マイクロフォン12が無線通信装置600の参照音用マイクロフォン608に対応している。また、ノイズ低減装置1から出力される出力信号27は、無線通信装置600の内部回路において高周波処理されて、アンテナ607から他の無線通信装置に無線送信される。ここで、ノイズ低減装置1から出力される出力信号27はノイズ低減処理が実施された信号であるので、他の無線通信装置に送信される音声はノイズ低減処理された音声となる。ユーザによるPTT605の押下により音の送信が開始されたときに、図7で示したようなノイズ低減装置1の処理を開始し、ユーザがPTT608の押下を中止して、音の送信が終了したときに、図7で示したようなノイズ低減装置1の処理を終了しても良い。   The noise reduction device 1 according to the present embodiment is built in the wireless communication device 600. The voice microphone 11 included in the noise reduction device 1 corresponds to the voice microphone 604 of the wireless communication device 600. The reference sound microphone 12 provided corresponds to the reference sound microphone 608 of the wireless communication apparatus 600. Further, the output signal 27 output from the noise reduction device 1 is subjected to high frequency processing in an internal circuit of the wireless communication device 600 and is wirelessly transmitted from the antenna 607 to another wireless communication device. Here, since the output signal 27 output from the noise reduction apparatus 1 is a signal on which noise reduction processing has been performed, the voice transmitted to another wireless communication apparatus is the voice on which noise reduction processing has been performed. When sound transmission is started by the user pressing the PTT 605, the processing of the noise reduction apparatus 1 as shown in FIG. 7 is started, and the user stops pressing the PTT 608 and the sound transmission ends. In addition, the processing of the noise reduction apparatus 1 as shown in FIG.

本発明の課題で説明したように、特許文献1乃至3に開示されている技術では、周囲のノイズレベルが高い場合、音声信号に含まれるノイズ成分を適切に低減することができないという問題があった。   As described in the problem of the present invention, the techniques disclosed in Patent Documents 1 to 3 have a problem that noise components included in an audio signal cannot be appropriately reduced when the ambient noise level is high. It was.

すなわち、従来のノイズ低減装置では、周囲のノイズレベルが高い状況を考慮しておらず、音声が十分に収音できない状況においても音声の到来方向を検知しているため、ノイズ成分が多い環境下において、音声信号に含まれるノイズ成分を適切に低減することはできなかった。   In other words, the conventional noise reduction device does not consider the situation where the surrounding noise level is high, and detects the voice arrival direction even in a situation where the voice cannot be sufficiently picked up. However, the noise component contained in the audio signal cannot be reduced appropriately.

例えば、トランシーバーのような携帯型の無線通信装置は、作業用機械の動作音などかなり高いレベルの騒音が発生している工場内や雑踏や交差点などで用いられることが多い。このため、トランシーバーのような携帯型の無線通信装置では、マイクロフォンに混入するノイズ成分を低減することが求められている。   For example, a portable wireless communication device such as a transceiver is often used in a factory where there is a considerably high level of noise such as an operation sound of a work machine, a hustle and bustle, or an intersection. For this reason, in a portable wireless communication apparatus such as a transceiver, it is required to reduce noise components mixed in the microphone.

また、トランシーバーは、携帯電話と違い本体側のスピーカーから送信される音声を耳元から離した状態で聞くという使われ方をする場合がある。よって、トランシーバーは、一般的に身体から離れた状態で所持され、その持ち方についても様々なスタイルがある。更に、トランシーバー本体から収音部(マイクロフォン)と再生部(スピーカー)を分離し携帯性を高めたスピーカーマイクロフォン装置(音声入力装置)は、利便性のある使用形態を提供することができる。例えば、首からぶら下げたり肩に置いたりできるなど、話者がマイクロフォンに向かうことを意識することなく会話を行う場合や、マイク受信部表側よりむしろマイク背面に近い方向からしゃべる場合もある。よって、スピーカーマイクロフォン装置を使用する場合は、必ずしも音声が理想的な方向から到来するわけではない。   In addition, unlike a mobile phone, a transceiver may be used to listen to sound transmitted from a speaker on the main unit side away from the ear. Therefore, the transceiver is generally carried away from the body, and there are various styles for holding the transceiver. Furthermore, a speaker microphone device (voice input device) in which a sound collection unit (microphone) and a playback unit (speaker) are separated from the transceiver main body to improve portability can provide a convenient usage pattern. For example, there are cases where the speaker talks without being conscious of heading to the microphone, such as hanging from the neck or placing it on the shoulder, or speaking from a direction closer to the back of the microphone rather than the front side of the microphone receiver. Therefore, when the speaker microphone device is used, the sound does not necessarily come from an ideal direction.

したがって、このような環境下で使用されるトランシーバーやスピーカーマイクロフォン装置においてノイズ低減処理を実施するには、高いレベルのノイズで通話が妨げられる中で、音声が実際に発せられている音声区間を確実に判定し、その音声区間のみで音声の到来方向を検知する必要がある。   Therefore, in order to implement noise reduction processing in transceivers and speaker microphone devices used in such an environment, it is necessary to ensure that the speech period in which speech is actually being emitted, while speech is hindered by high level noise. Therefore, it is necessary to detect the voice arrival direction only in the voice section.

これに対して本実施の形態にかかるノイズ低減装置では、音声区間判定器15を用いることで、ノイズレベルが高い場合であっても音声が発せられている区間を判定することができる。そして、音声区間判定器15で音声区間であると判定されている場合に、音声方向検知器16で音声の到来方向を検知して音声方向情報を更新している。よって、音声方向検知器16で音声の到来方向を検知するための処理量を低減することができる。また、音声方向検知器16は音声区間において音声方向情報を更新しているので、信頼性の高い音声方向情報を得ることができる。そして、適応フィルタ18は、信頼性の高い音声方向情報と音声区間情報とに基づいて、ノイズ低減処理を実施することができるので、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができる。   On the other hand, in the noise reduction apparatus according to the present embodiment, by using the speech section determination unit 15, it is possible to determine a section where sound is emitted even when the noise level is high. Then, when it is determined that the voice section is determined to be a voice section by the voice section determiner 15, the voice direction detector 16 detects the voice arrival direction and updates the voice direction information. Therefore, it is possible to reduce the processing amount for detecting the voice arrival direction by the voice direction detector 16. Further, since the voice direction detector 16 updates the voice direction information in the voice section, it is possible to obtain highly reliable voice direction information. Since the adaptive filter 18 can perform noise reduction processing based on highly reliable voice direction information and voice section information, the noise component included in the voice signal can be appropriately obtained even under various environments. Can be reduced.

より具体的な効果としては、例えば話者の後方から到来するノイズを低減することができる。例えば、音源がさまざまな方向から到来した場合にも演算負荷が増大することなく、所定の適応フィルタの処理量で対応できる。
そして、回路規模、消費電力、及びコストが低減される。また、例えば音声用マイクロフォン及び参照用マイクロフォンの中間の位置に音源が存在する場合にも、ノイズ低減処理により、必要な音声レベルまで低下させることを防止できる。また、高いノイズレベルが混入する環境にも対処できる。
As a more specific effect, for example, noise coming from behind the speaker can be reduced. For example, even when the sound source comes from various directions, the processing load of a predetermined adaptive filter can be handled without increasing the calculation load.
And the circuit scale, power consumption, and cost are reduced. Further, for example, even when a sound source exists at an intermediate position between the voice microphone and the reference microphone, it is possible to prevent the noise level from being lowered to a necessary voice level. Moreover, it can cope with an environment where a high noise level is mixed.

以上で説明したように、本実施の形態にかかる発明により、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。   As described above, according to the invention according to the present embodiment, a noise reduction device, a voice input device, a wireless communication device, and a noise reduction device that can appropriately reduce noise components included in a voice signal even under various environments, A noise reduction method can be provided.

<実施の形態2>
次に、本発明の実施の形態2について説明する。
図11は、実施の形態2にかかるノイズ低減装置3を示すブロック図である。本実施の形態にかかるノイズ低減装置3は、図1に示した実施の形態1にかかるノイズ低減装置1と比べて、参照音用マイクロフォンを2つ備えている点、信号決定部116を備えている点が異なる。
<Embodiment 2>
Next, a second embodiment of the present invention will be described.
FIG. 11 is a block diagram of the noise reduction device 3 according to the second embodiment. The noise reduction device 3 according to the present embodiment includes two reference sound microphones and a signal determination unit 116, as compared to the noise reduction device 1 according to the first embodiment shown in FIG. Is different.

図11に示すノイズ低減装置3は、音声用マイクロフォン101、参照音用マイクロフォンA(102)、参照音用マイクロフォンB(103)、ADコンバータ104、105、106、音声区間判定器115、信号決定部116、適応フィルタ制御部117、および適応フィルタ118を有する。   The noise reduction device 3 shown in FIG. 11 includes an audio microphone 101, a reference sound microphone A (102), a reference sound microphone B (103), AD converters 104, 105, and 106, an audio section determination unit 115, and a signal determination unit. 116, an adaptive filter control unit 117, and an adaptive filter 118.

音声用マイクロフォン101、参照音用マイクロフォン102、103はそれぞれ、音声成分やノイズ成分を含む音を収音することができる。音声用マイクロフォン101は、主に音声成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ104に出力する。参照音用マイクロフォンA(102)は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ112に出力する。参照音用マイクロフォンB(103)は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ106に出力する。例えば、参照音用マイクロフォンA(102)や参照音用マイクロフォンB(103)で収音された音に含まれるノイズ成分は、音声用マイクロフォン101で収音された音に含まれるノイズ成分を低減するために用いられる。   The sound microphone 101 and the reference sound microphones 102 and 103 can pick up sounds including sound components and noise components, respectively. The sound microphone 101 collects sound mainly including sound components and converts it into an analog signal, and outputs the converted analog signal to the AD converter 104. The reference sound microphone A (102) collects a sound mainly including a noise component, converts it into an analog signal, and outputs the converted analog signal to the AD converter 112. The reference sound microphone B (103) collects a sound mainly including a noise component and converts it into an analog signal, and outputs the converted analog signal to the AD converter 106. For example, the noise component contained in the sound collected by the reference sound microphone A (102) or the reference sound microphone B (103) reduces the noise component contained in the sound collected by the sound microphone 101. Used for.

なお、本実施の形態にかかるノイズ低減装置3では、音声用マイクロフォン101、参照音用マイクロフォン102、103が接続されている例について、説明する。しかしながら、ノイズ低減装置3にマイクロフォンが3つ接続されている場合の他に例えば参照音用マイクロフォンを更に追加してマイクロフォンを4つ以上設けてもよい。   In the noise reduction device 3 according to the present embodiment, an example in which the sound microphone 101 and the reference sound microphones 102 and 103 are connected will be described. However, in addition to the case where three microphones are connected to the noise reduction device 3, for example, four or more microphones may be provided by further adding a reference sound microphone.

ADコンバータ104は、音声用マイクロフォン101から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号111を生成する。ADコンバータ104で生成された収音信号112は、音声区間判定器115、信号決定部116、および適応フィルタ118に出力される。   The AD converter 104 samples the analog signal output from the audio microphone 101 at a predetermined sampling rate and converts it into a digital signal, and generates a sound collection signal 111. The collected sound signal 112 generated by the AD converter 104 is output to the speech section determination unit 115, the signal determination unit 116, and the adaptive filter 118.

ADコンバータ105は、参照音用マイクロフォンA(102)から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号112を生成する。ADコンバータ105で生成された収音信号112は、信号決定部116および適応フィルタ118に出力される。   The AD converter 105 samples the analog signal output from the reference sound microphone A (102) at a predetermined sampling rate and converts the sampled signal into a digital signal, thereby generating a sound pickup signal 112. The collected sound signal 112 generated by the AD converter 105 is output to the signal determination unit 116 and the adaptive filter 118.

ADコンバータ106は、参照音用マイクロフォンB(103)から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号113を生成する。ADコンバータ106で生成された収音信号113は、信号決定部116および適応フィルタ118に出力される。   The AD converter 106 samples the analog signal output from the reference sound microphone B (103) at a predetermined sampling rate and converts it into a digital signal, thereby generating a sound pickup signal 113. The collected sound signal 113 generated by the AD converter 106 is output to the signal determination unit 116 and the adaptive filter 118.

音声の周波数帯域は、おおよそ100Hzから4000Hz程度である。よって、ADコンバータ104、105、106におけるサンプリング周波数を8kHz〜12kHz程度とすることで、音声成分を含むアナログ信号をデジタル信号として取り扱うことができる。   The frequency band of voice is about 100 Hz to 4000 Hz. Therefore, an analog signal including an audio component can be handled as a digital signal by setting the sampling frequency in the AD converters 104, 105, and 106 to about 8 kHz to 12 kHz.

音声区間判定器115は、ADコンバータ104から出力された収音信号111に基づき音声区間を判定する。そして、音声区間判定器115は、音声区間と判定した場合、信号決定部116および適応フィルタ制御部117に音声区間情報123、124をそれぞれ出力する。   The voice segment determination unit 115 determines a voice segment based on the sound collection signal 111 output from the AD converter 104. When the speech segment determination unit 115 determines that the speech segment is a speech segment, it outputs the speech segment information 123 and 124 to the signal determination unit 116 and the adaptive filter control unit 117, respectively.

音声区間判定器115における音声区間判定処理には任意の技術を用いることができる。しかし、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間を判定する必要がある。この場合、例えば特願2010−260798に記載されている技術(音声区間判定技術A)や、特願2011−020459に記載されている技術(音声区間判定技術B)を用いることで、音声区間を高い精度で判定することができる。なお、音声区間判定技術A、音声区間判定技術Bについては、実施の形態1で説明したので、重複した説明は省略する。   An arbitrary technique can be used for the voice segment determination processing in the voice segment determiner 115. However, when the noise reduction device is used in an environment where the noise level is high, it is necessary to determine the speech section with high accuracy. In this case, for example, by using the technology described in Japanese Patent Application No. 2010-260798 (speech segment determination technology A) and the technology described in Japanese Patent Application No. 2011-020659 (speech segment determination technology B), It can be determined with high accuracy. Note that since the speech segment determination technique A and the speech segment determination technique B have been described in the first embodiment, a duplicate description is omitted.

また、図11に示すノイズ低減装置3では、音声は音声用マイクロフォン101において収音される確率が高いことを前提とし、音声区間判定器115が、音声用マイクロフォン101の収音信号111のみに基づき音声区間を判定する場合を示した。しかしながら、ノイズ低減装置の使用状況によっては、音声用マイクロフォン101よりも参照音用マイクロフォンA(102)や参照音用マイクロフォンB(103)の方が多く音声を収音する場合も考えられる。よって、図8に示すように音声用マイクロフォン101の収音信号111以外に、参照音用マイクロフォンA(102)の収音信号112や参照音用マイクロフォンB(103)の収音信号113に基づき、音声区間判定器115が音声区間を判定するように構成してもよい。   Further, in the noise reduction device 3 shown in FIG. 11, it is assumed that the voice has a high probability of being picked up by the voice microphone 101, and the voice section determination unit 115 is based only on the sound pickup signal 111 of the voice microphone 101. The case where the speech section is determined is shown. However, depending on how the noise reduction device is used, there may be cases where the reference sound microphone A (102) or the reference sound microphone B (103) collects more sound than the sound microphone 101. Therefore, as shown in FIG. 8, in addition to the sound collection signal 111 of the sound microphone 101, based on the sound collection signal 112 of the reference sound microphone A (102) and the sound collection signal 113 of the reference sound microphone B (103), You may comprise so that the audio | voice area determination device 115 may determine an audio | voice area.

信号決定部116は、収音信号111、収音信号112、および収音信号113の中からノイズ低減処理に用いる2つの収音信号を決定し、当該決定された2つの収音信号の位相差情報を取得する。信号決定部116は、ノイズ低減処理に用いる2つの収音信号に関する収音信号選択情報125と、当該決定された2つの収音信号の位相差情報126を適応フィルタ制御部117に出力する。   The signal determination unit 116 determines two sound collection signals to be used for noise reduction processing from the sound collection signal 111, the sound collection signal 112, and the sound collection signal 113, and a phase difference between the determined two sound collection signals. Get information. The signal determination unit 116 outputs the collected sound signal selection information 125 regarding the two collected sound signals used for the noise reduction processing and the phase difference information 126 of the determined two collected sound signals to the adaptive filter control unit 117.

なお、実施の形態1で説明した理由から、収音信号111と収音信号112の位相差、収音信号111と収音信号113の位相差、収音信号112と収音信号113の位相差を取得する場合は、信号決定部116に入力される収音信号111、収音信号112、および収音信号113のサンプリング周波数を24kHz以上にするとよい。   For the reasons described in the first embodiment, the phase difference between the collected sound signal 111 and the collected sound signal 112, the phase difference between the collected sound signal 111 and the collected sound signal 113, and the phase difference between the collected sound signal 112 and the collected sound signal 113. Is acquired, the sampling frequency of the collected sound signal 111, the collected sound signal 112, and the collected sound signal 113 input to the signal determination unit 116 may be 24 kHz or more.

また、本実施の形態にかかるノイズ低減装置3では、参照音用マイクロフォンを2つ備えている。この場合は、例えば図19(b)や図21(b)に示すように、2つの参照音用マイクロフォンを対角線上に所定の距離を隔てて配置することが好ましい。このように配置することで、例えば図19(b)に示す音声入力装置や図21(b)に示す無線通信装置を持つ手の影響で、一方の参照音用マイクロフォンの音の経路が妨げられてとしても、他方の参照音用マイクロフォンを用いることで、適切に音声方向を検知することができる。   In addition, the noise reduction device 3 according to the present embodiment includes two reference sound microphones. In this case, for example, as shown in FIGS. 19B and 21B, it is preferable to arrange two reference sound microphones on the diagonal line at a predetermined distance. By arranging in this way, the path of the sound of one reference sound microphone is hindered by the influence of the hand having the voice input device shown in FIG. 19B or the wireless communication device shown in FIG. Even so, by using the other reference sound microphone, the direction of sound can be detected appropriately.

図12は、本実施の形態にかかるノイズ低減装置3が備える信号決定部116を示すブロック図である。図12に示す信号決定部116は、相互相関値算出部131、パワー情報取得部132、位相差情報取得部133、参照信号選択部134、相互相関値算出部135、位相差算出部136、および判定部137を備える。   FIG. 12 is a block diagram illustrating the signal determination unit 116 included in the noise reduction device 3 according to the present embodiment. 12 includes a cross-correlation value calculation unit 131, a power information acquisition unit 132, a phase difference information acquisition unit 133, a reference signal selection unit 134, a cross-correlation value calculation unit 135, a phase difference calculation unit 136, and A determination unit 137 is provided.

図11に関して説明されたように、音声用マイクロフォン101の収音信号が音声区間判定器115において音声区間であると判定された場合、音声区間判定器115は音声区間情報123を信号決定部116に出力する。
音声区間情報123が図12に示す信号決定部116に入力された場合、相互相関値算出部131は、参照音用マイクロフォンA(102)の収音信号112と参照音用マイクロフォンB(103)の収音信号113とを用いて、収音信号112と収音信号112の相関関係に関する情報を取得し、この取得した情報を位相差情報取得部133に出力する。位相差情報取得部133は、相関が高いと判断された2つの信号波形の位相差を求めることで、収音信号112の音声成分の位相と収音信号113の音声成分の位相の位相差を求めることができる。また、位相差情報取得部133は、取得した収音信号112と収音信号113の位相差情報を参照信号選択部134および判定部137に出力する。
As described with reference to FIG. 11, when the collected sound signal of the voice microphone 101 is determined to be a voice section by the voice section determiner 115, the voice section determiner 115 sends the voice section information 123 to the signal determination unit 116. Output.
When the speech section information 123 is input to the signal determination unit 116 shown in FIG. 12, the cross-correlation value calculation unit 131 acquires the sound collection signal 112 of the reference sound microphone A (102) and the reference sound microphone B (103). Information regarding the correlation between the sound pickup signal 112 and the sound pickup signal 112 is acquired using the sound pickup signal 113, and the acquired information is output to the phase difference information acquisition unit 133. The phase difference information acquisition unit 133 calculates the phase difference between the two signal waveforms determined to have high correlation, thereby obtaining the phase difference between the phase of the sound component of the sound pickup signal 112 and the phase of the sound component of the sound pickup signal 113. Can be sought. Further, the phase difference information acquisition unit 133 outputs the acquired phase difference information of the collected sound signal 112 and the collected sound signal 113 to the reference signal selection unit 134 and the determination unit 137.

ここで、相互相関値算出部131で収音信号112と収音信号112の相関関係に関する情報を取得する方法と、位相差算出部133で収音信号112と収音信号113の位相差を求める方法は、図4の音声方向検知器16'で説明した方法(特に、相互相関値算出部55、位相差情報取得部56を参照)と同様であるので、重複した説明は省略する。   Here, a method for obtaining information on the correlation between the sound collection signal 112 and the sound collection signal 112 by the cross correlation value calculation unit 131, and a phase difference between the sound collection signal 112 and the sound collection signal 113 by the phase difference calculation unit 133 are obtained. The method is the same as the method described in the voice direction detector 16 ′ in FIG. 4 (particularly, refer to the cross-correlation value calculation unit 55 and the phase difference information acquisition unit 56), and a duplicate description will be omitted.

なお、本実施の形態において、信号決定部116は音声区間判定器115において音声区間であると判定された場合に位相差を算出している。よって、収音信号にノイズが混入している場合であっても高い精度で位相差を算出することができる。   In the present embodiment, the signal determination unit 116 calculates the phase difference when the speech segment determination unit 115 determines that the speech segment is a speech segment. Therefore, even when noise is mixed in the collected sound signal, the phase difference can be calculated with high accuracy.

また、パワー情報取得部132は、音声区間判定器115において音声区間であると判定された場合、参照音用マイクロフォンA(102)の収音信号112の大きさと、参照音用マイクロフォンB(103)の収音信号113の大きさとに基づき、パワー情報(つまり、収音信号112と収音信号113のパワー比やパワー差)を取得する。取得したパワー情報は参照信号選択部134に出力される。パワー情報取得部132で収音信号112と収音信号113のパワー情報を求める方法は、図5の音声方向検知器16で説明した方法と同様であるので、重複した説明は省略する。   In addition, when the speech section determination unit 115 determines that the power information acquisition unit 132 is a speech section, the power information acquisition unit 132 and the reference sound microphone B (103) and the magnitude of the collected sound signal 112 of the reference sound microphone A (102). The power information (that is, the power ratio or power difference between the collected sound signal 112 and the collected sound signal 113) is acquired based on the magnitude of the collected sound signal 113. The acquired power information is output to the reference signal selection unit 134. The method for obtaining the power information of the collected sound signal 112 and the collected sound signal 113 by the power information acquisition unit 132 is the same as the method described for the voice direction detector 16 of FIG.

適応フィルタ118のフィルタ係数を精度良く更新することができる理想的な参照信号は、2つの条件がある。1つ目の条件Aは音声成分の混入が少ないことである。2つ目の条件Bは音声に混入するノイズ成分の特性に近いことである。参照信号への音声成分の混入を少なくするには、音声の音源に対して参照用マイクロフォンの距離が遠い程好ましい。音声の音源と参照用マイクロフォンとの距離が遠い位置は、位相が最も遅れているポイントを調べることで把握することができる。例えば、本実施の形態にかかるノイズ低減装置3のように参照用マイクロフォンA(102)と参照音用マイクロフォンB(103)とがある場合、参照用マイクロフォンA(102)の収音信号112と参照音用マイクロフォンB(103)の収音信号113とを比較し、位相が遅いほうを理想的な参照信号として選択することが好ましい。当然、音声の音源からの距離が遠ければ、音声の大きさ(音圧レベル)も下がることになるが、もう一つの条件である音声用マイクロフォンに混入するノイズ成分の特性に近いかを調べるためノイズ低減装置3が使用される外部環境も同時に考慮する必要がある。つまり、音響特性の観点からみると、遮蔽物が与える影響は大きく、位相差と共にマイクロフォン開口部付近が外部に対し開放された状態であるか、すなわち、マイクロフォンに入力される音の音圧レベルが保たれているかを観察することで、参照信号として適しているか否かを把握することができる。   An ideal reference signal that can accurately update the filter coefficient of the adaptive filter 118 has two conditions. The first condition A is that there is little mixing of audio components. The second condition B is that it is close to the characteristics of the noise component mixed in the voice. In order to reduce the mixing of the sound component into the reference signal, it is preferable that the distance of the reference microphone is farther from the sound source. The position where the distance between the sound source and the reference microphone is long can be grasped by examining the point where the phase is most delayed. For example, when there is a reference microphone A (102) and a reference sound microphone B (103) as in the noise reduction device 3 according to the present embodiment, the sound collection signal 112 of the reference microphone A (102) is referred to. It is preferable to compare the sound pickup signal 113 of the sound microphone B (103) and select the one with the later phase as an ideal reference signal. Of course, if the distance from the sound source of the sound is far, the sound volume (sound pressure level) will also decrease, but in order to investigate whether it is close to the characteristics of the noise component mixed in the sound microphone, which is another condition It is necessary to consider the external environment where the noise reduction device 3 is used at the same time. In other words, from the viewpoint of acoustic characteristics, the influence of the shield is large, and whether the vicinity of the microphone opening is open to the outside together with the phase difference, that is, the sound pressure level of the sound input to the microphone is By observing whether it is maintained, it is possible to grasp whether it is suitable as a reference signal.

参照信号選択部134は、位相差情報取得部133から出力された位相差情報とパワー情報取得部132から出力されたパワー情報とに基づき、収音信号112および収音信号113のうち参照信号として適切な収音信号を選択する。このように、参照信号の選択に位相差情報とパワー情報とを用いることで、参照信号を選択する際に外部環境による影響を反映することができる。   Based on the phase difference information output from the phase difference information acquisition unit 133 and the power information output from the power information acquisition unit 132, the reference signal selection unit 134 serves as a reference signal of the sound collection signal 112 and the sound collection signal 113. Select an appropriate sound pickup signal. Thus, by using the phase difference information and the power information for selection of the reference signal, it is possible to reflect the influence of the external environment when selecting the reference signal.

相互相関値算出部135は、音声用マイクロフォン101の収音信号111と、参照信号選択部134で選択された収音信号138とを用いて、これらの収音信号の相関関係に関する情報を取得し、この取得した情報を位相差算出部136に出力する。位相差算出部136は、相関が高いと判断された2つの信号波形の位相差を求めることで、収音信号111の音声成分の位相と、参照信号選択部134で選択された収音信号138の音声成分の位相との位相差を求めることができる。位相差算出部136は、取得した位相差情報を判定部137に出力する。   The cross-correlation value calculation unit 135 uses the sound collection signal 111 of the sound microphone 101 and the sound collection signal 138 selected by the reference signal selection unit 134 to acquire information on the correlation between these sound collection signals. The acquired information is output to the phase difference calculation unit 136. The phase difference calculation unit 136 obtains the phase difference between the two signal waveforms that are determined to have high correlation, so that the phase of the sound component of the sound collection signal 111 and the sound collection signal 138 selected by the reference signal selection unit 134 are obtained. The phase difference from the phase of the audio component can be obtained. The phase difference calculation unit 136 outputs the acquired phase difference information to the determination unit 137.

ここで、相互相関値算出部135で収音信号111と、参照信号選択部134で選択された収音信号138の相関関係に関する情報を取得する方法と、位相差算出部136でこれらの収音信号の位相差を求める方法は、図4の音声方向検知器16'で説明した方法(特に、相互相関値算出部55、位相差情報取得部56を参照)と同様であるので、重複した説明は省略する。   Here, a method for acquiring information on the correlation between the sound collection signal 111 by the cross-correlation value calculation unit 135 and the sound collection signal 138 selected by the reference signal selection unit 134, and these sound collections by the phase difference calculation unit 136 The method for obtaining the signal phase difference is the same as the method described in the voice direction detector 16 ′ of FIG. 4 (particularly, refer to the cross-correlation value calculation unit 55 and the phase difference information acquisition unit 56), and thus a duplicate description. Is omitted.

なお、図12に示す信号決定部116では、相互相関値算出部131と相互相関値算出部135、および位相差情報取得部133と位相差算出部136はそれぞれ別々に設けられているが、これらは同様の処理をするため共通化してもよい。   In the signal determination unit 116 shown in FIG. 12, the cross-correlation value calculation unit 131 and the cross-correlation value calculation unit 135, and the phase difference information acquisition unit 133 and the phase difference calculation unit 136 are provided separately. May be shared for the same processing.

判定部137は、位相差算出部136から出力された位相差情報に基づき、収音信号111を音声信号として使用できるか、また、参照信号選択部134で選択された収音信号(つまり、収音信号112または113)を参照信号として使用できるか判定する。そして、判定部137は、ノイズ低減処理に用いる2つの収音信号を決定し、選択された2つの収音信号に関する収音信号選択情報125を適応フィルタ制御部117に出力する。また、判定部137は、選択された2つの収音信号の位相差情報126を適応フィルタ制御部117に出力する。   Based on the phase difference information output from the phase difference calculation unit 136, the determination unit 137 can use the sound collection signal 111 as an audio signal, or the sound collection signal selected by the reference signal selection unit 134 (that is, the sound collection signal). It is determined whether the sound signal 112 or 113) can be used as a reference signal. Then, the determination unit 137 determines two sound collection signals to be used for noise reduction processing, and outputs sound collection signal selection information 125 regarding the two selected sound collection signals to the adaptive filter control unit 117. Further, the determination unit 137 outputs the phase difference information 126 between the two selected sound pickup signals to the adaptive filter control unit 117.

次に、信号決定部116における動作について説明する。図13および図14は、信号決定部116の動作を説明するためのフローチャートである。図13は参照用マイクロフォンを選択する参照用マイクロフォン選択処理である。ここで、収音信号111は音声信号として使用でき、また、参照信号選択部134で選択された収音信号(つまり、収音信号112または113)は参照信号として使用できると判定部137により判定されているものとする。   Next, the operation in the signal determination unit 116 will be described. FIGS. 13 and 14 are flowcharts for explaining the operation of the signal determination unit 116. FIG. 13 shows reference microphone selection processing for selecting a reference microphone. Here, the sound collection signal 111 can be used as an audio signal, and the determination unit 137 determines that the sound collection signal selected by the reference signal selection unit 134 (that is, the sound collection signal 112 or 113) can be used as a reference signal. It is assumed that

図13に示すように信号決定部116は、まず、位相差を比較する際に基準となる参照音用マイクロフォンと比較対象となる参照音用マイクロフォンを設定する(ステップS21)。例えば、参照音用マイクロフォンA(102)を基準とし、参照音用マイクロフォンB(103)を比較対象とする。次に、相互相関値算出部131および位相差情報取得部133において、参照音用マイクロフォンA(102)の収音信号112と参照音用マイクロフォンB(103)の収音信号113の位相差情報を取得する。また、パワー情報取得部132において、収音信号112と収音信号113のパワー情報(この場合は、パ
ワー比)を取得する(ステップS22)。
As shown in FIG. 13, the signal determining unit 116 first sets a reference sound microphone to be a reference and a reference sound microphone to be compared when comparing phase differences (step S21). For example, the reference sound microphone A (102) is used as a reference, and the reference sound microphone B (103) is a comparison target. Next, in the cross-correlation value calculation unit 131 and the phase difference information acquisition unit 133, the phase difference information between the sound collection signal 112 of the reference sound microphone A (102) and the sound collection signal 113 of the reference sound microphone B (103) is obtained. get. Further, the power information acquisition unit 132 acquires the power information (in this case, the power ratio) of the sound collection signal 112 and the sound collection signal 113 (step S22).

次に、参照信号選択部134は、収音信号112と収音信号113に所定の位相差があるか判断する(ステップS23)。すなわち、収音信号112と収音信号113の位相差が所定の範囲内であるか(つまり、−T<位相差<Tの条件を満たすか)判断する。ここで、Tは所定の基準値であり、任意に設定することができる。−T<位相差<Tの条件を満たす場合(ステップS23:Yes)、所定の位相差がないと判断される。この場合、参照信号選択部134は、収音信号112と収音信号113のパワー比(A/B)に基づき選択する信号を決定する。例えば、収音信号112と収音信号113のパワー比(A/B)が1よりも大きい場合(ステップS24:Yes)、収音信号112(つまり、参照音用マイクロフォンA)を選択する(ステップS28)。一方、収音信号112と収音信号113のパワー比(A/B)が1よりも小さい場合(ステップS24:No)、収音信号113(つまり、参照音用マイクロフォンB)を選択する(ステップS29)。なお、ステップS24ではパワー比の基準を1としたが、この値はこれに限定されることはなく、任意に変更することができる。例えば、ステップS23における位相差の基準値Tに応じて変更してもよい。   Next, the reference signal selection unit 134 determines whether there is a predetermined phase difference between the collected sound signal 112 and the collected sound signal 113 (step S23). That is, it is determined whether the phase difference between the collected sound signal 112 and the collected sound signal 113 is within a predetermined range (that is, whether the condition of −T <phase difference <T is satisfied). Here, T is a predetermined reference value and can be set arbitrarily. When the condition of −T <phase difference <T is satisfied (step S23: Yes), it is determined that there is no predetermined phase difference. In this case, the reference signal selection unit 134 determines a signal to be selected based on the power ratio (A / B) of the sound collection signal 112 and the sound collection signal 113. For example, when the power ratio (A / B) between the sound collection signal 112 and the sound collection signal 113 is larger than 1 (step S24: Yes), the sound collection signal 112 (that is, the reference sound microphone A) is selected (step S24). S28). On the other hand, if the power ratio (A / B) between the sound collection signal 112 and the sound collection signal 113 is smaller than 1 (step S24: No), the sound collection signal 113 (that is, the reference sound microphone B) is selected (step S24). S29). In step S24, the power ratio criterion is 1, but this value is not limited to this and can be arbitrarily changed. For example, the phase difference reference value T in step S23 may be changed.

ステップS23において所定の位相差がないと判断された場合、ステップS24において収音信号112と収音信号113のパワー比を比較することで、より適した参照信号を選択することができる。つまり、所定の位相差がない場合は、マイクロフォンの開口部に遮蔽物等の要因がない限り、収音信号112と収音信号113との間でパワー差が生じない。しかし、マイクロフォンの開口部が話者の手や衣服等の遮蔽物により遮られたりした場合は、収音信号の音圧レベルが下がる。ここで、遮蔽物は音響特性に影響を及ぼし、適応フィルタにおいてノイズ成分を擬似的に生成する際に悪影響を及ぼす。よって、遮蔽物の影響が少ない信号を選択することで、より適した参照信号を選択することができる。   If it is determined in step S23 that there is no predetermined phase difference, a more suitable reference signal can be selected by comparing the power ratio between the sound pickup signal 112 and the sound pickup signal 113 in step S24. That is, when there is no predetermined phase difference, no power difference occurs between the sound collection signal 112 and the sound collection signal 113 unless there is a factor such as a shield in the opening of the microphone. However, when the opening of the microphone is blocked by an obstacle such as a speaker's hand or clothes, the sound pressure level of the collected sound signal is lowered. Here, the shielding object affects the acoustic characteristics, and adversely affects the generation of a noise component in the adaptive filter. Therefore, a more suitable reference signal can be selected by selecting a signal that is less affected by the shield.

−T<位相差<Tの条件を満たさない場合(ステップS23:No)、所定の位相差があると判断される。この場合、参照信号選択部134は、どちらの位相が早いか判断する。つまり、位相差≧Tの条件を満たすか判断する(ステップS25)。位相差≧Tの条件を満たす場合(ステップS25:Yes)、収音信号112(つまり、参照音用マイクロフォンA)の位相が先行している。このとき、参照信号の候補は位相が遅い信号であるので、収音信号113(つまり、参照音用マイクロフォンB)が参照信号の候補となる。そして、収音信号113と収音信号112のパワー比(B/A)が所定の値Pよりも大きい場合(ステップS26:Yes)、収音信号113のパワーが確保されている(つまり、遮蔽物等の影響が少ない)と判断することができるので、収音信号113(つまり、参照音用マイクロフォンB)を参照信号として選択する(ステップS30)。   When the condition −T <phase difference <T is not satisfied (step S23: No), it is determined that there is a predetermined phase difference. In this case, the reference signal selection unit 134 determines which phase is earlier. That is, it is determined whether the condition of phase difference ≧ T is satisfied (step S25). When the condition of phase difference ≧ T is satisfied (step S25: Yes), the phase of the collected sound signal 112 (that is, the reference sound microphone A) is preceded. At this time, since the reference signal candidate is a signal having a late phase, the collected sound signal 113 (that is, the reference sound microphone B) is a reference signal candidate. When the power ratio (B / A) between the collected sound signal 113 and the collected sound signal 112 is larger than the predetermined value P (step S26: Yes), the power of the collected sound signal 113 is ensured (that is, shielded). Therefore, the sound collection signal 113 (that is, the reference sound microphone B) is selected as a reference signal (step S30).

一方、収音信号113と収音信号112のパワー比(B/A)が所定の値P以下である場合(ステップS26:No)、遮蔽物等の影響で収音信号113のパワーが確保されていないと判断することができる。よって、この場合は、収音信号112(つまり、参照音用マイクロフォンA)を参照信号として選択する(ステップS31)。信号のパワーは音源との距離の二乗に比例して減衰する。よって、位相差がある場合、位相が遅い(つまり、音源より遠い)信号は位相が早い信号に対して信号のパワーが減衰している。パワー比の所定の値Pはこの位相差を考慮した減衰量に、更に遮蔽物による影響が無視できないような減衰量を加えて求めたしきい値である。   On the other hand, when the power ratio (B / A) of the sound collection signal 113 and the sound collection signal 112 is equal to or less than the predetermined value P (step S26: No), the power of the sound collection signal 113 is ensured due to the influence of a shield or the like. It can be judged that it is not. Therefore, in this case, the sound collection signal 112 (that is, the reference sound microphone A) is selected as a reference signal (step S31). The signal power attenuates in proportion to the square of the distance to the sound source. Therefore, when there is a phase difference, the signal power of the signal having a late phase (that is, farther from the sound source) is attenuated than the signal having a fast phase. The predetermined value P of the power ratio is a threshold value obtained by adding an attenuation amount in consideration of this phase difference to an attenuation amount that cannot be ignored by the shielding object.

また、位相差≧Tの条件を満たさない場合(ステップS25:No)、収音信号113(つまり、参照音用マイクロフォンB)の位相が先行している。このとき、参照信号の候補は位相が遅い信号であるので、収音信号112(つまり、参照音用マイクロフォンA)が参照信号の候補となる。そして、収音信号112と収音信号113のパワー比(A/B)が所定の値Pよりも大きい場合(ステップS27:Yes)、収音信号112のパワーが確保されている(つまり、遮蔽物等の影響が少ない)と判断することができるので、収音信号112(つまり、参照音用マイクロフォンA)を参照信号として選択する。   Further, when the condition of phase difference ≧ T is not satisfied (step S25: No), the phase of the sound pickup signal 113 (that is, the reference sound microphone B) is preceded. At this time, since the reference signal candidate is a signal having a late phase, the collected sound signal 112 (that is, the reference sound microphone A) is a reference signal candidate. When the power ratio (A / B) between the sound collection signal 112 and the sound collection signal 113 is larger than the predetermined value P (step S27: Yes), the power of the sound collection signal 112 is ensured (that is, shielded). Therefore, the sound pickup signal 112 (that is, the reference sound microphone A) is selected as the reference signal.

一方、収音信号112と収音信号113のパワー比(A/B)が所定の値P以下である場合(ステップS27:No)、遮蔽物等の影響で収音信号112のパワーが確保されていないと判断することができるので、収音信号113(つまり、参照音用マイクロフォンB)を参照信号として選択する(ステップS33)。   On the other hand, when the power ratio (A / B) between the sound collection signal 112 and the sound collection signal 113 is equal to or less than the predetermined value P (No in step S27), the power of the sound collection signal 112 is ensured due to the influence of a shield or the like. Since it can be determined that it is not, the collected sound signal 113 (that is, the reference sound microphone B) is selected as a reference signal (step S33).

参照信号選択部134は、上記処理により選択された参照音用マイクロフォン(収音信号)を候補として決定する(ステップS34)。そして、全ての参照音用マイクロフォンの調査が終了した場合は(ステップS35:Yes)、上記処理により選択された参照音用マイクロフォンを使用することを決定する(ステップS36)。一方、全ての参照音用マイクロフォンの調査が終了していない場合は(ステップS35:No)、再びステップS21〜S34の処理を繰り返す。このとき、例えば、上記処理により選択された参照音用マイクロフォンを基準とし、新たに調査対象となった参照音用マイクロフォンを比較対象とする。   The reference signal selection unit 134 determines the reference sound microphone (sound collection signal) selected by the above processing as a candidate (step S34). When all the reference sound microphones have been checked (step S35: Yes), it is determined to use the reference sound microphone selected by the above processing (step S36). On the other hand, when the investigation of all the reference sound microphones has not been completed (step S35: No), the processes of steps S21 to S34 are repeated again. At this time, for example, the reference sound microphone newly selected as a target for comparison is set as a comparison target based on the reference sound microphone selected by the above processing.

以上の処理により、参照音用マイクロフォンA(102)および参照音用マイクロフォンB(103)のうち参照音用マイクロフォンとして、使用されるマイクロフォンが決定される。すなわち、参照音用マイクロフォンA(102)および参照音用マイクロフォンB(103)のうち選択された参照音用マイクロフォンの収音信号(112または113)が参照信号の候補とされる。   With the above processing, the microphone to be used as the reference sound microphone is determined from the reference sound microphone A (102) and the reference sound microphone B (103). That is, the collected sound signal (112 or 113) of the reference sound microphone selected from the reference sound microphone A (102) and the reference sound microphone B (103) is set as a reference signal candidate.

なお、以上で説明した処理では、参照信号選択部134が、位相差情報取得部133から出力された位相差情報と、パワー情報取得部132から出力されたパワー比とに基づいて、参照信号として適切な収音信号を選択していた。しかし、参照信号選択部134は、位相差情報取得部133から出力された位相差情報のみに基づいて、参照信号として適切な収音信号を選択してもよい。この場合、図12に示した信号決定部116が備えるパワー情報取得部132を省略することができる。また、図13におけるステップS24、S26、S27を省略することができる。また、図13におけるステップS22においては、位相差情報のみを取得し、パワー比の取得を省略することができる。
このとき、ステップS23において所定の位相差がないと判断された場合(ステップS23:Yes)、収音信号112または収音信号113を参照信号として選択することができる。また、ステップS25において収音信号112が先行していると判断された場合(ステップS25:Yes)、収音信号113を参照信号として選択することができる。また、ステップS25において収音信号113が先行していると判断された場合(ステップS25:No)、収音信号112を参照信号として選択することができる。
In the processing described above, the reference signal selection unit 134 uses the phase difference information output from the phase difference information acquisition unit 133 and the power ratio output from the power information acquisition unit 132 as a reference signal. An appropriate sound pickup signal was selected. However, the reference signal selection unit 134 may select an appropriate sound collection signal as a reference signal based only on the phase difference information output from the phase difference information acquisition unit 133. In this case, the power information acquisition unit 132 included in the signal determination unit 116 illustrated in FIG. 12 can be omitted. Further, steps S24, S26, and S27 in FIG. 13 can be omitted. Further, in step S22 in FIG. 13, only the phase difference information can be acquired, and the acquisition of the power ratio can be omitted.
At this time, if it is determined in step S23 that there is no predetermined phase difference (step S23: Yes), the sound collection signal 112 or the sound collection signal 113 can be selected as a reference signal. If it is determined in step S25 that the sound collection signal 112 is ahead (step S25: Yes), the sound collection signal 113 can be selected as a reference signal. If it is determined in step S25 that the sound collection signal 113 is ahead (step S25: No), the sound collection signal 112 can be selected as a reference signal.

音声用マイクロフォン101と音声の音源である話者の口元との位置関係が良好な状態である場合(例えば、頭部に固定されるヘッドセットやヘルメットに音声用マイクロフォンが固定されている場合など)、音声用マイクロフォン101の収音信号111を音声信号として、選択された参照音用マイクロフォンの収音信号(112または113)を参照信号として使用することができる。   When the positional relationship between the voice microphone 101 and the speaker's mouth, which is the voice source, is good (for example, when the voice microphone is fixed to a headset or a helmet fixed to the head). The sound pickup signal 111 of the sound microphone 101 can be used as a sound signal, and the sound pickup signal (112 or 113) of the selected reference sound microphone can be used as a reference signal.

しかしながら、例えばトランシーバーやスピーカーマイクロフォン装置では、音声を発する音源と、音声を収音する音声用マイクロフォンとの位置関係が一定とならない場合がある。このため、例えば音声用マイクロフォンに向かって音声を発しない場合や、参照音用マイクロフォンの開口部に向かって音声を発する場合など、適切な状態でノイズ低減装置が使用されない場合が想定される。よって、音声用マイクロフォン101の収音信号111を音声信号として、また選択された参照音用マイクロフォンの収音信号(112または113)を参照信号として、それぞれ使用可能かどうかを検証する必要がある。このような検証処理を実施することで、最もノイズ低減効果が高いと推定される音声信号と参照信号の組み合わせを、収音信号111〜113の中から選択することができる。図14は、このような検証処理を説明するためのフローチャートである。   However, for example, in a transceiver or speaker microphone device, the positional relationship between a sound source that emits sound and a sound microphone that collects sound may not be constant. For this reason, the case where the noise reduction apparatus is not used in an appropriate state is assumed, for example, when no sound is emitted toward the sound microphone or when sound is emitted toward the opening of the reference sound microphone. Therefore, it is necessary to verify whether the sound collection signal 111 of the sound microphone 101 can be used as a sound signal and the sound collection signal (112 or 113) of the selected reference sound microphone as a reference signal. By performing such a verification process, a combination of an audio signal and a reference signal estimated to have the highest noise reduction effect can be selected from the collected sound signals 111 to 113. FIG. 14 is a flowchart for explaining such verification processing.

図14に示すように信号決定部116は、まず、音声用マイクロフォン101を基準とし、図13に示した参照用マイクロフォン選択処理のステップS36で選択された参照音用マイクロフォンを比較対象として決定する(ステップS41)。次に、相互相関値算出部135および位相差算出部136において、音声用マイクロフォン101の収音信号111に含まれる音声成分の位相と、選択された参照音用マイクロフォンの収音信号138に含まれる音声成分の位相の位相差情報を取得する(ステップS42)。   As shown in FIG. 14, the signal determination unit 116 first determines the reference sound microphone selected in step S36 of the reference microphone selection process shown in FIG. Step S41). Next, in the cross-correlation value calculation unit 135 and the phase difference calculation unit 136, the phase of the sound component included in the sound collection signal 111 of the sound microphone 101 and the sound collection signal 138 of the selected reference sound microphone are included. The phase difference information of the phase of the audio component is acquired (step S42).

判定部137は、収音信号111と選択された収音信号138に所定の位相差があるか判断する(ステップS43)。すなわち、収音信号111と選択された収音信号138の位相差が所定の範囲内であるか(つまり、−T<位相差<Tの条件を満たすか)判断する。−T<位相差<Tの条件を満たす場合(ステップS43:Yes)、所定の位相差がないと判断される。この場合、収音信号111には選択された収音信号138(最も位相遅れがある収音信号)と同程度の位相遅れがあることが推測されるので、最も位相が早い参照音用マイクロフォンの収音信号(つまり、参照信号選択部134で選択されなかった方
の収音信号)を音声信号とし、選択された参照音用マイクロフォンの収音信号を参照信号とする(ステップS45)。
The determination unit 137 determines whether there is a predetermined phase difference between the sound collection signal 111 and the selected sound collection signal 138 (step S43). That is, it is determined whether the phase difference between the collected sound signal 111 and the selected collected sound signal 138 is within a predetermined range (that is, whether the condition of −T <phase difference <T is satisfied). When the condition −T <phase difference <T is satisfied (step S43: Yes), it is determined that there is no predetermined phase difference. In this case, since it is presumed that the collected sound signal 111 has the same phase lag as the selected collected sound signal 138 (the collected sound signal having the most phase lag), the reference sound microphone of the earliest phase is selected. The sound collection signal (that is, the sound collection signal that has not been selected by the reference signal selection unit 134) is used as a sound signal, and the sound collection signal of the selected reference sound microphone is used as a reference signal (step S45).

つまり、参照信号選択部134で選択された収音信号138は、最も位相遅れがある収音信号であるので、収音信号111と選択された収音信号138の位相差が所定の範囲内であるということは、収音信号111も最も位相遅れがある収音信号と同程度の位相遅れがあると推測することができる。この場合は、音声用マイクロフォン101が音声を収音する役割を果たしていないと推測される。よって、ステップS45では、最も位相が早い参照音用マイクロフォンの収音信号(つまり、参照信号選択部134で選択されなかった方の収音信号)を音声信号とし、選択された参照音用マイクロフォンの収音信号を参照信号としている。   That is, since the sound collection signal 138 selected by the reference signal selection unit 134 is the sound collection signal having the most phase lag, the phase difference between the sound collection signal 111 and the selected sound collection signal 138 is within a predetermined range. That is, it can be inferred that the sound pickup signal 111 has the same phase lag as the sound pickup signal having the most phase lag. In this case, it is assumed that the voice microphone 101 does not play a role of collecting voice. Therefore, in step S45, the sound collection signal of the reference sound microphone with the earliest phase (that is, the sound collection signal not selected by the reference signal selection unit 134) is used as the sound signal, and the selected reference sound microphone is selected. The collected sound signal is used as a reference signal.

なお、参照音用マイクロフォンが3つ以上ある場合は、図13に示した位相遅れが最大となる収音信号を検出する処理と類似した処理を行うことで、最も位相が早い参照音用マイクロフォンの収音信号を決定することができる。図13に示した処理では、位相が遅れている方の収音信号を選択する処理を実施したが、最も位相が早い収音信号を決定する場合は、位相が早い方の収音信号を選択する処理を繰り返して実施すればよい。   When there are three or more reference sound microphones, a process similar to the process for detecting the collected sound signal with the maximum phase delay shown in FIG. 13 is performed, so that the reference sound microphone with the earliest phase is detected. A sound pickup signal can be determined. In the process shown in FIG. 13, the process of selecting the collected sound signal with the later phase is performed. However, when the collected sound signal with the earliest phase is determined, the collected signal with the earlier phase is selected. What is necessary is just to repeat and perform the process to perform.

一方、−T<位相差<Tの条件を満たさない場合(ステップS43:No)、基準信号と比較対象の信号には所定の位相差があると判断される。この場合、判定部137は、位相差≧Tの条件を満たすか判断する(ステップS44)。位相差≧Tの条件を満たす場合(ステップS44:Yes)、収音信号111(つまり、音声用マイクロフォン101)の位相が先行している。この場合は、音声用マイクロフォン101の収音信号111を音声信号とし、選択された参照音用マイクロフォンの収音信号(112または113)を参照信号とする(ステップS46)。   On the other hand, when the condition −T <phase difference <T is not satisfied (step S43: No), it is determined that there is a predetermined phase difference between the reference signal and the signal to be compared. In this case, the determination unit 137 determines whether or not the condition of phase difference ≧ T is satisfied (step S44). When the condition of phase difference ≧ T is satisfied (step S44: Yes), the phase of the collected sound signal 111 (that is, the voice microphone 101) is preceded. In this case, the sound collection signal 111 of the sound microphone 101 is used as a sound signal, and the sound collection signal (112 or 113) of the selected reference sound microphone is used as a reference signal (step S46).

また、位相差≧Tの条件を満たさない場合(ステップS44:No)、選択された参照音用マイクロフォンの収音信号138の位相が先行している。このような場合、例えば話者が参照音用マイクロフォンに向かって発話していると考えられる。よって、この場合は、音声用マイクロフォン101の収音信号111を参照信号とし、選択された参照音用マイクロフォンの収音信号(112または113)を音声信号とする(ステップS47)。   When the condition of phase difference ≧ T is not satisfied (step S44: No), the phase of the sound collection signal 138 of the selected reference sound microphone is preceded. In such a case, for example, it is considered that the speaker is speaking toward the reference sound microphone. Therefore, in this case, the sound collection signal 111 of the sound microphone 101 is used as a reference signal, and the sound collection signal (112 or 113) of the selected reference sound microphone is used as a sound signal (step S47).

判定部137は、上記処理に基づき、適応フィルタ118におけるノイズ低減処理に用いられるマイクロフォンを決定し、これらの位相差情報を決定する(ステップS48)。判定部137は、ノイズ低減処理に用いる2つの収音信号に関する情報を収音信号選択情報125として適応フィルタ制御部117に出力する。   Based on the above processing, the determination unit 137 determines a microphone to be used for noise reduction processing in the adaptive filter 118, and determines the phase difference information (step S48). The determination unit 137 outputs information related to the two sound collection signals used for the noise reduction processing to the adaptive filter control unit 117 as the sound collection signal selection information 125.

位相差情報126については2つのケースがある。第1のケースは、音声用マイクロフォン101の収音信号111と、参照音用マイクロフォン102の収音信号112または参照音用マイクロフォン103の収音信号113から選択された収音信号138と、をノイズ低減処理のための信号とした場合である(ステップS46またはS47)。第2のケースは、参照用マイクロフォン102、103の収音信号112、113をノイズ低減処理のための信号とした場合である(ステップS45)。 There are two cases for the phase difference information 126. In the first case, the sound collection signal 111 of the sound microphone 101 and the sound collection signal 138 selected from the sound collection signal 112 of the reference sound microphone 102 or the sound collection signal 113 of the reference sound microphone 103 are noised. This is a case where the signal is used for reduction processing (step S46 or S47). The second case is a case where the collected sound signals 112 and 113 of the reference microphones 102 and 103 are signals for noise reduction processing (step S45).

図12で、第1のケースにおいて、判定部137は、適応フィルタ制御部117に供給される位相差情報126のような位相差出力を位相差算出部136から適応フィルタ制御部117に出力する。
一方、第2のケースでは、判定部137は、適応フィルタ制御部117に供給される位相差情報126のような位相差出力を位相差情報取得部133から適応フィルタ制御部117に出力する。
In FIG. 12, in the first case, the determination unit 137 outputs a phase difference output such as the phase difference information 126 supplied to the adaptive filter control unit 117 from the phase difference calculation unit 136 to the adaptive filter control unit 117.
On the other hand, in the second case, the determination unit 137 outputs a phase difference output such as the phase difference information 126 supplied to the adaptive filter control unit 117 from the phase difference information acquisition unit 133 to the adaptive filter control unit 117.

図14の処理は、以下に説明するような概略である。一つの音声用マイクロフォンと複数の参照音用マイクロフォンがあるとき、複数の参照音用マイクロフォンの中の特定の参照音用マイクロフォンから得られる特定の収音信号の位相(特定の収音信号の位相は、複数の参照用マイクロフォンから得られた収音信号の位相の中で最も進んでいる)は、音声用マイクロフォンから得られた収音信号の位相よりも進んでいる場合がある。この場合、信号決定部116は特定の収音信号を第1のノイズ成分を低減される第1の収音信号として決定することが好ましい。 The process of FIG. 14 is as outlined below. When there is one voice microphone and a plurality of reference sound microphones, the phase of a specific sound collection signal obtained from a specific reference sound microphone among the plurality of reference sound microphones (the phase of the specific sound collection signal is The phase of the collected sound signal obtained from the plurality of reference microphones is the most advanced) in some cases, the phase of the collected sound signal obtained from the sound microphone is advanced. In this case, it is preferable that the signal determination unit 116 determines the specific sound pickup signal as the first sound pickup signal in which the first noise component is reduced.

また、一つの音声用マイクロフォンと複数の参照音用マイクロフォンがあるとき、複数の参照音用マイクロフォンの中の特定の参照音用マイクロフォンから得られる特定の収音信号の位相(特定の収音信号の位相は、複数の参照用マイクロフォンから得られた収音信号の位相の中で最も遅れている)は、音声用マイクロフォンから得られた収音信号の位相よりも遅れている場合がある。この場合、信号決定部116は、特定の収音信号を、ノイズを低減される信号として決定された第1の収音信号に含まれるノイズ成分の低減に用いられる第2の収音信号として決定することが好ましい。
なお、図14で説明した処理では、位相差情報に基づき、ノイズ低減処理に用いられるマイクロフォンを決定したが、位相差情報に加えてパワー情報も考慮して、ノイズ低減処理に用いられるマイクロフォンを決定してもよい。
In addition, when there is one voice microphone and a plurality of reference sound microphones, the phase of a specific sound collection signal obtained from a specific reference sound microphone among the plurality of reference sound microphones (a specific sound collection signal The phase is most delayed among the phases of the collected sound signals obtained from the plurality of reference microphones), and may be delayed from the phase of the collected sound signals obtained from the sound microphone. In this case, the signal determination unit 116 determines the specific sound pickup signal as the second sound pickup signal used for reducing the noise component included in the first sound pickup signal determined as the signal whose noise is reduced. It is preferable to do.
In the process described with reference to FIG. 14, the microphone used for the noise reduction process is determined based on the phase difference information. However, the microphone used for the noise reduction process is determined in consideration of the power information in addition to the phase difference information. May be.

具体的に、図14の処理で、信号決定部116は複数の収音信号の中で最も進んだ位相を持つ収音信号をノイズ低減に用いる1つ目の収音信号として決定すると共に、最も遅い位相を持つ収音信号を第1の収音信号によってノイズ成分の低減に用いられる第2の収音信号として決定する。しかしながら、信号決定部116は、複数の収音信号の中から最も遅い位相でかつ、所定値(たとえば、P以上)より大きいレベルの収音信号を第1の収音信号に含まれるノイズ成分の低減に用いられる第2の収音信号として決定してもよい。さらに、複数の収音信号の中で最も遅い位相を持つ収音信号の大きさが所定値以下の場合もある。この場合、信号決定部は、収音信号の複数の中から最も遅い位相の次に遅い位相を持つ特定の収音信号を第1の収音信号に含まれるノイズ成分の低減に用いられる第2の収音信号として決定することが好ましい。 Specifically, in the process of FIG. 14, the signal determination unit 116 determines the sound collection signal having the most advanced phase among the plurality of sound collection signals as the first sound collection signal used for noise reduction, A sound pickup signal having a slow phase is determined as a second sound pickup signal to be used for noise component reduction by the first sound pickup signal. However, the signal determination unit 116 selects a sound collection signal having the latest phase among the plurality of sound collection signals and a level larger than a predetermined value (for example, P or more) as a noise component included in the first sound collection signal. You may determine as a 2nd sound collection signal used for reduction. Furthermore, the magnitude of the sound pickup signal having the slowest phase among the plurality of sound pickup signals may be a predetermined value or less. In this case, the signal determination unit uses the specific sound collection signal having the slowest phase next to the slowest phase among the plurality of sound collection signals to reduce the noise component included in the first sound collection signal. It is preferable to determine this as the sound pickup signal.

また、複数の収音信号の中で第1の収音信号を除いてそれぞれの位相差が所定値以内である場合(例えば、−T<位相差<T)がある。この場合、信号決定部116は、収音信号の大きさが第1の収音信号を除いてもっとも大きい特定の収音信号を第1の収音信号に含まれるノイズ成分の低減に用いられる第2の収音信号として決定することが好ましい。 Further, there is a case where the phase difference is within a predetermined value except for the first sound pickup signal among the plurality of sound pickup signals (for example, −T <phase difference <T). In this case, the signal determination unit 116 uses the specific sound collection signal having the largest sound collection signal size except for the first sound collection signal to reduce the noise component included in the first sound collection signal. Preferably, it is determined as the second collected sound signal.

図11に示す適応フィルタ制御部117は、音声区間判定器115から出力された音声区間情報124、並びに信号決定部116から出力されたノイズ低減処理に用いる2つの収音信号に関する情報(収音信号選択情報)125および当該決定された2つの収音信号の位相差情報126に基づき、適応フィルタ118を制御するための制御信号を生成し、生成された制御信号127を適応フィルタ118に出力する。ここで、制御信号127は、音声区間情報124、収音信号選択情報125、および位相差情報126を含んでいる。   The adaptive filter control unit 117 illustrated in FIG. 11 includes the speech section information 124 output from the speech section determination unit 115 and information about the two sound collection signals used for noise reduction processing output from the signal determination unit 116 (sound collection signal). A control signal for controlling the adaptive filter 118 is generated based on the selection information 125 and the phase difference information 126 of the two determined sound pickup signals, and the generated control signal 127 is output to the adaptive filter 118. Here, the control signal 127 includes voice section information 124, collected sound signal selection information 125, and phase difference information 126.

適応フィルタ118は、収音信号111〜113の中から選択された2つの収音信号を用いて、ノイズが低減された音声信号を生成し、このノイズが低減された音声信号を出力信号128として出力する。ここで、適応フィルタ118におけるノイズ低減処理に用いられる2つの収音信号は、信号決定部116で決定された収音信号である。適応フィルタ118は、音声信号に含まれたノイズ成分を低減するために、参照信号を用いて音声信号に含まれている可能性があるノイズ成分を擬似的に生成する。そして、適応フィルタ118は、音声信号から、この擬似的に生成したノイズ成分を差し引くことで、ノイズ低減処理を実施することができる。   The adaptive filter 118 uses the two collected sound signals selected from the collected sound signals 111 to 113 to generate a sound signal with reduced noise, and uses the sound signal with reduced noise as the output signal 128. Output. Here, the two sound pickup signals used for the noise reduction processing in the adaptive filter 118 are the sound pickup signals determined by the signal determination unit 116. The adaptive filter 118 artificially generates a noise component that may be included in the audio signal using the reference signal in order to reduce the noise component included in the audio signal. The adaptive filter 118 can perform the noise reduction process by subtracting the pseudo-generated noise component from the audio signal.

適応フィルタ制御部117は、適応フィルタ118が上記処理を実施するための制御信号127を適応フィルタ118に出力する。また、適応フィルタ制御部117に供給される音声区間情報124は、適応フィルタ118における適応フィルタ係数の更新のタイミングを決定する情報である。例えば、音声区間判定器において音声区間ではない(つまり、ノイズ区間)と判断された場合は、積極的にノイズ成分を低減するために、適応フィルタ118の適応フィルタ係数の更新を実施してもよい。一方、例えば、音声区間判定器において音声区間と判断された場合は、既存の適応フィルタ係数を用いて、ノイズ低減処理を実施してもよい。   The adaptive filter control unit 117 outputs a control signal 127 for the adaptive filter 118 to perform the above processing to the adaptive filter 118. The speech section information 124 supplied to the adaptive filter control unit 117 is information for determining the timing of updating the adaptive filter coefficient in the adaptive filter 118. For example, when the speech segment determining unit determines that it is not a speech segment (that is, a noise segment), the adaptive filter coefficient of the adaptive filter 118 may be updated in order to actively reduce the noise component. . On the other hand, for example, when it is determined that the speech section is determined to be a speech section, noise reduction processing may be performed using an existing adaptive filter coefficient.

図15は、適応フィルタ118の一例を示すブロック図である。適応フィルタ118は、遅延素子171_1〜171_n、乗算器172_1〜172_n+1、加算器173_1〜173_n、適応係数調整部174、減算器175、出力信号選択部176、およびセレクタ177を備える。   FIG. 15 is a block diagram illustrating an example of the adaptive filter 118. The adaptive filter 118 includes delay elements 171_1 to 171_n, multipliers 172_1 to 172_n + 1, adders 173_1 to 173_n, an adaptive coefficient adjustment unit 174, a subtractor 175, an output signal selection unit 176, and a selector 177.

セレクタ177は、適応フィルタ制御部117から出力された制御信号127に応じて、収音信号111〜113のうちの2つを、音声信号181および参照信号182として出力する。すなわち、セレクタ177は、信号決定部116から出力された収音信号選択情報125に基づいて、収音信号111〜113のうちの2つを選択し、一方を音声信号181として他方を参照信号182として出力する。   The selector 177 outputs two of the collected sound signals 111 to 113 as the audio signal 181 and the reference signal 182 in response to the control signal 127 output from the adaptive filter control unit 117. That is, the selector 177 selects two of the collected sound signals 111 to 113 based on the collected sound signal selection information 125 output from the signal determining unit 116, one as the audio signal 181 and the other as the reference signal 182. Output as.

遅延素子171_1〜171_n、乗算器172_1〜172_n+1、および加算器173_1〜173_nは、FIRフィルタを構成する。遅延素子171_1〜171_n、乗算器172_1〜172_n+1、および加算器173_1〜173_を用いて参照信号182を処理することで、擬似ノイズ信号183が生成される。   The delay elements 171_1 to 171_n, the multipliers 172_1 to 172_n + 1, and the adders 173_1 to 173_n constitute an FIR filter. The pseudo noise signal 183 is generated by processing the reference signal 182 using the delay elements 171_1 to 171_n, the multipliers 172_1 to 172_n + 1, and the adders 173_1 to 173_.

適応係数調整部174は、制御信号127(例えば、位相差情報126及び音声区間信号124)に応じて、乗算器172_1〜172_n+1の係数を調整する。すなわち、適応係数調整部174は、音声区間情報124がノイズ区間(非音声区間)を示している場合、適応誤差が少なくなるように係数を調整する。一方、音声区間情報124が音声区間を示している場合、適応フィルタ118の係数を維持するか、または係数を微調整する。更に、適応係数調整部174は、音声信号と参照信号の位相差が所定の範囲内である場合(つまり、位相差がほとんどない場合)は、適応フィルタ118の係数を維持するか、または係数を微調整するのみとする。音声信号と参照信号の位相差がほとんどない場合は、適切ではない方向から音声が到来していると推測することができるため、ノイズ低減処理によるノイズ低減効果を意識的に落とすことにより音声成分がキャンセルされることを抑制することができる。   The adaptive coefficient adjustment unit 174 adjusts the coefficients of the multipliers 172_1 to 172_n + 1 in accordance with the control signal 127 (for example, the phase difference information 126 and the voice section signal 124). That is, when the speech section information 124 indicates a noise section (non-speech section), the adaptive coefficient adjustment unit 174 adjusts the coefficient so that the adaptation error is reduced. On the other hand, when the speech section information 124 indicates a speech section, the coefficient of the adaptive filter 118 is maintained or the coefficient is finely adjusted. Furthermore, when the phase difference between the audio signal and the reference signal is within a predetermined range (that is, when there is almost no phase difference), the adaptive coefficient adjustment unit 174 maintains the coefficient of the adaptive filter 118 or sets the coefficient. Only fine adjustment. When there is almost no phase difference between the audio signal and the reference signal, it can be assumed that the audio is coming from an inappropriate direction, so the audio component is reduced by consciously reducing the noise reduction effect by the noise reduction processing. Cancellation can be suppressed.

減算器175は、音声信号181から疑似ノイズ信号183を差し引くことで、ノイズ低減処理後の信号184を生成し、出力信号選択部176に出力する。また、減算器175は、音声信号181から疑似ノイズ信号183を差し引くことで、フィードバック用の信号185を生成し、適応係数調整部174に出力する。   The subtractor 175 generates a signal 184 after noise reduction processing by subtracting the pseudo noise signal 183 from the audio signal 181, and outputs the signal 184 to the output signal selection unit 176. Also, the subtractor 175 generates a feedback signal 185 by subtracting the pseudo noise signal 183 from the audio signal 181, and outputs it to the adaptive coefficient adjustment unit 174.

出力信号選択部176は、適応フィルタ制御部117から出力された制御信号127(例えば、信号決定部116から出力された位相差情報126)に応じて、音声信号181を出力信号128としてそのまま出力するか、またはノイズ低減処理後の信号184を出力信号128として出力するかを選択する。例えば、音声信号と参照信号の位相差がほとんどない場合は、出力信号選択部176は音声信号181を出力信号128としてそのまま出力する。一方、音声信号と参照信号の位相差が所定の値以上である場合は、出力信号選択部176はノイズ低減処理後の信号184を出力信号128として出力する。   The output signal selection unit 176 outputs the audio signal 181 as it is as the output signal 128 according to the control signal 127 output from the adaptive filter control unit 117 (for example, the phase difference information 126 output from the signal determination unit 116). Or whether to output the signal 184 after the noise reduction processing as the output signal 128 is selected. For example, when there is almost no phase difference between the audio signal and the reference signal, the output signal selection unit 176 outputs the audio signal 181 as it is as the output signal 128. On the other hand, when the phase difference between the audio signal and the reference signal is greater than or equal to a predetermined value, the output signal selection unit 176 outputs the signal 184 after the noise reduction processing as the output signal 128.

次に、本実施の形態にかかるノイズ低減装置3の動作について説明する。図16は、本実施の形態にかかるノイズ低減装置3の動作を説明するためのフローチャートである。   Next, operation | movement of the noise reduction apparatus 3 concerning this Embodiment is demonstrated. FIG. 16 is a flowchart for explaining the operation of the noise reduction apparatus 3 according to the present embodiment.

信号決定部116で生成される収音信号選択情報125および位相差情報126は、音声区間であることが確実な場合に更新される。よって、予め収音信号選択情報125および位相差情報126を初期化し、所定の初期値に設定する(ステップS51)。ここで初期値とは、例えばノイズ低減装置を備える機器が適切な状態で使用された場合(マイクロフォンの位置が適切な状態で使用された場合)に設定されるパラメータである。   The collected sound signal selection information 125 and the phase difference information 126 generated by the signal determination unit 116 are updated when it is certain that the voice section is in effect. Therefore, the sound pickup signal selection information 125 and the phase difference information 126 are initialized in advance and set to predetermined initial values (step S51). Here, the initial value is a parameter that is set when, for example, a device including a noise reduction device is used in an appropriate state (when the position of the microphone is used in an appropriate state).

次に、音声区間判定器115を用いて、音声用マイクロフォン101において収音された音が音声区間であるか否かを判定する(ステップS52)。この際、音声区間と判定するための条件を厳しくすることで、音声区間を確実に判定することができる。   Next, it is determined whether or not the sound collected by the voice microphone 101 is a voice section using the voice section determination unit 115 (step S52). At this time, the voice section can be reliably determined by tightening the conditions for determining the voice section.

音声区間判定器115は、音声区間を検出した場合(ステップS53:Yes)、信号決定部116および適応フィルタ制御部117に音声区間情報123、124をそれぞれ出力する。そして、信号決定部116は、収音信号選択情報125および位相差情報126を取得する(ステップS54)。信号決定部116は、図13および図14に示した処理を実施することで、収音信号選択情報125と位相差情報126を取得することができる。   When the speech section determination unit 115 detects a speech section (step S53: Yes), the speech section determination unit 115 outputs the speech section information 123 and 124 to the signal determination unit 116 and the adaptive filter control unit 117, respectively. Then, the signal determination unit 116 acquires the collected sound signal selection information 125 and the phase difference information 126 (step S54). The signal determination unit 116 can acquire the collected sound signal selection information 125 and the phase difference information 126 by performing the processing illustrated in FIGS. 13 and 14.

適応フィルタ制御部117は、適応フィルタ118に供給する制御信号127に含まれる収音信号選択情報125および位相差情報126を、新規に求めた情報に更新する(ステップS55)。一方、音声区間判定器115において音声区間ではないと判断された場合(ステップS53:No)、適応フィルタ制御部117は、適応フィルタ118に供給する制御信号127に含まれる収音信号選択情報125と位相差情報126を更新しない。   The adaptive filter control unit 117 updates the collected sound signal selection information 125 and the phase difference information 126 included in the control signal 127 supplied to the adaptive filter 118 to the newly obtained information (step S55). On the other hand, when it is determined by the speech segment determination unit 115 that the speech segment is not a speech segment (step S53: No), the adaptive filter control unit 117 and the collected sound signal selection information 125 included in the control signal 127 supplied to the adaptive filter 118 The phase difference information 126 is not updated.

次に、適応フィルタ118のセレクタ177において、収音信号選択情報125に基づいて収音信号111〜113の中から音声信号と参照信号を選択する(ステップS56)。そして、適応フィルタ118は、選択された2つの収音信号を用いてノイズ低減処理を実施する(ステップS57)。   Next, the selector 177 of the adaptive filter 118 selects a sound signal and a reference signal from the collected sound signals 111 to 113 based on the collected sound signal selection information 125 (step S56). Then, the adaptive filter 118 performs noise reduction processing using the two selected sound pickup signals (step S57).

ノイズ低減装置3は、音声用マイクロフォン101等により音(音声やノイズ)を受信しているか否かをチェックする(ステップS58)。そして、音を受信している場合(ステップS58:Yes)、ステップS52以降の処理を繰り返す。一方、音を受信していない場合(ステップS58:No)、ノイズ低減装置3によるノイズ低減処理が終了する。   The noise reduction device 3 checks whether or not sound (voice or noise) is received by the voice microphone 101 or the like (step S58). And when the sound is received (step S58: Yes), the process after step S52 is repeated. On the other hand, when no sound is received (step S58: No), the noise reduction process by the noise reduction device 3 ends.

本実施の形態にかかるノイズ低減装置3では、音声区間判定器115を用いることで、ノイズレベルが高い場合であっても音声が発せられている区間を判定することができる。
そして、音声区間判定器115で音声区間であると判定されている場合に、信号決定部116で、収音信号111〜113のうちノイズ低減処理に用いる2つの収音信号を決定し、当該決定された2つの収音信号の位相差情報を更新している。よって、信号決定部116における情報処理量を低減することができる。また、信号決定部116は音声区間において収音信号選択情報と位相差情報を更新しているので、信頼性の高い収音信号選択情報と位相差情報を得ることができる。また、複数の収音信号の中から、ノイズ低減処理に使用される最適な2つの収音信号を選択することができるので、ノイズ低減装置を用いた機器が様々な状態で使用された場合であっても、精度よくノイズ低減処理を実施することができる。
In the noise reduction device 3 according to the present embodiment, by using the speech section determination unit 115, it is possible to determine a section in which sound is emitted even when the noise level is high.
Then, when it is determined that the speech section is determined to be a speech section by the speech section determiner 115, the signal determination unit 116 determines two sound collection signals to be used for noise reduction processing from the sound collection signals 111 to 113, and the determination The phase difference information of the two collected sound signals is updated. Therefore, the information processing amount in the signal determination unit 116 can be reduced. In addition, since the signal determination unit 116 updates the collected sound signal selection information and the phase difference information in the voice section, it is possible to obtain the collected sound signal selection information and the phase difference information with high reliability. In addition, since it is possible to select two optimum sound pickup signals to be used for noise reduction processing from among a plurality of sound pickup signals, when a device using a noise reduction device is used in various states. Even if it exists, a noise reduction process can be implemented accurately.

以上で説明したように、本実施の形態にかかる発明により、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。   As described above, according to the invention according to the present embodiment, a noise reduction device, a voice input device, a wireless communication device, and a noise reduction device that can appropriately reduce noise components included in a voice signal even under various environments, A noise reduction method can be provided.

<実施の形態3>
次に、本発明の実施の形態3について説明する。
図17は、実施の形態3にかかるノイズ低減装置4を示すブロック図である。本実施の形態にかかるノイズ低減装置4は、音声用マイクロフォン201の収音信号211に加えて、参照音用マイクロフォン202、203の収音信号212、213も音声区間判定器215に供給されている点、および信号決定部216が音声区間判定器215に対して収音信号選択情報223を供給している点が、図11に示した実施の形態2にかかるノイズ低減装置3と異なる。これ以外は、実施の形態2で説明したノイズ低減装置3と同様であるので、適宜、重複した説明は省略する。
<Embodiment 3>
Next, a third embodiment of the present invention will be described.
FIG. 17 is a block diagram of the noise reduction device 4 according to the third embodiment. In the noise reduction device 4 according to the present embodiment, in addition to the sound collection signal 211 of the sound microphone 201, sound collection signals 212 and 213 of the reference sound microphones 202 and 203 are also supplied to the sound section determination unit 215. This is different from the noise reduction apparatus 3 according to the second embodiment shown in FIG. 11 in that the signal determination unit 216 supplies the collected sound signal selection information 223 to the speech section determination unit 215. Other than this, since it is the same as the noise reduction device 3 described in the second embodiment, a redundant description will be omitted as appropriate.

図17に示すノイズ低減装置4は、音声用マイクロフォン201、参照音用マイクロフォンA(202)、参照音用マイクロフォンB(203)、ADコンバータ204、205、206、音声区間判定器215、信号決定部216、適応フィルタ制御部217、および適応フィルタ218を有する。   The noise reduction apparatus 4 shown in FIG. 17 includes an audio microphone 201, a reference sound microphone A (202), a reference sound microphone B (203), AD converters 204, 205, and 206, an audio section determination device 215, and a signal determination unit. 216, an adaptive filter control unit 217, and an adaptive filter 218.

本実施の形態にかかるノイズ低減装置4が備える音声用マイクロフォン201、参照音用マイクロフォン202、203、およびADコンバータ204、205、206はそれぞれ、図11で説明した実施の形態2にかかるノイズ低減装置3が備える音声用マイクロフォン101、参照音用マイクロフォン102、103、およびADコンバータ104、105、106と同様の構成であるので、重複した説明は省略する。   The sound microphone 201, the reference sound microphones 202 and 203, and the AD converters 204, 205, and 206 included in the noise reduction device 4 according to the present embodiment are respectively noise reduction devices according to the second embodiment described with reference to FIG. 3 has the same configuration as that of the voice microphone 101, the reference sound microphones 102 and 103, and the AD converters 104, 105, and 106 provided in FIG.

本実施の形態にかかるノイズ低減装置では、ADコンバータ204、205、206からそれぞれ出力された収音信号211、212、213は、音声区間判定器215、信号決定部216、および適応フィルタ218に供給される。   In the noise reduction apparatus according to the present embodiment, the collected sound signals 211, 212, and 213 output from the AD converters 204, 205, and 206 are supplied to the speech section determiner 215, the signal determination unit 216, and the adaptive filter 218. Is done.

信号決定部216は、収音信号211、収音信号212、および収音信号213の中から、音声区間判定器215における音声区間判定に用いる収音信号を決定し、音声区間判定に用いる収音信号に関する情報を収音信号選択情報223として音声区間判定器215に出力する。ノイズ低減装置に音声が入力されている場合、音声を含む収音信号の位相が最も早いとみなすことができる。よって、信号決定部216は、例えば、収音信号211、収音信号212、および収音信号213のうち位相が最も早い収音信号を音声区間判定に用いる収音信号として決定することができる。   The signal determination unit 216 determines a sound collection signal used for sound section determination in the sound section determination unit 215 from the sound collection signal 211, the sound collection signal 212, and the sound collection signal 213, and collects sound used for the sound section determination. Information related to the signal is output to the speech segment determination unit 215 as the collected sound signal selection information 223. When sound is input to the noise reduction device, it can be considered that the phase of the collected sound signal including the sound is the earliest. Therefore, the signal determination unit 216 can determine, for example, a sound collection signal having the earliest phase among the sound collection signal 211, the sound collection signal 212, and the sound collection signal 213 as a sound collection signal used for sound segment determination.

例えば、信号決定部216の構成は図12に示した信号決定部116の構成と同様であり、信号決定部216の動作は、図13および図14に示したフローチャートに示した動作と同様である。すなわち、信号決定部216は、図14に示したフローチャートのステップS45〜S47において音声信号とみなされた収音信号を、音声区間判定に用いる収音信号として決定することができる。   For example, the configuration of the signal determination unit 216 is the same as the configuration of the signal determination unit 116 illustrated in FIG. 12, and the operation of the signal determination unit 216 is the same as the operation illustrated in the flowcharts illustrated in FIGS. . That is, the signal determination unit 216 can determine the sound collection signal regarded as the sound signal in steps S45 to S47 in the flowchart shown in FIG. 14 as the sound collection signal used for sound section determination.

また、信号決定部216は、収音信号211、収音信号212、および収音信号213の中からノイズ低減処理に用いる2つの収音信号を決定し、当該決定された2つの収音信号の位相差情報を取得する。信号決定部216は、ノイズ低減処理に用いる2つの収音信号に関する収音信号選択情報225と、当該決定された2つの収音信号の位相差情報226を適応フィルタ制御部217に出力する。   In addition, the signal determination unit 216 determines two sound collection signals to be used for noise reduction processing from the sound collection signal 211, the sound collection signal 212, and the sound collection signal 213, and determines the two collected sound collection signals. Get phase difference information. The signal determination unit 216 outputs the collected sound signal selection information 225 regarding the two collected sound signals used for the noise reduction processing and the phase difference information 226 of the determined two collected sound signals to the adaptive filter control unit 217.

音声区間判定器215は、収音信号211、収音信号212、および収音信号213のうち、信号決定部216から出力された信号選択情報223に応じて選択された収音信号を用いて音声区間を判定する。そして、音声区間判定器215は、音声区間と判定した場合、適応フィルタ制御部217に音声区間情報224を出力する。   The voice section determination unit 215 uses the collected sound signal selected according to the signal selection information 223 output from the signal determination unit 216 among the collected sound signal 211, the collected sound signal 212, and the collected sound signal 213. Determine the interval. Then, the speech segment determining unit 215 outputs the speech segment information 224 to the adaptive filter control unit 217 when it is determined to be a speech segment.

音声区間判定器215における音声区間判定処理には任意の技術を用いることができる。しかし、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間を判定する必要がある。この場合、例えば特願2010−260798に記載されている技術(音声区間判定技術A)や、特願2011−020459に記載されている技術(音声区間判定技術B)を用いることで、音声区間を高い精度で判定することができる。なお、音声区間判定技術A、音声区間判定技術Bについては、実施の形態1で説明したので、重複した説明は省略する。   Any technique can be used for the speech segment determination processing in the speech segment determiner 215. However, when the noise reduction device is used in an environment where the noise level is high, it is necessary to determine the speech section with high accuracy. In this case, for example, by using the technology described in Japanese Patent Application No. 2010-260798 (speech segment determination technology A) and the technology described in Japanese Patent Application No. 2011-020659 (speech segment determination technology B), It can be determined with high accuracy. Note that since the speech segment determination technique A and the speech segment determination technique B have been described in the first embodiment, a duplicate description is omitted.

適応フィルタ制御部217は、音声区間判定器215から出力された音声区間情報224に応じて、適応フィルタ218の制御に用いる収音信号選択情報225および位相差情報226を決定する。すなわち、適応フィルタ制御部217には、信号決定部216から出力された収音信号選択情報225および位相差情報226が所定のタイミング毎に供給されている。しかし、この中には音声区間以外のタイミングにおいて取得された収音信号選択情報225および位相差情報226も含まれている。音声区間以外のタイミングにおいて取得された収音信号選択情報225および位相差情報226は、精度が低い情報である。   The adaptive filter control unit 217 determines the collected sound signal selection information 225 and the phase difference information 226 used for the control of the adaptive filter 218 according to the voice section information 224 output from the voice section determiner 215. That is, the collected sound signal selection information 225 and the phase difference information 226 output from the signal determination unit 216 are supplied to the adaptive filter control unit 217 at every predetermined timing. However, this includes sound collection signal selection information 225 and phase difference information 226 acquired at a timing other than the voice interval. The collected sound signal selection information 225 and the phase difference information 226 acquired at timings other than the voice section are information with low accuracy.

これに対して、音声区間判定器215が音声区間と判定した場合における収音信号選択情報225および位相差情報226は、精度が高い情報である。よって、適応フィルタ制御部217は、音声区間判定器215において音声区間と判定されたタイミングにおける収音信号選択情報225および位相差情報226を、適応フィルタ218の制御に用いる収音信号選択情報225および位相差情報226と決定する。このように、音声区間における収音信号選択情報225および位相差情報226を適応フィルタ218の制御に用いることで、適応フィルタ218において精度よくノイズを低減することができる。   On the other hand, the collected sound signal selection information 225 and the phase difference information 226 when the speech segment determining unit 215 determines that the speech segment is a highly accurate information. Therefore, the adaptive filter control unit 217 uses the collected sound signal selection information 225 and the phase difference information 226 at the timing determined as the speech section by the speech section determiner 215, and the collected sound signal selection information 225 used for controlling the adaptive filter 218 and The phase difference information 226 is determined. As described above, by using the collected sound signal selection information 225 and the phase difference information 226 in the voice section for the control of the adaptive filter 218, the adaptive filter 218 can reduce noise with high accuracy.

ここで、音声区間情報224は音声区間判定器215における音声区間判定処理の後に適応フィルタ制御部217に出力される。よって、所定のタイミングにおける収音信号選択情報225および位相差情報226が適応フィルタ制御部217に供給されるタイミングは、当該所定のタイミングに対応する音声区間情報224が適応フィルタ制御部217に供給されるタイミングよりも早い。よって、適応フィルタ制御部217はこれらのタイミングを調整するために、供給された収音信号選択情報225および位相差情報226を一時的に保持することができるバッファを備えていてもよい。このように適応フィルタ制御部217において収音信号選択情報225および位相差情報226を一時的に保持することで、音声区間情報224に対応した収音信号選択情報225および位相差情報226を選択することができる。   Here, the speech segment information 224 is output to the adaptive filter control unit 217 after the speech segment determination process in the speech segment determiner 215. Therefore, the sound collection signal selection information 225 and the phase difference information 226 at the predetermined timing are supplied to the adaptive filter control unit 217, and the voice section information 224 corresponding to the predetermined timing is supplied to the adaptive filter control unit 217. It is earlier than the timing. Therefore, the adaptive filter control unit 217 may include a buffer that can temporarily hold the supplied sound pickup signal selection information 225 and phase difference information 226 in order to adjust these timings. As described above, the adaptive filter control unit 217 temporarily holds the collected sound signal selection information 225 and the phase difference information 226, thereby selecting the collected sound signal selection information 225 and the phase difference information 226 corresponding to the speech section information 224. be able to.

また、適応フィルタ制御部217は、音声区間判定器215から出力された音声区間情報224、並びに収音信号選択情報(ノイズ低減処理に用いる2つの収音信号に関する情報)225および当該決定された2つの収音信号の位相差情報226に基づき、適応フィルタ218を制御するための制御信号227を生成し、生成された制御信号227を適応フィルタ218に出力する。ここで、制御信号227は、音声区間情報224、収音信号選択情報225、および位相差情報226を含んでいる。   In addition, the adaptive filter control unit 217 outputs the voice section information 224 output from the voice section determiner 215, the collected sound signal selection information (information on two sound collection signals used for noise reduction processing) 225, and the determined 2 Based on the phase difference information 226 of the two collected sound signals, a control signal 227 for controlling the adaptive filter 218 is generated, and the generated control signal 227 is output to the adaptive filter 218. Here, the control signal 227 includes voice section information 224, collected sound signal selection information 225, and phase difference information 226.

適応フィルタ218は、収音信号211〜213の中から選択された2つの収音信号を用いて、ノイズが低減された音声信号を生成し、このノイズが低減された音声信号を出力信号228として出力する。ここで、適応フィルタ218におけるノイズ低減処理に用いられる2つの収音信号は、信号決定部216で決定された収音信号である。適応フィルタ218は、音声信号に含まれたノイズ成分を低減するために、参照信号を用いて音声信号に含まれている可能性があるノイズ成分を擬似的に生成する。そして、適応フィルタ218は、音声信号から、この擬似的に生成したノイズ成分を差し引くことで、ノイズ低減処理を実施することができる。   The adaptive filter 218 uses the two collected sound signals selected from the collected sound signals 211 to 213 to generate a sound signal with reduced noise, and uses the sound signal with reduced noise as the output signal 228. Output. Here, the two sound pickup signals used for the noise reduction processing in the adaptive filter 218 are the sound pickup signals determined by the signal determination unit 216. The adaptive filter 218 artificially generates a noise component that may be included in the audio signal using the reference signal in order to reduce the noise component included in the audio signal. The adaptive filter 218 can perform noise reduction processing by subtracting the pseudo-generated noise component from the audio signal.

本実施の形態にかかるノイズ低減装置4が備える適応フィルタ制御部217は、図11で説明した実施の形態2にかかるノイズ低減装置3が備える適応フィルタ制御部117と同様の構成であるので、重複した説明は省略する。また、本実施の形態にかかるノイズ低減装置4が備える適応フィルタ218は、図11、図15で説明した実施の形態2にかかるノイズ低減装置3が備える適応フィルタ118と同様の構成であるので、重複した説明は省略する。   The adaptive filter control unit 217 included in the noise reduction device 4 according to the present embodiment has the same configuration as the adaptive filter control unit 117 included in the noise reduction device 3 according to the second embodiment described in FIG. The explanations made are omitted. The adaptive filter 218 included in the noise reduction device 4 according to the present embodiment has the same configuration as the adaptive filter 118 included in the noise reduction device 3 according to the second embodiment described with reference to FIGS. 11 and 15. A duplicate description is omitted.

次に、本実施の形態にかかるノイズ低減装置4の動作について説明する。図18は、本実施の形態にかかるノイズ低減装置4の動作を説明するためのフローチャートである。   Next, operation | movement of the noise reduction apparatus 4 concerning this Embodiment is demonstrated. FIG. 18 is a flowchart for explaining the operation of the noise reduction apparatus 4 according to the present embodiment.

信号決定部216で生成される収音信号選択情報225および位相差情報226は、音声区間であることが確実な場合に更新される。よって、信号決定部216は予め収音信号選択情報225および位相差情報226を初期化し、所定の初期値に設定する(ステップS61)。ここで初期値とは、例えばノイズ低減装置を備える機器が適切な状態で使用された場合(マイクロフォンの位置が適切な状態で使用された場合)に設定されるパラメータである。   The collected sound signal selection information 225 and the phase difference information 226 generated by the signal determination unit 216 are updated when it is certain that the voice section is in effect. Therefore, the signal determination unit 216 initializes the collected sound signal selection information 225 and the phase difference information 226 in advance and sets them to predetermined initial values (step S61). Here, the initial value is a parameter that is set when, for example, a device including a noise reduction device is used in an appropriate state (when the position of the microphone is used in an appropriate state).

次に、信号決定部216は、収音信号211〜213を用いて、収音信号選択情報223、225および位相差情報226を取得する(ステップS62)。そして、信号決定部216は、音声区間判定に用いる収音信号に関する収音信号選択情報223を音声区間判定器215に出力する。また、信号決定部216は、ノイズ低減処理に用いる2つの収音信号に関する収音信号選択情報225と、当該決定された2つの収音信号の位相差情報226を適応フィルタ制御部217に出力する。   Next, the signal determination unit 216 acquires the collected sound signal selection information 223 and 225 and the phase difference information 226 using the collected sound signals 211 to 213 (step S62). Then, the signal determination unit 216 outputs the collected sound signal selection information 223 related to the collected sound signal used for the speech section determination to the speech section determiner 215. In addition, the signal determination unit 216 outputs the collected sound signal selection information 225 regarding the two collected sound signals used for the noise reduction processing and the phase difference information 226 of the determined two collected sound signals to the adaptive filter control unit 217. .

次に、音声区間判定器215は、収音信号選択情報223に応じた収音信号を用いて音声区間を判定する(ステップS63)。音声区間判定器215は、音声区間を検出した場合(ステップS64:Yes)、適応フィルタ制御部217に音声区間情報224を出力する。そして、適応フィルタ制御部217は、収音信号選択情報および位相差情報を、音声区間判定器215において音声区間と判定されたタイミングにおける収音信号選択情報225および位相差情報226に更新する(ステップS65)。一方、音声区間判定器215において音声区間ではないと判断された場合(ステップS64:No)、適応フィルタ制御部217は、収音信号選択情報および位相差情報を更新しない。   Next, the speech segment determination unit 215 determines a speech segment using a sound collection signal corresponding to the sound collection signal selection information 223 (step S63). When the speech segment determination unit 215 detects a speech segment (step S64: Yes), the speech segment determination unit 215 outputs the speech segment information 224 to the adaptive filter control unit 217. Then, the adaptive filter control unit 217 updates the collected sound signal selection information and the phase difference information to the collected sound signal selection information 225 and the phase difference information 226 at the timing determined as the speech section by the speech section determination unit 215 (step S65). On the other hand, when it is determined by the speech segment determination unit 215 that the speech segment is not a speech segment (step S64: No), the adaptive filter control unit 217 does not update the collected sound signal selection information and the phase difference information.

次に、適応フィルタ218のセレクタ(図15のセレクタ177に対応)において、収音信号選択情報225に基づいて収音信号211〜213の中から音声信号と参照信号を選択する(ステップS66)。そして、適応フィルタ218は、選択された2つの収音信号を用いてノイズ低減処理を実施する(ステップS67)。   Next, in the selector of the adaptive filter 218 (corresponding to the selector 177 in FIG. 15), an audio signal and a reference signal are selected from the collected sound signals 211 to 213 based on the collected sound signal selection information 225 (step S66). Then, the adaptive filter 218 performs noise reduction processing using the selected two collected sound signals (step S67).

ノイズ低減装置4は、音声用マイクロフォン201等により音(音声やノイズ)を受信しているか否かをチェックする(ステップS68)。そして、音を受信している場合(ステップS68:Yes)、ステップS62以降の処理を繰り返す。一方、音を受信していない場合(ステップS68:No)、ノイズ低減装置4によるノイズ低減処理が終了する。   The noise reduction device 4 checks whether or not sound (voice or noise) is received by the voice microphone 201 or the like (step S68). And when the sound is received (step S68: Yes), the process after step S62 is repeated. On the other hand, when the sound is not received (step S68: No), the noise reduction process by the noise reduction device 4 ends.

図11に示した実施の形態2にかかるノイズ低減装置3では、音声用マイクロフォン101で収音された収音信号111を、音声区間判定器115における音声区間判定に用いていた。この場合は、音声用マイクロフォン101で収音された収音信号111に主として音声が含まれていることが好ましく、例えば音声用マイクロフォン101と話者の口元とが一定の距離を隔てて安定した状態で使用されている状態を想定している。この用法では、音声区間判定器115は、音声用マイクロフォン101で収音された収音信号111について音声区間判定を実施すればよい。また、信号決定部116は、音声区間判定と判定された場合にのみ収音信号選択情報125および位相差情報126を取得すればよく、信号処理の負荷を低減することができるという利点があった。   In the noise reduction device 3 according to the second embodiment shown in FIG. 11, the collected sound signal 111 collected by the sound microphone 101 is used for sound section determination in the sound section determiner 115. In this case, it is preferable that the collected sound signal 111 collected by the sound microphone 101 mainly includes sound. For example, the sound microphone 101 and the speaker's mouth are in a stable state with a certain distance therebetween. It assumes the state used in. In this usage, the speech segment determination unit 115 may perform speech segment determination on the collected sound signal 111 collected by the speech microphone 101. In addition, the signal determination unit 116 only has to acquire the collected sound signal selection information 125 and the phase difference information 126 only when it is determined that the speech section is determined, and there is an advantage that the load of signal processing can be reduced. .

このように、図11に示した実施の形態2にかかるノイズ低減装置3では、音声用マイクロフォン101と話者の口元とが一定の距離を隔てて安定した状態で使用されている状態を想定している。しかしながら、ノイズ低減装置を用いた機器の中には、例えば、話者の使用状況によって、音声用マイクロフォンと話者の口元との距離が一定とならずに不安定な状態で使用される場合がある。この場合は、音声用マイクロフォンよりも参照音用マイクロフォンのほうが音声を多く収音することができる場合もある。   Thus, in the noise reduction apparatus 3 according to the second embodiment shown in FIG. 11, it is assumed that the voice microphone 101 and the speaker's mouth are being used in a stable state with a certain distance therebetween. ing. However, in some devices using the noise reduction device, for example, depending on the use situation of the speaker, the distance between the voice microphone and the speaker's mouth may not be constant and may be used in an unstable state. is there. In this case, the reference sound microphone may be able to pick up more sound than the sound microphone.

本実施の形態にかかるノイズ低減装置4では、信号決定部216において、収音信号211〜213の中から、音声区間判定器215における音声区間判定に用いる収音信号を決定している。そして、音声区間判定器215は、信号決定部216で決定された収音信号を用いて音声区間を判定している。更に、適応フィルタ制御部217は、音声区間判定器215において音声区間であると判定されたタイミングにおける収音信号選択情報225および位相差情報226を用いて、適応フィルタ218を制御している。よって、ノイズレベルが高い場合であっても音声が発せられている区間を精度よく判定することができる。また、複数の収音信号の中からノイズ低減処理に使用される最適な2つの収音信号を選択することができるので、ノイズ低減装置を用いた機器が様々な状態で使用された場合であっても、精度よくノイズ低減処理を実施することができる。   In the noise reduction device 4 according to the present embodiment, the signal determination unit 216 determines a sound collection signal to be used for sound segment determination in the sound segment determination unit 215 from the sound collection signals 211 to 213. Then, the speech segment determination unit 215 determines a speech segment using the collected sound signal determined by the signal determination unit 216. Further, the adaptive filter control unit 217 controls the adaptive filter 218 using the collected sound signal selection information 225 and the phase difference information 226 at the timing determined by the speech segment determination unit 215 as a speech segment. Therefore, even when the noise level is high, it is possible to accurately determine the section where the voice is emitted. In addition, since it is possible to select two optimum sound pickup signals used for noise reduction processing from a plurality of sound pickup signals, this is the case when a device using the noise reduction device is used in various states. However, the noise reduction process can be performed with high accuracy.

以上で説明したように、本実施の形態にかかる発明により、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。   As described above, according to the invention according to the present embodiment, a noise reduction device, a voice input device, a wireless communication device, and a noise reduction device that can appropriately reduce noise components included in a voice signal even under various environments, A noise reduction method can be provided.

<実施の形態4>
次に、本発明の実施の形態4について説明する。
以下では、3つのマイクロフォンを少なくとも備えたノイズ低減装置を、音声入力装置や無線通信装置に適用した場合について説明する。3つのマイクロフォンを少なくとも備えたノイズ低減装置として、例えば実施の形態2または3にかかるノイズ低減装置を用いることができる。
<Embodiment 4>
Next, a fourth embodiment of the present invention will be described.
Below, the case where the noise reduction apparatus provided with at least three microphones is applied to a voice input device or a wireless communication device will be described. As the noise reduction device including at least three microphones, for example, the noise reduction device according to the second or third embodiment can be used.

図19は、3つのマイクロフォンを少なくとも備えたノイズ低減装置を用いた音声入力装置700の一例を示す図である。図19(a)は、音声入力装置700の前面図であり、図19(b)は、音声入力装置700の背面図である。図19に示すように、音声入力装置700はコネクタ703を介して無線通信装置710に接続可能に構成されている。無線通信装置710は一般的な無線機であり、所定の周波数において他の無線通信装置と通信可能に構成されている。無線通信装置710には音声入力装置700を介して話者の音声が入力される。   FIG. 19 is a diagram illustrating an example of a voice input device 700 using a noise reduction device including at least three microphones. FIG. 19A is a front view of the voice input device 700, and FIG. 19B is a rear view of the voice input device 700. As shown in FIG. 19, the voice input device 700 is configured to be connectable to a wireless communication device 710 via a connector 703. The wireless communication device 710 is a general wireless device, and is configured to be able to communicate with other wireless communication devices at a predetermined frequency. The voice of the speaker is input to the wireless communication device 710 via the voice input device 700.

音声入力装置700は、本体701、コード702、及びコネクタ703を有する。本体701は、話者の手で把持されるのに適するサイズ及び形状に構成されており、マイクロフォン、スピーカー、電子回路、ノイズ低減装置を内蔵する。図19(a)に示すように、本体701の前面にはスピーカー706および音声用マイクロフォン705が設けられている。図19(b)に示すように、本体701の背面には参照音用マイクロフォン711、712およびベルトクリップ707が設けられている。本体701の頂面には、LED709が設けられている。本体701の側面にはPTT(Push To Talk)704が設けられている。LED709は、音声入力装置700による話者の音声の検出状態を話者に対して報知する。PTT704は、無線通信装置710を音声送信状態とするためのスイッチであり、突起状部分が筐体内に押し込まれることを検出する。   The voice input device 700 includes a main body 701, a cord 702, and a connector 703. The main body 701 is configured to have a size and shape suitable for being held by a speaker's hand, and includes a microphone, a speaker, an electronic circuit, and a noise reduction device. As shown in FIG. 19A, a speaker 706 and an audio microphone 705 are provided on the front surface of the main body 701. As shown in FIG. 19B, reference sound microphones 711 and 712 and a belt clip 707 are provided on the back surface of the main body 701. An LED 709 is provided on the top surface of the main body 701. A PTT (Push To Talk) 704 is provided on a side surface of the main body 701. The LED 709 notifies the speaker of the detection state of the speaker's voice by the voice input device 700. The PTT 704 is a switch for setting the wireless communication device 710 to a voice transmission state, and detects that the protruding portion is pushed into the housing.

例えば、図11に示した実施の形態2にかかるノイズ低減装置3を音声入力装置700に適用した場合、ノイズ低減装置3が備える音声用マイクロフォン101が音声入力装置700の音声用マイクロフォン705に対応し、ノイズ低減装置が備える2つの参照音用マイクロフォン102、103が音声入力装置700の参照音用マイクロフォン711、712に対応する。また、ノイズ低減装置3から出力される出力信号128は、音声入力装置700のコード702を経由して無線通信装置710に供給される。すなわち、音声入力装置700は、ノイズ低減装置3でノイズ低減処理された後の出力信号128を、無線通信装置710に供給する。よって、無線通信装置710から他の無線通信装置に送信される音声はノイズ低減処理された音声となる。なお、図17に示した実施の形態3にかかるノイズ低減装置4を音声入力装置700に適用した場合も同様である。   For example, when the noise reduction device 3 according to the second exemplary embodiment illustrated in FIG. 11 is applied to the voice input device 700, the voice microphone 101 included in the noise reduction device 3 corresponds to the voice microphone 705 of the voice input device 700. The two reference sound microphones 102 and 103 included in the noise reduction device correspond to the reference sound microphones 711 and 712 of the sound input device 700. The output signal 128 output from the noise reduction device 3 is supplied to the wireless communication device 710 via the code 702 of the voice input device 700. That is, the voice input device 700 supplies the output signal 128 after the noise reduction processing by the noise reduction device 3 to the wireless communication device 710. Therefore, the sound transmitted from the wireless communication apparatus 710 to another wireless communication apparatus is a sound subjected to noise reduction processing. Note that the same applies to the case where the noise reduction device 4 according to the third embodiment shown in FIG.

本実施の形態にかかる音声入力装置700において、音声用マイクロフォン(第1のマイクロフォン)705は表面(第1の面)に設けられている。図20は、本実施の形態にかかる音声入力装置700の裏面に設けられた参照音用マイクロフォン711、712の位置の詳細を説明するための図である。図20に示すように、本実施の形態にかかる音声入力装置700において、参照音用マイクロフォン(第2および第3のマイクロフォン)711、712は、表面(第1の面)と所定の距離を隔てて対向している裏面(第2の面)に、裏面の中心線721に対して互いに非対称となるように設けられている。このとき、参照音用マイクロフォン711、712は互いに距離d1だけ隔てて設けられている。例えば、d1は3〜7cm程度とすることができる。また、表面と裏面との距離は、2〜4cm程度とすることができる。なお、これらの数値は一例であり、本発明はこれらの数値に限定されることはない。   In the audio input device 700 according to the present embodiment, an audio microphone (first microphone) 705 is provided on the surface (first surface). FIG. 20 is a diagram for explaining the details of the positions of the reference sound microphones 711 and 712 provided on the back surface of the voice input device 700 according to the present embodiment. As shown in FIG. 20, in the audio input device 700 according to the present embodiment, the reference sound microphones (second and third microphones) 711 and 712 are separated from the surface (first surface) by a predetermined distance. Are provided so as to be asymmetric with respect to the center line 721 of the back surface. At this time, the reference sound microphones 711 and 712 are separated from each other by a distance d1. For example, d1 can be about 3 to 7 cm. The distance between the front surface and the back surface can be about 2 to 4 cm. These numerical values are examples, and the present invention is not limited to these numerical values.

このように、本実施の形態にかかる音声入力装置700では、裏面の中心線721に対して互いに非対称となるように参照音用マイクロフォン711、712を配置しているので、話者が音声入力装置700を把持した際に、参照音用マイクロフォン711、712の両方が塞がれることを防ぐことができる。よって、参照音用マイクロフォン711、712の少なくとも一方は高い確率でノイズ低減処理に利用することができる。したがって、ノイズ低減装置を用いて高精度にノイズを低減することができる。   As described above, in the voice input device 700 according to the present embodiment, the reference sound microphones 711 and 712 are disposed so as to be asymmetric with respect to the center line 721 on the back surface. It is possible to prevent both of the reference sound microphones 711 and 712 from being blocked when the 700 is held. Therefore, at least one of the reference sound microphones 711 and 712 can be used for noise reduction processing with high probability. Therefore, noise can be reduced with high accuracy using the noise reduction device.

このとき、参照音用マイクロフォン711、712は、参照音用マイクロフォン711、712を互いに結ぶ線分722と中心線721とが所定の角度αで交わるように設けられていてもよい。所定の角度αは、例えば、参照音用マイクロフォン711、712が配置される音声入力装置700の裏面において裏面に入りきる最大の長方形を描き、その長方形の辺をa×bとしたときにtan α=a/bを満たすような値に設定してもよい。すなわち、音声入力装置700の裏面の形状が正四角形であれば所定の角度αは45度前後となる。そして、所定の角度αは音声入力装置700の裏面の形状が縦長であればあるほど角度を小さくすることになる。   At this time, the reference sound microphones 711 and 712 may be provided such that a line segment 722 connecting the reference sound microphones 711 and 712 and the center line 721 intersect at a predetermined angle α. The predetermined angle α is, for example, a tan α when a maximum rectangle that can enter the back surface is drawn on the back surface of the audio input device 700 in which the reference sound microphones 711 and 712 are arranged, and the side of the rectangle is a × b. = You may set to the value which satisfies a / b. That is, if the shape of the back surface of the voice input device 700 is a regular square, the predetermined angle α is about 45 degrees. The predetermined angle α is made smaller as the shape of the back surface of the voice input device 700 is longer.

また、参照音用マイクロフォン711、712は、中心線721と垂直に交わる2つの線分731、732と、中心線721と平行でかつ中心線721に対して対称に配置された2つの線分733、734とで形成される矩形735の対角の位置に設けられていてもよい。このように参照音用マイクロフォン711、712を対角に配置することで、様々な方向からのノイズ源に対し、良好に作用する参照音信号を選択できる。 The reference sound microphones 711 and 712 include two line segments 731 and 732 perpendicular to the center line 721, and two line segments 733 that are parallel to the center line 721 and symmetrical with respect to the center line 721. , 734 may be provided at diagonal positions of a rectangle 735. Thus, by arranging the reference sound microphones 711 and 712 diagonally, it is possible to select a reference sound signal that works well against noise sources from various directions.

次に、図21を用いて、3つのマイクロフォンを少なくとも備えたノイズ低減装置を用いた無線通信装置(トランシーバー)800について説明する。図21(a)は、無線通信装置800の前面図であり、図21(b)は、無線通信装置800の背面図である。図21に示すように、無線通信装置800は、入力ボタン801、表示部802、スピーカー803、音声用マイクロフォン804、PTT(Push To Talk)805、スイッチ806、アンテナ807、蓋809、および参照音用マイクロフォン811、812、を備える。   Next, a wireless communication device (transceiver) 800 using a noise reduction device including at least three microphones will be described with reference to FIG. FIG. 21A is a front view of the wireless communication apparatus 800, and FIG. 21B is a rear view of the wireless communication apparatus 800. As shown in FIG. 21, the wireless communication apparatus 800 includes an input button 801, a display unit 802, a speaker 803, an audio microphone 804, a PTT (Push To Talk) 805, a switch 806, an antenna 807, a lid 809, and a reference sound. Microphones 811 and 812 are provided.

例えば、図11に示した実施の形態2にかかるノイズ低減装置3を無線通信装置800に適用した場合、ノイズ低減装置3が備える音声用マイクロフォン101が無線通信装置800の音声用マイクロフォン804に対応し、ノイズ低減装置3が備える参照音用マイクロフォン102、103が無線通信装置800の参照音用マイクロフォン811、812に対応する。また、ノイズ低減装置3から出力される出力信号128は、無線通信装置800の内部回路において高周波処理されて、アンテナ807から他の無線通信装置に無線送信される。ここで、ノイズ低減装置3から出力される出力信号128はノイズ低減処理が実施された信号であるので、他の無線通信装置に送信される音声はノイズ低減処理された音声となる。なお、図17に示した実施の形態3にかかるノイズ低減装置4を無線通信装置800に適用した場合も同様である。   For example, when the noise reduction device 3 according to the second exemplary embodiment illustrated in FIG. 11 is applied to the wireless communication device 800, the voice microphone 101 included in the noise reduction device 3 corresponds to the voice microphone 804 of the wireless communication device 800. The reference sound microphones 102 and 103 included in the noise reduction device 3 correspond to the reference sound microphones 811 and 812 of the wireless communication device 800. The output signal 128 output from the noise reduction device 3 is subjected to high-frequency processing in an internal circuit of the wireless communication device 800 and is wirelessly transmitted from the antenna 807 to another wireless communication device. Here, since the output signal 128 output from the noise reduction device 3 is a signal on which noise reduction processing has been performed, the sound transmitted to the other wireless communication device is the sound subjected to noise reduction processing. The same applies to the case where the noise reduction device 4 according to the third exemplary embodiment illustrated in FIG.

本実施の形態にかかる無線通信装置800において、音声用マイクロフォン(第1のマイクロフォン)804は表面(第1の面)に設けられている。また、参照音用マイクロフォン(第2および第3のマイクロフォン)811、812は、表面(第1の面)と所定の距離を隔てて対向している裏面(第2の面)に、裏面の中心線に対して互いに非対称となるように設けられている。このとき、参照音用マイクロフォン811、812は互いに距離d2だけ隔てて設けられている。例えば、d2は3〜7cm程度とすることができる。
また、表面と裏面との距離は、2〜4cm程度とすることができる。なお、これらの数値は一例であり、本発明はこれらの数値に限定されることはない。また、参照音用マイクロフォン811、812の配置については、図20に示した音声入力装置の参照音用マイクロフォン711、712と同様である。
In radio communication apparatus 800 according to the present embodiment, voice microphone (first microphone) 804 is provided on the front surface (first surface). Further, the reference sound microphones (second and third microphones) 811 and 812 are centered on the back surface (second surface) facing the front surface (first surface) with a predetermined distance therebetween. They are provided so as to be asymmetric with respect to the line. At this time, the reference sound microphones 811 and 812 are separated from each other by a distance d2. For example, d2 can be about 3 to 7 cm.
The distance between the front surface and the back surface can be about 2 to 4 cm. These numerical values are examples, and the present invention is not limited to these numerical values. The arrangement of the reference sound microphones 811 and 812 is the same as that of the reference sound microphones 711 and 712 of the voice input device shown in FIG.

このように、本実施の形態にかかる無線通信装置800では、裏面の中心線に対して互いに非対称となるように参照音用マイクロフォン811、812を配置しているので、話者が音声入力装置800を把持した際に、参照音用マイクロフォン811、812の両方が塞がれることを防ぐことができる。よって、参照音用マイクロフォン811、812の少なくとも一方は高い確率でノイズ低減処理に利用することができる。したがって、ノイズ低減装置を用いて高精度にノイズを低減することができる。   As described above, in the wireless communication apparatus 800 according to the present embodiment, the reference sound microphones 811 and 812 are arranged so as to be asymmetric with respect to the center line on the back surface. It is possible to prevent both of the reference sound microphones 811 and 812 from being blocked when the hand is held. Therefore, at least one of the reference sound microphones 811 and 812 can be used for noise reduction processing with high probability. Therefore, noise can be reduced with high accuracy using the noise reduction device.

このとき、参照音用マイクロフォン811、812は、参照音用マイクロフォン811、812を互いに結ぶ線分と中心線とが所定の角度で交わるように設けられていてもよい。また、参照音用マイクロフォン811、812は、中心線と垂直に交わる2つの線分と、中心線と平行でかつ中心線に対して対称に配置された2つの線分とで形成される矩形の対角の位置に設けられていてもよい。   At this time, the reference sound microphones 811 and 812 may be provided such that a line segment connecting the reference sound microphones 811 and 812 and the center line intersect at a predetermined angle. In addition, the reference sound microphones 811 and 812 have a rectangular shape formed by two line segments perpendicular to the center line and two line segments arranged parallel to the center line and symmetrically with respect to the center line. It may be provided at a diagonal position.

上記した実施の形態にかかる典型的なノイズ低減装置を備えた音声入力装置において、前記第1のマイクロフォンは前記音声入力装置の第1の面に設けられていてもよく、前記第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられていてもよい。   In the voice input device including the typical noise reduction device according to the above-described embodiment, the first microphone may be provided on a first surface of the voice input device, and the second microphone is The second surface facing the first surface with a predetermined distance may be provided.

上記した実施の形態にかかる典型的なノイズ低減装置を備えた無線通信装置において、前記第1のマイクロフォンは前記無線通信装置の第1の面に設けられていてもよく、前記第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられていてもよい。   In the wireless communication device including the typical noise reduction device according to the above-described embodiment, the first microphone may be provided on the first surface of the wireless communication device, and the second microphone is The second surface facing the first surface with a predetermined distance may be provided.

上記した実施の形態にかかる典型的なノイズ低減方法は、第1および第2のマイクロフォンの少なくとも一方で収音された音声に基づき音声区間を判定し、音声区間であると判定された場合に、前記第1のマイクロフォンで収音された音に応じた第1の収音信号と前記第2のマイクロフォンで収音された音に応じた第2の収音信号とに基づき前記音声の到来方向を検知し、前記音声区間の判定結果である音声区間情報および前記音声の到来方向を示す音声方向情報に基づきノイズ低減処理を実施する。   A typical noise reduction method according to the above-described embodiment determines a voice section based on voice collected by at least one of the first and second microphones, and determines that the voice section is a voice section. The direction of arrival of the sound is determined based on a first sound collection signal corresponding to the sound collected by the first microphone and a second sound collection signal corresponding to the sound collected by the second microphone. Detection is performed, and noise reduction processing is performed based on the voice section information that is the determination result of the voice section and the voice direction information indicating the arrival direction of the voice.

また、上記した実施の形態にかかる他の典型的なノイズ低減装置は、複数のマイクロフォンで収音された音にそれぞれ応じた複数の収音信号の位相差情報に基づき、前記複数の収音信号の中から第1の収音信号および当該第1の収音信号に含まれるノイズ成分を低減させるために用いられる第2の収音信号を決定する信号決定部と、前記信号決定部で決定された前記第1の収音信号に含まれるノイズ成分を前記第2の収音信号を用いて低減する適応フィルタと、を備える。 In addition, another typical noise reduction device according to the above-described embodiment is based on phase difference information of a plurality of sound collection signals corresponding to sounds collected by a plurality of microphones, respectively. A first sound collection signal and a second sound collection signal used to reduce a noise component included in the first sound collection signal, and a signal determination unit And an adaptive filter that reduces a noise component contained in the first collected sound signal using the second collected sound signal.

前記ノイズ低減装置は、前記複数の収音信号のうちの1つの収音信号に基づき音声区間を判定する音声区間判定器を更に備えていてもよく、前記信号決定部は、前記音声区間判定器が音声区間と判定した場合に、前記複数の収音信号の中から前記第1の収音信号および前記第2の収音信号を決定してもよい。   The noise reduction apparatus may further include a speech section determiner that determines a speech section based on one of the plurality of collected sound signals, and the signal determination unit includes the speech section determiner. May determine the first sound collection signal and the second sound collection signal from the plurality of sound collection signals.

前記ノイズ低減装置は、前記信号決定部で決定された前記第1の収音信号を用いて音声区間を判定する音声区間判定器を更に備えていてもよく、前記適応フィルタは、前記音声区間判定器が音声区間と判定した場合に前記信号決定部で決定された前記第1の収音信号に含まれるノイズ成分を前記第2の収音信号を用いて低減してもよい。   The noise reduction device may further include a speech segment determination unit that determines a speech segment using the first collected sound signal determined by the signal determination unit, and the adaptive filter includes the speech segment determination The noise component included in the first sound pickup signal determined by the signal determination unit when the device determines that it is a voice section may be reduced using the second sound pickup signal.

前記信号決定部は、前記複数の収音信号のうち最も位相が早い収音信号を前記第1の収音信号として決定し、最も位相が遅い収音信号を前記第2の収音信号として決定してもよい。   The signal determination unit determines a sound pickup signal with the earliest phase among the plurality of sound pickup signals as the first sound pickup signal, and determines a sound pickup signal with the latest phase as the second sound pickup signal. May be.

前記信号決定部は、前記複数の収音信号のうち、位相が遅く且つ収音信号のパワーが所定の値よりも大きい収音信号を前記第2の収音信号として決定してもよい。   The signal determination unit may determine, as the second sound collection signal, a sound collection signal having a late phase and a power of the sound collection signal larger than a predetermined value among the plurality of sound collection signals.

前記信号決定部は、前記複数の収音信号のうち位相が最も遅い収音信号のパワーが所定の値以下である場合、次に位相が遅く且つ収音信号のパワーが所定の値よりも大きい収音信号を前記第2の収音信号として決定してもよい。   When the power of the collected sound signal having the slowest phase among the plurality of collected sound signals is equal to or less than a predetermined value, the signal determining unit is next delayed in phase and the power of the collected sound signal is larger than the predetermined value. A sound collection signal may be determined as the second sound collection signal.

前記第1の収音信号以外の収音信号の各々の位相差が所定の範囲内である場合、前記信号決定部は、前記第1の収音信号以外の収音信号のうち、収音信号のパワーが最も大きい収音信号を前記第2の収音信号として決定してもよい。   When the phase difference of each of the collected sound signals other than the first collected sound signal is within a predetermined range, the signal determination unit includes the collected sound signal among the collected sound signals other than the first collected sound signal. The collected sound signal having the largest power may be determined as the second collected sound signal.

前記複数のマイクロフォンは、1つの音声用マイクロフォンと複数の参照音用マイクロフォンとを含み、前記複数の参照音用マイクロフォンにそれぞれ対応した複数の収音信号のうち最も位相が早い収音信号の位相が、前記音声用マイクロフォンに対応した収音信号の位相よりも早い場合、前記信号決定部は、前記参照音用マイクロフォンに対応した最も位相が早い収音信号を前記第1の収音信号として決定してもよい。   The plurality of microphones includes one voice microphone and a plurality of reference sound microphones, and the phase of the collected sound signal having the earliest phase among the plurality of sound collection signals respectively corresponding to the plurality of reference sound microphones. When the phase of the collected sound signal corresponding to the microphone for sound is earlier than the phase of the collected sound signal, the signal determining unit determines the collected sound signal having the earliest phase corresponding to the reference sound microphone as the first collected sound signal. May be.

前記複数の参照音用マイクロフォンにそれぞれ対応した複数の収音信号のうち最も位相が遅い収音信号の位相が、前記音声用マイクロフォンに対応した収音信号の位相よりも遅い場合、前記信号決定部は、前記参照音用マイクロフォンに対応した最も位相が遅い収音信号を前記第2の収音信号として決定してもよい。   When the phase of the collected sound signal having the latest phase among the plurality of collected sound signals respectively corresponding to the plurality of reference sound microphones is slower than the phase of the collected sound signal corresponding to the sound microphone, the signal determining unit May determine the sound pickup signal with the latest phase corresponding to the reference sound microphone as the second sound pickup signal.

前記信号決定部には、前記複数の収音信号としてサンプリング周波数が24kHz以上の信号が供給されてもよく、前記適応フィルタには、前記複数の収音信号としてサンプリング周波数が12kHz以下の信号が供給されてもよい。   The signal determination unit may be supplied with a signal having a sampling frequency of 24 kHz or more as the plurality of sound collection signals, and the adaptive filter is supplied with a signal having a sampling frequency of 12 kHz or less as the plurality of sound collection signals. May be.

また、上記した実施の形態にかかる他の典型的なノイズ低減装置を備えた音声入力装置において、前記複数のマイクロフォンのうちの第1のマイクロフォンは前記音声入力装置の第1の面に設けられてもよく、前記複数のマイクロフォンのうちの第2および第3のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に、当該第2の面の中心線に対して非対称となるように設けられてもよい。   In the voice input device including the other typical noise reduction device according to the above-described embodiment, the first microphone of the plurality of microphones is provided on the first surface of the voice input device. The second and third microphones of the plurality of microphones may be arranged on a second surface facing the first surface with a predetermined distance from a center line of the second surface. It may be provided so as to be asymmetrical.

上記した実施の形態にかかる他の典型的なノイズ低減装置を備えた無線通信装置において、前記複数のマイクロフォンのうちの第1のマイクロフォンは前記無線通信装置の第1の面に設けられてもよく、前記複数のマイクロフォンのうちの第2および第3のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に、当該第2の面の中心線に対して非対称となるように設けられてもよい。   In the wireless communication device including the other typical noise reduction device according to the above-described embodiment, the first microphone of the plurality of microphones may be provided on a first surface of the wireless communication device. The second and third microphones of the plurality of microphones are arranged on a second surface facing the first surface at a predetermined distance with respect to a center line of the second surface. It may be provided so as to be asymmetric.

上記した実施の形態にかかる他の典型的なノイズ低減方法は、複数のマイクロフォンで収音された音にそれぞれ応じた複数の収音信号の位相差情報に基づき、前記複数の収音信号の中からノイズ低減処理に用いる第1の収音信号および第2の収音信号を決定し、前記決定された前記第1の収音信号に含まれるノイズ成分を前記第2の収音信号を用いて低減する。   Another typical noise reduction method according to the above-described embodiment is based on phase difference information of a plurality of collected sound signals corresponding to sounds collected by a plurality of microphones. A first sound collection signal and a second sound collection signal to be used for noise reduction processing are determined, and a noise component included in the determined first sound collection signal is determined using the second sound collection signal. To reduce.

上記した実施の形態にかかる他の典型的な音声入力装置はノイズ低減装置を備え、前記ノイズ低減装置は、主として音声成分を収音するための第1のマイクロフォンと、主としてノイズ成分を収音するための第2および第3のマイクロフォンとを備え、前記第1のマイクロフォンは前記音声入力装置の第1の面に設けられ、前記第2および第3のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に、当該第2の面の中心線に対して非対称となるように設けられている。   Another typical audio input device according to the above-described embodiment includes a noise reduction device, and the noise reduction device mainly collects the first microphone for collecting the audio component and the noise component. And the first microphone is provided on a first surface of the voice input device, and the second and third microphones are connected to the first surface and a predetermined surface. The second surfaces facing each other at a distance are provided so as to be asymmetric with respect to the center line of the second surface.

上記した実施の形態にかかる他の典型的な音声入力装置において、前記第2および第3のマイクロフォンは、当該第2および第3のマイクロフォンを結ぶ線分と前記中心線とが所定の角度で交わるように設けられていてもよい。   In the other typical audio input device according to the above-described embodiment, in the second and third microphones, a line segment connecting the second and third microphones and the center line intersect at a predetermined angle. It may be provided as follows.

上記した実施の形態にかかる他の典型的な音声入力装置において、前記第2および第3のマイクロフォンは、前記中心線と垂直に交わる2つの線分と、前記中心線と平行でかつ前記中心線に対して対称に配置された2つの線分とで形成される矩形の対角の位置に設けられていてもよい。   In the other typical audio input device according to the above-described embodiment, the second and third microphones include two line segments perpendicular to the center line, and parallel to the center line and the center line. May be provided at a diagonal position of a rectangle formed by two line segments arranged symmetrically with respect to each other.

上記した実施の形態にかかる他の典型的な無線通信装置はノイズ低減装置を備え、前記ノイズ低減装置は、主として音声成分を収音するための第1のマイクロフォンと、主としてノイズ成分を収音するための第2および第3のマイクロフォンとを備え、前記第1のマイクロフォンは前記無線通信装置の第1の面に設けられ、前記第2および第3のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に、当該第2の面の中心線に対して非対称となるように設けられている。   Another typical wireless communication apparatus according to the above-described embodiment includes a noise reduction device, and the noise reduction device mainly collects a noise component and a first microphone for collecting the voice component. And the first microphone is provided on a first surface of the wireless communication device, and the second and third microphones are connected to the first surface and a predetermined surface. The second surfaces facing each other at a distance are provided so as to be asymmetric with respect to the center line of the second surface.

上記した実施の形態にかかる他の典型的な無線通信装置において、前記第2および第3のマイクロフォンは、当該第2および第3のマイクロフォンを結ぶ線分と前記中心線とが所定の角度で交わるように設けられていてもよい。   In another typical wireless communication apparatus according to the above-described embodiment, in the second and third microphones, a line segment connecting the second and third microphones intersects with the center line at a predetermined angle. It may be provided as follows.

上記した実施の形態にかかる他の典型的な無線通信装置において、前記第2および第3のマイクロフォンは、前記中心線と垂直に交わる2つの線分と、前記中心線と平行でかつ前記中心線に対して対称に配置された2つの線分とで形成される矩形の対角の位置に設けられていてもよい。   In another typical wireless communication apparatus according to the above-described embodiment, the second and third microphones include two line segments perpendicular to the center line, parallel to the center line, and the center line. May be provided at a diagonal position of a rectangle formed by two line segments arranged symmetrically with respect to each other.

上記した実施の形態によれば、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。   According to the above-described embodiments, it is possible to provide a noise reduction device, a voice input device, a wireless communication device, and a noise reduction method that can appropriately reduce noise components included in a voice signal even under various environments. Is possible.

以上、本発明を上記実施形態に即して説明したが、上記実施形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。   The present invention has been described with reference to the above embodiment, but is not limited to the configuration of the above embodiment, and can be made by those skilled in the art within the scope of the invention of the claims of the present application. It goes without saying that various modifications, corrections, and combinations are included.

1、2、3、4 ノイズ低減装置
11 音声用マイクロフォン
12 参照音用マイクロフォン
13、14 ADコンバータ
15 音声区間判定器
16 音声方向検知器
17 適応フィルタ制御部
18 適応フィルタ
21、22 収音信号
23、24 音声区間情報
25 音声方向情報
26 制御信号
27 出力信号
101 音声用マイクロフォン
102、103 参照音用マイクロフォン
104、105、106 ADコンバータ
115 音声区間判定器
116 信号決定部
117 適応フィルタ制御部
118 適応フィルタ
111、112、113 収音信号
123、124 音声区間情報
125 収音信号選択情報
126 位相差情報
127 制御信号
128 出力信号
201 音声用マイクロフォン
202、203 参照音用マイクロフォン
204、205、206 ADコンバータ
215 音声区間判定器
216 信号決定部
217 適応フィルタ制御部
218 適応フィルタ
211、212、213 収音信号
223 収音信号選択情報
224 音声区間情報
225 収音信号選択情報
226 位相差情報
227 制御信号
228 出力信号
1, 2, 3, 4 Noise reduction device 11 Audio microphone 12 Reference sound microphone 13, 14 AD converter 15 Audio interval determination device 16 Audio direction detector 17 Adaptive filter control unit 18 Adaptive filter 21, 22 Sound collection signal 23, 24 Voice section information 25 Voice direction information 26 Control signal 27 Output signal 101 Voice microphones 102, 103 Reference sound microphones 104, 105, 106 AD converter 115 Voice section decision unit 116 Signal determination unit 117 Adaptive filter control unit 118 Adaptive filter 111 , 112, 113 Collected sound signal 123, 124 Sound section information 125 Collected signal selection information 126 Phase difference information 127 Control signal 128 Output signal 201 Sound microphone 202, 203 Reference sound microphone 204, 205, 206 AD control 215 Voice segment determination unit 216 Signal decision unit 217 Adaptive filter control unit 218 Adaptive filters 211, 212, 213 Sound collection signal 223 Sound collection signal selection information 224 Voice segment information 225 Sound collection signal selection information 226 Phase difference information 227 Control signal 228 output signal

Claims (13)

第1および第2のマイクロフォンの少なくとも一方で収音された音声に基づき第1の音声区間と第2の音声区間とを判定する音声区間判定器と、
前記第1のマイクロフォンで収音された音に応じた第1の収音信号と前記第2のマイクロフォンで収音された音に応じた第2の収音信号とに基づき、前記音声の到来方向を検知する音声方向検知器と、
前記音声区間判定器から出力された第1の音声区間情報および前記音声方向検知器から出力された音声方向情報に基づき、前記第1の収音信号と前記第2の収音信号とを用いてノイズ低減処理を実施する適応フィルタと、を備え、
前記音声区間判定器は、前記第1の音声区間よりも更に高い確率で音声区間であると判定された第2の音声区間情報を前記音声方向検知器に出力し、
前記音声方向検知器は、前記音声区間判定器が前記第2の音声区間と判定した場合に、前記音声の到来方向を検知する、
ノイズ低減装置。
A speech segment determination unit that determines a first speech segment and a second speech segment based on speech collected by at least one of the first and second microphones;
The direction of arrival of the sound based on the first sound collection signal corresponding to the sound collected by the first microphone and the second sound collection signal corresponding to the sound collected by the second microphone A voice direction detector for detecting
Based on the first voice section information output from the voice section determiner and the voice direction information output from the voice direction detector, the first sound pickup signal and the second sound pickup signal are used. An adaptive filter that performs noise reduction processing,
The speech segment determiner outputs second speech segment information determined to be a speech segment with a higher probability than the first speech segment to the speech direction detector,
The voice direction detector detects the direction of arrival of the voice when the voice period determiner determines the second voice period.
Noise reduction device.
前記音声方向検知器は、前記第1の収音信号と前記第2の収音信号の位相差に基づき前記音声の到来方向を検知する、請求項1に記載のノイズ低減装置。   The noise reduction device according to claim 1, wherein the voice direction detector detects the direction of arrival of the voice based on a phase difference between the first sound pickup signal and the second sound pickup signal. 前記適応フィルタは、前記第1の収音信号と前記第2の収音信号とのうち、より位相が早いいずれか一方の収音信号に含まれるノイズ成分を他方の収音信号を用いて低減する、
請求項2に記載のノイズ低減装置。
The adaptive filter uses the other collected sound signal to reduce a noise component included in one of the first collected sound signal and the second collected sound signal that has an earlier phase. To
The noise reduction device according to claim 2.
前記第1の収音信号の位相と前記第2の収音信号の位相の位相差が所定の範囲内である場合、
前記適応フィルタはノイズ低減処理を実施することなく前記第1の収音信号または前記第2の収音信号を出力する、
請求項2に記載のノイズ低減装置。
When the phase difference between the phase of the first sound pickup signal and the phase of the second sound pickup signal is within a predetermined range,
The adaptive filter outputs the first collected sound signal or the second collected sound signal without performing noise reduction processing;
The noise reduction device according to claim 2.
前記音声方向検知器は、前記第1の収音信号の大きさと前記第2の収音信号の大きさに基づき前記音声の到来方向を検知する、請求項1に記載のノイズ低減装置。   The noise reduction device according to claim 1, wherein the voice direction detector detects the direction of arrival of the voice based on a magnitude of the first collected sound signal and a magnitude of the second collected sound signal. 前記第1の収音信号の大きさが前記第2の収音信号の大きさよりも大きい場合、
前記適応フィルタは、前記第1の収音信号と前記第2の収音信号とのうち、より大きさの大きいいずれか一方の収音信号に含まれるノイズ成分を他方の収音信号を用いて低減する、
請求項5に記載のノイズ低減装置。
When the magnitude of the first sound collection signal is larger than the magnitude of the second sound collection signal,
The adaptive filter uses the other collected sound signal as a noise component included in one of the first collected sound signal and the second collected sound signal having a larger magnitude. To reduce,
The noise reduction device according to claim 5.
前記第1の収音信号の大きさと前記第2の収音信号の大きさの差であるパワー差が所定の範囲内である場合、
前記適応フィルタはノイズ低減処理を実施することなく前記第1の収音信号または前記第2の収音信号を出力する、
請求項5に記載のノイズ低減装置。
When the power difference, which is the difference between the magnitude of the first collected signal and the magnitude of the second collected signal, is within a predetermined range,
The adaptive filter outputs the first collected sound signal or the second collected sound signal without performing noise reduction processing;
The noise reduction device according to claim 5.
前記音声方向検知器は、前記第1の収音信号と前記第2の収音信号の位相差、並びに前記第1の収音信号の大きさおよび前記第2の収音信号の大きさに基づき、前記音声の到来方向を検知する、請求項1に記載のノイズ低減装置。   The sound direction detector is based on a phase difference between the first sound collection signal and the second sound collection signal, and a magnitude of the first sound collection signal and a magnitude of the second sound collection signal. The noise reduction device according to claim 1, wherein an arrival direction of the voice is detected. 前記第1の収音信号の位相が前記第2の収音信号の位相よりも早い場合、前記音声区間判定器は、前記第1の収音信号に基づき音声区間を判定し、
前記第2の収音信号の位相が前記第1の収音信号の位相よりも早い場合、前記音声区間判定器は、前記第2の収音信号に基づき音声区間を判定する、
請求項1乃至8のいずれか一項に記載のノイズ低減装置。
When the phase of the first sound collection signal is earlier than the phase of the second sound collection signal, the speech segment determination unit determines a speech segment based on the first sound collection signal,
If the phase of the second collected sound signal is earlier than the phase of the first collected sound signal, the speech segment determiner determines a speech segment based on the second collected signal;
The noise reduction device according to any one of claims 1 to 8.
前記音声方向検知器には、前記第1および第2の収音信号としてサンプリング周波数が24kHz以上の信号が供給され、
前記適応フィルタには、前記第1および第2の収音信号としてサンプリング周波数が12kHz以下の信号が供給される、
請求項1乃至9のいずれか一項に記載のノイズ低減装置。
The voice direction detector is supplied with a signal having a sampling frequency of 24 kHz or more as the first and second collected sound signals.
A signal having a sampling frequency of 12 kHz or less is supplied to the adaptive filter as the first and second collected sound signals.
The noise reduction device according to any one of claims 1 to 9.
請求項1乃至10に記載のノイズ低減装置を備えた音声入力装置であって、
前記第1のマイクロフォンは前記音声入力装置の第1の面に設けられ、
前記第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられている、
音声入力装置。
A voice input device having a noise reduction apparatus according to any one of claims 1 to 10,
The first microphone is provided on a first surface of the voice input device;
The second microphone is provided on a second surface facing the first surface at a predetermined distance,
Voice input device.
請求項1乃至10に記載のノイズ低減装置を備えた無線通信装置であって、
前記第1のマイクロフォンは前記無線通信装置の第1の面に設けられ、
前記第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられている、
無線通信装置。
A wireless communication apparatus having a noise reduction apparatus according to any one of claims 1 to 10,
The first microphone is provided on a first surface of the wireless communication device;
The second microphone is provided on a second surface facing the first surface at a predetermined distance,
Wireless communication device.
第1および第2のマイクロフォンの少なくとも一方で収音された音声に基づき第1の音声区間を判定する第1の音声区間判定ステップと
前記第1の音声区間よりも更に高い確率で音声区間である第2の音声区間を判定する第2の音声区間判定ステップと、
前記第2の音声区間であると判定された場合に、前記第1のマイクロフォンで収音された音に応じた第1の収音信号と前記第2のマイクロフォンで収音された音に応じた第2の収音信号とに基づき前記音声の到来方向を検知する音声方向検知ステップと
前記第1の音声区間の判定結果である第1の音声区間情報および前記音声の到来方向を示す音声方向情報に基づき、前記第1の収音信号と前記第2の収音信号とを用いてノイズ低減処理を実施するノイズ低減ステップと、
を含むノイズ低減方法。
A first voice section determination step of determining the first speech section based on sound collected by at least one of the first and second microphones,
A second speech segment determination step of determining a second speech segment that is a speech segment with a higher probability than the first speech segment;
When it is determined that it is the second voice section, the first sound collection signal corresponding to the sound collected by the first microphone and the sound collected by the second microphone are used. A voice direction detecting step of detecting a direction of arrival of the voice based on a second collected sound signal;
Based on the first voice segment information which is the determination result of the first voice segment and the voice direction information indicating the direction of arrival of the voice , the first sound pickup signal and the second sound pickup signal are used. A noise reduction step for performing noise reduction processing ;
Including a noise reduction method.
JP2012202715A 2011-09-15 2012-09-14 Noise reduction device, voice input device, wireless communication device, and noise reduction method Active JP5958218B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012202715A JP5958218B2 (en) 2011-09-15 2012-09-14 Noise reduction device, voice input device, wireless communication device, and noise reduction method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011201759 2011-09-15
JP2011201759 2011-09-15
JP2012202715A JP5958218B2 (en) 2011-09-15 2012-09-14 Noise reduction device, voice input device, wireless communication device, and noise reduction method

Publications (2)

Publication Number Publication Date
JP2013078117A JP2013078117A (en) 2013-04-25
JP5958218B2 true JP5958218B2 (en) 2016-07-27

Family

ID=48481232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012202715A Active JP5958218B2 (en) 2011-09-15 2012-09-14 Noise reduction device, voice input device, wireless communication device, and noise reduction method

Country Status (1)

Country Link
JP (1) JP5958218B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6737141B2 (en) * 2016-11-17 2020-08-05 富士通株式会社 Audio processing method, audio processing device, and audio processing program
CN110121744A (en) * 2017-09-25 2019-08-13 伯斯有限公司 Handle the voice from distributed microphone
JP7365642B2 (en) 2020-03-18 2023-10-20 パナソニックIpマネジメント株式会社 Audio processing system, audio processing device, and audio processing method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2999596B2 (en) * 1991-07-10 2000-01-17 新日本無線株式会社 hearing aid
KR100499124B1 (en) * 2002-03-27 2005-07-04 삼성전자주식회사 Orthogonal circular microphone array system and method for detecting 3 dimensional direction of sound source using thereof
JP2007089058A (en) * 2005-09-26 2007-04-05 Yamaha Corp Microphone array controller
JP5555987B2 (en) * 2008-07-11 2014-07-23 富士通株式会社 Noise suppression device, mobile phone, noise suppression method, and computer program
JP5349062B2 (en) * 2009-01-19 2013-11-20 株式会社ザクティ SOUND PROCESSING DEVICE, ELECTRONIC DEVICE HAVING SAME, AND SOUND PROCESSING METHOD
JP2010232862A (en) * 2009-03-26 2010-10-14 Toshiba Corp Audio processing device, audio processing method and program

Also Published As

Publication number Publication date
JP2013078117A (en) 2013-04-25

Similar Documents

Publication Publication Date Title
JP5862349B2 (en) Noise reduction device, voice input device, wireless communication device, and noise reduction method
US9031259B2 (en) Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
JP6179081B2 (en) Noise reduction device, voice input device, wireless communication device, and noise reduction method
EP2962300B1 (en) Method and apparatus for generating a speech signal
KR101444100B1 (en) Noise cancelling method and apparatus from the mixed sound
US9524735B2 (en) Threshold adaptation in two-channel noise estimation and voice activity detection
US9966067B2 (en) Audio noise estimation and audio noise reduction using multiple microphones
US8712069B1 (en) Selection of system parameters based on non-acoustic sensor information
JP5102365B2 (en) Multi-microphone voice activity detector
JP5952434B2 (en) Speech enhancement method and apparatus applied to mobile phone
US9560456B2 (en) Hearing aid and method of detecting vibration
KR102081568B1 (en) Ambient noise root mean square(rms) detector
US9064502B2 (en) Speech intelligibility predictor and applications thereof
KR101260131B1 (en) Audio source proximity estimation using sensor array for noise reduction
DK2876903T3 (en) Spatial filter bank for hearing system
WO2019055586A1 (en) Low latency audio enhancement
US20100323652A1 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
KR20070050058A (en) Telephony device with improved noise suppression
JP5903921B2 (en) Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program
CN110035367A (en) Feedback detector and hearing devices including feedback detector
US9330677B2 (en) Method and apparatus for generating a noise reduced audio signal using a microphone array
JP5958218B2 (en) Noise reduction device, voice input device, wireless communication device, and noise reduction method
JP5845954B2 (en) Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program
EP4250765A1 (en) A hearing system comprising a hearing aid and an external processing device
JP5772648B2 (en) Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160606

R150 Certificate of patent or registration of utility model

Ref document number: 5958218

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350