JP2013168856A - Noise reduction device, audio input device, radio communication device, noise reduction method and noise reduction program - Google Patents

Noise reduction device, audio input device, radio communication device, noise reduction method and noise reduction program Download PDF

Info

Publication number
JP2013168856A
JP2013168856A JP2012031710A JP2012031710A JP2013168856A JP 2013168856 A JP2013168856 A JP 2013168856A JP 2012031710 A JP2012031710 A JP 2012031710A JP 2012031710 A JP2012031710 A JP 2012031710A JP 2013168856 A JP2013168856 A JP 2013168856A
Authority
JP
Japan
Prior art keywords
signal
noise reduction
pressure level
sound
sound pressure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012031710A
Other languages
Japanese (ja)
Other versions
JP5903921B2 (en
Inventor
Takao Yamabe
孝朗 山邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2012031710A priority Critical patent/JP5903921B2/en
Publication of JP2013168856A publication Critical patent/JP2013168856A/en
Application granted granted Critical
Publication of JP5903921B2 publication Critical patent/JP5903921B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a noise reduction device capable of suppressing reduction of sound pressure level.SOLUTION: A noise reduction device includes: an audio interval determination unit 11 which determines the audio interval on the basis of a sound collection signal 21; a noise reduction processing unit 12 which reduces noise components contained in the sound collection signal 21 using the sound collection signal 22; a sound pressure level variation amount calculation unit 13 which calculates the variation amount of the sound pressure level of a signal 25 after noise reduction processing with respect to the sound collection signal 21 using the sound collection signal 21 and the signal 25 after noise reduction processing in the audio interval; and a sound pressure level compensation unit 14 which compensates the sound pressure level of the signal 25 after noise reduction processing in accordance with the variation amount calculated by the sound pressure level variation amount calculation unit 13.

Description

本発明はノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラムに関する。   The present invention relates to a noise reduction device, a voice input device, a wireless communication device, a noise reduction method, and a noise reduction program.

音声信号に含まれるノイズ成分を低減して音声を聞き取りやすくするノイズ低減処理技術がある。ノイズ低減処理技術では、例えば、音声(例えば、通話者が発する音声などの希望音声)を主に収音するマイクロフォンによって収音された音声信号から、ノイズ(例えば希望音声以外の不要音)を主に収音するマイクロフォンによって収音されたノイズ信号(参照信号)を差し引くことで、音声信号に含まれるノイズ成分を除去することができる。   There is a noise reduction processing technique that makes it easy to hear a sound by reducing a noise component included in the sound signal. In the noise reduction processing technology, for example, noise (for example, unnecessary sound other than the desired sound) is mainly obtained from a sound signal collected by a microphone that mainly collects sound (for example, desired sound such as a sound emitted from a caller). By subtracting the noise signal (reference signal) collected by the microphone that picks up the sound, the noise component contained in the audio signal can be removed.

特許文献1には、希望音声の低減を防止して、低減対象の不要音のみを低減するための技術が開示されている。特許文献2には、雑音除去のための適応フィルタによって下がる音声等の明瞭度を改善する技術が開示されている。特許文献3には、騒音の状況に応じて適時最適なノイズ低減効果を得ることのできるノイズキャンセラに関する技術が開示されている。   Patent Document 1 discloses a technique for preventing reduction of desired speech and reducing only unnecessary sound to be reduced. Patent Document 2 discloses a technique for improving the intelligibility of speech or the like lowered by an adaptive filter for noise removal. Patent Document 3 discloses a technology relating to a noise canceller that can obtain an optimal noise reduction effect in a timely manner according to the noise situation.

特開平6−67692号公報JP-A-6-67692 特開平8−102644号公報JP-A-8-102644 特開平9−36763号公報JP-A-9-36763

主として音声成分を含む音声信号と主としてノイズ成分を含む参照信号とを用いてノイズ低減処理を実施する場合、ノイズ低減装置の使用状況によっては、参照信号に音声成分も混入する場合がある。このように、参照信号に音声成分が混入すると、ノイズ低減処理を実施した際に音声信号に含まれる音声成分もキャンセルされてしまい、ノイズ低減処理後の信号の音圧レベルが低下するという問題があった。   When noise reduction processing is performed using an audio signal mainly including an audio component and a reference signal mainly including a noise component, the audio component may be mixed into the reference signal depending on the use state of the noise reduction apparatus. As described above, when the sound component is mixed in the reference signal, the sound component included in the sound signal is canceled when the noise reduction process is performed, and the sound pressure level of the signal after the noise reduction process is lowered. there were.

上記課題に鑑み本発明の目的は、音圧レベルの低下を抑制することができるノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラムを提供することである。   In view of the above problems, an object of the present invention is to provide a noise reduction device, a voice input device, a wireless communication device, a noise reduction method, and a noise reduction program that can suppress a decrease in sound pressure level.

本発明にかかるノイズ低減装置は、第1の収音信号に基づき音声区間を判定する音声区間判定部と、第2の収音信号を用いて前記第1の収音信号に含まれるノイズ成分を低減するノイズ低減処理部と、前記音声区間において、前記第1の収音信号と前記ノイズ低減処理部から出力されたノイズ低減処理後の信号とを用いて、前記第1の収音信号に対する前記ノイズ低減処理後の信号の音圧レベルの変化量を算出する音圧レベル変化量算出部と、前記音圧レベル変化量算出部で算出された変化量に応じて前記ノイズ低減処理後の信号の音圧レベルを補償する音圧レベル補償部と、を備える。   The noise reduction device according to the present invention includes a speech section determination unit that determines a speech section based on a first sound collection signal, and a noise component included in the first sound collection signal using the second sound collection signal. The noise reduction processing unit to be reduced, and the first sound collection signal and the signal after noise reduction processing output from the noise reduction processing unit in the voice section, the first sound collection signal with respect to the first sound collection signal A sound pressure level change amount calculating unit for calculating a change amount of the sound pressure level of the signal after the noise reduction process; and a signal of the signal after the noise reduction process according to the change amount calculated by the sound pressure level change amount calculating unit. A sound pressure level compensator for compensating the sound pressure level.

前記音圧レベル補償部は、前記第1の収音信号の音圧レベルと前記ノイズ低減処理後の信号の音圧レベルとの差である音圧レベル差の絶対値が所定の閾値以上となった場合に、前記ノイズ低減処理後の信号の音圧レベルを補償してもよい。   The sound pressure level compensation unit has an absolute value of a sound pressure level difference, which is a difference between a sound pressure level of the first collected sound signal and a sound pressure level of the signal after the noise reduction processing, equal to or greater than a predetermined threshold. The sound pressure level of the signal after the noise reduction processing may be compensated.

前記音圧レベル補償部は、前記音圧レベル差に対応した増幅率で前記ノイズ低減処理後の信号を増幅してもよい。   The sound pressure level compensation unit may amplify the signal after the noise reduction processing at an amplification factor corresponding to the sound pressure level difference.

前記音圧レベル補償部は、前記音圧レベル差に対応した増幅率で前記ノイズ低減処理後の信号を増幅した後、前記増幅率を徐々に低減させてもよい。   The sound pressure level compensation unit may gradually reduce the amplification factor after amplifying the signal after the noise reduction processing with an amplification factor corresponding to the sound pressure level difference.

前記音圧レベル補償部は、前記音圧レベル差が所定の上限値を超えた場合、当該上限値に対応した増幅率で前記ノイズ低減処理後の信号を増幅してもよい。   When the sound pressure level difference exceeds a predetermined upper limit value, the sound pressure level compensation unit may amplify the signal after the noise reduction processing with an amplification factor corresponding to the upper limit value.

前記音声区間判定部は、前記第1の収音信号に音声成分が含まれる確率が所定の値以上となった場合に音声区間であると判定してもよい。   The speech segment determination unit may determine that the speech segment is a speech segment when a probability that a speech component is included in the first sound collection signal is equal to or greater than a predetermined value.

前記音声区間判定部は、前記第1の収音信号に含まれる音声成分の母音周波数成分のピークと帯域毎に設定されたノイズレベルとの比が所定の値以上であり、且つ、当該所定の値以上のピークの数が所定数以上である場合に音声区間であると判定してもよい。   The voice section determination unit has a ratio between a peak of a vowel frequency component of a voice component included in the first sound pickup signal and a noise level set for each band being equal to or greater than a predetermined value, and If the number of peaks greater than or equal to the value is equal to or greater than a predetermined number, it may be determined that the voice segment is present.

前記音声区間判定部は、前記第1の収音信号に含まれる音声成分の子音スペクトルパターンを所定の周波数帯域毎に測定し、前記周波数帯域の増加に従い前記子音スペクトルパターンが増加する場合に音声区間であると判定してもよい。   The speech section determination unit measures a consonant spectrum pattern of a speech component included in the first collected sound signal for each predetermined frequency band, and a speech section when the consonant spectrum pattern increases as the frequency band increases It may be determined that

前記ノイズ低減処理部は、前記第1の収音信号に含まれているノイズ成分に対応した疑似ノイズ信号を前記第2の収音信号を用いて生成する適応フィルタを備えていてもよい。   The noise reduction processing unit may include an adaptive filter that generates a pseudo noise signal corresponding to a noise component included in the first sound collection signal using the second sound collection signal.

本発明にかかる音声入力装置は、上記ノイズ低減装置を備えている。当該音声入力装置において、第1のマイクロフォンは前記音声入力装置の第1の面に設けられ、第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられていてもよい。   The voice input device according to the present invention includes the noise reduction device. In the voice input device, the first microphone is provided on the first surface of the voice input device, and the second microphone is opposed to the first surface with a predetermined distance from the second surface. May be provided.

本発明にかかる無線通信装置は、上記ノイズ低減装置を備えている。当該無線通信装置において、第1のマイクロフォンは前記無線通信装置の第1の面に設けられ、第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられていてもよい。   A wireless communication device according to the present invention includes the noise reduction device. In the wireless communication device, the first microphone is provided on the first surface of the wireless communication device, and the second microphone is opposed to the first surface with a predetermined distance from the second surface. May be provided.

本発明にかかるノイズ低減方法は、第1の収音信号に基づき音声区間を判定し、第2の収音信号を用いて前記第1の収音信号に含まれるノイズ成分を低減し、前記音声区間において、前記第1の収音信号とノイズ低減処理後の信号とを用いて、前記第1の収音信号に対する前記ノイズ低減処理後の信号の音圧レベルの変化量を算出し、前記算出された変化量に応じて前記ノイズ低減処理後の信号の音圧レベルを補償する。   The noise reduction method according to the present invention determines a speech section based on a first sound collection signal, reduces a noise component included in the first sound collection signal using a second sound collection signal, and In the section, using the first collected sound signal and the signal after the noise reduction process, a change amount of a sound pressure level of the signal after the noise reduction process with respect to the first sound collection signal is calculated, and the calculation The sound pressure level of the signal after the noise reduction processing is compensated according to the amount of change.

本発明にかかるノイズ低減プログラムは、コンピュータに、第1の収音信号に基づき音声区間を判定させ、第2の収音信号を用いて前記第1の収音信号に含まれるノイズ成分を低減させ、前記音声区間において、前記第1の収音信号とノイズ低減処理後の信号とを用いて、前記第1の収音信号に対する前記ノイズ低減処理後の信号の音圧レベルの変化量を算出させ、前記算出された変化量に応じて前記ノイズ低減処理後の信号の音圧レベルを補償させる、ノイズ低減プログラムである。   A noise reduction program according to the present invention causes a computer to determine a speech section based on a first sound collection signal, and to reduce a noise component included in the first sound collection signal using a second sound collection signal. In the voice section, the amount of change in the sound pressure level of the signal after the noise reduction processing with respect to the first sound collection signal is calculated using the first sound collection signal and the signal after noise reduction processing. A noise reduction program for compensating a sound pressure level of the signal after the noise reduction processing according to the calculated change amount.

本発明により、音圧レベルの低下を抑制することができるノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラムを提供することができる。   According to the present invention, it is possible to provide a noise reduction device, a voice input device, a wireless communication device, a noise reduction method, and a noise reduction program that can suppress a decrease in sound pressure level.

実施の形態にかかるノイズ低減装置を示すブロック図である。It is a block diagram which shows the noise reduction apparatus concerning embodiment. 実施の形態にかかるノイズ低減装置が備える音声区間判定部の一例を示すブロック図である。It is a block diagram which shows an example of the audio | voice area determination part with which the noise reduction apparatus concerning embodiment is provided. 実施の形態にかかるノイズ低減装置が備える音声区間判定部の他の例を示すブロック図である。It is a block diagram which shows the other example of the audio | voice area determination part with which the noise reduction apparatus concerning embodiment is provided. 実施の形態にかかるノイズ低減装置が備えるノイズ低減処理部の一例を示すブロック図である。It is a block diagram which shows an example of the noise reduction process part with which the noise reduction apparatus concerning embodiment is provided. 図4に示したノイズ低減処理部を詳細に説明するための図である。It is a figure for demonstrating in detail the noise reduction process part shown in FIG. 実施の形態にかかるノイズ低減装置が備える音圧レベル変化量算出部の一例を示すブロック図である。It is a block diagram which shows an example of the sound pressure level variation | change_quantity calculation part with which the noise reduction apparatus concerning embodiment is provided. 実施の形態にかかるノイズ低減装置の動作の一例を説明するための図である。It is a figure for demonstrating an example of operation | movement of the noise reduction apparatus concerning embodiment. 実施の形態にかかるノイズ低減装置の他の例を示すブロック図である。It is a block diagram which shows the other example of the noise reduction apparatus concerning embodiment. 実施の形態にかかるノイズ低減装置を用いた音声入力装置の一例を示す図である。It is a figure which shows an example of the audio | voice input apparatus using the noise reduction apparatus concerning embodiment. 実施の形態にかかるノイズ低減装置を用いた無線通信装置の一例を示す図である。It is a figure which shows an example of the radio | wireless communication apparatus using the noise reduction apparatus concerning embodiment.

以下、図面を参照して本発明の実施の形態について説明する。
図1は、実施の形態にかかるノイズ低減装置を示すブロック図である。図1に示すように、本実施の形態にかかるノイズ低減装置1は、音声区間判定部11、ノイズ低減処理部12、音圧レベル変化量算出部13、および音圧レベル補償部14を有する。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram illustrating a noise reduction device according to an embodiment. As illustrated in FIG. 1, the noise reduction device 1 according to the present embodiment includes a speech section determination unit 11, a noise reduction processing unit 12, a sound pressure level change amount calculation unit 13, and a sound pressure level compensation unit 14.

本実施の形態にかかるノイズ低減装置1は、主として音声成分を含む第1の収音信号(音声信号)21および主としてノイズ成分を含む第2の収音信号(参照信号)22を入力し、収音信号21および収音信号22を用いてノイズ低減処理を実施し、ノイズ低減処理後の信号を出力信号27として出力する。例えば、収音信号21および収音信号22は、図8に示すノイズ低減装置1'のように、音声用マイクロフォン16および参照音用マイクロフォン17を用いてそれぞれ収音することができる。   The noise reduction apparatus 1 according to the present embodiment receives a first sound pickup signal (speech signal) 21 mainly including a sound component and a second sound pickup signal (reference signal) 22 mainly including a noise component, and collects the sound. Noise reduction processing is performed using the sound signal 21 and the collected sound signal 22, and the signal after the noise reduction processing is output as an output signal 27. For example, the sound collection signal 21 and the sound collection signal 22 can be collected by using the sound microphone 16 and the reference sound microphone 17 as in the noise reduction device 1 ′ shown in FIG.

図8に示す音声用マイクロフォン16は、主に音声成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ18に出力する。参照音用マイクロフォン17は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ19に出力する。参照音用マイクロフォン17で収音された音に含まれるノイズ成分は、音声用マイクロフォン16で収音された音に含まれるノイズ成分を低減するために用いられる。   The voice microphone 16 shown in FIG. 8 picks up sound mainly including a voice component, converts it into an analog signal, and outputs the converted analog signal to the AD converter 18. The reference sound microphone 17 collects a sound mainly including a noise component, converts it into an analog signal, and outputs the converted analog signal to the AD converter 19. The noise component included in the sound collected by the reference sound microphone 17 is used to reduce the noise component contained in the sound collected by the sound microphone 16.

なお、図8に示すノイズ低減装置1'では、2つのマイクロフォンを備える構成を示しているが、例えば参照音用マイクロフォンを更に追加してマイクロフォンを3つ以上設けてもよい。つまり、図1に示すノイズ低減装置1に3つ以上の収音信号を入力するように構成してもよい。   In addition, although noise reduction apparatus 1 'shown in FIG. 8 has shown the structure provided with two microphones, you may provide the microphone for reference sounds further, and may provide three or more microphones, for example. That is, you may comprise so that three or more sound collection signals may be input into the noise reduction apparatus 1 shown in FIG.

ADコンバータ18は、音声用マイクロフォン16から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号21を生成する。ADコンバータ19は、参照音用マイクロフォン17から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号22を生成する。   The AD converter 18 samples the analog signal output from the audio microphone 16 at a predetermined sampling rate and converts it into a digital signal, thereby generating a sound collection signal 21. The AD converter 19 samples the analog signal output from the reference sound microphone 17 at a predetermined sampling rate and converts it into a digital signal, thereby generating a sound collection signal 22.

例えば、音声用マイクロフォン16および参照音用マイクロフォン17に入力される音声の周波数帯域は、おおよそ100Hzから4000Hz程度である。よって、ADコンバータ18、19におけるサンプリング周波数を8kHz〜12kHz程度とすることで、音声成分を含むアナログ信号をデジタル信号として取り扱うことができる。   For example, the frequency band of the sound input to the sound microphone 16 and the reference sound microphone 17 is approximately 100 Hz to 4000 Hz. Therefore, by setting the sampling frequency in the AD converters 18 and 19 to about 8 kHz to 12 kHz, an analog signal including an audio component can be handled as a digital signal.

図1に示すように、収音信号21は、音声区間判定部11、ノイズ低減処理部12、および音圧レベル変化量算出部13に供給される。また、収音信号22はノイズ低減処理部12に供給される。なお、本明細書では、主に音声成分を含む収音信号21を音声信号とも記載し、主にノイズ成分を含む収音信号22を参照信号(ノイズ信号)とも記載する。   As shown in FIG. 1, the collected sound signal 21 is supplied to the speech section determination unit 11, the noise reduction processing unit 12, and the sound pressure level change amount calculation unit 13. The collected sound signal 22 is supplied to the noise reduction processing unit 12. In the present specification, the collected sound signal 21 mainly including a sound component is also referred to as a sound signal, and the collected sound signal 22 mainly including a noise component is also referred to as a reference signal (noise signal).

音声区間判定部11は、供給された収音信号21に基づき音声区間を判定する。そして、音声区間判定部11は、音声区間を示す音声区間情報23、24を、ノイズ低減処理部12および音圧レベル変化量算出部13にそれぞれ出力する。   The voice segment determination unit 11 determines a voice segment based on the supplied sound collection signal 21. Then, the speech segment determination unit 11 outputs speech segment information 23 and 24 indicating the speech segment to the noise reduction processing unit 12 and the sound pressure level change amount calculation unit 13, respectively.

音声区間判定部11における音声区間判定処理には任意の技術を用いることができる。なお、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間とノイズ区間を判定することが好ましく、例えば、後述する音声ノイズ区間検出技術Aや音声ノイズ区間検出技術Bを用いることで、音声区間およびノイズ区間を高い精度で検出することができる。音声には人の声以外の音も含まれるが、これらの例では、主に人の声を検出する。なお、音声ノイズ区間検出技術Aは、一例として、特願2010−260798に基づく優先権を主張する出願である特願2011−254578にも記載されている。また、音声ノイズ区間検出技術Bは、一例として、特願2011−020459にも記載されている。   An arbitrary technique can be used for the speech segment determination processing in the speech segment determination unit 11. When the noise reduction device is used in an environment where the noise level is high, it is preferable to determine the speech section and the noise section with high accuracy. For example, the speech noise section detection technique A or the speech noise section detection technique described later is used. By using B, it is possible to detect the voice section and the noise section with high accuracy. The sound includes sounds other than human voices, but in these examples, human voices are mainly detected. Note that the speech noise section detection technique A is also described as an example in Japanese Patent Application No. 2011-254578, which is an application claiming priority based on Japanese Patent Application No. 2010-260798. The voice noise section detection technique B is also described in Japanese Patent Application No. 2011-020659 as an example.

最初に、音声区間判定技術Aについて説明する。音声区間判定技術Aでは、音声の主要部分である母音成分の持つ周波数スペクトルに着目し、音声区間を判定している。音声区間判定技術Aでは、適切なノイズレベルを帯域毎に設定し、母音周波数成分のピークとの信号対ノイズレベル比を求め、信号対ノイズレベル比が所定のレベル比かつ所定のピーク数であるか否かを観察することで、音声区間を判定している。   First, the speech segment determination technique A will be described. In the speech section determination technique A, the speech section is determined by paying attention to the frequency spectrum of the vowel component that is the main part of the speech. In the speech section determination technique A, an appropriate noise level is set for each band, a signal-to-noise level ratio with a peak of the vowel frequency component is obtained, and the signal-to-noise level ratio is a predetermined level ratio and a predetermined number of peaks. The voice section is determined by observing whether or not.

図2は、音声区間判定技術Aを用いた音声区間判定部11'の一例を示すブロック図である。図2に示す音声区間判定部11'は、フレーム化部31、スペクトル生成部32、帯域分割部33、周波数平均部34、保持部35、時間平均部36、ピーク検出部37、および音声判定部38を備える。   FIG. 2 is a block diagram illustrating an example of a speech segment determination unit 11 ′ using the speech segment determination technique A. 2 includes a framing unit 31, a spectrum generating unit 32, a band dividing unit 33, a frequency averaging unit 34, a holding unit 35, a time averaging unit 36, a peak detecting unit 37, and a voice determining unit. 38.

フレーム化部31は、収音信号21を予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、フレーム化入力信号と称す)を生成する。   The framing unit 31 sequentially cuts the sound pickup signal 21 in frame units (predetermined number of samples) having a predetermined time width, and generates an input signal in frame units (hereinafter referred to as a framed input signal).

スペクトル生成部32は、フレーム化部31から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine Transform)等の直交変換法を用いるとよい。本実施の形態において、スペクトル生成部32は、少なくとも200Hzから700Hzのスペクトルパターンを生成する。   The spectrum generation unit 32 performs frequency analysis of the framing input signal output from the framing unit 31, converts the time-domain framing input signal into the frequency-domain framing input signal, and collects the spectrum. Is generated. The spectrum pattern is a collection of spectra for each frequency in which a frequency and energy at the frequency are associated with each other over a predetermined frequency band. The frequency transform method used here is not limited to a specific means, but requires a frequency resolution necessary for recognizing the spectrum of speech, and therefore has a relatively high resolution such as FFT (Fast Fourier Transform) or DCT (Discrete). It is recommended to use an orthogonal transformation method such as Cosine Transform. In the present embodiment, the spectrum generation unit 32 generates a spectrum pattern of at least 200 Hz to 700 Hz.

後述する音声判定部38が音声区間を判定する際に検出する対象である、音声の特徴を示すスペクトル(以下、フォルマントと称す)には、通常、基音に相当する第1フォルマントから、その倍音部分である第nフォルマント(nは自然数)まで複数ある。このうち、第1フォルマントや第2フォルマントは200Hz未満の周波数帯域に存在することが多い。しかし、この帯域には、低域ノイズ成分が比較的高いエネルギーで含まれているため、フォルマントが埋没し易い。また700Hz以上のフォルマントは、フォルマント自体のエネルギーが低いため、やはりノイズ成分に埋没し易い。そのため、ノイズ成分に埋没し難い200Hzから700Hzのスペクトルパターンを音声区間の判定に用いることで、判定対象を絞り、効率的に音声区間の判定を行うことができる。   A spectrum (hereinafter referred to as a formant) that indicates a feature of a voice, which is a target to be detected when a voice determination unit 38 to be described later determines a voice section, usually includes a harmonic part from a first formant corresponding to a fundamental tone. There are a plurality of nth formants (where n is a natural number). Of these, the first formant and the second formant often exist in a frequency band of less than 200 Hz. However, since this band contains a low-frequency noise component with relatively high energy, formants are easily buried. Also, a formant of 700 Hz or more is easily buried in a noise component because the formant itself has low energy. Therefore, by using a spectrum pattern of 200 Hz to 700 Hz that is difficult to be buried in the noise component for the determination of the voice section, the determination target can be narrowed down and the voice section can be determined efficiently.

帯域分割部33は、適切な周波数帯域単位で音声に特徴的なスペクトルを検出するため、スペクトルパターンの各スペクトルを、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域に分割する。本実施の形態において、予め定められた帯域幅は、100Hzから150Hz程度の帯域幅とする。   In order to detect a spectrum characteristic of speech in an appropriate frequency band unit, the band dividing unit 33 divides each spectrum of the spectrum pattern into a plurality of divided frequency bands that are frequency bands divided by a predetermined bandwidth. To divide. In the present embodiment, the predetermined bandwidth is about 100 Hz to 150 Hz.

周波数平均部34は、分割周波数帯域毎の平均エネルギーを求める。本実施の形態では、周波数平均部34は、分割周波数帯域毎に、分割周波数帯域におけるすべてのスペクトルのエネルギーを平均するが、演算負荷軽減のためスペクトルのエネルギーの代わりにスペクトルの最大または平均振幅値(絶対値)を代用してもよい。   The frequency averaging unit 34 calculates average energy for each divided frequency band. In the present embodiment, the frequency averaging unit 34 averages the energy of all spectra in the divided frequency band for each divided frequency band. However, the maximum or average amplitude value of the spectrum is used instead of the spectrum energy in order to reduce the calculation load. (Absolute value) may be substituted.

保持部35は、RAM(Random Access Memory)、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ等の記憶媒体で構成され、帯域毎の平均エネルギーを過去の予め定められた数(本実施の形態においてはNとする)のフレーム分保持する。   The holding unit 35 is configured by a storage medium such as a RAM (Random Access Memory), an EEPROM (Electrically Erasable and Programmable Read Only Memory), and a flash memory, and the average energy for each band is set to a predetermined number in the past (this embodiment). N frames in the form) are held.

時間平均部36は、分割周波数帯域毎に、周波数平均部34で導出された平均エネルギーの時間方向の複数のフレームに渡る平均である帯域別エネルギーを導出する。すなわち、帯域別エネルギーは、分割周波数帯域毎の平均エネルギーの時間方向の複数のフレームに渡る平均値である。また、時間平均部36は、直前のフレームの分割周波数帯域毎の平均エネルギーに、重み付け係数と時定数を用いて平均化に準じる処理をして、帯域別エネルギーの代用値を求めてもよい。   The time averaging unit 36 derives, for each divided frequency band, band-specific energy that is an average over a plurality of frames in the time direction of the average energy derived by the frequency averaging unit 34. That is, the band-specific energy is an average value over a plurality of frames in the time direction of the average energy for each divided frequency band. In addition, the time averaging unit 36 may obtain a substitute value of the band-specific energy by performing a process according to averaging using the weighting coefficient and the time constant on the average energy for each divided frequency band of the immediately preceding frame.

ピーク検出部37は、スペクトルパターンの各スペクトルと、そのスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比(SNR:Signal to Noise ratio)を導出する。そして、ピーク検出部37は、スペクトル毎のSNRと、予め定められた第1閾値とを比較し、第1閾値を超えるか否かを判定する。SNRが第1閾値を超えるスペクトルがあると、このスペクトルをフォルマントとみなし、フォルマントが検出された旨を示す情報を、音声判定部38に出力する。   The peak detector 37 derives an energy ratio (SNR: Signal to Noise ratio) between each spectrum of the spectrum pattern and the band-specific energy in the divided frequency band in which the spectrum is included. Then, the peak detection unit 37 compares the SNR for each spectrum with a predetermined first threshold value, and determines whether or not the first threshold value is exceeded. If there is a spectrum whose SNR exceeds the first threshold value, this spectrum is regarded as a formant, and information indicating that a formant has been detected is output to the voice determination unit 38.

音声判定部38は、フォルマントが検出されたという情報をピーク検出部37から受け付けると、ピーク検出部37の判定結果に基づいて、該当フレームのフレーム化入力信号が音声であるか否か判定する。音声判定部38は、フレーム化入力信号が音声であると判定した場合、ノイズ低減処理部12および音圧レベル変化量算出部13に音声区間情報23、24をそれぞれ出力する。   When receiving information from the peak detection unit 37 that the formant has been detected, the audio determination unit 38 determines whether the framed input signal of the corresponding frame is audio based on the determination result of the peak detection unit 37. When it is determined that the framed input signal is speech, the speech determination unit 38 outputs the speech section information 23 and 24 to the noise reduction processing unit 12 and the sound pressure level change amount calculation unit 13, respectively.

図2に示す音声区間判定部11'は、分割周波数帯域毎に、その分割周波数帯域の帯域別エネルギーを設定している。そのため、音声判定部38は、他の分割周波数帯域のノイズ成分の影響を受けずに、それぞれの分割周波数帯域毎にフォルマントの有無を精度よく判定することができる。   The speech section determination unit 11 ′ illustrated in FIG. 2 sets energy for each divided frequency band for each divided frequency band. Therefore, the voice determination unit 38 can accurately determine the presence / absence of a formant for each divided frequency band without being affected by noise components in other divided frequency bands.

上述したように、フォルマントには、第1フォルマントから、その倍音部分である第nフォルマントまで複数ある。したがって、任意の分割周波数帯域の帯域別エネルギー(ノイズレベル)が上昇し、フォルマントの一部がノイズに埋没しても、他の複数のフォルマントを検出できる場合がある。特に、周囲ノイズは低域に集中するため、基音に相当する第1フォルマントや2倍音に相当する第2フォルマントが低域のノイズに埋没していても、3倍音以上のフォルマントを検出できる可能性がある。よって、音声判定部38は、SNRが第1閾値を超えるスペクトルが所定数以上である場合、フレーム化入力信号が音声であると判定することで、よりノイズに強い音声区間の判定を行うことができる。   As described above, there are a plurality of formants from the first formant to the n-th formant, which is a harmonic part thereof. Therefore, even if the energy (noise level) of any divided frequency band is increased and a part of the formant is buried in noise, a plurality of other formants may be detected. In particular, since ambient noise is concentrated in the low range, even if the first formant corresponding to the fundamental tone and the second formant corresponding to the second overtone are buried in the low-frequency noise, the possibility of detecting a formant with a third or higher harmonic is possible. There is. Therefore, when the spectrum whose SNR exceeds the first threshold is greater than or equal to the predetermined number, the speech determination unit 38 can determine a speech section that is more resistant to noise by determining that the framed input signal is speech. it can.

以上で説明したように、音声区間判定技術Aを用いた音声区間判定部11'は、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部31と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部32と、スペクトルパターンの各スペクトルと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えるか否かを判定するピーク検出部37と、ピーク検出部の判定結果に基づいて、フレーム化入力信号が音声であるか否か判定する音声判定部38と、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出する周波数平均部34と、分割周波数帯域毎に、平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均部36と、を備える。   As described above, the speech segment determination unit 11 ′ using the speech segment determination technique A cuts out the input signal in units of frames having a predetermined time width, and generates a framed input signal. A spectrum generation unit 32 for converting the framing input signal from the time domain to the frequency domain to generate a spectrum pattern in which spectra for each frequency are collected, each spectrum of the spectrum pattern, and a predetermined bandwidth A peak detector 37 that determines whether or not the energy ratio of the divided frequency bands including the spectrum among the plurality of divided frequency bands that are the divided frequency bands to the energy by band exceeds a predetermined first threshold value. And a voice determination unit 38 that determines whether or not the framed input signal is voice based on the determination result of the peak detection unit, A frequency averaging unit 34 for deriving an average energy in the frequency direction of the spectrum in each divided frequency band of the spectrum pattern, and a time averaging unit 36 for deriving the energy by band that is an average of the average energy in the time direction for each divided frequency band. And comprising.

例えば、音声判定部38は、エネルギー比が第1閾値を超えるスペクトルが予め定められた数以上であると、フレーム化入力信号が音声であると判定することができる。   For example, the speech determination unit 38 can determine that the framed input signal is speech when the spectrum in which the energy ratio exceeds the first threshold is equal to or greater than a predetermined number.

次に、音声区間判定技術Bについて説明する。音声区間判定技術Bでは、子音の特徴であるスペクトルパターンが右上がりになる傾向があるという性質に着目して、音声区間を判定している。音声区間判定技術Bでは、子音のスペクトルパターンを中高域の周波数帯において測定し、更に部分的にノイズ成分によって埋没してしまった子音の周波数分布の特徴を、ノイズの影響があまり無かった帯域に特化して抽出することで、音声区間を高精度で判定することを可能にしている。   Next, the speech section determination technique B will be described. In the speech section determination technique B, the speech section is determined by paying attention to the property that the spectrum pattern that is a feature of the consonant tends to rise to the right. In the speech segment determination technique B, the spectrum pattern of the consonant is measured in the mid-high frequency band, and the characteristics of the frequency distribution of the consonant that is partially buried by the noise component are set in a band where there is not much influence of noise. By specializing and extracting, it is possible to determine the speech section with high accuracy.

図3は、音声区間判定技術Bを用いた音声区間判定部11''の一例を示すブロック図である。音声区間判定部11''は、フレーム化部41、スペクトル生成部42、帯域分割部43、平均導出部44、ノイズレベル導出部45、判定選択部46、および子音判定部47を備える。   FIG. 3 is a block diagram illustrating an example of a speech segment determination unit 11 ″ using the speech segment determination technique B. The speech section determination unit 11 ″ includes a framing unit 41, a spectrum generation unit 42, a band division unit 43, an average derivation unit 44, a noise level derivation unit 45, a determination selection unit 46, and a consonant determination unit 47.

フレーム化部41は、収音信号21を予め定められた時間幅を有するフレーム単位で順次切り出し、フレーム単位の入力信号であるフレーム化入力信号を生成する。   The framing unit 41 sequentially extracts the sound pickup signal 21 in units of frames having a predetermined time width, and generates a framing input signal that is an input signal in units of frames.

スペクトル生成部42は、フレーム化部41から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFTやDCT等の直交変換法を用いるとよい。   The spectrum generation unit 42 performs frequency analysis of the framing input signal output from the framing unit 41, converts the time-domain framing input signal into the frequency-domain framing input signal, and collects the spectrum. Is generated. The spectrum pattern is a collection of spectra for each frequency in which a frequency and energy at the frequency are associated with each other over a predetermined frequency band. The frequency conversion method used here is not limited to a specific means, but a frequency resolution necessary for recognizing a speech spectrum is necessary, and therefore, an orthogonal transformation method such as FFT or DCT having a relatively high resolution is used. Good.

帯域分割部43は、スペクトル生成部42が生成したスペクトルパターンの各スペクトルを、予め定められた帯域幅毎に分割し、複数の分割周波数帯域を生成する。本実施の形態において、帯域分割部43は、例えば、800Hz〜3.5kHzの周波数範囲について、例えば、100Hz〜300Hz程度の帯域幅毎に分割する。   The band dividing unit 43 divides each spectrum of the spectrum pattern generated by the spectrum generating unit 42 for each predetermined bandwidth, and generates a plurality of divided frequency bands. In the present embodiment, the band dividing unit 43 divides the frequency range of, for example, 800 Hz to 3.5 kHz for each bandwidth of about 100 Hz to 300 Hz, for example.

平均導出部44は、スペクトルパターンにおける、連接する、帯域分割部43が分割した分割周波数帯域(バンド)毎の平均エネルギーである帯域別平均エネルギーを導出する。   The average deriving unit 44 derives average energy for each band, which is an average energy for each divided frequency band (band) divided by the band dividing unit 43 in the spectrum pattern.

子音判定部47は、平均導出部44が導出した帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、そのフレーム化入力信号に子音が含まれると判定する。   The consonant determination unit 47 compares the band-by-band average energies derived by the average deriving unit 44. If the band-by-band average energy of the higher frequency band is higher, the consonant is included in the framed input signal. It is determined that

一般的に、子音はスペクトルパターンが右上がりになる傾向がある。そこで、音声区間判定技術Bを用いた音声区間判定部11''は、スペクトルパターンにおける帯域別平均エネルギーを導出し、その帯域別エネルギー同士を比較することで子音に特徴的な、スペクトルパターンにおける右上がりの傾向を検出する。そのため、音声区間判定部11''は、入力信号に子音が含まれる子音区間を精度よく検出することができる。   In general, consonants tend to have a spectral pattern that rises to the right. Therefore, the speech segment determination unit 11 ″ using the speech segment determination technique B derives the average energy for each band in the spectrum pattern and compares the energy for each band to the right in the spectrum pattern characteristic of the consonant. Detect upward trend. Therefore, the speech segment determination unit 11 '' can accurately detect a consonant segment in which a consonant is included in the input signal.

子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた第1閾値以上であると、子音が含まれると判定する第1判定手段を備える。また、子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計測し、更にこの組み合わせが帯域を跨いで連続する場合に重み付けをして計数し、計数した計数値が、予め定められた第2閾値以上であると、子音が含まれると判定する第2判定手段を備える。子音判定部47は、第1判定手段と第2判定手段をそれぞれノイズレベルに応じて使い分ける。   The consonant determination unit 47 counts a combination in which the average energy for each band between adjacent bands is higher in the high frequency band than in the adjacent low frequency band, and the counted value is a predetermined first threshold value. If it is above, the 1st judgment means which judges that a consonant is contained is provided. In addition, the consonant determination unit 47 measures a combination in which the average energy for each band between adjacent bands is higher in the high frequency band than in the adjacent low frequency band, and when this combination continues across the bands And a second determination means for determining that a consonant is included when the counted value is equal to or greater than a predetermined second threshold value. The consonant determination unit 47 uses the first determination unit and the second determination unit in accordance with the noise level.

ここで、第1判定手段と第2判定手段とを適宜選択すべく、ノイズレベル導出部45は、フレーム化入力信号のノイズレベルを導出する。例えば、ノイズレベルは、フレーム化入力信号のすべての周波数帯域の帯域別平均エネルギーの平均値とすることができる。また、ノイズレベル導出部45は、フレーム化入力信号毎にノイズレベルを導出してもよいし、所定時間分のフレーム化入力信号のノイズレベルの平均値を用いてもよい。判定選択部46は、導出されたノイズレベルが所定の閾値未満の場合、第1判定手段を選択し、所定の閾値以上の場合、第2判定手段を選択する。   Here, the noise level deriving unit 45 derives the noise level of the framed input signal so as to select the first determination unit and the second determination unit as appropriate. For example, the noise level can be an average value of average energy for each frequency band of the framed input signal. Further, the noise level deriving unit 45 may derive a noise level for each framed input signal, or may use an average value of noise levels of the framed input signal for a predetermined time. The determination selection unit 46 selects the first determination unit when the derived noise level is less than the predetermined threshold, and selects the second determination unit when the derived noise level is equal to or higher than the predetermined threshold.

以上で説明したように、音声区間判定技術Bを用いた音声区間判定部11''は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部41と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部42と、スペクトルパターンにおける、連接する予め定められた帯域幅毎の平均エネルギーである帯域別平均エネルギーを導出する平均導出部44と、導出された帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、フレーム化入力信号に子音が含まれると判定する子音判定部47と、を備える。   As described above, the speech segment determination unit 11 ″ using the speech segment determination technique B includes the framing unit 41 that cuts out the input signal in units of predetermined frames and generates a framed input signal, The spectrum generation unit 42 that converts the input signal from the time domain to the frequency domain and generates a spectrum pattern in which the spectrum for each frequency is collected, and the average energy for each predetermined bandwidth to be connected in the spectrum pattern The average deriving unit 44 for deriving the average energy for each band and the derived average energy for each band are compared. If the average energy for each band in the higher frequency band is higher, the framed input signal A consonant determination unit 47 that determines that a consonant is included.

例えば、子音判定部47は、スペクトルパターンの隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた閾値以上であると、子音が含まれると判定することができる。   For example, the consonant determination unit 47 counts combinations in which the average energy for each band between adjacent bands of the spectrum pattern is larger in the higher frequency band than in the adjacent lower frequency band, and the counted value is determined in advance. It is possible to determine that a consonant is included if it is equal to or greater than the threshold value.

なお、本実施の形態にかかるノイズ低減装置に上記の音声区間判定技術A、Bを適用する場合、製品毎にパラメータを設定することができる。すなわち、より確実な音声区間の判定が要求される製品に音声区間判定技術A、Bを適用する場合、音声区間判定のパラメータとしてより厳しい閾値を設定することができる。   In addition, when applying said audio | voice area determination technique A and B to the noise reduction apparatus concerning this Embodiment, a parameter can be set for every product. That is, when the speech segment determination techniques A and B are applied to a product that requires more reliable speech segment determination, a stricter threshold can be set as a parameter for speech segment determination.

図1に示すノイズ低減装置1が備えるノイズ低減処理部12は、少なくとも2つの収音信号21、22を用いてノイズ低減処理を実施する。つまり、ノイズ低減処理部12は、主としてノイズ成分を含む収音信号22を用いて、主として音声成分を含む収音信号21に含まれるノイズ成分を低減する。このように、収音信号21に含まれるノイズ成分を低減することで、音声の聞き取りやすさを改善することができる。   The noise reduction processing unit 12 included in the noise reduction device 1 illustrated in FIG. 1 performs noise reduction processing using at least two collected sound signals 21 and 22. That is, the noise reduction processing unit 12 uses the sound collection signal 22 mainly including the noise component to reduce the noise component included in the sound collection signal 21 mainly including the sound component. Thus, by reducing the noise component included in the collected sound signal 21, it is possible to improve the ease of listening to the voice.

図4は、本実施の形態にかかるノイズ低減装置1が備えるノイズ低減処理部12の一例を示すブロック図である。図4に示すノイズ低減処理部12は、適応フィルタ51、適応係数調整部52、および加算器53を有する。   FIG. 4 is a block diagram illustrating an example of the noise reduction processing unit 12 included in the noise reduction device 1 according to the present embodiment. The noise reduction processing unit 12 illustrated in FIG. 4 includes an adaptive filter 51, an adaptive coefficient adjustment unit 52, and an adder 53.

適応フィルタ51は、主としてノイズ成分を含む収音信号22を入力し、この収音信号22を用いて、収音信号21に含まれている可能性があるノイズ成分を擬似的に生成し、疑似ノイズ信号55として出力する。ここで、疑似ノイズ信号55は、収音信号21に対して位相反転された信号である。   The adaptive filter 51 receives a sound collection signal 22 mainly including a noise component, and uses this sound collection signal 22 to artificially generate a noise component that may be included in the sound collection signal 21. The noise signal 55 is output. Here, the pseudo noise signal 55 is a signal whose phase is inverted with respect to the collected sound signal 21.

加算器53は、収音信号21と位相反転された疑似ノイズ信号55とを加算することで、ノイズ低減処理後の信号25を生成する。また、加算器53は、収音信号21と位相反転された疑似ノイズ信号55とを加算することでフィードバック信号56を生成し、適応係数調整部52に出力する。   The adder 53 adds the sound pickup signal 21 and the phase-inverted pseudo noise signal 55 to generate a signal 25 after noise reduction processing. Further, the adder 53 adds the sound pickup signal 21 and the pseudo-noise signal 55 whose phase has been inverted to generate a feedback signal 56 and outputs it to the adaptive coefficient adjustment unit 52.

適応係数調整部52は、音声区間情報23に応じて、適応フィルタ51の係数を調整する。つまり、適応係数調整部52は、音声区間情報23が音声区間を示さない場合(ノイズ区間の場合)、適応誤差が少なくなるように係数を調整する。一方、音声区間情報23が音声区間を示している場合、適応フィルタ51の係数を維持するか、または係数を微調整するのみとする。   The adaptive coefficient adjustment unit 52 adjusts the coefficient of the adaptive filter 51 in accordance with the speech segment information 23. That is, the adaptive coefficient adjustment unit 52 adjusts the coefficient so that the adaptive error is reduced when the speech section information 23 does not indicate a speech section (in the case of a noise section). On the other hand, when the speech section information 23 indicates a speech section, the coefficient of the adaptive filter 51 is maintained or only the coefficient is finely adjusted.

図5は、図4に示したノイズ低減処理部12を詳細に説明するための図である。図5では、適応フィルタ51をFIR(Finite Impulse Response)フィルタで構成した例を示している。図5に示す適応フィルタ51は、遅延素子61_1〜61_n、乗算器62_1〜62_n+1、および加算器63_1〜63_nを備える。遅延素子61_1〜61_n、乗算器62_1〜62_n+1、および加算器63_1〜63_nを用いて収音信号22を処理することで、擬似ノイズ信号55が生成される。   FIG. 5 is a diagram for explaining the noise reduction processing unit 12 illustrated in FIG. 4 in detail. FIG. 5 shows an example in which the adaptive filter 51 is configured by an FIR (Finite Impulse Response) filter. The adaptive filter 51 illustrated in FIG. 5 includes delay elements 61_1 to 61_n, multipliers 62_1 to 62_n + 1, and adders 63_1 to 63_n. The pseudo noise signal 55 is generated by processing the sound collection signal 22 using the delay elements 61_1 to 61_n, the multipliers 62_1 to 62_n + 1, and the adders 63_1 to 63_n.

適応係数調整部52は、乗算器62_1〜62_n+1の係数を調整する。つまり、適応係数調整部52は、音声区間情報23が音声区間を示さない場合(ノイズ区間の場合)、疑似ノイズ信号55と収音信号21との差分(フィードバック信号56)が最小化されるように適応フィルタ51の係数を調整する。これにより、適応フィルタ51から出力される疑似ノイズ信号55を、音声用マイクロフォンで収音された収音信号21に含まれるノイズ成分に近づけることができる。   The adaptive coefficient adjustment unit 52 adjusts the coefficients of the multipliers 62_1 to 62_n + 1. That is, the adaptive coefficient adjustment unit 52 minimizes the difference (feedback signal 56) between the pseudo noise signal 55 and the collected sound signal 21 when the speech section information 23 does not indicate a speech section (in the case of a noise section). The coefficient of the adaptive filter 51 is adjusted. Thereby, the pseudo noise signal 55 output from the adaptive filter 51 can be brought close to the noise component included in the sound pickup signal 21 picked up by the sound microphone.

一方、音声区間情報23が音声区間を示している場合は、収音信号21に音声成分が含まれている。この場合は、音声成分の影響により適応フィルタ51の係数がノイズ成分に適応せず収束しないおそれもある。よって、安定的に適応フィルタ51の係数を更新するためには、音声区間情報23が音声区間を示している場合は、適応フィルタ51の係数を維持するか、または係数を微調整するのみとすることが望ましい。   On the other hand, when the voice section information 23 indicates a voice section, the collected sound signal 21 includes a voice component. In this case, the coefficient of the adaptive filter 51 may not be adapted to the noise component and may not converge due to the influence of the audio component. Therefore, in order to stably update the coefficient of the adaptive filter 51, when the speech section information 23 indicates a speech section, the coefficient of the adaptive filter 51 is maintained or only the coefficient is finely adjusted. It is desirable.

図1に示すノイズ低減装置1が備える音圧レベル変化量算出部13は、音声区間判定部11から出力された音声区間情報24が音声区間を示している場合、収音信号21とノイズ低減処理部12から出力されたノイズ低減処理後の信号25とを用いて、収音信号21に対するノイズ低減処理後の信号25の音圧レベルの変化量を算出する。音圧レベル変化量算出部13で算出された音圧レベル変化量26は、音圧レベル補償部14に出力される。   The sound pressure level change amount calculation unit 13 included in the noise reduction device 1 illustrated in FIG. 1 performs a sound collection signal 21 and noise reduction processing when the speech section information 24 output from the speech section determination unit 11 indicates a speech section. Using the noise-reduced signal 25 output from the unit 12, the amount of change in the sound pressure level of the noise-reduced signal 25 with respect to the collected sound signal 21 is calculated. The sound pressure level change amount 26 calculated by the sound pressure level change amount calculation unit 13 is output to the sound pressure level compensation unit 14.

すなわち、音圧レベル変化量算出部13は、ノイズ低減処理部12から出力されたノイズ低減処理後の信号25の品質が適正であるかを判定するために、収音信号21の音圧レベルとノイズ低減処理後の信号25の音圧レベルとを比較する。そして、音圧レベル変化量算出部13は、収音信号21の音圧レベルとノイズ低減処理後の信号25の音圧レベルとの差である音圧レベル差を算出し、この音圧レベル差を音圧レベル変化量26として出力することができる。   That is, the sound pressure level change amount calculation unit 13 determines the sound pressure level of the collected sound signal 21 to determine whether the quality of the signal 25 after noise reduction processing output from the noise reduction processing unit 12 is appropriate. The sound pressure level of the signal 25 after the noise reduction processing is compared. Then, the sound pressure level change amount calculation unit 13 calculates a sound pressure level difference that is a difference between the sound pressure level of the collected sound signal 21 and the sound pressure level of the signal 25 after the noise reduction processing, and this sound pressure level difference. Can be output as the sound pressure level change amount 26.

ノイズ低減処理部12で用いられる適応フィルタは、参照音用マイクロフォンからみた、音声用マイクロフォンに混入するノイズ成分の音響的な空間特性フィルタを導出する。適応フィルタは、主なノイズ源が存在する方向から到来する信号成分を減衰する働きを持つ。ノイズの到来方向は、音声用マイクロフォンの位置を中心とする3次元的な方向全てに渡っており、適応フィルタの作用も全ての方向において同様となる。よって、音声用マイクロフォンに向かって話者が話している際に、話者の後方からノイズ成分が到来した場合は、ノイズの到来方向の信号成分(音声成分とノイズ成分とを含む)がキャンセルされるために、音声成分もキャンセルされることになる。また、ノイズの到来方向が異なる場合であっても、話者の音声の音声用マイクロフォンに対する進入角度とノイズ成分の音声用マイクロフォンに対する進入角度とが近似する場合は、ノイズ低減処理部12がノイズ成分をキャンセルする際に音声成分もキャンセルしてしまうため、ノイズ低減処理後の信号25の音圧レベルが低下してしまう。   The adaptive filter used in the noise reduction processing unit 12 derives an acoustic spatial characteristic filter of a noise component mixed in the voice microphone as seen from the reference sound microphone. The adaptive filter has a function of attenuating a signal component coming from a direction where a main noise source exists. The direction of noise arrival is in all three-dimensional directions centered on the position of the voice microphone, and the action of the adaptive filter is the same in all directions. Therefore, when a noise component comes from behind the speaker when the speaker is speaking into the voice microphone, the signal component (including the voice component and the noise component) in the noise arrival direction is canceled. For this reason, the audio component is also canceled. Further, even when the noise arrival directions are different, if the approach angle of the speaker's voice to the speech microphone is close to the approach angle of the noise component to the speech microphone, the noise reduction processing unit 12 may reduce the noise component. Since the sound component is also canceled when canceling, the sound pressure level of the signal 25 after the noise reduction processing is lowered.

図4や図5に示したノイズ低減処理部12では、収音信号21に対して位相反転された疑似ノイズ信号55を収音信号21と加算することでノイズ低減処理を実施している。ここで、疑似ノイズ信号55は適応フィルタ51の係数の精度等に依存するため、ノイズ低減処理後の信号25の音圧レベルは、本来の音声信号である収音信号21の音圧レベルとは一致しない。しかし、音声成分に対するキャンセル作用が僅かな場合は、ノイズ低減処理後の信号25において大きな音圧レベルの低下は発生しない。つまり、収音信号21とノイズ低減処理後の信号25との音圧レベル差は発生しないか、発生したとしても極わずかとなる。本実施の形態にかかるノイズ低減装置では、音声レベル変化量算出部13においてノイズ低減処理前の収音信号21とノイズ低減処理後の信号25との音圧レベル差を算出し、この音圧レベル差を所定の閾値と比較することで、ノイズ低減処理部12において音声成分がキャンセルされている状況をモニタすることができる。   In the noise reduction processing unit 12 shown in FIGS. 4 and 5, the noise reduction processing is performed by adding the pseudo noise signal 55 whose phase is inverted with respect to the sound collection signal 21 to the sound collection signal 21. Here, since the pseudo noise signal 55 depends on the accuracy of the coefficient of the adaptive filter 51 and the like, the sound pressure level of the signal 25 after noise reduction processing is the sound pressure level of the collected sound signal 21 that is the original sound signal. It does not match. However, when the canceling action for the sound component is slight, a large decrease in the sound pressure level does not occur in the signal 25 after the noise reduction processing. That is, a difference in sound pressure level between the collected sound signal 21 and the signal 25 after the noise reduction processing does not occur or is minimal even if it occurs. In the noise reduction apparatus according to the present embodiment, the sound level change amount calculation unit 13 calculates the sound pressure level difference between the collected sound signal 21 before the noise reduction process and the signal 25 after the noise reduction process, and this sound pressure level. By comparing the difference with a predetermined threshold, it is possible to monitor the situation in which the audio component is canceled in the noise reduction processing unit 12.

このとき、音声レベル変化量算出部13において正確に音圧レベル変化量(音圧レベル差)を算出するには、音声が発せられている区間においてのみ、音圧レベル差を算出する必要がある。よって、音声区間判定部11において非常に高い確率で音声と判定されている区間を音声区間とし、音声区間判定部11から音声区間であることを示す音声区間情報24が出力された場合に、音声レベル変化量算出部13において音圧レベル差を算出する。ここで、音声レベル変化量算出部13において算出される音圧レベル差は、音圧レベル補償部14においてノイズ低減処理後の信号25の音圧レベルを補償(調整)する際の基準値(音圧補償レベル基準値)となる。   At this time, in order for the sound level change amount calculation unit 13 to accurately calculate the sound pressure level change amount (sound pressure level difference), it is necessary to calculate the sound pressure level difference only in the section where the sound is being emitted. . Therefore, when a voice segment is output from the voice segment determination unit 11 as a voice segment, a voice segment is output from the voice segment determination unit 11 as a voice segment. The level change amount calculation unit 13 calculates the sound pressure level difference. Here, the sound pressure level difference calculated by the sound level change amount calculation unit 13 is a reference value (sound level) when the sound pressure level compensation unit 14 compensates (adjusts) the sound pressure level of the signal 25 after the noise reduction processing. Pressure compensation level reference value).

通常、話者が音声を発話する場合は、単語の切れ目や息継ぎをするタイミングなどがあるため断続的になる。このような場合、音声区間判定部11において音声区間であると判定されるタイミングも断続的となり、音声区間を示す音声区間情報23、24も離散的になる。音声の場合、局所的(単音単位)に見れば音圧レベルの強弱は大きくなる。しかし、大局的(文節単位以上)に見ると、一定の音圧レベルが保たれていると考える方が自然である。この状況は、環境ノイズについても同様である。よって、ノイズ低減処理部(適応フィルタ)12の特性も緩やかな変化であるとみなすことができるため、離散的に取得した音圧補償レベル基準値(音圧レベル差に対応する)は、次に音声区間判定部11において音声区間であると判定されるまで保持しておく(更新しない)ことが好ましい。   Usually, when a speaker utters a voice, it becomes intermittent because there is a break of a word or timing of breathing. In such a case, the timing at which the speech segment determination unit 11 determines that the segment is a speech segment is intermittent, and the speech segment information 23 and 24 indicating the speech segment is also discrete. In the case of voice, the level of the sound pressure level increases when viewed locally (single tone unit). However, when viewed globally (between phrase units), it is natural to think that a constant sound pressure level is maintained. This situation is the same for environmental noise. Therefore, since the characteristics of the noise reduction processing unit (adaptive filter) 12 can also be regarded as a gradual change, the sound pressure compensation level reference value (corresponding to the sound pressure level difference) obtained discretely is It is preferable to hold (do not update) until it is determined by the speech section determination unit 11 that the speech section is a speech section.

また、音声区間判定部11における音声区間判定はある時間幅を有する信号を用いて音声であるか否かを検出するものである。よって、音圧レベル差に関する情報も、音声区間判定の場合と同様の時間幅を単位として算出することができる。例えば、収音信号21とノイズ低減処理後の信号25との音圧レベル差は、単位時間幅におけるパワー量を用いて算出することができる。   The speech segment determination in the speech segment determination unit 11 detects whether or not the speech segment is a speech using a signal having a certain time width. Therefore, the information related to the sound pressure level difference can also be calculated in units of time width similar to that in the case of voice segment determination. For example, the sound pressure level difference between the collected sound signal 21 and the noise-reduced signal 25 can be calculated using the power amount in the unit time width.

図6は、本実施の形態にかかるノイズ低減装置が備える音圧レベル変化量算出部13の一例を示すブロック図である。図6に示す音圧レベル変化量算出部13は、信号バッファ71、信号パワー算出部72、信号バッファ73、信号パワー算出部74、および音圧レベル差算出部75を備える。図6に示す音圧レベル変化量算出部13は、ある一定の単位時間における収音信号21およびノイズ低減処理後の信号25の音圧レベル差を算出することができる。また、音圧レベル変化量算出部13は、音声区間判定部11から出力された音声区間情報24が音声区間を示しているタイミングで音圧レベル差を算出する。   FIG. 6 is a block diagram illustrating an example of the sound pressure level change amount calculation unit 13 provided in the noise reduction device according to the present embodiment. The sound pressure level change amount calculation unit 13 illustrated in FIG. 6 includes a signal buffer 71, a signal power calculation unit 72, a signal buffer 73, a signal power calculation unit 74, and a sound pressure level difference calculation unit 75. The sound pressure level change amount calculation unit 13 illustrated in FIG. 6 can calculate the sound pressure level difference between the sound collection signal 21 and the signal 25 after noise reduction processing in a certain unit time. In addition, the sound pressure level change amount calculation unit 13 calculates the sound pressure level difference at a timing at which the speech segment information 24 output from the speech segment determination unit 11 indicates a speech segment.

信号バッファ71は、単位時間分の収音信号21を蓄積するために、供給された収音信号21を一時的に蓄積する。信号バッファ73は、単位時間分の信号25を蓄積するために、供給された信号25を一時的に蓄積する。   The signal buffer 71 temporarily accumulates the supplied sound collection signal 21 in order to accumulate the sound collection signal 21 for a unit time. The signal buffer 73 temporarily accumulates the supplied signal 25 in order to accumulate the signal 25 for a unit time.

信号パワー算出部72は、信号バッファ71に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。また、信号パワー算出部74は、信号バッファ73に蓄積された単位時間分の信号を用いて、単位時間当たりのパワー値を算出する。   The signal power calculation unit 72 calculates a power value per unit time using the sound collection signals for unit time accumulated in the signal buffer 71. In addition, the signal power calculation unit 74 calculates a power value per unit time using the signals for the unit time accumulated in the signal buffer 73.

ここで、単位時間当たりのパワー値とは、単位時間における収音信号21および信号25の大きさであり、例えば、単位時間における収音信号21および信号25の振幅(絶対値)の最大値や平均値、単位時間における収音信号21および信号25の振幅(絶対値)の積分値等を用いることができる。なお、本実施の形態では、収音信号21および信号25の大きさを示す値であれば、パワー値として上記の最大値や積分値以外の値を用いてもよい。   Here, the power value per unit time is the magnitude of the sound collection signal 21 and the signal 25 in unit time. For example, the maximum value of the amplitude (absolute value) of the sound collection signal 21 and the signal 25 in unit time is An average value, an integrated value of the amplitude (absolute value) of the sound pickup signal 21 and the signal 25 in unit time, or the like can be used. In the present embodiment, as long as the values indicate the magnitudes of the sound pickup signal 21 and the signal 25, values other than the maximum value and the integral value may be used as the power value.

音圧レベル差算出部75は、信号パワー算出部72で求めた収音信号21のパワー値と、信号パワー算出部74で求めた信号25のパワー値との差である音圧レベル差を算出し、算出された音圧レベル差を音圧レベル変化量26として音圧レベル補償部14に出力する。   The sound pressure level difference calculation unit 75 calculates a sound pressure level difference that is a difference between the power value of the collected sound signal 21 obtained by the signal power calculation unit 72 and the power value of the signal 25 obtained by the signal power calculation unit 74. The calculated sound pressure level difference is output to the sound pressure level compensation unit 14 as the sound pressure level change amount 26.

音圧レベル補償部14は、音圧レベル変化量算出部13で算出された音圧レベル変化量26に応じて、ノイズ低減処理後の信号25の音圧レベルを補償(調整)する。例えば、音圧レベル補償部14は、収音信号21の音圧レベルとノイズ低減処理後の信号25の音圧レベルとの差である音圧レベル差の絶対値が所定の閾値以上となった場合に、ノイズ低減処理後の信号25の音圧レベルを補償する。このとき、例えば、音圧レベル補償部14は、音圧レベル差に対応した増幅率でノイズ低減処理後の信号25を増幅してもよい。また、音圧レベル補償部14は、急なゲイン調整を抑制するために、音圧レベル差が所定の上限値を超えた場合は、当該上限値に対応した増幅率でノイズ低減処理後の信号25を増幅するようにしてもよい。   The sound pressure level compensation unit 14 compensates (adjusts) the sound pressure level of the signal 25 after the noise reduction processing according to the sound pressure level change amount 26 calculated by the sound pressure level change amount calculation unit 13. For example, the sound pressure level compensator 14 has an absolute value of the sound pressure level difference, which is the difference between the sound pressure level of the collected sound signal 21 and the sound pressure level of the signal 25 after noise reduction processing, equals or exceeds a predetermined threshold value. In this case, the sound pressure level of the signal 25 after the noise reduction process is compensated. At this time, for example, the sound pressure level compensation unit 14 may amplify the signal 25 after the noise reduction process with an amplification factor corresponding to the sound pressure level difference. Further, in order to suppress a sudden gain adjustment, the sound pressure level compensator 14 is a signal after noise reduction processing at an amplification factor corresponding to the upper limit value when the sound pressure level difference exceeds a predetermined upper limit value. 25 may be amplified.

また、音圧レベル変化量算出部13から音圧レベル変化量26として出力される音圧レベル差は、時間方向において階段状に変化する。よって、音圧レベル補償部14においてノイズ低減処理後の信号25の音圧レベルを補償(調整)する際に、音圧レベル差を基準値(音圧補償レベル基準値)としてそのまま用いると、調整後の出力信号27の変動が大きくなる。また、ノイズ成分の急激な変動は聞く側に聴感的に耳障りな印象を与えてしまうため、音圧レベルの変動を滑らかにする緩和処理を実施することが好ましい。つまり、音圧レベル補償部14は、音圧レベル差に対応した増幅率でノイズ低減処理後の信号を増幅した後、この増幅率を徐々に低減させる緩和処理(スムージング処理)を実施してもよい。この緩和処理は、図7に示すような音圧補償レベル基準値92による階段状の波形に対して、例えばローパスフィルタ処理を施すことや、後述する音圧レベル調整値93を徐々に低減させる処理を行うことで実現できる。   In addition, the sound pressure level difference output as the sound pressure level change amount 26 from the sound pressure level change amount calculation unit 13 changes stepwise in the time direction. Therefore, when the sound pressure level difference is used as a reference value (sound pressure compensation level reference value) when the sound pressure level compensation unit 14 compensates (adjusts) the sound pressure level of the signal 25 after the noise reduction processing, the adjustment is performed. The variation of the later output signal 27 becomes large. In addition, since sudden fluctuations in the noise component give an audible impression to the listener, it is preferable to perform a relaxation process that smoothes fluctuations in the sound pressure level. That is, the sound pressure level compensator 14 may amplify the signal after the noise reduction process with an amplification factor corresponding to the difference in sound pressure level, and then perform a relaxation process (smoothing process) for gradually reducing the amplification factor. Good. In the relaxation processing, for example, a low-pass filter process is performed on the stepped waveform based on the sound pressure compensation level reference value 92 as shown in FIG. 7, or a sound pressure level adjustment value 93 to be described later is gradually reduced. It can be realized by doing.

次に、本実施の形態にかかるノイズ低減装置1の動作について説明する。図7は、本実施の形態にかかるノイズ低減装置1の動作の一例を説明するための図である。図7では、ノイズ低減処理部12の適応フィルタにおいて好ましくない疑似ノイズ信号55が生成されたために、ノイズ低減処理後の信号25の音圧レベルが低下した際の、音声区間と判定されたタイミング(各々、矢印91で示す)、音圧補償レベル基準値(各々、黒丸92で示す)、および実際に用いる音圧レベル調整値93を時間軸方向に示している。   Next, operation | movement of the noise reduction apparatus 1 concerning this Embodiment is demonstrated. FIG. 7 is a diagram for explaining an example of the operation of the noise reduction apparatus 1 according to the present embodiment. In FIG. 7, since an unfavorable pseudo noise signal 55 is generated in the adaptive filter of the noise reduction processing unit 12, the timing when the sound pressure level of the signal 25 after the noise reduction processing is reduced is determined as a voice section ( A sound pressure compensation level reference value (respectively indicated by a black circle 92) and a sound pressure level adjustment value 93 actually used are indicated in the time axis direction.

ここで、音声区間と判定されたタイミング(各々、矢印91で示す)は、音声区間判定部11において音声区間と判定されたタイミングであり、より好ましくは、高確率で音声と判定されたタイミングである。例えば、音声区間であるか否かを判定するための閾値を調整し、収音信号21に音声成分が含まれると判定されにくくすれば、より音声らしい区間(音声である確率が高い区間)を検出できる。また、音圧補償レベル基準値(各々、黒丸92で示す)は、音圧レベル変化量算出部13から音圧レベル変化量26として出力された音圧レベル差である。つまり、音圧補償レベル基準値は、音圧レベル補償部14において音圧レベルの補償を実施する際の増幅率を決定する際の基準値となる。また、音圧レベル調整値93は、音圧レベル補償部14において音圧レベルを補償する際の増幅率、つまり、ノイズ低減処理後の信号25を増幅する際の増幅率に対応している。   Here, the timing determined to be a voice segment (respectively indicated by an arrow 91) is a timing determined to be a voice segment by the voice segment determination unit 11, and more preferably a timing determined to be a voice with high probability. is there. For example, by adjusting a threshold value for determining whether or not a speech section is present and making it difficult to determine that a sound component is included in the collected sound signal 21, a more speech-like section (a section having a high probability of being a voice) is selected. It can be detected. The sound pressure compensation level reference value (represented by each black circle 92) is the sound pressure level difference output as the sound pressure level change amount 26 from the sound pressure level change amount calculation unit 13. That is, the sound pressure compensation level reference value is a reference value for determining an amplification factor when the sound pressure level compensation unit 14 performs sound pressure level compensation. The sound pressure level adjustment value 93 corresponds to the amplification factor when the sound pressure level compensation unit 14 compensates the sound pressure level, that is, the amplification factor when the signal 25 after noise reduction processing is amplified.

また、図7では、音圧レベル補償部14において音圧レベルの変動を滑らかにする緩和処理を実施している場合を示している。つまり、音圧レベル調整値93の変動を滑らかにするために、音圧レベル調整値93を音圧レベル差(音圧補償レベル基準値)に対応した値に設定した後、この設定された音圧レベル調整値93が徐々に低減するようにしている。なお、本実施形態においては、音圧レベル調整値93を音圧レベル差に対応した値に設定する際も、緩やかに変動させている。   FIG. 7 shows a case where the sound pressure level compensation unit 14 performs a relaxation process for smoothing fluctuations in the sound pressure level. That is, in order to smooth the fluctuation of the sound pressure level adjustment value 93, the sound pressure level adjustment value 93 is set to a value corresponding to the sound pressure level difference (sound pressure compensation level reference value), and then the set sound is adjusted. The pressure level adjustment value 93 is gradually reduced. In this embodiment, when the sound pressure level adjustment value 93 is set to a value corresponding to the sound pressure level difference, it is gradually changed.

更に、図7では、音圧レベルを補償する際の音圧レベル差の閾値を+6dBとしている。つまり、音圧レベル差が+6dBよりも小さい場合(0dBも含む)は、音圧レベルの補償を実施しない。ただし、音圧レベル差の絶対値が+6dBよりも小さい場合であっても、図7に示すタイミングG、Hなどのように、音圧レベル調整値93を徐々に低減させている途中の場合は、低減中の音圧レベル調整値93を用いて音圧レベルを補償する。   Furthermore, in FIG. 7, the threshold value of the sound pressure level difference when compensating the sound pressure level is set to +6 dB. That is, when the sound pressure level difference is smaller than +6 dB (including 0 dB), the sound pressure level is not compensated. However, even when the absolute value of the sound pressure level difference is smaller than +6 dB, when the sound pressure level adjustment value 93 is being gradually reduced, as in the timings G and H shown in FIG. The sound pressure level is compensated using the sound pressure level adjustment value 93 that is being reduced.

また、図7では、音圧レベル調整値93の上限値を+12dBとしている。つまり、+12dBを超える音圧レベル差を検出しても、実際に用いる音圧レベル調整値は+12dBに抑えている。このように、音圧レベル調整値に上限値を設けたのは、音圧レベル補償部14において、ノイズ低減処理後の信号25が過度な増幅率で増幅されることを抑制するためである。なお、上記で説明した音圧レベル差の閾値および音圧レベル調整値93の上限値は一例であり、これらの値は任意に設定することができる。   In FIG. 7, the upper limit value of the sound pressure level adjustment value 93 is +12 dB. That is, even if a sound pressure level difference exceeding +12 dB is detected, the actually used sound pressure level adjustment value is suppressed to +12 dB. Thus, the reason why the sound pressure level adjustment value is provided with the upper limit value is to prevent the signal 25 after noise reduction processing from being amplified at an excessive gain in the sound pressure level compensation unit 14. The sound pressure level difference threshold value and the upper limit value of the sound pressure level adjustment value 93 described above are examples, and these values can be set arbitrarily.

次に、図7に示す動作について具体的に説明する。音声区間と判定されたタイミングAでは、音圧補償レベル基準値(音圧レベル差)が閾値である+6dBよりも小さいため、音圧レベルの補償は実施されない。   Next, the operation shown in FIG. 7 will be specifically described. At the timing A determined as the voice section, the sound pressure level compensation is not performed because the sound pressure compensation level reference value (sound pressure level difference) is smaller than the threshold value +6 dB.

音声区間と判定されたタイミングBでは、音圧補償レベル基準値が閾値である+6dB以上であるため、音圧レベル補償部14において音圧レベルが補償される。このとき、音圧レベル調整値93が0dBから音圧補償レベル基準値と同一の値となるように調整される。タイミングBは音声区間であるため、ノイズ低減処理後の信号25は多くの音声成分を含む信号である。よって、音圧レベル調整値93を比較的急峻に立ち上げても、音質的な違和感を与えることは少ない。また、ノイズ低減処理後の信号25に含まれるノイズ成分は少ないため、音圧レベル調整値93を急峻に立ち上げても、ノイズ成分に起因する不連続感等の違和感を与える可能性は低い。   Since the sound pressure compensation level reference value is equal to or greater than the threshold value of +6 dB at the timing B determined as the voice section, the sound pressure level compensation unit 14 compensates the sound pressure level. At this time, the sound pressure level adjustment value 93 is adjusted from 0 dB to the same value as the sound pressure compensation level reference value. Since the timing B is an audio section, the signal 25 after the noise reduction processing is a signal including many audio components. Therefore, even if the sound pressure level adjustment value 93 is raised relatively steeply, the sound quality is unlikely to be uncomfortable. In addition, since the noise component included in the signal 25 after the noise reduction processing is small, even if the sound pressure level adjustment value 93 is sharply raised, there is a low possibility of giving a sense of discomfort such as discontinuity due to the noise component.

また、タイミングBでは、音圧レベル調整値93を音圧補償レベル基準値と同一の値へと調整した後、一定期間、調整後の音圧レベル調整値93を保持し、その後、徐々に音圧レベル調整値93を低減させている。このように、徐々に音圧レベル調整値93を低減させることで、出力信号27の音圧レベルの変動を滑らかにすることができる。よって、ノイズ成分の変動による違和感の軽減とノイズ低減処理の効果の両立を図ることができる。   At timing B, after adjusting the sound pressure level adjustment value 93 to the same value as the sound pressure compensation level reference value, the adjusted sound pressure level adjustment value 93 is held for a certain period, and then gradually The pressure level adjustment value 93 is reduced. Thus, by gradually reducing the sound pressure level adjustment value 93, the fluctuation of the sound pressure level of the output signal 27 can be smoothed. Therefore, it is possible to achieve both the reduction of the uncomfortable feeling due to the fluctuation of the noise component and the effect of the noise reduction processing.

音声区間と判定されたタイミングC、D、Eでは、音圧補償レベル基準値(音圧レベル差)が閾値である+6dB以上であるため、音圧レベル補償部14において音圧レベルが補償される。この場合も、音圧レベル調整値93が各々の音圧補償レベル基準値と同一の値となるように調整される。また、タイミングC、D、Eでは、音圧レベル調整値93を各々の音圧補償レベル基準値と同一の値へと調整した後、一定期間、調整後の音圧レベル調整値93を保持し、その後、徐々に音圧レベル調整値93を低減させている。   At the timings C, D, and E determined as the voice section, the sound pressure level is compensated in the sound pressure level compensator 14 because the sound pressure compensation level reference value (sound pressure level difference) is equal to or greater than the threshold value +6 dB. . Also in this case, the sound pressure level adjustment value 93 is adjusted to be the same value as each sound pressure compensation level reference value. At timings C, D, and E, after adjusting the sound pressure level adjustment value 93 to the same value as each sound pressure compensation level reference value, the adjusted sound pressure level adjustment value 93 is held for a certain period. Thereafter, the sound pressure level adjustment value 93 is gradually reduced.

音声区間と判定されたタイミングFでは、音圧補償レベル基準値(音圧レベル差)が閾値である+6dB以上であり、更に音圧レベル調整値93の上限値である+12dBを超えている。この場合は、音圧レベル調整値93が上限値である+12dBに抑えられる。ノイズ低減処理部12を用いても所望のノイズ低減効果が得られない状況下では、適応フィルタ51で生成される疑似ノイズ信号55の影響により、ノイズ低減処理後の信号25に含まれる音声信号の音圧レベルが不安定となる可能性が高い。よって、音圧レベル調整値93に上限値を設けることで、ノイズ低減処理後の信号25が音圧レベル補償部14において過度な増幅率で増幅されることを抑制することができる。   At timing F determined to be a voice section, the sound pressure compensation level reference value (sound pressure level difference) is equal to or greater than the threshold value +6 dB, and further exceeds the upper limit value +12 dB of the sound pressure level adjustment value 93. In this case, the sound pressure level adjustment value 93 is suppressed to +12 dB which is the upper limit value. Under a situation where a desired noise reduction effect cannot be obtained even if the noise reduction processing unit 12 is used, due to the influence of the pseudo noise signal 55 generated by the adaptive filter 51, the audio signal included in the signal 25 after the noise reduction processing is The sound pressure level is likely to be unstable. Therefore, by providing an upper limit value for the sound pressure level adjustment value 93, it is possible to suppress the signal 25 after noise reduction processing from being amplified at an excessive amplification factor in the sound pressure level compensation unit 14.

また、タイミングFでは、音圧レベル調整値93を+12dBへと調整した後、一定期間、調整後の音圧レベル調整値93を保持し、その後、徐々に音圧レベル調整値93を低減させている。   At timing F, after adjusting the sound pressure level adjustment value 93 to +12 dB, the adjusted sound pressure level adjustment value 93 is held for a certain period, and then the sound pressure level adjustment value 93 is gradually reduced. Yes.

音声区間と判定されたタイミングGでは、音圧補償レベル基準値(音圧レベル差)は閾値である+6dBよりも小さい。タイミングGは、音圧レベル調整値93を徐々に低減させている途中であるので、音圧レベル調整値93が音圧補償レベル基準値を超えている。このとき、音圧レベル調整値93を音圧補償レベル基準値と同一とすると、必要以上に音圧レベル調整値93を下げることになり、音圧レベルの変動が急激となる。よって、この場合、音圧レベル補償部14は、低減途中の音圧レベル調整値93を用いて音圧レベルを補償する。   At timing G determined to be a speech section, the sound pressure compensation level reference value (sound pressure level difference) is smaller than the threshold value +6 dB. Since the timing G is in the middle of gradually reducing the sound pressure level adjustment value 93, the sound pressure level adjustment value 93 exceeds the sound pressure compensation level reference value. At this time, if the sound pressure level adjustment value 93 is the same as the sound pressure compensation level reference value, the sound pressure level adjustment value 93 is lowered more than necessary, and the sound pressure level fluctuates rapidly. Therefore, in this case, the sound pressure level compensation unit 14 compensates the sound pressure level using the sound pressure level adjustment value 93 that is being reduced.

音声区間と判定されたタイミングHでは、音圧補償レベル基準値(音圧レベル差)は閾値である+6dBよりも小さい。しかし、タイミングHは、音圧レベル調整値93を徐々に低減させている途中であるので、低減中の音圧レベル調整値93を用いて音圧レベルを補償する。   At timing H determined as a voice section, the sound pressure compensation level reference value (sound pressure level difference) is smaller than the threshold value +6 dB. However, since the timing H is in the process of gradually reducing the sound pressure level adjustment value 93, the sound pressure level is compensated using the sound pressure level adjustment value 93 that is being reduced.

音声区間と判定されたタイミングI、J、Kでは、音圧補償レベル基準値(音圧レベル差)は閾値である+6dBよりも小さい。また、音圧レベル調整値93も0dBとなっているので、音圧レベル補償部14は、音圧レベルの補償を実施しない。   At the timings I, J, and K determined as the voice section, the sound pressure compensation level reference value (sound pressure level difference) is smaller than the threshold value +6 dB. Since the sound pressure level adjustment value 93 is also 0 dB, the sound pressure level compensation unit 14 does not perform sound pressure level compensation.

高確率で音声と判定される音声区間は、文節において強い母音などの音声を検出できる区間であることが望ましい。このような音声区間では、他の部分よりもノイズの影響を受けにくく、音圧レベル差を取得するにはよい時間帯であるといえる。また、図7に示した音圧レベル補償処理は、文節全体にわたる数秒から数十秒間の変化の軌跡である。このとき、音声区間(強い音声部分)では本来の音圧レベルに引き上げられ、他の部分では増幅率を徐々に低減させる緩和処理により音圧レベルの急激な変動を抑えることができる。よって、音圧レベル補償部14において音圧レベル補償処理が施された後の出力信号27は、良好な音声信号となる。   The speech section that is determined to be speech with high probability is preferably a section in which speech such as strong vowels can be detected in the phrase. In such a voice section, it is less susceptible to noise than other parts, and it can be said that it is a good time zone for acquiring a sound pressure level difference. Further, the sound pressure level compensation process shown in FIG. 7 is a trajectory of change from several seconds to several tens of seconds over the whole phrase. At this time, in the voice section (strong voice part), it is raised to the original sound pressure level, and in other parts, sudden fluctuations in the sound pressure level can be suppressed by relaxation processing that gradually reduces the amplification factor. Therefore, the output signal 27 after the sound pressure level compensation processing is performed in the sound pressure level compensation unit 14 is a good sound signal.

背景技術で説明したように、ノイズ低減処理技術では、例えば、音声を主に収音するマイクロフォンによって収音された音声信号から、ノイズを主に収音するマイクロフォンによって収音されたノイズ信号(参照信号)を差し引くことで、音声信号に含まれるノイズ成分を除去している。   As described in the background art, in the noise reduction processing technique, for example, a noise signal collected by a microphone that mainly collects noise from a voice signal collected by a microphone that mainly collects sound (see The noise component contained in the audio signal is removed by subtracting (signal).

しかしながら、主として音声成分を含む音声信号と主としてノイズ成分を含む参照信号とを用いてノイズ低減処理を実施する場合、ノイズ低減装置の使用状況によっては、参照信号に音声成分も混入する場合があった。このように、参照信号に音声成分が混入すると、ノイズ低減処理を実施した際に音声信号に含まれる音声成分もキャンセルされてしまい、ノイズ低減処理後の信号の音圧レベルが低下するという問題があった。   However, when noise reduction processing is performed using an audio signal mainly including an audio component and a reference signal mainly including a noise component, the audio component may be mixed into the reference signal depending on the use state of the noise reduction apparatus. . As described above, when the sound component is mixed in the reference signal, the sound component included in the sound signal is canceled when the noise reduction process is performed, and the sound pressure level of the signal after the noise reduction process is lowered. there were.

すなわち、例えば、作業用機械の動作音などのかなり大きな騒音が発生している工場内や雑踏や交差点などで用いられることが多い、トランシーバーのような携帯型の無線通信装置(図10参照)では、マイクロフォンに混入するノイズ成分の低減が必要となる。携帯電話と違い、本体側のスピーカーから送信される音声を耳元から離した状態で聞くといった使われ方をする無線通信装置は、一般的に身体から離れた状態で所持する。また、無線通信装置の持ち方にも様々なスタイルがある。   That is, for example, in a portable wireless communication device such as a transceiver (see FIG. 10), which is often used in a factory where a loud noise such as an operation sound of a work machine is generated, or in a crowded place or an intersection. Therefore, it is necessary to reduce noise components mixed in the microphone. Unlike a mobile phone, a wireless communication device that is used to listen to sound transmitted from a speaker on the main body side away from the ear is generally carried away from the body. There are also various styles of ways to carry wireless communication devices.

更に、無線通信装置本体から収音部と再生部を分離し携帯性を高めたスピーカーマイクロフォン装置(図9に示す音声入力装置を参照)は、利便性のある使用形態を提供可能である。例えば、音声入力装置を首からぶら下げたり肩に置いたりなど、話者がマイクロフォンに向かうこと意識することなく会話を行うような使用形態や、音声入力装置の表側よりむしろ音声入力装置の背面に近い方向からしゃべるような使用形態もある。このような場合は、音声の到来方向は理想的な到来方向(例えば、音声用マイクロフォンの正面方向)とはならない。   Furthermore, a speaker microphone device (see the voice input device shown in FIG. 9) in which the sound collection unit and the reproduction unit are separated from the wireless communication device main body to improve portability can provide a convenient usage pattern. For example, it is close to the back of the voice input device rather than the front side of the voice input device, such as hanging the voice input device from the neck or placing it on the shoulder, etc. There is also a usage form that speaks from the direction. In such a case, the voice arrival direction is not an ideal arrival direction (for example, the front direction of the voice microphone).

したがって、トランシーバー(音声入力装置や無線通信装置)のような装置に対して適応フィルタを用いたノイズ低減処理を実施する場合は、参照信号にも音声成分が含まれることを前提としなければならず、音声信号の音圧レベルの低下を抑制する技術が必要となる。   Therefore, when noise reduction processing using an adaptive filter is performed on a device such as a transceiver (speech input device or wireless communication device), it must be assumed that the reference signal also includes a voice component. Therefore, a technique for suppressing a decrease in the sound pressure level of the audio signal is required.

前述の特許文献1には、適応フィルタにおけるフィルタ係数を観察し、音声成分が打ち消される状態を検出することで、音声の明瞭性を維持する方法が開示されている。この方法によれば、主として音声を収音する音声用マイクロフォンと、音声の到来方向に対し感度が低い主としてノイズを収音する参照音用マイクロフォンを配置している。そして、適応フィルタにて処理をする際に、音声の到来方向に近い成分をノイズキャンセル信号として生成する状況になった場合、適応フィルタ係数全体にかかる利得因子を調整して適応フィルタ処理に制限をかけることで、音声成分の音圧レベルの低下を防止している。   Patent Document 1 described above discloses a method of maintaining speech clarity by observing filter coefficients in an adaptive filter and detecting a state in which speech components are canceled. According to this method, an audio microphone that mainly collects sound and a reference sound microphone that mainly collects noise that is low in sensitivity to the direction of arrival of the sound are arranged. Then, when processing with the adaptive filter, when a situation close to the voice arrival direction is generated as a noise cancellation signal, the gain factor applied to the entire adaptive filter coefficient is adjusted to limit the adaptive filter processing. As a result, a decrease in the sound pressure level of the sound component is prevented.

しかしながら、特許文献1にかかる技術では、音声用マイクロフォン側に音源が存在することを前提としている。また、参照音用マイクロフォンに指向性を持たせているため、参照音用マイクロフォンに音声成分が混入する可能性があるトランシーバーで使用することは困難である。   However, in the technique according to Patent Document 1, it is assumed that a sound source exists on the voice microphone side. In addition, since directivity is given to the reference sound microphone, it is difficult to use the reference sound microphone in a transceiver in which an audio component may be mixed.

また、前述の特許文献2にかかる技術では、誤差信号の音圧レベルまたは入力信号の音圧レベルを調整することで音声信号の音圧レベルの低下を防止している。しかしながら、音声の音圧レベルを維持するために雑音信号である誤差信号の音圧レベルを制御するか、又は雑音信号が混入した入力信号(遅延信号を含む)の音圧レベルを制御するかの何れかを実施するため、音声信号の音圧レベルを維持する一方、ノイズ低減効果が得られないという問題がある。   In the technique according to Patent Document 2 described above, the sound pressure level of the audio signal is prevented from being lowered by adjusting the sound pressure level of the error signal or the sound pressure level of the input signal. However, whether to control the sound pressure level of the error signal, which is a noise signal, in order to maintain the sound pressure level of the sound, or to control the sound pressure level of the input signal (including the delay signal) mixed with the noise signal Since either one is performed, the sound pressure level of the audio signal is maintained, but a noise reduction effect cannot be obtained.

更に、特許文献2に開示されている適応フィルタを用いたノイズ低減処理では、自らの信号を用いてフィルタリング処理によるノイズキャンセル処理を実施している。このため、混入する音声信号の影響を強く受け、音声信号区間中のノイズ成分を減ずることができない。また、システムの構成上、適応フィルタ出力信号に誤差信号を加算してシステム出力信号としている。しかし、音声信号区間中の適応フィルタ出力信号若しくは入力信号と誤差信号をそのまま加算してもノイズ低減効果は得られず、音圧レベル制御を付加したからといって音声の明瞭度は向上しない。   Furthermore, in the noise reduction processing using the adaptive filter disclosed in Patent Document 2, noise cancellation processing by filtering processing is performed using its own signal. For this reason, it is strongly influenced by the mixed audio signal, and the noise component in the audio signal section cannot be reduced. Further, due to the system configuration, an error signal is added to the adaptive filter output signal to obtain a system output signal. However, even if the adaptive filter output signal or the input signal and the error signal in the speech signal section are added as they are, the noise reduction effect cannot be obtained, and the addition of the sound pressure level control does not improve the clarity of the speech.

このように、特許文献1や特許文献2に開示されている技術を用いたとしても、音声の音圧レベルを十分に維持することができないという問題があった。   Thus, even if the techniques disclosed in Patent Document 1 and Patent Document 2 are used, there is a problem that the sound pressure level of the sound cannot be maintained sufficiently.

そこで本実施の形態にかかるノイズ低減装置では、高い確率で音声と判定されている音声区間において、収音信号21に対するノイズ低減処理後の信号25の音圧レベルの変化量(音圧レベル差)を音圧レベル変化量算出部13で算出し、音圧レベル補償部14において、音圧レベル変化量算出部13で算出された変化量(音圧レベル差)に応じてノイズ低減処理後の信号25の音圧レベルを補償している。   Therefore, in the noise reduction device according to the present embodiment, the amount of change (sound pressure level difference) in the sound pressure level of the signal 25 after the noise reduction processing with respect to the sound collection signal 21 in the speech section determined as speech with high probability. Is calculated by the sound pressure level change amount calculation unit 13, and the signal after noise reduction processing is performed in the sound pressure level compensation unit 14 according to the change amount (sound pressure level difference) calculated by the sound pressure level change amount calculation unit 13. 25 sound pressure levels are compensated.

よって、本実施の形態にかかるノイズ低減装置では、ノイズ低減処理後の信号25の音圧レベルが低下した場合に、音圧レベル変化量算出部13で算出された変化量(音圧レベル差)に対応した増幅率でノイズ低減処理後の信号25を増幅することができるので、出力信号27の音圧レベルの低下を抑制することができる。   Therefore, in the noise reduction device according to the present embodiment, when the sound pressure level of the signal 25 after the noise reduction process is reduced, the amount of change (sound pressure level difference) calculated by the sound pressure level change amount calculation unit 13. Since the signal 25 after the noise reduction processing can be amplified with an amplification factor corresponding to the above, a decrease in the sound pressure level of the output signal 27 can be suppressed.

また、本実施の形態にかかるノイズ低減装置では、音圧レベルの変動を滑らかにする緩和処理を実施してもよい。つまり、音圧レベル補償部14は、音圧レベル差に対応した増幅率でノイズ低減処理後の信号25を増幅した後、この増幅率を徐々に低減させる緩和処理を実施してもよい。このような処理を実施することで、音圧レベル変化量算出部13から出力された音圧レベル差が時間方向において階段状に変化した場合であっても、出力信号27が大きく変動することを抑制することができる。これにより、ノイズ成分の急激な変動を抑制することができ、聴感上の違和感を抑制することができる。よって、様々な環境下においても十分なノイズ低減効果を発揮しつつ、音声の明瞭度を向上させることができるノイズ低減装置を提供することができる。   Moreover, in the noise reduction apparatus according to the present embodiment, a relaxation process for smoothing the fluctuation of the sound pressure level may be performed. That is, the sound pressure level compensation unit 14 may amplify the signal 25 after the noise reduction process with an amplification factor corresponding to the difference in sound pressure level, and then perform a relaxation process for gradually reducing the amplification factor. By carrying out such processing, the output signal 27 is greatly fluctuated even when the sound pressure level difference output from the sound pressure level change amount calculation unit 13 changes stepwise in the time direction. Can be suppressed. Thereby, rapid fluctuations in the noise component can be suppressed, and a sense of incongruity in hearing can be suppressed. Therefore, it is possible to provide a noise reduction device that can improve the intelligibility of voice while exhibiting a sufficient noise reduction effect under various environments.

次に、本実施の形態にかかるノイズ低減装置を用いた音声入力装置について説明する。図9は、本実施の形態にかかるノイズ低減装置を用いた音声入力装置500の一例を示す図である。図9(a)は、音声入力装置500の前面図であり、図9(b)は、音声入力装置500の背面図である。図9に示すように、音声入力装置500はコネクタ503を介して無線通信装置510に接続可能に構成されている。無線通信装置510は一般的な無線機であり、所定の周波数において他の無線通信装置と通信可能に構成されている。無線通信装置510には音声入力装置500を介して話者の音声が入力される。   Next, a voice input device using the noise reduction device according to the present embodiment will be described. FIG. 9 is a diagram illustrating an example of a voice input device 500 using the noise reduction device according to the present embodiment. FIG. 9A is a front view of the voice input device 500, and FIG. 9B is a rear view of the voice input device 500. As shown in FIG. 9, the voice input device 500 is configured to be connectable to the wireless communication device 510 via a connector 503. The wireless communication device 510 is a general wireless device, and is configured to be able to communicate with other wireless communication devices at a predetermined frequency. The voice of the speaker is input to the wireless communication device 510 via the voice input device 500.

音声入力装置500は、本体501、コード502、及びコネクタ503を有する。本体501は、話者の手で把持されるのに適するサイズ及び形状に構成されており、マイクロフォン、スピーカー、電子回路、ノイズ低減装置を内蔵する。図9(a)に示すように、本体501の前面にはスピーカー506および音声用マイクロフォン505が設けられている。図9(b)に示すように、本体501の背面には参照音用マイクロフォン508およびベルトクリップ507が設けられている。本体501の頂面には、LED509が設けられている。本体501の側面にはPTT(Push To Talk)504が設けられている。LED509は、音声入力装置500による話者の音声の検出状態を話者に対して報知する。PTT504は、無線通信装置510を音声送信状態とするためのスイッチであり、突起状部分が筐体内に押し込まれることを検出する。   The voice input device 500 includes a main body 501, a code 502, and a connector 503. The main body 501 is configured to have a size and shape suitable for being held by a speaker's hand, and includes a microphone, a speaker, an electronic circuit, and a noise reduction device. As shown in FIG. 9A, a speaker 506 and an audio microphone 505 are provided on the front surface of the main body 501. As shown in FIG. 9B, a reference sound microphone 508 and a belt clip 507 are provided on the back surface of the main body 501. An LED 509 is provided on the top surface of the main body 501. A PTT (Push To Talk) 504 is provided on a side surface of the main body 501. The LED 509 notifies the speaker of the detection state of the speaker's voice by the voice input device 500. The PTT 504 is a switch for setting the wireless communication device 510 in a voice transmission state, and detects that the protruding portion is pushed into the housing.

本実施の形態にかかるノイズ低減装置1'(図8参照)は音声入力装置500に内蔵されており、ノイズ低減装置1'が備える音声用マイクロフォン16が音声入力装置500の音声用マイクロフォン505に対応し、ノイズ低減装置1'が備える参照音用マイクロフォン17が音声入力装置500の参照音用マイクロフォン508に対応している。また、ノイズ低減装置1'から出力される出力信号27は、音声入力装置500のコード502を経由して無線通信装置510に供給される。すなわち、音声入力装置500は、ノイズ低減装置1'でノイズ低減処理された後の出力信号27を、無線通信装置510に供給する。よって、無線通信装置510から他の無線通信装置に送信される音声はノイズ低減処理された音声となる。なお、図8のような実施形態において、無線通信装置510にノイズ低減装置1を内蔵するような構成にしてもよい。   The noise reduction device 1 ′ (see FIG. 8) according to the present embodiment is built in the voice input device 500, and the voice microphone 16 included in the noise reduction device 1 ′ corresponds to the voice microphone 505 of the voice input device 500. The reference sound microphone 17 included in the noise reduction device 1 ′ corresponds to the reference sound microphone 508 of the sound input device 500. Further, the output signal 27 output from the noise reduction device 1 ′ is supplied to the wireless communication device 510 via the code 502 of the voice input device 500. That is, the voice input device 500 supplies the output signal 27 after the noise reduction processing by the noise reduction device 1 ′ to the wireless communication device 510. Therefore, the sound transmitted from the wireless communication apparatus 510 to another wireless communication apparatus is a sound subjected to noise reduction processing. In the embodiment as shown in FIG. 8, the noise reduction device 1 may be built in the wireless communication device 510.

次に、本実施の形態にかかるノイズ低減装置を用いた無線通信装置(トランシーバー)600について説明する。図10は、本実施の形態にかかるノイズ低減装置を用いた無線通信装置600の一例を示す図である。図10(a)は、無線通信装置600の前面図であり、図10(b)は、無線通信装置600の背面図である。図10に示すように、無線通信装置600は、入力ボタン601、表示部602、スピーカー603、音声用マイクロフォン604、PTT(Push To Talk)605、スイッチ606、アンテナ607、参照音用マイクロフォン608、および蓋609を備える。   Next, a radio communication apparatus (transceiver) 600 using the noise reduction apparatus according to this embodiment will be described. FIG. 10 is a diagram illustrating an example of a wireless communication device 600 using the noise reduction device according to the present embodiment. FIG. 10A is a front view of the wireless communication apparatus 600, and FIG. 10B is a rear view of the wireless communication apparatus 600. As shown in FIG. 10, the wireless communication apparatus 600 includes an input button 601, a display unit 602, a speaker 603, an audio microphone 604, a PTT (Push To Talk) 605, a switch 606, an antenna 607, a reference sound microphone 608, and A lid 609 is provided.

本実施の形態にかかるノイズ低減装置1'(図8参照)は無線通信装置600に内蔵されており、ノイズ低減装置1'が備える音声用マイクロフォン16が無線通信装置600の音声用マイクロフォン604に対応し、ノイズ低減装置1'が備える参照音用マイクロフォン17が無線通信装置600の参照音用マイクロフォン608に対応している。また、ノイズ低減装置1'から出力される出力信号27は、無線通信装置600の内部回路において高周波処理されて、アンテナ607から他の無線通信装置に無線送信される。ここで、ノイズ低減装置1'から出力される出力信号27はノイズ低減処理が実施された信号であるので、他の無線通信装置に送信される音声はノイズ低減処理された音声となる。ユーザによるPTT605の押下により音の送信が開始されたときに、ノイズ低減処理を開始し、ユーザがPTT608の押下を中止して、音の送信が終了したときに、ノイズ低減処理を終了しても良い。   The noise reduction device 1 ′ (see FIG. 8) according to the present embodiment is built in the wireless communication device 600, and the voice microphone 16 included in the noise reduction device 1 ′ corresponds to the voice microphone 604 of the wireless communication device 600. The reference sound microphone 17 included in the noise reduction device 1 ′ corresponds to the reference sound microphone 608 of the wireless communication device 600. Further, the output signal 27 output from the noise reduction device 1 ′ is subjected to high frequency processing in an internal circuit of the wireless communication device 600, and wirelessly transmitted from the antenna 607 to another wireless communication device. Here, since the output signal 27 output from the noise reduction device 1 ′ is a signal on which noise reduction processing has been performed, the sound transmitted to the other wireless communication device is the sound on which noise reduction processing has been performed. Even if sound transmission is started by the user pressing the PTT 605, the noise reduction process is started. When the user stops pressing the PTT 608 and the sound transmission is ended, the noise reduction process is ended. good.

以上、本発明を上記実施形態に即して説明したが、上記実施形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。例えば、音声用マイクロフォン11と参照音用マイクロフォン12とを機器上部(又は下部)のほぼ同じ位置に設けて、指向性が異なるようにこれらのマイクロフォンを配置してもよい。例えば、音声用マイクロフォン11と参照音用マイクロフォン12の指向性が180°異なるように配置することが好ましい。   Although the present invention has been described with reference to the above embodiment, the present invention is not limited to the configuration of the above embodiment, and can be made by those skilled in the art within the scope of the invention of the claims of the claims of the present application. It goes without saying that various modifications, corrections, and combinations are included. For example, the sound microphone 11 and the reference sound microphone 12 may be provided at substantially the same position in the upper part (or lower part) of the device, and these microphones may be arranged so as to have different directivities. For example, it is preferable to arrange the sound microphone 11 and the reference sound microphone 12 so that the directivities thereof are different by 180 °.

1 ノイズ低減装置
11 音声区間判定部
12 ノイズ低減処理部
13 音圧レベル変化量算出部
14 音圧レベル補償部
16 音声用マイクロフォン
17 参照音用マイクロフォン
21 収音信号(音声信号)
22 収音信号(参照信号)
23、24 音声区間情報
25 ノイズ低減処理後の信号
26 音圧レベル変化量(音圧レベル差)
27 出力信号
DESCRIPTION OF SYMBOLS 1 Noise reduction apparatus 11 Voice area determination part 12 Noise reduction process part 13 Sound pressure level variation | change_quantity calculation part 14 Sound pressure level compensation part 16 Microphone for sound 17 Microphone for reference sound 21 Sound collection signal (voice signal)
22 Collected sound signal (reference signal)
23, 24 Voice section information 25 Signal 26 after noise reduction processing Sound pressure level change (sound pressure level difference)
27 Output signal

Claims (15)

第1の収音信号に基づき音声区間を判定する音声区間判定部と、
第2の収音信号を用いて前記第1の収音信号に含まれるノイズ成分を低減するノイズ低減処理部と、
前記音声区間において、前記第1の収音信号と前記ノイズ低減処理部から出力されたノイズ低減処理後の信号とを用いて、前記第1の収音信号に対する前記ノイズ低減処理後の信号の音圧レベルの変化量を算出する音圧レベル変化量算出部と、
前記音圧レベル変化量算出部で算出された変化量に応じて前記ノイズ低減処理後の信号の音圧レベルを補償する音圧レベル補償部と、を備える、
ノイズ低減装置。
A speech segment determination unit that determines a speech segment based on the first collected sound signal;
A noise reduction processing unit that reduces a noise component included in the first sound collection signal using a second sound collection signal;
In the speech section, the sound of the signal after the noise reduction processing with respect to the first sound collection signal is performed using the first sound collection signal and the signal after noise reduction processing output from the noise reduction processing unit. A sound pressure level change amount calculating unit for calculating a change amount of the pressure level;
A sound pressure level compensation unit that compensates a sound pressure level of the signal after the noise reduction processing according to a change amount calculated by the sound pressure level change amount calculation unit,
Noise reduction device.
前記音圧レベル補償部は、前記第1の収音信号の音圧レベルと前記ノイズ低減処理後の信号の音圧レベルとの差である音圧レベル差の絶対値が所定の閾値以上となった場合に、前記ノイズ低減処理後の信号の音圧レベルを補償する、請求項1に記載のノイズ低減装置。   The sound pressure level compensation unit has an absolute value of a sound pressure level difference, which is a difference between a sound pressure level of the first collected sound signal and a sound pressure level of the signal after the noise reduction processing, equal to or greater than a predetermined threshold. 2. The noise reduction device according to claim 1, wherein a sound pressure level of the signal after the noise reduction processing is compensated when the noise reduction processing is performed. 前記音圧レベル補償部は、前記音圧レベル差に対応した増幅率で前記ノイズ低減処理後の信号を増幅する、請求項2に記載のノイズ低減装置。   The noise reduction device according to claim 2, wherein the sound pressure level compensation unit amplifies the signal after the noise reduction processing at an amplification factor corresponding to the sound pressure level difference. 前記音圧レベル補償部は、前記音圧レベル差に対応した増幅率で前記ノイズ低減処理後の信号を増幅した後、前記増幅率を徐々に低減させる、請求項3に記載のノイズ低減装置。   The noise reduction device according to claim 3, wherein the sound pressure level compensation unit amplifies the signal after the noise reduction processing with an amplification factor corresponding to the sound pressure level difference, and then gradually reduces the amplification factor. 前記音圧レベル補償部は、前記音圧レベル差が所定の上限値を超えた場合、当該上限値に対応した増幅率で前記ノイズ低減処理後の信号を増幅する、請求項2乃至4のいずれか一項に記載のノイズ低減装置。   The sound pressure level compensation unit amplifies the signal after the noise reduction processing at an amplification factor corresponding to the upper limit value when the sound pressure level difference exceeds a predetermined upper limit value. The noise reduction device according to claim 1. 前記音声区間判定部は、前記第1の収音信号に音声成分が含まれる確率が所定の値以上となった場合に音声区間であると判定する、請求項1乃至5のいずれか一項に記載のノイズ低減装置。   6. The voice section determination unit according to claim 1, wherein the voice section determination unit determines that the voice section is a voice section when a probability that a voice component is included in the first sound collection signal is equal to or higher than a predetermined value. The noise reduction device described. 前記音声区間判定部は、前記第1の収音信号に含まれる音声成分の母音周波数成分のピークと帯域毎に設定されたノイズレベルとの比が所定の値以上であり、且つ、当該所定の値以上のピークの数が所定数以上である場合に音声区間であると判定する、請求項1乃至5のいずれか一項に記載のノイズ低減装置。   The voice section determination unit has a ratio between a peak of a vowel frequency component of a voice component included in the first sound pickup signal and a noise level set for each band being equal to or greater than a predetermined value, and The noise reduction device according to any one of claims 1 to 5, wherein a noise section is determined when the number of peaks equal to or greater than a value is equal to or greater than a predetermined number. 前記音声区間判定部は、前記第1の収音信号に含まれる音声成分の子音スペクトルパターンを所定の周波数帯域毎に測定し、前記周波数帯域の増加に従い前記子音スペクトルパターンが増加する場合に音声区間であると判定する、請求項1乃至5のいずれか一項に記載のノイズ低減装置。   The speech section determination unit measures a consonant spectrum pattern of a speech component included in the first collected sound signal for each predetermined frequency band, and a speech section when the consonant spectrum pattern increases as the frequency band increases The noise reduction device according to claim 1, wherein the noise reduction device is determined to be. 前記ノイズ低減処理部は、前記第1の収音信号に含まれているノイズ成分に対応した疑似ノイズ信号を前記第2の収音信号を用いて生成する適応フィルタを備える、請求項1乃至8のいずれか一項に記載のノイズ低減装置。   The said noise reduction process part is provided with the adaptive filter which produces | generates the pseudo noise signal corresponding to the noise component contained in the said 1st sound collection signal using the said 2nd sound collection signal. The noise reduction apparatus as described in any one of. 請求項1乃至9のいずれか一項に記載のノイズ低減装置を備えた音声入力装置。   A voice input device comprising the noise reduction device according to claim 1. 第1のマイクロフォンは前記音声入力装置の第1の面に設けられ、
第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられている、請求項10に記載の音声入力装置。
A first microphone is provided on a first surface of the voice input device;
The voice input device according to claim 10, wherein the second microphone is provided on a second surface facing the first surface with a predetermined distance.
請求項1乃至9のいずれか一項に記載のノイズ低減装置を備えた無線通信装置。   A wireless communication device comprising the noise reduction device according to claim 1. 第1のマイクロフォンは前記無線通信装置の第1の面に設けられ、
第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられている、請求項12に記載の無線通信装置。
A first microphone is provided on a first surface of the wireless communication device;
The wireless communication device according to claim 12, wherein the second microphone is provided on a second surface facing the first surface with a predetermined distance.
第1の収音信号に基づき音声区間を判定し、
第2の収音信号を用いて前記第1の収音信号に含まれるノイズ成分を低減し、
前記音声区間において、前記第1の収音信号とノイズ低減処理後の信号とを用いて、前記第1の収音信号に対する前記ノイズ低減処理後の信号の音圧レベルの変化量を算出し、
前記算出された変化量に応じて前記ノイズ低減処理後の信号の音圧レベルを補償する、
ノイズ低減方法。
Determining a voice interval based on the first sound pickup signal;
Reducing a noise component included in the first sound collection signal using the second sound collection signal;
In the voice section, using the first collected sound signal and the signal after the noise reduction process, the amount of change in the sound pressure level of the signal after the noise reduction process with respect to the first collected sound signal is calculated,
Compensating a sound pressure level of the signal after the noise reduction processing according to the calculated change amount,
Noise reduction method.
コンピュータに、
第1の収音信号に基づき音声区間を判定させ、
第2の収音信号を用いて前記第1の収音信号に含まれるノイズ成分を低減させ、
前記音声区間において、前記第1の収音信号とノイズ低減処理後の信号とを用いて、前記第1の収音信号に対する前記ノイズ低減処理後の信号の音圧レベルの変化量を算出させ、
前記算出された変化量に応じて前記ノイズ低減処理後の信号の音圧レベルを補償させる、
ノイズ低減プログラム。
On the computer,
The voice section is determined based on the first sound collection signal,
Reducing a noise component included in the first sound collection signal using the second sound collection signal;
In the voice section, using the first collected sound signal and the signal after the noise reduction process, the amount of change in the sound pressure level of the signal after the noise reduction process with respect to the first collected sound signal is calculated,
Compensating the sound pressure level of the signal after the noise reduction processing according to the calculated change amount,
Noise reduction program.
JP2012031710A 2012-02-16 2012-02-16 Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program Active JP5903921B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012031710A JP5903921B2 (en) 2012-02-16 2012-02-16 Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012031710A JP5903921B2 (en) 2012-02-16 2012-02-16 Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program

Publications (2)

Publication Number Publication Date
JP2013168856A true JP2013168856A (en) 2013-08-29
JP5903921B2 JP5903921B2 (en) 2016-04-13

Family

ID=49178936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012031710A Active JP5903921B2 (en) 2012-02-16 2012-02-16 Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program

Country Status (1)

Country Link
JP (1) JP5903921B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170988A (en) * 2014-03-07 2015-09-28 株式会社Jvcケンウッド noise reduction device
JP2015169788A (en) * 2014-03-07 2015-09-28 株式会社Jvcケンウッド noise reduction device
JPWO2017042875A1 (en) * 2015-09-08 2018-07-19 パイオニア株式会社 Electronic auscultation apparatus, control method, computer program, and recording medium
CN111092668A (en) * 2019-12-18 2020-05-01 公安部第三研究所 Method and system for testing ambient noise suppression characteristics of talkback terminal
CN112151050A (en) * 2020-08-26 2020-12-29 宁波方太厨具有限公司 Sound quality adjusting method for electric appliance noise and range hood
CN113362838A (en) * 2020-03-05 2021-09-07 纬创资通股份有限公司 Signal processing system, signal noise reduction judging method and signal compensation method thereof
JP2021183201A (en) * 2020-02-27 2021-12-02 パイオニア株式会社 Electronic auscultation device, control method, computer program and recording medium

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05134678A (en) * 1991-11-13 1993-05-28 Matsushita Electric Ind Co Ltd Adaptive type noise suppressing device
WO2004034734A1 (en) * 2002-10-08 2004-04-22 Nec Corporation Array device and portable terminal
JP2004214784A (en) * 2002-12-27 2004-07-29 Matsushita Electric Ind Co Ltd Noise suppression apparatus
JP2005195955A (en) * 2004-01-08 2005-07-21 Toshiba Corp Device and method for noise suppression
JP2007093635A (en) * 2005-09-26 2007-04-12 Doshisha Known noise removing device
JP2009130391A (en) * 2007-11-19 2009-06-11 Funai Electric Advanced Applied Technology Research Institute Inc Voice input device, its manufacturing method and information processing system
JP2010166516A (en) * 2009-01-19 2010-07-29 Sanyo Electric Co Ltd Acoustic processing device, electronic apparatus with the same and acoustic processing method
JP2010187363A (en) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd Acoustic signal processing apparatus and reproducing device
JP2010271411A (en) * 2009-05-19 2010-12-02 Nara Institute Of Science & Technology Noise suppression apparatus and program
JP2011139378A (en) * 2009-12-28 2011-07-14 Fujitsu Ltd Signal processing apparatus, microphone array device, signal processing method, and signal processing program

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05134678A (en) * 1991-11-13 1993-05-28 Matsushita Electric Ind Co Ltd Adaptive type noise suppressing device
WO2004034734A1 (en) * 2002-10-08 2004-04-22 Nec Corporation Array device and portable terminal
JP2004214784A (en) * 2002-12-27 2004-07-29 Matsushita Electric Ind Co Ltd Noise suppression apparatus
JP2005195955A (en) * 2004-01-08 2005-07-21 Toshiba Corp Device and method for noise suppression
JP2007093635A (en) * 2005-09-26 2007-04-12 Doshisha Known noise removing device
JP2009130391A (en) * 2007-11-19 2009-06-11 Funai Electric Advanced Applied Technology Research Institute Inc Voice input device, its manufacturing method and information processing system
JP2010187363A (en) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd Acoustic signal processing apparatus and reproducing device
JP2010166516A (en) * 2009-01-19 2010-07-29 Sanyo Electric Co Ltd Acoustic processing device, electronic apparatus with the same and acoustic processing method
JP2010271411A (en) * 2009-05-19 2010-12-02 Nara Institute Of Science & Technology Noise suppression apparatus and program
JP2011139378A (en) * 2009-12-28 2011-07-14 Fujitsu Ltd Signal processing apparatus, microphone array device, signal processing method, and signal processing program

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170988A (en) * 2014-03-07 2015-09-28 株式会社Jvcケンウッド noise reduction device
JP2015169788A (en) * 2014-03-07 2015-09-28 株式会社Jvcケンウッド noise reduction device
JPWO2017042875A1 (en) * 2015-09-08 2018-07-19 パイオニア株式会社 Electronic auscultation apparatus, control method, computer program, and recording medium
CN111092668A (en) * 2019-12-18 2020-05-01 公安部第三研究所 Method and system for testing ambient noise suppression characteristics of talkback terminal
CN111092668B (en) * 2019-12-18 2022-07-15 公安部第三研究所 Method and system for testing ambient noise suppression characteristics of talkback terminal
JP2021183201A (en) * 2020-02-27 2021-12-02 パイオニア株式会社 Electronic auscultation device, control method, computer program and recording medium
JP7357031B2 (en) 2020-02-27 2023-10-12 エア・ウォーター・バイオデザイン株式会社 Electronic auscultation device and control method
CN113362838A (en) * 2020-03-05 2021-09-07 纬创资通股份有限公司 Signal processing system, signal noise reduction judging method and signal compensation method thereof
CN113362838B (en) * 2020-03-05 2023-10-24 纬创资通股份有限公司 Signal processing system, signal noise reduction judging method and signal compensation method thereof
CN112151050A (en) * 2020-08-26 2020-12-29 宁波方太厨具有限公司 Sound quality adjusting method for electric appliance noise and range hood

Also Published As

Publication number Publication date
JP5903921B2 (en) 2016-04-13

Similar Documents

Publication Publication Date Title
JP5862349B2 (en) Noise reduction device, voice input device, wireless communication device, and noise reduction method
US11109163B2 (en) Hearing aid comprising a beam former filtering unit comprising a smoothing unit
JP5903921B2 (en) Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program
KR101260131B1 (en) Audio source proximity estimation using sensor array for noise reduction
US8606571B1 (en) Spatial selectivity noise reduction tradeoff for multi-microphone systems
US10657981B1 (en) Acoustic echo cancellation with loudspeaker canceling beamformer
EP2765787B1 (en) A method of reducing un-correlated noise in an audio processing device
CN106507258B (en) Hearing device and operation method thereof
US20060206320A1 (en) Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
EP2265039B1 (en) Hearing aid
CN107454537B (en) Hearing device comprising a filter bank and an onset detector
CN108235211B (en) Hearing device comprising a dynamic compression amplification system and method for operating the same
EP3669780B1 (en) Methods, devices and system for a compensated hearing test
EP4047955A1 (en) A hearing aid comprising a feedback control system
JP6179081B2 (en) Noise reduction device, voice input device, wireless communication device, and noise reduction method
JP5845954B2 (en) Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program
JP5958218B2 (en) Noise reduction device, voice input device, wireless communication device, and noise reduction method
US11483646B1 (en) Beamforming using filter coefficients corresponding to virtual microphones
JP5772648B2 (en) Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program
EP4040806A2 (en) A hearing device comprising a noise reduction system
EP3764360A1 (en) Signal processing methods and systems for beam forming with improved signal to noise ratio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150421

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160229

R150 Certificate of patent or registration of utility model

Ref document number: 5903921

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150