JP2010217551A - Sound processing device and program - Google Patents

Sound processing device and program Download PDF

Info

Publication number
JP2010217551A
JP2010217551A JP2009064757A JP2009064757A JP2010217551A JP 2010217551 A JP2010217551 A JP 2010217551A JP 2009064757 A JP2009064757 A JP 2009064757A JP 2009064757 A JP2009064757 A JP 2009064757A JP 2010217551 A JP2010217551 A JP 2010217551A
Authority
JP
Japan
Prior art keywords
sound
target
spectrum
frequency
target sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009064757A
Other languages
Japanese (ja)
Other versions
JP5316127B2 (en
Inventor
Kenichi Yamauchi
健一 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009064757A priority Critical patent/JP5316127B2/en
Publication of JP2010217551A publication Critical patent/JP2010217551A/en
Application granted granted Critical
Publication of JP5316127B2 publication Critical patent/JP5316127B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To create natural sound in which objective sound is easily listened to, from mixed sound of the objective sound and non-objective sound. <P>SOLUTION: A sound source separation section 30 creates an objective sound spectrum QA1 in which the objective sound is composed of components of an objective sound frequency FA where the objective sound is dominant, and the non-objective sound spectrum QB2 coming from a direction different from the objective sound, in which the non-objective sound is composed of components of a non-objective sound frequency FB where the non-objective sound is dominant, from a plurality of sound signals (S1, S2). A variation sound suppressing section 60 suppresses the non-objective sound in the non-objective sound spectrum QB2 after separation by the sound source separation section 30. A combining section 54 combines the objective spectrum QA2 after separation by the sound source separation section 30, and the non-objective sound spectrum QB3 after processing by the variation sound suppressing section 60. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、所定の方向から到来する音響(以下「目的音」という)と目的音以外の音響(以下「非目的音」という)とを分離する技術に関する。   The present invention relates to a technique for separating sound coming from a predetermined direction (hereinafter referred to as “target sound”) and sound other than the target sound (hereinafter referred to as “non-target sound”).

複数の収音機器が生成した複数の音信号における複数の周波数(周波数帯域)の各々を、目的音が優勢な目的音周波数と非目的音が優勢な非目的音周波数とに選別する技術が従来から提案されている。例えば非特許文献1には、複数の音信号のうち目的音の音源に近い収音機器が生成した音信号の強度が高い周波数を目的音周波数に選別する技術(SAFIA)が開示されている。また、特許文献1には、目的音を強調した目的音優勢信号と目的音を抑制した目的音劣勢信号とを複数の音信号の遅延および加算(すなわちビームの形成)で生成し、目的音優勢信号の強度が目的音劣勢信号の強度を上回る周波数を目的音周波数に選別する技術が開示されている。非特許文献1や特許文献1の技術によれば、各目的音周波数の成分で構成される目的音スペクトルと各非目的音周波数の成分で構成される非目的音スペクトルとの生成(すなわち音源分離)が可能である。   Conventionally, a technology for selecting each of a plurality of frequencies (frequency bands) in a plurality of sound signals generated by a plurality of sound collecting devices into a target sound frequency in which the target sound is dominant and a non-target sound frequency in which the non-target sound is dominant. Proposed by For example, Non-Patent Document 1 discloses a technique (SAFIA) for selecting a frequency having a high intensity of a sound signal generated by a sound collecting device close to a target sound source among a plurality of sound signals as a target sound frequency. Further, in Patent Document 1, a target sound dominance signal in which a target sound is emphasized and a target sound inferior signal in which the target sound is suppressed are generated by delaying and adding a plurality of sound signals (that is, beam formation), and the target sound dominance is generated. A technique is disclosed in which a frequency whose signal intensity exceeds the intensity of the target sound inferior signal is selected as the target sound frequency. According to the techniques of Non-Patent Document 1 and Patent Document 1, generation of a target sound spectrum composed of components of each target sound frequency and a non-target sound spectrum composed of components of each non-target sound frequency (that is, sound source separation) Is possible.

Mariko Aoki, et al., "Sound source segregation based on estimating incident angle of each frequency component of input signals acquired by multiple microphones", Acoustical Science and Technology, Vol.22, No.2 p.149-p.157, 2001Mariko Aoki, et al., "Sound source segregation based on controlling incident angle of each frequency component of input signals acquired by multiple microphones", Acoustical Science and Technology, Vol.22, No.2 p.149-p.157, 2001

特開2006−197552号公報JP 2006-197552 A

目的音スペクトルにおける非目的音周波数での強度はゼロであるから、目的音スペクトルのみから生成される再生音は聴感上で不自然な印象の音響となる。以上の問題を解決するために、例えば、非目的音スペクトルの各周波数(非目的音周波数)の成分を抑圧したうえで目的音スペクトルに合成する方法が考えられる。しかし、非目的音スペクトルを過度に抑圧した場合には、周波数軸上および時間軸上での強度の変化が過大となり、耳障りなミュージカルノイズが発生する可能性がある。一方、非目的音スペクトルの抑圧が不足すると、非目的音が相当の強度(音量)を維持したまま再生されるから、目的音の聴取が困難となる。   Since the intensity at the non-target sound frequency in the target sound spectrum is zero, the reproduced sound generated only from the target sound spectrum has an unnatural impression sound. In order to solve the above problems, for example, a method of constraining each frequency component (non-target sound frequency) of the non-target sound spectrum and then synthesizing it to the target sound spectrum can be considered. However, when the non-target sound spectrum is excessively suppressed, the intensity change on the frequency axis and the time axis becomes excessive, and an unpleasant musical noise may occur. On the other hand, if the suppression of the non-target sound spectrum is insufficient, the non-target sound is reproduced while maintaining a considerable intensity (volume), so that it is difficult to listen to the target sound.

なお、非特許文献1や特許文献1の技術のもとでは、所定の方向からの到来音であるか否かという基準で目的音と非目的音とが区別される。したがって、空調設備の動作音や人込み内での雑踏音などの時間的に定常的な雑音(以下「非目的定常音」という)が存在し、かつ、音響的な特性(例えば音量や音高)が刻々と変化する音声や楽音などの音響(以下「非目的変動音」という)が目的音とは別方向から到来する環境では、非目的定常音および非目的変動音の双方が区別なく非目的音として抽出される。非目的変動音は非目的定常音と比較して音響的な特性が目的音(音声や楽音)に類似する可能性が高いから、非目的音に非目的変動音が含まれる場合には、非目的音スペクトルの抑圧の不足に起因して目的音の聴取(目的音と非目的変動音との区別)が困難になるという問題が格別に深刻となる。以上の事情を考慮して、本発明は、目的音の聴取が容易で自然な音響を目的音と非目的音(非目的変動音)との混合音から生成することを目的とする。   Note that, under the techniques of Non-Patent Document 1 and Patent Document 1, the target sound and the non-target sound are distinguished on the basis of whether or not the sound is an incoming sound from a predetermined direction. Therefore, there is noise that is stationary in time (hereinafter referred to as “non-target steady sound”), such as operating noise of air conditioning equipment and crowded noise in crowds, and acoustic characteristics (for example, volume and pitch) ) Is changing every moment, in an environment where sounds such as sounds and musical sounds (hereinafter referred to as “non-target fluctuation sounds”) arrive from a different direction from the target sound, both non-target stationary sounds and non-target fluctuation sounds are not distinguished. Extracted as the target sound. Since non-target fluctuation sounds are more likely to have similar acoustic characteristics to target sounds (speech and musical sounds) compared to non-target stationary sounds, The problem that listening to the target sound (distinguishing between the target sound and the non-target fluctuation sound) becomes difficult due to insufficient suppression of the target sound spectrum becomes particularly serious. In view of the above circumstances, an object of the present invention is to generate a natural sound from which a target sound can be easily heard from a mixed sound of a target sound and a non-target sound (non-target fluctuation sound).

以上の課題を解決するために、本発明に係る音処理装置は、複数の収音機器が生成した複数の音信号から、目的音が優勢な目的音周波数の成分で構成される目的音スペクトルと、目的音とは別方向から到来する非目的音が優勢な非目的音周波数の成分で構成される非目的音スペクトルとを生成する音源分離手段と、音源分離手段による分離後の非目的音スペクトル(例えば図1の非目的音スペクトルQB1や非目的音スペクトルQB2)のうちの非目的変動音(典型的には妨害音声)を抑圧する変動音抑圧手段と、音源分離手段による分離後の目的音スペクトル(例えば図1の目的音スペクトルQA1や目的音スペクトルQA2)と変動音抑圧手段による処理後の非目的音スペクトル(例えば図1の非目的音スペクトルQB3)とを合成する合成手段とを具備する。以上の構成においては、非目的変動音の抑圧後の非目的音スペクトルが目的音スペクトルに合成されるから、非目的変動音を抑圧しない構成と比較して目的音の聴取が容易であり、かつ、目的音スペクトルのみから音響が生成される構成と比較して聴感上で自然な音響を、目的音と非目的音(非目的変動音)との混合音から生成することが可能である。   In order to solve the above problems, a sound processing apparatus according to the present invention includes a target sound spectrum including a target sound frequency component in which a target sound is dominant from a plurality of sound signals generated by a plurality of sound collecting devices. A sound source separation means for generating a non-target sound spectrum composed of components of a non-target sound frequency in which the non-target sound coming from a different direction from the target sound is generated, and the non-target sound spectrum after being separated by the sound source separation means Fluctuation sound suppression means for suppressing non-target fluctuation sound (typically disturbing sound) in the non-target sound spectrum QB1 and non-target sound spectrum QB2 in FIG. 1, for example, and target sound after separation by the sound source separation means Synthesis means for synthesizing a spectrum (for example, target sound spectrum QA1 or target sound spectrum QA2 in FIG. 1) and a non-target sound spectrum (for example, non-target sound spectrum QB3 in FIG. 1) processed by the fluctuation sound suppression means Be prepared. In the above configuration, since the non-target sound spectrum after suppression of the non-target fluctuation sound is synthesized with the target sound spectrum, it is easier to listen to the target sound as compared with the configuration in which the non-target fluctuation sound is not suppressed, and Compared to a configuration in which sound is generated only from the target sound spectrum, it is possible to generate sound that is natural in terms of hearing from a mixed sound of the target sound and the non-target sound (non-target fluctuation sound).

なお、合成手段による合成の対象となるのは「記音源分離手段による分離後の目的音スペクトル」であるから、音源分離手段による分離から合成手段による合成までの過程で目的音スペクトルに実行される処理の有無や内容は不問である。同様に、変動音抑圧手段による処理から合成手段による合成までの過程で非目的音スペクトルに実行される処理の有無や内容は不問である。また、本発明における「周波数」は、周波数軸上の1点の周波数に加えて、周波数軸上で拡がりを持った周波数帯域を含む概念である。   Since the target of synthesis by the synthesizing means is the “target sound spectrum after separation by the sound source separation means”, the target sound spectrum is executed in the process from separation by the sound source separation means to synthesis by the synthesis means. The presence / absence and contents of processing are unquestioned. Similarly, the presence / absence and contents of the process executed on the non-target sound spectrum in the process from the process by the fluctuating sound suppression means to the synthesis by the synthesis means are not questioned. In addition, the “frequency” in the present invention is a concept including a frequency band having a spread on the frequency axis in addition to a single frequency on the frequency axis.

本発明の好適な態様に係る音処理装置は、音源分離手段による分離後の非目的音スペクトルを抑圧係数(各周波数に共通の係数)に応じて抑圧する強度調整手段を具備する。以上の態様においては、強度調整手段による抑圧に起因してミュージカルノイズが発生しないように抑圧係数を設定した場合(強度調整手段による抑圧を緩和した場合)であっても、変動音抑圧手段が非目的変動音を抑圧することで、目的音の聴取が容易な音響を生成することが可能である。なお、強度調整手段による処理と変動音抑圧手段による処理との先後は本発明において不問である。   The sound processing apparatus according to a preferred aspect of the present invention includes intensity adjustment means for suppressing the non-target sound spectrum after separation by the sound source separation means in accordance with a suppression coefficient (a coefficient common to each frequency). In the above aspect, even when the suppression coefficient is set so that musical noise does not occur due to suppression by the intensity adjustment unit (when suppression by the intensity adjustment unit is relaxed), the fluctuation sound suppression unit is not By suppressing the target fluctuation sound, it is possible to generate sound that allows easy listening of the target sound. Note that there is no problem in the present invention between the processing by the intensity adjusting means and the processing by the fluctuation sound suppressing means.

本発明の好適な態様において、変動音抑圧手段は、周波数毎に設定されたゲインで構成される抑圧ゲイン系列を生成するゲイン設定手段と、音源分離手段による分離後の非目的音スペクトルの各周波数における強度を抑圧ゲイン系列の各ゲインに応じて調整することで非目的変動音を抑圧する抑圧処理手段とを含む。以上の態様においては、周波数毎に設定されたゲインに応じて非目的音スペクトルの各周波数における強度が調整されるから、例えば非目的音スペクトルのうち非目的変動音に対応する1個の帯域のみを抑圧する構成と比較すると、非目的変動音を周波数毎に精緻に抑圧できるという利点がある。   In a preferred aspect of the present invention, the fluctuating sound suppression means includes a gain setting means for generating a suppression gain sequence composed of gains set for each frequency, and each frequency of the non-target sound spectrum after separation by the sound source separation means. And a suppression processing unit that suppresses the non-target fluctuation sound by adjusting the intensity according to each gain of the suppression gain series. In the above aspect, since the intensity at each frequency of the non-target sound spectrum is adjusted according to the gain set for each frequency, for example, only one band corresponding to the non-target fluctuation sound in the non-target sound spectrum is included. Compared with a configuration that suppresses noise, there is an advantage that non-target fluctuation sound can be precisely suppressed for each frequency.

本発明の好適な態様において、ゲイン設定手段は、音源分離手段による分離後の非目的音スペクトルのうち非目的変動音が強調されるように周波数毎に設定されたゲインで構成される強調ゲイン系列を生成する第1処理手段と、抑圧ゲイン系列を強調ゲイン系列から生成する第2処理手段とを含む。以上の態様においては、非目的変動音と非目的定常音との混合音から非目的変動音(典型的には音声)を強調する公知の技術を強調ゲイン系列(スペクトルゲイン)の生成に適用できるという利点がある。   In a preferred aspect of the present invention, the gain setting means includes an emphasis gain sequence configured with a gain set for each frequency so that the non-target fluctuation sound is emphasized in the non-target sound spectrum after separation by the sound source separation means. And a second processing means for generating a suppression gain sequence from the enhancement gain sequence. In the above aspect, a known technique for emphasizing a non-objective fluctuation sound (typically speech) from a mixed sound of a non-objective fluctuation sound and a non-objective steady sound can be applied to generation of an emphasis gain sequence (spectral gain). There is an advantage.

さらに好適な態様において、第2処理手段は、強調ゲイン系列と可変に設定された調整値とに応じて抑圧ゲイン系列を生成する。例えば、強調ゲイン系列の各周波数におけるゲインと可変に設定された調整値との乗算値を所定値から減算することで、第2処理手段が抑圧ゲイン系列の当該周波数におけるゲインを算定する構成(例えば数式(6a))や、所定値と強調ゲイン系列の各周波数におけるゲインとの差分値に可変の調整値を乗算することで、第2処理手段が抑圧ゲイン系列の当該周波数におけるゲインを算定する構成(例えば数式(6b))が好適である。以上の態様によれば、調整値が可変に設定されるから、非目的変動音の抑圧の度合を適宜に調整することが可能である。例えば、非目的音の状態(例えば強度やSN比)に応じて第2処理部が調整値を可変に制御する構成によれば、非目的音の抑圧の不足や過剰を防止することが可能である。   In a further preferred aspect, the second processing means generates a suppression gain sequence according to the enhancement gain sequence and the variably set adjustment value. For example, a configuration in which the second processing unit calculates a gain at the frequency of the suppression gain sequence by subtracting a multiplication value of the gain at each frequency of the enhancement gain sequence and the adjustment value set variably from a predetermined value (for example, Formula (6a)) or a configuration in which the second processing means calculates the gain at the frequency of the suppression gain sequence by multiplying the difference value between the predetermined value and the gain at each frequency of the enhancement gain sequence by a variable adjustment value. (For example, Formula (6b)) is preferable. According to the above aspect, since the adjustment value is variably set, it is possible to appropriately adjust the degree of suppression of the non-target fluctuation sound. For example, according to the configuration in which the second processing unit variably controls the adjustment value according to the state of the non-target sound (for example, intensity or SN ratio), it is possible to prevent insufficient or excessive suppression of the non-target sound. is there.

本発明の好適な態様に係る音処理装置は、音源分離手段による分離後の非目的音スペクトルのうちの非目的定常音で構成される雑音スペクトルを生成する雑音推定手段と、音源分離手段による分離後の目的音スペクトルから雑音スペクトルの非目的定常音を抑圧する雑音抑圧手段とを具備し、ゲイン設定手段は、音源分離手段による分離後の非目的音スペクトルと雑音推定手段が推定した雑音スペクトルとから抑圧ゲイン系列を生成し、合成手段は、雑音抑圧手段による処理後の目的音スペクトルと変動音抑圧手段による処理後の非目的音スペクトルとを合成する。以上の態様においては、雑音抑圧手段が目的音スペクトルから非目的定常音を抑圧するとともに、目的音と合成される非目的音スペクトルの非目的変動音が抑圧されるから、非目的定常音と非目的変動音とを効果的に抑圧した音響を生成できるという利点がある。また、非目的定常音で構成される雑音スペクトル(すなわち非目的変動音が抑制された雑音スペクトル)が抑圧ゲイン系列の生成に利用されるから、非目的変動音を高精度に抑圧できる抑圧ゲイン系列の生成が可能である。さらに、雑音抑圧手段による非目的定常音の抑圧とゲイン設定手段による抑圧ゲイン系列の生成とに共通の雑音スペクトルが利用されるから、非目的定常音の抑圧と抑圧ゲイン系列の生成とで別個の雑音スペクトルを使用する構成と比較すると、音処理装置の構成や処理が簡素化されるという利点もある。   A sound processing apparatus according to a preferred aspect of the present invention includes a noise estimation unit that generates a noise spectrum composed of non-target stationary sounds among non-target sound spectra after separation by a sound source separation unit, and separation by a sound source separation unit. Noise suppression means for suppressing the non-target stationary sound of the noise spectrum from the subsequent target sound spectrum, and the gain setting means includes the non-target sound spectrum after separation by the sound source separation means and the noise spectrum estimated by the noise estimation means. Then, a suppression gain sequence is generated, and the synthesis unit synthesizes the target sound spectrum after processing by the noise suppression unit and the non-target sound spectrum after processing by the fluctuation sound suppression unit. In the above aspect, the noise suppression means suppresses the non-target stationary sound from the target sound spectrum and suppresses the non-target fluctuation sound of the non-target sound spectrum synthesized with the target sound. There is an advantage that it is possible to generate a sound that effectively suppresses the target fluctuation sound. In addition, since a noise spectrum composed of non-target steady sounds (that is, a noise spectrum in which non-target fluctuation sounds are suppressed) is used to generate a suppression gain series, a suppression gain series that can suppress non-target fluctuation sounds with high accuracy. Can be generated. Furthermore, since a common noise spectrum is used for suppression of non-target stationary sound by the noise suppression means and generation of suppression gain sequences by the gain setting means, separate suppression of non-target stationary sounds and generation of suppression gain sequences are required. Compared with a configuration using a noise spectrum, there is also an advantage that the configuration and processing of the sound processing device are simplified.

さらに好適な態様において、雑音推定手段は、第1単位区間における一の非目的音周波数の成分の強度(例えば図4の強度XB1(n,k))が、第1単位区間の開始前の第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度(例えば図4の強度μ(n-1,k))を超える閾値を(例えば図4の閾値XTH)下回る場合、第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度(例えば図4の強度μ(n,k))を、第1単位区間における一の非目的音周波数の成分の強度と、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度とに応じて設定し、第1単位区間における一の非目的音周波数の成分の強度が閾値を上回る場合、第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度を、第1単位区間における一の非目的音周波数の成分の強度を反映させずに、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度に応じて設定する。以上の構成においては、第1単位区間における一の非目的音周波数の成分の強度が閾値を上回る場合(例えば一の非目的音周波数に非目的変動音が発生した場合)に、第1単位区間における当該非目的音周波数の成分の強度を反映させずに雑音スペクトルの強度が設定されるから、非目的定常音のみを高精度に抽出した(すなわち非目的変動音を有効に抑制した)雑音スペクトルを生成することが可能である。   In a further preferred aspect, the noise estimation means is configured such that the intensity of one non-target sound frequency component in the first unit interval (for example, the intensity XB1 (n, k) in FIG. 4) is equal to the first unit interval before the start of the first unit interval. When the noise spectrum of two unit intervals is below a threshold value (for example, threshold value XTH in FIG. 4) exceeding the intensity at one non-target sound frequency (for example, intensity μ (n−1, k) in FIG. 4), the first unit interval The intensity at one non-target sound frequency in the noise spectrum (for example, the intensity μ (n, k) in FIG. 4) is calculated from the intensity of one non-target sound frequency component in the first unit section and the second unit section. If the intensity of one non-target sound frequency component in the first unit section exceeds a threshold value, the one in the noise spectrum of the first unit section is set. The intensity at the non-target sound frequency is Without reflecting the intensity of the component of the non-target sound frequency, it is set according to the intensity at one non-target sound frequency in the noise spectrum of the second unit section. In the above configuration, when the intensity of one non-target sound frequency component in the first unit section exceeds a threshold (for example, when a non-target fluctuation sound is generated at one non-target sound frequency), the first unit section Since the intensity of the noise spectrum is set without reflecting the intensity of the component of the non-target sound frequency in, only the non-target stationary sound is extracted with high accuracy (that is, the non-target fluctuation sound is effectively suppressed). Can be generated.

第1単位区間の雑音スペクトルの強度は、第1単位区間の開始前(例えば直前)の1個の単位区間(第2単位区間)の雑音スペクトルの強度、または、第1単位区間の開始前の複数の単位区間(第2単位区間)の各々の雑音スペクトルの強度に応じて設定される。本発明の好適な態様における雑音推定手段は、第1単位区間における一の非目的音周波数の成分の強度が閾値を下回る場合に、第1単位区間の一の非目的音周波数の成分の強度と、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度との加重和(例えば数式(2))を、第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度として設定する。以上の態様においては、第1単位区間の非目的音周波数の強度と第2単位区間の雑音スペクトルの強度との加重和が第1単位区間の雑音スペクトルの強度として算定されるから、第1単位区間からみて過去の複数の単位区間にわたって雑音スペクトルを保持する必要がないという利点がある。   The intensity of the noise spectrum of the first unit section is the intensity of the noise spectrum of one unit section (second unit section) before the start of the first unit section (for example, immediately before), or before the start of the first unit section. It is set according to the intensity of each noise spectrum of a plurality of unit intervals (second unit intervals). According to a preferred aspect of the present invention, when the intensity of one non-target sound frequency component in the first unit section is below a threshold, the noise estimation means The weighted sum (for example, Equation (2)) with the intensity at one non-target sound frequency in the noise spectrum of the second unit section is set as the intensity at one non-target sound frequency in the noise spectrum of the first unit section. To do. In the above aspect, since the weighted sum of the intensity of the non-target sound frequency in the first unit interval and the intensity of the noise spectrum in the second unit interval is calculated as the intensity of the noise spectrum in the first unit interval, There is an advantage that it is not necessary to hold the noise spectrum over a plurality of past unit intervals when viewed from the interval.

本発明の好適な態様において、雑音推定手段は、第1単位区間における一の非目的音周波数の成分の強度が閾値を上回る場合、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度を、記第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度として設定する(例えば数式(3))。以上の態様においては、第2単位区間の雑音スペクトルの強度が第1単位区間の雑音スペクトルの強度として適用されるから、第1単位区間の雑音スペクトルの強度を特定する処理が簡素化されるという利点がある。   In a preferred aspect of the present invention, when the intensity of the component of one non-target sound frequency in the first unit section exceeds the threshold, the noise estimation unit is configured to detect the noise at one non-target sound frequency in the noise spectrum of the second unit section. The intensity is set as the intensity at one non-target sound frequency in the noise spectrum of the first unit section (for example, Equation (3)). In the above aspect, since the intensity of the noise spectrum of the second unit interval is applied as the intensity of the noise spectrum of the first unit interval, the process of specifying the intensity of the noise spectrum of the first unit interval is simplified. There are advantages.

本発明の好適な態様において、雑音推定手段は、第1単位区間における一の非目的音周波数の成分の強度が閾値を上回る場合、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度を上回る数値を、記第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度として設定する(例えば数式(3a))。以上の態様においては、第2単位区間の雑音スペクトルの強度を上回る数値が第1単位区間の雑音スペクトルの強度として適用されるから、音処理装置の動作中に新たに発生した非目的定常音を適切に雑音スペクトルに含ませることが可能である。   In a preferred aspect of the present invention, when the intensity of the component of one non-target sound frequency in the first unit section exceeds the threshold, the noise estimation unit is configured to detect the noise at one non-target sound frequency in the noise spectrum of the second unit section. A numerical value exceeding the intensity is set as the intensity at one non-target sound frequency in the noise spectrum of the first unit interval (for example, Equation (3a)). In the above aspect, since a numerical value exceeding the noise spectrum intensity of the second unit section is applied as the noise spectrum intensity of the first unit section, the non-target steady sound newly generated during the operation of the sound processing apparatus is detected. It can be appropriately included in the noise spectrum.

以上の各態様に係る音処理装置は、音処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数の収音機器が生成した複数の音信号から、目的音が優勢な目的音周波数の成分で構成される目的音スペクトルと、目的音とは別方向から到来する非目的音が優勢な非目的音周波数の成分で構成される非目的音スペクトルとを生成する音源分離処理と、音源分離処理後の非目的音スペクトルのうちの非目的変動音を抑圧する変動音抑圧処理と、音源分離処理後の目的音スペクトルと変動音抑圧処理後の非目的音スペクトルとを合成する合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る信号処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。   The sound processing apparatus according to each aspect described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to sound processing, and a general-purpose arithmetic processing apparatus such as a CPU (Central Processing Unit). This is also realized through collaboration with programs. The program according to the present invention includes a target sound spectrum composed of a component of a target sound frequency in which a target sound is dominant and a target sound coming from a different direction from a plurality of sound signals generated by a plurality of sound collecting devices. A sound source separation process that generates a non-target sound spectrum composed of components of a non-target sound frequency in which the target sound is dominant, and a variable sound suppression that suppresses non-target fluctuation sound in the non-target sound spectrum after the sound source separation process The computer is caused to execute a process and a synthesis process for synthesizing the target sound spectrum after the sound source separation process and the non-target sound spectrum after the fluctuation sound suppression process. According to the above program, the same operation and effect as the signal processing apparatus according to the present invention are exhibited. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.

本発明の第1実施形態に係る音処理装置のブロック図である。1 is a block diagram of a sound processing apparatus according to a first embodiment of the present invention. 音源分離部のブロック図である。It is a block diagram of a sound source separation part. 信号処理部による処理を説明するためのグラフである。It is a graph for demonstrating the process by a signal processing part. 雑音推定部の動作のフローチャートである。It is a flowchart of operation | movement of a noise estimation part. 第1実施形態における雑音スペクトルのスペクトログラムである。It is a spectrogram of the noise spectrum in a 1st embodiment. 対比例における雑音スペクトルのスペクトログラムである。It is the spectrogram of the noise spectrum in contrast. 変動音抑圧部のブロック図である。It is a block diagram of a fluctuation sound suppression part.

<A:第1実施形態>
図1は、本発明の第1実施形態に係る音処理装置のブロック図である。図1に示すように、音処理装置100には収音機器M1と収音機器M2とが接続される。収音機器M1および収音機器M2は、周囲の音響の波形を表す信号を生成する無指向性(略無指向性)のマイクロホンである。目的音と非目的音との混合音が周囲から収音機器M1および収音機器M2に到達する。収音機器M1および収音機器M2の各々は、目的音と非目的音との混合音の波形を表す電気信号を生成する。収音機器M1は音信号S1を生成し、収音機器M2は音信号S2を生成する。
<A: First Embodiment>
FIG. 1 is a block diagram of a sound processing apparatus according to the first embodiment of the present invention. As shown in FIG. 1, a sound collection device M1 and a sound collection device M2 are connected to the sound processing apparatus 100. The sound collection device M1 and the sound collection device M2 are omnidirectional (substantially omnidirectional) microphones that generate a signal representing a surrounding acoustic waveform. The mixed sound of the target sound and the non-target sound reaches the sound collecting device M1 and the sound collecting device M2 from the surroundings. Each of the sound collecting device M1 and the sound collecting device M2 generates an electrical signal representing a waveform of a mixed sound of the target sound and the non-target sound. The sound collecting device M1 generates a sound signal S1, and the sound collecting device M2 generates a sound signal S2.

目的音は、既知の方向D0から収音機器M1および収音機器M2に到来する音響である。例えば利用者の発話音が入力される電子機器(例えば携帯電話機)に音処理装置100が搭載される場合、電子機器の本体に対して正面の方向D0から発話音が目的音として到来する。収音機器M1と収音機器M2とは、目的音が到来する方向D0に垂直な方向に沿って相互に離間して配置される。一方、非目的音は、目的音の方向D0とは別方向(DR,DL)から到来する音響である。方向D0に対して時計回りに45°の方向DRや方向D0に対して反時計回りに45°の方向DLから収音機器M1および収音機器M2に非目的音が到来する。   The target sound is sound that arrives at the sound collecting device M1 and the sound collecting device M2 from the known direction D0. For example, when the sound processing apparatus 100 is mounted on an electronic device (for example, a mobile phone) to which a user's speech sound is input, the speech sound arrives as a target sound from the front direction D0 with respect to the main body of the electronic device. The sound collection device M1 and the sound collection device M2 are arranged apart from each other along a direction perpendicular to the direction D0 in which the target sound arrives. On the other hand, the non-target sound is sound coming from a direction (DR, DL) different from the direction D0 of the target sound. The non-target sound arrives at the sound collecting device M1 and the sound collecting device M2 from the direction DR of 45 ° clockwise with respect to the direction D0 and the direction DL of 45 ° counterclockwise with respect to the direction D0.

音処理装置100は、目的音と非目的音との混合音のうちの非目的音を抑制した音信号SOUTを音信号S1および音信号S2から生成する。音信号SOUTは、放音機器(例えばスピーカやヘッドホン)に供給されることで音響として再生される。なお、音信号S1および音信号S2をデジタル信号に変換するA/D変換器や、音信号SOUTをアナログ信号に変換するD/A変換器の図示は便宜的に省略されている。   The sound processing apparatus 100 generates a sound signal SOUT that suppresses the non-target sound of the mixed sound of the target sound and the non-target sound from the sound signal S1 and the sound signal S2. The sound signal SOUT is reproduced as sound by being supplied to a sound emitting device (for example, a speaker or headphones). Note that an A / D converter that converts the sound signal S1 and the sound signal S2 into a digital signal and a D / A converter that converts the sound signal SOUT into an analog signal are omitted for convenience.

図1に示すように、音処理装置100は、演算処理装置12と記憶装置14とを含むコンピュータシステムで実現される。記憶装置14は、音信号S1および音信号S2から音信号SOUTを生成するためのプログラムや各種のデータを記憶する。磁気記録媒体や半導体記録媒体などの公知の記録媒体が記憶装置14として任意に採用される。演算処理装置12は、記憶装置14に格納されたプログラムを実行することで複数の要素(周波数分析部20,音源分離部30,雑音推定部42,雑音抑圧部44,強度調整部52,合成部54,逆変換部56,変動音抑圧部60)として機能する。なお、音処理に専用される電子回路(DSP)が演算処理装置12の各要素を実現する構成や、演算処理装置12の各要素を複数の集積回路に分散的に搭載した構成も採用される。   As shown in FIG. 1, the sound processing device 100 is realized by a computer system including an arithmetic processing device 12 and a storage device 14. The storage device 14 stores a program and various data for generating the sound signal SOUT from the sound signal S1 and the sound signal S2. A known recording medium such as a magnetic recording medium or a semiconductor recording medium is arbitrarily employed as the storage device 14. The arithmetic processing unit 12 executes a program stored in the storage device 14 to execute a plurality of elements (frequency analysis unit 20, sound source separation unit 30, noise estimation unit 42, noise suppression unit 44, intensity adjustment unit 52, synthesis unit). 54, an inverse conversion unit 56, and a fluctuating sound suppression unit 60). A configuration in which an electronic circuit (DSP) dedicated to sound processing realizes each element of the arithmetic processing device 12 and a configuration in which each element of the arithmetic processing device 12 is mounted in a plurality of integrated circuits are also adopted. .

周波数分析部20は、音信号S1を時間軸上で区分した複数の単位区間(フレーム)の各々について周波数スペクトルP1を算定する。周波数スペクトルP1の特定には、FFT(Fast Fourier Transform)処理などの公知の周波数分析が任意に採用される。また、周波数分析部20は、周波数スペクトルP1の特定と同様の方法で、音信号S2の各単位区間について周波数スペクトルP2を特定する。   The frequency analysis unit 20 calculates a frequency spectrum P1 for each of a plurality of unit sections (frames) obtained by dividing the sound signal S1 on the time axis. For specifying the frequency spectrum P1, known frequency analysis such as FFT (Fast Fourier Transform) processing is arbitrarily employed. Further, the frequency analysis unit 20 specifies the frequency spectrum P2 for each unit section of the sound signal S2 by the same method as the specification of the frequency spectrum P1.

図1の音源分離部30は、周波数軸上に離散的に設定されたK個(Kは自然数)の周波数(周波数帯域)f1〜fKの各々を単位区間毎に目的音周波数FAと非目的音周波数FBとに選別することで目的音スペクトルQA1および非目的音スペクトルQB1を単位区間毎に生成する。目的音周波数FAは、目的音が優勢な周波数(典型的には目的音の音量が非目的音の音量を上回る周波数)であり、非目的音周波数FBは、非目的音が優勢な周波数(典型的には非目的音の音量が目的音の音量を上回る周波数)である。目的音スペクトルQA1は目的音周波数FAの成分で構成され、非目的音スペクトルQB1は非目的音周波数FBの成分で構成される。目的音周波数FAと非目的音周波数FBとの選別には、以下に例示するように、目的音が到来する方向D0と非目的音が到来する方向(DR,DL)との相違を利用した方法(特許文献1)が好適に採用される。   The sound source separation unit 30 of FIG. 1 uses the target sound frequency FA and the non-target sound for each of the K (K is a natural number) frequencies (frequency bands) f1 to fK discretely set on the frequency axis. By selecting the frequency FB, the target sound spectrum QA1 and the non-target sound spectrum QB1 are generated for each unit section. The target sound frequency FA is a frequency where the target sound is dominant (typically the frequency where the target sound volume exceeds the volume of the non-target sound), and the non-target sound frequency FB is a frequency where the non-target sound is dominant (typically Specifically, the non-target sound volume is higher than the target sound volume). The target sound spectrum QA1 is composed of components of the target sound frequency FA, and the non-target sound spectrum QB1 is composed of components of the non-target sound frequency FB. In order to select the target sound frequency FA and the non-target sound frequency FB, as illustrated below, a method using the difference between the direction D0 where the target sound arrives and the direction (DR, DL) where the non-target sound arrives (Patent Document 1) is preferably employed.

図2は、音源分離部30のブロック図である。図2に示すように、音源分離部30は、信号処理部32と周波数選別部34と強度特定部36とを含んで構成される。信号処理部32は、複数の方向(D0,DR,DL)の各々からの到来音を他方向からの到来音と比較して抑制した複数の周波数スペクトル(P0,PR,PL)を周波数スペクトルP1および周波数スペクトルP2から生成する。図3は、信号処理部32による処理の内容を説明するためのグラフである。図3の横軸は、目的音の方向D0を基準(0°)とした角度θを意味し、図3の縦軸は信号の強度(パワー)を意味する。   FIG. 2 is a block diagram of the sound source separation unit 30. As shown in FIG. 2, the sound source separation unit 30 includes a signal processing unit 32, a frequency selection unit 34, and an intensity specifying unit 36. The signal processing unit 32 compares a plurality of frequency spectra (P0, PR, PL) in which the incoming sound from each of the plurality of directions (D0, DR, DL) is suppressed by comparing with the incoming sound from the other direction. And the frequency spectrum P2. FIG. 3 is a graph for explaining the contents of processing by the signal processing unit 32. The horizontal axis in FIG. 3 means the angle θ with the target sound direction D0 as the reference (0 °), and the vertical axis in FIG. 3 means the signal strength (power).

図2に示すように、信号処理部32は、第1処理部321と第2処理部322と第3処理部323とで構成される。第1処理部321は、周波数スペクトルP1から周波数スペクトルP2を減算することで周波数スペクトルP0を生成する。方向D0から到来する目的音は略同位相で収音機器M1および収音機器M2に到達するから、周波数スペクトルP0は、図3に符号B0(実線)で示すように、方向D0から到来する目的音を別方向からの到来音に対して抑制したスペクトルに相当する。すなわち、第1処理部321は、方向D0に収音上の死角を形成する死角制御型(null)のビームフォーマである。   As shown in FIG. 2, the signal processing unit 32 includes a first processing unit 321, a second processing unit 322, and a third processing unit 323. The first processing unit 321 generates the frequency spectrum P0 by subtracting the frequency spectrum P2 from the frequency spectrum P1. Since the target sound arriving from the direction D0 reaches the sound collecting device M1 and the sound collecting device M2 with substantially the same phase, the frequency spectrum P0 is the purpose arriving from the direction D0, as indicated by the symbol B0 (solid line) in FIG. This corresponds to a spectrum in which sound is suppressed with respect to incoming sound from another direction. In other words, the first processing unit 321 is a blind spot control type (null) beamformer that forms a blind spot on sound collection in the direction D0.

第2処理部322は、音信号S1を遅延量Dだけ遅延させた信号の周波数スペクトルD(P1)を周波数スペクトルP2から減算することで周波数スペクトルPRを生成する。遅延量Dは、方向DRからの到来音が収音機器M1に到達する時点と収音機器M2に到達する時点との時間差に設定される。したがって、周波数スペクトルPRは、図3に符号BR(破線)で示すように、方向DRから到来する非目的音を別方向からの到来音に対して抑制したスペクトルに相当する。すなわち、第2処理部322は、方向DRに収音上の死角を形成する死角制御型のビームフォーマである。同様に、第3処理部323は、図3に符号BLで示すように、音信号S2を遅延量Dだけ遅延させた信号の周波数スペクトルD(P2)を周波数スペクトルP1から減算することで、方向DLからの非目的音を抑制した周波数スペクトルPLを生成する死角制御型のビームフォーマである。   The second processing unit 322 generates the frequency spectrum PR by subtracting the frequency spectrum D (P1) of the signal obtained by delaying the sound signal S1 by the delay amount D from the frequency spectrum P2. The delay amount D is set to the time difference between the time when the incoming sound from the direction DR reaches the sound collecting device M1 and the time when it reaches the sound collecting device M2. Therefore, the frequency spectrum PR corresponds to a spectrum in which the non-target sound arriving from the direction DR is suppressed with respect to the incoming sound from another direction, as indicated by a symbol BR (broken line) in FIG. In other words, the second processing unit 322 is a blind spot control type beam former that forms a blind spot on sound collection in the direction DR. Similarly, the third processing unit 323 subtracts the frequency spectrum D (P2) of the signal obtained by delaying the sound signal S2 by the delay amount D from the frequency spectrum P1, as indicated by reference sign BL in FIG. This is a blind spot control type beam former that generates a frequency spectrum PL in which non-target sounds from DL are suppressed.

図2の周波数選別部34は、信号処理部32が生成した3種類の周波数スペクトル(P0,PR,PL)の強度をK個の周波数f1〜fKの各々について比較することで、K個の周波数f1〜fKの各々を目的音周波数FAと非目的音周波数FBとに選別する。図2に示すように、周波数選別部34は、第1比較部341と第2比較部342とを含んで構成される。   2 compares the intensities of the three types of frequency spectra (P0, PR, and PL) generated by the signal processing unit 32 for each of the K frequencies f1 to fK. Each of f1 to fK is sorted into a target sound frequency FA and a non-target sound frequency FB. As shown in FIG. 2, the frequency selection unit 34 includes a first comparison unit 341 and a second comparison unit 342.

第1比較部341は、周波数スペクトルPRと周波数スペクトルPLとの間でK個の周波数f1〜fKの各々における強度を比較することで周波数スペクトルPLRを生成する。周波数スペクトルPLRの周波数fkにおける強度は、周波数スペクトルPRの周波数fkにおける強度と周波数スペクトルPLの周波数fkにおける強度とのうちの低い方の強度に設定される。周波数スペクトルPRは方向DRからの非目的音を抑制したスペクトルであり、周波数スペクトルPLは方向DLからの非目的音を抑制したスペクトルであるから、周波数スペクトルPLRは、方向DRおよび方向DLの非目的音を抑制したスペクトル(すなわち、方向D0からの目的音を強調したスペクトル)に相当する。   The first comparison unit 341 generates the frequency spectrum PLR by comparing the intensities at each of the K frequencies f1 to fK between the frequency spectrum PR and the frequency spectrum PL. The intensity of the frequency spectrum PLR at the frequency fk is set to the lower one of the intensity at the frequency fk of the frequency spectrum PR and the intensity at the frequency fk of the frequency spectrum PL. Since the frequency spectrum PR is a spectrum in which the non-target sound from the direction DR is suppressed, and the frequency spectrum PL is a spectrum in which the non-target sound from the direction DL is suppressed, the frequency spectrum PLR is the non-purpose of the direction DR and the direction DL. This corresponds to a spectrum in which sound is suppressed (that is, a spectrum in which the target sound from the direction D0 is emphasized).

第2比較部342は、周波数スペクトルP0と周波数スペクトルPLRとの間でK個の周波数f1〜fKの各々おける強度を比較する。周波数スペクトルP0は非目的音を強調したスペクトルであり、周波数スペクトルPLRは目的音を強調したスペクトルである。したがって、第2比較部342は、K個の周波数f1〜fKのうち周波数スペクトルPLRの強度が周波数スペクトルP0の強度を上回る周波数fkを目的音周波数FAに選別するとともに、K個の周波数f1〜fKのうち周波数スペクトルP0の強度が周波数スペクトルPLRの強度を上回る周波数fkを非目的音周波数FBに選別する。   The second comparison unit 342 compares the intensities of the K frequencies f1 to fK between the frequency spectrum P0 and the frequency spectrum PLR. The frequency spectrum P0 is a spectrum that emphasizes the non-target sound, and the frequency spectrum PLR is a spectrum that emphasizes the target sound. Accordingly, the second comparison unit 342 selects, as the target sound frequency FA, the frequency fk in which the intensity of the frequency spectrum PLR exceeds the intensity of the frequency spectrum P0 among the K frequencies f1 to fK, and the K frequencies f1 to fK. The frequency fk in which the intensity of the frequency spectrum P0 exceeds the intensity of the frequency spectrum PLR is selected as the non-target sound frequency FB.

図2の強度特定部36は、周波数選別部34による選別の結果を利用して単位区間毎に目的音スペクトルQA1と非目的音スペクトルQB1とを生成する。第n番目(nは自然数)の単位区間の目的音スペクトルQA1は、目的音の強度に応じて周波数fk毎に設定された強度XA1(n,k)の系列(XA1(n,1)〜XA1(n,K))であり、第n番目の単位区間の非目的音スペクトルQB1は、非目的音の強度に応じて周波数fk毎に設定された強度XB1(n,k)の系列(XB1(n,1)〜XB1(n,K))である。強度XA1(n,k)および強度XB1(n,k)の設定について以下に詳述する。   The intensity specifying unit 36 in FIG. 2 generates the target sound spectrum QA1 and the non-target sound spectrum QB1 for each unit section using the result of selection by the frequency selecting unit 34. The target sound spectrum QA1 of the nth (n is a natural number) unit interval is a series of intensity XA1 (n, k) (XA1 (n, 1) to XA1) set for each frequency fk according to the intensity of the target sound. (n, K)), and the non-target sound spectrum QB1 of the nth unit interval is a series of intensity XB1 (n, k) set for each frequency fk according to the intensity of the non-target sound (XB1 ( n, 1) to XB1 (n, K)). The setting of the intensity XA1 (n, k) and the intensity XB1 (n, k) will be described in detail below.

図3に示すように、周波数スペクトルP0(符号B0)においては非目的音が強調され、周波数スペクトルPLRにおいては目的音が強調される。そこで、強度特定部36は、目的音スペクトルQA1のうち目的音周波数FAに選別された各周波数fkの強度XA1(n,k)を、周波数スペクトルPLRの当該周波数fkでの強度(主に目的音に由来する強度)から周波数スペクトルP0の当該周波数fkでの強度(主に非目的音に由来する強度)を減算した数値に設定する。以上のように周波数スペクトルPLRから周波数スペクトルP0を減算(スペクトルサブトラクション)することで各目的音周波数FAの強度XA1(n,k)が算定されるから、周波数スペクトルPLRの目的音周波数FAに存在する非目的音の影響を効果的に低減した目的音スペクトルQA1を生成することが可能である。もっとも、目的音が強調された周波数スペクトルPLRの強度を目的音スペクトルQA1の強度XA1(n,k)として設定する構成も好適である。目的音スペクトルQA1のうち非目的音周波数FBに選別された各周波数fkの強度XA1(n,k)はゼロに設定される。   As shown in FIG. 3, the non-target sound is emphasized in the frequency spectrum P0 (symbol B0), and the target sound is emphasized in the frequency spectrum PLR. Therefore, the intensity specifying unit 36 uses the intensity XA1 (n, k) of each frequency fk selected for the target sound frequency FA in the target sound spectrum QA1 as the intensity (mainly the target sound) of the frequency spectrum PLR. Is set to a value obtained by subtracting the intensity at the frequency fk of the frequency spectrum P0 (mainly the intensity derived from the non-target sound) from the intensity derived from. Since the intensity XA1 (n, k) of each target sound frequency FA is calculated by subtracting the frequency spectrum P0 from the frequency spectrum PLR as described above (spectral subtraction), it exists in the target sound frequency FA of the frequency spectrum PLR. It is possible to generate the target sound spectrum QA1 in which the influence of the non-target sound is effectively reduced. However, a configuration in which the intensity of the frequency spectrum PLR in which the target sound is emphasized is set as the intensity XA1 (n, k) of the target sound spectrum QA1 is also suitable. The intensity XA1 (n, k) of each frequency fk selected as the non-target sound frequency FB in the target sound spectrum QA1 is set to zero.

また、強度特定部36は、非目的音スペクトルQB1のうち非目的音周波数FBに選別された各周波数fkにおける強度XB1(n,k)を、周波数分析部20が生成した周波数スペクトルP1の当該周波数fkにおける強度に設定する。なお、非目的音スペクトルQB1の非目的音周波数FBにおける強度XB1(n,k)を、周波数スペクトルP2の当該周波数fkにおける強度に設定する構成や、周波数スペクトルP0の当該周波数fkにおける強度(主に非目的音に由来する強度)から周波数スペクトルPLRの当該周波数fkにおける強度(主に目的音に由来する強度)を減算した数値に設定する構成も採用される。非目的音スペクトルQB1のうち目的音周波数FAに選別された各周波数fkの強度XB1(n,k)はゼロに設定される。   In addition, the intensity specifying unit 36 uses the non-target sound spectrum QB1 for the frequency Xk1 (n, k) at each frequency fk selected as the non-target sound frequency FB, and the frequency of the frequency spectrum P1 generated by the frequency analysis unit 20. Set to intensity at fk. It should be noted that the intensity XB1 (n, k) of the non-target sound spectrum QB1 at the non-target sound frequency FB is set to the intensity at the frequency fk of the frequency spectrum P2, or the intensity (mainly at the frequency fk of the frequency spectrum P0). A configuration in which the intensity at the frequency fk of the frequency spectrum PLR (mainly the intensity derived from the target sound) is subtracted from the intensity derived from the non-target sound is also adopted. The intensity XB1 (n, k) of each frequency fk selected as the target sound frequency FA in the non-target sound spectrum QB1 is set to zero.

以上の説明から理解されるように、本形態においては、目的音の方向D0と非目的音の方向(DR,DL)との相違を利用して目的音周波数FAと非目的音周波数FBとが選別される。したがって、目的音と非目的音とで音響的な特徴が類似する場合であっても、目的音と非目的音との混合音を目的音スペクトルQAと非目的音スペクトルQBとに高精度に分離できるという利点がある。   As can be understood from the above description, in this embodiment, the target sound frequency FA and the non-target sound frequency FB are obtained by utilizing the difference between the direction D0 of the target sound and the direction of the non-target sound (DR, DL). Selected. Therefore, even when the target sound and the non-target sound have similar acoustic characteristics, the mixed sound of the target sound and the non-target sound is separated into the target sound spectrum QA and the non-target sound spectrum QB with high accuracy. There is an advantage that you can.

ところで、非目的音周波数FBの成分(非目的音)には、時間的に定常(音量や音高などの音響的な特性の変化が少ない)な非目的定常音に加えて、目的音とは別方向から到来する非目的変動音が含まれる。非目的定常音は、例えば空調設備の動作音や人込み内での雑踏音などの雑音であり、非目的変動音は、音量や音高などの音響的な特性が刻々と変化する音声(発話音)や楽音などの妨害音である。図1の雑音推定部42は、非目的音スペクトルQB1内の非目的変動音を抑制することで単位区間毎に雑音スペクトルN(すなわち、非目的定常音のスペクトル)を生成する。第n番目の単位区間の雑音スペクトルNは、K個の周波数f1〜fKの各々における強度(パワー)μ(n,1)〜μ(n,K)の系列である。   By the way, the component of the non-target sound frequency FB (non-target sound) includes the target sound in addition to the non-target stationary sound that is temporally steady (small change in acoustic characteristics such as volume and pitch). Non-target fluctuation sound coming from another direction is included. Non-target steady sounds are noises such as operating sounds of air-conditioning equipment and crowded noises in crowds, and non-target fluctuation sounds are voices whose utterances change in acoustic characteristics such as volume and pitch (utterances). Sound) and musical sounds. The noise estimation unit 42 in FIG. 1 generates a noise spectrum N (that is, a spectrum of a non-target stationary sound) for each unit section by suppressing the non-target fluctuation sound in the non-target sound spectrum QB1. The noise spectrum N of the nth unit section is a series of intensity (power) μ (n, 1) to μ (n, K) at each of the K frequencies f1 to fK.

図4は、雑音推定部42がn番目の単位区間の雑音スペクトルNを生成する動作のフローチャートである。図4の処理は単位区間毎に順次に実行される。図4の処理を開始すると、雑音推定部42は、変数kを1に初期化する(ステップS1)。変数kは、K個の周波数f1〜fKの何れかを指定する番号である。   FIG. 4 is a flowchart of an operation in which the noise estimation unit 42 generates the noise spectrum N of the nth unit section. The process of FIG. 4 is sequentially executed for each unit section. When the processing of FIG. 4 is started, the noise estimation unit 42 initializes the variable k to 1 (step S1). The variable k is a number that specifies any of the K frequencies f1 to fK.

雑音推定部42は、周波数fkが非目的音周波数FBであるか否かを判定する(ステップS2)。周波数fkが非目的音周波数FBである場合、雑音推定部42は、第n番目の単位区間の非目的音スペクトルQB1のうち周波数fk(非目的音周波数FB)における強度XB1(n,k)が閾値XTHを上回るか否かを判定する(ステップS3)。   The noise estimation unit 42 determines whether or not the frequency fk is the non-target sound frequency FB (step S2). When the frequency fk is the non-target sound frequency FB, the noise estimation unit 42 has the intensity XB1 (n, k) at the frequency fk (non-target sound frequency FB) in the non-target sound spectrum QB1 of the nth unit section. It is determined whether or not the threshold value XTH is exceeded (step S3).

閾値XTHは、以下の数式(1)で定義されるように、雑音推定部42が直前(第(n-1)番目)の単位区間について生成した雑音スペクトルNの周波数fkにおける強度μ(n-1,k)と係数τとの乗算値である。係数τは、1を上回る所定値(例えば2)に設定される。したがって、閾値XTHは、強度μ(n-1,k)を上回る数値(強度μ(n-1,k)に応じた可変値)に設定される。なお、第1番目の単位区間については所定の初期値が数式(1)の強度μ(n-1,k)として適用される。
XTH=τ・μ(n-1,k) ……(1)
The threshold value XTH is defined by the following formula (1), and the intensity μ (n− at the frequency fk of the noise spectrum N generated by the noise estimation unit 42 for the immediately preceding ((n−1) th) unit section. 1, k) multiplied by a coefficient τ. The coefficient τ is set to a predetermined value (for example, 2) exceeding 1. Therefore, the threshold value XTH is set to a numerical value (variable value corresponding to the intensity μ (n−1, k)) exceeding the intensity μ (n−1, k). For the first unit section, a predetermined initial value is applied as the intensity μ (n−1, k) in the equation (1).
XTH = τ ・ μ (n-1, k) (1)

非目的変動音は非目的定常音と比較して強度が変化し易いから、非目的音スペクトルQB1のうち非目的変動音が発生する周波数fkの強度XB1(n,k)は経時的な変化が大きい。したがって、ステップS3における強度XB1(n,k)と閾値XTHとの比較は、非目的音スペクトルQB1における周波数fkに非目的変動音が発生したか否かを判定する処理に相当する。すなわち、強度XB1(n,k)が閾値XTHを上回る場合、非目的音スペクトルQB1の周波数fkの成分は非目的変動音に該当すると推定され、強度XB1(n,k)が閾値XTHを下回る場合、非目的音スペクトルQB1の周波数fkの成分は非目的変動音に該当しない(非目的定常音に該当する)と推定される。非目的変動音の発生時に強度XB1(n,k)が閾値XTHを上回り、非目的定常音のみが存在する場合に強度XB1(n,k)が閾値XTHを下回るように、数式(1)の係数τは統計的または実験的に選定される。   Since the non-target fluctuation sound is more easily changed in intensity compared to the non-target steady sound, the intensity XB1 (n, k) of the frequency fk at which the non-target fluctuation sound is generated in the non-target sound spectrum QB1 varies with time. large. Therefore, the comparison between the intensity XB1 (n, k) and the threshold value XTH in step S3 corresponds to a process for determining whether or not a non-target fluctuation sound is generated at the frequency fk in the non-target sound spectrum QB1. That is, when the intensity XB1 (n, k) exceeds the threshold value XTH, the frequency fk component of the non-target sound spectrum QB1 is estimated to correspond to the non-target fluctuation sound, and the intensity XB1 (n, k) is lower than the threshold value XTH. It is estimated that the component of the frequency fk of the non-target sound spectrum QB1 does not correspond to the non-target fluctuation sound (corresponds to the non-target steady sound). Formula (1) is set so that the intensity XB1 (n, k) exceeds the threshold value XTH when the non-target fluctuation sound is generated and the intensity XB1 (n, k) is lower than the threshold value XTH when only the non-target stationary sound exists. The coefficient τ is selected statistically or experimentally.

非目的音スペクトルQB1の強度XB1(n,k)が閾値XTHを下回る場合(すなわち、周波数fkに非目的変動音が発生していない場合)、雑音推定部42は、第n番目の単位区間の非目的音スペクトルQB1の周波数fkにおける強度XB1(n,k)と、第(n-1)番目の単位区間の雑音スペクトルNの周波数fkにおける強度μ(n-1,k)とから、第n番目の雑音スペクトルNの周波数fkにおける強度μ(n,k)を算定する(ステップS4)。強度μ(n,k)は、例えば以下の数式(2)で定義されるように、第n番目の単位区間の非目的音スペクトルQB1における強度XB1(n,k)と、第(n-1)番目の単位区間の雑音スペクトルNにおける強度μ(n-1,k)との加重和(加重平均)として算定される。数式(2)の係数αは1を下回る正数(例えば0.9)に設定される。数式(2)から理解されるように、係数αが大きいほど、強度μ(n,k)に対する強度XB1(n,k)の影響が減少する(過去の各単位区間における強度XB1(n,k)の影響が増大する)。
μ(n,k)=α・μ(n-1,k)+(1−α)・XB1(n,k) ……(2)
When the intensity XB1 (n, k) of the non-target sound spectrum QB1 is lower than the threshold value XTH (that is, when no non-target fluctuation sound is generated at the frequency fk), the noise estimation unit 42 determines the nth unit interval. From the intensity XB1 (n, k) at the frequency fk of the non-target sound spectrum QB1 and the intensity μ (n−1, k) at the frequency fk of the noise spectrum N of the (n−1) th unit section, the nth The intensity μ (n, k) at the frequency fk of the th noise spectrum N is calculated (step S4). The intensity μ (n, k) is defined by, for example, the intensity XB1 (n, k) in the non-target sound spectrum QB1 of the nth unit section and the (n−1) th, as defined by the following formula (2). ) Calculated as a weighted sum (weighted average) with the intensity μ (n−1, k) in the noise spectrum N of the first unit section. The coefficient α in Expression (2) is set to a positive number (for example, 0.9) less than 1. As understood from the equation (2), as the coefficient α increases, the influence of the intensity XB1 (n, k) on the intensity μ (n, k) decreases (the intensity XB1 (n, k in each past unit interval). ) Will increase.
μ (n, k) = α ・ μ (n−1, k) + (1−α) × XB1 (n, k) (2)

一方、非目的音スペクトルQB1の強度XB1(n,k)が閾値XTHを上回る場合(S3:YES)、雑音推定部42は、数式(3)に示すように、第(n-1)番目の雑音スペクトルNの周波数fkにおける強度μ(n-1,k)を、第n番目の雑音スペクトルNの周波数fk(非目的音周波数FB)における強度μ(n,k)として設定する(ステップS5)。すなわち、強度XB1(n,k)が閾値XTHを上回る場合(周波数fkの非目的変動音の発生に起因して強度XB1(n,k)が増加した場合)、非目的音スペクトルQB1の強度XB1(n,k)は強度μ(n,k)に反映されない。したがって、雑音スペクトルNにおいては、非目的音スペクトルQB1内の非目的変動音が抑制(理想的には除去)される。
μ(n,k)=μ(n-1,k) ……(3)
On the other hand, when the intensity XB1 (n, k) of the non-target sound spectrum QB1 exceeds the threshold value XTH (S3: YES), the noise estimator 42 is the (n-1) -th as shown in Equation (3). The intensity μ (n−1, k) at the frequency fk of the noise spectrum N is set as the intensity μ (n, k) at the frequency fk (non-target sound frequency FB) of the nth noise spectrum N (step S5). . That is, when the intensity XB1 (n, k) exceeds the threshold value XTH (when the intensity XB1 (n, k) increases due to the occurrence of non-target fluctuation sound at the frequency fk), the intensity XB1 of the non-target sound spectrum QB1 (n, k) is not reflected in the intensity μ (n, k). Therefore, in the noise spectrum N, the non-target fluctuation sound in the non-target sound spectrum QB1 is suppressed (ideally removed).
μ (n, k) = μ (n-1, k) (3)

周波数fkが目的音周波数FAである場合(S2:NO)、雑音推定部42は、数式(3)と同様に、第(n-1)番目の雑音スペクトルNの強度μ(n,k)を、第n番目の雑音スペクトルNの周波数fk(目的音周波数FA)における強度μ(n,k)として設定する(ステップS6)。   When the frequency fk is the target sound frequency FA (S2: NO), the noise estimation unit 42 calculates the intensity μ (n, k) of the (n−1) th noise spectrum N in the same manner as the equation (3). The intensity μ (n, k) at the frequency fk (target sound frequency FA) of the nth noise spectrum N is set (step S6).

数式(2)および数式(3)から理解されるように、第n番目の単位区間における雑音スペクトルNの強度μ(n,k)は、過去(第(n-1)番目以前)の複数の単位区間について算定された雑音スペクトルNの強度を累積的に反映した数値となる。すなわち、雑音スペクトルNの強度μ(n,k)は、非目的音周波数FBに選別された周波数fkの強度XB1(n,k)が閾値XTHを下回る複数の単位区間にわたって非目的音スペクトルQB1の強度XB1(n,k)を平滑化(平均化)した数値となる。   As can be understood from Equation (2) and Equation (3), the intensity μ (n, k) of the noise spectrum N in the nth unit interval is a plurality of past (before the (n−1) th) plurality. This is a numerical value that cumulatively reflects the intensity of the noise spectrum N calculated for the unit section. That is, the intensity μ (n, k) of the noise spectrum N is equal to the non-target sound spectrum QB1 over a plurality of unit intervals where the intensity XB1 (n, k) of the frequency fk selected as the non-target sound frequency FB is lower than the threshold value XTH. This is a numerical value obtained by smoothing (averaging) the intensity XB1 (n, k).

以上のように各ステップ(S4,S5,S6)で強度μ(n,k)を設定すると、雑音推定部42は、変数kが所定値Kに到達したか否かを判定する(ステップS7)。変数kが所定値Kに到達していない場合、雑音推定部42は、変数kに1を加算したうえで(ステップS8)、処理をステップS2に移行する。すなわち、K個の周波数f1〜fKの各々について強度μ(n,k)が順次に算定される。変数kが数値Kに到達した場合(すなわち、強度μ(n,1)〜μ(n,K)の算定が完了した場合)、雑音推定部42は図4の処理を終了する(S7:YES)。K個の周波数f1〜fKについての強度μ(n,1)〜μ(n,K)の系列が第n番目の単位区間の雑音スペクトルNに相当する。   As described above, when the intensity μ (n, k) is set in each step (S4, S5, S6), the noise estimation unit 42 determines whether or not the variable k has reached the predetermined value K (step S7). . If the variable k has not reached the predetermined value K, the noise estimation unit 42 adds 1 to the variable k (step S8), and then proceeds to step S2. That is, the intensity μ (n, k) is sequentially calculated for each of the K frequencies f1 to fK. When the variable k reaches the numerical value K (that is, when the calculation of the intensity μ (n, 1) to μ (n, K) is completed), the noise estimation unit 42 ends the process of FIG. 4 (S7: YES) ). A series of intensities μ (n, 1) to μ (n, K) for K frequencies f1 to fK corresponds to the noise spectrum N of the nth unit interval.

図1の雑音抑圧部44は、雑音推定部42が生成した雑音スペクトルNを、音源分離部30が生成した目的音スペクトルQA1から減算(スペクトルサブトラクション)することで目的音スペクトルQA2を生成する。具体的には、雑音抑圧部44は、第n番目の単位区間の目的音スペクトルQA1における周波数fkの強度XA1(n,k)から、当該単位区間について生成された雑音スペクトルNの周波数fkにおける強度μ(n,k)を減算することで目的音スペクトルQA2を生成する。   The noise suppression unit 44 of FIG. 1 generates the target sound spectrum QA2 by subtracting the noise spectrum N generated by the noise estimation unit 42 from the target sound spectrum QA1 generated by the sound source separation unit 30 (spectral subtraction). Specifically, the noise suppression unit 44 uses the intensity XA1 (n, k) of the frequency fk in the target sound spectrum QA1 of the nth unit section to generate the intensity of the noise spectrum N generated for the unit section at the frequency fk. The target sound spectrum QA2 is generated by subtracting μ (n, k).

すなわち、第n番目の単位区間について目的音スペクトルQA2の周波数fkにおける強度XA2(n,k)は数式(4a)で表現される。ただし、数式(4a)の右辺(XA1(n,k)−μ(n,k))が所定値(例えばゼロ)を下回る周波数fkの強度XA2(n,k)は当該所定値に設定される。また、目的音スペクトルQA2は数式(4b)で表現される。数式(4b)の記号θa(n,k)は、目的音スペクトルQA1の周波数fkにおける位相である。数式(4a)および数式(4b)から理解されるように、目的音スペクトルQA2は、方向D0からの到来音(目的音スペクトルQA1)から非目的定常音(雑音スペクトルN)を抑圧した音響(すなわち目的音)のスペクトルに相当する。
XA2(n,k)=XA1(n,k)−μ(n,k) ……(4a)
QA2={XA1(n,k)−μ(n,k)}ejθa(n,k) ……(4b)
That is, the intensity XA2 (n, k) at the frequency fk of the target sound spectrum QA2 for the nth unit interval is expressed by the equation (4a). However, the intensity XA2 (n, k) of the frequency fk at which the right side (XA1 (n, k) −μ (n, k)) of Expression (4a) is lower than a predetermined value (for example, zero) is set to the predetermined value. . In addition, the target sound spectrum QA2 is expressed by Equation (4b). Symbol θa (n, k) in Equation (4b) is the phase at the frequency fk of the target sound spectrum QA1. As can be understood from the equations (4a) and (4b), the target sound spectrum QA2 is an acoustic sound in which the non-target stationary sound (noise spectrum N) is suppressed from the incoming sound from the direction D0 (target sound spectrum QA1). This corresponds to the spectrum of the target sound.
XA2 (n, k) = XA1 (n, k) -μ (n, k) (4a)
QA2 = {XA1 (n, k) −μ (n, k)} e jθa (n, k) (4b)

以上のように、非目的音スペクトルQB1の強度XB1(n,k)が閾値XTHを上回る周波数fkについては雑音スペクトルNの強度μ(n,k)に強度XB1(n,k)が反映されないから、以下に詳述するように、非目的定常音および非目的変動音の双方が存在する環境においても、非目的定常音のみを高精度に抽出した雑音スペクトルNを生成することが可能である。   As described above, the intensity XB1 (n, k) is not reflected in the intensity μ (n, k) of the noise spectrum N for the frequency fk where the intensity XB1 (n, k) of the non-target sound spectrum QB1 exceeds the threshold value XTH. As described in detail below, it is possible to generate a noise spectrum N obtained by extracting only non-target stationary sound with high accuracy even in an environment where both non-target stationary sound and non-target fluctuation sound exist.

図5および図6は、各単位区間の雑音スペクトルNの時系列(スペクトログラム)である。図5は、第1実施形態における雑音スペクトルNの時系列であり、図6は、第1実施形態との対比例1における雑音スペクトルNの時系列である。対比例1は、非目的音周波数FBの強度XB1(n,k)に拘わらず、雑音スペクトルNの強度μ(n,k)を数式(2)で算定する形態(すなわち、図4のステップS3とステップS5とを省略した形態)である。   5 and 6 are time series (spectrogram) of the noise spectrum N of each unit section. FIG. 5 is a time series of the noise spectrum N in the first embodiment, and FIG. 6 is a time series of the noise spectrum N in the contrast 1 with the first embodiment. In contrast 1, the intensity μ (n, k) of the noise spectrum N is calculated by the equation (2) regardless of the intensity XB1 (n, k) of the non-target sound frequency FB (ie, step S3 in FIG. 4). And step S5 are omitted).

図5および図6においては、雑音スペクトルNのうち強度が高い周波数fk(ピークの周波数)を時間軸に沿って連結した直線が図示されている。図5および図6の例示では、経時的に変化しない非目的定常音が雑音スペクトルN(非目的音スペクトルQB1)の低域側に存在する。また、図5および図6には、非目的変動音が発生した時点が図示されている。   5 and 6, a straight line in which the frequency fk (peak frequency) having a high intensity in the noise spectrum N is connected along the time axis is illustrated. In the examples of FIGS. 5 and 6, the non-target stationary sound that does not change with time exists on the low frequency side of the noise spectrum N (non-target sound spectrum QB1). 5 and 6 show the time when the non-target fluctuation sound is generated.

対比例1においては、非目的音スペクトルQB1の強度XB1(n,k)に拘わらず(すなわち非目的変動音の有無に拘わらず)、雑音スペクトルNの強度μ(n,k)は数式(2)で算定される。したがって、雑音スペクトルNは非目的定常音および非目的変動音の双方を包含する。そして、数式(2)で算定される強度μ(n,k)には過去の強度(μ(n-1,k),μ(n-2,k),……)が累積的に反映されるから、雑音スペクトルNのうち特定の時点で非目的変動音が発生した周波数fkの強度μ(n,k)は、図6に示すように、非目的変動音が停止した場合であっても、後続の複数の単位区間にわたって高い数値に維持される。したがって、目的音変動音が発生した周波数fkにおける目的音スペクトルQA1の強度XA1(n,k)が雑音抑圧部44による処理で過剰に低減され、耳障りなミュージカルノイズの原因になる可能性がある。   In contrast 1, the intensity μ (n, k) of the noise spectrum N is expressed by the formula (2) regardless of the intensity XB1 (n, k) of the non-target sound spectrum QB1 (that is, regardless of the presence or absence of non-target fluctuation sound). ). Therefore, the noise spectrum N includes both non-target stationary sounds and non-target fluctuation sounds. The past intensity (μ (n-1, k), μ (n-2, k), ...) is cumulatively reflected in the intensity μ (n, k) calculated by Equation (2). Therefore, the intensity μ (n, k) of the frequency fk at which the non-target fluctuation sound is generated at a specific time in the noise spectrum N is, as shown in FIG. 6, even when the non-target fluctuation sound is stopped. , Maintained at a high value over a plurality of subsequent unit intervals. Therefore, the intensity XA1 (n, k) of the target sound spectrum QA1 at the frequency fk where the target sound fluctuation sound is generated is excessively reduced by the processing by the noise suppressing unit 44, which may cause annoying musical noise.

対比例1とは対照的に、第1実施形態においては、強度XB1(n,k)が閾値XTHを上回る周波数fkの強度μ(n,k)には強度XB1(n,k)(すなわち周波数fkの非目的変動音の強度)が反映されないから、図5に示すように、非目的変動音を抑制した雑音スペクトルNが生成される。したがって、目的音スペクトルQA1のうち非目的変動音が発生した周波数fkの強度の過剰な低減が防止され、ミュージカルノイズの発生が抑制されるという利点がある。なお、雑音スペクトルNにおいては非目的変動音が抑制されているから、雑音抑圧部44による処理で非目的変動音が目的音スペクトルQA1から低減される効果は少ない。しかし、方向DRや方向DLから到来する非目的変動音は音源分離部30による選別で目的音スペクトルQA1から排除されているから、雑音抑圧部44で非目的変動音が低減されないとは言っても、非目的定常音および非目的変動音の双方を高精度に抑圧した再生音を生成することが可能である。   In contrast to contrast 1, in the first embodiment, the intensity μ (n, k) of the frequency fk at which the intensity XB1 (n, k) exceeds the threshold value XTH has the intensity XB1 (n, k) (that is, the frequency As shown in FIG. 5, a noise spectrum N in which the non-target fluctuation sound is suppressed is generated. Accordingly, there is an advantage that the intensity of the frequency fk at which the non-target fluctuation sound is generated in the target sound spectrum QA1 is prevented from being excessively reduced, and the generation of musical noise is suppressed. Since the non-target fluctuation sound is suppressed in the noise spectrum N, the effect of reducing the non-target fluctuation sound from the target sound spectrum QA1 by the processing by the noise suppression unit 44 is small. However, since the non-target fluctuation sound arriving from the direction DR or the direction DL is excluded from the target sound spectrum QA1 by the selection by the sound source separation section 30, the noise suppression section 44 does not reduce the non-target fluctuation sound. In addition, it is possible to generate a reproduced sound in which both the non-target steady sound and the non-target fluctuation sound are suppressed with high accuracy.

なお、第1実施形態の強度特定部36は、目的音が強調された周波数スペクトルPLRから非目的音が強調された周波数スペクトルP0を減算することで目的音スペクトルQA1を生成する。すなわち、強度特定部36による処理だけでも非目的音は抑制される。しかし、例えば方向D0からの到来音に非目的定常音が含まれる場合には、周波数スペクトルPLRから周波数スペクトルP0を減算しても非目的定常音は充分に抑圧されない。非目的定常音の雑音スペクトルNが目的音スペクトルQA1から減算される第1実施形態によれば、強度特定部36による処理のみで非目的音を抑制する構成(すなわち雑音抑圧部44を省略した構成)と比較して非目的定常音が効果的に抑圧されるという利点がある。   The intensity specifying unit 36 of the first embodiment generates the target sound spectrum QA1 by subtracting the frequency spectrum P0 in which the non-target sound is emphasized from the frequency spectrum PLR in which the target sound is emphasized. That is, the non-target sound can be suppressed only by the processing by the intensity specifying unit 36. However, for example, when the non-target stationary sound is included in the incoming sound from the direction D0, the non-target stationary sound is not sufficiently suppressed even if the frequency spectrum P0 is subtracted from the frequency spectrum PLR. According to the first embodiment in which the noise spectrum N of the non-target stationary sound is subtracted from the target sound spectrum QA1, the configuration in which the non-target sound is suppressed only by the processing by the intensity specifying unit 36 (that is, the configuration in which the noise suppression unit 44 is omitted). ) Has an advantage that non-target stationary sound is effectively suppressed.

図1の強度調整部52は、音源分離部30が単位区間毎に生成した非目的音スペクトルQB1の強度XB1(n,1)〜XB1(n,K)を共通の所定値(以下「抑圧係数」という)pに応じて抑圧することで非目的音スペクトルQB2を生成する。非目的音スペクトルQB2は、例えば、各強度XB1(n,k)と抑圧係数pとの乗算値に相当する強度XB2(n,k)(XB2(n,k)=p・XB1(n,k))の系列である。抑圧係数pは、1を下回る正数に設定される。したがって、抑圧係数pが小さいほど強度XB1(n,1)〜XB1(n,K)の抑圧の度合は大きい。以上のように、強度調整部52は非目的定常音と非目的変動音とを区別せずに非目的音の全体を抑圧するから、強度調整部52による処理後の非目的音スペクトルQB2は、非目的定常音と非目的変動音とを含む。図1の変動音抑圧部60は、非目的音スペクトルQB2のうちの非目的変動音を抑圧することで非目的音スペクトルQB3を生成する。   The intensity adjusting unit 52 in FIG. 1 uses the common X-values XB1 (n, 1) to XB1 (n, K) of the non-target sound spectrum QB1 generated for each unit section by the sound source separation unit 30 (hereinafter referred to as “suppression coefficient”). The non-target sound spectrum QB2 is generated by performing suppression according to p. The non-target sound spectrum QB2 is, for example, an intensity XB2 (n, k) (XB2 (n, k) = p · XB1 (n, k) corresponding to a multiplication value of each intensity XB1 (n, k) and the suppression coefficient p. )) Series. The suppression coefficient p is set to a positive number less than 1. Therefore, the smaller the suppression coefficient p, the greater the degree of suppression of the intensities XB1 (n, 1) to XB1 (n, K). As described above, since the intensity adjustment unit 52 suppresses the entire non-target sound without distinguishing between the non-target stationary sound and the non-target fluctuation sound, the non-target sound spectrum QB2 processed by the intensity adjustment unit 52 is Includes non-target stationary sounds and non-target fluctuation sounds. The fluctuation sound suppression unit 60 of FIG. 1 generates the non-target sound spectrum QB3 by suppressing the non-target fluctuation sound in the non-target sound spectrum QB2.

図7は、変動音抑圧部60のブロック図である。図7に示すように、変動音抑圧部60は、ゲイン設定部62と抑圧処理部64とを含んで構成される。ゲイン設定部62は、非目的音スペクトルQB2のうちの非目的変動音を抑圧するための抑圧ゲイン系列Hを単位区間毎に生成する。第n番目の単位区間について生成される抑圧ゲイン系列Hは、周波数f1〜fKに対応するK個のゲイン(スペクトルゲイン)h(n,1)〜h(n,K)の系列である。ゲインh(n,1)〜h(n,K)の各々は、1を下回る正数の範囲内で周波数fk毎に個別に設定される。   FIG. 7 is a block diagram of the fluctuation sound suppression unit 60. As shown in FIG. 7, the fluctuation sound suppression unit 60 includes a gain setting unit 62 and a suppression processing unit 64. The gain setting unit 62 generates a suppression gain sequence H for suppressing non-target fluctuation sound in the non-target sound spectrum QB2 for each unit section. The suppression gain sequence H generated for the nth unit interval is a sequence of K gains (spectral gains) h (n, 1) to h (n, K) corresponding to the frequencies f1 to fK. Each of the gains h (n, 1) to h (n, K) is individually set for each frequency fk within a positive number range less than 1.

抑圧処理部64は、非目的音スペクトルQB2の各強度XB2(n,1)〜XB2(n,K)を抑圧ゲイン系列Hの各ゲインh(n,1)〜h(n,K)に応じて調整することで、非目的音スペクトルQB2の非目的変動音を抑圧した非目的音スペクトルQB3を生成する。非目的音スペクトルQB3は、周波数fk毎に設定された強度XB3(n,k)の系列(XB3(n,1)〜XB3(n,K))である。抑圧処理部64は、非目的音スペクトルQB2に抑圧ゲイン系列Hを乗算することで非目的音スペクトルQB3を生成する。すなわち、非目的音スペクトルQB3のうち周波数fkにおける強度XB3(n,k)は、以下の数式(5)で定義されるように、非目的音スペクトルQB2の強度XB2(n,k)と抑圧ゲイン系列Hのうち周波数fに対応するゲインh(n,k)との乗算値に相当する。
XB3(n,k)=h(n,k)・XB2(n,k) ……(5)
The suppression processing unit 64 uses the intensities XB2 (n, 1) to XB2 (n, K) of the non-target sound spectrum QB2 according to the gains h (n, 1) to h (n, K) of the suppression gain sequence H. To adjust the non-target sound spectrum QB3 in which the non-target fluctuation sound of the non-target sound spectrum QB2 is suppressed. The non-target sound spectrum QB3 is a sequence (XB3 (n, 1) to XB3 (n, K)) of intensity XB3 (n, k) set for each frequency fk. The suppression processing unit 64 generates the non-target sound spectrum QB3 by multiplying the non-target sound spectrum QB2 by the suppression gain sequence H. That is, the intensity XB3 (n, k) at the frequency fk in the non-target sound spectrum QB3 is defined by the following formula (5), and the intensity XB2 (n, k) of the non-target sound spectrum QB2 and the suppression gain. This corresponds to a multiplication value of the gain h (n, k) corresponding to the frequency f in the series H.
XB3 (n, k) = h (n, k) ・ XB2 (n, k) (5)

抑圧ゲイン系列Hのゲインh(n,1)〜f(n,K)は、第n番目の単位区間の非目的音スペクトルQB3にて非目的変動音が抑圧されるように周波数fk毎に個別に選定される。すなわち、非目的音スペクトルQB2のうち非目的変動音である可能性が高い周波数fkに対応するゲインh(n,k)ほど小さい数値に設定される。   The gains h (n, 1) to f (n, K) of the suppression gain sequence H are individually set for each frequency fk so that the non-target fluctuation sound is suppressed in the non-target sound spectrum QB3 of the nth unit section. Selected. That is, in the non-target sound spectrum QB2, the gain h (n, k) corresponding to the frequency fk that is likely to be a non-target fluctuation sound is set to a smaller numerical value.

図7に示すように、ゲイン設定部62は、第1処理部621と第2処理部622とを含んで構成される。第1処理部621は、単位区間毎に強調ゲイン系列Gを生成する。第n番目の単位区間について生成される強調ゲイン系列Gは、周波数f1〜fKに対応するK個のゲイン(スペクトルゲイン)g(n,1)〜g(n,K)の系列である。ゲインg(n,1)〜g(n,K)は、非目的音スペクトルQB2に乗算された場合に非目的音スペクトルQB2の非目的変動音(典型的には音声)が強調されるように、1を下回る正数の範囲内で周波数fk毎に個別に設定される。すなわち、非目的音スペクトルQB2のうち非目的変動音である可能性が高い周波数fkに対応するゲインg(n,k)ほど大きい数値に設定される。強調ゲイン系列Gの生成には、雑音推定部42が生成した雑音スペクトルNと強度調整部52による調整後の非目的音スペクトルQB2とが使用される。   As shown in FIG. 7, the gain setting unit 62 includes a first processing unit 621 and a second processing unit 622. The first processing unit 621 generates an enhancement gain series G for each unit section. The enhancement gain sequence G generated for the nth unit interval is a sequence of K gains (spectral gains) g (n, 1) to g (n, K) corresponding to the frequencies f1 to fK. The gains g (n, 1) to g (n, K) are such that when the non-target sound spectrum QB2 is multiplied, the non-target fluctuation sound (typically speech) of the non-target sound spectrum QB2 is emphasized. It is set individually for each frequency fk within a positive number range less than 1. That is, in the non-target sound spectrum QB2, the gain g (n, k) corresponding to the frequency fk that is highly likely to be a non-target fluctuation sound is set to a larger value. For generation of the enhancement gain series G, the noise spectrum N generated by the noise estimation unit 42 and the non-target sound spectrum QB2 after adjustment by the intensity adjustment unit 52 are used.

第2処理部622は、第1処理部621が生成した強調ゲイン系列Gから抑圧ゲイン系列Hを生成する。抑圧ゲイン系列Hは、非目的変動音を強調する強調ゲイン系列Gの逆特性(すなわち、非目的変動音を抑圧する特性)となるように生成される。例えば、第2処理部622は、数式(6)に示すように、強調ゲイン系列Gの周波数fkのゲインg(n,k)を所定値(本形態では1)から減算することで抑圧ゲイン系列Hの周波数fkのゲインh(n,k)を算定する。
h(n,k)=1−g(n,k) ……(6)
The second processing unit 622 generates a suppression gain sequence H from the enhancement gain sequence G generated by the first processing unit 621. The suppression gain sequence H is generated so as to have an inverse characteristic of the enhancement gain sequence G that emphasizes the non-objective fluctuation sound (that is, a characteristic that suppresses the non-objective fluctuation sound). For example, the second processing unit 622 subtracts the gain g (n, k) of the frequency fk of the enhancement gain sequence G from a predetermined value (1 in this embodiment) as shown in Equation (6), thereby suppressing the suppression gain sequence. The gain h (n, k) of the frequency fk of H is calculated.
h (n, k) = 1-g (n, k) (6)

第1処理部621による強調ゲイン系列Gの生成には公知の技術が任意に採用されるが、例えば以下に例示するように、Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator", IEEE ASSP, vol.ASSP-32, no.6, p.1109-1121, Dec. 1984に開示されたMMSEーSTSA法や、T. Lotter and P. Vary, "Speech enhancement by MAP spectral amplitude estimation using a Super-Gaussian speech model", EURASIP Journal on Applied Signal Processing, vol.2005, no,7, p.1110-1126, July 2005に開示されたMAP(maximum a posteriori estimation)推定が好適に採用される。   A known technique is arbitrarily employed to generate the enhancement gain series G by the first processing unit 621. For example, as illustrated below, Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square” error short-time spectral amplitude estimator ", IEEE ASSP, vol.ASSP-32, no.6, p.1109-1121, Dec. 1984, MMSE-STSA method, T. Lotter and P. Vary," Speech enhancement by MAP spectral amplitude estimation using a Super-Gaussian speech model ", EURASIP Journal on Applied Signal Processing, vol.2005, no, 7, p.1110-1126, July 2005 MAP (maximum a posteriori estimation) Estimation is preferably employed.

第n番目の単位区間の非目的音スペクトルQB2は、以下の数式(7)に示すように、非目的変動音(A(n,k)ejα(n,k))と非目的定常音(B(n,k)ejβ(n,k))との加算として表現される。
XB2(n,k)ejθb(n,k)=A(n,k)ejα(n,k)+B(n,k)ejβ(n,k) ……(7)
数式(7)におけるθb(n,k)は、非目的音スペクトルQB2の周波数fkにおける位相である。数式(7)のA(n,k)は、第n番目の単位区間の非目的変動音のうち周波数fkの成分の振幅であり、α(n,k)は当該成分の位相である。また、数式(7)のB(n,k)は、第n番目の単位区間の非目的定常音のうち周波数fkの成分の振幅であり、β(n,k)は当該成分の位相である。
The non-target sound spectrum QB2 of the n-th unit section is expressed by the following expression (7): non-target fluctuation sound (A (n, k) e jα (n, k) ) and non-target stationary sound ( B (n, k) e jβ (n, k) ).
XB2 (n, k) ej [ theta] b (n, k) = A (n, k) ej [ alpha] (n, k) + B (n, k) ej [ beta] (n, k) (7)
In equation (7), θb (n, k) is the phase of the non-target sound spectrum QB2 at the frequency fk. A (n, k) in Expression (7) is the amplitude of the component of the frequency fk in the non-target fluctuation sound in the nth unit section, and α (n, k) is the phase of the component. In addition, B (n, k) in Expression (7) is the amplitude of the component of the frequency fk in the non-target stationary sound in the nth unit section, and β (n, k) is the phase of the component. .

事後SN比(posteriori SNR)γ(n,k)および事前SN比(priori SNR)ξ(n,k)は、雑音推定部42が生成した雑音スペクトルNの強度(パワー)μ(n,k)を利用して以下の数式(8a)および数式(8b)で表現される。数式(8b)の関数値F[x]は、変数xが正数である場合には当該変数xに設定され、変数xがゼロまたは負数である場合にはゼロに設定される。また、数式(8b)の係数αSNRは、1を下回る所定の正数である。
γ(n,k)=XB2(n,k)/μ(n,k) ……(8a)
ξ(n,k)=A(n,k)/μ(n,k)
=αSNR・A(n-1,k)/μ(n,k)+(1−αSNR)・F[γ(n,k)−1] ……(8b)
The posterior SN ratio (posteriori SNR) γ (n, k) and the prior SN ratio (priori SNR) ξ (n, k) are the intensity (power) μ (n, k) of the noise spectrum N generated by the noise estimation unit 42. Is expressed by the following equations (8a) and (8b). The function value F [x] of Expression (8b) is set to the variable x when the variable x is a positive number, and is set to zero when the variable x is zero or a negative number. In addition, the coefficient α SNR in Expression (8b) is a predetermined positive number less than 1.
γ (n, k) = XB2 (n, k) 2 / μ (n, k) (8a)
ξ (n, k) = A (n, k) 2 / μ (n, k)
= Α SNR · A 2 (n−1, k) / μ (n, k) + (1−α SNR ) · F [γ (n, k) −1] (8b)

強調ゲイン系列Gのゲインg(n,k)は、数式(8a)の事後SN比γ(n,k)と数式(8b)の事前SN比ξ(n,k)とを利用して、例えば以下の数式(9)から数式(13)で表現される。第1処理部621は、数式(9)から数式(13)の何れかの演算を実行することで強調ゲイン系列Gのゲインg(n,1)〜g(n,K)を単位区間毎に順次に算定する。

Figure 2010217551

Figure 2010217551

Figure 2010217551
The gain g (n, k) of the emphasized gain series G is obtained by using, for example, the a posteriori SN ratio γ (n, k) in Expression (8a) and the prior SN ratio ξ (n, k) in Expression (8b). It is expressed by the following formula (9) to formula (13). The first processing unit 621 calculates the gains g (n, 1) to g (n, K) of the enhancement gain series G for each unit section by executing any one of the equations (9) to (13). Calculate sequentially.

Figure 2010217551

Figure 2010217551

Figure 2010217551

数式(10)および数式(11)は数式(9)の近似式である。ただし、数式(11)は、事前SN比ξ(n,k)が1よりも充分に小さい場合に成立する。数式(9)や数式(10)の関数F1(-0.5,1,-ν)は、以下の数式で定義される。関数I0は、0次の変形ベッセル関数を意味し、関数I1は、1次の変形ベッセル関数を意味する。また、数式(10)および数式(11)における係数qは、所定の正数(例えば0.20)に設定される。

Figure 2010217551
Expressions (10) and (11) are approximate expressions of Expression (9). However, Equation (11) is established when the prior SN ratio ξ (n, k) is sufficiently smaller than 1. The function F1 (−0.5,1, −ν) of the formulas (9) and (10) is defined by the following formulas. The function I0 means a zero-order modified Bessel function, and the function I1 means a first-order modified Bessel function. In addition, the coefficient q in Expression (10) and Expression (11) is set to a predetermined positive number (for example, 0.20).

Figure 2010217551

また、以下の数式(12)は、MAP推定を利用したゲインg(n,k)の演算式であり、数式(13)は、ウィナーフィルタ(Wiener filter)を利用したゲインg(n,k)の演算式である。なお、数式(12)における係数φおよび係数τは、非目的音スペクトルQB2の確率分布の形状を定める定数(例えば、φ=0.126,τ=1,74 or 3.0)である。

Figure 2010217551

Figure 2010217551
The following equation (12) is an arithmetic expression of gain g (n, k) using MAP estimation, and equation (13) is a gain g (n, k) using a Wiener filter. This is an arithmetic expression. Note that the coefficient φ and the coefficient τ in Expression (12) are constants (for example, φ = 0.126, τ = 1,74 or 3.0) that define the shape of the probability distribution of the non-target sound spectrum QB2.

Figure 2010217551

Figure 2010217551

図1の合成部54は、以上の手順で非目的変動音が抑圧された非目的音スペクトルQB3と雑音抑圧部44が生成した目的音スペクトルQA2とを合成することで単位区間毎に出力スペクトルRを生成する。出力スペクトルRは、目的音スペクトルQA2のうち目的音周波数FAに選別された各周波数fkの強度XA2(n,k)と非目的音スペクトルQB3のうち非目的音周波数FBに選別された各周波数fkの強度XB3(n,k)とを周波数軸に沿って配列した系列である。以上のように目的音スペクトルQA2と非目的音スペクトルQB3とが合成されるから、目的音スペクトルQA2のみから再生音が生成される構成と比較して、聴感上で自然な再生音が再生されるという利点がある。   The synthesizing unit 54 in FIG. 1 synthesizes the non-target sound spectrum QB3 in which the non-target fluctuation sound is suppressed and the target sound spectrum QA2 generated by the noise suppressing unit 44 by the above procedure, thereby outputting the output spectrum R for each unit section. Is generated. The output spectrum R includes the intensity XA2 (n, k) of each frequency fk selected as the target sound frequency FA in the target sound spectrum QA2 and each frequency fk selected as the non-target sound frequency FB out of the non-target sound spectrum QB3. The intensity XB3 (n, k) is arranged along the frequency axis. As described above, since the target sound spectrum QA2 and the non-target sound spectrum QB3 are synthesized, compared with a configuration in which a reproduced sound is generated only from the target sound spectrum QA2, a natural reproduced sound is reproduced in terms of audibility. There is an advantage.

逆変換部56は、各単位区間の出力スペクトルRを逆FFT処理で時間領域の信号に変換し、各単位区間の変換後の信号を時間軸上で相互に連結することで音信号SOUTを生成する。放音機器(図示略)に音信号SOUTが供給されることで、非目的音が抑制されるとともに目的音が強調された再生音が放音される。   The inverse conversion unit 56 converts the output spectrum R of each unit section into a time domain signal by inverse FFT processing, and generates a sound signal SOUT by connecting the converted signals of each unit section to each other on the time axis. To do. By supplying the sound signal SOUT to the sound emitting device (not shown), the reproduction sound in which the non-target sound is suppressed and the target sound is emphasized is emitted.

いま、強度調整部52による調整後の非目的音スペクトルQB2を合成部54にて目的音スペクトルQA2と合成する構成(すなわち、変動音抑圧部60を省略した構成)を第1実施形態との対比例2として想定する。対比例2においても、抑圧係数pを小さい数値(例えば0.01)に設定すれば、非目的定常音および非目的変動音の双方を充分に抑圧することが可能である。しかし、非目的音を過剰に抑圧すると、再生音における周波数軸上および時間軸上での強度の変化が過大となり、再生音にミュージカルノイズが発生するという問題がある。目的音周波数FAと非目的音周波数FBとの誤選別が発生し易い環境(例えばSN比が低い環境)では特に、実際には目的音が優勢である周波数fkについて、非目的音周波数FBに誤選別されて強度調整部52にて抑圧される状態と、目的音周波数FAに適切に選別されて抑圧されない状態とが、短時間で交互に切替わるから、時間軸上の強度の変化に起因したミュージカルノイズは格別に顕在化し易い。したがって、非目的音の抑圧とミュージカルノイズの低減とを両立するという観点からすると、抑圧係数pとしては0.5程度の数値が好適である。   Now, a configuration in which the non-target sound spectrum QB2 adjusted by the intensity adjusting unit 52 is combined with the target sound spectrum QA2 by the combining unit 54 (that is, a configuration in which the fluctuation sound suppressing unit 60 is omitted) is a pair with the first embodiment. Assumed as proportional 2. In contrast 2 as well, if the suppression coefficient p is set to a small value (for example, 0.01), it is possible to sufficiently suppress both the non-target steady sound and the non-target fluctuation sound. However, if the non-target sound is excessively suppressed, there is a problem that the intensity change on the frequency axis and the time axis in the reproduced sound becomes excessive and musical noise is generated in the reproduced sound. Especially in an environment where misselection between the target sound frequency FA and the non-target sound frequency FB is likely to occur (for example, an environment where the S / N ratio is low), the frequency fk where the target sound is actually dominant is erroneously set as the non-target sound frequency FB. The state that is selected and suppressed by the intensity adjustment unit 52 and the state that is appropriately selected and not suppressed by the target sound frequency FA are alternately switched in a short time, which is caused by a change in intensity on the time axis. Musical noise is particularly easily manifested. Therefore, from the viewpoint of achieving both suppression of non-target sound and reduction of musical noise, a value of about 0.5 is preferable as the suppression coefficient p.

しかし、対比例2において抑圧係数pを大きい数値(例えば0.5)に設定すると、非目的音の抑圧の度合が低減される。したがって、非目的音が充分な強度を維持したまま再生され、目的音の聴取が困難になるという問題がある。もっとも、非目的定常音については、目的音(典型的には音声)と音響的な特性が相違する場合が多く、しかも、雑音抑圧部44にて目的音スペクトルQA1から抑圧されているから、高目の抑圧係数pのもとで再生音に混合されても深刻な問題にはならない。一方、非目的変動音(典型的には音声)は目的音と音響的な特性が類似する場合が多く、雑音抑圧部44による処理では抑圧されない。したがって、高目の抑圧係数pのもとで非目的変動音が充分な強度を維持したまま再生されると、目的音の聴取が困難になるという問題は格別に深刻となる。   However, when the suppression coefficient p is set to a large value (for example, 0.5) in the proportionality 2, the degree of suppression of the non-target sound is reduced. Therefore, there is a problem that the non-target sound is reproduced while maintaining a sufficient intensity, and it becomes difficult to listen to the target sound. However, the non-target stationary sound often has an acoustic characteristic different from that of the target sound (typically speech), and is suppressed from the target sound spectrum QA1 by the noise suppression unit 44. Even if it is mixed with the reproduced sound under the eye suppression coefficient p, there is no serious problem. On the other hand, the non-target fluctuation sound (typically voice) often has similar acoustic characteristics to the target sound and is not suppressed by the processing by the noise suppression unit 44. Therefore, if the non-target fluctuation sound is reproduced with sufficient intensity maintained under the high suppression coefficient p, the problem that it becomes difficult to listen to the target sound becomes particularly serious.

第1実施形態においては、強度調整部52による処理後の非目的音スペクトルQB2から非目的変動音が抑圧されたうえで目的音スペクトルQA2と合成されるから、ミュージカルノイズの低減のために抑圧係数pを高目に設定した場合であっても、非目的変動音を抑圧しながら、目的音の聴取が容易な再生音を生成することが可能である。すなわち、第1実施形態によれば、ミュージカルノイズの低減と非目的変動音の抑圧とを両立することが可能である。   In the first embodiment, since the non-target fluctuation sound is suppressed from the non-target sound spectrum QB2 processed by the intensity adjustment unit 52 and then synthesized with the target sound spectrum QA2, a suppression coefficient is used to reduce musical noise. Even when p is set to a high value, it is possible to generate a reproduced sound in which the target sound can be easily heard while suppressing the non-target fluctuation sound. That is, according to the first embodiment, it is possible to achieve both reduction of musical noise and suppression of non-target fluctuation sound.

なお、非目的音スペクトルQB3と同様に、雑音スペクトルNにおいても非目的変動音が抑圧されている。したがって、非目的音スペクトルQB3の代わりに雑音スペクトルNを合成部54での目的音スペクトルQA2との合成に適用する構成でも、ミュージカルノイズの低減と非目的変動音の抑圧との両立という前述の効果は実現される。しかし、雑音スペクトルNには、過去の複数の単位区間にわたる非目的音スペクトルQB1の強度XB1(n,k)が累積的に反映される(時間軸の方向に平滑化される)から、雑音スペクトルNと目的音スペクトルQA2とを合成した再生音は聴感上で不自然な音響となる。一方、第1実施形態においては、単位区間毎に独立に生成された非目的音スペクトルQB3が目的音スペクトルQA2との合成に適用されるから、聴感上で自然な印象の再生音を生成できるという利点がある。   Note that the non-target fluctuation sound is suppressed in the noise spectrum N as well as the non-target sound spectrum QB3. Therefore, even in the configuration in which the noise spectrum N is applied to the synthesis of the target sound spectrum QA2 in the synthesizer 54 instead of the non-target sound spectrum QB3, the above-described effect of achieving both the reduction of the musical noise and the suppression of the non-target fluctuation sound. Is realized. However, the noise spectrum N cumulatively reflects the intensity XB1 (n, k) of the non-target sound spectrum QB1 over a plurality of past unit intervals (smoothed in the direction of the time axis). The reproduced sound obtained by synthesizing N and the target sound spectrum QA2 is unnatural in terms of hearing. On the other hand, in the first embodiment, since the non-target sound spectrum QB3 generated independently for each unit section is applied to the synthesis with the target sound spectrum QA2, it is possible to generate a reproduced sound with a natural impression on hearing. There are advantages.

非目的変動音を高精度に抑圧できる抑圧ゲイン系列Hを特定するためには、非目的定常音を正確に推定した雑音スペクトルN(強度μ(n,k))を強調ゲイン系列Gのゲインg(n,k)の算定(数式(9)〜(13))に使用することが重要である。すなわち、雑音スペクトルNに非目的変動音が残存していると、抑圧ゲイン系列Hの推定の精度が低下する。第1実施形態においては、図5に例示したように非目的変動音を高精度に除去した雑音スペクトルNが生成されるから、非目的変動音を高精度に抑圧できる適切な抑圧ゲイン系列Hをゲイン設定部62にて生成することが可能である。   In order to specify the suppression gain sequence H that can suppress the non-target fluctuation sound with high accuracy, the noise spectrum N (intensity μ (n, k)) obtained by accurately estimating the non-target stationary sound is used as the gain g of the enhancement gain sequence G. It is important to use it for the calculation of (n, k) (formulas (9) to (13)). That is, if non-target fluctuation sound remains in the noise spectrum N, the accuracy of estimation of the suppression gain sequence H is lowered. In the first embodiment, as illustrated in FIG. 5, the noise spectrum N is generated by removing the non-target fluctuation sound with high accuracy. Therefore, an appropriate suppression gain sequence H that can suppress the non-target fluctuation sound with high accuracy is generated. It can be generated by the gain setting unit 62.

<B:第2実施形態>
次に、本発明の第2実施形態について説明する。以下の各態様において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In the following aspects, elements having the same functions and functions as those of the first embodiment are denoted by the same reference numerals as above, and detailed descriptions thereof are omitted as appropriate.

第2実施形態におけるゲイン設定部62の第2処理部622は、第1実施形態の数式(6)の代わりに以下の数式(6a)を実行することで、第1処理部621が生成した強調ゲイン系列Gの各ゲインg(n,k)から抑圧ゲイン系列Hの各ゲインh(n,k)を生成する。すなわち、第2処理部622は、強調ゲイン系列Gのゲインg(n,k)と調整値w(n,k)との乗算値を所定値(本形態では1)から減算することで、抑圧ゲイン系列Hのゲインh(n,k)を算定する。
h(n,k)=1−w(n,k)・g(n,k) ……(6a)
The second processing unit 622 of the gain setting unit 62 in the second embodiment executes the following mathematical formula (6a) instead of the mathematical formula (6) of the first embodiment, so that the enhancement generated by the first processing unit 621 is performed. Each gain h (n, k) of the suppression gain sequence H is generated from each gain g (n, k) of the gain sequence G. That is, the second processing unit 622 subtracts the multiplication value of the gain g (n, k) of the enhancement gain series G and the adjustment value w (n, k) from a predetermined value (1 in this embodiment), thereby suppressing the suppression. The gain h (n, k) of the gain series H is calculated.
h (n, k) = 1-w (n, k) · g (n, k) (6a)

調整値w(n,k)(w(n,1)〜w(n,K))は、K個の周波数f1〜fKの各々について単位区間毎に設定される。数式(6a)や数式(5)(抑圧処理部64による演算)から理解されるように、調整値w(n,k)が大きいほど(ゲインh(n,k)が小さいほど)、非目的音スペクトルQB2のうちの非目的変動音が抑圧される度合は大きい(調整値w(n,k)が小さいほど非目的変動音の抑圧の度合は小さい)。   The adjustment value w (n, k) (w (n, 1) to w (n, K)) is set for each unit interval for each of the K frequencies f1 to fK. As understood from the mathematical formulas (6a) and (5) (calculation by the suppression processing unit 64), the larger the adjustment value w (n, k) (the smaller the gain h (n, k)), the non-purpose. The degree to which the non-objective fluctuation sound in the sound spectrum QB2 is suppressed is large (the degree of suppression of the non-objective fluctuation sound is small as the adjustment value w (n, k) is small).

非目的音(特に非目的定常音)が多い環境でゲインh(n,k)を過度に小さい数値に設定すると、抑圧処理部64での非目的変動音の過剰な抑圧に起因して非目的音スペクトルQB3に雑音が発生する可能性がある。そこで、第2処理部622は、非目的音の状態(強度)に応じて調整値w(n,k)を可変に設定する。具体的には、第2処理部622は、雑音スペクトルNの強度μ(n,k)が大きいほど調整値w(n,k)を小さい数値に設定する。したがって、強度μ(n,k)が大きいほどゲインh(n,k)は大きい数値に設定される(すなわち、非目的変動音の抑圧は緩和される)。一方、雑音スペクトルNの強度μ(n,k)が小さいほど、非目的変動音の抑圧の度合は増加する。   If the gain h (n, k) is set to an excessively small value in an environment where there are many non-target sounds (particularly non-target steady sounds), the non-target is caused by excessive suppression of the non-target fluctuation sound in the suppression processing unit 64. Noise may occur in the sound spectrum QB3. Therefore, the second processing unit 622 variably sets the adjustment value w (n, k) according to the state (intensity) of the non-target sound. Specifically, the second processing unit 622 sets the adjustment value w (n, k) to a smaller numerical value as the intensity μ (n, k) of the noise spectrum N is larger. Therefore, the gain h (n, k) is set to a larger value as the intensity μ (n, k) is larger (that is, suppression of non-objective fluctuation sound is alleviated). On the other hand, the degree of suppression of non-target fluctuation sound increases as the intensity μ (n, k) of the noise spectrum N is smaller.

以上の形態においては、抑圧ゲイン系列Hのゲインh(n,k)が調整値w(n.k)に応じて調整されるから、抑圧処理部64による非目的変動音の抑圧の度合を調整値w(n.k)に応じて適宜に設定することが可能である。特に、非目的音の状態に応じて調整値w(n.k)が可変に設定されるから、抑圧ゲイン系列Hのゲインh(n,k)を、非目的音の状態に応じた適切な数値に設定できるという利点がある。例えば、非目的音(特に非目的定常音)が多い環境において、非目的変動音の過剰な抑圧に起因した雑音を低減することが可能である。   In the above embodiment, since the gain h (n, k) of the suppression gain sequence H is adjusted according to the adjustment value w (nk), the degree of suppression of non-target fluctuation sound by the suppression processing unit 64 is adjusted. It is possible to set appropriately according to (nk). In particular, since the adjustment value w (nk) is variably set according to the state of the non-target sound, the gain h (n, k) of the suppression gain sequence H is set to an appropriate value according to the state of the non-target sound. There is an advantage that it can be set. For example, in an environment where there are many non-target sounds (particularly non-target steady sounds), it is possible to reduce noise caused by excessive suppression of non-target fluctuation sounds.

<C:変形例>
以上に例示した各形態には様々に変形される。具体的な変形の態様を以下に例示する。なお、以下の例示から2以上の態様を任意に選択して組合せてもよい。
<C: Modification>
Various modifications can be made to the embodiments exemplified above. Specific modifications are exemplified below. Two or more aspects may be arbitrarily selected from the following examples and combined.

(1)変形例1
音源分離部30による分離後の目的音スペクトルQA1が直接に(すなわち雑音抑圧部44を経由せずに)合成部54に供給される構成であっても、変動音抑圧部60における非目的変動音の抑圧後の非目的音スペクトルQB3が目的音スペクトルQA1と合成される以上は、目的音の聴取が容易な自然な音響を生成するという所期の効果は実現される。したがって、以上の各形態における雑音抑圧部44は省略され得る。なお、以上の各形態の音処理装置100は、強度特定部36が周波数スペクトルPLRから周波数スペクトルP0を減算することで目的音スペクトルQA1を生成する構成(強度特定部36による処理で非目的音が抑制される構成)や、強度調整部52にて非目的音スペクトルQB2の強度XB1(n,k)を低減する構成を具備するから、雑音抑圧部44を省略した場合であっても、非目的定常音を抑圧した再生音を生成することは可能である。
(1) Modification 1
Even if the target sound spectrum QA1 separated by the sound source separation unit 30 is directly supplied to the synthesis unit 54 (that is, not via the noise suppression unit 44), the non-target variation sound in the variation sound suppression unit 60 is provided. As long as the non-target sound spectrum QB3 after suppression is synthesized with the target sound spectrum QA1, the desired effect of generating natural sound that allows easy listening of the target sound is realized. Therefore, the noise suppression unit 44 in each of the above forms can be omitted. Note that the sound processing apparatus 100 of each of the above forms a configuration in which the intensity specifying unit 36 generates the target sound spectrum QA1 by subtracting the frequency spectrum P0 from the frequency spectrum PLR (the non-target sound is generated by the processing by the intensity specifying unit 36). And a configuration for reducing the intensity XB1 (n, k) of the non-target sound spectrum QB2 by the intensity adjustment unit 52, so that even if the noise suppression unit 44 is omitted, the non-purpose It is possible to generate a reproduced sound in which a stationary sound is suppressed.

(2)変形例2
音源分離部30による分離後の非目的音スペクトルQB1が直接に(すなわち強度調整部52を経由せずに)変動音抑圧部60に供給される構成であっても、変動音抑圧部60における非目的変動音の抑圧後の非目的音スペクトルQB3が目的音スペクトルQA1と合成される以上は、目的音の聴取が容易な自然な音響を生成するという所期の効果は実現される。したがって、以上の各形態における強度調整部52は省略され得る。また、強度調整部52と変動音抑圧部60とを置換した構成(すなわち、変動音抑圧部60が生成した非目的音スペクトルQB3の各強度XB3(n,k)に強度調整部52が抑圧係数pを乗算する構成)も採用される。
(2) Modification 2
Even if the non-target sound spectrum QB1 after separation by the sound source separation unit 30 is directly supplied to the fluctuation sound suppression unit 60 (that is, not via the intensity adjustment unit 52), the non-target sound spectrum QB1 is not detected in the fluctuation sound suppression unit 60. As long as the non-target sound spectrum QB3 after suppression of the target fluctuation sound is synthesized with the target sound spectrum QA1, the desired effect of generating natural sound that is easy to listen to the target sound is realized. Therefore, the intensity adjusting unit 52 in each of the above forms can be omitted. Further, the intensity adjustment unit 52 and the fluctuation sound suppression unit 60 are replaced (that is, the intensity adjustment unit 52 suppresses the suppression coefficient to each intensity XB3 (n, k) of the non-target sound spectrum QB3 generated by the fluctuation sound suppression unit 60. A configuration in which p is multiplied is also employed.

(3)変形例3
雑音推定部42が雑音スペクトルNを推定する方法は任意である。例えば、重み付き雑音推定や最小統計法(minimum statistics)も雑音スペクトルNの推定に好適に採用される。重み付き雑音推定については、加藤正徳,杉山昭彦,芹沢昌弘,"重み付き雑音推定とMMSE STSA法に基づく高音質雑音抑圧",信学論(A),vol.J87-A,no.7,p. 851-860,July 2004に開示され、最小統計法については、R.Martin, "Spectral subtraction based on minimum statistics," in Proc. Eur. Signal Processing Conf., 1994, p. 1182-1185に開示されている。以上のように非目的音スペクトルQB1は雑音スペクトルNの推定に必須の要素ではない。例えば、目的音が停止している期間(すなわち非目的音のみが存在する期間)内の音信号S1や音信号S2から雑音スペクトルNを推定する構成も好適である。
(3) Modification 3
The method by which the noise estimation unit 42 estimates the noise spectrum N is arbitrary. For example, weighted noise estimation and minimum statistics are also preferably used for estimating the noise spectrum N. For weighted noise estimation, Masanori Kato, Akihiko Sugiyama, Masahiro Serizawa, "High-quality noise suppression based on weighted noise estimation and MMSE STSA method", IEICE (A), vol.J87-A, no.7, p. 851-860, July 2004, and minimum statistics are disclosed in R. Martin, “Spectral subtraction based on minimum statistics,” in Proc. Eur. Signal Processing Conf., 1994, p. 1182-1185 Has been. As described above, the non-target sound spectrum QB1 is not an essential element for estimating the noise spectrum N. For example, a configuration in which the noise spectrum N is estimated from the sound signal S1 and the sound signal S2 within a period in which the target sound is stopped (that is, a period in which only the non-target sound exists) is also suitable.

(4)変形例4
ゲイン設定部62が抑圧ゲイン系列H(h(n,1)〜h(n,K))を設定する方法は任意である。例えば、以上の各形態においては非目的音スペクトルQB2の強度XB2(n,k)を抑圧ゲイン系列Hの生成に利用したが、非目的音スペクトルQB2と雑音抑圧部44による処理後の目的音スペクトルQA2(または音源分離部30による分離後の目的音スペクトルQA1)とを合成したスペクトルを数式(7)の左辺(XB2(n,k)ejθb(n,k))に適用することで抑圧ゲイン系列H(強調ゲイン系列G)を生成する構成も好適である。以上の構成によれば、非目的音スペクトルQB2のみを利用した場合と比較して、非目的変動音を高精度に抑圧できる抑圧ゲイン系列Hを生成することが可能である。
(4) Modification 4
The method by which the gain setting unit 62 sets the suppression gain sequence H (h (n, 1) to h (n, K)) is arbitrary. For example, in each of the above embodiments, the intensity XB2 (n, k) of the non-target sound spectrum QB2 is used to generate the suppression gain sequence H. However, the target sound spectrum processed by the non-target sound spectrum QB2 and the noise suppression unit 44 is used. Applying the spectrum synthesized with QA2 (or the target sound spectrum QA1 after separation by the sound source separation unit 30) to the left side of the equation (7) ( XB2 (n, k) e jθb (n, k) ), the suppression gain A configuration for generating the series H (enhanced gain series G) is also suitable. According to the above configuration, it is possible to generate the suppression gain sequence H that can suppress the non-target fluctuation sound with higher accuracy than when only the non-target sound spectrum QB2 is used.

また、以上の各形態においては強調ゲイン系列Gから抑圧ゲイン系列Hを生成したが、抑圧ゲイン系列Hを直接に(すなわち強調ゲイン系列Gを利用せずに)生成する構成も採用される。もっとも、抑圧ゲイン系列Hの特定は、非目的変動音を抑圧する方法の例示に過ぎず、本発明の必須の要素ではない。例えば、非目的変動音の周波数が既知である場合、当該周波数の成分を抑圧するフィルタが変動音抑圧部60として採用される。すなわち、変動音抑圧部60は、非目的音スペクトルQB2のうちの非目的変動音の強度を抑圧する要素として包括され、抑圧ゲイン系列Hの生成の有無や非目的変動音の抑圧の方法の如何は不問である。   In each of the above embodiments, the suppression gain sequence H is generated from the enhancement gain sequence G. However, a configuration in which the suppression gain sequence H is generated directly (that is, without using the enhancement gain sequence G) is also employed. However, the specification of the suppression gain series H is merely an example of a method for suppressing the non-target fluctuation sound, and is not an essential element of the present invention. For example, when the frequency of the non-target fluctuation sound is known, a filter that suppresses the component of the frequency is employed as the fluctuation sound suppression unit 60. In other words, the fluctuation sound suppression unit 60 is included as an element for suppressing the intensity of the non-target fluctuation sound in the non-target sound spectrum QB2, and whether or not the suppression gain sequence H is generated and how the non-target fluctuation sound is suppressed. Is unquestionable.

(5)変形例5
第2実施形態においては、K個の周波数f1〜fKの各々について調整値w(n,k)を個別に設定したが、複数の周波数fkについて共通の調整値wを適用する構成も採用される。例えば、周波数軸上に画定された複数の帯域の各々について個別に調整値wが設定される。1個の帯域の調整値wは、当該帯域内の各周波数fkにおける強度μ(n,k)の平均値や合計値(すなわち、帯域内の非目的音の状態)に応じて可変に設定される。ゲイン設定部62(第2処理部622)は、1個の帯域に属する各周波数fkのゲインh(n,k)を、当該帯域について設定した共通の調整値wから数式(6a)で算定する。また、K個の周波数f1〜fKの各々のゲインh(n,1)〜h(n,K)の算定に共通の調整値wを適用した構成も採用される。以上の各構成においては、周波数fk毎に調整値w(n,k)を算定する構成と比較して、調整値wの算定の負荷が軽減されるという利点がある。
(5) Modification 5
In the second embodiment, the adjustment value w (n, k) is individually set for each of the K frequencies f1 to fK. However, a configuration in which a common adjustment value w is applied to a plurality of frequencies fk is also employed. . For example, the adjustment value w is individually set for each of a plurality of bands defined on the frequency axis. The adjustment value w of one band is variably set according to the average value or total value (that is, the state of the non-target sound in the band) of the intensity μ (n, k) at each frequency fk in the band. The The gain setting unit 62 (second processing unit 622) calculates the gain h (n, k) of each frequency fk belonging to one band from the common adjustment value w set for the band, using Expression (6a). . A configuration in which a common adjustment value w is applied to the calculation of the gains h (n, 1) to h (n, K) of the K frequencies f1 to fK is also adopted. Each of the above configurations has an advantage that the load for calculating the adjustment value w is reduced as compared with the configuration for calculating the adjustment value w (n, k) for each frequency fk.

第2実施形態においては、雑音スペクトルNの強度μ(n,k)に応じてゲインh(n,k)を可変に制御したが、各周波数fkのSN比も調整値w(n,k)の制御に利用される。周波数fkのSN比は、例えば、雑音スペクトルNの強度μ(n,k)(または非目的音スペクトルQB1の強度XB1(n,k))に対する目的音スペクトルQA1の強度XA1(n,k)の相対比として算定される。第2処理部622は、SN比が低いほど調整値w(n,k)を小さい数値に設定する。調整値wの制御にSN比を利用する場合にも、各周波数fkのSN比に応じて帯域毎に調整値wを算定する構成や、周波数f1〜fKの各SN比に応じて全帯域に共通の調整値wを算定する構成が採用される。   In the second embodiment, the gain h (n, k) is variably controlled according to the intensity μ (n, k) of the noise spectrum N. However, the SN ratio of each frequency fk is also adjusted by the adjustment value w (n, k). It is used for control. The SN ratio of the frequency fk is, for example, the intensity XA1 (n, k) of the target sound spectrum QA1 with respect to the intensity μ (n, k) of the noise spectrum N (or the intensity XB1 (n, k) of the non-target sound spectrum QB1). Calculated as a relative ratio. The second processing unit 622 sets the adjustment value w (n, k) to a smaller numerical value as the SN ratio is lower. Even when the S / N ratio is used to control the adjustment value w, the adjustment value w is calculated for each band according to the S / N ratio of each frequency fk, and the entire band is set according to each S / N ratio of the frequencies f1 to fK. A configuration for calculating the common adjustment value w is employed.

また、非目的音の状態(強度μ(n,k)やSN比)と調整値wの増減との関係は以上の例示に限定されない。例えば、非目的音の特性によっては、強度μ(n,k)が大きいほど(SN比が低いほど)、調整値w(n,k)を大きい数値に設定する構成が採用され得る。もっとも、調整値wが可変値である構成は本発明において必須ではなく、調整値wを所定値に固定した構成も採用される。また、調整値wの制御に非目的音の状態(強度μ(n,k)やSN比)を利用する構成も必須ではない。例えば、再生音に要求される音質に応じて調整値wが設定され得る。   Further, the relationship between the state of the non-target sound (intensity μ (n, k) and SN ratio) and the increase / decrease of the adjustment value w is not limited to the above examples. For example, depending on the characteristics of the non-target sound, a configuration may be adopted in which the adjustment value w (n, k) is set to a larger value as the intensity μ (n, k) is larger (as the SN ratio is lower). However, a configuration in which the adjustment value w is a variable value is not essential in the present invention, and a configuration in which the adjustment value w is fixed to a predetermined value is also employed. Also, a configuration that uses the state of the non-target sound (intensity μ (n, k) or SN ratio) for controlling the adjustment value w is not essential. For example, the adjustment value w can be set according to the sound quality required for the reproduced sound.

なお、調整値w(n,k)を利用して抑圧ゲイン系列H(ゲインh(n,k))を調整する演算の内容は数式(6a)に限定されない。例えば、第2処理部622が数式(6a)の代わりに以下の数式(6b)の演算を実行する構成も好適である。すなわち、第2処理部622は、所定値(本形態では1)と強調ゲイン系列Gのゲインg(n,k)との差分値に可変の調整値w(n,k)を乗算することで、抑圧ゲイン系列Hのゲインh(n,k)を算定する。
h(n,k)=w(n,k)・{1−g(n,k)} ……(6b)
数式(6b)を利用した場合、数式(6a)を利用した場合とは逆に、調整値w(n,k)が大きいほどゲインh(n,k)は増加する(すなわち、非目的変動音の抑圧の度合は減少する)。第2処理部622は、雑音スペクトルNの強度μ(n,k)が大きいほど調整値w(n,k)を大きい数値に設定する。したがって、第2実施形態と同様に、強度μ(n,k)が大きいほどゲインh(n,k)は大きい数値に設定される。また、各周波数fkのSN比が低いほど数式(6b)の調整値w(n,k)を大きい数値に設定する構成も採用される。もっとも、数式(6b)の調整値w(n,k)についても、非目的音の状態(強度μ(n,k)やSN比)との関係は任意に選定される。以上のように数式(6a)や数式(6b)の演算は、強調ゲイン系列Gと調整値w(n,k)とに応じて抑圧ゲイン系列H(ゲインh(n,k))を生成する処理として包括される。
Note that the content of the calculation for adjusting the suppression gain sequence H (gain h (n, k)) using the adjustment value w (n, k) is not limited to Equation (6a). For example, a configuration in which the second processing unit 622 executes the following expression (6b) instead of the expression (6a) is also preferable. That is, the second processing unit 622 multiplies the difference value between the predetermined value (1 in this embodiment) and the gain g (n, k) of the enhancement gain series G by the variable adjustment value w (n, k). Then, the gain h (n, k) of the suppression gain series H is calculated.
h (n, k) = w (n, k). {1-g (n, k)} (6b)
When Equation (6b) is used, contrary to the case where Equation (6a) is used, gain h (n, k) increases as adjustment value w (n, k) increases (that is, non-target fluctuation sound). The degree of repression will decrease). The second processing unit 622 sets the adjustment value w (n, k) to a larger value as the intensity μ (n, k) of the noise spectrum N is larger. Therefore, as in the second embodiment, the gain h (n, k) is set to a larger value as the intensity μ (n, k) is larger. In addition, a configuration is adopted in which the adjustment value w (n, k) of Equation (6b) is set to a larger value as the SN ratio of each frequency fk is lower. Of course, the relationship between the adjustment value w (n, k) of Equation (6b) and the state of the non-target sound (intensity μ (n, k) and SN ratio) is arbitrarily selected. As described above, the calculations of the formulas (6a) and (6b) generate the suppression gain series H (gain h (n, k)) according to the enhancement gain series G and the adjustment value w (n, k). It is included as a process.

(6)変形例6
第1実施形態においては、非目的音スペクトルQB1の強度XB1(n,k)が閾値XTHを上回る場合に、過去の雑音スペクトルNの強度μ(n-1,k)を第n番目の雑音スペクトルNの強度μ(n,k)に設定した。以上の構成によれば、非目的変動音の影響を雑音スペクトルNから除去できる一方、閾値XTHを上回る強度XB1(n,k)で音処理装置100の動作中に新たに発生し始めて継続する非目的定常音(以下では特に「新規定常音」という)も雑音スペクトルNから除去される。したがって、新規定常音の抑圧が不足する可能性がある。変形例6は、以上の問題を解消する構成である。
(6) Modification 6
In the first embodiment, when the intensity XB1 (n, k) of the non-target sound spectrum QB1 exceeds the threshold value XTH, the intensity μ (n-1, k) of the past noise spectrum N is changed to the nth noise spectrum. The intensity of N was set to μ (n, k). According to the above configuration, the influence of the non-objective fluctuation sound can be removed from the noise spectrum N, while the noise XB1 (n, k) exceeding the threshold value XTH is newly generated during the operation of the sound processing apparatus 100 and continues. The target stationary sound (hereinafter, particularly referred to as “new stationary sound”) is also removed from the noise spectrum N. Therefore, there is a possibility that the suppression of the new stationary sound is insufficient. The modification 6 is a structure which eliminates the above problem.

変形例6においては図4のステップS5の処理が第1実施形態とは相違する。非目的音スペクトルQB1の強度XB1(n,k)が閾値XTHを上回る場合(すなわち、非目的変動音または新規定常音が発生した場合)、雑音推定部42は、第1実施形態の数式(3)に代えて、以下の数式(3a)の演算を実行する。すなわち、雑音推定部42は、第(n-1)番目の雑音スペクトルNの強度μ(n-1,k)と係数βとの乗算値を、第n番目の雑音スペクトルNの強度μ(n,k)として設定する(ステップS5)。
μ(n,k)=β・μ(n-1,k) ……(3a)
In the modification 6, the process of step S5 of FIG. 4 is different from that of the first embodiment. When the intensity XB1 (n, k) of the non-target sound spectrum QB1 exceeds the threshold value XTH (that is, when a non-target fluctuation sound or a new stationary sound is generated), the noise estimation unit 42 calculates the mathematical expression (3 ), The following equation (3a) is executed. That is, the noise estimator 42 multiplies the intensity μ (n−1, k) of the (n−1) th noise spectrum N by the coefficient β, and the intensity μ (n) of the nth noise spectrum N. , k) (step S5).
μ (n, k) = β ・ μ (n-1, k) …… (3a)

係数βは、1を上回る所定値(例えば1.01)に設定される。したがって、強度XB1(n,k)が閾値XTHを上回る状態が継続する複数の単位区間において、雑音スペクトルNの強度μ(n,k)は経時的に増加して非目的音(非目的変動音または新規定常音)の強度に接近する。強度μ(n,k)は、係数βが大きいほど迅速に非目的定常音の強度に接近する。   The coefficient β is set to a predetermined value (for example, 1.01) exceeding 1. Therefore, in a plurality of unit sections in which the intensity XB1 (n, k) exceeds the threshold value XTH, the intensity μ (n, k) of the noise spectrum N increases with time, and the non-target sound (non-target fluctuation sound) Or approach the intensity of a new stationary sound). The intensity μ (n, k) approaches the intensity of the non-target steady sound more rapidly as the coefficient β increases.

以上の形態においては、雑音スペクトルNの強度μ(n,k)が経時的に新規定常音の強度に接近するから、新規定常音の特性を反映した雑音スペクトルNが生成される。したがって、新規定常音を含む非目的音を目的音スペクトルQAから効果的に抑圧することが可能である。   In the above embodiment, since the intensity μ (n, k) of the noise spectrum N approaches the intensity of the new stationary sound over time, the noise spectrum N reflecting the characteristics of the new stationary sound is generated. Therefore, it is possible to effectively suppress non-target sounds including new stationary sounds from the target sound spectrum QA.

なお、新規定常音の発生時だけでなく非目的変動音の発生時にも、雑音スペクトルNの強度μ(n,k)は数式(3a)の演算で経時的に増加する。すなわち、変形例6においては、非目的変動音の発生が雑音スペクトルNの強度μ(n,k)に反映される。しかし、非目的変動音は経時的に変化し易いから、長時間にわたって高い強度に維持される可能性は新規定常音と比較して充分に低い。つまり、非目的変動音が発生した場合であっても、雑音スペクトルNの強度μ(n,k)が非目的変動音に充分に接近する以前に、非目的変動音が閾値XTHを下回る強度に低下する(強度μ(n,k)の算定に数式(2)が適用される)ことで強度μ(n,k)の上昇は抑制される。したがって、強度XB1(n,k)が閾値XTHを上回る場合に雑音スペクトルNの強度μ(n,k)が経時的に上昇するとは言っても、非目的変動音が発生した場合の強度μ(n,k)の上昇は充分に小さい。すなわち、変形例6によれば、新規定常音を反映した雑音スペクトルNを、非目的変動音の影響を充分に抑制しながら生成できるという利点がある。   Note that the intensity μ (n, k) of the noise spectrum N increases with time according to the calculation of Equation (3a) not only when a new stationary sound is generated but also when a non-target fluctuation sound is generated. That is, in the modified example 6, the occurrence of the non-target fluctuation sound is reflected in the intensity μ (n, k) of the noise spectrum N. However, since the non-target fluctuation sound is likely to change with time, the possibility of being maintained at a high intensity for a long time is sufficiently low as compared with the new stationary sound. That is, even when a non-target fluctuation sound is generated, before the intensity μ (n, k) of the noise spectrum N is sufficiently close to the non-target fluctuation sound, the non-target fluctuation sound becomes an intensity below the threshold value XTH. Decreasing (the expression (2) is applied to the calculation of the intensity μ (n, k)) suppresses the increase of the intensity μ (n, k). Therefore, although the intensity μ (n, k) of the noise spectrum N increases with time when the intensity XB1 (n, k) exceeds the threshold value XTH, the intensity μ (when the non-target fluctuation sound is generated. The rise in n, k) is small enough. That is, according to the modified example 6, there is an advantage that the noise spectrum N reflecting the new stationary sound can be generated while sufficiently suppressing the influence of the non-target fluctuation sound.

(7)変形例7
K個の周波数f1〜fKを目的音周波数FAと非目的音周波数FBとに選別する方法は適宜に変更される。具体的には、非特許文献1や特開平10-313497号公報に開示された技術(SAFIA)が目的音周波数FAと非目的音周波数FBとの選別に利用される。例えば、収音機器M1が収音機器M2と比較して目的音の音源に近く、収音機器M2が収音機器M1と比較して非目的音の音源に近い場合を想定する。音源分離部30は、周波数スペクトルP1と周波数スペクトルP2との間でK個の周波数f1〜fKの各々における強度を比較し、周波数スペクトルP1の強度が大きい周波数fkを目的音周波数FAに選別するとともに周波数スペクトルP2の強度が大きい周波数fkを非目的音周波数FBに選別する。以上の構成によれば、図2の信号処理部32が不要となるから音処理装置100の処理や構成が簡素化されるという利点がある。
(7) Modification 7
The method of selecting the K frequencies f1 to fK into the target sound frequency FA and the non-target sound frequency FB is appropriately changed. Specifically, the technique (SAFIA) disclosed in Non-Patent Document 1 and Japanese Patent Laid-Open No. 10-313497 is used for selecting the target sound frequency FA and the non-target sound frequency FB. For example, it is assumed that the sound collection device M1 is closer to the target sound source than the sound collection device M2, and the sound collection device M2 is closer to the non-target sound source than the sound collection device M1. The sound source separation unit 30 compares the intensities of the K frequencies f1 to fK between the frequency spectrum P1 and the frequency spectrum P2, and selects the frequency fk having a high intensity of the frequency spectrum P1 as the target sound frequency FA. A frequency fk having a high intensity of the frequency spectrum P2 is selected as a non-target sound frequency FB. According to the above configuration, since the signal processing unit 32 of FIG. 2 is not required, there is an advantage that the processing and configuration of the sound processing device 100 are simplified.

死角制御型のビームフォーマに代えて、遅延加算型のビームフォーマを信号処理部32(第1処理部321,第2処理部322,第3処理部323)に採用した以下の構成も好適である。第1処理部321は、周波数スペクトルP1と周波数スペクトルP2とを加算することで、方向D0の目的音が強調された周波数スペクトルP0を生成する。第2処理部322は、周波数スペクトルP2と遅延量Dを付加した周波数スペクトルP1とを加算することで、方向DRの非目的音が強調された周波数スペクトルPRを生成する。同様に、第3処理部323は、方向DLの非目的音が強調された周波数スペクトルPLを生成する。第1比較部341は、周波数スペクトルPLRの周波数fkにおける強度を、周波数スペクトルPRの周波数fkにおける強度と周波数スペクトルPLの周波数fkにおける強度とのうちの高い方の強度に設定される。したがって、周波数スペクトルPLRは、方向DRおよび方向DLの非目的音を強調したスペクトルとなる。そして、第2比較部342は、K個の周波数のうち周波数スペクトルPLRの強度が周波数スペクトルP0の強度を上回る周波数を非目的音周波数FBに選別するとともに、K個の周波数のうち周波数スペクトルP0の強度が周波数スペクトルPLRの強度を上回る周波数を目的音周波数FAに選別する。   Instead of the blind spot control type beamformer, the following configuration in which a delay addition type beamformer is adopted in the signal processing unit 32 (first processing unit 321, second processing unit 322, third processing unit 323) is also suitable. . The first processing unit 321 generates the frequency spectrum P0 in which the target sound in the direction D0 is emphasized by adding the frequency spectrum P1 and the frequency spectrum P2. The second processing unit 322 generates the frequency spectrum PR in which the non-target sound in the direction DR is emphasized by adding the frequency spectrum P2 and the frequency spectrum P1 to which the delay amount D is added. Similarly, the third processing unit 323 generates a frequency spectrum PL in which the non-target sound in the direction DL is emphasized. The first comparison unit 341 sets the intensity at the frequency fk of the frequency spectrum PLR to the higher intensity of the intensity at the frequency fk of the frequency spectrum PR and the intensity at the frequency fk of the frequency spectrum PL. Therefore, the frequency spectrum PLR is a spectrum in which the non-target sound in the direction DR and the direction DL is emphasized. Then, the second comparison unit 342 selects, as the non-target sound frequency FB, the frequency of which the intensity of the frequency spectrum PLR exceeds the intensity of the frequency spectrum P0 among the K frequencies, and the frequency spectrum P0 of the K frequencies. A frequency whose intensity exceeds the intensity of the frequency spectrum PLR is selected as the target sound frequency FA.

また、時間領域の音信号S1および音信号S2を信号処理部32が処理する構成も採用される。すなわち、信号処理部32は、音信号S1から音信号S2を減算した信号S0と、遅延量Dを付与した音信号S1を音信号S2から減算した信号SRと、遅延量Dを付与した音信号S2を音信号S1から減算した信号SLとを生成する。信号処理部32の後段に配置された周波数分析部20は、信号S0を周波数スペクトルP0に変換し、信号SRを周波数スペクトルPRに変換し、信号SLを周波数スペクトルPLに変換する。   A configuration in which the signal processing unit 32 processes the sound signal S1 and the sound signal S2 in the time domain is also employed. That is, the signal processing unit 32 subtracts the sound signal S2 from the sound signal S1, the signal SR obtained by subtracting the sound signal S1 provided with the delay amount D from the sound signal S2, and the sound signal provided with the delay amount D. A signal SL obtained by subtracting S2 from the sound signal S1 is generated. The frequency analysis unit 20 arranged at the subsequent stage of the signal processing unit 32 converts the signal S0 into the frequency spectrum P0, converts the signal SR into the frequency spectrum PR, and converts the signal SL into the frequency spectrum PL.

(8)変形例8
非目的音スペクトルQB1の強度XB1(n,k)が閾値XTHを下回る場合(S3:NO)に強度μ(n,k)を算定する方法は数式(2)に限定されない。例えば、第n番目の単位区間を含む所定個の単位区間にわたる強度XB1(n,k)の平均(移動平均)が強度μ(n,k)として算定される。すなわち、強度μ(n,k)の算定に利用される非目的音スペクトルQB1の個数(単位区間の個数)は任意に変更される。
(8) Modification 8
The method of calculating the intensity μ (n, k) when the intensity XB1 (n, k) of the non-target sound spectrum QB1 is lower than the threshold value XTH (S3: NO) is not limited to the formula (2). For example, the average (moving average) of the intensities XB1 (n, k) over a predetermined number of unit sections including the nth unit section is calculated as the intensity μ (n, k). That is, the number of non-target sound spectra QB1 (number of unit sections) used for calculating the intensity μ (n, k) is arbitrarily changed.

また、第2実施形態において、強度XB1(n,k)が閾値XTHを上回る場合(S3:YES)に強度μ(n,k)を算定する方法は、過去の強度μ(n-1,k)と係数βとの乗算(数式(3a))に限定されない。例えば、過去の強度μ(n-1,k)と所定の正数との加算値を強度μ(n,k)として算定する構成も採用される。すなわち、強度XB1(n,k)が閾値XTHを上回る場合に、過去の雑音スペクトルNの強度μ(n-1,k)を上回る数値を強度μ(n,k)として設定する構成が好適である。   In the second embodiment, when the intensity XB1 (n, k) exceeds the threshold value XTH (S3: YES), the method for calculating the intensity μ (n, k) is the past intensity μ (n−1, k). ) And the coefficient β (formula (3a)). For example, a configuration in which an addition value of the past intensity μ (n−1, k) and a predetermined positive number is calculated as the intensity μ (n, k) is also employed. That is, when the intensity XB1 (n, k) exceeds the threshold value XTH, a configuration in which a numerical value exceeding the intensity μ (n−1, k) of the past noise spectrum N is set as the intensity μ (n, k) is preferable. is there.

(9)変形例9
以上の各形態においては単位区間毎に非目的音スペクトルQB3(QB1,QB2)を生成した。しかし、非目的定常音で構成される非目的音スペクトルQB3に時間的な変化が少ないという傾向を考慮すると、複数の単位区間を単位として1個の非目的音スペクトルQB3を生成する構成も採用される。雑音スペクトルNについても同様であり、複数の単位区間を単位として1個の雑音スペクトルNを生成する構成も採用される。また、以上の各形態においては単位区間毎に抑圧ゲイン系列Hを生成したが、複数の単位区間を単位として1個の抑圧ゲイン系列Hを生成する構成も採用される。
(9) Modification 9
In each of the above embodiments, the non-target sound spectrum QB3 (QB1, QB2) is generated for each unit section. However, considering the tendency that the non-target sound spectrum QB3 composed of non-target steady sounds has little temporal change, a configuration in which one non-target sound spectrum QB3 is generated in units of a plurality of unit sections is also employed. The The same applies to the noise spectrum N, and a configuration in which one noise spectrum N is generated in units of a plurality of unit sections is also employed. In each of the above embodiments, the suppression gain series H is generated for each unit section. However, a configuration in which one suppression gain series H is generated using a plurality of unit sections as a unit is also employed.

100……音処理装置、12……演算処理装置、14……記憶装置、20……周波数分析部、30……音源分離部、32……信号処理部、34……周波数選別部、36……強度特定部、42……雑音推定部42、44……雑音抑圧部44、52……強度調整部、54……合成部、56……逆変換部、60……変動音抑圧部、62……ゲイン設定部、621……第1処理部、622……第2処理部、64……抑圧処理部。
DESCRIPTION OF SYMBOLS 100 ... Sound processing device, 12 ... Arithmetic processing device, 14 ... Memory | storage device, 20 ... Frequency analysis part, 30 ... Sound source separation part, 32 ... Signal processing part, 34 ... Frequency selection part, 36 ... ... Intensity specifying unit 42... Noise estimating unit 42 and 44... Noise suppressing unit 44 and 52... Intensity adjusting unit 54. ... gain setting section, 621 ... first processing section, 622 ... second processing section, 64 ... suppression processing section.

Claims (8)

複数の収音機器が生成した複数の音信号から、目的音が優勢な目的音周波数の成分で構成される目的音スペクトルと、前記目的音とは別方向から到来する非目的音が優勢な非目的音周波数の成分で構成される非目的音スペクトルとを生成する音源分離手段と、
前記音源分離手段による分離後の非目的音スペクトルのうちの非目的変動音を抑圧する変動音抑圧手段と、
前記音源分離手段による分離後の目的音スペクトルと前記変動音抑圧手段による処理後の非目的音スペクトルとを合成する合成手段と
を具備する音処理装置。
From a plurality of sound signals generated by a plurality of sound collecting devices, a target sound spectrum composed of components of a target sound frequency where the target sound is dominant, and a non-target sound coming from a different direction from the target sound is dominant. Sound source separation means for generating a non-target sound spectrum composed of components of the target sound frequency;
Fluctuation sound suppression means for suppressing non-target fluctuation sound in the non-target sound spectrum after separation by the sound source separation means;
A sound processing apparatus comprising: synthesis means for synthesizing the target sound spectrum after separation by the sound source separation means and the non-target sound spectrum after processing by the fluctuation sound suppression means.
前記音源分離手段による分離後の非目的音スペクトルを抑圧係数に応じて抑圧する強度調整手段
を具備する請求項1の音処理装置。
The sound processing apparatus according to claim 1, further comprising: an intensity adjustment unit that suppresses the non-target sound spectrum after separation by the sound source separation unit according to a suppression coefficient.
前記変動音抑圧手段は、
周波数毎に設定されたゲインで構成される抑圧ゲイン系列を生成するゲイン設定手段と、
前記音源分離手段による分離後の非目的音スペクトルの各周波数における強度を前記抑圧ゲイン系列の各ゲインに応じて調整することで前記非目的変動音を抑圧する抑圧処理手段とを含む
請求項1または請求項2の音処理装置。
The fluctuating sound suppression means includes
Gain setting means for generating a suppression gain sequence composed of gains set for each frequency;
2. A suppression processing unit that suppresses the non-target fluctuation sound by adjusting the intensity at each frequency of the non-target sound spectrum after separation by the sound source separation unit according to each gain of the suppression gain series. The sound processing apparatus according to claim 2.
前記ゲイン設定手段は、
前記音源分離手段による分離後の非目的音スペクトルのうち非目的変動音が強調されるように周波数毎に設定されたゲインで構成される強調ゲイン系列を生成する第1処理手段と、
前記抑圧ゲイン系列を前記強調ゲイン系列から生成する第2処理手段とを含む
請求項3の音処理装置。
The gain setting means includes
First processing means for generating an emphasis gain sequence composed of gains set for each frequency so that non-target fluctuation sound is emphasized in the non-target sound spectrum after separation by the sound source separation means;
The sound processing apparatus according to claim 3, further comprising: a second processing unit that generates the suppression gain sequence from the enhancement gain sequence.
前記第2処理手段は、前記強調ゲイン系列と可変に設定された調整値とに応じて前記抑圧ゲイン系列を生成する
請求項4の音処理装置。
The sound processing apparatus according to claim 4, wherein the second processing unit generates the suppression gain series according to the enhancement gain series and a variably set adjustment value.
前記音源分離手段による分離後の非目的音スペクトルのうちの非目的定常音で構成される雑音スペクトルを生成する雑音推定手段と、
前記音源分離手段による分離後の目的音スペクトルから前記雑音スペクトルの非目的定常音を抑圧する雑音抑圧手段とを具備し、
前記ゲイン設定手段は、前記音源分離手段による分離後の非目的音スペクトルと前記雑音推定手段が推定した雑音スペクトルとから前記抑圧ゲイン系列を生成し、
前記合成手段は、前記雑音抑圧手段による処理後の目的音スペクトルと前記変動音抑圧手段による処理後の非目的音スペクトルとを合成する
請求項3から請求項5の何れかの音処理装置。
Noise estimation means for generating a noise spectrum composed of non-target stationary sounds out of the non-target sound spectrums separated by the sound source separation means;
Noise suppression means for suppressing non-target stationary sound of the noise spectrum from the target sound spectrum after separation by the sound source separation means,
The gain setting means generates the suppression gain sequence from the non-target sound spectrum after separation by the sound source separation means and the noise spectrum estimated by the noise estimation means,
The sound processing apparatus according to claim 3, wherein the synthesizing unit synthesizes the target sound spectrum processed by the noise suppressing unit and the non-target sound spectrum processed by the fluctuating sound suppressing unit.
前記雑音推定手段は、
第1単位区間における一の非目的音周波数の成分の強度が、前記第1単位区間の開始前の第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を超える閾値を下回る場合、前記第1単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を、前記第1単位区間における前記一の非目的音周波数の成分の強度と、前記第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度とに応じて設定し、
前記第1単位区間における前記一の非目的音周波数の成分の強度が前記閾値を上回る場合、前記第1単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を、前記第1単位区間における前記一の非目的音周波数の成分の強度を反映させずに、前記第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度に応じて設定する
請求項6の音処理装置。
The noise estimation means includes
The intensity of the component of one non-target sound frequency in the first unit section is below a threshold value exceeding the intensity at the one non-target sound frequency in the noise spectrum of the second unit section before the start of the first unit section. , The intensity at the one non-target sound frequency in the noise spectrum of the first unit section, the intensity of the component of the one non-target sound frequency in the first unit section, and the noise spectrum of the second unit section. Set according to the intensity at the one non-target sound frequency,
When the intensity of the component of the one non-target sound frequency in the first unit section exceeds the threshold, the intensity at the one non-target sound frequency in the noise spectrum of the first unit section is determined as the first unit section. The sound processing device according to claim 6, wherein the sound processing device is set in accordance with the intensity at the one non-target sound frequency in the noise spectrum of the second unit section without reflecting the intensity of the component of the one non-target sound frequency.
複数の収音機器が生成した複数の音信号から、目的音が優勢な目的音周波数の成分で構成される目的音スペクトルと、前記目的音とは別方向から到来する非目的音が優勢な非目的音周波数の成分で構成される非目的音スペクトルとを生成する音源分離処理と、
前記音源分離処理後の非目的音スペクトルのうちの非目的変動音を抑圧する変動音抑圧処理と、
前記音源分離処理後の目的音スペクトルと前記変動音抑圧処理後の非目的音スペクトルとを合成する合成処理と
をコンピュータに実行させるプログラム。
From a plurality of sound signals generated by a plurality of sound collecting devices, a target sound spectrum composed of components of a target sound frequency where the target sound is dominant, and a non-target sound coming from a different direction from the target sound is dominant. Sound source separation processing for generating a non-target sound spectrum composed of components of the target sound frequency;
Fluctuation sound suppression processing for suppressing non-target fluctuation sound in the non-target sound spectrum after the sound source separation processing;
A program for causing a computer to execute a synthesis process for synthesizing a target sound spectrum after the sound source separation process and a non-target sound spectrum after the fluctuating sound suppression process.
JP2009064757A 2009-03-17 2009-03-17 Sound processing apparatus and program Expired - Fee Related JP5316127B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009064757A JP5316127B2 (en) 2009-03-17 2009-03-17 Sound processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009064757A JP5316127B2 (en) 2009-03-17 2009-03-17 Sound processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2010217551A true JP2010217551A (en) 2010-09-30
JP5316127B2 JP5316127B2 (en) 2013-10-16

Family

ID=42976475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009064757A Expired - Fee Related JP5316127B2 (en) 2009-03-17 2009-03-17 Sound processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5316127B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092751A (en) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> Acoustic model generating device, method for the same, and program
JP2015023508A (en) * 2013-07-22 2015-02-02 沖電気工業株式会社 Sound gathering device and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020472A (en) * 2007-07-13 2009-01-29 Yamaha Corp Sound processing apparatus and program
JP2009020471A (en) * 2007-07-13 2009-01-29 Yamaha Corp Sound processor and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020472A (en) * 2007-07-13 2009-01-29 Yamaha Corp Sound processing apparatus and program
JP2009020471A (en) * 2007-07-13 2009-01-29 Yamaha Corp Sound processor and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092751A (en) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> Acoustic model generating device, method for the same, and program
JP2015023508A (en) * 2013-07-22 2015-02-02 沖電気工業株式会社 Sound gathering device and program

Also Published As

Publication number Publication date
JP5316127B2 (en) 2013-10-16

Similar Documents

Publication Publication Date Title
JP5528538B2 (en) Noise suppressor
JP5347902B2 (en) Sound processor
JP5018193B2 (en) Noise suppression device and program
US10242692B2 (en) Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals
US20170125033A1 (en) Multi-band noise reduction system and methodology for digital audio signals
JP2014232331A (en) System and method for adaptive intelligent noise suppression
JP6019969B2 (en) Sound processor
JP2003534570A (en) How to suppress noise in adaptive beamformers
JP2009031793A (en) Noise reduction with use of adjusted tonal noise reduction
WO2008104446A2 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
JP2010102199A (en) Noise suppressing device and noise suppressing method
JP5187666B2 (en) Noise suppression device and program
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP2003274492A (en) Stereo acoustic signal processing method, stereo acoustic signal processor, and stereo acoustic signal processing program
JP5034734B2 (en) Sound processing apparatus and program
JP5034735B2 (en) Sound processing apparatus and program
JP2020028016A (en) Reverberation suppressing device and hearing aid
JP3755739B2 (en) Stereo sound signal processing method and apparatus, program, and recording medium
JP5316127B2 (en) Sound processing apparatus and program
JP2006178333A (en) Proximity sound separation and collection method, proximity sound separation and collecting device, proximity sound separation and collection program, and recording medium
JP5321171B2 (en) Sound processing apparatus and program
JP5131149B2 (en) Noise suppression device and noise suppression method
JP5463924B2 (en) Sound processor
JP7264594B2 (en) Reverberation suppression device and hearing aid
JP5641187B2 (en) Sound processor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130624

R150 Certificate of patent or registration of utility model

Ref document number: 5316127

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees