JP5105336B2 - Sound source separation apparatus, program and method - Google Patents

Sound source separation apparatus, program and method Download PDF

Info

Publication number
JP5105336B2
JP5105336B2 JP2009282026A JP2009282026A JP5105336B2 JP 5105336 B2 JP5105336 B2 JP 5105336B2 JP 2009282026 A JP2009282026 A JP 2009282026A JP 2009282026 A JP2009282026 A JP 2009282026A JP 5105336 B2 JP5105336 B2 JP 5105336B2
Authority
JP
Japan
Prior art keywords
target sound
spectrum
sound
suppression
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009282026A
Other languages
Japanese (ja)
Other versions
JP2011123370A (en
Inventor
誠 森戸
隆 矢頭
圭 山田
哲則 小林
健三 赤桐
哲司 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Oki Electric Industry Co Ltd
Original Assignee
Waseda University
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Oki Electric Industry Co Ltd filed Critical Waseda University
Priority to JP2009282026A priority Critical patent/JP5105336B2/en
Publication of JP2011123370A publication Critical patent/JP2011123370A/en
Application granted granted Critical
Publication of JP5105336B2 publication Critical patent/JP5105336B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音源分離装置、プログラム及び方法に関し、例えば、電話装置や音声認識装置等の音声捕捉における雑音除去に適用し得る。   The present invention relates to a sound source separation device, a program, and a method, and can be applied to noise removal in speech capture such as a telephone device and a speech recognition device.

電話装置や音声認識装置では、マイクロフォンによりユーザ音声を捕捉するが、周囲雑音によって、音声認識の精度は極度に劣化したり、録音した音声が雑音のために聞き取りにくい場合がある。   In a telephone device or a voice recognition device, a user's voice is captured by a microphone, but the accuracy of voice recognition may be extremely deteriorated due to ambient noise, or the recorded voice may be difficult to hear due to noise.

このため、従来は、マイクロフォンアレーにより指向特性を制御する等して、所望の目的音だけを選択的に捕捉する試みがなされているが、このような指向特性の制御だけでは、所望の音声を背景雑音から分離して取り出すことは困難であった。   For this reason, in the past, attempts have been made to selectively capture only a desired target sound by controlling the directional characteristics using a microphone array. It was difficult to separate and extract from background noise.

従来のマイクロフォンアレーの技術としては、例えば、遅延和アレー(DSA:Delayed Sum Array)や、BF(Beam−Forming)と呼ばれる指向特性制御に関する技術、あるいはDCMP(Directionally Constrained Minimization of Power)アダプティブアレーによる指向特性制御に関する技術等がある。   Conventional microphone array technologies include, for example, a delay-and-sum array (DSA), a technology related to directivity control called BF (Beam-Forming), or a DCMP (Directly Constrained Minimization of Power) adaptive array. There are technologies related to characteristic control.

一方、遠隔発話による音声を分離する技術として、複数の固定マイクロフォンの出力信号を狭帯域スペクトル分析し、周波数帯域毎に最も大きな振幅を与えたマイクロフォンにその周波数帯域の音を割り当てる技術(SAFIAと称されている)としては、特許文献1の記載技術がある。特許文献1に記載されている帯域選択(BS:Band Selection)による音声の分離技術では、所望の音声を得るために、所望の音声を発する音源に最も近いマイクロフォンを選び、そのマイクロフォンに割り当てられた周波数帯域の音を使って音声を合成する。   On the other hand, as a technology for separating speech by remote utterance, a technology (referred to as SAFIA) that performs narrowband spectrum analysis on the output signals of a plurality of fixed microphones and assigns the sound in that frequency band to the microphone that gives the largest amplitude for each frequency band. Is described in Patent Document 1. In the sound separation technology by band selection (BS) described in Patent Document 1, in order to obtain a desired sound, a microphone closest to a sound source that emits the desired sound is selected and assigned to the microphone. Synthesizes speech using sound in the frequency band.

また、更なる技術として、帯域選択の方法に改良を加えた技術が特許文献2に記載されている。   As a further technique, Patent Document 2 discloses a technique obtained by improving the band selection method.

特許文献2の記載技術では、目的音到来方向と直角または略直角をなす方向に並べて配置された2個のマイクロフォンに入力された信号を用いて、妨害音を抑圧して捕捉対象である目的音を強調した目的音優勢信号と、目的音を抑圧して妨害音を強調した目的音劣勢信号を作成し、その2種類の信号を目的音と妨害音の分離に利用している。   In the technique described in Patent Document 2, the target sound to be captured is suppressed by using the signals input to the two microphones arranged side by side in a direction perpendicular or substantially perpendicular to the direction of arrival of the target sound. And a target sound inferior signal in which the target sound is suppressed and the disturbance sound is emphasized, and the two kinds of signals are used for separation of the target sound and the interference sound.

特許文献2では、目的音優勢信号及び目的音劣勢信号の生成について「空間フィルタ」と呼ばれるフィルタを用いて実現している。   In Patent Document 2, the generation of the target sound superior signal and the target sound inferior signal is realized by using a filter called “spatial filter”.

図3は、空間フィルタの特性について示した説明図である。   FIG. 3 is an explanatory diagram showing the characteristics of the spatial filter.

以下では、2つのマイクロフォンM1、M2を結ぶ線に対する垂直平面を0度の方向と呼び、時計回りの方向を正の角度、反時計回りの方向を負の角度として方向を表すものとする。すなわち、上述の方向は−180度〜180度(−180度と180度は同じ方向)の範囲で表される。   Hereinafter, a vertical plane with respect to a line connecting the two microphones M1 and M2 is referred to as a 0 degree direction, and the clockwise direction is a positive angle and the counterclockwise direction is a negative angle. That is, the above-described direction is expressed in a range of −180 degrees to 180 degrees (−180 degrees and 180 degrees are the same direction).

図3では、間隔dで配置された2つのマイクロフォンM1、M2に対して角度θの方向から入力される音源があった場合について説明している。この場合、角度θの方向から入力される音源から2つのマイクロフォンM1、M2への距離で、d×sinθの距離差が生じ、結果として音の到達時間については、マイクロフォンM1、M2の間で、以下の(1)式で表される時間差τが生じる。

Figure 0005105336
FIG. 3 illustrates a case where there is a sound source that is input from the direction of the angle θ with respect to the two microphones M1 and M2 arranged at the interval d. In this case, a distance difference of d × sin θ occurs in the distance from the sound source input from the direction of the angle θ to the two microphones M1 and M2, and as a result, the sound arrival time is between the microphones M1 and M2. A time difference τ expressed by the following equation (1) is generated.
Figure 0005105336

そこで、マイクロフォンM2の出力からマイクロフォンM1の出力を時間差τ遅延させた出力を減じると、お互いが相殺されθ方向の音は抑圧される。以下では、空間フィルタにおいて音を抑圧する方向の角度(上述の例ではθ)を「抑圧角度」と呼ぶ。   Therefore, when the output obtained by delaying the output of the microphone M1 by the time difference τ is subtracted from the output of the microphone M2, they cancel each other and the sound in the θ direction is suppressed. Hereinafter, an angle (θ in the above example) in a direction in which sound is suppressed in the spatial filter is referred to as a “suppression angle”.

図4は、空間フィルタにおける指向特性について示した説明図である。   FIG. 4 is an explanatory diagram showing directivity characteristics in the spatial filter.

図4において、曲線Lは、空間フィルタの抑圧角度をθに設定した場合の指向特性を表しており、マイクロフォンM1、M2を結ぶ線の中点からの距離が長くなっている方向ほど、利得が大きく(抑圧の強度が弱い)、距離が短いほど利得が小さい(抑圧の強度が強い)ことを示している。   In FIG. 4, a curve L represents the directivity when the suppression angle of the spatial filter is set to θ, and the gain increases as the distance from the midpoint of the line connecting the microphones M1 and M2 increases. It indicates that the gain is small (the suppression intensity is strong) as it is large (the suppression intensity is weak) and the distance is short.

図4では、空間フィルタの抑圧角度をθの方向に設定しているため、その方向の抑圧の強度が最も大きくなるように設定されている様子を示している。   In FIG. 4, since the suppression angle of the spatial filter is set in the direction of θ, the state in which the intensity of suppression in that direction is set to the maximum is shown.

特開平10−313497号公報Japanese Patent Laid-Open No. 10-313497 特開2006−197552号公報JP 2006-197552 A

しかしながら、特許文献1の記載技術では、2つの音が重なった状況において、よく両者を分離することができるが、音源が3つ以上となると、理論的には分離可能とされているものの、分離性能は極端に劣化する。従って、複数の雑音源が存在する状況下で、これらの複数の雑音から目的音を精度よく分離することは困難である。   However, in the technique described in Patent Document 1, the two sounds can be separated well in a situation where two sounds overlap. However, if there are three or more sound sources, the separation is theoretically possible. Performance is extremely degraded. Therefore, it is difficult to accurately separate the target sound from the plurality of noises in a situation where there are a plurality of noise sources.

また、特許文献2の記載技術では、空間フィルタを用いて、目的音を分離する処理を行っているが、分離する処理をしている途中で目的音の到来方向がずれた場合に、空間フィルタの特性が、分離後の目的音の品質に影響を及ぼす恐れがある。以下、特許文献2に記載の方法において、空間フィルタの特性が、分離後の目的音に及ぼす恐れがある影響について説明する。   In the technique described in Patent Document 2, the target sound is separated using the spatial filter. However, when the direction of arrival of the target sound is shifted during the separation process, the spatial filter is used. May affect the quality of the target sound after separation. Hereinafter, in the method described in Patent Document 2, the influence that the characteristics of the spatial filter may have on the target sound after separation will be described.

図5は、空間フィルタにおける抑圧角度に近い方向の利得の変化特性について示した説明図である。   FIG. 5 is an explanatory diagram showing the change characteristic of the gain in the direction close to the suppression angle in the spatial filter.

図5では、空間フィルタの抑圧角度をθとし、目的音が0度の方向(正面)から到来した場合の利得をG1、0度から反時計回りに僅かにずれた方向から目的音が到来した場合の利得をG2として説明している。   In FIG. 5, the suppression angle of the spatial filter is θ, and the target sound arrives from a direction slightly shifted counterclockwise from G1 when the target sound arrives from the direction of 0 degrees (front). The case gain is described as G2.

空間フィルタにおいて、抑圧角度の近くで、角度の変化に応じた利得の変化率が大きい場合には、図5に示すように、利得がG1となる方向と、G2となる方向との角度のずれが僅かであっても、G1とG2の差は大きくなってしまう恐れがある。   In the spatial filter, when the rate of change in gain according to the change in angle is large near the suppression angle, as shown in FIG. 5, the deviation of the angle between the direction in which the gain is G1 and the direction in which it is G2 Even if it is slight, the difference between G1 and G2 may become large.

上述の特許文献2に記載されている目的音劣勢信号生成手段では、目的音が到来すると想定される方向に、空間フィルタの抑圧角度を向けて、目的音成分を抑圧するとともに、妨害音成分を抽出しているが、上述のように、目的音と妨害音とを分離する処理をしている途中で目的音の到来方向がずれると、僅かなずれであっても、出力音に大きなゆれを生じる結果となる恐れがある。   In the target sound inferior signal generating means described in Patent Document 2 described above, the target sound component is suppressed by directing the suppression angle of the spatial filter in the direction in which the target sound is expected to arrive, and the interference sound component is reduced. As described above, if the direction of arrival of the target sound is shifted during the process of separating the target sound and the interference sound as described above, even if there is a slight shift, the output sound will be greatly shaken. May result.

そのため、目的音と、目的音の到来方向以外の任意の方向から到来する妨害音とを分離する処理において、目的音の到来方向がずれた場合でも、分離処理後の音の品質を保つことができる音源分離装置、プログラム及び方法が望まれている。   Therefore, in the process of separating the target sound and the interfering sound coming from an arbitrary direction other than the direction of arrival of the target sound, the quality of the sound after the separation process can be maintained even when the direction of arrival of the target sound is deviated. A sound source separation device, a program, and a method that can be used are desired.

第1の本発明の音源分離装置は、(1)間隔を置いて配置された複数個のマイクロフォンのうち、2個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される想定到来方向を含む所定の範囲内で、それぞれ異なる方向に、成分抑圧の指向性を向けて処理する複数の目的音抑圧部を用いて、上記受音信号のスペクトルから、上記目的音の成分を抑圧した目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、(2)上記受音信号のスペクトルについて、上記所定の範囲以外の任意の方向から到来する妨害音を抑圧した目的音優勢スペクトルを生成する目的音優勢スペクトル生成手段と、(3)目的音抑圧スペクトルと、目的音優勢スペクトルとを用いて、上記受音信号について、上記妨害音の成分と上記目的音の成分とを分離する分離手段とを有し、(4)上記目的音抑圧スペクトル生成手段は、目的音抑圧スペクトルの各成分について、上記目的音抑圧部の処理結果のうち最も絶対値の小さい値を適用することを特徴とする。 The sound source separation apparatus according to the first aspect of the present invention is (1) an assumed arrival that a target sound is assumed to arrive in the spectrum of the received signal of two microphones among a plurality of microphones arranged at intervals. The target sound component is suppressed from the spectrum of the received signal using a plurality of target sound suppression units that process the directivity of component suppression in different directions within a predetermined range including the direction. A target sound suppression spectrum generating means for generating a target sound suppression spectrum; and (2) generating a target sound dominant spectrum in which interference sound coming from an arbitrary direction other than the predetermined range is suppressed for the spectrum of the received signal. Using the target sound dominant spectrum generating means, (3) the target sound suppression spectrum, and the target sound dominant spectrum, Have a separating means for separating the components of the target sound, (4) the target sound suppression spectrum generating unit for each component of the target sound suppressed spectrum, the most absolute value of the processing result of the target sound suppressing unit It is characterized by applying a small value .

第2の本発明の音源分離プログラムは、音源分離装置に搭載されたコンピュータを、(1)間隔を置いて配置された複数個のマイクロフォンのうち、2個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される想定到来方向を含む所定の範囲内で、それぞれ異なる方向に、成分抑圧の指向性を向けて処理する複数の目的音抑圧部を用いて、上記受音信号のスペクトルから、上記目的音の成分を抑圧した目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、(2)上記受音信号のスペクトルについて、上記所定の範囲以外の任意の方向から到来する妨害音を抑圧した目的音優勢スペクトルを生成する目的音優勢スペクトル生成手段と、(3)目的音抑圧スペクトルと、目的音優勢スペクトルとを用いて、上記受音信号について、上記妨害音の成分と上記目的音の成分とを分離する分離手段として機能させ、(4)上記目的音抑圧スペクトル生成手段は、目的音抑圧スペクトルの各成分について、上記目的音抑圧部の処理結果のうち最も絶対値の小さい値を適用することを特徴とする。 The sound source separation program according to the second aspect of the present invention provides a computer mounted on a sound source separation device, for (1) a spectrum of received sound signals of two microphones among a plurality of microphones arranged at intervals. A spectrum of the received signal using a plurality of target sound suppression units that process the directivity of component suppression in different directions within a predetermined range including an assumed direction of arrival where the target sound is expected to arrive. And (2) interference sound coming from an arbitrary direction other than the predetermined range for the spectrum of the received signal. A target sound dominance spectrum generating means for generating a target sound dominance spectrum with suppressed sound, and (3) a target sound suppression spectrum and a target sound dominance spectrum. For the received sound signal, to function as a separating means for separating the components of the component and the target sound of the interference sound, (4) the target sound suppression spectrum generating unit for each component of the target sound suppression spectrum, the A value having the smallest absolute value among the processing results of the target sound suppressing unit is applied .

第3の本発明は、音源分離装置により行われる音源分離方法において、(1)目的音抑圧スペクトル生成手段、目的音優勢スペクトル生成手段、分離手段を有し、(2)上記目的音抑圧スペクトル生成手段は、間隔を置いて配置された複数個のマイクロフォンのうち、2個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される想定到来方向を含む所定の範囲内で、それぞれ異なる方向に、成分抑圧の指向性を向けて処理する複数の目的音抑圧部を用いて、上記受音信号のスペクトルから、上記目的音の成分を抑圧した目的音抑圧スペクトルを生成し、(3)上記目的音優勢スペクトル生成手段は、上記受音信号のスペクトルについて、上記所定の範囲以外の任意の方向から到来する妨害音を抑圧した目的音優勢スペクトルを生成し、(4)上記分離手段は、目的音抑圧スペクトルと、目的音優勢スペクトルとを用いて、上記受音信号について、上記妨害音の成分と上記目的音の成分とを分離し、(5)上記目的音抑圧スペクトル生成手段は、目的音抑圧スペクトルの各成分について、上記目的音抑圧部の処理結果のうち最も絶対値の小さい値を適用することを特徴とする。
According to a third aspect of the present invention, in the sound source separation method performed by the sound source separation device, (1) a target sound suppression spectrum generation unit, a target sound dominant spectrum generation unit, and a separation unit are provided, and (2) the target sound suppression spectrum generation is performed. The means is different from each other within a predetermined range including an assumed arrival direction in which the target sound is expected to be received, with respect to the spectrum of the received signal of two microphones among a plurality of microphones arranged at intervals. A target sound suppression spectrum in which the target sound component is suppressed is generated from the spectrum of the received signal using a plurality of target sound suppression units that process the directivity of component suppression in the direction, (3) The target sound dominance spectrum generating means suppresses the interference sound coming from an arbitrary direction other than the predetermined range in the spectrum of the received signal. Generates a spectrum, (4) the separating means uses a target sound suppressed spectrum, the target sound predominant spectrum for the received sound signal, to separate the components of the component and the target sound of the interference sound, (5) The target sound suppression spectrum generating means applies a value having the smallest absolute value among the processing results of the target sound suppression unit to each component of the target sound suppression spectrum .

本発明によれば、目的音と、目的音の到来方向以外の任意の方向から到来する妨害音とを分離する処理において、目的音の到来方向がずれた場合でも、分離処理後の音の品質を保つことができる。   According to the present invention, in the process of separating the target sound and the disturbing sound coming from an arbitrary direction other than the direction of arrival of the target sound, the quality of the sound after the separation process even when the direction of arrival of the target sound is deviated. Can keep.

第1の実施形態に係る音源分離装置の機能的構成について示したブロック図である。It is the block diagram shown about the functional structure of the sound source separation apparatus which concerns on 1st Embodiment. 第2の実施形態に係る音源分離装置の機能的構成について示したブロック図である。It is the block diagram shown about the functional structure of the sound source separation apparatus which concerns on 2nd Embodiment. 従来の空間フィルタの特性について示した説明図である。It is explanatory drawing shown about the characteristic of the conventional spatial filter. 従来の空間フィルタにおける指向特性について示した説明図である。It is explanatory drawing shown about the directional characteristic in the conventional spatial filter. 従来の空間フィルタにおける抑圧角度に近い方向の利得の変化特性について示した説明図である。It is explanatory drawing shown about the change characteristic of the gain of the direction close | similar to the suppression angle in the conventional spatial filter.

(A)第1の実施形態
以下、本発明による音源分離装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment of a sound source separation device, program, and method according to the present invention will be described in detail with reference to the drawings.

(A−1)第1の実施形態の構成及び動作
図1は、第1の実施形態の音源分離装置10の機能的構成について示したブロック図である。
(A-1) Configuration and Operation of First Embodiment FIG. 1 is a block diagram showing a functional configuration of a sound source separation device 10 of the first embodiment.

音源分離装置10は、目的音と、目的音の到来方向以外の任意の方向から到来する妨害音とを分離するものである。音源分離装置10の用途は限定されるものではないが、例えば、音声認識装置や、携帯電話などの電話装置に搭載して、音声捕捉に用いるようにしても良い。具体的には、例えば、音源分離装置10を電話会議装置に搭載して、遠隔発話を行う複数の話者による混合音声から任意の話者の音声を目的音として分離したり、遠隔発話を行う話者の音声とその他の音との混合音から話者の音声を目的音として分離したりすることに用いるようにしても良い。また、例えば、音声対話を行うロボット、カーナビゲーションシステム等の車載機器についての音声操作、会議の議事録作成等の音声認識において、目的音となるユーザの音声の分離に用いるようにしても良い。   The sound source separation device 10 separates the target sound and the disturbing sound coming from an arbitrary direction other than the arrival direction of the target sound. The use of the sound source separation device 10 is not limited. For example, the sound source separation device 10 may be mounted on a voice recognition device or a telephone device such as a mobile phone and used for voice capture. Specifically, for example, the sound source separation device 10 is installed in a teleconference device, and a voice of an arbitrary speaker is separated as a target sound from a mixed voice of a plurality of speakers performing remote speech, or remote speech is performed. It may be used to separate the speaker's voice as the target sound from the mixed sound of the speaker's voice and other sounds. Further, for example, it may be used for separation of a user's voice, which is a target sound, in voice recognition for in-vehicle devices such as a robot that performs a voice dialogue, a car navigation system, and a meeting minutes.

音源分離装置10は、大きくは、入力手段20、分析手段30、分離手段40、除去手段50、生成手段60を有する。   The sound source separation device 10 mainly includes an input unit 20, an analysis unit 30, a separation unit 40, a removal unit 50, and a generation unit 60.

音源分離装置10は、マイクロフォン等のハードウェア以外の構成要素に関しては、プロセッサ(CPU等)を有する装置に、実施形態の音源分離プログラムをインストールすることにより実現するようにしても良いし、一部又は全部の構成要素について、専用のハードウェア(例えば、半導体チップ)を用いて実現するようにしても良い。   The sound source separation device 10 may be realized by installing the sound source separation program of the embodiment in a device having a processor (CPU or the like) regarding components other than hardware such as a microphone, or a part thereof. Alternatively, all the components may be realized using dedicated hardware (for example, a semiconductor chip).

入力手段20は、間隔を置いて配置された2個のマイクロフォン21、22と、これらの2個のマイクロフォン21、22の受音信号をアナログ/ディジタル信号変換器(図示せず)を用いてディジタル信号に変換し、そのディジタル信号を分析手段30に与える。   The input means 20 digitally converts two microphones 21 and 22 arranged at intervals, and the received signals of these two microphones 21 and 22 using an analog / digital signal converter (not shown). The signal is converted into a signal, and the digital signal is given to the analyzing means 30.

以下では、上述の図3〜図5と同様に、2つのマイクロフォン21、22を結ぶ線に対する垂直平面を0度の方向と呼び、時計回りの方向を正の角度、反時計回りの方向を負の角度として方向を表すものとする。すなわち、上述の方向は−180度〜180度(−180度と180度とは同じ方向)の範囲で表される。   In the following, as in FIGS. 3 to 5 described above, the vertical plane with respect to the line connecting the two microphones 21 and 22 is referred to as 0 degree direction, the clockwise direction is a positive angle, and the counterclockwise direction is negative. The direction is expressed as an angle. That is, the above-described direction is expressed in a range of −180 degrees to 180 degrees (−180 degrees and 180 degrees are the same direction).

また、以下では、例として、音源分離装置10は、目的音が概ね0度の方向から到来することを想定した構成として説明する。   Further, hereinafter, as an example, the sound source separation device 10 will be described as a configuration assuming that the target sound comes from a direction of approximately 0 degrees.

以下の説明においては、マイク21から出力されるディジタル音声信号をx1(n)とする。また、同様にマイク22から出力されるディジタル音声信号をx2(n)とする。但し、nは、n番目のデータ(サンプル)を表すものとする。   In the following description, the digital audio signal output from the microphone 21 is assumed to be x1 (n). Similarly, let the digital audio signal output from the microphone 22 be x2 (n). However, n represents the nth data (sample).

ディジタル音声信号x1(n)、x2(n)は、例えば、マイクロフォンなどの音声入力装置から入力されたアナログ音声信号を、アナログ/ディジタル変換し、標本化周期T毎に標本化することにより得られるものである。標本化周期Tは、例えば、31.25マイクロ秒〜125マイクロ秒程度とすることが望ましい。   The digital audio signals x1 (n) and x2 (n) are obtained, for example, by analog / digital conversion of an analog audio signal input from an audio input device such as a microphone and sampling at every sampling period T. Is. It is desirable that the sampling period T is, for example, about 31.25 microseconds to 125 microseconds.

同一時間区間における、N個の連続するx1(n)、x2(n)を1つの分析単位(フレーム)として、後述する分析手段30、分離手段40、除去手段50、生成手段60の処理は行われるものとする。   With the N consecutive x1 (n) and x2 (n) as one analysis unit (frame) in the same time interval, the analysis means 30, separation means 40, removal means 50, and generation means 60 described later are performed. Shall be.

以下の説明において、音源分離装置10では、例としてN=1024とする。そして、音源分離装置10では、処理対象分析単位に対する当該音源分離の一連の処理が終了すると、x1(n)、x2(n)のうち後半の3N/4個のデータを前半にシフトし、新たに入力された連続するN/4個のデータを後半に接続するものとする。これにより、音源分離装置10では、新たなN個の連続するx1(n)、x2(n)を生成し、1つの分析単位として新たな処理を行うものとする。音源分離装置10では、このような処理対象分析単位の処理を繰り返すようになされているものとする。   In the following description, the sound source separation apparatus 10 assumes N = 1024 as an example. When the sound source separation apparatus 10 completes a series of the sound source separation processes for the processing target analysis unit, 3N / 4 of the latter half of x1 (n) and x2 (n) are shifted to the first half, and a new It is assumed that N / 4 continuous data input to the terminal is connected to the latter half. Thus, the sound source separation apparatus 10 generates new N consecutive x1 (n) and x2 (n), and performs a new process as one analysis unit. It is assumed that the sound source separation apparatus 10 repeats such processing for the processing target analysis unit.

なお、分析手段30に入力されるディジタル音声信号はマイクロフォンが捕捉してアナログ/ディジタル変換されたものに限定されない。例えば、記録媒体などから読み出されたものであっても良いし、他の装置から通信によって与えられたものであっても良い。すなわち、音源分離装置10において、x1(n)、x2(n)が保持できれば、入力手段20を省略した構成としても良い。   Note that the digital audio signal input to the analyzing means 30 is not limited to the one obtained by the microphone and analog / digital converted. For example, it may be read from a recording medium or the like, or may be given by communication from another device. That is, in the sound source separation device 10, the input unit 20 may be omitted as long as x1 (n) and x2 (n) can be held.

分析手段30は、雑音の混在したディジタル音声信号x1(n)、x2(n)が、入力手段20から与えられると、x1(n)を周波数分析部31で、x2(n)を周波数分析部32で、それぞれFFT(高速フーリエ変換)処理等を行い、その結果を分離手段40に与える。分析手段30では、FFT処理にあたっては、N個の連続するx1(n)、x2(n)に対し、窓関数をかけるものとする。なお、窓関数w(n)としては、各種の窓関数を適用可能であるが、例えば、以下の(2)式に示すようなハニング窓を適用するようにしても良い。

Figure 0005105336
When the digital voice signals x1 (n) and x2 (n) mixed with noise are given from the input means 20, the analyzing means 30 is supplied with x1 (n) by the frequency analyzing section 31 and x2 (n) by the frequency analyzing section. At 32, FFT (fast Fourier transform) processing or the like is performed, and the result is given to the separating means 40. In the analysis unit 30, in the FFT processing, a window function is applied to N consecutive x1 (n) and x2 (n). Various window functions can be applied as the window function w (n). For example, a Hanning window as shown in the following equation (2) may be applied.
Figure 0005105336

分析手段30による上述の窓処理は、後述する生成手段60における分析単位の接続処理を考慮してなされる処理である。ただし、上述の窓関数を適用することは好ましいが、必須ではない。   The window processing described above by the analysis unit 30 is a process performed in consideration of the analysis unit connection processing in the generation unit 60 described later. However, although it is preferable to apply the above window function, it is not essential.

以下では、周波数分析部31、32の出力を、それぞれD1(m)、D2(m)と表すものとする。なお、D1(m)、D2(m)は複素数である。   Below, the output of the frequency analysis parts 31 and 32 shall be represented as D1 (m) and D2 (m), respectively. D1 (m) and D2 (m) are complex numbers.

なお、分析手段30における分析方法は、FFTに限定されず、DFT(離散フーリエ変換)などの他の周波数分析方法を適用するようにしても良い。   The analysis method in the analysis means 30 is not limited to FFT, and other frequency analysis methods such as DFT (Discrete Fourier Transform) may be applied.

また、音源分離装置10が搭載される装置によっては、他の目的の処理装置における分析に関する構成を、この音源分離装置10の構成として流用するようにしても良い。例えば、当該音源分離装置10が搭載される装置がIP電話装置の場合には、このような流用が可能である。IP電話装置の場合、IPパケットのペイロードにはFFT出力を符号化したものを挿入するが、そのFFT出力を、上述した分析手段30の出力として流用することができる。   Further, depending on the device on which the sound source separation device 10 is mounted, the configuration relating to the analysis in the other purpose processing device may be used as the configuration of the sound source separation device 10. For example, when the device on which the sound source separation device 10 is mounted is an IP telephone device, such diversion is possible. In the case of an IP telephone device, an encoded FFT output is inserted into the payload of an IP packet, and the FFT output can be used as the output of the analyzing means 30 described above.

また、後述する分離手段40の処理では、スペクトルD(m)の性質D(m)=D*(N−m)(ただし、1≦m≦N/2−1、D*(N−m)はD(N−m)の共役複素数を表す)から、0≦m≦N/2の範囲で行えば良い。   Further, in the process of the separating means 40 described later, the property D (m) = D * (N−m) of the spectrum D (m) (where 1 ≦ m ≦ N / 2-1, D * (N−m)). Represents a conjugate complex number of D (N−m)) to 0 ≦ m ≦ N / 2.

分離手段40は、妨害音抑圧部41及び目的音抑圧部42を有している。   The separating means 40 includes a disturbance sound suppressing unit 41 and a target sound suppressing unit 42.

妨害音抑圧部41は、D1(m)、D2(m)を利用して、妨害音の成分を抑圧し、目的音の成分が強調されたスペクトルを生成する。そして、目的音抑圧部42は、D1(m)、D2(m)を利用して、目的音の成分を抑圧し、妨害音の成分が強調されたスペクトルを生成する。   The interfering sound suppressing unit 41 uses D1 (m) and D2 (m) to suppress the interfering sound component and generate a spectrum in which the target sound component is emphasized. Then, the target sound suppression unit 42 uses D1 (m) and D2 (m) to suppress the target sound component and generate a spectrum in which the disturbing sound component is emphasized.

次に、妨害音抑圧部41の構成について説明する。   Next, the configuration of the interference sound suppression unit 41 will be described.

妨害音抑圧部41は、2つの空間フィルタ411、412及び最小選択部413を有している。   The interference sound suppression unit 41 includes two spatial filters 411 and 412 and a minimum selection unit 413.

空間フィルタ411、412の抑圧角度は、それぞれ、90度、−90度に設定されているものとする。   It is assumed that the suppression angles of the spatial filters 411 and 412 are set to 90 degrees and −90 degrees, respectively.

上述の通り、音源分離装置10では、目的音は、概ね0度の方向から到来することが想定されているため、妨害音抑圧部41では、目的音が到来する方向とは異なる方向に、空間フィルタの抑圧角度を向けているが、目的音が到来すると想定される方向に応じて、空間フィルタの数や抑圧角度の組み合わせを変更するようにしても良い。   As described above, since the target sound is assumed to arrive from a direction of approximately 0 degrees in the sound source separation device 10, the interference sound suppression unit 41 has a space in a direction different from the direction in which the target sound arrives. Although the suppression angle of the filter is directed, the number of spatial filters and the combination of suppression angles may be changed according to the direction in which the target sound is expected to arrive.

空間フィルタ411の具体的な処理としては、以下の(3)式を用いて、E1(m)を求める。また、空間フィルタ412は、以下の(4)式を用いて、E2(m)を求める。以下の(3)式、(4)式において、fはサンプリング周波数であり、例えば、1600Hzを適用するようにしても良い。   As a specific process of the spatial filter 411, E1 (m) is obtained using the following equation (3). The spatial filter 412 calculates E2 (m) using the following equation (4). In the following formulas (3) and (4), f is a sampling frequency, and for example, 1600 Hz may be applied.

そして、最小選択部413は、以下の(5)式に示すように、空間フィルタ411の出力E1(m)と空間フィルタ412の出力E2(m)の絶対値の最小値M(m)を、算出してM(m)を求める。この出力M(m)は、目的音の成分を抽出したものとして、最小選択部413から除去手段50に与えられる。

Figure 0005105336
Then, as shown in the following equation (5), the minimum selection unit 413 determines the absolute value M (m) of the absolute value of the output E1 (m) of the spatial filter 411 and the output E2 (m) of the spatial filter 412 as follows: Calculate M (m). The output M (m) is given from the minimum selection unit 413 to the removing unit 50 as an extracted target sound component.
Figure 0005105336

次に、目的音抑圧部42の構成について説明する。   Next, the configuration of the target sound suppression unit 42 will be described.

目的音抑圧部42は、3つの空間フィルタ421、422、423及び最小選択部424を有している。   The target sound suppression unit 42 includes three spatial filters 421, 422, and 423 and a minimum selection unit 424.

空間フィルタ421、422、423の抑圧角度は、それぞれ、0度、5度、−5度の方向に設定されているものとする。   It is assumed that the suppression angles of the spatial filters 421, 422, and 423 are set in directions of 0 degrees, 5 degrees, and -5 degrees, respectively.

上述の通り、音源分離装置10では、目的音は、概ね0度の方向から到来することが想定されているため、目的音抑圧部42では、空間フィルタ421の抑圧角度を0度に設定し、0度の方向から、わずか(±5度程度)にずらした方向に、空間フィルタ422及び空間フィルタ423の抑圧角度を設定している。音源分離装置10では、上述の例のように、目的音が到来すると想定される方向を中心として、左右対称の対になるように空間フィルタの抑圧角度を設定することが望ましい。   As described above, in the sound source separation device 10, since the target sound is assumed to come from a direction of approximately 0 degrees, the target sound suppression unit 42 sets the suppression angle of the spatial filter 421 to 0 degrees, The suppression angles of the spatial filter 422 and the spatial filter 423 are set in a direction slightly shifted (about ± 5 degrees) from the 0 degree direction. In the sound source separation device 10, it is desirable to set the suppression angle of the spatial filter so as to form a symmetric pair around the direction in which the target sound is expected to arrive, as in the above example.

目的音抑圧部42では、3つの空間フィルタを用いているが、目的音が到来すると想定される方向(音源分離装置10では0度)を含む所定の範囲内(音源分離装置10では−5度〜+5度の範囲内)で、複数の空間フィルタにより、それぞれ異なる抑圧角度が向けられていれば、空間フィルタの数やその抑圧角度の組み合わせは限定されないものである。   The target sound suppression unit 42 uses three spatial filters, but within a predetermined range including the direction in which the target sound is expected to arrive (0 degree in the sound source separation apparatus 10) (-5 degrees in the sound source separation apparatus 10). As long as different suppression angles are directed by a plurality of spatial filters, the number of spatial filters and combinations of the suppression angles are not limited.

空間フィルタ421具体的な処理としては、以下の(6)式を用いて、F0(m)を求める。   As specific processing of the spatial filter 421, F0 (m) is obtained using the following equation (6).

空間フィルタ422は、以下の(7)式を用いて、F1(m)を求める。なお、(7)式において、τ5は抑圧角度=+5度に相当する遅延である。 The spatial filter 422 calculates F1 (m) using the following equation (7). In equation (7), τ 5 is a delay corresponding to the suppression angle = + 5 degrees.

空間フィルタ423は、以下の(8)式を用いて、F2(m)を求める。なお、(8)式において、τ-5は抑圧角度=−5度に相当する遅延である。 The spatial filter 423 calculates F2 (m) using the following equation (8). In the equation (8), τ −5 is a delay corresponding to the suppression angle = −5 degrees.

そして、最小選択部424は、以下の(9)式に示すように、F0(m)、F1(m)、F2(m)の絶対値の最小値N(m)を算出する。この出力N(m)は、妨害音の成分を抽出したものとして、最小選択部424から除去手段50に与えられる。

Figure 0005105336
And the minimum selection part 424 calculates the minimum value N (m) of the absolute value of F0 (m), F1 (m), and F2 (m), as shown to the following (9) Formula. This output N (m) is provided from the minimum selection unit 424 to the removing means 50 as an extracted component of the interference sound.
Figure 0005105336

次に、除去手段50の構成について説明する。   Next, the configuration of the removing unit 50 will be described.

除去手段50は、分離手段40から与えられるM(m)とN(m)とを用いて、D1(m)における、妨害音を除去するための妨害音除去スペクトルH(m)を求めて、生成手段60に与える。   The removing means 50 uses M (m) and N (m) given from the separating means 40 to obtain a disturbing sound removal spectrum H (m) for removing the disturbing sound in D1 (m). This is given to the generating means 60.

以下では、除去手段50が求める妨害音除去スペクトルH(m)の一例について説明する。   Hereinafter, an example of the interference noise removal spectrum H (m) required by the removal unit 50 will be described.

除去手段50では最小選択部413の出力M(m)と最小選択部424の出力N(m)から、以下の(10)式を用いて、S(m)を求める。さらに、除去手段50は、0≦m≦N/2の範囲で求められたS(m)に対して、以下の(11)式を用いて、除去手段50の出力である妨害音除去スペクトルH(m)を求める。なお、(10)式、(11)式において、D1をD2に置き換えるようにしても良い。

Figure 0005105336
The removing unit 50 obtains S (m) from the output M (m) of the minimum selection unit 413 and the output N (m) of the minimum selection unit 424 using the following equation (10). Further, the removal means 50 uses the following equation (11) for S (m) obtained in the range of 0 ≦ m ≦ N / 2, and the interference noise removal spectrum H that is the output of the removal means 50: Find (m). Note that D1 may be replaced with D2 in the expressions (10) and (11).
Figure 0005105336

H(m)= S(m) D1(m) …(11)
また、除去手段50は、H(m)=H*(N−m)(ただし、N/2+1≦m≦N−1)の性質を利用して、0≦m≦N−1の範囲の妨害音除去スペクトルH(m)を求め、生成手段60に与える。
H (m) = S (m) D1 (m) (11)
Further, the removing means 50 uses the property of H (m) = H * (N−m) (where N / 2 + 1 ≦ m ≦ N−1) and obstructs in the range of 0 ≦ m ≦ N−1. A sound removal spectrum H (m) is obtained and given to the generation means 60.

生成手段60は、妨害音除去スペクトルH(m)をN点逆FFT処理し、音源分離信号h(n)を得る。そして、生成手段60は、以下の(12)式に示すように、現在の音源分離信号h(n)と、直前の分析単位についての音源分離信号h’(n)の後半の3N/4個のデータを加算して、出力y(n)を得る。   The generation unit 60 performs N-point inverse FFT processing on the interference noise removal spectrum H (m) to obtain a sound source separation signal h (n). Then, as shown in the following equation (12), the generation unit 60 generates 3N / 4 signals in the latter half of the current sound source separation signal h (n) and the sound source separation signal h ′ (n) for the immediately preceding analysis unit. Are added to obtain an output y (n).

y(n) = h(n) + h’(n+N/4) …(12)
音源分離装置10では、相前後する分析単位でデータ(サンプル)を重複させるように、N/4個のデータをシフトしながら、上述した処理を行う例について説明したが、これは、波形接続を円滑に行うためであるため、必ずしも必要な処理ではなく、N個ずつ処理するようにしても良い。なお、N/4個のデータをシフトしながら処理する場合、1つの分析単位に対し、分析手段30から当該生成手段60までの上述した一連の処理に要する時間は、NT/4を上限とすることが望ましい。
y (n) = h (n) + h ′ (n + N / 4) (12)
In the sound source separation apparatus 10, the example in which the above-described processing is performed while shifting N / 4 data so that data (samples) are overlapped in successive analysis units has been described. Since it is for smooth execution, it is not always necessary, and N pieces may be processed. In the case of processing while shifting N / 4 data, the time required for the above-described series of processing from the analysis unit 30 to the generation unit 60 is limited to NT / 4 for one analysis unit. It is desirable.

(A−2)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-2) Effects of First Embodiment According to the first embodiment, the following effects can be achieved.

音源分離装置10では、目的音抑圧部42の、3つの空間フィルタに、それぞれ0度、5度、−5度の指向性を持たせており、最小選択部424では、3つの空間フィルタの出力値のうち最も小さい絶対値となる出力値をN(m)に適用している。すなわち、目的音抑圧部42では、目的音が0度方向の近辺から到来した場合には、0度方向の近辺の成分については、空間フィルタ421の出力値の絶対値が最も小さいため、これがN(m)に反映される。一方、5度方向の近辺のから目的音が到来した場合には、5度方向の近辺の成分については、空間フィルタ422の出力値がN(m)に反映されることになる。このように、目的音抑圧部42では、目的音の到来方向に応じて、選択して適用される空間フィルタ群を設けることにより、目的音が到来する方向が少しずれた場合でも、N(m)に目的音成分が混入することを防ぎ、音源分離装置10が出力する音質劣化を防いでいる。   In the sound source separation device 10, the directivity of 0 degree, 5 degrees, and -5 degrees is given to the three spatial filters of the target sound suppression unit 42, respectively, and the minimum selection unit 424 outputs the three spatial filters. An output value having the smallest absolute value among the values is applied to N (m). That is, in the target sound suppression unit 42, when the target sound comes from the vicinity of the 0 degree direction, the absolute value of the output value of the spatial filter 421 is the smallest for the component in the vicinity of the 0 degree direction. Reflected in (m). On the other hand, when the target sound arrives from the vicinity in the 5 degree direction, the output value of the spatial filter 422 is reflected in N (m) for the component in the vicinity in the 5 degree direction. In this way, the target sound suppression unit 42 provides a spatial filter group that is selected and applied according to the direction of arrival of the target sound, so that N (m ) Is prevented from being mixed with the target sound component, and deterioration of the sound quality output by the sound source separation device 10 is prevented.

したがって、上述のように、目的音の到来方向に応じて選択して適用される空間フィルタ群を用いて目的音抑圧部42を構成することにより、目的音の到来方向がずれた場合でも、分離後の目的音の音声の品質を向上させ、聞きやすくすることができる。   Therefore, as described above, by configuring the target sound suppression unit 42 using the spatial filter group that is selected and applied according to the direction of arrival of the target sound, even when the direction of arrival of the target sound is deviated, separation is performed. It is possible to improve the quality of the later target sound and make it easier to hear.

(B)第2の実施形態
以下、本発明による音源分離装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of a sound source separation device, program, and method according to the present invention will be described in detail with reference to the drawings.

(B−1)第2の実施形態の構成及び動作
図2は、第2の実施形態の音源分離装置10Aの全体構成を示すブロック図である。
(B-1) Configuration and Operation of the Second Embodiment FIG. 2 is a block diagram showing the overall configuration of the sound source separation device 10A of the second embodiment.

第1の実施形態の音源分離装置10では、入力手段20、分析手段30、分離手段40をそれぞれ一つずつ有する構成であったが、第2の実施形態の音源分離装置10Aでは、入力手段20、分析手段30、分離手段40の組を、複数組備える点で異なっている。また、第2の実施形態の音源分離装置10Aでは、除去手段50が除去手段50Aに置き換わっている点で、第1の実施形態と異なっている。   In the sound source separation apparatus 10 of the first embodiment, the input means 20, the analysis means 30, and the separation means 40 are each provided, but in the sound source separation apparatus 10A of the second embodiment, the input means 20 The difference is that a plurality of sets of analysis means 30 and separation means 40 are provided. Further, the sound source separation device 10A of the second embodiment is different from the first embodiment in that the removing unit 50 is replaced with the removing unit 50A.

音源分離装置10Aでは、図2に示すように、入力手段20、分析手段30、分離手段40の組を2組有する。すなわち、2つの入力手段20(20−1、20−2)、2つの分析手段30(30−1、30−2)、及び2つの分離手段40(40−1、40−2)を有している。また、入力手段20−1は、2つのマイクロフォン21−1、22−1を有し、入力手段20−2も2つのマイクロフォン21−2、22−2を有している。   As shown in FIG. 2, the sound source separation device 10 </ b> A has two sets of input means 20, analysis means 30, and separation means 40. That is, it has two input means 20 (20-1, 20-2), two analysis means 30 (30-1, 30-2), and two separation means 40 (40-1, 40-2). ing. The input unit 20-1 has two microphones 21-1 and 22-1, and the input unit 20-2 also has two microphones 21-2 and 22-2.

入力手段20−1、20−2、分析手段30−1、30−2、分離手段40−1、40−2のそれぞれの処理については、第1の実施形態の入力手段20、分析手段30、分離手段40と同様であるので詳しい説明は省略する。   Regarding the processes of the input means 20-1, 20-2, the analysis means 30-1, 30-2, and the separation means 40-1, 40-2, the input means 20, the analysis means 30, and the first embodiment, Since it is the same as that of the separation means 40, detailed description is abbreviate | omitted.

また、以下では、分離手段40−1における、妨害音抑圧部の出力をMA(m)、目的音抑圧部の出力をNA(m)と表す。また、分離手段40−2における、妨害音抑圧部の出力をMB(m)、目的音抑圧部の出力をNB(m)と表す。また、マイクロフォン21−1からの信号を、分析手段30−1で処理したものをD1(m)と表すものとする。   In the following, the output of the interference sound suppressing unit in the separating unit 40-1 is expressed as MA (m), and the output of the target sound suppressing unit is expressed as NA (m). Further, in the separating unit 40-2, the output of the interference sound suppressing unit is represented as MB (m), and the output of the target sound suppressing unit is represented as NB (m). In addition, a signal obtained by processing the signal from the microphone 21-1 by the analyzing unit 30-1 is represented as D1 (m).

次に、除去手段50Aの構成について説明する。   Next, the configuration of the removing unit 50A will be described.

除去手段50Aは、分離手段40−1から与えられるMA(m)、NA(m)と、40−2から与えられる、MB(m)、NB(m)とを用いて、D1(m)における、妨害音を除去するための妨害音除去スペクトルH(m)を求めて、生成手段60に与える。   The removing means 50A uses MA (m) and NA (m) given from the separating means 40-1 and MB (m) and NB (m) given from 40-2, and uses D (m). Then, the interference sound removal spectrum H (m) for removing the interference sound is obtained and given to the generating means 60.

以下では、除去手段50Aが求める妨害音除去スペクトルH(m)の一例について説明する。   Hereinafter, an example of the interference noise removal spectrum H (m) required by the removing unit 50A will be described.

除去手段50Aは、分離手段40−1から与えられるMA(m)、NA(m)と、40−2から与えられる、MB(m)、NB(m)とを、以下の(13)式に適用し、S(m)を求める。さらに、除去手段50Aは、0≦m≦N/2の範囲で求められたS(m)に対して、以下の(14)式を用いて、除去手段50Aの出力である妨害音除去スペクトルH(m)を求める。なお、(13)式、(14)式において、D1を、他のマイクロフォンからの信号に基づくスペクトルに置き換えるようにしても良い。

Figure 0005105336
The removing unit 50A converts MA (m) and NA (m) given from the separating unit 40-1 and MB (m) and NB (m) given from 40-2 into the following equation (13). Apply and determine S (m). Further, the removing unit 50A uses the following equation (14) for S (m) obtained in the range of 0 ≦ m ≦ N / 2, and uses the following equation (14) to remove the interference sound removal spectrum H that is the output of the removing unit 50A. Find (m). Note that in the equations (13) and (14), D1 may be replaced with a spectrum based on signals from other microphones.
Figure 0005105336

H(m)= S(m) D1(m) …(14)
また、H(m)=H*(N−m)(ただし、N/2+1≦m≦N−1)の性質を利用して、0≦m≦N−1の範囲の妨害音除去スペクトルH(m)を求め、生成手段60に与える。
H (m) = S (m) D1 (m) (14)
Further, by utilizing the property of H (m) = H * (N−m) (where N / 2 + 1 ≦ m ≦ N−1), the interference noise elimination spectrum H (range of 0 ≦ m ≦ N−1) ( m) is obtained and given to the generating means 60.

生成手段60の処理については、第1の実施形態と同様であるので説明を省略する。   Since the processing of the generation unit 60 is the same as that of the first embodiment, description thereof is omitted.

(B−2)第2の実施形態の効果
第2の実施形態の音源分離装置10Aでは、入力手段において、2個よりも多い数のマイクロフォンを用いた場合でも、第1の実施形態と同様の効果を奏することができる。
(B-2) Effects of Second Embodiment In the sound source separation device 10A of the second embodiment, even when more than two microphones are used in the input means, the same as in the first embodiment There is an effect.

(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.

(C−1)第1の実施形態において、音源分離装置10の用途によっては、生成手段60を省略したり、他の装置が有する生成部を流用したりすることができる。例えば、音源分離装置が音声認識装置に利用される場合であれば、分離スペクトルH(m)を認識用特徴量として用いるようにして生成手段60を省略することができる。また例えば、音源分離装置がIP電話機に利用される場合であれば、IP電話機が生成部に相当する手段を有するので、その生成部を流用するようにしても良い。 (C-1) In the first embodiment, depending on the application of the sound source separation device 10, the generation unit 60 can be omitted, or a generation unit included in another device can be used. For example, if the sound source separation device is used for a speech recognition device, the generation means 60 can be omitted by using the separated spectrum H (m) as the recognition feature amount. Further, for example, if the sound source separation device is used for an IP phone, the IP phone has means corresponding to the generation unit, and the generation unit may be used.

(C−2)第2の実施形態において、4つのマイクロフォン21−1、22−1、21−2、22−2を用いる例について説明したが、入力手段20−1と入力手段20−2との間で、1個を共通に使うことにより3個のマイクロフォンによって構成するようにしても良い。この場合、共通に用いるマイクロフォンが受音した信号の処理を共通にすることができるため演算量を低減させることができる。また、用いるマイクロフォンの数をさらに増加させた場合でも、同様に入力手段の間で共通のマイクロフォンを用いるようにしても良い。 (C-2) In the second embodiment, the example using the four microphones 21-1, 22-1, 21-2, and 22-2 has been described. However, the input unit 20-1, the input unit 20-2, In this case, one microphone may be used in common, and three microphones may be used. In this case, the amount of calculation can be reduced because the processing of the signals received by the commonly used microphones can be made common. Further, even when the number of microphones to be used is further increased, a common microphone may be used between the input means.

10…音源分離装置、20…入力手段、21、22…マイクロフォン、30…分析手段、31、32…周波数分析部、40…分離手段、41…妨害音抑圧部、411、412…空間フィルタ、413…最小選択部、42…目的音抑圧部、421、422、423空間フィルタ、424…最小選択部、50…除去手段、60…生成手段。   DESCRIPTION OF SYMBOLS 10 ... Sound source separation apparatus, 20 ... Input means, 21, 22 ... Microphone, 30 ... Analysis means, 31, 32 ... Frequency analysis part, 40 ... Separation means, 41 ... Interference sound suppression part, 411, 412 ... Spatial filter, 413 ... minimum selection unit, 42 ... target sound suppression unit, 421, 422, 423 spatial filter, 424 ... minimum selection unit, 50 ... removal means, 60 ... generation means.

Claims (4)

間隔を置いて配置された複数個のマイクロフォンのうち、2個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される想定到来方向を含む所定の範囲内で、それぞれ異なる方向に、成分抑圧の指向性を向けて処理する複数の目的音抑圧部を用いて、上記受音信号のスペクトルから、上記目的音の成分を抑圧した目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、
上記受音信号のスペクトルについて、上記所定の範囲以外の任意の方向から到来する妨害音を抑圧した目的音優勢スペクトルを生成する目的音優勢スペクトル生成手段と、
目的音抑圧スペクトルと、目的音優勢スペクトルとを用いて、上記受音信号について、上記妨害音の成分と上記目的音の成分とを分離する分離手段とを有し、
上記目的音抑圧スペクトル生成手段は、目的音抑圧スペクトルの各成分について、上記目的音抑圧部の処理結果のうち最も絶対値の小さい値を適用する
ことを特徴とする音源分離装置。
Among the plurality of microphones arranged at intervals, the spectrum of the received sound signal of two microphones is in a different direction within a predetermined range including an assumed arrival direction where the target sound is expected to arrive. A target sound suppression spectrum generating means for generating a target sound suppression spectrum in which a component of the target sound is suppressed from a spectrum of the received signal using a plurality of target sound suppression units that process the directivity of component suppression; ,
About the spectrum of the received sound signal, target sound dominant spectrum generating means for generating a target sound dominant spectrum suppressing interfering sound coming from any direction other than the predetermined range;
Separating means for separating the disturbing sound component and the target sound component from the received signal using the target sound suppression spectrum and the target sound dominant spectrum ;
The sound source separation device, wherein the target sound suppression spectrum generating means applies a value having the smallest absolute value among the processing results of the target sound suppression unit to each component of the target sound suppression spectrum .
上記目的音抑圧スペクトル生成手段、及び上記目的音優勢スペクトル生成手段を有するスペクトル生成処理部を複数備え、
上記分離手段は、それぞれの上記スペクトル生成処理部が生成する、目的音抑圧スペクトル及び目的音優勢スペクトルを利用して、上記受音信号について、上記妨害音の成分と上記目的音の成分とを分離する
ことを特徴とする請求項1に記載の音源分離装置。
A plurality of spectrum generation processing units having the target sound suppression spectrum generation means and the target sound dominant spectrum generation means,
The separation means separates the interference sound component and the target sound component from the received signal using the target sound suppression spectrum and the target sound dominant spectrum generated by each of the spectrum generation processing units. The sound source separation device according to claim 1, wherein:
音源分離装置に搭載されたコンピュータを、
間隔を置いて配置された複数個のマイクロフォンのうち、2個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される想定到来方向を含む所定の範囲内で、それぞれ異なる方向に、成分抑圧の指向性を向けて処理する複数の目的音抑圧部を用いて、上記受音信号のスペクトルから、上記目的音の成分を抑圧した目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、
上記受音信号のスペクトルについて、上記所定の範囲以外の任意の方向から到来する妨害音を抑圧した目的音優勢スペクトルを生成する目的音優勢スペクトル生成手段と、
目的音抑圧スペクトルと、目的音優勢スペクトルとを用いて、上記受音信号について、上記妨害音の成分と上記目的音の成分とを分離する分離手段として機能させ、
上記目的音抑圧スペクトル生成手段は、目的音抑圧スペクトルの各成分について、上記目的音抑圧部の処理結果のうち最も絶対値の小さい値を適用する
ことを特徴とする音源分離プログラム。
The computer installed in the sound source separation device
Among the plurality of microphones arranged at intervals, the spectrum of the received sound signal of two microphones is in a different direction within a predetermined range including an assumed arrival direction where the target sound is expected to arrive. A target sound suppression spectrum generating means for generating a target sound suppression spectrum in which a component of the target sound is suppressed from a spectrum of the received signal using a plurality of target sound suppression units that process the directivity of component suppression; ,
About the spectrum of the received sound signal, target sound dominant spectrum generating means for generating a target sound dominant spectrum suppressing interfering sound coming from any direction other than the predetermined range;
Using a target sound suppressed spectrum, the target sound predominant spectrum for the received sound signal, to function as a separating means for separating the components of the component and the target sound of the interference sound,
The sound source separation program, wherein the target sound suppression spectrum generating means applies a value having the smallest absolute value among the processing results of the target sound suppression unit to each component of the target sound suppression spectrum .
音源分離装置により行われる音源分離方法において、
目的音抑圧スペクトル生成手段、目的音優勢スペクトル生成手段、分離手段を有し、
上記目的音抑圧スペクトル生成手段は、間隔を置いて配置された複数個のマイクロフォンのうち、2個のマイクロフォンの受音信号のスペクトルについて、目的音が到来すると想定される想定到来方向を含む所定の範囲内で、それぞれ異なる方向に、成分抑圧の指向性を向けて処理する複数の目的音抑圧部を用いて、上記受音信号のスペクトルから、上記目的音の成分を抑圧した目的音抑圧スペクトルを生成し、
上記目的音優勢スペクトル生成手段は、上記受音信号のスペクトルについて、上記所定の範囲以外の任意の方向から到来する妨害音を抑圧した目的音優勢スペクトルを生成し、 上記分離手段は、目的音抑圧スペクトルと、目的音優勢スペクトルとを用いて、上記受音信号について、上記妨害音の成分と上記目的音の成分とを分離し、
上記目的音抑圧スペクトル生成手段は、目的音抑圧スペクトルの各成分について、上記目的音抑圧部の処理結果のうち最も絶対値の小さい値を適用する
ことを特徴とする音源分離方法。
In the sound source separation method performed by the sound source separation device,
A target sound suppression spectrum generating means, a target sound dominant spectrum generating means, and a separating means;
The target sound suppression spectrum generating means includes a predetermined number of directions including an assumed arrival direction in which the target sound is expected to arrive in the spectrum of the received signal of two microphones among a plurality of microphones arranged at intervals. A target sound suppression spectrum in which the target sound component is suppressed from the spectrum of the received signal using a plurality of target sound suppression units that process the component suppression directivity in different directions within the range. Generate
The target sound dominant spectrum generating means generates a target sound dominant spectrum in which a disturbing sound coming from an arbitrary direction other than the predetermined range is suppressed for the spectrum of the received signal, and the separating means suppresses the target sound suppression Using the spectrum and the target sound dominant spectrum, for the received signal, separating the disturbing sound component and the target sound component ,
The sound source separation method, wherein the target sound suppression spectrum generating means applies a value having the smallest absolute value among the processing results of the target sound suppression unit to each component of the target sound suppression spectrum .
JP2009282026A 2009-12-11 2009-12-11 Sound source separation apparatus, program and method Active JP5105336B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009282026A JP5105336B2 (en) 2009-12-11 2009-12-11 Sound source separation apparatus, program and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009282026A JP5105336B2 (en) 2009-12-11 2009-12-11 Sound source separation apparatus, program and method

Publications (2)

Publication Number Publication Date
JP2011123370A JP2011123370A (en) 2011-06-23
JP5105336B2 true JP5105336B2 (en) 2012-12-26

Family

ID=44287293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009282026A Active JP5105336B2 (en) 2009-12-11 2009-12-11 Sound source separation apparatus, program and method

Country Status (1)

Country Link
JP (1) JP5105336B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6323901B2 (en) * 2014-02-28 2018-05-16 国立大学法人電気通信大学 Sound collection device, sound collection method, and program
KR102470962B1 (en) * 2014-09-05 2022-11-24 인터디지털 매디슨 페턴트 홀딩스 에스에이에스 Method and apparatus for enhancing sound sources
JP7182168B2 (en) * 2019-02-26 2022-12-02 国立大学法人 筑波大学 Sound information processing device and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04212600A (en) * 1990-12-05 1992-08-04 Oki Electric Ind Co Ltd Voice input device
JP3302300B2 (en) * 1997-07-18 2002-07-15 株式会社東芝 Signal processing device and signal processing method
JP4873913B2 (en) * 2004-12-17 2012-02-08 学校法人早稲田大学 Sound source separation system, sound source separation method, and acoustic signal acquisition apparatus
JP4760160B2 (en) * 2005-06-29 2011-08-31 ヤマハ株式会社 Sound collector
US8189806B2 (en) * 2005-11-01 2012-05-29 Panasonic Corporation Sound collection apparatus
JP2008164747A (en) * 2006-12-27 2008-07-17 Toyota Motor Corp Voice recognition robot

Also Published As

Publication number Publication date
JP2011123370A (en) 2011-06-23

Similar Documents

Publication Publication Date Title
JP4986248B2 (en) Sound source separation apparatus, method and program
CN106710601B (en) Noise-reduction and pickup processing method and device for voice signals and refrigerator
JP3940662B2 (en) Acoustic signal processing method, acoustic signal processing apparatus, and speech recognition apparatus
US9986332B2 (en) Sound pick-up apparatus and method
JP4897519B2 (en) Sound source separation device, sound source separation program, and sound source separation method
EP2984852B1 (en) Method and apparatus for recording spatial audio
US9232309B2 (en) Microphone array processing system
US20060188111A1 (en) Microphone apparatus
WO2009104252A1 (en) Sound processor, sound processing method and sound processing program
KR102191736B1 (en) Method and apparatus for speech enhancement with artificial neural network
JP2010124370A (en) Signal processing device, signal processing method, and signal processing program
JP5105336B2 (en) Sound source separation apparatus, program and method
JP5240026B2 (en) Device for correcting sensitivity of microphone in microphone array, microphone array system including the device, and program
US20130253923A1 (en) Multichannel enhancement system for preserving spatial cues
JP6840302B2 (en) Information processing equipment, programs and information processing methods
JP2019068133A (en) Sound pick-up device, program, and method
JP2018164156A (en) Sound collecting device, program, and method
CN113223544A (en) Audio direction positioning detection device and method and audio processing system
JP6567216B2 (en) Signal processing device
TWI586183B (en) An audio signal processing device, a sound processing method, a monitoring device, and a monitoring method
JP2012049715A (en) Sound source separation apparatus, sound source separation method and program
JP5170465B2 (en) Sound source separation apparatus, method and program
JP2010152107A (en) Device and program for extraction of target sound
JP2020036139A (en) Sound pickup device, program and method
Adebisi et al. Acoustic signal gain enhancement and speech recognition improvement in smartphones using the REF beamforming algorithm

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120924

R150 Certificate of patent or registration of utility model

Ref document number: 5105336

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250