JP2011203414A - Noise and reverberation suppressing device and method therefor - Google Patents
Noise and reverberation suppressing device and method therefor Download PDFInfo
- Publication number
- JP2011203414A JP2011203414A JP2010069531A JP2010069531A JP2011203414A JP 2011203414 A JP2011203414 A JP 2011203414A JP 2010069531 A JP2010069531 A JP 2010069531A JP 2010069531 A JP2010069531 A JP 2010069531A JP 2011203414 A JP2011203414 A JP 2011203414A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- reverberation
- speech
- late reverberation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は雑音及び残響抑圧装置及びその方法に関する。 The present invention relates to a noise and dereverberation apparatus and method.
ロボットに対してユーザが音声コマンド入力を行うハンズフリー音声コマンド認識システム(以下、単に音声認識システムと称する。)が開発されている。ここで、図7に示すように、実環境においてロボットRにより収音される音は、ユーザPの音声(以下、ユーザ音声と称する。)の直接音と、ユーザ音声の後期残響音と、雑音とを含んでいる。なお、図では、ユーザ音声の直接音を実線で示し、ユーザ音声の後期残響音を破線で示し、雑音を一転鎖線で示している。 A hands-free voice command recognition system (hereinafter simply referred to as a voice recognition system) in which a user inputs voice commands to a robot has been developed. Here, as shown in FIG. 7, the sound picked up by the robot R in the real environment includes the direct sound of the user P's voice (hereinafter referred to as user voice), the late reverberation sound of the user voice, and noise. Including. In the figure, the direct sound of the user voice is indicated by a solid line, the late reverberation sound of the user voice is indicated by a broken line, and the noise is indicated by a chain line.
音声認識システでは、ロボットは、マイクロホンによる観測信号からユーザの音声を認識するが、音声認識性能を劣化させる要因として、(1)ユーザ音声以外の混入雑音、(2)ユーザ音声の後期残響成分の影響、などが挙げられる。 In the voice recognition system, the robot recognizes the user's voice from the observation signal from the microphone. However, as a factor that deteriorates the voice recognition performance, (1) mixed noise other than the user voice, and (2) late reverberation component of the user voice. Impact, etc.
なお、ユーザ音声の残響は音声認識性能の劣化要因となるが、後述する従来技術に示されるように、初期残響成分については、音声認識システム内の音響モデルにおいて「残響モデル」を用いることで、その影響が除去可能であることが知られている。 Although the reverberation of the user voice is a cause of deterioration of the speech recognition performance, as shown in the prior art described later, for the initial reverberation component, by using the “reverberation model” in the acoustic model in the speech recognition system, It is known that the effect can be removed.
従来、雑音や残響が発生する環境下において、雑音のみ、或いは、残響のみのいずれかの抑圧を目的とする技術が開発されている。
例えば、非特許文献1、2には、後期残響成分の抑圧を目的とする技術が開示されている。図8に、非特許文献1、2に開示された音声認識システムの機能構成を示す。尚、図では、通常の太さの線は信号を伝送していることを意味しており、それよりも太い線はフィルタを伝送していることを意味している。
Conventionally, in the environment where noise and reverberation occur, a technique for suppressing either noise alone or reverberation alone has been developed.
For example,
図8に示すように、後期残響推定部501は、マイクロホン1からの観測信号を受けて、予め測定しておいた環境の残響特性から後期残響成分を推定する。また、予め測定しておいた環境の残響特性から補正係数が求められており、ゲイン補正部502は、与えられる補正係数を用いて、推定した後期残響成分の振幅を補正する。残響抑圧処理部503は、振幅が補正された後期残響成分を用いて、マイクロホン1からの観測信号に含まれる後期残響を抑圧する。このように、観測された信号から後期残響成分を推定して、その推定した後期残響成分を減算することで、ユーザ音声の後期残響成分を抑圧する。
As shown in FIG. 8, the late
また、例えば、非特許文献3には、雑音の抑圧を目的とする技術が開示されている。図9に、非特許文献3に開示された音声認識システムの機能構成を示す。尚、図9においても、各太さの線は図8と同様のことを意味している。 Further, for example, Non-Patent Document 3 discloses a technique aimed at noise suppression. FIG. 9 shows a functional configuration of the speech recognition system disclosed in Non-Patent Document 3. Also in FIG. 9, each thickness line means the same as in FIG.
図9において、ブラインド音原分離(BSS)601、音声・雑音選択部602、及び多チャンネル雑音推定部603では、複数のマイクロホン素子からなるマイクロホンアレイ2からの観測信号を受けて、混合音を分離して雑音成分を推定する。マスク生成部604及び雑音抑圧処理部605では、推定した雑音成分からマスクを作成して、この作成したマスクを用いて観測信号に含まれる雑音を抑圧する。さらに、直接音声強調部606では、雑音抑圧後の観測信号に含まれるユーザ音声の直接音を強調する。このように、ブラインド音源分離(BSS)(もしくは、ブラインド音源抽出(BSE))アルゴリズムを用いて混入した雑音成分を推定し、観測信号と雑音推定量を入力としたWiner Filter処理を行ってユーザ音声を抽出することで、ハンズフリーのための音声強調処理を行う。
In FIG. 9, blind sound source separation (BSS) 601, speech /
一方で、本願発明者は、雑音及び残響の両方を抑圧可能とするために、図10に示す技術を創作した。
図10に示す技術では、まず、ブラインド音源分離(BSS)701、音声・雑音選択部702、多チャンネル雑音推定部703、マスク生成部704、雑音抑圧処理部705、直接音声強調部706では、図9に示した技術と同様にして雑音を抑圧した後に直接音声を強調する。そして、後期残響推定部707、ゲイン補正部708、及び残響抑圧処理部709では、図8に示した技術と同様に、予め測定しておいた環境の残響特性を用いて後期残響を抑圧する。これにより、雑音及び残響の両方を抑圧可能とするものである。
On the other hand, the inventor of the present application has created a technique shown in FIG. 10 in order to suppress both noise and reverberation.
In the technique shown in FIG. 10, first, a blind sound source separation (BSS) 701, a voice /
図11は、図8、9、10に示した各技術が備える機能を示す表である。図に示すように、図8に示した技術では雑音を抑圧することができず、図9に示した技術では後期残響を抑圧することができず、図10に示した技術では、雑音及び後期残響の両方を抑圧できるが、ゲイン補正係数を求めるために事前に運用環境データの収集を行っておく必要があり、環境が変化した場合には、再度、運用環境データの収集が必要となる。なお、ゲイン補正係数は後期残響成分を抑圧するために用いるものであるため、図9に示した技術ではゲイン補正係数は不要である。 FIG. 11 is a table showing functions provided in the technologies shown in FIGS. As shown in the figure, the technique shown in FIG. 8 cannot suppress noise, the technique shown in FIG. 9 cannot suppress late reverberation, and the technique shown in FIG. Although both reverberations can be suppressed, it is necessary to collect operational environment data in advance in order to obtain a gain correction coefficient. When the environment changes, it is necessary to collect operational environment data again. Since the gain correction coefficient is used to suppress the late reverberation component, the technique shown in FIG. 9 does not require the gain correction coefficient.
しかしながら、図10に示した雑音及び残響の両方を抑圧可能とする技術においても、依然として、部屋などの空間の残響特性を示す空間伝達特性については、各空間において予め残響特性を測定しておき、空間に応じた残響特性をユーザがロボットに与える必要があった。 However, even in the technology capable of suppressing both noise and reverberation shown in FIG. 10, the reverberation characteristic is measured in advance in each space for the spatial transfer characteristic indicating the reverberation characteristic of a space such as a room, The user has to give the robot reverberation characteristics according to the space.
ロボットが音声認識に用いるモデルは、響のない理想的な環境下において作成したものであるため、響によりユーザ音声の直接音以外の他の音が混入すると、モデルとの間でミスマッチを引き起こしてしまう。 The model used by the robot for speech recognition was created in an ideal environment without reverberation. If sound other than the direct sound of the user's sound is mixed due to reverberation, it will cause a mismatch with the model. End up.
響のある環境下で予め必要なデータを取得しておいた上でモデルを作成すれば、このようなミスマッチを回避することが可能であるが、様々な環境に対して予めこのような準備を行うのは、経済的・時間的にもコストがかかり現実的ではない。このため、事前に運用環境データの収集を必要とせずに、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧可能な技術が強く求められている。 Such a mismatch can be avoided by creating a model after obtaining necessary data in a sound environment in advance. This is not realistic because of cost and time. For this reason, there is a strong demand for a technique that can automatically suppress both noise and reverberation in response to environmental changes without requiring collection of operational environment data in advance.
なお、雑音及び残響の両方を抑圧することを目的とする技術としては、他にも非特許文献4乃至6に開示された技術があるが、いずれの技術においても、事前に運用環境データの収集を必要とするものであり、空間の残響特性を自動的に作成する点については開示されていない。 There are other techniques for suppressing both noise and reverberation, as disclosed in Non-Patent Documents 4 to 6. However, in either technique, collection of operational environment data in advance is possible. The point of automatically creating the reverberation characteristics of the space is not disclosed.
また、その他の雑音抑圧技術として特許文献1乃至5などに開示される技術があるが、例えば特許文献1や特許文献2に開示された技術では、雑音の抑圧のみを可能とするものにすぎない。
In addition, as other noise suppression techniques, there are techniques disclosed in
従って、本発明は、上述した課題を解決して、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧可能な雑音及び残響抑圧装置及びその方法を提供することを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a noise and dereverberation apparatus and method capable of automatically suppressing both noise and reverberation by solving the above-described problems and adapting to environmental changes. .
本発明の第一の態様に係る雑音及び残響抑圧装置は、音声及び雑音を含む混合観測信号が周波数領域に変換された入力信号を用いて、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するフィルタ作成部と、前記入力信号と、前記分離フィルタ行列と、前記分離フィルタ行列の逆行列と、を用いて、推定雑音を算出する雑音推定部と、前記分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得し、前記推定空間伝達特性から前記音声の直接音声及び初期反射に相当する区間を切出し、当該切出した区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成し、前記入力信号と、前記分離フィルタ行列と、前記直接音声及び初期反射フィルタ行列と、を用いて、推定直接音声及び初期反射音声を算出する直接音声・初期反射音声推定部と、与えられる空間の残響時間と、前記直接音声・初期反射音声推定部により切出した区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出し、前記推定直接音声及び初期反射音声と、前記分離フィルタ行列と、前記後期残響特性のフィルタ係数と、を用いて、擬似後期残響を算出する後期残響生成部と、を備え、前記雑音推定部により算出した前記推定雑音と、前記後期残響生成部により算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響を抑圧するものである。 The noise and dereverberation apparatus according to the first aspect of the present invention uses an input signal obtained by converting a mixed observation signal including voice and noise into a frequency domain at each frequency for separating the voice from the mixed observation signal. A noise estimation unit that calculates estimated noise using a filter creation unit that creates a separation filter matrix, an input signal, the separation filter matrix, and an inverse matrix of the separation filter matrix, and the separation filter matrix Each element of the inverse matrix is converted to the time domain to obtain an estimated spatial transfer characteristic, and a section corresponding to the direct voice and initial reflection of the voice is extracted from the estimated spatial transfer characteristic, and the extracted section is converted to the frequency domain. Transform to create a direct speech and initial reflection filter matrix at each frequency, the input signal, the separation filter matrix, and the direct speech and initial reflection filter matrix. The direct voice / initial reflected voice estimation unit for calculating the estimated direct voice and the initial reflected voice, the reverberation time of the given space, and the power amount of the section extracted by the direct voice / initial reflected voice estimation unit, A late period of calculating pseudo-late reverberation using the estimated direct speech and early reflected sound, the separation filter matrix, and the filter coefficient of the late reverberation characteristic, calculating a filter coefficient of the late reverberation characteristic at each frequency Reverberation generation unit, and suppresses noise and late reverberation in the mixed observation signal using the estimated noise calculated by the noise estimation unit and the pseudo late reverberation calculated by the late reverberation generation unit To do.
これにより、環境が変化した場合においても、新たな空間の観測信号に基づいて推定直接音声及び初期反射音声を算出し、後期残響特性を自動的に作成して、算出した推定直接音声及び初期反射音声と、作成した後期残響特性と、から後期残響を算出することができるため、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧することができる。 As a result, even when the environment changes, the estimated direct speech and early reflection sound are calculated based on the observation signal in the new space, the late reverberation characteristics are automatically created, and the calculated estimated direct speech and initial reflection are calculated. Since the late reverberation can be calculated from the voice and the created late reverberation characteristics, both noise and reverberation can be automatically suppressed in accordance with the change in the environment.
また、前記入力信号と、前記雑音推定部により算出した前記推定雑音と、を用いて、雑音抑圧マスクを算出する雑音抑圧マスク生成部と、前記雑音抑圧マスクを用いて、前記混合観測信号中の雑音を抑圧する雑音抑圧処理部と、前記雑音抑圧マスク生成部により算出した前記雑音抑圧マスクを用いて、前記後期残響生成部により算出した前記擬似後期残響の振幅を補正するゲイン補正部と、を更に備え、前記ゲイン補正部により振幅が補正された後の擬似後期残響を用いて、前記混合観測信号中の後期残響を抑圧するようにしてもよい。 Further, a noise suppression mask generation unit that calculates a noise suppression mask using the input signal and the estimated noise calculated by the noise estimation unit, and a noise suppression mask in the mixed observation signal using the noise suppression mask A noise suppression processing unit that suppresses noise; and a gain correction unit that corrects the amplitude of the pseudo late reverberation calculated by the late reverberation generation unit using the noise suppression mask calculated by the noise suppression mask generation unit; Further, the late reverberation in the mixed observation signal may be suppressed using the pseudo late reverberation after the amplitude is corrected by the gain correction unit.
さらにまた、前記入力信号と、前記ゲイン補正部により振幅が補正された後の擬似後期残響と、を用いて、後期残響音抑圧マスクを算出する後期残響音抑圧マスク生成部と、前記後期残響音抑圧マスクを用いて、前記混合観測信号中の残響を抑圧する後期残響音抑圧処理部と、を更に備えるようにしてもよい。 Furthermore, a late reverberation sound suppression mask generation unit that calculates a late reverberation sound suppression mask using the input signal and the pseudo late reverberation after the amplitude is corrected by the gain correction unit, and the late reverberation sound A late reverberation suppression unit that suppresses reverberation in the mixed observation signal by using a suppression mask may be further included.
また、前記フィルタ作成部は、前記入力信号を用いて適応学習処理を行い、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するブラインド音源分離と、前記ブラインド音源分離により作成した前記分離フィルタ行列の第一要素が前記音声となるように入れ替えを行う音声・雑音選択部と、前記音声雑音・選択部により入れ替えを行った後の分離フィルタ行列の逆行列を算出する逆行列演算部と、を備えるようにしてもよい。 In addition, the filter creation unit performs adaptive learning processing using the input signal and creates a separation filter matrix at each frequency for separating the speech from the mixed observation signal, and the blind sound source separation A voice / noise selector that performs replacement so that the first element of the generated separation filter matrix becomes the speech, and an inverse that calculates an inverse matrix of the separation filter matrix after replacement by the speech noise / selection unit. A matrix operation unit.
また、前記雑音推定部により算出した前記推定雑音と、前記後期残響生成部により算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響が抑圧された後の信号について、直接音声を強調する直接音声強調部を更に備えるようにしてもよい。 Further, with respect to the signal after suppression of the noise in the mixed observation signal and the late reverberation using the estimated noise calculated by the noise estimation unit and the pseudo late reverberation calculated by the late reverberation generation unit A direct voice emphasis unit that directly emphasizes the voice may be further provided.
本発明の第二の態様に係る雑音及び残響の抑圧方法は、音声及び雑音を含む混合観測信号を周波数領域に変換して入力信号とするステップと、前記入力信号を用いて、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するステップと、作成した前記分離フィルタ行列の逆行列を算出するステップと、前記入力信号と、作成した前記分離フィルタ行列と、作成した前記分離フィルタ行列の逆行列と、を用いて、推定雑音を算出するステップと、作成した前記分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得するステップと、取得した前記推定空間伝達特性から前記音声の直接音声及び初期反射に相当する区間を切出すステップと、切出した前記区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成するステップと、前記入力信号と、作成した前記分離フィルタ行列と、作成した前記直接音声及び初期反射フィルタ行列と、を用いて、推定直接音声及び初期反射音声を算出するステップと、与えられる空間の残響時間と、切出した前記区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出するステップと、算出した前記推定直接音声及び初期反射音声と、作成した前記分離フィルタ行列と、算出した前記後期残響特性のフィルタ係数と、を用いて、擬似後期残響を算出するステップと、算出した前記推定雑音と、算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響を抑圧するステップと、を有するものである。 The method for suppressing noise and reverberation according to the second aspect of the present invention includes a step of converting a mixed observation signal including speech and noise into a frequency domain to be an input signal, and using the input signal, the mixed observation signal. Generating a separation filter matrix at each frequency for separating the speech from the above, calculating an inverse matrix of the created separation filter matrix, the input signal, the created separation filter matrix, and the created Using the inverse matrix of the separation filter matrix to calculate the estimated noise, converting each element of the created inverse matrix of the separation filter matrix into the time domain, and obtaining the estimated spatial transfer characteristics; Cutting out the section corresponding to the direct voice and initial reflection of the voice from the estimated spatial transfer characteristics, and converting the cut out section into a frequency domain Estimating direct speech and initial reflection filter matrix using the step of creating a direct speech and initial reflection filter matrix at wave number, the input signal, the created separation filter matrix, and the created direct speech and initial reflection filter matrix. The step of calculating reflected speech, the step of calculating the filter coefficient of the late reverberation characteristic at each frequency from the reverberation time of the given space and the power amount of the extracted section, the calculated estimated direct speech and The step of calculating the pseudo late reverberation using the early reflection sound, the created separation filter matrix, and the calculated filter coefficient of the late reverberation characteristic, the calculated estimated noise, and the calculated pseudo late reverberation And suppressing noise and late reverberation in the mixed observation signal.
本発明によれば、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧可能な雑音及び残響抑圧装置及びその方法を提供することができる。 According to the present invention, it is possible to provide a noise and dereverberation apparatus and method that can automatically suppress both noise and reverberation in response to environmental changes.
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。図1及び図2は、本発明の一実施形態に係る雑音及び残響抑圧装置のシステム構成を示すブロック図である。尚、図では、通常の太さの線は信号を伝送していることを意味しており、それよりも太い線はフィルタを伝送していることを意味している。
Embodiments of the present invention will be described below with reference to the drawings. 1 and 2 are block diagrams showing a system configuration of a noise and dereverberation apparatus according to an embodiment of the present invention. In the figure, a line having a normal thickness means that a signal is transmitted, and a line thicker than that means that a filter is transmitted.
本実施の形態に係る雑音及び残響抑圧装置100は、マイクロホンアレイ2と、フィルタ作成部10と、雑音推定部21と、雑音抑圧マスク生成部22と、雑音抑圧処理部23と、直接音声・初期反射音声推定部24と、後期残響生成部25と、ゲイン補正部26と、後期残響音抑圧マスク生成部27と、後期残響音抑圧処理部28と、直接音声強調部29と、を備えている。
The noise and
なお、雑音及び残響抑圧装置100は、主要なハードウェア構成として、制御処理、演算処理等を行うCPU(Central Processing Unit)と、CPUによって実行される制御プログラム、演算プログラム等が記憶されたROM(Read Only Memory)と、処理データ等を一時的に記憶するRAM(Random Access Memory)と、を有するマイクロコンピュータにより構成されている。また、フィルタ作成部10と、雑音推定部21と、雑音抑圧マスク生成部22と、雑音抑圧処理部23と、直接音声・初期反射音声推定部24と、後期残響生成部25と、ゲイン補正部26と、後期残響音抑圧マスク生成部27と、後期残響音抑圧処理部28と、直接音声強調部29と、は、例えば、上記ROMに格納され、上記CPUによって実行されるプログラムにより実現されていてもよい。
The noise and
雑音及び残響抑圧装置100は、フィルタ作成部10と、雑音推定部21と、雑音抑圧マスク生成部22と、雑音抑圧処理部23と、を含む部分において、雑音抑圧に関する処理を行う。また、フィルタ作成部10と、直接音声・初期反射音声推定部24と、後期残響生成部25と、ゲイン補正部26と、後期残響音抑圧マスク生成部27と、後期残響音抑圧処理部28と、を含む部分において、後期残響音抑圧に関する処理を行う。また、直接音声強調部29を含む部分において、直接音の強調に関する処理を行う。さらに、直接音声強調29から出力される信号に基づいて、音声認識処理が行われる。
The noise and
また、フィルタ作成部10では、バッチ処理を行い、所定量の観測信号(音声データ)を蓄積した上で、蓄積した音声データを用いてフィルタ作成処理を行う。フィルタ作成部10を除く雑音推定部21などでは、フィルタ作成部10で作成されたフィルタを利用して、リアルタイム処理を行う。
Further, the
雑音及び残響抑圧装置10による処理の概要を説明する。まず、マイクロホンアレイ2により観測される観測信号には、ユーザ音声と雑音が含まれている。そして、ユーザ音声には、直接音声と、初期反射音と、後期残響音と、が含まれている。フィルタ作成部10では、観測信号からユーザ音声と雑音とを分離し、この際、分離フィルタを作成する。この分離フィルタにより分離される推定雑音を利用して、観測信号の雑音が抑圧される。一方で、直接音声・初期反射音声推定部24では、この分離フィルタを利用して、観測信号から、ユーザ音声の直接音声及び初期反射音を推定する。そして、後期残響生成部25では、人工的な後期残響特性を作成して、推定されたユーザ音声の直接音声及び初期反射音と作成した後期残響特性とから擬似後期残響を作成する。そして、この作成された擬似後期残響を利用して、観測信号のユーザ音声の後期残響が抑圧される。
An outline of processing by the noise and
マイクロホンアレイ2は、複数のマイクロホン素子から構成され、ユーザ音声及び雑音が混合された混合音を観測する。これら複数のマイクロホンは、例えばロボットRの頭部に設けられており、水平方向に複数配置されている。各マイクロホンの観測信号が各チャネルiに対応する。
The
各マイクロホンによる観測信号が、図示しないADコンバータによりデジタルデータ(以下、音声データと称する。)に変換される。さらに、各マイクロホンの音声データは所定の時間分蓄積され、フレーム単位に分割される。そして、フレーム単位の音声データに対して離散フーリエ変換処理が行われ、時間・周波数領域の入力信号ベクトルX(f,t)に変換される。 An observation signal from each microphone is converted into digital data (hereinafter referred to as audio data) by an AD converter (not shown). Furthermore, audio data of each microphone is accumulated for a predetermined time and divided into frames. Discrete Fourier transform processing is performed on the audio data in units of frames, and converted to an input signal vector X (f, t) in the time / frequency domain.
フィルタ作成部10は、図2に示すように、ブラインド音源分離(BSS)11と、音声・雑音選択部12と、逆行列演算部13と、を備えている。フィルタ作成部10は、入力信号ベクトルX(f,t)を用いて、入力信号ベクトルX(f,t)からユーザ音声を分離するための、各周波数での分離フィルタ行列を作成する。以下、図2を参照して、ブラインド音源分離(BSS)11などについて説明する。
As shown in FIG. 2, the
ブラインド音源分離(BSS)11は、入力信号ベクトルX(f,t)を用いて適応学習処理を行い、各周波数での分離フィルタ行列W(f)を作成する。また、ブラインド音源分離(BSS)11は、作成した分離フィルタ行列W(f)を用いて、出力信号ベクトルY(f,t)=W(f)X(f,t)を出力する。
なお、ブラインド音源分離(BSS)11は、ここでは、従来提案されている独立成分分析や主成分分析を用いて、事前情報を用いることなく適応学習が可能な処理を行う。
The blind sound source separation (BSS) 11 performs an adaptive learning process using the input signal vector X (f, t) and creates a separation filter matrix W (f) at each frequency. The blind sound source separation (BSS) 11 outputs an output signal vector Y (f, t) = W (f) X (f, t) using the created separation filter matrix W (f).
Here, the blind sound source separation (BSS) 11 performs a process capable of adaptive learning without using prior information by using conventionally proposed independent component analysis and principal component analysis.
音声・雑音選択部12は、出力信号ベクトルY(f,t)の第1要素(Y(1)(f,t))が音声データとなるように、分離フィルタ行列W(f,t)の要素を入れ替える。
これは、ブラインド音源分離(BSS)11の出力信号は、ユーザ音声又は雑音というようにクラスタリングされており、これは周波数ビンごとのクラスタリング結果になっているが、ユーザ音声と雑音とが入れ替わっている可能性があるためである。
The voice /
This is because the output signal of the blind sound source separation (BSS) 11 is clustered as user speech or noise, which is a clustering result for each frequency bin, but the user speech and noise are interchanged. This is because there is a possibility.
なお、音声・雑音選択部12による処理は、入れ替わり(permuation)解法とも呼ばれ、例えば、従来提案されている解法(出力信号ベクトルY(f,t)間の結合密度確率分布を求め、この結合確率密度分布の形状に基づいて、ユーザ音声と雑音を振り分ける手法)を利用すればよい。また、ここで利用する解法は多数存在するため、その他の解法を用いてもよい。例えば、(1)周辺確率密度分布の尖度を利用する解法、(2)音源信号の分離信号の包絡線を利用する解法、(3)位相情報の連続性を利用する解法、(4)空間スペクトルを利用する解法、などを利用してもよい。
Note that the processing by the voice /
逆行列演算部13は、出力信号ベクトルY(f,t)の算出に用いた分離フィルタ行列W(f)について、その逆行列H(f)=W−1(f)を算出する。求めた逆行列H(f)は、空間伝達特性行列の推定値であり、部屋などの空間の残響特性を意味している。
The inverse
ユーザ音声と雑音とが混合された観測信号が得られる関係は、ユーザ音声及び雑音の各音源から観測信号への写像に相当し、これに対して、雑音が混入された観測信号をユーザ音声と雑音とに分離することは、観測信号から各音源への写像に相当する。ブラインド音源分離(BSS)11において作成する分離行列フィルタ行列W(f)が観測信号から各音源への写像を意味するため、分離行列フィルタ行列W(f)の逆行列H(f)を求めることは、ユーザ音声及び雑音の各音源から観測信号への写像を求めることを意味している。 The relationship in which an observation signal in which user speech and noise are mixed corresponds to the mapping of the user speech and noise from each sound source to the observation signal. On the other hand, the observation signal mixed with noise is the user speech and the noise. Separation into noise corresponds to mapping from the observation signal to each sound source. Since the separation matrix filter matrix W (f) created in the blind sound source separation (BSS) 11 means a mapping from the observed signal to each sound source, the inverse matrix H (f) of the separation matrix filter matrix W (f) is obtained. Means obtaining a mapping of the user voice and noise from each sound source to the observation signal.
図1に戻って説明を続ける。
雑音推定部21は、以下の計算式を用いて、入力信号ベクトルX(f,t)と、分離フィルタ行列W(f,t)と、空間伝達特性行列の推定値H(f)とから、観測信号(入力信号ベクトルX(f,t))に含まれる雑音信号ベクトルXN(f,t)を算出する。すなわち、雑音推定部21は、観測信号(入力信号)に含まれる雑音成分を推定する。
XN(f,t)=H(f)DN(f)W(f)X(f,t)
ただし、DN(f)はi行i列(1<i)目の要素が1である対角行列を示す。なお、一般的な対角行列では全ての対角要素が1であるが、ここで用いるDN(f)は、ユーザ音声を求めないようにするため、1行1列目の要素を0とし、残りの対角要素は全て1とする。このため、例えば3行3列の場合には図12(a)に示す行列となり、4行4列の場合には、図12(b)に示す行列となる。
Returning to FIG. 1, the description will be continued.
The
X N (f, t) = H (f) D N (f) W (f) X (f, t)
Here, D N (f) indicates a diagonal matrix whose element is i row i column (1 <i). In the general diagonal matrix, all diagonal elements are 1, but D N (f) used here is set to 0 in the 1st row and 1st column so as not to obtain a user voice. The remaining diagonal elements are all 1. Therefore, for example, in the case of 3 rows and 3 columns, the matrix is as shown in FIG. 12A, and in the case of 4 rows and 4 columns, the matrix is as shown in FIG.
直接音声・初期反射音声推定部24は、逆行列演算部13により求めた行列H(f)の各要素について逆高速フーリエ変換処理を行い、時間領域に変換後の空間伝達特性の推定値を得る。そして、この推定値の中から、各マイクロホンへの直接音声・初期反射音声に相当する区間を窓関数により切り出し、切り出した区間についてフーリエ変換処理を行って周波数領域へと変換することで、各周波数での直接音声・初期反射音声推定フィルタ行列を作成する。ここで得たフーリエ変換処理後の行列をHE(f)とする。なお、切り出しの際に用いる窓の長さhEはパラメータとして与えられ、例えば、非特許文献1のFig.3で求められたhEの値(70[taps])を用いればよい。直接音声・初期反射音声推定部24による切り出し処理は、例えば、空間伝達特性の推定値を時間領域に変換後の波形を図3の左図に示した場合に、これをhEの長さの窓により、図3の右図に示すように切り出すことである。
The direct speech / early reflection
さらに、直接音声・初期反射音声推定部24は、以下の計算式を用いて、フーリエ変換後の直接音声・初期反射音声推定フィルタ行列HE(f)と、分離行列フィルタ行列W(f)と、観測信号(入力信号ベクトルX(f,t))とから、観測信号に含まれるユーザ音声の直接音・初期反射音信号ベクトルXE(f,t)を算出する。すなわち、直接音声・初期反射音声推定部24は、観測信号に含まれるユーザ音声の直接音・初期反射音成分を推定する。
XE(f,t)=HE(f)DS(f)W(f)X(f,t)
ただし、DS(f)はi行i列(1<i)目の要素のみが1で、他の要素は全て0である行列を示す。ここで用いるDS(f)は、雑音を求めないようにするため、1行1列目の要素のみを1とし、残りの要素は全て0とする。このため、例えば3行3列の場合には図13(a)に示す行列となり、4行4列の場合には、図13(b)に示す行列となる。
Further, the direct speech / initial reflection
X E (f, t) = H E (f) D S (f) W (f) X (f, t)
However, D S (f) represents a matrix in which only the element in i row and i column (1 <i) is 1, and all other elements are 0. DS S (f) used here is set so that only the element in the first row and first column is set to 1 and all the remaining elements are set to 0 in order not to obtain noise. Therefore, for example, in the case of 3 rows and 3 columns, the matrix is as shown in FIG. 13A, and in the case of 4 rows and 4 columns, the matrix is as shown in FIG. 13B.
後期残響生成部25は、以下の計算式を用いて、ユーザ音声の直接音・初期反射音信号ベクトルXE(f,t)と、後述するHE(f)とから、後期残響推定信号ベクトルXL(f,t)を算出する。すなわち、後期残響生成部25は、擬似的な後期残響成分を生成する。なお、XL (i)(f,t)は、ベクトルXL(f,t)のi番目の要素を示す。また、各マイクロホンに対して同じHL(f)を用いる。
XL (i)(f,t)=XE (i)(f,t)HL(f)
ここで、HL(f)は後期残響特性のフィルタ係数を示し、ユーザにより与えられる部屋の残響時間(T60)と、直接音声・初期反射音声推定部25でカットしたパワー量(すなわち、切出した区間のパワー量)と、から決定される。より具体的には、直接音声及び初期反射音声のパワー量と後期残響のパワー量との比は、直接音声・初期反射音声推定部25において切出した区間のパワー量とその他の切出されなかった区間のパワー量との比に相当するため、この比率に基づいて残響時間から求める後期残響の振幅を補正することで、後期残響特性のフィルタ係数を算出することができる。なお、HL(f)の算出は、従来知られた公知の計算式を用いて行えばよいため、ここでは、その詳細な説明を省略する。
The late
X L (i) (f, t) = X E (i) (f, t) H L (f)
Here, H L (f) represents the filter coefficient of the late reverberation characteristic, and the reverberation time (T60) of the room given by the user and the amount of power cut by the direct voice / early reflected voice estimation unit 25 (ie, cut out) And the power amount of the section). More specifically, the ratio between the power amount of the direct sound and the early reflection sound and the power amount of the late reverberation is not extracted from the power amount of the section cut out in the direct sound / early reflection
雑音抑圧マスク生成部22は、以下の計算式を用いて、入力信号ベクトルX(f,t)と雑音信号ベクトルXN(f,t)とから、雑音抑圧マスクベクトルMN(f,t)を算出する。なお、MN (i)(f,t)は、ベクトルMN(f,t)のi番目の要素を示す。また、係数α1は、雑音抑圧の程度を調整するパラメータであり、ユーザにより適切な値が与えられる。
MN (i)(f,t)=sqrt(|X(i)(f,t)|2/(|X(i)(f,t)|2+α1|XN (i)(f,t)|2))
Noise suppression
M N (i) (f, t) = sqrt (| X (i) (f, t) | 2 / (| X (i) (f, t) | 2 + α 1 | X N (i) (f, t) | 2 ))
雑音抑圧処理部23は、以下の計算式を用いて、観測信号(入力信号ベクトルX(f,t))と、雑音抑圧マスクベクトルMN(f,t)と、から雑音抑圧後の中間出力信号ベクトルV(f,t)を算出する。すなわち、雑音抑圧処理部23は、観測信号に含まれる環境の雑音を抑圧する。なお、V(i)(f,t)は、ベクトルV(f,t)のi番目の要素を示す。
V(i)(f,t)=MN (i)(f,t)X(i)(f,t)
The noise
V (i) (f, t) = M N (i) (f, t) X (i) (f, t)
ゲイン補正部26は、以下の計算式を用いて、後期残響推定信号ベクトルXL(f,t)と、雑音抑圧マスクベクトルMN(f,t)とから、中間出力信号ベクトルVL (i)(f,t)を算出する。すなわち、ゲイン補正部26は、雑音抑圧マスクを用いて、後期残響推定成分の振幅を補正する。雑音抑圧マスク生成部22により求められた雑音抑圧マスクベクトルMN(f,t)を、雑音抑圧処理部23と、ゲイン補正部26とで共通して用いることで、雑音抑圧処理部23での抑圧に応じて、ゲイン補正部26において後期残響推定成分の振幅を補正することができる。なお、VL (i)(f,t)は、ベクトルVL(f,t)のi番目の要素を示す。
VL (i)(f,t)=MN (i)(f,t)XL (i)(f,t)
The
V L (i) (f, t) = M N (i) (f, t) X L (i) (f, t)
後期残響音抑圧マスク生成部27は、以下の計算式を用いて、雑音抑圧後の中間出力信号ベクトルV(f,t)と、中間出力信号ベクトルVL(f,t)とから、残響抑圧マスクベクトルML(f,t)を算出する。なお、ML (i)(f,t)は、ベクトルML(f,t)のi番目の要素を示す。また、係数α2は、後期残響音抑圧の程度を調整するパラメータであり、ユーザにより適切な値が与えられる。
ML (i)(f,t)=sqrt(|V(i)(f,t)|2/(|V(i)(f,t)|2+α2|VL (i)(f,t)|2))
The late reverberation suppression
M L (i) (f, t) = sqrt (| V (i) (f, t) | 2 / (| V (i) (f, t) | 2 + α 2 | V L (i) (f, t) | 2 ))
後期残響抑圧処理部28は、以下の計算式を用いて、雑音抑圧後の中間出力信号ベクトルV(f,t)と、残響抑圧マスクベクトルML(f,t)と、から、後期残響抑圧後の出力信号ベクトルY(f,t)を算出する。すなわち、後期残響抑圧処理部28は、残響抑圧マスクを用いて、雑音抑圧後の中間出力に含まれる後期残響を抑圧する。なお、Y(i)(f,t)は、ベクトルY(f,t)のi番目の要素を示す。
Y(i)(f,t)=ML (i)(f,t)V(i)(f,t)
Late dereverberation processing unit 28, using the following equation, the intermediate output signal vector V (f, t) after the noise suppression and, dereverberation mask vector M L (f, t) and a, late reverberation suppression The subsequent output signal vector Y (f, t) is calculated. That is, the late reverberation suppression processing unit 28 uses the reverberation suppression mask to suppress the late reverberation included in the intermediate output after noise suppression. Y (i) (f, t) represents the i-th element of the vector Y (f, t).
Y (i) (f, t ) = M L (i) (f, t) V (i) (f, t)
直接音声強調部29は、以下の算出式を用いて、出力信号ベクトルY(f,t)から、直接音声強調後の出力信号ベクトルO(f,t)を算出する。すなわち、直接音声強調部29は、ユーザ方位θにビームを向け、直接音声を強調する。なお、ユーザ方位θは、音声・雑音選択部12で雑音成分を推定する際に得られる。
O(f,t)=ΣiY(i)(f,t)HDS (i)(f,t)
なお、HDS (i)(f,t)は、Delay and Sumのフィルタ係数であり、Σiは全てのチャネルi(全てのマイクロホン素子)についての平均化処理を行うことを示す。また、Delay and Sumは、出力信号ベクトルY(f,t)から推定されたユーザ方位θを用いてマイクロホン素子間の到来時間差を補正し、ユーザ方位にビームを形成する手法である。
The direct
O (f, t) = Σ i Y (i) (f, t) H DS (i) (f, t)
H DS (i) (f, t) is a delay and sum filter coefficient, and Σ i indicates that the averaging process is performed for all channels i (all microphone elements). Delay and Sum is a method of correcting the arrival time difference between microphone elements using the user orientation θ estimated from the output signal vector Y (f, t) and forming a beam in the user orientation.
以上説明したように、本実施の形態にかかる雑音及び残響抑圧装置100によれば、新たな空間の観測信号に基づいて推定直接音声及び初期反射音声を算出し、後期残響特性を空間の残響特性から自動的に作成して、算出した推定直接音声及び初期反射音声と、作成した後期残響特性と、から後期残響を算出することができるため、環境が変化した場合においても、環境の変化に適応して、雑音及び残響の両方を自動的に抑圧することができる。
As described above, according to the noise and
その他の実施の形態.
上述した実施の形態では、フィルタ作成部10がブラインド音源分離(BSS)を行う例を説明したが、本発明はこれに限定されない。例えば、図4に示すように、ブラインド音源分離(BSS)に代えて、ブラインド信号抽出(BSE)を適用するものとしてもよい。すなわち、図4に示すように、雑音及び残響抑圧装置200は、マイクロホンアレイ2と、ブラインド信号抽出(BSE)201と、射影ベクトル推定部202と、雑音推定部203と、雑音抑圧マスク生成部204と、雑音抑圧処理部205と、直接音声・初期反射音声推定部206と、後期残響生成部207と、ゲイン補正部208と、後期残響音抑圧マスク生成部209と、後期残響音抑圧処理部210と、直接音声強調部211と、を備える構成としてもよい。
Other embodiments.
In the above-described embodiment, the example in which the
図4に示したブラインド信号抽出(BSE)201では、観測信号からユーザ音声を抽出して出力し、射影ベクトル推定部202では、これに基づいて、空間伝達特性行列の推定値を出力する。また、雑音推定部203で推定したユーザ方位θが、音声強調部211に出力される。なお、ブラインド信号抽出(BSE)201や射影ベクトル推定部202で行う処理は公知であるため、ここではその詳細な説明を省略する。
In the blind signal extraction (BSE) 201 shown in FIG. 4, user speech is extracted from the observation signal and output, and the projection
また、上述した実施の形態では、雑音抑圧マスクと後期残響抑圧マスクとを別々のマスク生成部で生成する例を説明したが、本発明はこれに限定されない。例えば、図5に示すように、雑音抑圧マスクと後期残響抑圧マスクとを一つのマスク生成部で生成し、雑音抑圧処理と後期残響抑圧処理とを一つの抑圧処理部で行うものとしてもよい。すなわち、図5に示すように、雑音及び残響抑圧装置300は、マイクロホンアレイ2と、ブラインド音源分離(BSS)301と、音声・雑音選択部302と、逆行列演算部303と、雑音推定部304と、直接音声・初期反射音声推定部305と、後期残響生成部306と、雑音・後期残響音抑圧マスク生成部307と、雑音・後期残響音抑圧処理部308と、直接音声強調部309と、を備える構成としてもよい。
In the above-described embodiment, an example in which a noise suppression mask and a late dereverberation suppression mask are generated by separate mask generation units has been described, but the present invention is not limited to this. For example, as shown in FIG. 5, the noise suppression mask and the late dereverberation suppression mask may be generated by one mask generation unit, and the noise suppression process and the late dereverberation suppression process may be performed by one suppression processing unit. That is, as shown in FIG. 5, the noise and
また、例えば、図6に示すように、ブラインド音源分離(BSS)に代えて、ブラインド信号抽出(BSE)を適用すると共に、雑音抑圧マスクと後期残響抑圧マスクとを一つのマスク生成部で生成し、雑音抑圧処理と後期残響抑圧処理とを一つの抑圧処理部で行うものとしてもよい。すなわち、図6に示すように、雑音及び残響抑圧装置400は、マイクロホンアレイ2と、ブラインド信号抽出(BSE)401と、射影ベクトル推定部402と、雑音推定部403と、直接音声・初期反射音声推定部404と、後期残響生成部405と、雑音・後期残響音抑圧マスク生成部406と、雑音・後期残響音抑圧処理部407と、直接音声強調部408と、を備える構成としてもよい。
Further, for example, as shown in FIG. 6, blind signal extraction (BSE) is applied instead of blind sound source separation (BSS), and a noise suppression mask and a late reverberation suppression mask are generated by one mask generation unit. The noise suppression process and the late dereverberation suppression process may be performed by one suppression processing unit. That is, as shown in FIG. 6, the noise and
ここで、図10やなどに示した本発明に関連する技術と比較した場合に、本発明と相違する点及び有利な効果についてさらに説明する。
(1)後期残響特性について
図10に示した技術では、空間の残響特性を予め与える必要がある。
これに対して本発明では、部屋などの残響時間から、自動的にその残響特性を作成することができる。
(2)残響音の推定方法について
図10に示した技術では、ユーザ音声の直接音と、初期反射音と、後期残響音とが含まれた信号を対象として、残響音の推定を行っている。
これに対して本発明では、ユーザ音声の直接音と、初期反射音と、が含まれた信号を対象として残響音の推定を行っている。これは、直接音及び初期反射音の推定機能を更に備えたことで実現している。
(3)後期残響抑圧処理前のゲイン補正について
図10に示した技術では、ゲイン補正係数は予め与えられ、補正係数を自動的に推定することができないため、予め部屋の特性を計測し、補正係数を求めておく必要がある。
これに対して本発明では、生成された後期残響は、自動的に補正される。本発明では、直接音声・初期反射音声を推定する際にカットされた伝達特性のパワー量(すなわち、切出されなかった区間のパワー量)と、作成する後期残響特性のパワー量とが、同量となるように補正する。
(4)直接音声強調処理による処理歪みの緩和について
図10に示した技術及び本発明ともに、直接音声強調処理ではDelay and Sum(DS)処理を採用している。DS処理には平均化処理が含まれており、その処理により各チャネルで生じていた抑圧処理歪みが緩和されるという副作用がある。
図10に示した技術では、直接音声強調処理後に残響抑圧処理を行うため、各チャネルの残響抑圧処理の歪みは緩和されない。
これに対して本発明では、雑音及び残響の両方を抑圧した後に直接音声強調処理を実施するため、各チャネルの残響除去処理の歪みを緩和することができる。
Here, when compared with the technique related to the present invention shown in FIG. 10 and the like, the points different from the present invention and advantageous effects will be further described.
(1) Late Reverberation Characteristics In the technique shown in FIG. 10, it is necessary to give the reverberation characteristics of the space in advance.
On the other hand, in the present invention, the reverberation characteristic can be automatically created from the reverberation time of a room or the like.
(2) Reverberation Sound Estimation Method In the technique shown in FIG. 10, reverberation sound is estimated for a signal including a direct user sound, an early reflection sound, and a late reverberation sound. .
On the other hand, in the present invention, the reverberation sound is estimated for a signal including the direct sound of the user voice and the initial reflected sound. This is achieved by further providing a direct sound and early reflection sound estimation function.
(3) Gain Correction Before Late Reverberation Suppression In the technique shown in FIG. 10, since the gain correction coefficient is given in advance and the correction coefficient cannot be estimated automatically, the characteristics of the room are measured and corrected in advance. It is necessary to find the coefficient.
On the other hand, in the present invention, the generated late reverberation is automatically corrected. In the present invention, the power amount of the transfer characteristic cut when estimating the direct sound and the early reflection sound (that is, the power amount of the section not cut out) and the power amount of the late reverberation characteristic to be created are the same. Correct to the amount.
(4) Reducing processing distortion by direct speech enhancement processing Both the technique shown in FIG. 10 and the present invention employ the Delay and Sum (DS) processing in the direct speech enhancement processing. The DS process includes an averaging process, which has a side effect that the suppression process distortion generated in each channel is reduced.
In the technique shown in FIG. 10, since the dereverberation process is performed after the direct speech enhancement process, the distortion of the dereverberation process of each channel is not alleviated.
On the other hand, in the present invention, since the speech enhancement process is directly performed after suppressing both noise and reverberation, distortion of the dereverberation process of each channel can be reduced.
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。 Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention.
100、200、300、400 雑音及び残響抑圧装置、
1 マイクロホン、 2 マイクロホンアレイ、 10 フィルタ作成部、
11 ブラインド音源分離(BSS)、 12 音声・雑音選択部、
13 逆行列演算部、 21 雑音推定部、 22 雑音抑圧マスク生成部、
23 雑音抑圧処理部、 24 直接音声・初期反射音声推定部、
25 後期残響生成部、 26 ゲイン補正部、 27 後期残響音抑圧マスク生成部、
28 後期残響音抑圧処理部、 29 直接音声強調部、
201 ブラインド信号抽出(BSE)、 202 射影ベクトル推定部、
203 雑音推定部、 204 雑音抑圧マスク生成部、
205 雑音抑圧処理部、 206 直接音声・初期反射音声推定部、
207 後期残響生成部、 208 ゲイン補正部、
209 後期残響音抑圧マスク生成部、 210 後期残響音抑圧処理部、
211 直接音声強調部、
301 ブラインド音源分離(BSS)、 302 音声・雑音選択部、
303 逆行列演算部、 304 雑音推定部、
305 直接音声・初期反射音声推定部、 306 後期残響生成部、
307 雑音・後期残響音抑圧マスク生成部、 308 雑音・後期残響音抑圧処理部、
309 直接音声強調部、
401 ブラインド信号抽出(BSE)、 402 射影ベクトル推定部、
403 雑音推定部、 404 直接音声・初期反射音声推定部、
405 後期残響生成部、 406 雑音・後期残響音抑圧マスク生成部、
407 雑音・後期残響音抑圧処理部、 408 直接音声強調部、
501 後期残響推定部、 502 ゲイン補正部、 503 残響抑圧処理部、
601 ブラインド音原分離(BSS)、 602 音声・雑音選択部、
603 多チャンネル雑音推定部、 604 マスク生成部、
605 雑音抑圧処理部、 606 直接音声強調部、
701 ブラインド音源分離(BSS)、 702 音声・雑音選択部、
703 多チャンネル雑音推定部、 704 マスク生成部、
705 雑音抑圧処理部、 706 直接音声強調部、 707 後期残響推定部、
708 ゲイン補正部、 709 残響抑圧処理部、
P ユーザ、R ロボット
100, 200, 300, 400 Noise and dereverberation device,
1 microphone, 2 microphone array, 10 filter creation unit,
11 Blind sound source separation (BSS), 12 Voice / noise selection unit,
13 inverse matrix calculation unit, 21 noise estimation unit, 22 noise suppression mask generation unit,
23 noise suppression processing unit, 24 direct speech / early reflection speech estimation unit,
25 late reverberation generation unit, 26 gain correction unit, 27 late reverberation suppression mask generation unit,
28 Late reverberation
201 Blind signal extraction (BSE), 202 Projection vector estimation unit,
203 noise estimation unit, 204 noise suppression mask generation unit,
205 Noise suppression processing unit, 206 Direct speech / early reflection speech estimation unit,
207 late reverberation generation unit, 208 gain correction unit,
209 Late reverberation suppression mask generation unit, 210 Late reverberation suppression processing unit,
211 Direct speech enhancement unit,
301 blind sound source separation (BSS), 302 voice / noise selection unit,
303 Inverse matrix calculation unit, 304 Noise estimation unit,
305 direct speech / early reflection speech estimation unit, 306 late reverberation generation unit,
307 noise / late reverberation suppression mask generation unit, 308 noise / late reverberation suppression unit,
309 Direct speech enhancement unit,
401 Blind signal extraction (BSE), 402 Projection vector estimation unit,
403 noise estimation unit, 404 direct speech / early reflection speech estimation unit,
405 Late reverberation generator, 406 Noise / late reverberation suppression mask generator,
407 noise / late reverberation suppression processing unit, 408 direct speech enhancement unit,
501 late reverberation estimation unit, 502 gain correction unit, 503 reverberation suppression processing unit,
601 Blind sound source separation (BSS), 602 voice / noise selection unit,
603 multi-channel noise estimation unit, 604 mask generation unit,
605 noise suppression processing unit, 606 direct speech enhancement unit,
701 Blind sound source separation (BSS), 702 Voice / noise selection unit,
703 multi-channel noise estimation unit, 704 mask generation unit,
705 noise suppression processing unit, 706 direct speech enhancement unit, 707 late reverberation estimation unit,
708 gain correction unit, 709 dereverberation processing unit,
P user, R robot
Claims (6)
前記入力信号と、前記分離フィルタ行列と、前記分離フィルタ行列の逆行列と、を用いて、推定雑音を算出する雑音推定部と、
前記分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得し、前記推定空間伝達特性から前記音声の直接音声及び初期反射に相当する区間を切出し、当該切出した区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成し、前記入力信号と、前記分離フィルタ行列と、前記直接音声及び初期反射フィルタ行列と、を用いて、推定直接音声及び初期反射音声を算出する直接音声・初期反射音声推定部と、
与えられる空間の残響時間と、前記直接音声・初期反射音声推定部により切出した区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出し、前記推定直接音声及び初期反射音声と、前記分離フィルタ行列と、前記後期残響特性のフィルタ係数と、を用いて、擬似後期残響を算出する後期残響生成部と、を備え、
前記雑音推定部により算出した前記推定雑音と、前記後期残響生成部により算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響を抑圧する
ことを特徴とする雑音及び残響抑圧装置。 A filter creation unit that creates a separation filter matrix at each frequency for separating the speech from the mixed observation signal, using an input signal in which the mixed observation signal including speech and noise is converted into a frequency domain;
A noise estimation unit that calculates an estimated noise using the input signal, the separation filter matrix, and an inverse matrix of the separation filter matrix;
Each element of the inverse matrix of the separation filter matrix is converted into the time domain and acquired as an estimated spatial transfer characteristic, and a section corresponding to the direct voice and initial reflection of the voice is extracted from the estimated spatial transfer characteristic, and the extracted section Is converted into the frequency domain to create a direct speech and initial reflection filter matrix at each frequency, and the estimated direct speech is estimated using the input signal, the separation filter matrix, and the direct speech and initial reflection filter matrix. And a direct speech / initial reflection speech estimator for calculating early reflection speech,
From the reverberation time of the given space and the power amount of the section extracted by the direct speech / initial reflected speech estimation unit, the filter coefficient of the late reverberation characteristics at each frequency is calculated, and the estimated direct speech and early reflected speech are calculated. A late reverberation generation unit that calculates pseudo late reverberation using the separation filter matrix and the filter coefficient of the late reverberation characteristic,
Noise and late reverberation in the mixed observation signal are suppressed using the estimated noise calculated by the noise estimation unit and the pseudo late reverberation calculated by the late reverberation generation unit. Reverberation suppressor.
前記雑音抑圧マスクを用いて、前記混合観測信号中の雑音を抑圧する雑音抑圧処理部と、
前記雑音抑圧マスク生成部により算出した前記雑音抑圧マスクを用いて、前記後期残響生成部により算出した前記擬似後期残響の振幅を補正するゲイン補正部と、を更に備え、
前記ゲイン補正部により振幅が補正された後の擬似後期残響を用いて、前記混合観測信号中の後期残響を抑圧する
ことを特徴とする請求項1に記載の雑音及び残響抑圧装置。 A noise suppression mask generation unit that calculates a noise suppression mask using the input signal and the estimated noise calculated by the noise estimation unit;
Using the noise suppression mask, a noise suppression processing unit that suppresses noise in the mixed observation signal;
A gain correction unit that corrects the amplitude of the pseudo late reverberation calculated by the late reverberation generation unit using the noise suppression mask calculated by the noise suppression mask generation unit;
2. The noise and dereverberation apparatus according to claim 1, wherein late reverberation in the mixed observation signal is suppressed using pseudo late reverberation after amplitude is corrected by the gain correction unit.
前記後期残響音抑圧マスクを用いて、前記混合観測信号中の残響を抑圧する後期残響音抑圧処理部と、を更に備える
ことを特徴とする請求項2に記載の雑音及び残響抑圧装置。 A late reverberation suppression mask generation unit that calculates a late reverberation suppression mask using the input signal and the pseudo late reverberation after the amplitude is corrected by the gain correction unit;
The noise and dereverberation apparatus according to claim 2, further comprising: a later-stage reverberation suppression unit that suppresses reverberation in the mixed observation signal using the latter-stage reverberation suppression mask.
前記入力信号を用いて適応学習処理を行い、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するブラインド音源分離と、
前記ブラインド音源分離により作成した前記分離フィルタ行列の第一要素が前記音声となるように入れ替えを行う音声・雑音選択部と、
前記音声雑音・選択部により入れ替えを行った後の分離フィルタ行列の逆行列を算出する逆行列演算部と、を備える
ことを特徴とする請求項1乃至3いずれか1項に記載の雑音及び残響抑圧装置。 The filter creation unit
Blind sound source separation for performing adaptive learning processing using the input signal and creating a separation filter matrix at each frequency for separating the speech from the mixed observation signal;
A voice / noise selector that performs replacement so that the first element of the separation filter matrix created by the blind sound source separation is the voice;
The noise and reverberation according to any one of claims 1 to 3, further comprising: an inverse matrix calculation unit that calculates an inverse matrix of the separation filter matrix after the replacement by the voice noise / selection unit. Suppressor.
ことを特徴とする請求項1乃至4いずれか1項に記載の雑音及び残響抑圧装置。 Using the estimated noise calculated by the noise estimation unit and the pseudo late reverberation calculated by the late reverberation generation unit, the noise in the mixed observation signal and the signal after the late reverberation are directly suppressed The noise and dereverberation apparatus according to any one of claims 1 to 4, further comprising a direct speech enhancement unit that enhances speech.
前記入力信号を用いて、前記混合観測信号から前記音声を分離する各周波数での分離フィルタ行列を作成するステップと、
作成した前記分離フィルタ行列の逆行列を算出するステップと、
前記入力信号と、作成した前記分離フィルタ行列と、作成した前記分離フィルタ行列の逆行列と、を用いて、推定雑音を算出するステップと、
作成した前記分離フィルタ行列の逆行列の各要素を時間領域に変換して推定空間伝達特性として取得するステップと、
取得した前記推定空間伝達特性から前記音声の直接音声及び初期反射に相当する区間を切出すステップと、
切出した前記区間を周波数領域に変換して各周波数での直接音声及び初期反射フィルタ行列を作成するステップと、
前記入力信号と、作成した前記分離フィルタ行列と、作成した前記直接音声及び初期反射フィルタ行列と、を用いて、推定直接音声及び初期反射音声を算出するステップと、
与えられる空間の残響時間と、切出した前記区間のパワー量と、から、各周波数での後期残響特性のフィルタ係数を算出するステップと、
算出した前記推定直接音声及び初期反射音声と、作成した前記分離フィルタ行列と、算出した前記後期残響特性のフィルタ係数と、を用いて、擬似後期残響を算出するステップと、
算出した前記推定雑音と、算出した前記擬似後期残響と、を用いて、前記混合観測信号中の雑音及び後期残響を抑圧するステップと、を有する
ことを特徴とする雑音及び残響の抑圧方法。 Converting a mixed observation signal including speech and noise into a frequency domain to be an input signal;
Using the input signal to create a separation filter matrix at each frequency that separates the speech from the mixed observation signal;
Calculating an inverse matrix of the created separation filter matrix;
Calculating estimated noise using the input signal, the created separation filter matrix, and an inverse matrix of the created separation filter matrix;
Transforming each element of the inverse matrix of the created separation filter matrix into the time domain to obtain an estimated spatial transfer characteristic;
Cutting out a section corresponding to the direct voice and initial reflection of the voice from the acquired estimated spatial transfer characteristic;
Transforming the extracted section into a frequency domain to create a direct speech and initial reflection filter matrix at each frequency; and
Calculating estimated direct speech and initial reflected speech using the input signal, the created separation filter matrix, and the created direct speech and initial reflection filter matrix;
From the reverberation time of the given space and the amount of power of the extracted section, calculating a filter coefficient of the late reverberation characteristics at each frequency;
Calculating the pseudo late reverberation using the calculated estimated direct sound and early reflected sound, the created separation filter matrix, and the calculated filter coefficient of the late reverberation characteristic;
Using the calculated estimated noise and the calculated pseudo late reverberation to suppress the noise and the late reverberation in the mixed observation signal, and a method for suppressing noise and reverberation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010069531A JP2011203414A (en) | 2010-03-25 | 2010-03-25 | Noise and reverberation suppressing device and method therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010069531A JP2011203414A (en) | 2010-03-25 | 2010-03-25 | Noise and reverberation suppressing device and method therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011203414A true JP2011203414A (en) | 2011-10-13 |
Family
ID=44880130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010069531A Pending JP2011203414A (en) | 2010-03-25 | 2010-03-25 | Noise and reverberation suppressing device and method therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011203414A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015161814A (en) * | 2014-02-27 | 2015-09-07 | ヤマハ株式会社 | Acoustic processor |
JPWO2014102938A1 (en) * | 2012-12-26 | 2017-01-12 | トヨタ自動車株式会社 | Sound detection device and sound detection method |
WO2019017403A1 (en) * | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | Mask calculating device, cluster-weight learning device, mask-calculating neural-network learning device, mask calculating method, cluster-weight learning method, and mask-calculating neural-network learning method |
CN110534129A (en) * | 2018-05-23 | 2019-12-03 | 哈曼贝克自动系统股份有限公司 | The separation of dry sound and ambient sound |
CN113948101A (en) * | 2021-10-19 | 2022-01-18 | 随锐科技集团股份有限公司 | Noise suppression method and device based on spatial discrimination detection |
WO2022079854A1 (en) * | 2020-10-15 | 2022-04-21 | 日本電信電話株式会社 | Acoustic signal enhancement device, method, and program |
WO2022269854A1 (en) * | 2021-06-24 | 2022-12-29 | 日本電信電話株式会社 | Filter generation device, filter generation method, and program |
-
2010
- 2010-03-25 JP JP2010069531A patent/JP2011203414A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014102938A1 (en) * | 2012-12-26 | 2017-01-12 | トヨタ自動車株式会社 | Sound detection device and sound detection method |
JP2015161814A (en) * | 2014-02-27 | 2015-09-07 | ヤマハ株式会社 | Acoustic processor |
WO2019017403A1 (en) * | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | Mask calculating device, cluster-weight learning device, mask-calculating neural-network learning device, mask calculating method, cluster-weight learning method, and mask-calculating neural-network learning method |
CN110534129A (en) * | 2018-05-23 | 2019-12-03 | 哈曼贝克自动系统股份有限公司 | The separation of dry sound and ambient sound |
WO2022079854A1 (en) * | 2020-10-15 | 2022-04-21 | 日本電信電話株式会社 | Acoustic signal enhancement device, method, and program |
WO2022269854A1 (en) * | 2021-06-24 | 2022-12-29 | 日本電信電話株式会社 | Filter generation device, filter generation method, and program |
CN113948101A (en) * | 2021-10-19 | 2022-01-18 | 随锐科技集团股份有限公司 | Noise suppression method and device based on spatial discrimination detection |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7109542B2 (en) | AUDIO NOISE REDUCTION METHOD, APPARATUS, SERVER AND STORAGE MEDIUM | |
JP6203643B2 (en) | Noise adaptive beamforming for microphone arrays | |
EP2237271B1 (en) | Method for determining a signal component for reducing noise in an input signal | |
JP4162604B2 (en) | Noise suppression device and noise suppression method | |
US8942976B2 (en) | Method and device for noise reduction control using microphone array | |
JP4912036B2 (en) | Directional sound collecting device, directional sound collecting method, and computer program | |
US8958572B1 (en) | Adaptive noise cancellation for multi-microphone systems | |
TWI738532B (en) | Apparatus and method for multiple-microphone speech enhancement | |
JP4957810B2 (en) | Sound processing apparatus, sound processing method, and sound processing program | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
US9454956B2 (en) | Sound processing device | |
JP2009540378A (en) | Signal separator, method for determining an output signal based on a microphone signal, and computer program | |
JP2011203414A (en) | Noise and reverberation suppressing device and method therefor | |
JP6225245B2 (en) | Signal processing apparatus, method and program | |
US9747919B2 (en) | Sound processing apparatus and recording medium storing a sound processing program | |
JP6840302B2 (en) | Information processing equipment, programs and information processing methods | |
WO2024169940A1 (en) | Apparatus and method for echo cancellation without reference loop | |
JP6241520B1 (en) | Sound collecting apparatus, program and method | |
CN103187068B (en) | Priori signal-to-noise ratio estimation method, device and noise inhibition method based on Kalman | |
JP6854967B1 (en) | Noise suppression device, noise suppression method, and noise suppression program | |
CN114882898A (en) | Multi-channel speech signal enhancement method and apparatus, computer device and storage medium | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
JP2020036139A (en) | Sound pickup device, program and method | |
JP6263890B2 (en) | Audio signal processing apparatus and program | |
JP6624255B1 (en) | Sound pickup device, program and method |