JP2007047427A - Sound processor - Google Patents
Sound processor Download PDFInfo
- Publication number
- JP2007047427A JP2007047427A JP2005231488A JP2005231488A JP2007047427A JP 2007047427 A JP2007047427 A JP 2007047427A JP 2005231488 A JP2005231488 A JP 2005231488A JP 2005231488 A JP2005231488 A JP 2005231488A JP 2007047427 A JP2007047427 A JP 2007047427A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- unit
- generation unit
- band
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
本発明は、例えば複数のマイクロホン素子で観測した音声や音楽や各種雑音が混合した信号から、目的とする音のみを復元する音源分離技術に属する。 The present invention belongs to a sound source separation technique for restoring only a target sound, for example, from a signal obtained by mixing voice, music, and various noises observed with a plurality of microphone elements.
従来より、マイクロホンを複数使い、妨害音方向に死角を作ることで妨害音を抑圧し、目的音方向にビームを作ることで目的音だけを強調して抽出する音源分離技術として、最小分散ビームフォーマ法が知られている。(例えば、非特許文献1参照)。最小分散ビームフォーマ法では、空間相関逆行列と呼ばれるマイク間の相関行列を、入力信号から更新し、空間相関逆行列を使って、妨害音方向に死角を作り目的音方向にビームを作る線形フィルタを生成する。最小分散ビームフォーマでは、目的音が存在する音声区間で空間相関逆行列の更新を行うと、妨害音と共に、目的音をも誤って抑圧してしまうため、空間相関逆行列の更新は、目的音が存在しない区間だけで行わなければならなかった。そのため、予め何らかの方法で、目的音が存在しない音声区間を抽出する必要があった。しかし予め何らかの方法で、目的音が存在しない音声区間を抽出することは、困難であり、また目的音が存在しない区間だけで空間相関逆行列を更新すると、目的音が存在する区間に突発的に発生する妨害音を抑圧できない。 Conventionally, a minimum dispersion beamformer has been used as a sound source separation technology that uses multiple microphones to suppress the interference sound by creating a blind spot in the direction of the interference sound and emphasize and extract only the target sound by creating a beam in the direction of the target sound. The law is known. (For example, refer nonpatent literature 1). In the minimum variance beamformer method, the correlation matrix between microphones, called the spatial correlation inverse matrix, is updated from the input signal, and a linear filter that creates a blind spot in the direction of the disturbing sound and a beam in the target sound direction using the spatial correlation inverse matrix. Is generated. In the minimum variance beamformer, if the spatial correlation inverse matrix is updated in the speech section in which the target sound exists, the target sound is erroneously suppressed along with the interference sound. Had to be done only in the section where there is no. For this reason, it is necessary to extract a speech section in which no target sound exists in advance by some method. However, it is difficult to extract a speech section where the target sound does not exist in some way in advance, and if the spatial correlation inverse matrix is updated only in a section where the target sound does not exist, it suddenly occurs in the section where the target sound exists. The generated interference sound cannot be suppressed.
また適応フィルタを用いるのではなく、帯域別チャネル間パラメータ値差にもとづき、その帯域の上記帯域分割された各出力チャネル信号の何れがいずれの音源から入力された信号であるかを判定する音源信号判定過程を有し、発音していない音源からの検出信号を抑圧する妨害音抑圧技術がある。(例えば、特許文献1)
この妨害音抑圧技術は、音声のスパース性という音声の性質に基づく技術である。音声のスパース性とは、音声が40ms程度の短い時間に存在する周波数成分は限られており、異なる音源が短い時間に同じ周波数成分を保持する確率は低いという性質である。そのため、時間・周波数ごとに周波数成分をどれか一つの音源に割り振ることで、音源分離が可能となる。しかしこの妨害音抑圧技術では、音源同士が短い時間に同じ周波数成分を保持する場合、妨害音抑圧性能が劣化し、音声が歪みやすい。
Also, instead of using an adaptive filter, a sound source signal for determining which sound source is input from which of the band-divided output channel signals of that band is based on the parameter value difference between channels for each band. There is a disturbing sound suppression technique that suppresses a detection signal from a sound source that has a determination process and does not sound. (For example, Patent Document 1)
This interference noise suppression technique is a technique based on the voice property of voice sparseness. The sparseness of speech is a property in which the frequency components that exist in a short time of about 40 ms are limited, and the probability that different sound sources hold the same frequency component in a short time is low. Therefore, sound source separation becomes possible by assigning frequency components to any one sound source for each time and frequency. However, in this interference noise suppression technique, when the sound sources hold the same frequency component in a short time, the interference noise suppression performance deteriorates and the sound is easily distorted.
最小分散ビームフォーマ法では、目的音が存在する区間で空間相関逆行列を更新できず、目的音が存在する区間に突発的に発生する妨害音を抑圧できない。
さらに、上記特許文献1記載の技術では音源同士が短い時間に同じ周波数成分を保持する場合、妨害音抑圧性能が劣化し、音声が歪みやすいという課題がある。
In the minimum dispersion beamformer method, the spatial correlation inverse matrix cannot be updated in the section where the target sound exists, and the disturbing sound suddenly generated in the section where the target sound exists cannot be suppressed.
Furthermore, in the technique described in
本願で開示する代表的な発明は以下のとおりである。
入力信号の帯域成分毎に妨害音であるか目的音であるかを判定し、妨害音であると判定された帯域を抽出し、妨害音信号を生成する妨害音生成部を持つ。そして生成した妨害音信号を用いて空間相関逆行列を更新することを特徴とする適応処理部を有し、生成された空間相関逆行列を用いて性セ氏した妨害音抑圧フィルタをマイクロホンアレー出力信号に適応して音源分離を行う音声処理装置。
Representative inventions disclosed in the present application are as follows.
It has a disturbing sound generation unit that determines whether it is a disturbing sound or a target sound for each band component of the input signal, extracts a band determined to be the disturbing sound, and generates a disturbing sound signal. And an adaptive processing unit characterized in that the spatial correlation inverse matrix is updated using the generated interference sound signal, and the interference sound suppression filter generated by using the generated spatial correlation inverse matrix is connected to the microphone array output signal. A sound processing device that performs sound source separation adaptively.
本発明の構成によれば、目的音が存在する区間であっても、音声のスパース性に基づき妨害音であると判定された帯域だけで空間相関逆行列を更新することが可能となり、目的音が存在する区間を予め抽出することが必要となくなる。また本発明の構成では適応フィルタを使って出力信号を生成しており音声の歪みを防止することができる。 According to the configuration of the present invention, it is possible to update the spatial correlation inverse matrix only in the band determined to be the interference sound based on the sparseness of the sound even in the section where the target sound exists. It is no longer necessary to previously extract a section in which there exists. Further, in the configuration of the present invention, an output signal is generated using an adaptive filter, and distortion of speech can be prevented.
本発明の実施の形態について図面を用いて説明する。図1は、本発明の音声処理装置の基本構成図である。マイクロホンアレイ1で複数チャンネルの音信号を取得する。取得した複数チャンネルの音信号は、メモリ2に送られ、CPU3にて各種信号処理を施される。CPU3は、目的音方向からの音の伝達モデルなどを必要に応じて記憶媒体4から取り出し、利用する。
Embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a basic configuration diagram of a speech processing apparatus according to the present invention. The
図2は、本発明の実施の形態についてのブロック図である。マイクロホンアレイ1で複数チャンネルの音信号を取得する。マイクロホンアレイ1で取得した複数チャンネルの音信号をA/D変換部2でデジタルデータに変換し、メモリ2上に取り込む。取り込んだデジタルデータに変換した音信号を、X(t)と表す。音信号は、帯域分割部6に送れ、短時間フーリエ変換を施され、周波数帯域毎に分割される。帯域分割された信号はXt(f)と表すことができる。帯域分割された信号はラベル生成部7に送られる。ラベル生成部7では、まず、各帯域毎に
FIG. 2 is a block diagram of the embodiment of the present invention. The
本願では周波数振り分け処理の結果を適応処理部及び目的方向推定部だけに用いている。そして、出力結果は、目的音方向の信号を全て通過させる線形フィルタを用いて生成している。そのため、スパース性が成立しない場合であっても、適応後のフィルタの死角形成性能が若干する程度の影響で済み、音声が歪んでしまうという状況を回避することが可能となる。 In the present application, the result of the frequency distribution process is used only for the adaptive processing unit and the target direction estimation unit. And the output result is produced | generated using the linear filter which passes all the signals of the target sound direction. For this reason, even when sparsity is not established, it is possible to avoid a situation in which the sound is distorted because the effect of forming the blind spot of the filter after adaptation is slightly affected.
妨害音生成部8では、ラベル生成部7が妨害音成分であると判定した帯域成分を使い妨害音を出力する。妨害音生成部8が出力する妨害音は
The interfering sound generation unit 8 outputs the interfering sound using the band component determined by the
の逆行列としても良い。
It may be an inverse matrix of
ここで妨害音として出力される信号を用いて空間相関逆行列を更新するために、妨害音方向の情報を多く含むように空間相関逆行列が作られる。
目的音方向推定部10では、ラベル生成部7が計算した各帯域毎の音源方向の情報を使い、目的音方向の範囲内で、修正遅延和アレイ法(例えば、非特許文献2)に基づき、音源方向を推定し、推定された音源方向を目的音方向とする。
Here, in order to update the spatial correlation inverse matrix using the signal output as the interference sound, the spatial correlation inverse matrix is created so as to include a lot of information on the interference sound direction.
The target sound
本願では、ラベル生成部7で目的音成分であると判定する目的音方向の範囲外の音源を妨害音と判定し、死角を形成し抑圧する。逆に目的音方向の範囲内に存在する音源であれば、死角を形成しないため、目的音方向の範囲内であれば、抑圧せずに取り出すことが可能となる。目的音方向を1方向に限定する場合、実際の目的音方向と設定する目的音方向とが、少しでもずれると、目的音成分を抑圧してしまう可能性がある。この点、目的音方向に幅を持たせることで、実際の目的音方向と設定する目的音方向とがずれる場合で、あっても目的音成分を抑圧することが無いという効果がある。
In the present application, a sound source outside the range of the target sound direction determined by the
フィルタ生成部11では、適応処理部9で更新した空間相関逆行列と目的音方向推定部10で推定した目的音方向を使い、
The
従来の最小分散ビームフォーマ法の適応法は、なるべく音の大きさが大きい音源を抑圧するように、適応するため、入力信号中に目的音が優位な周波数成分が含まれていて、かつ目的音の方向が想定する方向とずれた場合などに、目的音を抑圧するように適応しまう。 The conventional adaptive method of the minimum dispersion beamformer method is adapted so as to suppress a sound source with a loud sound as much as possible. Therefore, the input signal contains a frequency component in which the target sound is dominant and the target sound When the direction of the sound is deviated from the assumed direction, the target sound is adapted to be suppressed.
本願では、入力信号中に目的音が含まれていても、ラベル生成部7及び妨害音生成部8が入力信号中から、妨害音が優勢な信号(目的音がほとんど含まれていない)を抽出し、その抽出した妨害音が優勢な信号で適応した空間相関行列を使うため、目的音方向を抑圧せず、妨害音のみを抑圧するフィルタを生成することが可能となる。
In the present application, even if the target sound is included in the input signal, the
フィルタリング部12ではフィルタ生成部11が出力する線形フィルタを使い、帯域分割部6で得られた帯域分割信号を使い、
The
上記実施例は装置構成を説明したが、本願はプログラムとしてコンピュータに読み込むことで実行されるようにしても良い。
Although the above embodiment has described the device configuration, the present application may be executed by being read into a computer as a program.
1・・・マイクロホンアレイ、2・・・メモリ、3・・・CPU、4・・・記憶媒体、5・・・A/D変換部、6・・・帯域分割部、7・・・ラベル生成部、8・・・妨害音生成部、9・・・適応処理部、10・・・目的音方向推定部、11・・・フィルタ生成部、12・・・フィルタリング部、13・・・波形生成部。
DESCRIPTION OF
Claims (2)
前記マイクロホンアレーが出力する信号をチャネル毎に複数の周波数帯域に分割した帯域分割信号を出力する帯域分割部と、
前記帯域分割部が出力する各帯域分割信号ごとに、音源方向を推定し、該音源方向から該帯域分割信号が妨害音であるか目的音であるかのラベルを出力するラベル生成部と、
前記ラベル生成部が出力するラベルから帯域分割された妨害音信号を出力する妨害音生成部と、前記妨害音生成部が出力する帯域分割された妨害音信号から、空間相関逆行列を計算する適応処理部と、
上記計算された空間相関逆行列を用いて妨害音抑圧フィルタを生成するフィルタ生成部と、
上記フィルタを上記マイクロホンアレーが出力する信号に適応して音源分離を行うフィルタリング部とを有することを特徴とする音声処理装置 A microphone array holding at least two microphone elements;
A band division unit for outputting a band division signal obtained by dividing the signal output from the microphone array into a plurality of frequency bands for each channel;
For each band division signal output by the band division unit, a label generation unit that estimates a sound source direction and outputs a label indicating whether the band division signal is an interference sound or a target sound from the sound source direction;
An interference sound generating unit that outputs a band-division interference sound signal from a label output from the label generation unit, and an adaptive calculation that calculates a spatial correlation inverse matrix from the band-divided interference sound signal output from the interference sound generation unit A processing unit;
A filter generation unit that generates a jamming noise suppression filter using the calculated spatial correlation inverse matrix;
And a filtering unit that performs sound source separation by adapting the filter to a signal output from the microphone array.
上記フィルタ生成部は上記推定された音源方向の情報も用いることを特徴とする請求項1記載の音声処理装置。
A target sound direction estimating unit that estimates the sound source direction using the sound source direction estimation information calculated by the label generation unit;
The speech processing apparatus according to claim 1, wherein the filter generation unit also uses information on the estimated sound source direction.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005231488A JP2007047427A (en) | 2005-08-10 | 2005-08-10 | Sound processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005231488A JP2007047427A (en) | 2005-08-10 | 2005-08-10 | Sound processor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007047427A true JP2007047427A (en) | 2007-02-22 |
Family
ID=37850302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005231488A Pending JP2007047427A (en) | 2005-08-10 | 2005-08-10 | Sound processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007047427A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233239A (en) * | 2006-03-03 | 2007-09-13 | National Institute Of Advanced Industrial & Technology | Method, system, and program for utterance event separation |
JP2011107602A (en) * | 2009-11-20 | 2011-06-02 | Sony Corp | Signal processing device, signal processing method, and program |
CN102915742A (en) * | 2012-10-30 | 2013-02-06 | 中国人民解放军理工大学 | Single-channel monitor-free voice and noise separating method based on low-rank and sparse matrix decomposition |
CN111679248A (en) * | 2020-05-15 | 2020-09-18 | 黑龙江工程学院 | Target azimuth and distance combined sparse reconstruction positioning method based on seabed horizontal L-shaped array |
JP2021505933A (en) * | 2017-12-06 | 2021-02-18 | シナプティクス インコーポレイテッド | Voice enhancement of audio signals with modified generalized eigenvalue beamformer |
US11694710B2 (en) | 2018-12-06 | 2023-07-04 | Synaptics Incorporated | Multi-stream target-speech detection and channel fusion |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
US11937054B2 (en) | 2020-01-10 | 2024-03-19 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
-
2005
- 2005-08-10 JP JP2005231488A patent/JP2007047427A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233239A (en) * | 2006-03-03 | 2007-09-13 | National Institute Of Advanced Industrial & Technology | Method, system, and program for utterance event separation |
JP4565162B2 (en) * | 2006-03-03 | 2010-10-20 | 独立行政法人産業技術総合研究所 | Speech event separation method, speech event separation system, and speech event separation program |
JP2011107602A (en) * | 2009-11-20 | 2011-06-02 | Sony Corp | Signal processing device, signal processing method, and program |
CN102915742A (en) * | 2012-10-30 | 2013-02-06 | 中国人民解放军理工大学 | Single-channel monitor-free voice and noise separating method based on low-rank and sparse matrix decomposition |
CN102915742B (en) * | 2012-10-30 | 2014-07-30 | 中国人民解放军理工大学 | Single-channel monitor-free voice and noise separating method based on low-rank and sparse matrix decomposition |
JP2021505933A (en) * | 2017-12-06 | 2021-02-18 | シナプティクス インコーポレイテッド | Voice enhancement of audio signals with modified generalized eigenvalue beamformer |
JP7324753B2 (en) | 2017-12-06 | 2023-08-10 | シナプティクス インコーポレイテッド | Voice Enhancement of Speech Signals Using a Modified Generalized Eigenvalue Beamformer |
US11694710B2 (en) | 2018-12-06 | 2023-07-04 | Synaptics Incorporated | Multi-stream target-speech detection and channel fusion |
US11937054B2 (en) | 2020-01-10 | 2024-03-19 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
CN111679248A (en) * | 2020-05-15 | 2020-09-18 | 黑龙江工程学院 | Target azimuth and distance combined sparse reconstruction positioning method based on seabed horizontal L-shaped array |
CN111679248B (en) * | 2020-05-15 | 2023-04-21 | 黑龙江工程学院 | Target azimuth and distance combined sparse reconstruction positioning method based on seabed horizontal L-shaped array |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891931B2 (en) | Single-channel, binaural and multi-channel dereverberation | |
JP6644197B2 (en) | Noise removal device and noise removal method | |
JP6196320B2 (en) | Filter and method for infomed spatial filtering using multiple instantaneous arrival direction estimates | |
JP6584930B2 (en) | Information processing apparatus, information processing method, and program | |
JP5007442B2 (en) | System and method using level differences between microphones for speech improvement | |
JP6703525B2 (en) | Method and device for enhancing sound source | |
JP2007047427A (en) | Sound processor | |
US9552828B2 (en) | Audio signal processing device | |
JP2008546012A (en) | System and method for decomposition and modification of audio signals | |
JP6225245B2 (en) | Signal processing apparatus, method and program | |
EP3797415B1 (en) | Sound processing apparatus and method for sound enhancement | |
JP4448464B2 (en) | Noise reduction method, apparatus, program, and recording medium | |
KR20220022286A (en) | Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder | |
JP4462063B2 (en) | Audio processing device | |
JP2005258158A (en) | Noise removing device | |
JP2016163135A (en) | Sound collection device, program and method | |
KR101658001B1 (en) | Online target-speech extraction method for robust automatic speech recognition | |
KR102063824B1 (en) | Apparatus and Method for Cancelling Acoustic Feedback in Hearing Aids | |
JP6361360B2 (en) | Reverberation judgment device and program | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
Jan et al. | Joint blind dereverberation and separation of speech mixtures | |
JP2010181467A (en) | A plurality of signals emphasizing device and method and program therefor | |
Azarpour et al. | Fast noise PSD estimation based on blind channel identification | |
Khan et al. | Speech separation with dereverberation-based pre-processing incorporating visual cues | |
Abutaleb et al. | An improved method for TDOA-based speech source localization |