JP2007240605A - Sound source separating method and sound source separation system using complex wavelet transformation - Google Patents
Sound source separating method and sound source separation system using complex wavelet transformation Download PDFInfo
- Publication number
- JP2007240605A JP2007240605A JP2006059516A JP2006059516A JP2007240605A JP 2007240605 A JP2007240605 A JP 2007240605A JP 2006059516 A JP2006059516 A JP 2006059516A JP 2006059516 A JP2006059516 A JP 2006059516A JP 2007240605 A JP2007240605 A JP 2007240605A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- difference
- complex wavelet
- sound
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Description
本発明は、複数の音が異なる方位から提示されている環境下において、ある音を選択的に入力する選択的両耳聴アルゴリズムを用いて音源方向を推定し分離する技術に関するものである。 The present invention relates to a technique for estimating and separating sound source directions using a selective binaural algorithm that selectively inputs a certain sound in an environment where a plurality of sounds are presented from different directions.
複数の音が異なる方位から提示されている環境下においてある音を選択的に入力する選択的両耳聴アルゴリズム(カクテルパーティ効果アルゴリズム)は、ヒトの聴覚機構の実現という観点から様々な研究がされている。 A selective binaural hearing algorithm (cocktail party effect algorithm) that selectively inputs a sound in an environment where multiple sounds are presented from different orientations has been studied from the viewpoint of realizing the human auditory mechanism. ing.
特許文献1では、周波数領域両耳聴モデル(FDBM: Frequency Domain Binaural Model)を用いて、複数の音源から発生される音響信号を左右両受音部から入力し、入力した左右両入力信号を周波数帯域ごとに分割し、左右両入力信号のクロススペクトルから周波数帯域ごとの両耳間位相差(IPD)、左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD)を求め、全周波数帯域で各周波数帯域ごとに得られたIPD / ILDと、データベースのそれとを比較することにより各周波数帯域ごとに音源方向の候補を求め、各周波数帯域ごとに得られた音源方向のうち出現頻度が高い方向を、音源方向と推定する方法により、複数の音が発生している環境下で、左右、上下二次元的に存在する複数の音源方向を推定する方法が提案されている。
In
一方、人間の聴覚処理は対数周波数軸である1/4〜1/6 オクターブ単位であることが知られており、このようなオクターブ構造の解析手段には、ウェーブレット変換が適している。特許文献1の周波数軸にフーリエ変換する手法では、周波数軸上に線形に解析結果が並ぶことになる。すなわち、例えばサンプリング周波数が16kHzで512ポイントの周波数解析を行った場合、16k/512 = 31.25Hzの間隔で解析結果が得られる。人間の聴覚機構は、指数的な周波数分解能を持っているため、100Hz程度の低周波領域では、分解能として31.25Hzは粗い分解になる。一方4kHz程度の高周波領域になると、31.25Hzの違いを聞き分けることが難しいほどになる。すなわちフーリエ変換のように線形で解析を行う手法は、高周波領域では冗長的なデータを持ってしまうことになり、低周波領域では分解能が足りないことになる。
On the other hand, it is known that human auditory processing is in a unit of 1/4 to 1/6 octave which is a logarithmic frequency axis, and wavelet transform is suitable for such an octave structure analysis means. In the method of performing Fourier transform on the frequency axis of
周波数軸上で線形に分割されたフーリエ変換に比べて、周波数軸の分解がオクターブ構造になっているウェーブレット変換は、ヒトが持つ聴覚フィルタと整合がとれており、その品質が向上することが、非特許文献1で述べられている。
Compared to the Fourier transform that is linearly divided on the frequency axis, the wavelet transform, which has an octave structure for the decomposition of the frequency axis, is consistent with the auditory filter of humans, and its quality improves. It is described in Non-Patent
しかしながら、非特許文献1では、実ウェーブレット変換をベースに音声信号の分離を行っているため、基本的にDOA(Direction Of Arrival)推定を行うことはできず、音声抽出を行う際に抽出する音のスペクトル分布などを予め知っておく必要がある。例えば、右30度の音声と左30度からの音声が混合された環境下で音声分離をする応用を考えたとき、非特許文献1の場合には、音声そのもののスペクトルを予め与えてやる必要がでてくる。
However, in
本発明は、上記問題を解決するため、ウェーブレット変換する際に特にDOA 推定が可能な時間差情報(偏角)を保持できる複素ウェーブレット変換に注目し、複素ウェーブレット係数を用いてDOA 推定を行い、その結果に基づいて音の分離を行う方法を提供することを目的とする。この方法では、解像度がオクターブよりも細かい連続複素ウェーブレット変換や複素ウェーブレットパケット解析を用いて、1/4オクターブから1/6オクターブ程度の対数周波数分割に対応した分割(複素ウェーブレットスケール毎の分割)を行うとともに、ウェーブレット変換構造を利用してDOAの推定を行い、これを利用して音声抽出を行うため、抽出する音声のスペクトルを予め知っておく必要はなく、抽出したい音の音源方向のみを与えてやることで、音声抽出が可能となる。 In order to solve the above-mentioned problem, the present invention pays attention to the complex wavelet transform that can hold the time difference information (declination) that can be DOA estimated especially when performing the wavelet transform, performs DOA estimation using complex wavelet coefficients, It is an object of the present invention to provide a method for separating sounds based on results. In this method, division (corresponding to complex wavelet scales) corresponding to logarithmic frequency division from 1/4 octave to 1/6 octave is performed using continuous complex wavelet transform and complex wavelet packet analysis whose resolution is smaller than octave. In addition, DOA is estimated using the wavelet transform structure and voice extraction is performed using this, so there is no need to know the spectrum of the extracted voice in advance, and only the sound source direction of the sound to be extracted is given. By doing so, voice extraction becomes possible.
上記目的を達成するため、請求項1に記載の音源分離方法は、複数音源から発生される音響信号を異なる2点間(2ch間)の左右両受信部で収録する受信プロセスと、前記2ch間信号をオクターブ構造の対数周波数帯域ごとに分割する変換プロセスと、前記分割されたデータから2ch間の差分データを算出するとともに、前記差分データを基にDOA(Direction of Arrival)推定を用いて音源の方向を推定する推定プロセスと、前記推定により得られた特定音源方向の音を強調する分離プロセスと、を有することを特徴とする。
In order to achieve the above object, a sound source separation method according to
請求項2に記載の変換プロセスは、前記2ch間信号をそれぞれ複素ウェーブレット変換することにより複素ウェーブレットスケール毎に分割するとともに、複素ウェーブレット係数の偏角およびレベルを算出することを特徴とする。 According to a second aspect of the present invention, the inter-channel signal is divided into complex wavelet scales by performing complex wavelet transformation on each of the signals between the two channels, and the declination angle and level of the complex wavelet coefficient are calculated.
請求項3に記載の推定プロセスは、複素ウェーブレットスケール毎に2ch間の差分データとして複素ウェーブレット係数の偏角差およびレベル差を算出するとともに、算出された偏角差およびレベル差のデータと、データベースに予め記録しておいた測定データとを比較し、最も近い偏角差およびレベル差を与えるデータベース中の方向をDOA推定値とすることを特徴とする。 The estimation process according to claim 3 calculates a declination difference and a level difference of a complex wavelet coefficient as difference data between two channels for each complex wavelet scale, and also calculates the declination difference and level difference data calculated, and a database Is compared with the measurement data recorded in advance, and the direction in the database that gives the closest declination difference and level difference is used as the DOA estimation value.
請求項4に記載の測定データは、様々な角度から発生される音響信号を異なる2点間(2ch間)で収録した信号データから、複素ウェーブレット変換を用いて、複素ウェーブレット係数の偏角差およびレベル差を算出し、複素ウェーブレットスケール毎に偏角差およびレベル差と方向角との関係を表すデータとして、予め記録されていることを特徴とする。 The measurement data according to claim 4 is obtained by using a complex wavelet transform from signal data obtained by recording acoustic signals generated from various angles at two different points (between two channels) and a complex wavelet coefficient declination difference and The level difference is calculated, and is recorded in advance as data representing the deviation angle difference and the relationship between the level difference and the direction angle for each complex wavelet scale.
請求項5に記載の分離プロセスは、前記推定により得られたDOA推定値に基づいて音源方向に向いている複素ウェーブレット係数を強調し、それ以外の係数を抑圧して、目的音波形再構築を行うこと、および前記目的音波形の再構築にはウェーブレット逆変換を用いることを特徴とする。 The separation process according to claim 5 emphasizes a complex wavelet coefficient directed to a sound source direction based on a DOA estimation value obtained by the estimation, suppresses other coefficients, and performs target sound waveform reconstruction. Wavelet inverse transformation is used for performing and reconstructing the target sound waveform.
請求項6に記載の音源分離システムは、複数音源から発生される音響信号を異なる2点間(2ch間)の左右両受信部で収録する受信手段と、前記2ch間信号をオクターブ構造の対数周波数帯域ごとに分割する変換手段と、前記分割されたデータから2ch間の差分データを算出するとともに、前記差分データを基にDOA推定を用いて音源の方向を推定する推定手段と、前記推定により得られた特定音源方向の音を強調する分離手段と、を有することを特徴とする。 The sound source separation system according to claim 6 is a receiving means for recording acoustic signals generated from a plurality of sound sources at both left and right receiving sections between two different points (between two channels), and the log signal having an octave structure for the signals between the two channels. Conversion means for dividing each band, difference means for calculating difference data between two channels from the divided data, estimation means for estimating the direction of a sound source using DOA estimation based on the difference data, and obtained by the estimation Separating means for emphasizing the sound in the specified sound source direction.
請求項7に記載の変換手段は、前記2ch間信号をそれぞれ複素ウェーブレット変換することにより複素ウェーブレットスケール毎に分割するとともに、複素ウェーブレット係数の偏角およびレベルを算出することを特徴とする。 According to a seventh aspect of the present invention, the inter-channel signal is divided into complex wavelet scales by performing complex wavelet transformation on each of the signals between the two channels, and the declination angle and level of the complex wavelet coefficient are calculated.
請求項8に記載の推定手段は、複素ウェーブレットスケール毎に2ch間の差分データとして複素ウェーブレット係数の偏角差およびレベル差を算出するとともに、算出された偏角差およびレベル差のデータと、データベースに予め記録しておいた測定データとを比較し、最も近い偏角差およびレベル差を与えるデータベース中の方向をDOA推定値とすることを特徴とする。 The estimation means according to claim 8 calculates a declination difference and a level difference of a complex wavelet coefficient as difference data between two channels for each complex wavelet scale, and calculates the declination difference and level difference data calculated, and a database Is compared with the measurement data recorded in advance, and the direction in the database that gives the closest declination difference and level difference is used as the DOA estimation value.
請求項9に記載のデータベースには、様々な角度から発生される音響信号を異なる2点間(2ch間)で収録した信号データから、複素ウェーブレット変換を用いて、複素ウェーブレット係数の偏角差およびレベル差を算出し、複素ウェーブレットスケール毎に偏角差およびレベル差と方向角との関係を表すデータが、予め記録されていることを特徴とする。 The database according to claim 9 uses a complex wavelet transform from signal data in which acoustic signals generated from various angles are recorded at two different points (between two channels), and a declination difference between complex wavelet coefficients and The level difference is calculated, and data representing the deviation angle difference and the relationship between the level difference and the direction angle is recorded in advance for each complex wavelet scale.
請求項10に記載の分離手段は、前記推定により得られたDOA推定値に基づいて音源方向に向いている複素ウェーブレット係数を強調し、それ以外の係数を抑圧して、目的音波形の再構築を行うこと、および前記目的音波形の再構築にはウェーブレット逆変換を用いることを特徴とする。
The separation means according to
請求項1または請求項6に係る発明によれば、複数の音が発生している環境下で、音源の方向を推定すること、および特定の音を抽出することが可能となり、従来手法よりも精度が向上するという利点がある。すなわち、音響信号を解析する際にオクターブ構造の対数周波数帯域ごとに分割する手法は、人間の聴覚処理が対数周波数軸であるという特徴を捉えており、DOA推定を用いて音源の方向を推定する際の精度を向上させることができる。
According to the invention according to
請求項2または請求項7に係る発明によれば、周波数軸の分解がオクターブ構造になっているウェーブレット変換は人間が持つ聴覚フィルタと整合がとれている特徴を利用して、解析手段に複素ウェーブレット変換を用いることで、人間の聴覚上最も無駄のないDOA推定のためのデータベースを保存することが可能となる。また解析手段に実ウェーブレット変換を用いた場合には基本的にDOA推定は行うことはできないため、複素ウェーブレット変換を用いることで、複素ウェーブレット係数の偏角を利用してDOA推定を行うことが可能となる。
また従来の周波数軸にフーリエ変換する手法では、周波数軸上に線形に解析結果が並ぶことになり、例えばサンプリング周波数が16kHzで512ポイントの周波数解析を行った場合、16k/512 = 31.25Hzの間隔で解析結果が得られる。人間の聴覚機構は、指数的な周波数分解能を持っているため、100Hz程度の低周波領域では、分解能として31.25Hzは粗い分解になる。一方4kHz程度の高周波領域になると、31.25Hzの違いを聞き分けることが難しいほどになる。すなわちフーリエ変換のように線形で解析を行う手法は、高周波領域では冗長的なデータを持ってしまうことになり、低周波領域では分解能が足りないことになる。
一方、複素ウェーブレット変換する手法では、例えば63Hz〜8000Hzまでの帯域を1/4オクターブでデータベースを作成した場合、低周波数の分解能は約15Hz程度と周波数分解能が向上し、高周波数の分解能は周波数に応じて疎になるため、冗長な部分がなくなる。すなわち本発明では、高周波領域では冗長なデータの保存が不要となり、さらに低周波領域では分解能が向上するという利点がある。
According to the second or seventh aspect of the invention, the wavelet transform having the octave structure of the frequency axis decomposition utilizes the characteristic that is matched with the human auditory filter, and the analysis means uses the complex wavelet as the analysis means. By using the transformation, it is possible to store a database for DOA estimation that is least wasteful to human hearing. In addition, when real wavelet transform is used as an analysis means, DOA estimation is basically not possible, so by using complex wavelet transform, DOA estimation can be performed using the declination of complex wavelet coefficients. It becomes.
Also, with the conventional method of performing Fourier transform on the frequency axis, the analysis results are arranged linearly on the frequency axis.For example, if a sampling frequency is 16 kHz and a 512-point frequency analysis is performed, an interval of 16 k / 512 = 31.25 Hz An analysis result is obtained. Since the human auditory mechanism has an exponential frequency resolution, in the low frequency region of about 100 Hz, 31.25 Hz is a rough resolution as a resolution. On the other hand, in the high frequency range of about 4 kHz, it becomes difficult to distinguish the difference of 31.25 Hz. That is, a linear analysis method such as Fourier transform has redundant data in the high frequency region and lacks resolution in the low frequency region.
On the other hand, with the complex wavelet transform method, for example, when a database is created with a 1/4 octave band from 63 Hz to 8000 Hz, the low frequency resolution is about 15 Hz and the frequency resolution is improved. Since it becomes sparse accordingly, there is no redundant part. That is, according to the present invention, there is an advantage that redundant data need not be stored in the high frequency region and the resolution is improved in the low frequency region.
請求項3、4または請求項8、9に係る発明によれば、DOA推定のためにデータベースへ保存するデータ量が従来よりも減少するため、高効率な小容量データベースの作成が可能となること、およびDOA推定の過程においてデータベースの中から最も近い数値を検索する際に検索速度が向上するという利点がある。
データベースの小容量化について具体的事例を基に説明する。
従来法では、例えばサンプリング周波数が16kHzで512ポイントの周波数解析を行った場合、16k/512 = 31.25Hzの間隔で解析結果が得られる。従って分解能31.25Hzとした場合、1つの角度方向に対する必要なデータベース容量として、512×2個の数値データが必要であった。
一方、本発明では、例えば63Hz〜8000Hzまでの帯域を1/4オクターブでデータベースを作成した場合、低周波数の分解能は約15Hz程度と周波数分解能が向上し、高周波数の分解能は周波数に応じて疎になるため、冗長な部分がなくなる。1つの角度方向に対する必要なデータベース容量は、28×2個の数値で良いことになる。1/6の分解能を持たせた場合でも、42×2個の数値であり、データベース容量を従来法の1/10以下にすることができる。
According to the inventions according to claims 3, 4 or 8, 9, since the amount of data stored in the database for DOA estimation is smaller than before, it is possible to create a highly efficient small-capacity database. In the process of DOA estimation, there is an advantage that the search speed is improved when the closest numerical value is searched from the database.
We will explain how to reduce the database capacity based on specific examples.
In the conventional method, for example, when a frequency analysis of 512 points is performed at a sampling frequency of 16 kHz, an analysis result is obtained at an interval of 16k / 512 = 31.25 Hz. Therefore, when the resolution is 31.25 Hz, 512 × 2 numerical data is necessary as the necessary database capacity for one angular direction.
On the other hand, in the present invention, for example, when a database is created with a 1/4 octave in the band from 63 Hz to 8000 Hz, the low frequency resolution is improved to about 15 Hz, and the high frequency resolution is sparse according to the frequency. Therefore, there is no redundant part. The required database capacity for one angular direction can be 28 × 2 numbers. Even with a resolution of 1/6, the number is 42 x 2 and the database capacity can be reduced to 1/10 or less of the conventional method.
請求項5または請求項10に係る発明によれば、DOA推定値に基づいて音源方向に向いている複素ウェーブレット係数を強調し、それ以外の係数を抑圧して、(ウェーブレット逆変換による)目的音波形の再構築を行うことにより、DOA推定により得られた特定音源方向の音を強調し、目的とする音源を抽出することが可能となる。
According to the invention according to claim 5 or
次に、本発明の実施の形態に係る音源分離システムについて図面に基づいて説明する。なお、この実施の形態により本発明が限定されるものではない。 Next, a sound source separation system according to an embodiment of the present invention will be described with reference to the drawings. In addition, this invention is not limited by this embodiment.
図1は、本発明の実施の形態に係る音源分離システムの構成を示すブロック図である。図1に示すように、音源分離システムは、複数音源から発生される音響信号を異なる2点間(2ch間)の左右両受信部で収録する受信部101と、受信部101からの2ch間信号を入力として該信号をオクターブ構造の対数周波数帯域ごとに分割する変換部102と、それぞれの対数周波数帯域ごとに2ch間の差分データを算出して、該差分データを基にDOA推定を用いて音源の方向を推定する推定部103と、DOA推定により得られた特定音源方向の音を強調する分離部104と、DOA推定のために必要な測定データが予め記録されたデータベース105と、を有する。
FIG. 1 is a block diagram showing a configuration of a sound source separation system according to an embodiment of the present invention. As shown in FIG. 1, the sound source separation system includes a receiving
受信部101は、左右にそれぞれ1個のマイクロフォン(合計2個)が配置された構成により、左右2点間(2ch間)で複数音源から発生される音響信号を収録する。収録された2ch間の音響信号は、それぞれ電気的な信号データに変換されて変換部102へ渡される。
The receiving
変換部102は、受信部101から渡された2ch間の信号データをそれぞれオクターブ構造の対数周波数帯域ごとに分割する。分割手段として、解像度がオクターブよりも細かい連続複素ウェーブレット変換や複素ウェーブレットパケット解析を用いて、例えば1/4オクターブから1/6オクターブ程度の対数周波数分割(複素ウェーブレットスケール毎の分割)に対応した分割を行う。すなわち、複素ウェーブレット変換を用いることにより、2ch間の信号データを複素ウェーブレットスケール毎に分割するとともに、複素ウェーブレット係数の「偏角」および「レベル」を算出する。算出された2ch間の「偏角」および「レベル」のデータは、推定部103へ渡される。
The
さらに変換部102は、周波数軸の分解がオクターブ構造になっているウェーブレット変換は人間が持つ聴覚フィルタと整合がとれている特徴を利用して、解析手段に複素ウェーブレット変換を用いることで、人間の聴覚上最も無駄のないDOA推定のためのデータベースを保存することが可能となる。
Furthermore, the
推定部103は、変換部102から渡された2ch間の「偏角」および「レベル」のデータから差分データとして「偏角差」および「レベル差」を、複素ウェーブレットスケール毎に算出する。算出された「偏角差」および「レベル差」のデータと、データベース105に予め記録しておいた測定データとを比較し、最も近い「偏角差」および「レベル差」を与えるデータベース中の方向をDOA推定値とする。
The
データベース105には、様々な角度から発生される音響信号を異なる2点間(2ch間)で収録した信号データから、複素ウェーブレット変換を用いて、複素ウェーブレット係数の「偏角差」および「レベル差」を算出し、複素ウェーブレットスケール毎に「偏角差」および「レベル差」と方向角との関係を表すデータが、予め記録されている。
The
分離部104は、前記推定により得られたDOA推定値に基づいて音源方向に向いている複素ウェーブレット係数を強調し、それ以外の係数を抑圧して、目的音波形の再構築を行う。この目的音波形の再構築の手段としてウェーブレット逆変換を用いる。
The
次に変換部102を詳細に説明するために、周波数や時間の局在化が明確で基本的な検討ができる複素ガウシアンウェーブレットと連続ウェーブレット変換を用いて説明する。
複素ガウシアン連続ウェーブレット変換は次式のように与えられる。(非特許文献2,3)
ここで、
であり、f(t), Cp, a, b, p, t, jはそれぞれ分析対象信号、正規化するための係数、スケール、シフト、次数、連続時間、および虚数単位である。また、*は複素共役、(p)はp階微分である。図1のWTは(1)式により計算され、分析帯域幅は、1/4オクターブ帯域になるようにaを設定する。
Next, in order to describe the
The complex Gaussian continuous wavelet transform is given by (
here,
F (t), C p , a, b, p, t, j are the analysis target signal, the coefficient for normalization, the scale, the shift, the order, the continuous time, and the imaginary unit, respectively. * Is a complex conjugate, and (p) is a p-order derivative. WT in FIG. 1 is calculated by the equation (1), and a is set so that the analysis bandwidth is a 1/4 octave band.
(1)式を用いて、左信号の係数WL、および右信号の係数WRを求め,2ch間のレベル差および偏角差を計算する。
2ch間のレベル差DILDおよび偏角差DIAD は次のように与えられる。
ただし、*は複素共役である。
Using the equation (1), the left signal coefficient W L and the right signal coefficient W R are obtained, and the level difference and declination difference between the two channels are calculated.
The level difference D ILD and declination difference D IAD between the two channels are given as follows.
However, * is a complex conjugate.
次に分離部104を詳細に説明するために、ウェーブレット逆変換を用いて説明する。
元信号f(t)から(1)の変換により複素係数W(b,a) が求められたとすると、時間シフトb、スケールaに対応するf(t) の成分
は、次式のようにあらわすことができる。
元信号を復元するためには、数式解析的に次式のようになる。
ここで、Cは、振幅を補正するための係数である。(3)式は数学的な解析解であるが、実用上は必要な周波数帯域と分離対象の時間区間を設定して、次のように計算をすることで、元信号の実用上十分な近似波形が得られる。
(3)’式は、元信号の再現式であるが、この式に対し、時間シフトb、スケールa毎に所望する方向からのものであるかないかを決定し、所望しない方向からの音声成分を減衰させる。αを所望する角度と推定された角度の角度差に対応させて係数を減衰する割合で0〜1の値をとるものとすると、所望しない方向を抑圧した音声は次式のように表すことができる。
その目的に応じて関数形は変わる。例えば、δをDOA推定方向と抽出を所望する音源方向の角度差すれば、
とすることにより10度外れる毎に-20dB減ずるように設定することができる。
Next, in order to describe the
Assuming that the complex coefficient W (b, a) is obtained by conversion from the original signal f (t) to (1), the component of f (t) corresponding to the time shift b and scale a
Can be expressed as:
In order to restore the original signal, the following mathematical expression is obtained.
Here, C is a coefficient for correcting the amplitude. Equation (3) is a mathematical analysis solution, but in practice it is necessary to set the necessary frequency band and the time interval to be separated, and perform the following calculation to obtain a practical approximation of the original signal. A waveform is obtained.
Equation (3) 'is a reproduction equation of the original signal, but for this equation, it is determined whether or not it is from the desired direction for each time shift b and scale a, and the sound component from the undesired direction is determined. Is attenuated. Assuming that α takes a value of 0 to 1 at a rate at which the coefficient is attenuated corresponding to the angle difference between the desired angle and the estimated angle, the speech in which the undesired direction is suppressed can be expressed as follows: it can.
The function form changes depending on the purpose. For example, if δ is the angle difference between the DOA estimation direction and the desired sound source direction,
It can be set to decrease by -20dB every time it deviates 10 degrees.
次に、今回実験を行った実用上の一例を示す。例えば、16kHzサンプリングのデジタルデータに対して、スケールaを1/4オクターブ分析として計算する場合には、表1に示すような量になり、時間シフトbは、聴感上違和感のないフレーム長(16kHz256ポイントとすると0.016秒毎)にすることで実現することができる。
ここで、aはスケール、Δはサンプル周期、FCはヘルツ単位の基本ウェーブレットの中心周波数、Faはスケールaに対応するヘルツ単位で表したものである。上述の表において、Δ= 1/16000はFC = 1.929375となる。即ち、基本ウェーブレットのもつ中心周波数、サンプリング周波数、対数周波数軸における分析幅が決定することによって、用いるスケールの値を算出できる。
Next, a practical example of the experiment conducted this time is shown. For example, when calculating the scale a as 1/4 octave analysis for 16 kHz sampled digital data, the amount is as shown in Table 1, and the time shift b is a frame length (16 kHz 256 that does not give a sense of incongruity to hearing. It can be realized by setting the point to every 0.016 seconds).
Here, a is the scale, delta is the sample period, F C is the basic wavelet of the center frequency in Hertz, is F a are those in Hertz units corresponding to the scale a. In the above table, Δ = 1/16000 becomes F C = 1.929375. That is, the scale value to be used can be calculated by determining the analysis frequency in the center frequency, sampling frequency, and logarithmic frequency axis of the basic wavelet.
次に、DOA推定および音源分離実験とその評価について説明する。
東北大学通研の無響室でfs=44.1kHzで測定した頭部伝達関数(インパルスレスポンス)を入力として、データベースを作成した。前方180度水平面を10度毎に合計19方向の分析を74.33Hz〜8000Hzまでの1/4 オクターブ帯域で分析を行い、レベル差および偏角差を保存した。このとき帯域分割数は28である。データベースの一部を図2に示す。レベル差、偏角差ともにDOAに応じた変化が確認できる。
Next, DOA estimation and sound source separation experiments and their evaluation will be described.
A database was created using the head-related transfer function (impulse response) measured at fs = 44.1kHz in the anechoic chamber of Tohoku University. A total of 19 directions were analyzed on a 180-degree horizontal plane every 10 degrees in a 1/4 octave band from 74.33 Hz to 8000 Hz, and the level difference and declination difference were preserved. At this time, the number of band divisions is 28. A part of the database is shown in FIG. Changes according to DOA can be confirmed for both level difference and angle difference.
次に、DOA推定および音抽出について説明する。サンプリング周波数44.1kHzで収録した1ch目的音および1ch妨害音を用い、これを上述の頭部伝達関数にたたみ込み図3のように目的音30°、妨害音−30°からの音を合成し、フレーム長1024でシステムに入力した。データベースを作成した過程と同様な計算を行い、得られたレベル差および偏角差とDOAデータベース上の角が最も近いものをDOA推定値とする。DOA推定値は変換スケール毎に求める。 Next, DOA estimation and sound extraction will be described. Using the 1ch target sound and 1ch interference sound recorded at a sampling frequency of 44.1kHz, convolve this with the above-mentioned head-related transfer function and synthesize the sound from the target sound of 30 ° and the interference sound of -30 ° as shown in Figure 3. Input to the system with a frame length of 1024. The same calculation as in the process of creating the database is performed, and the obtained level difference and declination difference are the closest to the angle on the DOA database as the DOA estimate. DOA estimates are obtained for each conversion scale.
分離音を得るために目的音の方向情報をシステムに与え、方向情報と推定DOAが一致したスケールは振幅を保持し、異なった場合には推定DOA 10度の差につき2.5dB係数の振幅を減衰させた。このように補正した係数に対して分析ウェーブレットを畳みこみ、再生分離音を得た。DOAの推定結果および音波形を図4に示す。図4の(e),(f)は1フレーム中の28スケールをDOA毎に推定された数をカウントし、濃度により示したものである。妨害音なしのときは、安定なDOAの推定が行われ(図4(f))、混合音に対しては、目的音が優位のフレームでは目的音方向に推定DOAが移動することがわかった。(図4(e)) The direction information of the target sound is given to the system to obtain the separated sound, the scale where the direction information and the estimated DOA match retains the amplitude, and if it is different, the amplitude of the estimated DOA is attenuated by 2.5dB coefficient per 10 degree difference I let you. The analysis wavelet was convolved with the coefficients corrected in this way to obtain reproduced separated sounds. FIG. 4 shows DOA estimation results and sound waveforms. (E) and (f) in FIG. 4 show the 28 scales in one frame by counting the number estimated for each DOA, and indicating them by the density. When there was no interfering sound, stable DOA estimation was performed (Fig. 4 (f)). For mixed sounds, it was found that the estimated DOA moves in the direction of the target sound in frames where the target sound is dominant. . (Figure 4 (e))
以上のDOA推定および音源分離実験結果から、複素ウェーブレット変換を用いた音源分離方法は、DOA推定を用いて音源の方向を推定し目的とする音源を抽出することに有効であることがわかった。 From the above DOA estimation and sound source separation experiment results, it was found that the sound source separation method using the complex wavelet transform is effective for estimating the direction of the sound source using DOA estimation and extracting the target sound source.
101 受信部
102 変換部
103 推定部
104 分離部
105 データベース
101 receiving
Claims (10)
The separating means emphasizes the complex wavelet coefficients facing the sound source direction based on the DOA estimation value obtained by the estimation, suppresses other coefficients, and reconstructs the target sound waveform; and The sound source separation system according to claim 6, wherein wavelet inverse transform is used for reconstructing the target sound waveform.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006059516A JP2007240605A (en) | 2006-03-06 | 2006-03-06 | Sound source separating method and sound source separation system using complex wavelet transformation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006059516A JP2007240605A (en) | 2006-03-06 | 2006-03-06 | Sound source separating method and sound source separation system using complex wavelet transformation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007240605A true JP2007240605A (en) | 2007-09-20 |
Family
ID=38586252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006059516A Pending JP2007240605A (en) | 2006-03-06 | 2006-03-06 | Sound source separating method and sound source separation system using complex wavelet transformation |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007240605A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009200569A (en) * | 2008-02-19 | 2009-09-03 | Chiba Inst Of Technology | Method and device for estimating sound source direction |
JP2010187401A (en) * | 2010-04-26 | 2010-08-26 | Sony Corp | Head-related transfer function convolution method and head-related transfer function convolution apparatus |
US8503682B2 (en) | 2008-02-27 | 2013-08-06 | Sony Corporation | Head-related transfer function convolution method and head-related transfer function convolution device |
US8520857B2 (en) | 2008-02-15 | 2013-08-27 | Sony Corporation | Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device |
US8831231B2 (en) | 2010-05-20 | 2014-09-09 | Sony Corporation | Audio signal processing device and audio signal processing method |
US8873761B2 (en) | 2009-06-23 | 2014-10-28 | Sony Corporation | Audio signal processing device and audio signal processing method |
US9232336B2 (en) | 2010-06-14 | 2016-01-05 | Sony Corporation | Head related transfer function generation apparatus, head related transfer function generation method, and sound signal processing apparatus |
CN116593965A (en) * | 2023-07-19 | 2023-08-15 | 中国海洋大学 | Horizontal array type estimation method based on far-field opportunity sound source |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325284A (en) * | 2003-04-25 | 2004-11-18 | Kumamoto Technology & Industry Foundation | Method for presuming direction of sound source, system for it, method for separating a plurality of sound sources, and system for it |
-
2006
- 2006-03-06 JP JP2006059516A patent/JP2007240605A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325284A (en) * | 2003-04-25 | 2004-11-18 | Kumamoto Technology & Industry Foundation | Method for presuming direction of sound source, system for it, method for separating a plurality of sound sources, and system for it |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8520857B2 (en) | 2008-02-15 | 2013-08-27 | Sony Corporation | Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device |
JP2009200569A (en) * | 2008-02-19 | 2009-09-03 | Chiba Inst Of Technology | Method and device for estimating sound source direction |
US8503682B2 (en) | 2008-02-27 | 2013-08-06 | Sony Corporation | Head-related transfer function convolution method and head-related transfer function convolution device |
US9432793B2 (en) | 2008-02-27 | 2016-08-30 | Sony Corporation | Head-related transfer function convolution method and head-related transfer function convolution device |
US8873761B2 (en) | 2009-06-23 | 2014-10-28 | Sony Corporation | Audio signal processing device and audio signal processing method |
JP2010187401A (en) * | 2010-04-26 | 2010-08-26 | Sony Corp | Head-related transfer function convolution method and head-related transfer function convolution apparatus |
US8831231B2 (en) | 2010-05-20 | 2014-09-09 | Sony Corporation | Audio signal processing device and audio signal processing method |
US9232336B2 (en) | 2010-06-14 | 2016-01-05 | Sony Corporation | Head related transfer function generation apparatus, head related transfer function generation method, and sound signal processing apparatus |
CN116593965A (en) * | 2023-07-19 | 2023-08-15 | 中国海洋大学 | Horizontal array type estimation method based on far-field opportunity sound source |
CN116593965B (en) * | 2023-07-19 | 2023-09-29 | 中国海洋大学 | Horizontal array type estimation method based on far-field opportunity sound source |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Westhausen et al. | Dual-signal transformation LSTM network for real-time noise suppression | |
US10650796B2 (en) | Single-channel, binaural and multi-channel dereverberation | |
JP7443423B2 (en) | Multichannel signal encoding method and encoder | |
JP4850948B2 (en) | A method for binaural synthesis taking into account spatial effects | |
JP2007240605A (en) | Sound source separating method and sound source separation system using complex wavelet transformation | |
EP3244640B1 (en) | Advanced processing based on a complex-exponential-modulated filterbank | |
US7412380B1 (en) | Ambience extraction and modification for enhancement and upmix of audio signals | |
CA2835463C (en) | Apparatus and method for generating an output signal employing a decomposer | |
JP6019969B2 (en) | Sound processor | |
Mack et al. | Single-Channel Blind Direct-to-Reverberation Ratio Estimation Using Masking. | |
JP4462063B2 (en) | Audio processing device | |
Talagala et al. | Binaural localization of speech sources in the median plane using cepstral HRTF extraction | |
JP2022500710A (en) | Combined sound source localization and separation method for acoustic sources | |
Park et al. | Missing feature speech recognition using dereverberation and echo suppression in reverberant environments | |
JP2018049228A (en) | Acoustic processing device and acoustic processing method | |
Luo et al. | On phase recovery and preserving early reflections for deep-learning speech dereverberation | |
Zeng et al. | Low-complexity Multi-Channel Speaker Extraction with Pure Speech Cues | |
AU2015255287B2 (en) | Apparatus and method for generating an output signal employing a decomposer | |
Berthommier et al. | Evaluation of CASA and BSS models for subband cocktail-party speech separation | |
Berthommier et al. | Comparative evaluation of CASA and BSS models for subband cocktail-party speech separation. | |
Berthommier et al. | Evaluation of CASA and BSS models for cocktailparty speech segregation | |
KR100717607B1 (en) | Method and Device for stereo encoding and decoding | |
Bouafif et al. | Separation and mixing parameters estimation for localization in distance based on features extraction | |
Cahill et al. | Demixing of speech mixtures and enhancement of noisy speech using ADRess algorithm | |
Korany | Mel-frequency cepstral coefficients extraction based on wavelet transform for speaker identification in reverberant environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110928 |