JP6314393B2 - Acoustic signal analyzing apparatus, acoustic signal analyzing method, and computer program - Google Patents
Acoustic signal analyzing apparatus, acoustic signal analyzing method, and computer program Download PDFInfo
- Publication number
- JP6314393B2 JP6314393B2 JP2013189156A JP2013189156A JP6314393B2 JP 6314393 B2 JP6314393 B2 JP 6314393B2 JP 2013189156 A JP2013189156 A JP 2013189156A JP 2013189156 A JP2013189156 A JP 2013189156A JP 6314393 B2 JP6314393 B2 JP 6314393B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- lower limit
- mixed
- field
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、複数の音源からそれぞれ発生された複数の音が混合された混合音に基づいて、各音源から発生された音をそれぞれ推定する音響信号分析装置に関する。 The present invention relates to an acoustic signal analyzing apparatus that estimates sounds generated from each sound source based on a mixed sound obtained by mixing a plurality of sounds respectively generated from a plurality of sound sources.
従来から、例えば、下記非特許文献1及び2に示されているように、各音源から発生された音を混合音から抽出する音響信号分析装置は知られている。非特許文献1に記載の音響信号分析装置では、第1の音(話者の声)のモデルと、第2の音(背景音楽)のモデルとを学習しておき、その学習結果を用いて、混合音から第1の音と第2の音を抽出する。
Conventionally, for example, as shown in
また、非特許文献2に記載の音響信号分析装置では、独立成分分析法を用いて、混合音を外乱とその他の成分に分離する。 Moreover, in the acoustic signal analyzer described in Non-Patent Document 2, the mixed sound is separated into disturbance and other components by using an independent component analysis method.
上記非特許文献1の音響信号分析装置によれば、学習したモデルに関する音からなる混合音にしか対応できない。つまり、非特許文献1の音響信号分析装置は、汎用性に欠ける。
According to the acoustic signal analysis apparatus of Non-Patent
また、非特許文献2の音響信号分析装置によれば、音源の数に応じた複数の収音装置(マイク)が必要である。したがって、装置の構成が複雑になる。 Further, according to the acoustic signal analysis device of Non-Patent Document 2, a plurality of sound collection devices (microphones) corresponding to the number of sound sources are required. Therefore, the configuration of the apparatus becomes complicated.
また、上記非特許文献1及び2の音響信号分析装置を用いれば、音響信号分析装置が設置された部屋の音場特性を最尤推定することができる。推定される音場特性の信頼度は、各音源から発生された音に依存する。すなわち、各音源から発生された音に含まれない周波数帯の特性の信頼度は低い。すべての音源から発生された音が既知であるわけではない(少なくとも1つの音源から発生された音は未知である)ので、推定された音場特性のうち、どの周波数帯の信頼度が高く、どの周波数帯の信頼度が低いのかを認定することができない。そのため、各音源から発生された音を的確に推定することが困難である。
Moreover, if the acoustic signal analyzers of Non-Patent
本発明は上記問題に対処するためになされたもので、その目的は、汎用性が高く、混合音に基づいて、各音源から発生された音を的確に推定できる音響信号分析装置、音響信号分析方法及びコンピュータプログラムを提供することにある。なお、下記本発明の各構成要件の記載においては、本発明の理解を容易にするために、実施形態の対応箇所の符号を括弧内に記載しているが、本発明の各構成要件は、実施形態の符号によって示された対応箇所の構成に限定解釈されるべきものではない。
The present invention has been made to address the above-described problems, and has as its purpose a highly versatile acoustic signal analyzer and acoustic signal analyzer that can accurately estimate the sound generated from each sound source based on mixed sound. It is to provide a method and a computer program . In addition, in the description of each constituent element of the present invention below, in order to facilitate understanding of the present invention, reference numerals of corresponding portions of the embodiment are described in parentheses, but each constituent element of the present invention is The present invention should not be construed as being limited to the configurations of the corresponding portions indicated by the reference numerals of the embodiments.
上記目的を達成するために、本発明の特徴は、所定の第1の音を放音する放音手段(161)と、前記放音された第1の音と、前記放音手段とは異なる音源から放音された第2の音とを含む混合音を収音する収音手段(162)と、前記収音された混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定手段(S12〜S15、S23〜S31)を備え、前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音からなり、前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、前記推定手段は、前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合が複素正規分布及び一般化逆ガウス分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析装置(10、20)としたことにある。
In order to achieve the above object, the present invention is characterized in that the sound emission means (161) for emitting a predetermined first sound, the emitted first sound, and the sound emission means are different. Sound collecting means (162) for collecting a mixed sound including the second sound emitted from the sound source, the second sound based on the collected mixed sound and the first sound, , And an estimation means (S12 to S15, S23 to S31) for simultaneously Bayesian estimation of the sound field characteristic in which the sound emission means and the sound collection means are installed, and the mixed sound includes the first sound and the sound The sound field is composed of a convolution sound and the second sound, and the sound field characteristic is expressed as a set of coefficients multiplied by the intensity of each frequency component of the first sound, The estimation means is configured such that a spectrum of the mixed sound, a time series of the spectrum of the second sound, and the set of coefficients are complex. A lower limit function that is a lower limit of the posterior distribution of a generation model representing generation according to a normal distribution and a generalized inverse Gaussian distribution, and is expressed using a plurality of auxiliary variables, and the second sound and the sound field An acoustic wave characterized in that the posterior distribution is approximately estimated by setting a lower limit function including a parameter relating to a characteristic and determining the lower limit function by repeatedly updating the auxiliary variable and the parameter. The signal analyzer (10, 20) is used.
また、本発明の特徴は、所定の第1の音を放音する放音手段と、前記放音された第1の音と、前記放音手段とは異なる音源から放音された第2の音とを含む混合音を収音する収音手段と、前記収音された混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定手段を備え、前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音からなり、前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、前記推定手段は、前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合がポアソン分布及びガンマ分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析装置としたことにある。 Further, the present invention is characterized in that a sound emitting means for emitting a predetermined first sound, the emitted first sound, and a second sound emitted from a sound source different from the sound emitting means. Sound collecting means for collecting mixed sound including sound, and the second sound, sound emitting means, and sound collecting means are installed based on the collected mixed sound and the first sound. An estimation means for performing Bayesian estimation simultaneously with the characteristic of the generated sound field, and the mixed sound includes a sound obtained by convolving the first sound and the characteristic of the sound field, and the second sound, The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound, and the estimation means includes a time series of the spectrum of the mixed sound and the spectrum of the second sound. And the posterior of the generation model that represents that the set of coefficients is generated according to the Poisson distribution and the gamma distribution, respectively A lower limit function which is a lower limit of the cloth, which is expressed using a plurality of auxiliary variables, sets a lower limit function including parameters relating to the characteristics of the second sound and the sound field, and repeats the auxiliary variables and the parameters The acoustic signal analysis apparatus is characterized in that the posterior distribution is approximately estimated by updating the lower limit function and determining the lower limit function.
また、本発明の特徴は、所定の第1の音を放音する放音手段と、前記放音された第1の音と、前記放音手段とは異なる音源から放音された第2の音とを含む混合音を収音する収音手段と、前記収音された混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定手段を備え、前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音と前記音場の特性とが畳み込まれた音からなり、前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、前記推定手段は、前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合が複素正規分布及び一般化逆ガウス分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析装置としたことにある。 Further, the present invention is characterized in that a sound emitting means for emitting a predetermined first sound, the emitted first sound, and a second sound emitted from a sound source different from the sound emitting means. Sound collecting means for collecting mixed sound including sound, and the second sound, sound emitting means, and sound collecting means are installed based on the collected mixed sound and the first sound. Estimation means for simultaneously performing Bayesian estimation of the characteristics of the generated sound field, and the mixed sound includes a sound obtained by convolving the first sound and the characteristic of the sound field, and the second sound and the sound. The sound field characteristic is expressed as a set of coefficients multiplied by the intensity of each frequency component of the first sound, and the estimation means includes the mixed sound. Spectrum, the time series of the spectrum of the second sound, and the set of coefficients according to a complex normal distribution and a generalized inverse Gaussian distribution. A lower limit function that is a lower limit of the posterior distribution of a generation model representing generation of each, and is expressed using a plurality of auxiliary variables and includes parameters relating to characteristics of the second sound and the sound field And the auxiliary variable and the parameter are iteratively updated to determine the lower limit function to approximately estimate the posterior distribution. .
また、本発明の特徴は、所定の第1の音を放音する放音手段と、前記放音された第1の音と、前記放音手段とは異なる音源から放音された第2の音とを含む混合音を収音する収音手段と、前記収音された混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定手段を備え、前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音と前記音場の特性とが畳み込まれた音からなり、前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、前記推定手段は、前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合がポアソン分布及びガンマ分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析装置としたことにある。 Further, the present invention is characterized in that a sound emitting means for emitting a predetermined first sound, the emitted first sound, and a second sound emitted from a sound source different from the sound emitting means. Sound collecting means for collecting mixed sound including sound, and the second sound, sound emitting means, and sound collecting means are installed based on the collected mixed sound and the first sound. Estimation means for simultaneously performing Bayesian estimation of the characteristics of the generated sound field, and the mixed sound includes a sound obtained by convolving the first sound and the characteristic of the sound field, and the second sound and the sound. The sound field characteristic is expressed as a set of coefficients multiplied by the intensity of each frequency component of the first sound, and the estimation means includes the mixed sound. Spectrum, the second sound spectrum time series and the coefficient set are generated according to Poisson distribution and gamma distribution, respectively. A lower limit function that is a lower limit of the posterior distribution of the generation model representing that the generation model is expressed, and is expressed using a plurality of auxiliary variables, and includes a lower limit function including parameters relating to the characteristics of the second sound and the sound field In addition, the acoustic signal analyzing apparatus is characterized in that the posterior distribution is approximately estimated by repetitively updating the auxiliary variable and the parameter to determine the lower limit function.
上記のように構成された音響信号分析装置によれば、混合音を構成する音のモデル(又は混合音を構成する音をそれぞれ発生する各音源のモデル)を予め学習しておく必要が無いので、どのような混合音であっても歌声及び音場特性を推定できる。つまり、音響信号分析装置10は、上記非特許文献1の音響信号分析装置に比べて汎用性が高い。
According to the acoustic signal analyzing apparatus configured as described above, it is not necessary to learn in advance a model of a sound that constitutes a mixed sound (or a model of each sound source that generates a sound that constitutes a mixed sound). The singing voice and sound field characteristics can be estimated for any mixed sound. That is, the acoustic signal analyzer 10 is more versatile than the acoustic signal analyzer of Non-Patent
また、推定される音場特性は、楽音(直接音)の周波数特性に大きく依存するが、本発明によれば、音場特性の事後分布が推定されるので、推定された音場特性の不確かさを認定できる。つまり、推定された音場特性の事後分布の分散が所定の閾値を超える周波数帯域の信頼度は低く、分散が前記所定の閾値以下の周波数帯域の信頼度は高いと認定できる。そして、信頼度が低い周波数帯域の音場特性を、イコライザーなどを用いて補正すれば、混合音から第2の音をより正確に抽出することができる。 In addition, the estimated sound field characteristic largely depends on the frequency characteristic of the musical sound (direct sound). However, according to the present invention, since the posterior distribution of the sound field characteristic is estimated, the uncertainty of the estimated sound field characteristic is uncertain. Can be certified. That is, it can be recognized that the reliability of the frequency band in which the variance of the estimated posterior distribution of the sound field characteristic exceeds the predetermined threshold is low and the reliability of the frequency band in which the variance is equal to or less than the predetermined threshold is high. If the sound field characteristic in the frequency band with low reliability is corrected using an equalizer or the like, the second sound can be extracted more accurately from the mixed sound.
また、本発明の他の特徴は、前記収音手段は、前記第2の音及び前記混合音を実時間でサンプリングし、前記推定手段は、前記下限関数の期待値を実時間で更新して最適化することにより、前記事後分布を近似的に推定することにある。また、本発明の他の特徴は、前記音場の特性に関するパラメータであって、所定の周波数成分の強度に乗算される前記係数に関するパラメータは、前記第1の音の発音開始から現在までの前記第1の音のスペクトルの前記所定の周波数成分の強度の総和及び前記混合音の発音開始から現在までの前記混合音のスペクトルの前記所定の周波数成分の強度の総和にのみ更新回数(n)に応じた重み付け係数(ηn)が乗算されるように設定された更新式に基づいて更新されることにある。
According to another feature of the present invention, the sound collection means samples the second sound and the mixed sound in real time, and the estimation means updates the expected value of the lower limit function in real time. By optimizing, the posterior distribution is approximately estimated. Another feature of the present invention is a parameter related to characteristics of the sound field, parameter relating to the coefficient multiplied to the intensity of the predetermined frequency component, the up to now from the start of sounding of the first sound Only the total sum of the intensities of the predetermined frequency components of the spectrum of the first sound and the total sum of the intensities of the predetermined frequency components of the spectrum of the mixed sound from the start of sound generation to the present are updated (n). The update is based on the update formula set so as to be multiplied by the corresponding weighting coefficient (η n ).
これによれば、特定の変数についてのみ重みが付されるので、所謂「確定的アニーリング」という手法を採用する場合に比べて、下限関数を決定する際の反復計算の回数が増大することを抑制できる。 According to this, since weighting is applied only to a specific variable, it is possible to suppress an increase in the number of iterative calculations when determining the lower limit function, compared to a case where a so-called “deterministic annealing” is employed. it can.
(第1実施形態)
本発明の第1実施形態に係る音響信号分析装置10について説明する。まず、音響信号分析装置10の概略について説明する。音響信号分析装置10は、所定の音(本実施形態では所定の楽曲とする)を放音装置(スピーカ161:図3参照)から放音するとともに、収音装置(マイク162:図3参照)を用いて音響信号分析装置10の周囲の音(本実施形態では歌手の歌声とする)を収音する。なお、本実施形態では、放音装置と収音装置とが互いに遠く離れた位置に設置されている。よって、放音装置及び収音装置が設置された部屋の音響的特性(以下、音場特性と呼ぶ)と楽音とが畳み込まれた音も収音装置によって収音される。つまり、放音手段から放音された音(直接音)のみならず、部屋の壁や床などで反射した反射音(残響)も収音される。また、収音装置は歌手に近い位置に設置されている。よって、収音装置で収音される歌声は音場の影響を受けない。本実施形態においては、残響を含む楽音と、歌声(直接音のみ)とが混合された音を混合音と呼ぶ。
(First embodiment)
The acoustic signal analyzer 10 according to the first embodiment of the present invention will be described. First, the outline of the acoustic signal analyzer 10 will be described. The acoustic signal analyzer 10 emits a predetermined sound (predetermined music in this embodiment) from a sound emitting device (speaker 161: see FIG. 3) and a sound collecting device (microphone 162: see FIG. 3). Is used to pick up sounds around the acoustic signal analyzer 10 (in this embodiment, the singer's voice). In the present embodiment, the sound emitting device and the sound collecting device are installed at positions far away from each other. Therefore, the sound collecting device also collects the sound in which the acoustic characteristics (hereinafter referred to as sound field characteristics) of the room in which the sound emitting device and the sound collecting device are installed and the musical sound are convoluted. That is, not only the sound emitted from the sound emitting means (direct sound) but also the reflected sound (reverberation) reflected by the wall or floor of the room is collected. The sound collection device is installed at a position close to the singer. Therefore, the singing voice collected by the sound collecting device is not affected by the sound field. In the present embodiment, a sound in which a musical sound including reverberation and a singing voice (direct sound only) are mixed is called a mixed sound.
混合音のパワースペクトルY、楽音(直接音)のパワースペクトルX、音場特性H、及び歌声のパワースペクトルSの関係は、図1及び図2に示すようなブロック図として表わすことができる。このモデルは、下記の式(1)のように定式化することができる。音響特性H及び歌声のパワースペクトルSは直接的には観測されないので、このモデルにおける潜在変数である。なお、楽音が本発明の第1の音に相当し、歌声が本発明の第2の音に相当する。音響信号分析装置10は、混合音を収録(サンプリング)し、前記収録した混合音を観測データとして、歌声と音場の特性とを同時にベイズ推定する。
なお、「f」は周波数ビンのインデックス(f=1,2,・・・,F)を表わし、「t」は時間フレーム(以下、単にフレームと呼ぶ)のインデックス(t=1,2,・・・,T)を表わす。したがって、「Xf,t」は、楽曲のt番目のフレームにおけるf番目の周波数ビンの強度(振幅)を表わす。「Yf,t」は、混合音のt番目のフレームにおけるf番目の周波数ビンの強度(振幅)を表わす。「Sf,t」は、歌声のt番目のフレームにおけるf番目の周波数ビンの強度(振幅)を表わす。また、音場特性Hは、係数Hf,iの集合として表わされる。「i」は係数のインデックス(i=1,2,・・・,I)を表わす。すなわち、「Hf,i」は、f番目の周波数ビンの強度(振幅)であってi回(i個のフレームの時間)遅延された強度(振幅)に乗算される係数を表わす。 “F” represents the frequency bin index (f = 1, 2,..., F), and “t” represents the index (t = 1, 2,...) Of the time frame (hereinafter simply referred to as a frame). .., T). Therefore, “X f, t ” represents the strength (amplitude) of the f th frequency bin in the t th frame of the music. “Y f, t ” represents the intensity (amplitude) of the f-th frequency bin in the t-th frame of the mixed sound. “S f, t ” represents the intensity (amplitude) of the f-th frequency bin in the t-th frame of the singing voice. The sound field characteristic H is expressed as a set of coefficients H f, i . “I” represents a coefficient index (i = 1, 2,..., I). That is, “H f, i ” represents a coefficient to be multiplied by the intensity (amplitude) of the f-th frequency bin and delayed i times (time of i frames).
次に音響信号分析装置10の構成について説明する。音響信号分析装置10は、図3に示すように、入力操作子11、コンピュータ部12、表示器13、記憶装置14、外部インターフェース回路15、及びサウンドシステム16を備えており、これらがバスBSを介して接続されている。
Next, the configuration of the acoustic signal analyzer 10 will be described. As shown in FIG. 3, the acoustic signal analyzer 10 includes an
入力操作子11は、オン・オフ操作に対応したスイッチ(例えば数値を入力するためのテンキー)、回転操作に対応したボリューム又はロータリーエンコーダ、スライド操作に対応したボリューム又はリニアエンコーダ、マウス、タッチパネルなどから構成される。これらの操作子は、演奏者の手によって操作されて、処理開始又は停止、音響信号の分析に関する各種パラメータの設定などに用いられる。入力操作子11を操作すると、その操作内容を表す操作情報が、バスBSを介して、後述するコンピュータ部12に供給される。
The
コンピュータ部12は、バスBSにそれぞれ接続されたCPU12a、ROM12b及びRAM12cからなる。CPU12aは、混合音に基づいて歌声及び音場の特性を推定する手順を表わしたプログラムをROM12bから読み出して実行する。ROM12bには、前記プログラムに加えて、初期設定パラメータ、表示器13に表示される画像を表わす表示データを生成するための図形データ及び文字データなどの各種データが記憶されている。RAM12cには、前記プログラムの実行時に必要なデータが一時的に記憶される。例えば、後述するマイク162で収音された混合音を所定のサンプリング周期(例えば1/44100sec)でサンプリングして得られた複数のサンプル値からなる混合音データがRAM12cに記憶される。
The
表示器13は、液晶ディスプレイ(LCD)によって構成される。コンピュータ部12は、図形データ、文字データなどを用いて表示すべき内容を表わす表示データを生成して表示器13に供給する。表示器13は、コンピュータ部12から供給された表示データに基づいて画像を表示する。
The
また、記憶装置14は、HDD、FDD、CD、DVDなどの大容量の不揮発性記録媒体と、同各記録媒体に対応するドライブユニットから構成されている。記憶装置14には、前記所定の楽曲を表わす楽曲データが記憶されている。楽曲データは、前記所定の楽曲の演奏を所定のサンプリング周期(例えば1/44100sec)でサンプリングして得られた複数のサンプル値からそれぞれなり、各サンプル値が記憶装置14における連続するアドレスに順に記録されている。楽曲データには、楽曲のタイトルを表わすタイトル情報、容量を表わすデータサイズ情報なども含まれている。楽曲データは予め記憶装置14に記憶されていてもよいし、後述する外部インターフェース回路15を介して外部から取り込んでもよい。
The
外部インターフェース回路15は、音響信号分析装置10を電子音楽装置、パーソナルコンピュータなどの外部機器に接続可能とする接続端子を備えている。音響信号分析装置10は、外部インターフェース回路15を介して、LAN(Local Area Network)、インターネットなどの通信ネットワークにも接続可能である。
The
サウンドシステム16は、楽曲データをアナログ音信号に変換するD/A変換器、変換したアナログ音信号を増幅するアンプ、及び増幅されたアナログ音信号を音響信号に変換して放音するスピーカ161を備えている。また、サウンドシステム16は、混合音を収音するためのマイク162、及び収音されたアナログ音信号としての混合音をデジタル音信号に変換するA/D変換器も備えている。なお、上記非特許文献2の音響信号分析装置においては複数のマイクを備えているが、本実施形態では1つのマイク162のみを備えている。
The
次に、上記のように構成した音響信号分析装置10の動作(歌声及び音場特性の推定手順)について説明する。図4に示すように、ステップS10にて歌声及び音場特性の推定処理が開始される。次に、ステップS11にて、各種変数(後述する補助変数や事後分布のパラメータなど)が初期化される。次に、ステップS12にて、楽曲データがサウンドシステム16に供給されてスピーカ161から楽曲の放音が開始されるとともに、マイク162で収音された混合音のサンプリングが開始される。サンプリングされた混合音データは、RAM12cに記憶される。楽曲の放音が終了すると、以下説明するように、RAM12cに記憶された混合音データを観測データとして、歌声及び音場特性が同時に(一体的に)ベイズ推定される。
Next, the operation (singing voice and sound field characteristic estimation procedure) of the acoustic signal analyzer 10 configured as described above will be described. As shown in FIG. 4, the singing voice and sound field characteristic estimation process is started in step S10. Next, in step S11, various variables (auxiliary variables described later, parameters of posterior distribution, etc.) are initialized. Next, in
歌声のスペクトル、楽音のスペクトル及び混合音のスペクトル(短時間フーリエ変換)が複素正規分布から生成されるとすると、下記の式(2)乃至(4)で表されるような生成モデルを構築できる。なお、式(2)乃至(4)における「GIG(a,b,c)」は、母数a,b,cによって定義される一般化逆ガウス分布を表わす。また、以下の説明においては、必要に応じ、パラメータがいずれの要素(S、Hなど)に関するものであるかを示すために、右上の括弧内に要素を表わす変数名を記載する。例えば、「a(H)」と記載されたパラメータは、音場特性に関するパラメータである。
上記のモデルの事後分布を、変分ベイズ法を用いて計算する。ここで、対数同時分布は下記の式(5)のように表わされる。なお、式(5)においては、定数項を無視している。
しかし、式(5)に変分ベイズ法を適用することができないので、補助関数を用いて下限を定める。具体的には、下記の式(6)のような下限関数を設定し、新たに導入された補助変数M及び補助変数Φが更新される。
具体的には、ステップS13にて、式(7)乃至(10)によって定義される条件下で補助変数Mが最適化され、式(11)によって定義される条件下で補助変数Φが最適化される。
次に、ステップS14にて、下記の式(12)及び式(13)を用いて事後分布のパラメータが更新される。なお、式(12)及び式(13)中の各パラメータは下記の式(14)乃至(19)のように定義されている。
次にステップS15にて、下限関数が収束したか否かが判定される。すなわち、補助変数M及び補助変数Φ、並びに事後分布の各パラメータが収束したか否かが判定される。下限関数が収束していない場合には「No」と判定され、ステップS13及びステップS14にて補助変数M及び補助変数Φ、並びに事後分布の各パラメータがそれぞれ更新される。一方、下限関数が収束した場合には、「Yes」と判定され、ステップS16にて、歌声及び音場特性の推定処理が終了する。上記のようにして、補助変数M及び補助変数Φ、並びに事後分布の各パラメータが反復的に更新されて下限関数が決定されることにより、事後分布が近似的に計算される。これにより、歌声及び音場特性が同時に(一体的に)ベイズ推定される。なお、下記の式(20)で示されるマスクを、t番目のフレームにおける混合音のスペクトル(短時間フーリエ変換)に適用し、その逆フーリエ変換を計算することにより、混合音から歌声を抽出することができる。
上記のように構成された音響信号分析装置10によれば、混合音を構成する音のモデル(又は混合音を構成する音をそれぞれ発生する各音源のモデル)を予め学習しておく必要が無いので、どのような混合音であっても歌声及び音場特性を推定できる。つまり、音響信号分析装置10は、上記非特許文献1の音響信号分析装置に比べて汎用性が高い。
According to the acoustic signal analyzing apparatus 10 configured as described above, it is not necessary to learn in advance a model of a sound that constitutes a mixed sound (or a model of each sound source that generates a sound that constitutes a mixed sound). Therefore, singing voice and sound field characteristics can be estimated for any mixed sound. That is, the acoustic signal analyzer 10 is more versatile than the acoustic signal analyzer of
また、上記非特許文献2の音響信号分析装置とは異なり、1つのマイクを備えていればよいので、装置の構成が単純である。 Further, unlike the acoustic signal analyzer of Non-Patent Document 2, it is sufficient to have one microphone, so the configuration of the apparatus is simple.
また、推定される音場特性は、楽音(直接音)の周波数特性に大きく依存するが、本実施形態では、音場特性の事後分布が推定されるので、推定された音場特性の不確かさを認定できる。つまり、推定された音場特性の事後分布の分散が所定の閾値(例えば、予め定められた値、又は楽音のパワースペクトルXにおける特定の周波数ビンのパワーに比例した値)を超える周波数帯域の信頼度は低く、分散が前記所定の閾値以下の周波数帯域の信頼度は高いと認定できる。そして、信頼度が低い周波数帯域の音場特性を、イコライザーなどを用いて補正すれば、混合音から歌声をより正確に抽出することができる。 Further, the estimated sound field characteristic largely depends on the frequency characteristic of the musical sound (direct sound). However, in this embodiment, the posterior distribution of the sound field characteristic is estimated, and thus the uncertainty of the estimated sound field characteristic is estimated. Can be certified. That is, the reliability of the frequency band in which the variance of the estimated posterior distribution of the sound field characteristic exceeds a predetermined threshold (for example, a predetermined value or a value proportional to the power of a specific frequency bin in the power spectrum X of the musical sound). The degree of reliability is low, and it can be recognized that the reliability of the frequency band whose variance is equal to or less than the predetermined threshold is high. If the sound field characteristics in the frequency band with low reliability are corrected using an equalizer or the like, the singing voice can be extracted more accurately from the mixed sound.
上記実施形態における式(2)乃至(4)によって表わされる生成モデルに代えて、次の式(21)乃至(23)によって表わされる生成モデルを採用しても良い。
この場合、Poisson分布の再生性を用いるとともに、補助変数M(S),M(H)を下記の式(24)を満たすように制約すれば、上記の式(21)乃至(23)によって表わされる生成モデルは、下記の式(25)乃至(28)によって表わされる生成モデルと等価である。
そして、対数同時分布は、下記の式(29)のように表わされる。
事後分布は、下記の式(30)乃至(33)を用いて更新される。
なお、上記式(31)におけるZf,tは、下記の式(34)に示すような正規化係数である。また、その他のパラメータは、下記の式(35)乃至(41)に示すように定義される。
この場合、「Sf,t」の平均値に混合音の短時間フーリエ変換の位相を付与することにより、混合音から歌声を抽出することができる。 In this case, a singing voice can be extracted from the mixed sound by adding the short-time Fourier transform phase of the mixed sound to the average value of “S f, t ”.
上記実施形態では、「I」を固定する必要がある。しかし、「I」は音場の残響時間に依存するので、様々な音場に対して頑健であるためには、「I」に対する依存性が弱められていることが望ましい。そこで、下記の式(42)のように定義される変数gjを上記の式(21)に導入し、下記の式(43)のようにモデルを定式化しても良い。つまり、変数gjは、現在のフレームの歌声のゲイン、及び過去のフレームの楽音のゲインを表わす。
これによれば、「I」の値が音場に応じて動的に変化するような挙動が得られる。これにより、混合音から歌声をより正確に抽出できる。 According to this, a behavior is obtained in which the value of “I” dynamically changes according to the sound field. Thereby, a singing voice can be extracted from a mixed sound more correctly.
また、上記第1実施形態及びその変形例では、フレームの総和(「t」に関する総和)を表わす項が含まれる数式を用いているため、歌声及び音場特性を実時間で推定することができない。そこで、式(21)乃至(43)を用いて説明した歌声及び音場特性の推定手順を変形し、歌声及び音場特性を実時間で推定する手順について説明する。 Further, in the first embodiment and the modification thereof, since the mathematical expression including the term representing the sum of the frames (sum related to “t”) is used, the singing voice and the sound field characteristics cannot be estimated in real time. . Therefore, a procedure for estimating the singing voice and sound field characteristics in real time by modifying the singing voice and sound field characteristics estimation procedure described using the equations (21) to (43) will be described.
まず、事後分布は各周波数ビンに関して独立であるとみなし、1つの周波数ビンに注目する。すると、事後分布は下記の式(44)及び式(45)のように表わされる。
上記の事後分布を、変分ベイズ法を用いて計算する。具体的には、下記の式(46)に示すような目的関数を最適化することにより、事後分布を近似的に計算する。なお、式(46)中の「Hq(θ)」は、下記の式(47)に示すように定義される。
ここで、式(48)に示すように、事後分布における変数のうち、フレームごとに独立である変数を先に最適化する。式(48)に示す目的関数J´を最適化することは、式(46)に示す目的関数Jを最適化することと等価である。
さらに、「0」から「T」の間で一様に分布する確率変数τ〜Uniform(0,T)を導入し、目的関数Jτを下記の式(49)のように定義する。目的関数Jτは、全ての観測データが、フレームτのものであったとみなしたときの、目的関数J´の目的関数である。
なお、観測データは一様に分布しているので、下記の式(50)が成立する。フレームのインデックスである「t」を「1」ずつ増加させ、各フレームにおいて目的関数Jτ(θ)を評価し、その最適値を累積すれば、JI(θ)の平均値を実時間で更新することができる。
上記の歌声及び音場特性の実時間推定処理の手順を、図5を用いて説明する。ステップS20にて歌声及び音場特性の実時間推定処理が開始される。ステップS21にて、各種変数が初期化される。次に、ステップS22にて、楽曲の再生が開始される。次に、ステップS23にて、t番目のフレームに相当する混合音のスペクトルが計算される。具体的には、所定のサンプリング周期でバッファにサンプル値が逐次的に記憶されており、前記バッファに記憶されたサンプル値のうちのt番目のフレームに相当する複数のサンプル値を用いて、t番目のフレームに相当する混合音のスペクトルが計算される。最初、「t」は「0」に初期化されているので、最初のフレームに相当するスペクトルが計算される。次に、ステップS24にて、補助変数Φが更新される。次に、ステップS25にて、潜在変数Stが更新される。次に、ステップS26にて、補助変数Φが収束したか否かが判定される。補助変数Φが収束していない場合、「No」と判定され、ステップS24及びステップ25を実行し、再び補助変数Φ及び潜在変数Stが更新される。一方、補助変数Φが収束した場合、「Yes」と判定され、ステップS27にて、潜在変数Stの平均値に基づいて歌声の音響信号が復元される。そして、ステップS28にて、事後分布のパラメータが更新される。次に、ステップS29にて、事後分布が更新される。ただし、「ρt」は、0≦ρt≦1を満たす係数である。また、下記の式(51)を満たす場合には、変数Φの収束が保証される。
次に、ステップS30にて、フレームのインデックスが更新(インクリメント)される。次に、ステップS31にて、最終フレームの処理を終了したか否かが判定される。つまり、フレームのインデックス(t)が最終フレームのインデックス(T)を超えていれば、最終フレームを既に処理したと判定し、ステップS32にて実時間処理が終了する。一方、フレームのインデックス(t)が最終フレームのインデックス(T)以下であれば、ステップS23乃至S31からなる処理が再び実行される。 Next, in step S30, the index of the frame is updated (incremented). Next, in step S31, it is determined whether or not the last frame has been processed. That is, if the index (t) of the frame exceeds the index (T) of the final frame, it is determined that the final frame has already been processed, and the real-time processing ends in step S32. On the other hand, if the index (t) of the frame is equal to or less than the index (T) of the final frame, the process consisting of steps S23 to S31 is executed again.
上記の実時間処理において、「H」を階層化し、事前分布の超パラメータを最適化してもよい。これによれば、各フレーム間において「H」が独立であるため、現在のフレームのデータのみから「H」を更新できる。ただし、このままではサンプル数が少なくなりすぎ、歌声の推定精度が低下する虞がある。そこで、各フレームにて推定される「H」の事後分布から適切な「H」の事前分布を更新する。つまり、式(22)に代えて、下記の式(52)を用いる。
これによれば、「Hf,t,i」の更新式には、フレームの総和(「t」に関する総和)を表わす項が含まれない。したがって、「Hf,t,i」は各フレームにおいて独立して更新される。 According to this, the update formula of “H f, t, i ” does not include a term representing the sum of frames (sum related to “t”). Therefore, “H f, t, i ” is updated independently in each frame.
次に、下記の式(53)に示す目的関数を最大化することにより、超パラメータを最適化する。なお、任意の「f」及び「i」に関して、式(54)乃至(57)が成立する。
ここで、G(a,b)を「b」に関して偏微分した結果が「0」に等しいとすると、「b=a/c」という関係式が得られる。また、G(a,b)を「a」に関して偏微分した結果が「0」に等しいとすると、「d+logb−ψ(a)=0」という関係式が得られる。「a」が求まれば「b」も求まるが、「a」を求めるのは困難である。そこで、上記の2つの関係式を組み合わせた下記の式(58)を解く。
ここで、exp(a´)=aとすると、下記の式(59)に示す目的関数が導出される。
この式(59)にNewton Raphson法を適用すると、下記の式(60)に示す更新式が導出される。
つまり、「a」は、下記の式(61)のように表わされる。
ディガンマ関数の近似式を用いれば、下記の式(62)及び式(63)が成立する。
したがって、下記の式(64)に示すような更新式が導出される。この更新式を用いてパラメータを更新しても良い。
なお、式(41)及び式(42)に鑑みれば、単純に履歴を蓄積していけばよいとも思われる。すなわち、例えば、下記の式(65)のような更新式を用いれば良いとも思われる。
しかし、変分ベイズ法は反復計算を利用するものであり、「S」の初期値はスパースである(「0」に近い値を優遇する)。一方、観測データが多くなるほど、「a(H)」及び「b(H)」の確信度が高くなる。すなわち、初期段階では観測データ数が少ないので確信度が低い。また、式(65)を用いた場合、新しい観測は古い観測に対して弱い影響しか与えない。そこで、下記の式(66)及び(67)に示すように、履歴の蓄積に対して重みを付ける変数ηnを導入する。すなわち、変数ηnは、楽音(第1の音)の発音開始から現在までの楽音のスペクトルの所定の周波数成分の強度の総和及び混合音の発音開始から現在までの混合音のスペクトルの所定の周波数成分の強度の総和にのみ更新回数に応じて乗算される重み付け係数に相当する。なお、「n」は反復計算の回数を表わす。初期段階(すなわち、「n」が小さいとき)では、変数ηnを「0」に近い値に設定し、反復回数が増すにつれて変数ηnを徐々に「1」に近づける。
これによれば、特定の変数についてのみ重みが付されるので、所謂「確定的アニーリング」という手法を採用する場合に比べて、下限関数を決定する際の反復計算の回数が増大することを抑制できる。 According to this, since weighting is applied only to a specific variable, it is possible to suppress an increase in the number of iterative calculations when determining the lower limit function, compared to a case where a so-called “deterministic annealing” is employed. it can.
なお、式(21)乃至(43)を用いて説明した歌声及び音場特性の推定手順を変形し、歌声及び音場特性を実時間で推定する手順について説明したが、式(2)乃至(20)を用いて説明した歌声及び音場特性の推定手順に関しても同様に変形し、歌声及び音場特性を実時間で推定することが可能である。 In addition, although the estimation procedure of the singing voice and the sound field characteristic described using the expressions (21) to (43) is modified and the procedure for estimating the singing voice and the sound field characteristic in real time has been described, the expressions (2) to ( The singing voice and sound field characteristics estimation procedure described using 20) can be similarly modified, and the singing voice and sound field characteristics can be estimated in real time.
(第2実施形態)
次に、本発明の第2実施形態に係る音響信号分析装置20について説明する。まず、音響信号分析装置20の概略について説明する。音響信号分析装置20は、音響信号分析装置10と同様に、所定の楽曲を放音装置(スピーカ161)から放音するとともに、収音装置(マイク162)を用いて歌手の歌声を収音する。ただし、本実施形態では、第1実施形態とは異なり、放音装置と収音装置とが近い位置に設置されている。また、収音装置は歌手及び放音装置から遠く離れた位置に設置されている。よって、放音装置及び収音装置が設置された部屋の音響特性(音場特性)と楽音及び歌声とが畳み込まれた音が収音装置によって収音される。つまり、放音装置から放音された音(直接音)及び歌手の歌声(直接音)のみならず、部屋の壁や床などで反射した反射音(反響)も収音される。本実施形態においては、残響を含む楽曲の音と、残響を含む歌声とが混合された音を混合音と呼ぶ。
(Second Embodiment)
Next, the acoustic signal analyzer 20 according to the second embodiment of the present invention will be described. First, an outline of the acoustic signal analyzer 20 will be described. The acoustic signal analysis device 20, like the acoustic signal analysis device 10, emits predetermined music from the sound emitting device (speaker 161) and collects the singer's singing voice using the sound collecting device (microphone 162). . However, in the present embodiment, unlike the first embodiment, the sound emitting device and the sound collecting device are installed at close positions. The sound collecting device is installed at a position far away from the singer and the sound emitting device. Therefore, the sound collecting device collects the sound in which the acoustic characteristics (sound field characteristics) of the room where the sound emitting device and the sound collecting device are installed, the musical sound and the singing voice are convoluted. That is, not only the sound emitted from the sound emitting device (direct sound) and the singer's singing voice (direct sound) but also the reflected sound (reflection) reflected from the wall or floor of the room is collected. In the present embodiment, a sound obtained by mixing a sound of music including reverberation and a singing voice including reverberation is referred to as a mixed sound.
混合音のパワースペクトルY、楽音(直接音)のパワースペクトルX、音場特性H、及び歌声のパワースペクトルSの関係は、図6及び図7に示すようなブロック図として表わすことができ、このモデルは、下記の式(68)のように定式化することができる。音響特性H及び歌声のパワースペクトルSは直接的には観測されないので、このモデルにおける潜在変数である。
音響信号分析装置20は、混合音を収録(サンプリング)し、前記収録した混合音を観測データとして、歌声と音場の特性とを同時に(一体的に)ベイズ推定する。音響信号分析装置20のその他の構成は音響信号分析装置10と同様であるので、その説明を省略する。 The acoustic signal analyzer 20 records (samples) the mixed sound, and uses the recorded mixed sound as observation data to perform Bayesian estimation of the singing voice and the characteristics of the sound field simultaneously (integrally). Since the other structure of the acoustic signal analyzer 20 is the same as that of the acoustic signal analyzer 10, the description thereof is omitted.
次に、上記のように構成した音響信号分析装置20の動作(歌声及び音場特性の推定手順)について説明する。第1実施形態と同様に、図4に示すように、ステップS10にて歌声及び音場特性の推定処理が開始される。次に、ステップS11にて、各種変数(後述する補助変数や事後分布のパラメータなど)が初期化される。次に、ステップS12にて、楽曲データがサウンドシステム16に供給されてスピーカ161から楽曲の放音が開始されるとともに、マイク162で収音された混合音のサンプリングが開始される。サンプリングされた混合音データは、RAM12cに記憶される。楽曲の放音が終了すると、以下説明するように、RAM12cに記憶された混合音データを観測データとして、歌声及び音場特性が同時に(一体的に)ベイズ推定される。
Next, the operation (singing voice and sound field characteristic estimation procedure) of the acoustic signal analyzer 20 configured as described above will be described. As in the first embodiment, as shown in FIG. 4, the singing voice and sound field characteristic estimation processing is started in step S10. Next, in step S11, various variables (auxiliary variables described later, parameters of posterior distribution, etc.) are initialized. Next, in
歌声のスペクトル、楽音のスペクトル及び混合音のスペクトル(短時間フーリエ変換)が複素正規分布から生成されるとすると、下記の式(69)乃至(71)で表されるような生成モデルを構築できる。
上記のモデルの事後分布を、変分ベイズ法を用いて計算する。ここで、対数同時分布は次の式(72)のように表わされる。なお、式(72)においては、定数項を無視している。
しかし、式(72)に変分ベイズ法を適用することができないので、補助関数を用いて下限を定める。具体的には、下記の式(73)のような下限関数を設定し、新たに導入された補助変数M及び補助変数Φが更新される。
具体的には、ステップS13にて、式(74)乃至(77)によって定義される条件下で補助変数Mが最適化され、式(78)によって定義される条件下で補助変数Φが最適化される。
次に、ステップS14にて、下記の式(79)及び式(80)を用いて事後分布のパラメータが更新される。なお、式(79)及び式(80)中の各パラメータは下記の式(81)乃至(86)のように定義されている。
次にステップS15にて、下限関数が収束したか否かが判定される。すなわち、補助変数M及び補助変数Φ、並びに事後分布の各パラメータが収束したか否かが判定される。下限関数が収束していない場合には「No」と判定され、ステップS13及びステップS14にて補助変数M及び補助変数Φ、並びに事後分布の各パラメータがそれぞれ更新される。一方、下限関数が収束した場合には、「Yes」と判定され、ステップS16にて、歌声及び音場特性の推定処理が終了する。上記のようにして、事後分布が近似的に計算される。これにより、歌声及び音場特性が同時に(一体的に)ベイズ推定される。なお、下記の式(87)で示されるマスクを、t番目のフレームにおける混合音のスペクトル(短時間フーリエ変換)に適用し、その逆フーリエ変換を計算することにより、混合音から歌声を抽出することができる。
上記のように構成された音響信号分析装置20によっても、第1実施形態と同様の効果が得られる。 The acoustic signal analyzer 20 configured as described above can also provide the same effects as those of the first embodiment.
上記実施形態における式(69)乃至(71)によって表わされる生成モデルに代えて、次の式(88)乃至(90)によって表わされる生成モデルを採用しても良い。
この場合、Poisson分布の再生性を用いるとともに、補助変数M(S),M(H)を下記の式(91)を満たすように制約すれば、上記の式(88)乃至(90)によって表わされる生成モデルは、下記の式(92)乃至(95)によって表わされる生成モデルと等価である。
この場合、対数同時分布は、下記の式(96)のように表わされる。
事後分布は、下記の式(97)乃至(100)を用いて更新される。
なお、上記式(98)におけるZf,tは、下記の式(101)に示すような正規化係数である。また、その他のパラメータは、下記の式(102)乃至(108)に示すように定義される。
この場合、「Sf,t」の平均値に混合音の短時間フーリエ変換の位相を付与することにより、混合音から歌声を抽出することができる。 In this case, a singing voice can be extracted from the mixed sound by adding the short-time Fourier transform phase of the mixed sound to the average value of “S f, t ”.
また、第2実施形態においても、第1実施形態の変形例と同様に数式を変形することにより、音場特性及び歌声を実時間推定することができる。 Also in the second embodiment, the sound field characteristics and the singing voice can be estimated in real time by modifying the mathematical formulas as in the modification of the first embodiment.
10,20・・・音響信号分析装置、161・・・スピーカ、162・・・マイク、Y・・・混合音のパワースペクトル、X・・・楽音のパワースペクトル、H・・・音場特性、S・・・歌声のパワースペクトル 10, 20 ... Acoustic signal analyzer, 161 ... Speaker, 162 ... Microphone, Y ... Power spectrum of mixed sound, X ... Power spectrum of musical sound, H ... Sound field characteristics, S ... Singing voice power spectrum
Claims (14)
前記放音された第1の音と、前記放音手段とは異なる音源から放音された第2の音とを含む混合音を収音する収音手段と、 Sound collecting means for collecting a mixed sound including the first sound emitted and a second sound emitted from a sound source different from the sound emitting means;
前記収音された混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定手段を備え、 Estimation means for performing Bayesian estimation simultaneously on the second sound and the characteristics of the sound field in which the sound emission means and the sound collection means are installed based on the collected mixed sound and the first sound; Prepared,
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and the second sound,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記推定手段は、 The estimation means includes
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合が複素正規分布及び一般化逆ガウス分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析装置。 The lower limit function that is the lower limit of the posterior distribution of the generation model representing that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a complex normal distribution and a generalized inverse Gaussian distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including a parameter relating to the characteristics of the second sound and the sound field, and the auxiliary variable and the parameter are repeatedly updated to set the lower limit function. An acoustic signal analyzer characterized by approximately estimating the posterior distribution by determining a function.
前記放音された第1の音と、前記放音手段とは異なる音源から放音された第2の音とを含む混合音を収音する収音手段と、 Sound collecting means for collecting a mixed sound including the first sound emitted and a second sound emitted from a sound source different from the sound emitting means;
前記収音された混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定手段を備え、 Estimation means for performing Bayesian estimation simultaneously on the second sound and the characteristics of the sound field in which the sound emission means and the sound collection means are installed based on the collected mixed sound and the first sound; Prepared,
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and the second sound,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記推定手段は、 The estimation means includes
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合がポアソン分布及びガンマ分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析装置。 A lower limit function that is a lower limit of a posterior distribution of a generation model indicating that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a Poisson distribution and a gamma distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including parameters relating to the characteristics of the second sound and the sound field is set, and the lower limit function is determined by repeatedly updating the auxiliary variables and the parameters. Thus, the acoustic signal analyzer characterized by approximately estimating the posterior distribution.
前記放音された第1の音と、前記放音手段とは異なる音源から放音された第2の音とを含む混合音を収音する収音手段と、 Sound collecting means for collecting a mixed sound including the first sound emitted and a second sound emitted from a sound source different from the sound emitting means;
前記収音された混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定手段を備え、 Estimation means for performing Bayesian estimation simultaneously on the second sound and the characteristics of the sound field in which the sound emission means and the sound collection means are installed based on the collected mixed sound and the first sound; Prepared,
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音と前記音場の特性とが畳み込まれた音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and a sound in which the second sound and the characteristics of the sound field are convoluted,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記推定手段は、 The estimation means includes
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合が複素正規分布及び一般化逆ガウス分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析装置。 The lower limit function that is the lower limit of the posterior distribution of the generation model representing that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a complex normal distribution and a generalized inverse Gaussian distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including a parameter relating to the characteristics of the second sound and the sound field, and the auxiliary variable and the parameter are repeatedly updated to set the lower limit function. An acoustic signal analyzer characterized by approximately estimating the posterior distribution by determining a function.
前記放音された第1の音と、前記放音手段とは異なる音源から放音された第2の音とを含む混合音を収音する収音手段と、 Sound collecting means for collecting a mixed sound including the first sound emitted and a second sound emitted from a sound source different from the sound emitting means;
前記収音された混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定手段を備え、 Estimation means for performing Bayesian estimation simultaneously on the second sound and the characteristics of the sound field in which the sound emission means and the sound collection means are installed based on the collected mixed sound and the first sound; Prepared,
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音と前記音場の特性とが畳み込まれた音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and a sound in which the second sound and the characteristics of the sound field are convoluted,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記推定手段は、 The estimation means includes
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合がポアソン分布及びガンマ分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析装置。 A lower limit function that is a lower limit of a posterior distribution of a generation model indicating that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a Poisson distribution and a gamma distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including parameters relating to the characteristics of the second sound and the sound field is set, and the lower limit function is determined by repeatedly updating the auxiliary variables and the parameters. Thus, the acoustic signal analyzer characterized by approximately estimating the posterior distribution.
前記収音手段は、前記第2の音及び前記混合音を実時間でサンプリングし、 The sound collection means samples the second sound and the mixed sound in real time,
前記推定手段は、前記下限関数の期待値を実時間で更新して最適化することにより、前記事後分布を近似的に推定することを特徴とする、音響信号分析装置。 The acoustic signal analyzer according to claim 1, wherein the estimation means approximately estimates the posterior distribution by updating and optimizing an expected value of the lower limit function in real time.
前記音場の特性に関するパラメータであって、所定の周波数成分の強度に乗算される前記係数に関するパラメータは、前記第1の音の発音開始から現在までの前記第1の音のスペクトルの前記所定の周波数成分の強度の総和及び前記混合音の発音開始から現在までの前記混合音のスペクトルの前記所定の周波数成分の強度の総和にのみ更新回数に応じた重み付け係数が乗算されるように設定された更新式に基づいて更新されることを特徴とする音響信号分析装置。 The acoustic signal analyzer according to claim 5,
The parameter relating to the characteristic of the sound field, the parameter relating to the coefficient multiplied by the intensity of a predetermined frequency component, is the predetermined spectrum of the spectrum of the first sound from the start of sound generation to the present. Only the sum of frequency component intensities and the sum of intensities of the predetermined frequency components of the spectrum of the mixed sound from the start of sound generation to the present are set to be multiplied by a weighting coefficient corresponding to the number of updates. An acoustic signal analyzer that is updated based on an update formula.
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and the second sound,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合が複素正規分布及び一般化逆ガウス分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析方法。 The lower limit function that is the lower limit of the posterior distribution of the generation model representing that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a complex normal distribution and a generalized inverse Gaussian distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including a parameter relating to the characteristics of the second sound and the sound field, and the auxiliary variable and the parameter are repeatedly updated to set the lower limit function. An acoustic signal analysis method characterized in that the posterior distribution is approximately estimated by determining a function.
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and the second sound,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合がポアソン分布及びガンマ分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析方法。 A lower limit function that is a lower limit of a posterior distribution of a generation model indicating that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a Poisson distribution and a gamma distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including parameters relating to the characteristics of the second sound and the sound field is set, and the lower limit function is determined by repeatedly updating the auxiliary variables and the parameters. Thus, the acoustic signal analysis method characterized by approximately estimating the posterior distribution.
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音と前記音場の特性とが畳み込まれた音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and a sound in which the second sound and the characteristics of the sound field are convoluted,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合が複素正規分布及び一般化逆ガウス分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析方法。 The lower limit function that is the lower limit of the posterior distribution of the generation model representing that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a complex normal distribution and a generalized inverse Gaussian distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including a parameter relating to the characteristics of the second sound and the sound field, and the auxiliary variable and the parameter are repeatedly updated to set the lower limit function. An acoustic signal analysis method characterized in that the posterior distribution is approximately estimated by determining a function.
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音と前記音場の特性とが畳み込まれた音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and a sound in which the second sound and the characteristics of the sound field are convoluted,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合がポアソン分布及びガンマ分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定することを特徴とする音響信号分析方法。 A lower limit function that is a lower limit of a posterior distribution of a generation model indicating that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a Poisson distribution and a gamma distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including parameters relating to the characteristics of the second sound and the sound field is set, and the lower limit function is determined by repeatedly updating the auxiliary variables and the parameters. Thus, the acoustic signal analysis method characterized by approximately estimating the posterior distribution.
前記収音した混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定ステップとを、コンピュータに実行させることを特徴とするコンピュータプログラムであって、 An estimation step for performing Bayesian estimation simultaneously on the second sound and the characteristics of the sound field in which the sound emitting means and the sound collecting means are installed based on the collected mixed sound and the first sound. A computer program characterized by causing a computer to execute,
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and the second sound,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記推定ステップは、 The estimation step includes
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合が複素正規分布及び一般化逆ガウス分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定するステップであることを特徴とするコンピュータプログラム。 The lower limit function that is the lower limit of the posterior distribution of the generation model representing that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a complex normal distribution and a generalized inverse Gaussian distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including a parameter relating to the characteristics of the second sound and the sound field, and the auxiliary variable and the parameter are repeatedly updated to set the lower limit function. A computer program comprising the step of approximately estimating the posterior distribution by determining a function.
前記収音した混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定ステップとを、コンピュータに実行させることを特徴とするコンピュータプログラムであって、 An estimation step for performing Bayesian estimation simultaneously on the second sound and the characteristics of the sound field in which the sound emitting means and the sound collecting means are installed based on the collected mixed sound and the first sound. A computer program characterized by causing a computer to execute,
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and the second sound,
前記推定ステップは、 The estimation step includes
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合がポアソン分布及びガンマ分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定するステップであることを特徴とするコンピュータプログラム。 A lower limit function that is a lower limit of a posterior distribution of a generation model indicating that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a Poisson distribution and a gamma distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including parameters relating to the characteristics of the second sound and the sound field is set, and the lower limit function is determined by repeatedly updating the auxiliary variables and the parameters. Thus, the computer program is a step of approximately estimating the posterior distribution.
前記収音した混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定ステップとを、コンピュータに実行させることを特徴とするコンピュータプログラムであって、An estimation step for performing Bayesian estimation simultaneously on the second sound and the characteristics of the sound field in which the sound emitting means and the sound collecting means are installed based on the collected mixed sound and the first sound. A computer program characterized by causing a computer to execute,
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音と前記音場の特性とが畳み込まれた音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and a sound in which the second sound and the characteristics of the sound field are convoluted,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記推定ステップは、 The estimation step includes
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合が複素正規分布及び一般化逆ガウス分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定するステップであることを特徴とするコンピュータプログラム。 The lower limit function that is the lower limit of the posterior distribution of the generation model representing that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a complex normal distribution and a generalized inverse Gaussian distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including a parameter relating to the characteristics of the second sound and the sound field, and the auxiliary variable and the parameter are repeatedly updated to set the lower limit function. A computer program comprising the step of approximately estimating the posterior distribution by determining a function.
前記収音した混合音及び前記第1の音に基づいて、前記第2の音と、前記放音手段及び前記収音手段が設置された音場の特性とを同時にベイズ推定する推定ステップとを、コンピュータに実行させることを特徴とするコンピュータプログラムであって、 An estimation step for performing Bayesian estimation simultaneously on the second sound and the characteristics of the sound field in which the sound emitting means and the sound collecting means are installed based on the collected mixed sound and the first sound. A computer program characterized by causing a computer to execute,
前記混合音は、前記第1の音と前記音場の特性とが畳み込まれた音、及び前記第2の音と前記音場の特性とが畳み込まれた音からなり、 The mixed sound includes a sound in which the first sound and the characteristics of the sound field are convoluted, and a sound in which the second sound and the characteristics of the sound field are convoluted,
前記音場の特性は、前記第1の音の各周波数成分の強度に乗算される係数の集合として表され、 The characteristics of the sound field are expressed as a set of coefficients that are multiplied by the intensity of each frequency component of the first sound,
前記推定ステップは、 The estimation step includes
前記混合音のスペクトル、前記第2の音のスペクトルの時系列及び前記係数の集合がポアソン分布及びガンマ分布に従ってそれぞれ生成されることを表す生成モデルの事後分布の下限である下限関数であって、複数の補助変数を用いて表され、前記第2の音及び前記音場の特性に関するパラメータを含む下限関数を設定するとともに前記補助変数及び前記パラメータを反復的に更新して前記下限関数を決定することにより、前記事後分布を近似的に推定するステップであることを特徴とするコンピュータプログラム。 A lower limit function that is a lower limit of a posterior distribution of a generation model indicating that the spectrum of the mixed sound, the time series of the spectrum of the second sound, and the set of coefficients are generated according to a Poisson distribution and a gamma distribution, respectively. A lower limit function represented by a plurality of auxiliary variables and including parameters relating to the characteristics of the second sound and the sound field is set, and the lower limit function is determined by repeatedly updating the auxiliary variables and the parameters. Thus, the computer program is a step of approximately estimating the posterior distribution.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013189156A JP6314393B2 (en) | 2013-09-12 | 2013-09-12 | Acoustic signal analyzing apparatus, acoustic signal analyzing method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013189156A JP6314393B2 (en) | 2013-09-12 | 2013-09-12 | Acoustic signal analyzing apparatus, acoustic signal analyzing method, and computer program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015055766A JP2015055766A (en) | 2015-03-23 |
JP2015055766A5 JP2015055766A5 (en) | 2017-04-06 |
JP6314393B2 true JP6314393B2 (en) | 2018-04-25 |
Family
ID=52820193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013189156A Active JP6314393B2 (en) | 2013-09-12 | 2013-09-12 | Acoustic signal analyzing apparatus, acoustic signal analyzing method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6314393B2 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011215357A (en) * | 2010-03-31 | 2011-10-27 | Sony Corp | Signal processing device, signal processing method and program |
-
2013
- 2013-09-12 JP JP2013189156A patent/JP6314393B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015055766A (en) | 2015-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (en) | Echo cancellation method and device | |
JP4660739B2 (en) | Sound analyzer and program | |
JP6027087B2 (en) | Acoustic signal processing system and method for performing spectral behavior transformations | |
JP2006243290A (en) | Disturbance component suppressing device, computer program, and speech recognition system | |
JP2019078864A (en) | Musical sound emphasis device, convolution auto encoder learning device, musical sound emphasis method, and program | |
JP5580585B2 (en) | Signal analysis apparatus, signal analysis method, and signal analysis program | |
CN111048061A (en) | Method, device and equipment for obtaining step length of echo cancellation filter | |
JP6044119B2 (en) | Acoustic analysis apparatus and program | |
CN113470685B (en) | Training method and device for voice enhancement model and voice enhancement method and device | |
JP6721165B2 (en) | Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program | |
JP6732944B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, program | |
JP5633673B2 (en) | Noise suppression device and program | |
JP6314393B2 (en) | Acoustic signal analyzing apparatus, acoustic signal analyzing method, and computer program | |
JP6142402B2 (en) | Acoustic signal analyzing apparatus, method, and program | |
JP2017083566A (en) | Noise suppression device, noise suppression method, and program | |
JP5166460B2 (en) | Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppression method, program | |
JP6827908B2 (en) | Speech enhancement device, speech enhancement learning device, speech enhancement method, program | |
JP6721010B2 (en) | Machine learning method and machine learning device | |
JP6891144B2 (en) | Generation device, generation method and generation program | |
JP5562451B1 (en) | Echo suppression gain estimation method, echo canceller and program using the same | |
JP6716933B2 (en) | Noise estimation device, program and method, and voice processing device | |
JP2015169901A (en) | Acoustic processing device | |
JP2011053565A (en) | Signal analyzer, signal analytical method, program, and recording medium | |
WO2021100094A1 (en) | Sound source signal estimation device, sound source signal estimation method, and program | |
Sabiniok et al. | Analysis of application possibilities of Grey System Theory to detection of acoustic feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160720 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170711 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170911 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180312 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6314393 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |