JP2013037174A - Noise/reverberation removal device, method thereof, and program - Google Patents
Noise/reverberation removal device, method thereof, and program Download PDFInfo
- Publication number
- JP2013037174A JP2013037174A JP2011172919A JP2011172919A JP2013037174A JP 2013037174 A JP2013037174 A JP 2013037174A JP 2011172919 A JP2011172919 A JP 2011172919A JP 2011172919 A JP2011172919 A JP 2011172919A JP 2013037174 A JP2013037174 A JP 2013037174A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- input signal
- noise
- learning data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、雑音や残響を伴った音響信号から、雑音や残響を取り除いた音響信号を抽出する雑音/残響除去装置と、その方法とプログラムに関する。 The present invention relates to a noise / dereverberation apparatus that extracts an acoustic signal from which noise and reverberation have been removed from an acoustic signal accompanied by noise and reverberation, and a method and program thereof.
雑音や残響のある環境で音響信号を収音すると、本来の信号に音響歪み(雑音や残響)が重畳された信号として観測される。その音響信号が音声の場合、重畳した音響歪みの影響により音声の明瞭度は大きく低下してしまう。その結果、本来の音声信号の性質を抽出することが困難となり、例えば、音声認識システムの認識率が低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫(方法)が必要である。 When an acoustic signal is collected in an environment with noise or reverberation, it is observed as a signal in which acoustic distortion (noise or reverberation) is superimposed on the original signal. When the acoustic signal is speech, the clarity of speech is greatly reduced due to the effect of superimposed acoustic distortion. As a result, it becomes difficult to extract the nature of the original speech signal, and for example, the recognition rate of the speech recognition system decreases. In order to prevent this reduction in the recognition rate, it is necessary to devise a method (method) for removing the superimposed acoustic distortion.
この雑音/残響除去方法は、音声認識の他にも、例えば、補聴器、TV会議システム、機械制御インターフェース、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。 In addition to voice recognition, this noise / reverberation removal method can be used for, for example, a hearing aid, a TV conference system, a machine control interface, a music information processing system for searching for music, and recording music.
図7に、従来の雑音/残響除去装置700の機能構成例を示してその動作を簡単に説明する。雑音/残響除去装置700は、マッチング部703と、音声強調フィルタリング部704と、事例モデル705、を具備する。マッチング部703は、入力信号特徴量と事例モデル705内に含まれる特徴量の事例とのマッチングを行い、入力信号に一番近い事例を探索する。
FIG. 7 shows an example of the functional configuration of a conventional noise / dereverberation apparatus 700, and its operation will be briefly described. The noise / dereverberation apparatus 700 includes a
事例モデル705は、事例に対応したクリーン音声データと、それと対を成す雑音/残響音声特徴量とから成るモデルである。この事例モデル705は、音声コーパスなどから得られる大量のクリーン音声と、あらゆる環境で得られる雑音/残響データ(雑音信号の波形や、室内インパルス応答)を用い、さまざまな環境での観測信号を模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事前に事例モデル学習装置によって生成される。
The
音声強調フィルタリング部704は入力信号に一番近い事例を探索する際に用いたクリーン音声の振幅スペクトル事例データを用いて音声強調のためのフィルタを作成し、入力信号をフィルタリングする。この方法によれば、従来は困難であった、非常に時間変化の多い雑音の除去が可能となることが報告されている。非常に時間変化の多い雑音とは、背景雑音に対して、例えば目覚まし時計のアラーム音などの雑音のことである。
The speech
しかし、従来の方法では、あらゆる環境の雑音/残響環境を模擬するための雑音/残響データが学習時に必要となり、そのデータ量が十分でなく、音声強調時の雑音/残響データに十分に近い条件が事例として用意されていない場合は、精度の良い音声強調を行うことが困難であった。また、仮にあらゆる環境の雑音/残響環境を模擬することが可能で、音声強調時に、十分に近い事例が事例モデルに含まれている場合でも、事例数の数は膨大となり、入力信号に一番近い事例を探索するための計算量が非常に大きくなってしまう課題があった。 However, in the conventional method, noise / reverberation data for simulating noise / reverberation environment of any environment is necessary at the time of learning, and the amount of data is not sufficient, and the condition is sufficiently close to the noise / reverberation data at the time of speech enhancement Is not prepared as an example, it was difficult to perform accurate speech enhancement. In addition, it is possible to simulate the noise / reverberation environment of any environment, and even when sufficiently close examples are included in the case model at the time of speech enhancement, the number of cases becomes enormous, and the number of cases is the largest for the input signal. There is a problem that the amount of calculation for searching for a nearby case becomes very large.
この発明は、このような課題に鑑みてなされたものであり、あらゆる雑音/残響データを学習時に用意しなくても、入力信号に含まれるクリーン音声に一番近いと思われるクリーン音声を、事例モデルを用いて発見し、精度の良い音声強調を行うことの出来る雑音/残響除去装置と、その方法とプログラムを提供することを目的とする。 The present invention has been made in view of such a problem, and even if all noise / reverberation data is not prepared at the time of learning, a clean voice that seems to be closest to the clean voice included in the input signal is used as an example. It is an object to provide a noise / dereverberation apparatus that can be found using a model and perform accurate speech enhancement, and a method and program thereof.
この発明の雑音/残響除去装置は、音声強調処理部と、強調処理結果信頼性計算部と、事例モデル記憶部と、マッチング部と、音声強調フィルタリング部と、を具備する。音声強調処理部は、雑音・残響の重畳した音声ディジタル信号を入力信号として、その入力信号に1次的な音声強調処理を施した特徴量領域の1次音声強調信号を出力する。強調処理結果信頼性計算部は、入力信号の特徴量と、1次音声強調信号とから、その1次音声強調信号の不確かさを示す値を出力する。事例モデル記憶部は、学習データの事例モデルと、その振幅スペクトルデータを記憶する。マッチング部は、1次音声強調信号とこの1次音声強調信号の不確かさを示す値と学習データの事例モデルとを入力として、各時間フレームに対して入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力する。音声強調フィルタリング部は、入力信号のパワースペクトルと学習データセグメントを入力として、該学習データセグメントと対を成す振幅スペクトルデータを事例モデル記憶部から読み出してウィナーフィルタを生成し、入力信号のパワースペクトルにそのウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する。 The noise / dereverberation apparatus of the present invention includes a speech enhancement processing unit, an enhancement processing result reliability calculation unit, a case model storage unit, a matching unit, and a speech enhancement filtering unit. The speech enhancement processing unit receives a speech digital signal on which noise and reverberation are superimposed as an input signal, and outputs a primary speech enhancement signal in a feature amount region obtained by performing primary speech enhancement processing on the input signal. The enhancement processing result reliability calculation unit outputs a value indicating the uncertainty of the primary speech enhancement signal from the feature amount of the input signal and the primary speech enhancement signal. The case model storage unit stores a case model of learning data and amplitude spectrum data thereof. The matching unit receives a primary speech enhancement signal, a value indicating the uncertainty of the primary speech enhancement signal, and a case model of learning data as input, and is closest to the clean speech included in the input signal for each time frame. A learning data segment giving a clean speech sequence is output. The speech enhancement filtering unit receives the power spectrum of the input signal and the learning data segment, reads out the amplitude spectrum data paired with the learning data segment from the case model storage unit, generates a Wiener filter, and generates the power spectrum of the input signal. A voice emphasis signal is output after filtering by the winner filter.
この発明の雑音/残響除去装置によれば、クリーン音声のみから生成された事例モデルを用いるので、事例探索のための計算量を少なくすることが出来る。と共に、入力信号に1次的な音声強調処理を施し、その音声強調処理の不確かさ(信頼度)を加味してマッチングを行うことで適切なクリーン音声の事例の探索を可能にする。具体的な効果については後述するが、この発明によれば、計算量を削減した上で、雑音/残響除去のSN比を従来技術よりも改善することが出来る。 According to the noise / dereverberation apparatus of the present invention, since a case model generated only from clean speech is used, the amount of calculation for case search can be reduced. At the same time, primary speech enhancement processing is performed on the input signal, and matching is performed in consideration of the uncertainty (reliability) of the speech enhancement processing, thereby making it possible to search for an example of an appropriate clean speech. Although specific effects will be described later, according to the present invention, the SN ratio for noise / reverberation removal can be improved as compared with the prior art while reducing the amount of calculation.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
図1に、この発明の雑音/残響除去装置100の機能構成例を示す。その動作フローを図2に示す。雑音/残響除去装置100は、音声強調処理部102と、強調処理結果信頼性計算部103と、事例モデル記憶部104と、マッチング部105と、音声強調フィルタリング部106と、制御部107と、を具備する。雑音/残響除去装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 1 shows a functional configuration example of a noise / dereverberation apparatus 100 of the present invention. The operation flow is shown in FIG. The noise / dereverberation removing apparatus 100 includes a speech
雑音/残響除去装置100の出力信号の領域は、時間領域、パワースペクトル領域、振幅スペクトル領域、特徴量領域などの、各種信号領域での出力が可能であり、出力信号の用途によって選択される。この実施例の説明に当たっては、入力信号をパワースペクトル領域とし、出力信号を時間領域信号として説明する。 The output signal region of the noise / dereverberation apparatus 100 can be output in various signal regions such as a time region, a power spectrum region, an amplitude spectrum region, and a feature amount region, and is selected according to the use of the output signal. In the description of this embodiment, the input signal will be described as the power spectrum region and the output signal will be described as the time domain signal.
入力信号は、パワースペクトル領域で与えられるので、この実施例では特徴量生成部101を備える。特徴量生成部101は、入力されるパワースペクトルからフレーム毎の特徴量(例えば、メル周波数ケプストラム係数)を生成する(ステップS101)。入力信号が特徴量領域で与えられれば、特徴量生成部101は不要である。よって、特徴量生成部101を破線で示している。
Since the input signal is given in the power spectrum region, the feature
特徴量領域の入力信号ytを式(1)に示すようにモデル化する。 The input signal y t of the feature region is modeled as shown in equation (1).
ytは時間フレームtの入力信号、stはクリーン音声、btは音響歪み成分(雑音や、後部残響成分)である。雑音をこのように加法性の項としてモデル化することは広く行われており、後部残響を加法性の項としてモデル化することもしばしば行われている(参考文献1:K. Kinoshita, M. Delcroix, T. Nakatani, and M. Miyoshi, “Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction,” IEEE TASLP, 17(4), pp. 534-545, 2009.)。以降の説明において、パワースペクトル領域の信号は、それぞれ、Yt 2,St 2,Bt 2と表記する。 y t is an input signal of time frame t, st is clean speech, and b t is an acoustic distortion component (noise or rear reverberation component). Modeling noise as an additive term in this manner is widely performed, and posterior reverberation is often modeled as an additive term (Reference 1: K. Kinoshita, M.). Delcroix, T. Nakatani, and M. Miyoshi, “Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction,” IEEE TASLP, 17 (4), pp. 534-545, 2009.). In the following description, the signals in the power spectrum region are denoted as Y t 2 , S t 2 , and B t 2 , respectively.
音声強調処理部102は、雑音・残響の重畳した音声ディジタル信号を入力信号として、その入力信号に1次的な音声強調処理を施した特徴量領域の1次音声強調信号〜stを出力する(ステップS102)。〜の位置は式中(式(2))の表記のように変数の真上に位置するのが正しい表記である。強調処理結果信頼性計算部103は、入力信号ytと、音声強調処理部102が出力する1次音声強調信号〜stとから、1次音声強調信号〜stの不確かさを示す値Σbtを出力する(ステップS103)。
Speech
事例モデル記憶部104は、学習データの事例モデルと、その振幅スペクトルデータを記憶する。マッチング部105は、音声強調処理部102が出力する1次音声強調信号〜stと、強調処理結果信頼性計算部103が出力する1次音声強調信号〜stの不確かさを示す値Σbtと、事例モデル記憶部104に記憶されている学習データの事例モデルMと、を入力として入力信号ytに含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力する(ステップS105)。
The case
音声強調フィルタリング部106は、入力信号のパワースペクトルYt 2と、マッチング部105が出力する学習データセグメントを入力として、その学習データセグメントと対を成す振幅スペクトルデータを事例モデル記憶部104から読み出してウィナーフィルタを生成し、入力信号のパワースペクトルYt 2に、そのウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する(ステップS106)。制御部107は、上記した各部間の時系列的な動作等を制御するものである。
The speech
以上述べたように動作することで、雑音/残響除去装置100は、クリーン音声のみから生成された事例モデルを用い、事例探索のための計算量が少なく、且つ、SN比の良好な雑音/残響除去を可能にする。 By operating as described above, the noise / dereverberation apparatus 100 uses a case model generated only from clean speech, uses a small amount of calculation for case search, and has a good SN ratio. Allows removal.
以降において、雑音/残響除去装置100の各部の機能を更に詳しく説明する。 In the following, the function of each part of the noise / dereverberation apparatus 100 will be described in more detail.
〔音声強調処理部〕
この実施例の音声強調処理部102は、入力信号が特徴量領域であるので、入力信号ytに直接、1次的な音声強調処理を施す。1次音声強調信号〜stを得るための処理としては、あらゆる従来の音声強調方法が適用可能であり、適用する方法は入力信号に含まれる音響歪みの種類により適切に選ばれるべきものである。例えば、残響成分を過去の信号から線形予測してパワースペクトル領域で除去する方法(参考文献2:再表2007/100137)などを用いることが出来る。
[Speech enhancement processor]
Speech
〔強調処理結果信頼性計算部〕
強調処理結果信頼性計算部103は、1次音声強調信号〜stと、入力信号の特徴量ytを用いて、強調音声(1次音声強調信号〜st)の不確かさを示す値Σbtを計算して出力する。不確かさを示す値Σbtは、全共分散行列を用いることも可能であるが、この実施例ではΣbtを、対角成分をゼロとする共分散行列である対角共分散行列とし、そのk番目の対角要素σkは式(2)に示すように計算する。
[Enhancement processing result reliability calculation section]
Enhancement processing result
kは、特徴量ベクトルの次数を表すインデックスである。 k is an index representing the order of the feature vector.
つまり、強調処理結果信頼性計算部103は、1次音声強調信号〜stの不確かさを示す値Σbtを、入力信号の特徴量ytと1次音声強調信号〜stとの差を成分とする共分散行列とする。
That is, enhancement processing result
〔事例モデル生成装置〕
ここで、事例モデル記憶部104に記憶される事例モデルを生成する事例モデル生成装置200について説明する。図3に、事例モデル生成装置200の機能構成例を示す。その動作フローを図4に示す。事例モデル生成装置200は、フーリエ変換部201と、特徴量生成部202と、ガウス混合モデル学習部203と、最尤ガウス分布計算部204と、制御部205と、を具備する。事例モデル生成装置200の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
[Case model generator]
Here, a case model generation apparatus 200 that generates a case model stored in the case
フーリエ変換部201は、音声ディジタル信号のクリーン音声を入力信号として、入力信号には例えば30ms程度の短時間ハミング窓で窓かけされ、それぞれ窓かけされた入力信号は離散フーリエ変換を経て振幅スペクトルに変換される(ステップS201)。振幅スペクトルとは、周波数スペクトルの振幅データのことである。
The
特徴量生成部202は、フーリエ変換部201が出力する振幅スペクトルの全てを、メルケプストラム特徴量siに変換する。一般的に広く使われているメルケプストラムは高々10〜20次程度であるが、事例データを正確に表すために、高い次数(例えば、30〜100次程度)のメルケプストラムを用いる。なお、メルケプストラム以外の特徴量を用いても良い。
The feature
ガウス混合モデル学習部203は、特徴量生成部202で得られた各短時間フレームiでの特徴量siを学習データとして、通常の最尤推定法によりガウス混合モデルg(式(3))を得る。
The Gaussian mixture
g(s|q)は、平均μq、分散Σqを持つq番目のガウス分布を表し、w(q)はそれに対する混合重みを表す。Qは混合数を表す。 g (s | q) represents the q-th Gaussian distribution with mean mu q, the dispersion sigma q, w (q) represents a mixture weight for it. Q represents the number of mixtures.
最尤ガウス分布計算部204は、各時間フレームiに対して最大の尤度を与えるガウス混合分布gの中のガウス分布のインデックスqiを求め、そのインデックスqiの時間系列を事例モデルMとして求める(ステップS204)。事例モデルMは、ガウス分布のインデックスqiの集合とガウス混合モデルgを用いて式(4)に示すように表される。
The maximum likelihood Gaussian
ここで、qiは、i番目のフレームの特徴量siに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布qの中の分布g(s|qi)を表している。モデルMを、学習データsの詳細な時間周波数特徴を捉えた事例モデルMと称する。この事例モデルMは、学習データsと対と成る学習用クリーン音声の振幅スペクトルデータAと共に、例えば事例モデル記憶部204(図1)に記憶される。 Here, q i is the index of the Gaussian distribution that gives the maximum likelihood for the i-th frame of the feature s i, the distribution g in the Gaussian mixture distribution q | represents (s q i) Yes. The model M is referred to as a case model M that captures detailed time-frequency characteristics of the learning data s. The case model M is stored in the case model storage unit 204 (FIG. 1), for example, together with the amplitude spectrum data A of clean speech for learning that is paired with the learning data s.
〔マッチング部〕
マッチング部105は、入力信号の特徴量ytと、その入力信号の特徴量ytに最も近い学習データのセグメントを、事例モデルMを用いて探索し、入力信号ytに含まれるクリーン音声stに一番近いクリーン音声系列を与えると思われる学習データセグメントMt u:u+τmaxを出力する。マッチング部105は、1次音声強調信号〜stの不確かさを示す値Σbtを加味して、クリーン音声に一番近いクリーン音声系列を探索するものであるが、Σbtを加味しない従来法との違いを明確にする目的で、先に、不確からしさを示す値Σbtを加味しないマッチング方法について説明する。
[Matching part]
入力信号は、T個の時間フレームから成るとし、その入力信号をy={yt:t=1,2,…,T}とする。また、yt:t+τを入力信号の時間フレームtからt+τまでの系列とする。そして、Mu:u+τ={g,qi:i=u,u+1,…,u+τ}を、学習データsの中のu番目からu+τ番目までの連続する時間フレームに対応するガウス分布系列とする。 It is assumed that the input signal is composed of T time frames, and the input signal is y = {y t : t = 1, 2,..., T}. Also, let yt: t + τ be a sequence from the time frame t to t + τ of the input signal. Then, M u: u + τ = {g, q i : i = u, u + 1,..., U + τ} is a Gaussian distribution sequence corresponding to continuous time frames from u-th to u + τ-th in the learning data s. .
入力信号ytと学習データsの中のあるセグメントとの距離の定義や、入力信号ytと一番近い学習データの探索方法としては、ユークリッド距離など、他のいくつかの方法を考えることが出来る。ここでは、入力信号yの時間フレームtに対する一番近い学習データセグメントは、入力信号に良く一致する学習データセグメントの中でも長さの最も長いものとする。つまり、入力信号に最も近い学習データセグメントMt u:u+τは、次式に示す事後確率を最大化することで求めることが出来る。 Definition and of the distance between a segment in the input signal y t and the training data s, as a search method of the input signal y t and the closest training data, be considered a Euclidean distance, etc., several other methods I can do it. Here, it is assumed that the learning data segment closest to the time frame t of the input signal y has the longest length among learning data segments that closely match the input signal. In other words, the closest training data segments M t u to the input signal: u + tau can be determined by maximizing a posterior probability shown in the following equation.
ここで、p(Mu:u+τ|yt:t+τ)は事後確率を表し、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。より長いセグメントを探索するという方策を取ることで、ある時間に局所的に存在する雑音などの影響を受け難くなり、雑音などに対して比較的ロバストなマッチングが行われることが期待できる。式(6)では、簡単のため、p(Mu:u+τ)は全ての学習データセグメントに対して等確率を仮定することが出来る。これは、学習データ中で観測された系列パターンは、雑音/残響除去時に全て同じ確率で起こりえるということを仮定することに対応する。 Here, p (M u: u + τ | y t: t + τ ) represents the posterior probability, and when y t: t + τ and M u: u + τ are relatively well matched, τ is The longer it is, the higher the posterior probability is. By taking a measure of searching for a longer segment, it becomes difficult to be affected by noise that exists locally at a certain time, and it can be expected that relatively robust matching is performed with respect to noise. In equation (6), for simplicity, p (M u: u + τ ) can assume equal probabilities for all learning data segments. This corresponds to the assumption that the sequence patterns observed in the training data can all occur with the same probability when noise / dereverberation is removed.
式(6)の分子の項p(yt:t+τ|Mu:u+τ)は、Mu:u+τに対応する学習データセグメントに対する音声強調信号yt:t+τの尤度である。その尤度は次式で計算される。 The numerator term p (y t: t + τ | M u: u + τ ) in equation (6) is the likelihood of the speech enhancement signal y t: t + τ for the learning data segment corresponding to M u: u + τ. Degree. The likelihood is calculated by the following equation.
簡単のため、隣り合うフレームは独立であることを仮定している。式(6)の分母は、事例モデルMに含まれる全てのパターンについてp(yt:t+τ|Mu:u+τ)の和を取った値となる。 For simplicity, it is assumed that adjacent frames are independent. The denominator of Expression (6) is a value obtained by taking the sum of p (y t: t + τ | M u: u + τ ) for all patterns included in the case model M.
ここで、入力信号ytが十分にクリーン音声に近ければ、つまり音響歪み成分btが十分にゼロに近ければ、学習時に用いたクリーン音声データとのミスマッチは小さくなり、クリーン音声stに近いパターンを学習データから探索することが出来る。しかし、一般的に入力信号ytとクリーン音声stには雑音/残響に起因する差があり、その差がマッチング処理に直接影響する。したがって、そのままではクリーン音声stに近いパターンを学習パターンから発見することは容易ではない。この雑音/残響に起因する差による影響を低減させる工夫が必要である。 Here, if the input signal y t is close enough to clean speech, i.e. the closer to zero sufficiently audio distortion component b t, mismatch between the clean speech data is reduced using at the time of learning, close to the clean speech s t Patterns can be searched from learning data. In general, however, the input signal y t and the clean speech s t there is a difference due to noise / reverberation, the difference directly affects the matching process. Therefore, it is not easy to discover from the learning patterns a pattern close to the clean speech s t as it is. It is necessary to devise a technique for reducing the influence of the difference due to the noise / reverberation.
そこで、この発明の雑音/残響除去装置100は、雑音/残響に起因する差による影響を低減させる目的で、不確からしさ(信頼度)を加味するようにした。つまり、この発明の雑音/残響除去装置100は、信頼度を加味しながら入力信号ytと学習データをマッチングさせ、最も入力信号に近い学習データのセグメントMt u:u+τmaxを探索する。 Therefore, the noise / dereverberation apparatus 100 of the present invention takes into account uncertainty (reliability) for the purpose of reducing the influence of the difference due to noise / reverberation. That is, the noise / dereverberation apparatus 100 of the present invention, while considering the reliability by matching the input signal y t and learning data, most close to the input signal training data segments M t u: searching the u + .tau.max.
そこで、1次音声強調信号〜stとクリーン音声stとの間に差があることを陽に考慮するために、1次音声強調信号〜stの信頼性/不確かさを考慮する。具体的には、入力信号ytを確率的に定式化する。 Therefore, in order to take into account that there is a difference between the primary audio enhancement signals ~ s t a clean speech s t explicitly considers the reliability / uncertainty of the primary audio enhancement signals ~ s t. Specifically, probabilistically formulate the input signal y t.
まず、雑音/残響成分btは、以下のガウス過程に従うものとする。 First, it is assumed that the noise / reverberation component b t follows the following Gaussian process.
ここで、^btは、1次音声強調信号〜stと入力信号ytの差の推定値であり、^bt=yt−〜stのように計算され、1次音声強調信号〜stの不確からしさを示す値Σbtは、btの時変の共分散行列である。この定式化を用いることで、入力信号ytの尤度は、結合確率をクリーン音声信号について周辺化することで、以下のように求めることが出来る。 Here, ^ b t is the estimated value of the difference of the primary audio enhancement signals ~ s t and the input signal y t, ^ b t = y t - calculated as ~ s t, the primary speech enhancement signal value sigma bt indicating the uncertainty likeness of ~ s t is a variable of the covariance matrix when b t. By using this formulation, the likelihood of the input signal y t is by marginalizing the clean speech signal joint probability can be determined as follows.
導出の中では、確率の乗法定理を用いた。式(9)より、時変の共分散行列Σbtは、1次音声強調信号〜stの不確からしさの尺度と考えることが出来る。例えば、信頼度の低い不確からしい特徴量については、それに対応する共分散行列Σbtが大きくなり、結果それらの特徴量が結果に与える影響が低くなる。 In the derivation, the probabilistic multiplication theorem was used. From the equation (9), when the change of the covariance matrix Σ bt can be thought of as a measure of the uncertainty likeness of the primary speech enhancement signal ~ s t. For example, for an uncertain feature amount with low reliability, the covariance matrix Σbt corresponding to the feature amount increases, and as a result, the influence of the feature amount on the result is reduced.
このようにガウス分布の分散の項を時変で補正する作業を、式(6)に挿入することで、1次的な音声強調処理の結果である1次音声強調信号〜stの信頼度/不確からしさを考慮しながら、クリーン音声信号stに近い学習データセグメントMt u:u+τmaxを探索することが可能となる。 Thus the task of varying correction when the dispersion section of the Gaussian distribution, by inserting the equation (6), primarily first-order speech enhancement signals ~ s t reliability is the result of the speech enhancement / taking into account the uncertainty likeness, learning closer to the clean speech signal s t data segment M t u: it is possible to search the u + .tau.max.
〔音声強調フィルタリング部〕
音声強調フィルタリング部106は、マッチング部105が出力する学習データセグメントMt u:u+τmaxと、それに対応するクリーン音声の振幅スペクトルの事例を用いてフィルタリングを行う。
[Speech enhancement filtering part]
Speech
はじめに、マッチング結果Mt u:u+τmaxに対応するクリーン音声の振幅スペクトルを、事例モデル記憶部104から読み出し、入力信号ytに含まれるクリーン音声成分sの振幅スペクトルの復元を試みる。ε(ε=1,2,…,T)を、クリーン音声の振幅スペクトルを復元したい対象の時間フレームインデックスとすると、クリーン音声の振幅スペクトル^Sεは以下のように推定・復元される。
First, the matching result M t u: the amplitude spectrum of the clean speech corresponding to u + .tau.max, read from case
ここでA(ut ε)は、学習データセグメントMt u:u+τmaxと対となるクリーン音声の振幅スペクトルの事例であり、ut εは、各フレームtで得られた尤もらしい学習データセグメントu={u,u+1,…,u+τmax}のεに対応するインデックスである。また、クリーン音声の振幅スペクトルデータの集合[A]は{A(i):i=1,2,…,Is}である。 Here, A (u t ε ) is an example of the amplitude spectrum of the clean speech paired with the learning data segment M t u: u + τmax, and u t ε is the likely learning data segment u obtained at each frame t. = Index corresponding to ε of {u, u + 1,..., U + τmax}. A set [A] of clean speech amplitude spectrum data is {A (i): i = 1, 2,..., I s }.
次に、この推定した振幅スペクトル^Sεを用いてウィナーフィルタHεを構築する(式(11))。 Next, to construct a Wiener filter H epsilon using amplitude spectrum ^ S epsilon that the estimated (equation (11)).
雑音/残響成分の推定値^B2 εは、式(12)に示すように求める。 The estimated value of noise / reverberation component B 2 ε is obtained as shown in equation (12).
ここでαは平滑化係数であり、max[k,k′]はkとk′の大きい方を選択して出力する関数である。ウィナーフィルタHεをHtとして、そのHtを入力信号のパワースペクトルYt 2に乗算すれば、最終的な出力信号を得ることが出来る。 Here, α is a smoothing coefficient, and max [k, k ′] is a function that selects and outputs the larger of k and k ′. The Wiener filter H epsilon as H t, is multiplied to the H t to the power spectrum Y t 2 of the input signal, it is possible to obtain a final output signal.
入力信号のパワースペクトルYt 2にウィナーフィルタHtを乗じた出力信号は、逆フーリエ変換され時間領域の信号に変換されて出力される。 An output signal obtained by multiplying the power spectrum Y t 2 of the input signal by the Wiener filter H t is subjected to inverse Fourier transform, converted into a time domain signal, and output.
〔評価実験〕
この発明の雑音/残響除去装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
[Evaluation experiment]
An evaluation experiment was conducted for the purpose of evaluating the performance of the noise / dereverberation apparatus 100 of the present invention. The experimental conditions were as follows.
ガウス混合モデルgの学習には、1088文、136話者からなるTIMIT core training-setを用いた。標本化周波数は8kHz、ガウス混合モデルの学習に用いる特徴量ベクトルとしては、40次のメルケプストラム係数と対数エネルギー項をつなげたベクトルを用いた。ガウス混合モデルの混合数Qは、学習データに含まれるさまざまな時間周波数パターンを精度よくモデル化するために、十分大きい値である4096を用いた。フーリエ変換に用いたフレーム長は20msであり、短時間窓のシフト幅は10msとした。 For training of the Gaussian mixture model g, TIMIT core training-set consisting of 1088 sentences and 136 speakers was used. A sampling frequency is 8 kHz, and a vector obtained by connecting a 40th-order mel cepstrum coefficient and a logarithmic energy term is used as a feature vector used for learning a Gaussian mixture model. As the mixture number Q of the Gaussian mixture model, 4096, which is a sufficiently large value, is used in order to accurately model various temporal frequency patterns included in the learning data. The frame length used for Fourier transform was 20 ms, and the shift width of the short time window was 10 ms.
実験では、大きさ5m×5m×5m、残響時間0.5秒の部屋を想定して、この部屋の中で、話者がマイクから2.5m離れた状況で測定されるであろう室内インパルス応答をコンピュータ上でシミュレートした。雑音/残響除去装置100への入力信号ytは、上記室内インパルス応答とTIMIT core training-setに含まれる64文の音声と、を畳み込んで生成した。1次的な音声強調信号である1次音声強調信号〜stを得るための音声強調処理には、上記した参考文献2の方法を用いた。 In the experiment, assuming a room with a size of 5m x 5m x 5m and a reverberation time of 0.5 seconds, the room impulse response that would be measured in a situation where the speaker was 2.5m away from the microphone in the room. Simulated above. Input signals y t to noise / dereverberation apparatus 100, produced by convoluting a and sound 64 sentences included in the room impulse response and TIMIT core training-set. The speech enhancement processing to obtain a 1 a-order speech enhancement signal primary audio enhancement signals ~ s t, using the method of Reference 2 described above.
図5に、実験結果をスペクトログラムで示す。横軸は時間、縦軸は周波数であり、白黒の濃淡で周波数の強さを表す。(a)は入力信号、(b)は残響音声、(c)は従来法による出力信号、(d)は不確かさを考慮しないでマッチング処理を行った出力信号、(e)はこの発明の雑音/残響除去装置100の出力信号である。 FIG. 5 shows the experimental results in a spectrogram. The horizontal axis represents time, and the vertical axis represents frequency. The intensity of the frequency is represented by black and white shading. (A) is an input signal, (b) is a reverberant voice, (c) is an output signal according to a conventional method, (d) is an output signal that has been subjected to matching processing without taking uncertainty into consideration, and (e) is the noise of the present invention. This is an output signal of the dereverberation apparatus 100.
従来法による出力信号(c)を見ると、ある程度の残響除去効果は確認できるものの、本来の音声エネルギーの存在する部分のエネルギーを過剰に抑圧してしまっており、処理の不正確さを確認することが出来る。それに対し、不確かさを考慮せずにマッチングを行った処理の出力信号(d)は、事例に基づく処理をつなげたことで、従来法(c)よりはやや歪みの少ない音声を出力している。 Looking at the output signal (c) according to the conventional method, although a certain degree of dereverberation effect can be confirmed, the energy of the portion where the original speech energy exists is excessively suppressed, and the inaccuracy of the processing is confirmed. I can do it. On the other hand, the output signal (d) of the processing that has been matched without considering the uncertainty outputs the sound with slightly less distortion than the conventional method (c) by connecting the processing based on the case. .
この発明の雑音/残響除去装置100の出力信号(e)は、上記した2つの処理音よりも更に効果的な残響除去が行われていることが、矢印↓で示す約0.54秒、0.81秒、0.96秒付近の調波構造の回復具合から見て取ることが出来る。 The output signal (e) of the noise / dereverberation apparatus 100 of the present invention is about 0.54 seconds, 0.81 seconds, indicated by an arrow ↓, indicating that dereverberation is more effective than the above two processed sounds. It can be seen from the recovery of the harmonic structure around 0.96 seconds.
次に、より客観的に本願発明の雑音/残響除去方法の効果を評価するため、セクメンタルSNRと、対数スペクトル距離を算出した。セグメンタルSNRは、高ければ高いほど正確に音響歪みが除去されていることを意味する。逆に、対数スペクトル距離は、小さい値であればあるほど、クリーン音声に近い音声であることを意味する。評価音声全てから得られた結果の平均値を図6に示す。図6の横方向は処理方法であり、左から入力信号(□)、従来法、不確かさを考慮しないでマッチング処理、この発明(■)である。縦軸方向は(a)がセグメンタルSNR(dB)、(b)が対数スペクトル距離(dB)である。 Next, in order to more objectively evaluate the effect of the noise / reverberation removal method of the present invention, a sectional SNR and a logarithmic spectral distance were calculated. The higher the segmental SNR, the more accurately the acoustic distortion is removed. Conversely, the smaller the logarithmic spectral distance, the closer the sound is to clean sound. The average value of the results obtained from all the evaluation voices is shown in FIG. The horizontal direction in FIG. 6 is a processing method, which is the input signal (□) from the left, the conventional method, matching processing without considering uncertainty, and the present invention (■). In the vertical axis direction, (a) is the segmental SNR (dB), and (b) is the logarithmic spectral distance (dB).
このように、この発明の雑音/残響除去方法によれば、クリーン音声のみから生成された事例モデルのみの利用で、セクメンタルSNRと対数スペクトル距離の両方で最も良い数値を得ることが出来る。つまり、本願発明の雑音/残響除去方法によれば、学習時の雑音/残響データが不要となるので計算量を削減した上で、雑音/残響除去のSN比を従来技術よりも改善することが可能になる。 As described above, according to the noise / reverberation removal method of the present invention, the best numerical value can be obtained for both the sectional SNR and the logarithmic spectral distance by using only the case model generated only from clean speech. That is, according to the noise / reverberation removal method of the present invention, noise / reverberation data at the time of learning is no longer required, so that the amount of calculation can be reduced and the SN ratio of noise / dereverberation removal can be improved over the prior art. It becomes possible.
上記した雑音/残響除去装置100及び事例モデル生成装置200における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the noise / dereverberation apparatus 100 and the example model generation apparatus 200 described above is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (7)
上記入力信号の特徴量と、上記1次音声強調信号とから、該1次音声強調信号の不確かさを示す値を出力する強調処理結果信頼性計算部と、
学習データの事例モデルと、その振幅スペクトルデータを記憶する事例モデル記憶部と、
上記1次音声強調信号と該1次音声強調信号の不確かさを示す値と上記学習データの事例モデルとを入力として、各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力するマッチング部と、
上記入力信号のパワースペクトルと上記学習データセグメントを入力として、該学習データセグメントと対を成す振幅スペクトルデータを上記事例モデル記憶部から読み出してウィナーフィルタを生成し、上記入力信号のパワースペクトルに上記ウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する音声強調フィルタリング部と、
を具備する雑音/残響除去装置。 A speech enhancement processing unit which outputs a primary speech enhancement signal in a feature amount region obtained by performing primary speech enhancement processing on the input signal, using a speech digital signal on which noise and reverberation are superimposed;
An enhancement processing result reliability calculation unit that outputs a value indicating the uncertainty of the primary speech enhancement signal from the feature amount of the input signal and the primary speech enhancement signal;
A case model of learning data, a case model storage unit for storing the amplitude spectrum data,
Using the primary speech enhancement signal, a value indicating the uncertainty of the primary speech enhancement signal, and the example model of the learning data as inputs, the cleanest closest to the clean speech included in the input signal for each time frame A matching unit that outputs a training data segment that gives a speech sequence;
Using the power spectrum of the input signal and the learning data segment as input, amplitude spectrum data paired with the learning data segment is read from the case model storage unit to generate a Wiener filter, and the winner spectrum is added to the power spectrum of the input signal. A voice enhancement filtering unit that filters and filters to output a voice enhancement signal;
A noise / dereverberation apparatus comprising:
上記強調処理結果信頼性計算部は、
上記1次音声強調信号の不確かさを示す値を、上記入力信号の特徴量と上記1次音声強調信号との差を成分とする共分散行列とすることを特徴とする雑音/残響除去装置。 The noise / dereverberation apparatus according to claim 1,
The emphasis processing result reliability calculation unit is
A noise / dereverberation apparatus characterized in that a value indicating the uncertainty of the primary speech enhancement signal is a covariance matrix whose component is a difference between the feature amount of the input signal and the primary speech enhancement signal.
上記マッチング部の出力する各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントは、上記入力信号の特徴量によく一致する学習データセグメントの中で最も長いものとすることを特徴とする雑音/残響除去装置。 The noise / dereverberation apparatus according to claim 1 or 2,
The learning data segment that gives the clean speech sequence closest to the clean speech included in the input signal for each time frame output by the matching unit is the learning data segment that closely matches the feature quantity of the input signal. Noise / dereverberation device characterized by being the longest.
上記入力信号の特徴量と、上記1次音声強調信号とから、該1次音声強調信号の不確かさを示す値を出力する強調処理結果信頼性計算過程と、
学習データの事例モデルと、その振幅スペクトルデータを記憶する事例モデル記憶部と、
上記1次音声強調信号と当該1次音声強調信号の不確かさを示す値と事例モデル記憶部に記憶された学習データの事例モデルとを入力として、各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力するマッチング過程と、
上記入力信号のパワースペクトルと上記学習データセグメントを入力として、該学習データセグメントと対を成して記憶される振幅スペクトルデータを上記事例モデル記憶部から読み出してウィナーフィルタを生成し、上記入力信号のパワースペクトルに上記ウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する音声強調フィルタリング過程と、
を備える雑音/残響除去方法。 A speech enhancement process for outputting a primary speech enhancement signal in a feature amount region obtained by performing a primary speech enhancement process on the input signal using a speech digital signal on which noise and reverberation are superimposed;
An enhancement processing result reliability calculation process for outputting a value indicating the uncertainty of the primary speech enhancement signal from the feature amount of the input signal and the primary speech enhancement signal;
A case model of learning data, a case model storage unit for storing the amplitude spectrum data,
The primary speech enhancement signal, a value indicating the uncertainty of the primary speech enhancement signal, and the case model of the learning data stored in the case model storage unit are input and included in the input signal for each time frame. A matching process that outputs a training data segment giving the clean speech sequence closest to the clean speech;
Using the power spectrum of the input signal and the learning data segment as inputs, the amplitude spectrum data stored in pairs with the learning data segment is read from the case model storage unit to generate a Wiener filter, and the input signal A voice enhancement filtering process of outputting a voice enhancement signal by multiplying the power spectrum by the Wiener filter and filtering;
A noise / dereverberation method comprising:
上記強調処理結果信頼性計算過程は、
上記1次音声強調信号の不確かさを示す値を、上記入力信号の特徴量と上記1次音声強調信号との差を成分とする共分散行列とすることを特徴とする雑音/残響除去方法。 The noise / dereverberation method according to claim 4,
The emphasis processing result reliability calculation process is as follows:
A noise / reverberation removal method characterized in that a value indicating the uncertainty of the primary speech enhancement signal is a covariance matrix whose component is a difference between the feature amount of the input signal and the primary speech enhancement signal.
上記マッチング過程の出力する各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントは、上記入力信号の特徴量によく一致する学習データセグメントの中で最も長いものとすることを特徴とする雑音/残響除去方法。 The noise / dereverberation method according to claim 4 or 5,
The learning data segment that gives the clean speech sequence closest to the clean speech included in the input signal for each time frame output by the matching process is the learning data segment that closely matches the feature quantity of the input signal. Noise / dereverberation method characterized by being the longest.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011172919A JP5634959B2 (en) | 2011-08-08 | 2011-08-08 | Noise / dereverberation apparatus, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011172919A JP5634959B2 (en) | 2011-08-08 | 2011-08-08 | Noise / dereverberation apparatus, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013037174A true JP2013037174A (en) | 2013-02-21 |
JP5634959B2 JP5634959B2 (en) | 2014-12-03 |
Family
ID=47886829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011172919A Active JP5634959B2 (en) | 2011-08-08 | 2011-08-08 | Noise / dereverberation apparatus, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5634959B2 (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135437A (en) * | 2014-01-17 | 2015-07-27 | 日本電信電話株式会社 | Model estimation device, noise suppression device, speech enhancement device, and method and program therefor |
JP2015152705A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Signal processing device, method, and program |
JP2015152704A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Signal processing device, method, and program |
JP2017021267A (en) * | 2015-07-14 | 2017-01-26 | 日本電信電話株式会社 | Wiener filter design device, sound enhancement device, acoustic feature amount selection device, and method and program therefor |
WO2018190547A1 (en) * | 2017-04-14 | 2018-10-18 | 한양대학교 산학협력단 | Deep neural network-based method and apparatus for combined noise and echo removal |
JP2019191554A (en) * | 2018-04-20 | 2019-10-31 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Voice recognition method, apparatus, device and computer readable storage medium |
CN110718230A (en) * | 2019-08-29 | 2020-01-21 | 云知声智能科技股份有限公司 | Method and system for eliminating reverberation |
KR20200024098A (en) * | 2018-08-27 | 2020-03-06 | 서강대학교산학협력단 | Stereo noise cancellation device and method thereof |
CN112750461A (en) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | Voice communication optimization method and device, electronic equipment and readable storage medium |
WO2021114733A1 (en) * | 2019-12-10 | 2021-06-17 | 展讯通信(上海)有限公司 | Noise suppression method for processing at different frequency bands, and system thereof |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007100137A1 (en) * | 2006-03-03 | 2007-09-07 | Nippon Telegraph And Telephone Corporation | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium |
-
2011
- 2011-08-08 JP JP2011172919A patent/JP5634959B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007100137A1 (en) * | 2006-03-03 | 2007-09-07 | Nippon Telegraph And Telephone Corporation | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium |
Non-Patent Citations (1)
Title |
---|
JPN6014009868; J. Ming and R.Srinivasan, and D.Crookes: '"A Corpus-Based Approach to Speech Enhancement From Nonstationary Noise,"' IEEE Trans. On Acoustics, Speech and Signal Processing, Vol.19 No.4, 201105, p.822-836, IEEE * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135437A (en) * | 2014-01-17 | 2015-07-27 | 日本電信電話株式会社 | Model estimation device, noise suppression device, speech enhancement device, and method and program therefor |
JP2015152705A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Signal processing device, method, and program |
JP2015152704A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Signal processing device, method, and program |
JP2017021267A (en) * | 2015-07-14 | 2017-01-26 | 日本電信電話株式会社 | Wiener filter design device, sound enhancement device, acoustic feature amount selection device, and method and program therefor |
US11017791B2 (en) | 2017-04-14 | 2021-05-25 | Industry-University Cooperation Foundation Hanyang University | Deep neural network-based method and apparatus for combining noise and echo removal |
WO2018190547A1 (en) * | 2017-04-14 | 2018-10-18 | 한양대학교 산학협력단 | Deep neural network-based method and apparatus for combined noise and echo removal |
JP2019191554A (en) * | 2018-04-20 | 2019-10-31 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Voice recognition method, apparatus, device and computer readable storage medium |
US11074924B2 (en) | 2018-04-20 | 2021-07-27 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech recognition method, device, apparatus and computer-readable storage medium |
KR20200024098A (en) * | 2018-08-27 | 2020-03-06 | 서강대학교산학협력단 | Stereo noise cancellation device and method thereof |
KR102204119B1 (en) | 2018-08-27 | 2021-01-18 | 서강대학교산학협력단 | Stereo noise cancellation device and method thereof |
CN110718230A (en) * | 2019-08-29 | 2020-01-21 | 云知声智能科技股份有限公司 | Method and system for eliminating reverberation |
CN110718230B (en) * | 2019-08-29 | 2021-12-17 | 云知声智能科技股份有限公司 | Method and system for eliminating reverberation |
WO2021114733A1 (en) * | 2019-12-10 | 2021-06-17 | 展讯通信(上海)有限公司 | Noise suppression method for processing at different frequency bands, and system thereof |
CN112750461A (en) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | Voice communication optimization method and device, electronic equipment and readable storage medium |
CN112750461B (en) * | 2020-02-26 | 2023-08-01 | 腾讯科技(深圳)有限公司 | Voice communication optimization method and device, electronic equipment and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5634959B2 (en) | 2014-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5634959B2 (en) | Noise / dereverberation apparatus, method and program thereof | |
CN111161752B (en) | Echo cancellation method and device | |
CN110459241B (en) | Method and system for extracting voice features | |
Valentini-Botinhao et al. | Speech enhancement of noisy and reverberant speech for text-to-speech | |
JP2009042716A (en) | Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing apparatus, and cyclic signal analysis method | |
JP2008158035A (en) | Device for determining voiced sound interval of multiple sound sources, method and program therefor, and its recording medium | |
JP6348427B2 (en) | Noise removal apparatus and noise removal program | |
JP6748304B2 (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
JP7124373B2 (en) | LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
JP2007065204A (en) | Reverberation removing apparatus, reverberation removing method, reverberation removing program, and recording medium thereof | |
KR102018286B1 (en) | Method and Apparatus for Removing Speech Components in Sound Source | |
JP6499095B2 (en) | Signal processing method, signal processing apparatus, and signal processing program | |
JP6721165B2 (en) | Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program | |
KR20200092501A (en) | Method for generating synthesized speech signal, neural vocoder, and training method thereof | |
CN111462770A (en) | L STM-based late reverberation suppression method and system | |
KR20200092500A (en) | Neural vocoder and training method of neural vocoder for constructing speaker-adaptive model | |
Ai et al. | Reverberation modeling for source-filter-based neural vocoder | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
CN114302301A (en) | Frequency response correction method and related product | |
JP6827908B2 (en) | Speech enhancement device, speech enhancement learning device, speech enhancement method, program | |
JP6000094B2 (en) | Speaker adaptation device, speaker adaptation method, and program | |
Llombart et al. | Speech enhancement with wide residual networks in reverberant environments | |
JP6139430B2 (en) | Signal processing apparatus, method and program | |
JP4242320B2 (en) | Voice recognition method, apparatus and program thereof, and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140402 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141015 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5634959 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |