JP6827908B2 - 音源強調装置、音源強調学習装置、音源強調方法、プログラム - Google Patents

音源強調装置、音源強調学習装置、音源強調方法、プログラム Download PDF

Info

Publication number
JP6827908B2
JP6827908B2 JP2017219757A JP2017219757A JP6827908B2 JP 6827908 B2 JP6827908 B2 JP 6827908B2 JP 2017219757 A JP2017219757 A JP 2017219757A JP 2017219757 A JP2017219757 A JP 2017219757A JP 6827908 B2 JP6827908 B2 JP 6827908B2
Authority
JP
Japan
Prior art keywords
sound
frequency conversion
frequency
output sound
observation signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017219757A
Other languages
English (en)
Other versions
JP2019090930A (ja
Inventor
悠馬 小泉
悠馬 小泉
登 原田
登 原田
小林 和則
和則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017219757A priority Critical patent/JP6827908B2/ja
Publication of JP2019090930A publication Critical patent/JP2019090930A/ja
Application granted granted Critical
Publication of JP6827908B2 publication Critical patent/JP6827908B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、マイクロホンなどを用いて雑音下で収音した音響信号から、所望の目的音だけを強調し、他の雑音を抑圧する音源強調技術に関する。
音源強調は、音声認識の前処理、高臨場音響向け集音、聴覚補助など、その応用範囲の広さから長年研究されている。音源強調の代表的な手法に、ウィナーフィルタリング(非特許文献1)などの時間周波数マスク処理を利用するものがある。時間周波数マスクを正確に推定するための手法として、複数のマイクロホンの観測信号を組み合わせる手法(非特許文献2)、非負値行列因子分解を利用する手法(非特許文献3)などがある。
近年、時間周波数マスクの推定に、深層学習(DL: Deep Learning)を利用する方法が検討されている(非特許文献4)。以降、深層学習を利用して求めた時間周波数マスクを用いて音源強調を行うことを、便宜上、DL音源強調と呼ぶ。DL音源強調では、深層ニューラルネットワーク(DNN: Deep Neural Network)や長・短期記憶再帰型ネットワーク(LSTM: Long Short-Term Memory Network)を、時間周波数マスクを推定するための回帰関数として利用する。そして、推定した時間周波数マスクを、離散フーリエ変換(DFT: Discrete Fourier Transform)領域で観測信号に乗じ、それを逆離散フーリエ変換(IDFT: Inverse DFT)したものを重畳加算(OLA: Overlap-Add)することで、出力信号を得る。
DFTで得られる周波数スペクトルは複素数値である。ゆえに、観測信号から目的音を完全に復元するためには、振幅スペクトルと位相スペクトルの両方を操作する必要がある。すなわち、複素数の時間周波数マスクを利用しなくてはならない。しかし、DL音源強調の多くでは、実数の時間周波数マスクを利用し、振幅スペクトルだけを操作する。これは、一般的なニューラルネットワークは、複素数を直接出力することができないためである。そこで、ニューラルネットワークで複素数の時間周波数マスクを推定するために、複素数の実部と虚部を分離し、それぞれを実数値とみなして推定する方法(非特許文献5)も提案されている。
Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator", IEEE Trans. Audio, Speech and Language Processing, Vol.32, Issue 6, pp.1109-1121, 1984. Y. Hioka, K. Furuya, K. Kobayashi, K. Niwa and Y. Haneda, "Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain", IEEE Trans. Audio, Speech and Language Processing, Vol.21, Issue 6, pp.1240-1250, 2013. P. Smaragdis and J. C. Brown, "Non-negative matrix factorization for polyphonic music transcription", In Proc. WASPAA, 2003. Y. Xu, J. Du, L. R. Dai and C. H. Lee, "A regression approach to speech enhancement based on deep neural networks", IEEE/ACM Trans. Audio, Speech and Language Processing, Vol.23, Issue 1, pp.7-19, 2015. D. S. Williamson, Y. Wang and D. L. Wang, "Complex ratio masking for monaural speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol.24, Issue 3, pp.483-492, 2016.
しかし、非特許文献5に記載の方法では、従来の実数の時間周波数マスクを推定する手法と比べて、ニューラルネットワークで推定すべき変数の数が倍になるため、その学習が難しくなるという問題があった。
そこで本発明では、実数で定義された周波数変換を利用した深層学習により推定した時間周波数マスクを用いた音源強調技術を提供することを目的とする。
本発明の一態様は、Tを1以上の整数とし、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を推定する音源強調装置であって、実数で定義された周波数変換を用いて、前記観測信号χt(1≦t≦T)から、観測信号周波数変換スペクトルXt C(1≦t≦T)を生成する周波数変換部と、前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、音響特徴量ψt(1≦t≦T)を抽出する音響特徴量抽出部と、前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψt(1≦t≦T)から、時間周波数マスク^Gt C(1≦t≦T)を推定する時間周波数マスク推定部と、前記時間周波数マスク^Gt C(1≦t≦T)と前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、出力音周波数変換スペクトル^St C(1≦t≦T)を生成する時間周波数マスク処理部と、実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^St C(1≦t≦T)から、歪み出力音^st C(1≦t≦T)を生成する逆周波数変換部と、前記歪み出力音^st C(1≦t≦T)から、前記出力音^σt(1≦t≦T)を生成する重畳加算部とを含む。
本発明の一態様は、Tを1以上の整数、Kを1以上の整数とし、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理部と、前記分割出力音^sk(1≦k≦K)から、前記観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を生成する分割出力音統合部とを含む音源強調装置であって、前記音源強調処理部は、前記観測信号χt(1≦t≦T)から、前記分割観測信号xk(1≦k≦K)を生成する観測信号分割部と、実数で定義された周波数変換を用いて、前記分割観測信号xk(1≦k≦K)から、観測信号周波数変換スペクトルXk C(1≦k≦K)を生成する周波数変換部と、前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、音響特徴量ψk(1≦k≦K)を抽出する音響特徴量抽出部と、前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψk(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する時間周波数マスク推定部と、前記時間周波数マスク^Gk C(1≦k≦K)と前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、出力音周波数変換スペクトル^Sk C(1≦k≦K)を生成する時間周波数マスク処理部と、実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^Sk C(1≦k≦K)から、歪み分割出力音^sk C(1≦k≦K)を生成する逆周波数変換部と、前記歪み分割出力音^sk C(1≦k≦K)から、重畳加算により、前記分割出力音^sk(1≦k≦K)を生成する重畳加算部とを含む。
本発明によれば、実数で定義された周波数変換を利用した深層学習により推定した時間周波数マスクを用いて、音源強調が可能となる。
音源強調学習装置100の構成の一例を示すブロック図。 音源強調学習装置100の動作の一例を示すフローチャート。 音源強調処理部120の構成の一例を示すブロック図。 音源強調処理部120の動作の一例を示すフローチャート。 音源強調処理部220の構成の一例を示すブロック図。 音源強調処理部220の動作の一例を示すフローチャート。 音源強調装置300の構成の一例を示すブロック図。 音源強調装置300の動作の一例を示すフローチャート。 音源強調装置400の構成の一例を示すブロック図。 音源強調装置400の動作の一例を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<技術的背景>
以下、本発明の実施の形態の技術的背景として、実数で定義された周波数変換の一つである修正離散コサイン変換(MDCT: Modified Discrete Cosine Transform)を用いた深層学習について説明する。その前に、従来技術である非特許文献5に記載の方法について説明する。
《DFT領域における時間周波数マスクによる音源強調》
時間領域において、目的音をσt、雑音をνtとおき、観測信号χtを以下のように表現する。
Figure 0006827908
ここで、t∈{1, 2, …, T}は時間のインデックスである。
そして、観測信号χt(1≦t≦T)を、ある時間長で重なりのあるK個(ただし、Kは1以上の整数)の時間フレームに分割し、それをDFTすることにより、式(1)を以下のように変形する。
Figure 0006827908
ここで、Xω,k F、Sω,k F、Nω,k Fは、それぞれ観測信号のDFTスペクトル、目的音のDFTスペクトル、雑音のDFTスペクトルである。また、ω∈{1, 2, …, Ω}とk∈{1, 2, …, K}は、それぞれ時間周波数領域における、周波数のインデックスと時間のインデックスである。
DFT領域における時間周波数マスクによる音源強調では、以下の式で出力音のDFTスペクトル^Sω,k Fを得る。
Figure 0006827908
ここで、Gω,kが時間周波数マスクである。なお、^*は、*を推定したものであることを表す。
ここで得られた出力音のDFTスペクトル^Sω,k FをIDFTし、他の信号をOLAすることにより、時間領域の出力音を得る。
《深層学習を利用した時間周波数マスクの推定》
DL音源強調では、時間フレームkの時間周波数マスクを縦に並べたベクトルGk:=(G1,k, …, GΩ,k)Tを以下のように推定する。
Figure 0006827908
ここで、M(・)はニューラルネットワークを利用した回帰関数、φkは観測信号χt(1≦t≦T)から抽出したkフレーム目の音響特徴量、Θはニューラルネットワークのパラメータである。また、Tは転置を表す。
実数の時間周波数マスクを推定する場合、パラメータΘは、例えば以下の目的関数Treal-mask(Θ)を最小化するように、誤差逆伝搬法を利用した勾配法で学習することができる。
Figure 0006827908
ここで、Sk F:=(S1,k F, …, SΩ,k F)T、Xk F:=(X1,k F, …, XΩ,k F)Tである。また、||・||pはLpノルム、○はベクトルの要素積(アダマール積)を表す。
先述したように、一般的なニューラルネットワークは複素数を直接出力することができないため、非特許文献5では、複素数の実部と虚部を分離し、それぞれを実数値とみなして推定する方法を提案している。非特許文献5では、複素理想比率マスク(cIRM: Complex Ideal Ratio Mask)と呼ばれる複素数の時間周波数マスクGω,k cIRMを以下のように定義している。
Figure 0006827908
ここで、i2=-1、ReとImは複素数の実部と虚部を表す。
そして、M(φk|Θ)を、複素理想比率マスク(cIRM)Gω,k cIRMの実部GRe,ω,k cIRMと虚部GIm,ω,k cIRMを連結したベクトルを推定するように設計する。
Figure 0006827908
ここで、^GRe,k cIRM:=(^GRe,1,k cIRM, …, ^GRe,Ω,k cIRM)T、^GIm,k cIRM:=(^GIm,1,k cIRM, …, ^GIm,Ω,k cIRM)Tである。つまり、^GRe,k cIRMは、GRe,k cIRM:=(GRe,1,k cIRM, …, GRe,Ω,k cIRM)Tを推定したベクトル、^GIm,k cIRMは、GIm,k cIRM:=(GIm,1,k cIRM, …, GIm,Ω,k cIRM)Tを推定したベクトルである。
ここまでの議論からわかるように、DFT領域のDL音源強調では、目的音を完全に復元するためには、2Ω個の変数を推定する必要がある。また、目的関数Treal-mask(Θ)を周波数領域での誤差とし、この誤差を最小化するため、重畳加算法(OLA Method: Overlap-add Method)で用いる窓関数などに起因する歪みは考慮することができない。
《本発明の着眼点とそのメリット》
従来のDFT領域のDL音源強調では、DFTスペクトルが複素数であるため、目的音を完全に復元する時間周波数マスクを推定するには、非特許文献5のcIRMのように、複素数の実部と虚部を個別に推定するニューラルネットワークを利用する必要があった。
ところで周波数分析をした結果、得られる周波数スペクトルが実数となる周波数変換を利用すれば、実数の時間周波数マスクを用いて目的音を完全に復元できる。この知見を考慮すると、実数領域の時間周波数変換を利用すれば、cIRMのような複雑な出力ユニットを持つニューラルネットワークを利用しなくとも、時間周波数マスクを推定できるのではないかと考えられる。これが、本発明の着眼点である。
ここで、実数で定義された周波数変換として、例えば、離散コサイン変換(DCT: Discrete Cosine Transform)、離散サイン変換(DST: Discrete Sine Transform)、修正離散コサイン変換(MDCT: Modified DCT)などがある。これらの周波数変換で得られる周波数スペクトルは実数であるため、実数の時間周波数マスクを乗じるだけで、振幅スペクトルと位相スペクトルの両方を制御することができるという特徴がある。さらに、これらの周波数変換は、すべて実数領域の行列によりその処理を表現できるため、DFT領域のDL音源強調では実現が困難だった、入力信号波形の入力から出力信号波形の出力までを可微分関数のみで記述してニューラルネットワークを学習する、end-to-end型のDL音源強調を実現することができる。
つまり、実数で定義された周波数変換を用いた深層学習によれば、従来のend-to-end型のDL音源強調で利用される、多層の畳み込みニューラルネットワーク(非特許文献5)などの複雑なニューラルネットワークを用いずとも、従来のDFT領域のDL音源強調の拡張として、深層学習を利用したend-to-end型の音源強調を構成することができる。end-to-end型のDL音源強調が構成できると、時間領域で定義された目的関数を最適化することができるため、OLAで用いる窓関数など、すべての信号処理の影響を考慮してニューラルネットワークを学習することが可能となる。
以下、実数で定義された周波数変換として修正離散コサイン変換(MDCT)を用いた深層学習について説明する。まず、MDCTについて説明する。
《修正離散コサイン変換(MDCT)》
ここでは、MDCTを行列形式で説明する。まず、観測信号χt(1≦t≦T)を重なりのないK個(ただし、Kは1以上の整数)のブロックへ分割する。ここでk番目のブロックの観測信号xkは以下のように表現できる。
Figure 0006827908
ここで、k∈{1, 2, …, K}は、ブロック番号である。なお、k番目のブロックの観測信号xkはL次元ベクトル(ただし、Lは1以上の整数)である。
すると、MDCTと逆MDCT(IMDCT: inverse MDCT)はそれぞれ以下のように記述できる。
Figure 0006827908
ここで、Xk C:=(X1,k C, …, XL,k C)Tであり、X1,k C, …, XL,k Cはそれぞれ観測信号のMDCTスペクトルである。また、C∈RL×2L(ただし、Rは実数の集合)は、MDCT行列であり、その(p, q)要素(1≦p≦L, 1≦q≦2L)は以下のように記述できる。
Figure 0006827908
また、W∈R2L×2Lは、分析/合成窓を表す対角行列であり、例えばその対角要素、つまり(q, q)要素(1≦q≦2L)は以下のように記述できる。
Figure 0006827908
なお、実数で定義された周波数変換としてDCTやDSTを用いる場合は、CにDCT行列やDST行列を利用すればよい。その場合、Cは2L×2Lの行列となる。
ここで、MDCT行列CはL×2Lの行列であるため、逆行列は存在しない。ゆえに、IMDCTの出力であるxk (C1)とxk (C2)には、時間歪み(time-domain aliasing)が含まれる。しかし、この歪みは、以下のOLAを行うことで除去できる。
Figure 0006827908
この特性は時間歪み除去(TDAC: time-domain aliasing cancellation)と呼ばれる。ただし、OOLA=[0, I, I, 0]はOLA行列であり、0とIはそれぞれL×Lのゼロ行列とL×Lの単位行列である。つまり、OLA行列OOLAは、L×4Lの行列である。
《MDCTを利用した学習アルゴリズム》
ここでは、パラメータΘの学習アルゴリズムについて説明する。まず、参考非特許文献1にならい、MDCT領域における時間周波数マスクによる音源強調を以下のように定義する。
Figure 0006827908
ここで、Sp,k Cは目的音のMDCTスペクトル、Gp,k CはMDCT領域の時間周波数マスク、^Sp,k Cは出力音のMDCTスペクトルである。
(参考非特許文献1:F. Keuch and B. Elder, “Aliasing reduction for modified discrete cosine transform domain filtering and its application to speech enhancement”, In Proc WASPAA, 2007.)
そして、DFT領域のDL音源強調と同様に、ニューラルネットワークによりMDCT領域の時間周波数マスクGp,k Cを推定する。
Figure 0006827908
ここで、^Gk C:=(^G1,k C, …, ^GL,k C)Tであり、ψkはk番目のブロックの音響特徴量である。
すると、式(16)は以下のようにベクトル表記できる。
Figure 0006827908
ここで、^Sk C:=(^S1,k C, …, ^SL,k C)Tである。
MDCT/逆MDCTおよび時間周波数マスク処理である式(10)〜(18)を見ると、すべてが実数領域で定義された行列演算で記述できることがわかる。この特性を利用すると、k-1番目のブロックの観測信号xk-1、k番目のブロックの観測信号xk、k+1番目のブロックの観測信号xk+1を入力とし、k番目のブロックの出力音^skを計算するまでの手順を、以下の一つの式により(つまり、end-to-end型で)記述することができる。
Figure 0006827908
さらに、出力音^skは、M(ψk|Θ)の出力を利用した線形演算で記述されているため、出力音^skはパラメータΘで微分可能である。すなわち、出力音の推定精度(つまり、出力音と目的音の誤差)を定義する目的関数を時間領域で定義することで、パラメータΘを誤差逆伝搬法などの勾配法で学習することができる。目的関数T(Θ)には、例えば以下の絶対誤差を利用することができる。
Figure 0006827908
ここで、skはk番目のブロックの目的音である。
なお、目的関数T(Θ)は、時間領域で定義される関数であればどのようなものでもよく、例えば、二乗誤差や重み付き二乗誤差を利用することができる。
従来技術の目的関数Treal-mask(Θ)は周波数領域での出力音と目的音の誤差に基づいて計算している(式(5)参照)のに対して、本発明の目的関数T(Θ)は時間領域での出力音と目的音の誤差に基づいて計算している(式(20)及び式(19)参照)。そのため、最適化に際して、目的関数Treal-mask(Θ)は重畳加算で用いる窓関数による歪みなど一部の信号処理の影響を考慮することができないのに対して、目的関数T(Θ)はすべての信号処理の影響を考慮することができるという違いが生じる。
<第一実施形態>
ここでは、<技術的背景>で説明した学習アルゴリズムに基づいて構成した音源強調学習装置100について説明する。
以下、図1〜図2を参照して音源強調学習装置100を説明する。図1は、音源強調学習装置100の構成を示すブロック図である。図2は、音源強調学習装置100の動作を示すフローチャートである。図1に示すように音源強調学習装置100は、信号重畳部110と、音源強調処理部120と、目的関数計算部130と、パラメータ更新部140と、収束条件判定部150と、記録部190を含む。記録部190は、音源強調学習装置100の処理に必要な情報を適宜記録する構成部である。例えば、学習対象となるニューラルネットワークのパラメータΘを記録する。
音源強調学習装置100は、目的音学習データ記録部910、雑音学習データ記録部920に接続している。目的音学習データ記録部910、雑音学習データ記録部920には、事前に収音した目的音と雑音が学習データとして記録されている。目的音学習データ、雑音学習データは、時間領域信号である。例えば、音声を目的音とする場合、目的音学習データは、無響室などで収録した発話データである。この発話データは8秒間程度の発話であり、5000発話程度以上集めることが望ましい。また、雑音学習データは、使用を想定する環境で収録した雑音である。
音源強調学習装置100の各構成部で用いる各種パラメータ(例えば、ネットワークパラメータΘの初期値)については、目的音学習データや雑音学習データと同様、外部から入力するようにしてもよいし、事前に各構成部に設定されていてもよい。
図2に従い音源強調学習装置100の動作について説明する。信号重畳部110は、目的音学習データσt(1≦t≦T、Tは1以上の整数)と雑音学習データνt(1≦t≦T)から、観測信号χt(1≦t≦T)を生成する(S110)。具体的には、まず、目的音学習データ(先ほどの例でいうと、8秒間程度の発話データ)をランダムに1つ選択し、目的音学習データと同じ長さの雑音学習データをランダムに1つ選択する。さらに、式(1)に基づいて目的音学習データと雑音学習データを重畳することにより、観測信号を生成する。目的音学習データと雑音学習データの比率は使用を想定する環境に合わせて設定するのが好ましいが、例えば、信号対雑音比で-12〜12dB程度となるように重畳するとよい。
音源強調処理部120は、パラメータΘを用いて、S110で生成した観測信号χt(1≦t≦T)から、分割出力音^sk(1≦k≦K、Kは1以上の整数)を推定する(S120)。なお、分割出力音^sk(1≦k≦K)は、後述する分割観測信号xk(1≦k≦K)に含まれる目的音を強調した信号である。以下、図3〜図4を参照して音源強調処理部120について説明する。図3は、音源強調処理部120の構成を示すブロック図である。図4は、音源強調処理部120の動作を示すフローチャートである。図3に示すように音源強調処理部120は、観測信号分割部121と、周波数変換部122と、音響特徴量抽出部123と、時間周波数マスク推定部124と、時間周波数マスク処理部125と、逆周波数変換部126と、重畳加算部127を含む。
図4に従い音源強調処理部120の動作について説明する。観測信号分割部121は、S110で生成した観測信号χt(1≦t≦T)から、分割観測信号xk(1≦k≦K)を生成する(S121)。具体的には、観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割して、k番目のブロックの観測信号である分割観測信号xk(1≦k≦K)を得る。分割観測信号xkは、例えば、式(9)のようなL次元ベクトルとなる。例えば、L=256とすればよい。
周波数変換部122は、実数で定義された周波数変換を用いて、S121で生成した分割観測信号xk(1≦k≦K)から、観測信号周波数変換スペクトルXk C(1≦k≦K)を生成する(S122)。実数で定義された周波数変換としてMDCTを用いる場合、観測信号周波数変換スペクトルXk Cは式(10)で定義される。また、MDCT行列C及び対角行列Wは、例えば、式(12)、式(13)を用いて定義される。
音響特徴量抽出部123は、S122で生成した観測信号周波数変換スペクトルXk C(1≦k≦K)から、音響特徴量ψk(1≦k≦K)を抽出する(S123)。MDCTを用いる場合、音響特徴量ψkは、例えば、次式で計算する。
Figure 0006827908
ここで、Mel[・]とAbs[・]は、それぞれ64次元のメル対数スペクトル分析と絶対値演算を表す。また、r=5程度とするとよい。
時間周波数マスク推定部124は、パラメータΘを用いたニューラルネットワークにより、S123で抽出した音響特徴量ψk(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する(S124)。MDCTを用いる場合、時間周波数マスク^Gk Cは式(17)で計算される。式(17)の回帰関数M(ψk|Θ)は、例えば、隠れ層2層、512セルのLSTMにより定義するとよい。また、最初に回帰関数M(ψk|Θ)の値(最初に生成される時間周波数マスク^Gk C)を計算するときは、事前に与えてあるパラメータΘの初期値を用いる。その後は、後述するS140で更新されたパラメータΘを用いて回帰関数M(ψk|Θ)の値を計算する。
時間周波数マスク処理部125は、S124で推定した時間周波数マスク^Gk C(1≦k≦K)とS122で生成した観測信号周波数変換スペクトルXk C(1≦k≦K)から、出力音周波数変換スペクトル^Sk C(1≦k≦K)を生成する(S125)。MDCTを用いる場合、出力音周波数変換スペクトル^Sk Cは式(18)で計算される。
逆周波数変換部126は、実数で定義された逆周波数変換を用いて、S125で生成した出力音周波数変換スペクトル^Sk C(1≦k≦K)から、歪み分割出力音^sk C(1≦k≦K)を生成する(S126)。MDCTを用いる場合、実数で定義された逆周波数変換として、逆MDCTを用いることになり、歪み分割出力音^sk Cは次式で定義される(式(11)参照)。
Figure 0006827908
重畳加算部127は、S126で生成した歪み分割出力音^sk C(1≦k≦K)から、重畳加算により、分割出力音^sk(1≦k≦K)を生成する(S127)。MDCTを用いる場合、分割出力音^skは次式で定義される(式(14)参照)。
Figure 0006827908
上記説明では、実数で定義された周波数変換/逆周波数変換としてMDCT/逆MDCTを例に用いてS122〜S127までの処理を説明したが、これらの処理をまとめると式(19)になる。
目的関数計算部130は、S120で生成した分割出力音^sk(1≦k≦K)とS110の入力である目的音学習データσt(1≦t≦T)から、出力音の推定誤差を示す目的関数T(Θ)の値を計算する(S130)。具体的には、まず、目的音学習データσt(1≦t≦T)を重なりのないK個(ただし、Kは1以上の整数)のブロックへ分割して、k番目のブロックの目的音である分割目的音sk(1≦k≦K)を得る。次に、分割出力音^sk(1≦k≦K)と分割目的音sk(1≦k≦K)を用いて、出力音の推定誤差を示す目的関数T(Θ)の値を計算する。目的関数T(Θ)は、時間領域で定義された関数であればどのようなものでもよい。例えば、式(20)のように絶対誤差を用いて目的関数T(Θ)を定義してもよい。また、重み付き二乗誤差を用いて定義してもよい。
パラメータ更新部140は、S130の目的関数T(Θ)の値を最適化するようにパラメータΘを更新する(S140)。パラメータΘの更新には、勾配法を用いるとよい。なお、勾配法には、確率的勾配法、誤差逆伝播法など任意のものを用いることができる。また、勾配法のステップサイズは、10-4程度に設定すればよい。
収束条件判定部150は、パラメータ更新の終了条件として事前に設定された収束条件を判定し、収束条件が満たされた場合はS140で生成したパラメータΘを出力し、収束条件が満たされない場合はS110〜S140の処理を繰り返す(S150)。収束条件として、例えばS110〜S140の処理の実行回数が所定の回数に達したかという条件を採用することができる。この場合、所定の回数を10万回程度に設定することができる。
本実施形態の発明によれば、実数で定義された周波数変換を利用した深層学習によりパラメータの学習を簡易化することができる。また、時間領域で定義された目的関数を用いることにより、すべての信号処理の影響を考慮して、パラメータの学習を行うことができる。
(変形例)
以上の説明では、実数で定義された周波数変換としてMDCTを用いて説明したが、前述の通り、DCTやDSTなどの別の周波数変換を利用してもよい。MDCTのようなlapped transformを利用しない場合、行列Cは2L×2Lの行列となるため、回帰関数の出力となる時間周波数マスクの個数は増加してしまうものの、式(19)のようなend-to-end型の学習アルゴリズムとして構成することはできる。
(変形例2)
以上の説明では、音響特徴量を入力する回帰関数を用いた音源強調処理について説明したが、音響特徴量の代わりに、周波数変換スペクトルを用いてもよい。
以下、図5〜図6を参照して音源強調処理部220について説明する。図5は、音源強調処理部220の構成を示すブロック図である。図6は、音源強調処理部220の動作を示すフローチャートである。図5に示すように音源強調処理部220は、観測信号分割部121と、周波数変換部122と、時間周波数マスク推定部224と、時間周波数マスク処理部125と、逆周波数変換部126と、重畳加算部127を含む。つまり、音源強調処理部220は、音響特徴量抽出部123と時間周波数マスク推定部124の代わりに時間周波数マスク推定部224を含む点において音源強調処理部120と異なる。
時間周波数マスク推定部224の動作についてのみ説明する。時間周波数マスク推定部224は、パラメータΘを用いたニューラルネットワークにより、S122で生成した観測信号周波数変換スペクトルXk C(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する(S224)。回帰関数M(Xk C|Θ)は、観測信号周波数変換スペクトルXk Cを入力とし、時間周波数マスク^Gk Cを出力とする関数となる。
以上説明した音源強調処理部220を音源強調処理部120の代わりに用いて音源強調学習装置を構成することができる。
<第二実施形態>
ここでは、第一実施形態の音源強調学習装置100が生成したパラメータを用いて音源強調を行う音源強調装置300について説明する。
以下、図7〜図8を参照して音源強調装置300を説明する。図7は、音源強調装置300の構成を示すブロック図である。図8は、音源強調装置300の動作を示すフローチャートである。図7に示すように音源強調装置300は、音源強調処理部120と、分割出力音統合部310と、記録部390を含む。記録部390は、音源強調装置300の処理に必要な情報を適宜記録する構成部である。例えば、音源強調学習装置100が生成したパラメータΘを記録しておく。
なお、音源強調処理部120の代わりに音源強調処理部220を用いて音源強調装置を構成してもよい。
音源強調装置300には、観測信号χt(1≦t≦T)が入力される。この観測信号χt(1≦t≦T)は、例えば、マイクロホンを用いて事前に収音した信号である。
図8に従い音源強調装置300の動作について説明する。音源強調処理部120は、パラメータΘを用いて、音源強調装置300の入力である観測信号χt(1≦t≦T)から、分割出力音^sk(1≦k≦K)を推定する(S120)。分割出力音^sk(1≦k≦K)は、分割観測信号xk(1≦k≦K)に含まれる目的音を強調した信号である。S120の処理の詳細は、第一実施形態で説明した通りである(図3、4参照)。
分割出力音統合部310は、S120で推定した分割出力音^sk(1≦k≦K)から、観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を生成する(S310)。統合処理は、S120で行った分割処理と反対の処理を行う。つまり、分割出力音^sk(1≦k≦K)を順に結合することにより、出力音^σt(1≦t≦T)を生成する。
本実施形態の発明によれば、実数で定義された周波数変換を利用した深層学習により推定した時間周波数マスクを用いて、音源強調が可能となる。
<第三実施形態>
入力された観測信号χt(1≦t≦T)をブロックに分割して処理するのでなく、そのまま処理することもできる。以下、そのような構成である音源強調装置400について説明する。
以下、図9〜図10を参照して音源強調装置400を説明する。図9は、音源強調装置400の構成を示すブロック図である。図10は、音源強調装置400の動作を示すフローチャートである。図9に示すように音源強調装置400は、周波数変換部122と、音響特徴量抽出部123と、時間周波数マスク推定部124と、時間周波数マスク処理部125と、逆周波数変換部126と、重畳加算部127と、記録部490を含む。記録部490は、音源強調装置400の処理に必要な情報を適宜記録する構成部である。例えば、時間周波数マスクの推定に用いるニューラルネットワークのパラメータΘを記録しておく。このパラメータΘは、実数で定義された周波数変換を利用した深層学習により学習されたものである。
音源強調装置400には、観測信号χt(1≦t≦T)が入力される。この観測信号χt(1≦t≦T)は、例えば、マイクロホンを用いて事前に収音した信号である。そして、音源強調装置400は、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を推定し、出力する。
図10に従い音源強調装置400の動作について説明する。周波数変換部122は、実数で定義された周波数変換を用いて、観測信号χt(1≦t≦T)から、観測信号周波数変換スペクトルXt C(1≦t≦T)を生成する(S122)。実数で定義された周波数変換としてMDCTを用いることができる。
音響特徴量抽出部123は、S122で生成した観測信号周波数変換スペクトルXt C(1≦t≦T)から、音響特徴量ψt(1≦t≦T)を抽出する(S123)。
時間周波数マスク推定部124は、パラメータΘを用いたニューラルネットワークにより、S123で抽出した音響特徴量ψt(1≦t≦T)から、時間周波数マスク^Gt C(1≦t≦T)を推定する(S124)。
時間周波数マスク処理部125は、S124で推定した時間周波数マスク^Gt C(1≦t≦T)とS122で生成した観測信号周波数変換スペクトルXt C(1≦t≦T)から、出力音周波数変換スペクトル^St C(1≦t≦T)を生成する(S125)。
逆周波数変換部126は、実数で定義された逆周波数変換を用いて、S125で生成した出力音周波数変換スペクトル^St C(1≦t≦T)から、歪み出力音^st C(1≦t≦T)を生成する(S126)。MDCTを用いる場合、実数で定義された逆周波数変換として、逆MDCTを用いることになる。
重畳加算部127は、S126で生成した歪み出力音^st C(1≦t≦T)から、出力音^σt(1≦t≦T)を生成する(S127)。
本実施形態の発明によれば、実数で定義された周波数変換を利用した深層学習により推定した時間周波数マスクを用いて、音源強調が可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. Tを1以上の整数とし、
    ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を推定する音源強調装置であって、
    実数で定義された周波数変換を用いて、前記観測信号χt(1≦t≦T)から、観測信号周波数変換スペクトルXt C(1≦t≦T)を生成する周波数変換部と、
    前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、音響特徴量ψt(1≦t≦T)を抽出する音響特徴量抽出部と、
    前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψt(1≦t≦T)から、時間周波数マスク^Gt C(1≦t≦T)を推定する時間周波数マスク推定部と、
    前記時間周波数マスク^Gt C(1≦t≦T)と前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、出力音周波数変換スペクトル^St C(1≦t≦T)を生成する時間周波数マスク処理部と、
    実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^St C(1≦t≦T)から、歪み出力音^st C(1≦t≦T)を生成する逆周波数変換部と、
    前記歪み出力音^st C(1≦t≦T)から、前記出力音^σt(1≦t≦T)を生成する重畳加算部と
    を含む音源強調装置。
  2. 請求項1に記載の音源強調装置であって、
    前記実数で定義された周波数変換は、修正離散コサイン変換であり、
    前記実数で定義された逆周波数変換は、逆修正離散コサイン変換である
    ことを特徴とする音源強調装置。
  3. Tを1以上の整数、Kを1以上の整数とし、
    ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理部と、
    前記分割出力音^sk(1≦k≦K)から、前記観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を生成する分割出力音統合部と
    を含む音源強調装置であって、
    前記音源強調処理部は、
    前記観測信号χt(1≦t≦T)から、前記分割観測信号xk(1≦k≦K)を生成する観測信号分割部と、
    実数で定義された周波数変換を用いて、前記分割観測信号xk(1≦k≦K)から、観測信号周波数変換スペクトルXk C(1≦k≦K)を生成する周波数変換部と、
    前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、音響特徴量ψk(1≦k≦K)を抽出する音響特徴量抽出部と、
    前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψk(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する時間周波数マスク推定部と、
    前記時間周波数マスク^Gk C(1≦k≦K)と前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、出力音周波数変換スペクトル^Sk C(1≦k≦K)を生成する時間周波数マスク処理部と、
    実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^Sk C(1≦k≦K)から、歪み分割出力音^sk C(1≦k≦K)を生成する逆周波数変換部と、
    前記歪み分割出力音^sk C(1≦k≦K)から、重畳加算により、前記分割出力音^sk(1≦k≦K)を生成する重畳加算部と
    を含む音源強調装置。
  4. 請求項3に記載の音源強調装置であって、
    前記実数で定義された周波数変換は、修正離散コサイン変換であり、
    前記実数で定義された逆周波数変換は、逆修正離散コサイン変換であり、
    Rを実数の集合、Lを1以上の整数とし、
    前記修正離散コサイン変換と前記逆修正離散コサイン変換は、行列C∈RL×2Lと対角行列W∈R2L×2Lを用いて、それぞれ
    Figure 0006827908

    と表される(ただし、前記行列Cの(p, q)要素(1≦p≦L, 1≦q≦2L)と前記対角行列Wの(q, q)要素(1≦q≦2L)は、それぞれ
    Figure 0006827908

    であり、Tは転置を表す)
    ことを特徴とする音源強調装置。
  5. Tを1以上の整数、Kを1以上の整数とし、
    目的音学習データσt(1≦t≦T)と雑音学習データνt(1≦t≦T)から観測信号χt(1≦t≦T)を生成する信号重畳部と
    前記観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)を生成し、
    実数で定義された周波数変換を用いて、前記分割観測信号x k (1≦k≦K)から、観測信号周波数変換スペクトルX k C (1≦k≦K)を生成し、
    前記観測信号周波数変換スペクトルX k C (1≦k≦K)から、パラメータΘを用いたニューラルネットワークにより、時間周波数マスク^G k C (1≦k≦K)を推定し、
    前記時間周波数マスク^G k C (1≦k≦K)と前記観測信号周波数変換スペクトルX k C (1≦k≦K)から、出力音周波数変換スペクトル^S k C (1≦k≦K)を生成し、
    実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^S k C (1≦k≦K)から、歪み分割出力音^s k C (1≦k≦K)を生成し、
    前記歪み分割出力音^s k C (1≦k≦K)から、前記分割観測信号x k (1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理部と、
    前記分割出力音^sk(1≦k≦K)と前記目的音学習データσt(1≦t≦T)から、出力音の推定誤差を示す目的関数T(Θ)の値を計算する目的関数計算部と、
    前記目的関数T(Θ)の値を最適化するように前記パラメータΘを更新するパラメータ更新部と、
    所定の収束条件が満たされた場合に前記パラメータΘを出力する収束判定部と
    を含む音源強調学習装置であって、
    前記目的関数T(Θ)は、
    Figure 0006827908

    と表される(ただし、sk(1≦k≦K)は前記目的音学習データσt(1≦t≦T)を重なりのないK個のブロックへ分割して得られる、k番目の分割目的音である
    源強調学習装置。
  6. Tを1以上の整数とし、
    音源強調装置が、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を推定する音源強調方法であって、
    前記音源強調装置が、実数で定義された周波数変換を用いて、前記観測信号χt(1≦t≦T)から、観測信号周波数変換スペクトルXt C(1≦t≦T)を生成する周波数変換ステップと、
    前記音源強調装置が、前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、音響特徴量ψt(1≦t≦T)を抽出する音響特徴量抽出ステップと、
    前記音源強調装置が、前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψt(1≦t≦T)から、時間周波数マスク^Gt C(1≦t≦T)を推定する時間周波数マスク推定ステップと、
    前記音源強調装置が、前記時間周波数マスク^Gt C(1≦t≦T)と前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、出力音周波数変換スペクトル^St C(1≦t≦T)を生成する時間周波数マスク処理ステップと、
    前記音源強調装置が、実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^St C(1≦t≦T)から、歪み出力音^st C(1≦t≦T)を生成する逆周波数変換部と、
    前記音源強調装置が、前記歪み出力音^st C(1≦t≦T)から、前記出力音^σt(1≦t≦T)を生成する重畳加算ステップと
    を含む音源強調方法。
  7. Tを1以上の整数、Kを1以上の整数とし、
    音源強調装置が、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理ステップと、
    前記音源強調装置が、前記分割出力音^sk(1≦k≦K)から、前記観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音σt(1≦t≦T)を生成する分割出力音統合ステップと
    を含む音源強調方法であって、
    前記音源強調処理ステップは、
    前記観測信号χt(1≦t≦T)から、前記分割観測信号xk(1≦k≦K)を生成する観測信号分割ステップと、
    実数で定義された周波数変換を用いて、前記分割観測信号xk(1≦k≦K)から、観測信号周波数変換スペクトルXk C(1≦k≦K)を生成する周波数変換ステップと、
    前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、音響特徴量ψk(1≦k≦K)を抽出する音響特徴量抽出ステップと、
    前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψk(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する時間周波数マスク推定ステップと、
    前記時間周波数マスク^Gk C(1≦k≦K)と前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、出力音周波数変換スペクトル^Sk C(1≦k≦K)を生成する時間周波数マスク処理ステップと、
    実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^Sk C(1≦k≦K)から、歪み分割出力音^sk C(1≦k≦K)を生成する逆周波数変換ステップと、
    前記歪み分割出力音^sk C(1≦k≦K)から、重畳加算により、前記分割出力音^sk(1≦k≦K)を生成する重畳加算ステップと
    を含む音源強調方法。
  8. 請求項1ないし4のいずれか1項に記載の音源強調装置としてコンピュータを機能させるためのプログラム。
  9. 請求項5に記載の音源強調学習装置としてコンピュータを機能させるためのプログラム。
JP2017219757A 2017-11-15 2017-11-15 音源強調装置、音源強調学習装置、音源強調方法、プログラム Active JP6827908B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017219757A JP6827908B2 (ja) 2017-11-15 2017-11-15 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017219757A JP6827908B2 (ja) 2017-11-15 2017-11-15 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Publications (2)

Publication Number Publication Date
JP2019090930A JP2019090930A (ja) 2019-06-13
JP6827908B2 true JP6827908B2 (ja) 2021-02-10

Family

ID=66836303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017219757A Active JP6827908B2 (ja) 2017-11-15 2017-11-15 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Country Status (1)

Country Link
JP (1) JP6827908B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7264282B2 (ja) * 2020-01-16 2023-04-25 日本電信電話株式会社 音声強調装置、学習装置、それらの方法、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
US9881631B2 (en) * 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
WO2017141317A1 (ja) * 2016-02-15 2017-08-24 三菱電機株式会社 音響信号強調装置

Also Published As

Publication number Publication date
JP2019090930A (ja) 2019-06-13

Similar Documents

Publication Publication Date Title
Xu et al. An experimental study on speech enhancement based on deep neural networks
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
US20070055519A1 (en) Robust bandwith extension of narrowband signals
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Saleem et al. Spectral phase estimation based on deep neural networks for single channel speech enhancement
JP4960933B2 (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
Hepsiba et al. Role of deep neural network in speech enhancement: A review
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
Selva Nidhyananthan et al. Noise robust speaker identification using RASTA–MFCC feature with quadrilateral filter bank structure
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JPWO2007094463A1 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
Hammam et al. Blind signal separation with noise reduction for efficient speaker identification
Tkachenko et al. Speech enhancement for speaker recognition using deep recurrent neural networks
Hussain et al. Bone-conducted speech enhancement using hierarchical extreme learning machine
JP5769670B2 (ja) エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム
JP6912780B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
JP6849978B2 (ja) 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム
JP5562451B1 (ja) エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム
Ganapathy et al. Auditory motivated front-end for noisy speech using spectro-temporal modulation filtering
WO2021100094A1 (ja) 音源信号推定装置、音源信号推定方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210120

R150 Certificate of patent or registration of utility model

Ref document number: 6827908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150