JP7167686B2 - 音響信号処理装置、その方法、およびプログラム - Google Patents

音響信号処理装置、その方法、およびプログラム Download PDF

Info

Publication number
JP7167686B2
JP7167686B2 JP2018234185A JP2018234185A JP7167686B2 JP 7167686 B2 JP7167686 B2 JP 7167686B2 JP 2018234185 A JP2018234185 A JP 2018234185A JP 2018234185 A JP2018234185 A JP 2018234185A JP 7167686 B2 JP7167686 B2 JP 7167686B2
Authority
JP
Japan
Prior art keywords
processing
signal processing
acoustic signal
transformation
transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018234185A
Other languages
English (en)
Other versions
JP2020095202A (ja
Inventor
悠馬 小泉
登 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018234185A priority Critical patent/JP7167686B2/ja
Priority to PCT/JP2019/046934 priority patent/WO2020121860A1/ja
Priority to US17/413,504 priority patent/US11798571B2/en
Publication of JP2020095202A publication Critical patent/JP2020095202A/ja
Application granted granted Critical
Publication of JP7167686B2 publication Critical patent/JP7167686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)

Description

本発明は、音声/音響信号に対して、信号変換(例えば、短時間フーリエ変換(STFT: short - time Fourier transform))を利用した信号解析を行った上で、変換後の信号に対して所望の信号処理(例えば、音声強調処理)を行う技術に関する。
STFTを利用した信号解析と、周波数領域の音響信号に対して音源強調処理を行う技術が従来技術として知られている。
音響信号処理を行うためには、まず、マイクロホンを用いて、音を観測する必要がある。その観測音には、処理を行いたい目的音の他に雑音が含まれている。音源強調とは、雑音が含まれた観測信号から、目的音を抽出する信号処理のことを指す。
音源強調を定義する。マイクロホンの観測信号をxkと置き、次式に示すようにxkは目的音信号skと雑音信号nkの混合信号であるとする。
xk=sk+nk (1)
ここで、kは時間領域における時間のインデックスである。観測信号から目的音を抽出するために、時間領域の観測信号をK点毎にL点まとめて解析することを考える。以降、観測信号をその様にまとめたt∈{0,…,T}番目の信号
xt=(xtK+1,…,xtK+L)T (2)
をtフレーム目の観測信号と表現する。ただしTは転置を表す。すると、tフレーム目の観測信号は、式(1)より、以下の様に記述できる。
xt=st+nt (3)
ここで
st=(stK+1,…,stK+L)T
nt=(ntK+1,…,ntK+L)T
である。STFTを用いた信号の時間周波数解析では、各時間フレームの観測信号に対してSTFTをかける。STFT後の信号は以下の性質を満たす。
Figure 0007167686000001
ここでX(STFT) t=(X(STFT) t,1,…,X(STFT) t,L)T、S(STFT) t=(S(STFT) t,1,…,S(STFT) t,L)T、N(STFT) t=(N(STFT) t,1,…,N(STFT) t,L)Tはそれぞれ、tフレーム目の観測信号、目的音信号、雑音信号をSTFTした結果得られる解析結果である。
時間周波数マスク処理は、音源強調における代表的な手法の一つである。この処理では、STFT後の観測信号に対して、時間周波数マスクGt=(Gt,1,…,Gt,L)を乗ずることで、STFT後の目的音信号の推定値を以下の様に得る。
Figure 0007167686000002
Figure 0007167686000003
最後に、次式のように^S(STFT) tに逆STFT(ISTFT:inverse-STFT)を実行することで、時間領域の目的音信号の推定値を得る。
^st=ISTFT[^S(STFT) t] (6)
今、観測信号からGtを推定する、パラメータθGを持つ関数をHと置く。そして、Gtを以下の様に定義する。
Gt=H(xtG) (7)
なお、近年盛んに研究されている深層学習を用いた音源強調では、Hを深層ニューラルネットワーク(DNN:deep neural network)で設計する手法が主流である。以降では、HはDNNを利用して実装されていると仮定する。すると式(5)と式(6)より、^S(STFT) tと^stは以下の様に記述できる。
Figure 0007167686000004
Figure 0007167686000005
この場合、θMGである。式(9)より、STFT領域の時間周波数マスク処理に基づく音源強調の未知パラメータはθMである。音源強調の目的は、観測信号から目的音を抽出することなので、抽出誤差を定義したθMに関する目的関数J(θM)を最小化する様にθMを求めれば良い。
Figure 0007167686000006
ここで目的関数には、目的音の複素スペクトルと時間周波数マスク処理音の複素スペクトルの二乗誤差である位相鋭敏誤差(非特許文献1参照)や
JPSFM)=E[||St-M(XtM)||2 2]t (11)
ISTFT後の信号の平均絶対誤差
JE2EM)=E[||st-^st||1]t (12)
などを利用すれば良い。ここで||・||pはLpノルム、E[・]tはtに関する期待値を表す。
H. Erdogan, J. R. Hershey, S. Watanabe, and J. L. Roux, "Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks", in Proc. ICASSP, 2015.
STFTは実数から複素数への写像関数である。すなわち、
Figure 0007167686000007
である。ゆえに、STFT後の信号を扱うためには、複素数を操作しなくてはならない。音源強調においては、観測信号から目的音信号を完全再構成するためには、時間周波数マスクGtもまた複素数である必要がある。ところが、複素数の扱いの難しさから、スペクトルサブトラクション法などの古典的なアルゴリズムや、深層学習を利用した時間周波数マスク推定では、Gtは実数として推定されることがほとんどである。すなわち、振幅スペクトルのみを操作し、位相スペクトルは操作しない。
信号を完全再構成するための近年の研究の発展の方向性は、
1.処理Mを高度化することで位相スペクトルも推定する。
2.STFT領域ではない実数の領域で音源強調を行う。
の2つがある。
前者の代表的な研究は、Griffin-Limアルゴリズム(参考文献1参照)に代表される、時間周波数マスク後の振幅スペクトルから位相スペクトルを後処理的に推定するものである。
(参考文献1)D. W. Griffin and J. S. Lim, "Signal estimation from modified short-time Fourier transform", IEEE Trans. Acoust. Speech Signal Process., 32, p.236-243 (1984).
その他にも、深層学習を利用して複素数の時間周波数マスクを直接推定する方法がある(参考文献2参照)。
(参考文献2)D. S. Williamson, Y. Wang and D. L. Wang, "Complex ratio masking for monaural speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp.483-492, 2016.
後者の研究は、ここまで周波数変換をSTFTをすることを前提としてきたが、周波数変換がSTFTでなければならない理由はないという思想から始まる。むしろ、既存の機械学習のアルゴリズムを適用しづらい複素変換のSTFTは、深層学習を利用した信号処理に適した周波数変換ではないかもしれない。そこで近年では、STFTの代わりに修正離散コサイン変換(MDCT:modied DCT)などの実数領域で定義された周波数変換を利用する研究も行われている(参考文献3参照)。
(参考文献3)Y. Koizumi, N. harada, Y. Haneda, Y. Hioka, and K. Kobayashi, "End-to-end sound source enhancement using deep neural network in the modified discrete cosine transform domain", in Proc. ICASSP, 2018.
本発明は、所望の信号処理(例えば、音源強調処理)に適した信号変換を行った上で、変換後の信号に対して所望の信号処理を行う音響信号処理装置、その方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音響信号処理装置は、入力された音響信号xに所望の目的の信号処理Mを施す。音響信号処理装置は、音響信号xに変換処理Pを施し第一の変換係数Xを得る変換部と、第一の変換係数Xに所望の目的に対応する信号処理Mを施し第二の変換係数^Sを得る信号処理部と、第二の変換係数^Sに逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^sを得る逆変換部を有し、変換処理Pと、逆変換処理P-1と、信号処理Mは同時に最適化されたものである。
本発明によれば、所望の信号処理に適した信号変換を行った上で、変換後の信号に対して所望の信号処理を行うため、所望の信号処理の精度を向上させることができるという効果を奏する。
第一実施形態に係る学習装置の機能ブロック図。 第一実施形態に係る学習装置の処理フローの例を示す図。 第一実施形態に係る音響信号処理装置の機能ブロック図。 第一実施形態に係る音響信号処理装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<本実施形態のポイント>
従来、深層学習の有無に限らず、音声/音響信号処理では、波形をそのまま扱うことは稀であり、多くの場合、観測信号を短い時間区間毎にフーリエ変換(STFT)し、その信号に対して強調や識別をかける。ところが、STFTは実数から複素数への変換であり、複素数を利用した深層学習はその学習が複雑になることから、STFTスペクトルの振幅情報のみを利用したり、制御したりすることが多い。これは、位相スペクトルの情報を無視していることになる。そのため、観測信号から得られる情報を余すことなく利用しているとは言えない。本実施形態は、もはや周波数変換がSTFTでなければならない理由はないのではないか?という思想から出発する。そして、これまで、修正離散コサイン変換(MDCT)をSTFTの代わりに利用してきた。本実施形態は、もはや"変換"はSTFTやMDCTのように固定関数である必要すらなく、むしろ音声/音響信号処理との相性を考えるのであればその"変換"も最適化可能な関数として設計し、音声/音響信号処理向けのニューラルネットワークを学習する目的関数で同時最適化すべきだ、という考えに基づく。同時最適化を実現するには、"変換"を、逆変換可能なニューラルネットワークで設計し、音声/音響信号処理向けのニューラルネットワークと同時に誤差逆伝搬を実行すれば良い。
<本実施形態の概要>
本実施形態では、STFTを逆変換を持つ写像関数全般P(以下変換関数Pともいう)に拡張して考える。すると、式(9)は以下の様に記述できる。
^st=P-1[M(P[xt]|θM)] (13)
なお、Pは恒等写像を利用することも可能であり、それは時間領域で音源強調を行う方式である。その場合、Mは時間周波数マスク処理ではなく、Wave Netなどの、直接波形を出力するDNNが使われる(参考文献4参照)。
(参考文献4)K. Qian, Y. Zhang, S. Chang, X. Yang, D.Florencio, and M. H. Johnson, "Speech enhancement using Bayesian wavenet", in Proc. INTERSPEECH, 2017.
本実施形態は、上述の「2.STFT領域ではない実数の領域で音源強調を行う。」STFT以外の変換を利用した音響信号処理の拡張にあたる。これまでは、PはSTFTやMDCTのように固定された変換で考えられてきた。しかしより柔軟な発想をすれば、Pが固定の変換である必要すらなく、むしろ信号処理Mとの相性を考えるのであればPもパラメータθPで最適化可能な関数として設計し、θMと同一の目的関数で同時最適化すべきだろう。つまり、
Figure 0007167686000008
であり、式(13)は以下の様に拡張される。
^st=P-1[M(P[xtP]|θM)|θP] (14)
Figure 0007167686000009
である。ここでθ={θMP}である。目的関数J(θ)は例えば式(11),(12)の位相鋭敏誤差、平均絶対誤差である。
本実施形態では、逆変換を持つ(周波数変換とは限らない)変換関数Pを定義し、そのパラメータを音源強調関数などの音響信号処理を行う関数Mのパラメータと同一の目的関数で同時に最適化する。ここで特にPやMの形態に制限はないが、Pをニューラルネットワークを利用して設計する学習例を述べる。
(学習例)
Pをニューラルネットワークを利用して設計する例を述べる。説明の簡単のために、ニューラルネットワークとして1層の全結合ニューラルネットワーク(FCN:fully-connected network)を利用する。まず、正方行列W∈RL×L、バイアスベクトルb∈RLおよび非線形変換
Figure 0007167686000010
を定義する。すると、Pとその逆関数は以下のように記述できる。
P(x|θP)=σ(Wx+b)=X (16)
P-1(X|θP)=W-1-1(X)-b]=x (17)
上記の変換が成り立つための条件は、Wが正則であること(i.e.逆行列を持つこと)と、σ(x)が逆変換を持つことである。まず、Wの正則性を保証したWの学習法を説明する。一般のFCNの最適化では、Wの正則性は保証されない。本実施形態ではこれを保証するために、Wを行列が正則な場合にのみ成り立つ行列分解をし、行列分解後の行列を最適化することで、正則性を保証したWの学習をおこなう。そのような行列分解には、例えばLU分解、QR分解、コレスキー分解などが考えられる。本実施形態によればWはどの分解を施しても良いが、ここでは以下の行列分解を考える。
W=Q(AAT+εE) (18)
ここでQ∈RL×Lは任意の正則行列、A∈RL×Lは任意の正方行列、EはL×Lの単位行列、ε>0は正則化パラメータである。式(18)は、Aがどのような値をとったとしても、Wは必ず正則な行列となる。ゆえに、勾配法などを用いてAを学習していくことでWを学習する。なお、他の値は変更せず固定する。本実施形態では、例えば、QをDCT行列(離散コサイン変換する行列)とし、Aの初期値もDCT行列とする。すると初期値においてはAATが単位行列となるため、Wの初期値はDCT行列を1+ε倍したものとなる。そして学習が進むにつれ(AAT+εE)が変化していき、結果的にWはDCT行列を変形した正則行列となる。
次にσ(x)であるが、これは既存の活性化関数のうち、逆変換を持つものを利用すれば良い。そのようなσ(x)には、sigmoid関数やtanh関数が考えられるが、演算の中に指数関数や対数関数を持つものはその逆変換や微分が数値的に不安定となりやすい。ゆえに、σ(x)は区分線形な関数で設計すると良い。そのようなσ(x)には、例えば以下のleaky-ReLUなどがある。
σ(x)=max(x,αx) (19)
σ-1(x)=min(x,α-1x) (20)
ここで0<α<1である。このように設計したPは明らかにθPで微分可能であり、Pを含んだ合成関数であるJ(θ)もまた、θPおよびθMで微分可能である。ゆえに、変換と音響信号処理のパラメータθPおよびθMは式(15)を満たすように誤差逆伝搬法で同時学習できる。
さて、上記の例では、簡単のために1層のFCNを利用したが、明らかに、これは複数層のFCNへと拡張できる。以下にQ層のFCNを利用した場合の変換を示す。
P(x|θP)=σQ(WQ…σ2(W21(W1x+b1))+b2)…bQ) (21)
P-1(X|θP)=W-1 1-1 1(…W-1 Q-1-1 Q-1(W-1 Q-1 Q(X)-bQ])-bQ-1]…)-b1] (22)
またFCNではなく、逆変換が可能な畳み込みニューラルネットワーク(CNN:convolution neural network)を利用して設計することも可能である。それには、例えばRevNet(参考文献5参照)のような構造を用いればよい。
(参考文献5)A. N. Gomez, M. Ren, R. Urtasun, and R. b. Grosse, "The reversible residual network: Backpropagation without storing activations", in Proc. NIPS, 2017.
つまりは、Pは逆変換可能なニューラルネットワークで設計すればなんでもよく、そうすれば変換と音響信号処理のパラメータθPおよびθMは式(15)を満たすように誤差逆伝搬法で同時学習できる。
<第一実施形態の詳細>
第一実施形態に係る音響信号処理システムは、学習装置と音響信号処理装置とを含む。
学習装置および音響信号処理装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および音響信号処理装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および音響信号処理装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および音響信号処理装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および音響信号処理装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および音響信号処理装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および音響信号処理装置の外部に備える構成としてもよい。
まず、学習装置について説明する。
<学習装置>
図1は第一実施形態に係る学習装置の機能ブロック図を、図2はその処理フローを示す。
学習装置は、サンプリング部110、変換部120、信号処理部130、逆変換部140、パラメータ更新部150を含む。
学習装置は、学習用の目的音信号、学習用の雑音信号、各種最適化に必要なパラメータを入力とし、パラメータθP、θMを学習して、出力する。なお、各種最適化に必要なパラメータは、パラメータθP、θMの初期値θP (0)、θM (0)を含む。ここで信号処理Mは全結合ニューラルネットワークや長期短期記憶(LSTM:Long Short Term Memory)ネットワークなどで定義すればよい。変換処理Pは(学習例)で説明した逆変換可能なネットワークなどで定義すればよい。またパラメータθP、θMの初期値θP (0)、θM (0)としては何らかの乱数等を用いればよい。初期値θP (0)を変換部120、逆変換部140に設定しておき、初期値θM (0)を信号処理部130に設定しておく。また、更新するパラメータθP、θMの初期値θP (0)、θM (0)として、パラメータ更新部150に設定しておく。
以下、学習装置の各部について説明する。
<サンプリング部110>
サンプリング部110は、学習用の目的音信号と雑音信号とを入力とし、目的音信号と雑音信号をランダムに選択し(S110)、目的音信号と雑音信号を重畳することで観測信号をシミュレートし、シミュレーション結果の観測信号x(Learn)(t)を出力する。例えば、
x(Learn)(t)=s(Learn)(t)+n(Learn)(t)
である。ただし、n(Learn)(t)は学習用の雑音信号である。また、サンプリング部110は、観測信号x(Learn)(t)に対応する目的音信号s(Learn)(t)をパラメータ更新部150に出力する。
<変換部120>
変換部120は、観測信号x(Learn)(t)とパラメータθP (n-1)とを入力とし、観測信号x(Learn)(t)にパラメータθP (n-1)に基づく変換処理Pを施し第一の変換係数X(Learn)(t)を得(S120)、出力する。例えば、Q層のFCNを利用した場合、次式により、観測信号x(Learn)(t)を第一の変換係数X(Learn)(t)に変換する。
X(Learn)(t)=P(x(Learn)(t)|θP (n-1))=σQ(WQ…σ2(W21(W1x(Learn)(t)+b1))+b2)…bQ)
例えば、Q=1の場合、
X(Learn)(t)=P(x(Learn)(t)|θP (n-1))=σ1(W1x(Learn)(t)+b1)
である。ただし、nはパラメータθP (n)の更新回数を示し、1回前の更新処理で得たパラメータθP (n-1)を用いて第一の変換係数X(Learn)(t)を得る。なお、初回の更新処理では初期値θP (0)に基づく変換処理Pを施す。
<信号処理部130>
信号処理部130は、第一の変換係数X(Learn)(t)とパラメータθM (n-1)とを入力とし、第一の変換係数X(Learn)(t)にパラメータθM (n-1)に基づく所望の目的に対応する信号処理Mを施し第二の変換係数^S(Learn)(t)を得(S130)、出力する。本実施形態では信号処理として音源強調処理を行う。
^S(Learn)(t)=M(X(Learn)(t)|θM (n-1))
ただし、初回の更新処理では初期値θM (0)に基づく信号処理Mを施す。
<逆変換部140>
逆変換部140は、第二の変換係数^S(Learn)(t)とパラメータθP (n-1)とを入力とし、第二の変換係数^S(Learn)(t)にパラメータθP (n-1)に基づく逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^s(Learn)(t)を得(S140)、出力する。例えば、Q層のFCNを利用した場合、次式により、第二の変換係数^S(Learn)(t)を音響信号^s(Learn)(t)に変換する。
^s(Learn)(t)=P-1(^S(Learn)(t)|θP)
=W-1 1-1 1(…W-1 Q-1-1 Q-1(W-1 Q-1 Q(^S(Learn)(t))-bQ])-bQ-1]…)-b1]
例えば、Q=1の場合、
^s(Learn)(t)=P-1(^S(Learn)(t)|θP)=W-1 1-1 1(^S(Learn)(t))-b1
である。ただし、初回の更新処理では初期値θP (0)に基づく変換処理Pを施す。
<パラメータ更新部150>
パラメータ更新部150は、音響信号^s(Learn)(t)と目的音信号s(Learn)(t)とを入力とし、これらの値に基づき、目的関数Jに対応する評価が良くなるようにθP (n-1)とθM (n-1)とを更新しパラメータθP (n)とθM (n)とを得る(S150)。例えば、目的関数J(θ)の値が小さければ小さいほど、評価が良いことを意味する場合には、次式により、パラメータθ(n-1)を更新する。
Figure 0007167686000011
所望の目的に対応する信号処理Mが音源強調処理の場合には、J(θ)は、例えば、
J(θ)=E[||s(Learn)(t)-^s(Learn)(t)||1]t
である。
式(15)を最小化するように学習する方法には、例えば、確率的最急降下法等を利用すればよく、その学習率は10-5程度に設定すればよい。なお、更新前のパラメータθP (n-1),θM (n-1)は1回前の更新時に更新したパラメータを図示しない記憶部に記憶したものを用いればよい。ただし、更新処理の初回には更新前のパラメータとして初期値θP (0)、θM (0)を用いればよい。
さらに、パラメータ更新部150は、パラメータが収束しているか否かを判定し、収束していない場合(S151のno)には、更新したパラメータθ(n)=(θP (n)M (n))を出力し、S110~S150を繰り返す。パラメータ更新部150は、θP (n)を変換部120と逆変換部140に、θM (n)を信号処理部130に、処理の繰り返しを指示する制御信号をサンプリング部110に出力する。
一方、収束している場合(S151のyes)にはそのときのパラメータθ(n)を最適化したパラメータθ=(θPM)として出力し、学習を終了する。収束判定ルールとしては、どのようなルールを用いてもよく、例えば、S110~S150の繰り返し回数が一定回数Nを超えたか?(n>N?)等を利用できる。
次に、パラメータθを用いて音響信号処理を行う音響信号処理装置について説明する。
<音響信号処理装置>
図3は第一実施形態に係る音響信号処理装置の機能ブロック図を、図4はその処理フローを示す。
音響信号処理装置は、変換部220、信号処理部230、逆変換部240を含む。
音響信号処理装置は、所望の信号処理に先立ち、学習装置で学習されたパラメータθ=(θPM)を入力として受け取り、パラメータθPを変換部220、逆変換部240に設定しておき、パラメータθMを信号処理部230に設定しておく。
音響信号処理装置は、信号処理の対象となる観測信号x(t)を入力とし、所望の信号処理を行い、処理結果(音源強調処理後の音響信号^s(t))を出力する。
以下、音響信号処理装置の各部について説明する。
<変換部220>
変換部220は、観測信号x(t)を入力とし、観測信号x(t)にパラメータθPに基づく変換処理Pを施し第一の変換係数X(t)を得(S220)、出力する。変換処理Pの内容は変換部120と同様である。
<信号処理部230>
信号処理部230は、第一の変換係数X(t)を入力とし、第一の変換係数X(t)にパラメータθMに基づく所望の目的に対応する信号処理Mを施し第二の変換係数^S(t)を得(S230)、出力する。信号処理Mの内容は信号処理部130と同様である。
<逆変換部240>
逆変換部240は、第二の変換係数^S(t)を入力とし、第二の変換係数^S(t)にパラメータθPに基づく逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^s(t)を得(S240)、出力する。逆変換処理P-1の内容は逆変換部140と同様である。
<効果>
以上の構成により、所望の信号処理に適した信号変換を行った上で、変換後の信号に対して所望の信号処理を行うため、所望の信号処理の精度を向上させることができる。
<変形例>
本実施形態では所望の目的の信号処理が音源強調処理である例を示したが、本発明は他の音響信号処理にも適用できる。音響信号処理は、音を信号解析(例えばSTFTやMDCT)した上で行う処理であって、何らかの評価を行う処理であれば適用可能である。例えば、音声区間推定処理、音源方向推定処理、音源位置推定処理、雑音抑圧処理、雑音消去処理、音声認識処理、音声合成処理等に適用できる。学習装置では、同一の目的関数を用いて、評価が良くなるように信号解析のパラメータと音響信号処理のパラメータとを同時に更新すればよい。本実施形態のように正解(実際の目的音信号s)と推定値(音響信号(推定した目的音信号)^s)との差分や一致度から評価するものに限らず、音響信号処理の処理結果に対して何らかの評価を与えるものであってもよい。例えば、所望の目的の信号処理として、音声合成処理を行い、処理結果の合成音声が自然に聴こえるかを評価し、この評価を用いてパラメータを更新してもよい。ここで、評価は、人手により与えるもの(例えば、合成音声が自然に聴こえるかを5段階で評価する)であってもよいし、何らかの指標に基づき評価システムにより自動的に与えるものであってもよい。
本実施形態では、変換処理Pをニューラルネットワークを利用して設計する例を示したが、他の構造であってもよい。例えば、線形変換等を利用して設計してもよい。要は、逆変換処理P-1を持つことができればよい。
本実施形態では、信号処理Mを全結合ニューラルネットワークや長期短期記憶(LSTM:Long Short Term Memory)ネットワークなどで定義した例を示したが、特に限定はなく、同一の目的関数を用いて変換処理Pとともに同時に更新(最適化)することができるものであればよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 入力された音響信号xに所望の目的の信号処理Mを施す音響信号処理装置であって、
    前記音響信号xに変換処理Pを施し第一の変換係数Xを得る変換部と、
    前記第一の変換係数Xに所望の目的に対応する信号処理Mを施し第二の変換係数^Sを得る信号処理部と、
    前記第二の変換係数^Sに逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^sを得る逆変換部を有し、
    前記変換処理Pと、前記逆変換処理P-1と、前記信号処理Mは同時に最適化されたものであり、
    前記変換処理Pが逆変換処理P -1 を有するという制約のもと最適化されている、
    音響信号処理装置。
  2. 請求項の音響信号処理装置であって、
    前記変換処理Pと、前記逆変換処理P-1と、前記信号処理Mとは、同一の目的関数Jで最適化されている、
    音響信号処理装置。
  3. 請求項の音響信号処理装置であって、
    前記変換処理PのパラメータをθPとし、前記第一の変換係数XはP[x|θP]であり、
    前記信号処理MのパラメータをθMとし、前記第二の変換係数^SはM(P[x|θP]|θM)であり、
    学習用の音響信号x(Learn)に所望の目的の信号処理Mを施した音響信号^s(Learn)はP-1[M(P[x|θP]|θM)|θP]であり、
    前記θPと前記θMとは、前記音響信号^s(Learn)に基づき、前記目的関数Jに対応する評価が良くなるように最適化されている、
    音響信号処理装置。
  4. 請求項の音響信号処理装置であって、
    前記変換処理Pと前記逆変換処理P-1は行列で定義されており、
    前記変換処理Pと前記逆変換処理P-1は、前記行列を所定の規則で分解した分解行列を最適化したものである、
    音響信号処理装置。
  5. 入力された音響信号xに所望の目的の信号処理Mを施す音響信号処理方法であって、
    前記音響信号xに変換処理Pを施し第一の変換係数Xを得る変換ステップと、
    前記第一の変換係数Xに所望の目的に対応する信号処理Mを施し第二の変換係数^Sを得る信号処理ステップと、
    前記第二の変換係数^Sに逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^sを得る逆変換ステップを有し、
    前記変換処理Pと、前記逆変換処理P-1と、前記信号処理Mは同時に最適化されたものであり、
    前記変換処理Pが逆変換処理P -1 を有するという制約のもと最適化されている、
    音響信号処理方法。
  6. 請求項1から請求項の音響信号処理装置としてコンピュータを機能させるためのプログラム。
JP2018234185A 2018-12-14 2018-12-14 音響信号処理装置、その方法、およびプログラム Active JP7167686B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018234185A JP7167686B2 (ja) 2018-12-14 2018-12-14 音響信号処理装置、その方法、およびプログラム
PCT/JP2019/046934 WO2020121860A1 (ja) 2018-12-14 2019-12-02 音響信号処理装置、その方法、およびプログラム
US17/413,504 US11798571B2 (en) 2018-12-14 2019-12-02 Acoustic signal processing apparatus, method and program for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018234185A JP7167686B2 (ja) 2018-12-14 2018-12-14 音響信号処理装置、その方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020095202A JP2020095202A (ja) 2020-06-18
JP7167686B2 true JP7167686B2 (ja) 2022-11-09

Family

ID=71075343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018234185A Active JP7167686B2 (ja) 2018-12-14 2018-12-14 音響信号処理装置、その方法、およびプログラム

Country Status (3)

Country Link
US (1) US11798571B2 (ja)
JP (1) JP7167686B2 (ja)
WO (1) WO2020121860A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550731B (zh) * 2022-03-31 2024-09-17 北京百度网讯科技有限公司 一种音频识别方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096391A (ja) * 1995-06-22 1997-01-10 Ono Sokki Co Ltd 信号推定装置
US6898583B1 (en) * 2000-01-24 2005-05-24 Sony Corporation Method and apparatus of creating application-specific, non-uniform wavelet transforms
FR2817100B1 (fr) * 2000-11-17 2003-08-22 Cit Alcatel Procede pour optimiser les performances d'un emetteur pour systeme de radiocommunications mobiles

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOIZUMI, Yuma, et al.,TRAINABLE ADAPTIVE WINDOW SWITCHING FOR SPEECH ENHANCEMENT,arXiv preprint,arXiv:1811.02438v1,[online],2018年11月05日,インターネット:<URL: https://arxiv.org/pdf/1811.02438v1.pdf>,[検索日 2020.02.06]
VENKATARAMANI, Shrikant, et al.,END-TO-END SOURCE SEPARATION WITH ADAPTIVE FRONT-ENDS,arXiv preprint,[online],2017年10月31日,インターネット:<URL: https://arxiv.org/pdf/1705.02514.pdf>,[検索日 2020.02.06]

Also Published As

Publication number Publication date
US11798571B2 (en) 2023-10-24
WO2020121860A1 (ja) 2020-06-18
JP2020095202A (ja) 2020-06-18
US20220059115A1 (en) 2022-02-24

Similar Documents

Publication Publication Date Title
Uncini Fundamentals of adaptive signal processing
US20140114650A1 (en) Method for Transforming Non-Stationary Signals Using a Dynamic Model
CN114067826B (zh) 语音降噪方法、装置、设备及存储介质
WO2020084787A1 (en) A source separation device, a method for a source separation device, and a non-transitory computer readable medium
JP2024129003A (ja) フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル
JP4617497B2 (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP7167686B2 (ja) 音響信号処理装置、その方法、およびプログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
Bayram et al. Primal-dual algorithms for audio decomposition using mixed norms
JP7120573B2 (ja) 推定装置、その方法、およびプログラム
Long et al. Domain adaptation of lattice-free MMI based TDNN models for speech recognition
CN115859048A (zh) 一种局放信号的噪声处理方法及装置
JP6912780B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
Chakrabartty et al. Robust speech feature extraction by growth transformation in reproducing kernel Hilbert space
JP7188589B2 (ja) 復元装置、復元方法、およびプログラム
US20210219048A1 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP2018142278A (ja) 符号化装置、符号化方法およびプログラム
JP7156064B2 (ja) 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム
Li et al. Robust Non‐negative matrix factorization with β‐divergence for speech separation
JP7541312B2 (ja) 学習方法、学習装置、およびプログラム
WO2021144934A1 (ja) 音声強調装置、学習装置、それらの方法、およびプログラム
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
Hua Do WaveNets Dream of Acoustic Waves?
Khademian et al. Modeling state-conditional observation distribution using weighted stereo samples for factorial speech processing models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221010

R150 Certificate of patent or registration of utility model

Ref document number: 7167686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150