JP6912780B2

JP6912780B2 - 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Info

Publication number: JP6912780B2
Application number: JP2018157085A
Authority: JP
Inventors: 悠馬小泉; 登原田; 羽田　陽一; 陽一羽田
Original assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS; Nippon Telegraph and Telephone Corp
Current assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS; Nippon Telegraph and Telephone Corp
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-08-04
Anticipated expiration: 2038-08-24
Also published as: JP2020030373A

Description

本発明は、マイクロホンなどを用いて雑音下で収音した音響信号から、所望の目的音だけを強調し、他の雑音を抑圧する音源強調技術に関する。

深層学習(DL: deep learning)を利用した音源強調（以下、DL音源強調という）として、離散フーリエ変換(DFT: discrete Fourier transform)領域の実数の時間周波数マスクを深層ニューラルネットワーク(DNN: deep neural network)で推定する方法がある。このDFT領域のDL音源強調の問題点は、(1)実数の時間周波数マスクでは、位相スペクトルを制御できないため、観測信号から目的音を完全再構成することが理論的に不可能である点と、(2)時間周波数スペクトル分析の時間周波数分解能のトレードオフが解決できない点である。

(2)の問題について、詳しく説明する。周波数分析長（例えば、DFTの点数）が長いほど周波数分解能が上がるため、母音のような調波構造を持つ音については解析をしやすい。一方、周波数分析長が短いほど時間分解能が上がるため、子音のような時間変化が速い音については解析をしやすい。これらはトレードオフの関係にある。したがって、母音と子音の解析精度を両方とも上げるには、例えば、各時刻ごとに母音か子音かを判定して、適切な周波数分析長を選択するとよい。しかし、DFT領域のDL音源強調では、動的に周波数分析長を変化させることができないため、このトレードオフを解決することができない。

また、別のDL音源強調として、非特許文献１に記載があるような、修正離散コサイン変換(MDCT: modified discrete cosine transform)領域の実数の時間周波数マスクを深層ニューラルネットワークで推定する方法がある。このMDCT領域のDL音源強調は、(1)の問題については解決することができる。

Y. Koizumi, N. Harada, Y. Haneda, Y. Hioka, K. Kobayashi, "End-to-End Sound Source Enhancement Using Deep Neural Network in the Modified Discrete Cosine Transform Domain", in Proc. ICASSP 2018, pp.706-710, 2018.

しかし、非特許文献１に記載のMDCT領域のDL音源強調でも、(2)の問題については解決することができない。

そこで本発明では、深層学習に基づく、分析長が異なる実数周波数変換を利用した音源強調技術を提供することを目的とする。

本発明の一態様は、Tを2以上の整数、L_longを1以上の整数、x_t（1≦t≦T）を時間領域の観測信号を重なりのないT個の、長さL_long/2のブロックへ分割して得られるt番目のブロックの観測信号、φ_t（1≦t≦T）を前記観測信号x_tから抽出して得られるt番目のブロックの音響特徴量とし、前記音響特徴量φ_t（1≦t≦T）から、t番目のブロックがアタックであるか否かの判定結果を示すベクトルであるアタック判定ベクトルa_t（1≦t≦T）を生成するアタック判定ベクトル生成部と、前記アタック判定ベクトルa_t（1≦t≦T）から、窓関数ベクトルz_t（1≦t≦T）を生成する窓関数ベクトル生成部と、j=1, …, J（Jを1以上の整数）とし、第j窓関数に対応する計算ユニットを用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第j出力音s^_j,t ^C（1≦t≦T）を生成する第j出力音生成部と、前記第j出力音s^_j,t ^C（1≦t≦T）（j=1, …, J）と前記窓関数ベクトルz_t（1≦t≦T）から、前記観測信号x_t（1≦t≦T）に含まれる目的音を強調した出力音s^_t（1≦t≦T）を生成する出力音生成部とを含む。

本発明の一態様は、Tを2以上の整数、L_longを1以上の整数、x_t（1≦t≦T）を時間領域の観測信号を重なりのないT個の、長さL_long/2のブロックへ分割して得られるt番目のブロックの観測信号、s_t（1≦t≦T）を前記時間領域の観測信号に含まれる目的音を重なりのないT個の、長さL_long/2のブロックへ分割して得られるt番目のブロックの目的音、φ_t（1≦t≦T）を前記観測信号x_tから抽出して得られるt番目のブロックの音響特徴量とし、ニューラルネットワークM_Aを用いて、前記音響特徴量φ_t（1≦t≦T）から、t番目のブロックがアタックであるか否かの判定結果を示すベクトルであるアタック判定ベクトルa_t（1≦t≦T）を生成するアタック判定ベクトル生成部と、前記アタック判定ベクトルa_t（1≦t≦T）から、窓関数ベクトルz_t（1≦t≦T）を生成する窓関数ベクトル生成部と、窓関数ロング（以下、第1窓関数という）に対応するニューラルネットワークM₁を用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第1出力音s^_1,t ^C（1≦t≦T）を生成する第1出力音生成部と、窓関数スタート（以下、第2窓関数という）に対応するニューラルネットワークM₂を用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第2出力音s^_2,t ^C（1≦t≦T）を生成する第2出力音生成部と、窓関数ショート（以下、第3窓関数という）に対応するニューラルネットワークM₃を用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第3出力音s^_3,t ^C（1≦t≦T）を生成する第3出力音生成部と、窓関数ストップ（以下、第4窓関数という）に対応するニューラルネットワークM₄を用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第4出力音s^_4,t ^C（1≦t≦T）を生成する第4出力音生成部と、前記第1出力音s^_1,t ^C（1≦t≦T）と前記第2出力音s^_2,t ^C（1≦t≦T）と前記第3出力音s^_3,t ^C（1≦t≦T）と前記第4出力音s^_4,t ^C（1≦t≦T）と前記窓関数ベクトルz_t（1≦t≦T）から、前記観測信号x_t（1≦t≦T）に含まれる目的音を強調した出力音s^_t（1≦t≦T）を生成する出力音生成部と、前記出力音s^_t（1≦t≦T）と前記目的音s_t（1≦t≦T）から、出力音の推定誤差を示す目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)（ただし、Θ_A, Θ₁, Θ₂, Θ₃, Θ₄はそれぞれ前記ニューラルネットワークM_A, M₁, M₂, M₃, M₄のパラメータである）の値を計算する目的関数計算部と、前記目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)の値を最適化するように前記パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を更新するパラメータ更新部と、所定の収束条件が満たされた場合に前記パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を出力する収束判定部とを含み、前記目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)は、ブロック単位での出力音の推定誤差E(s_t, s^_t)を用いて定義される関数である。

本発明によれば、深層学習により、分析長が異なる実数周波数変換を利用して推定した時間周波数マスクを用いて、音源強調が可能となる。

窓関数切り替えの状態遷移の様子を示す図。本願の音源強調処理の過程を示す図。音源強調学習装置１００の構成の一例を示すブロック図。音源強調学習装置１００の動作の一例を示すフローチャート。音源強調処理部１２０の構成の一例を示すブロック図。音源強調処理部１２０の動作の一例を示すフローチャート。第j出力音生成部１２６_jの構成の一例を示すブロック図。第j出力音生成部１２６_jの動作の一例を示すフローチャート。音源強調装置２００の構成の一例を示すブロック図。音源強調装置２００の動作の一例を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜記法＞
_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

＜技術的背景＞
MDCTには、動的に分析長を変化させることができるウィンドウスイッチング(window switching)という特性がある。本発明の実施形態は、この特性を利用する。具体的には、ウィンドウスイッチングにおける分析長を変化させるか否かの判定を行うDNNを構成し、このDNNと長い分析長に対応する時間周波数マスクを推定するDNNと短い分析長に対応する時間周波数マスクを推定するDNNを用いてMDCT領域のDL音源強調技術を構成する。

《問題設定》
時間領域において、目的音をσ_k、雑音をν_kとおき、観測信号χ_kを以下のように表現する。

ここで、k∈{1, 2, …, K}は時間のインデックスである。

そして、観測信号χ_k(1≦k≦K)を、ある時間長で重なりのあるT個（ただし、Tは2以上の整数）の時間フレームに分割し、それをDFTすることにより、式(1)を以下のように変形する。

ここで、X_t,f、S_t,f、N_t,fは、それぞれ観測信号のDFTスペクトル、目的音のDFTスペクトル、雑音のDFTスペクトルである。また、f∈{1, 2, …, F}とt∈{1, 2, …, T}は、それぞれ時間周波数領域における、周波数のインデックスと時間のインデックスである。

DFT領域における時間周波数マスクによる音源強調では、以下の式で出力音のDFTスペクトルS^_t,fを得る。

ここで、G_t,fは、例えばウィーナー(Wiener)フィルタなどで実装される時間周波数マスクである。

ここで得られた出力音のDFTスペクトルS^_t,fを逆DFTした信号を重畳加算することにより、時間領域の出力音を得る。

《DFT領域のDL音源強調》
DL音源強調では、時間フレームtの時間周波数マスクを縦に並べたベクトルG_t:=(G_t,1, …, G_t,F)^T（ただし、右肩のTは転置を表す）を以下のように推定する。

ここで、G^_tはG_tを推定したベクトルを表す。また、Mはニューラルネットワークを利用した回帰関数、φ_tは観測信号χ_k（1≦k≦K）から抽出したtフレーム目の音響特徴量、ΘはニューラルネットワークM（回帰関数Mを計算するニューラルネットワーク）のパラメータである。なお、ウィーナーフィルタのように時間周波数マスクG_t,fの値域を0≦G_t,f≦1に制限する場合、ニューラルネットワークMの出力層にはシグモイド(sigmoid)活性化関数を利用することが多い（参考非特許文献１）。
（参考非特許文献１：H. Erdogan, J. R. Hershey, S. Watanabe, J. L. Roux, “Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks”, in Proc. ICASSP 2015, 2015.）

そして、パラメータΘは、例えば以下の目的関数τ(Θ)を最小化するように、誤差逆伝搬法を利用した勾配法で学習することができる。

ここで、S_t:=(S_t,1, …, S_t,F)^T、X_t:=(X_t,1, …, X_t,F)^T、T_trnは学習データの総フレーム数である。また、||・||_pはL_pノルム（ここでは、p=2）、○はベクトルの要素積（アダマール積）を表す。

ところで、DFTで得られる周波数スペクトルは複素数値であるため、観測信号から目的音を完全に復元するためには、観測信号の振幅スペクトルと位相スペクトルの両方を操作する必要がある。すなわち、目的音を完全に復元するには複素数の時間周波数マスクを利用しなくてはならない。にもかかわらず、一般的なDL音源強調では式(4)のように実数値の時間周波数マスクを推定することが多い。これは、一般的なニューラルネットワークでは、複素数を直接出力することができないことに起因する。

以下、観測信号の振幅スペクトルと位相スペクトルの両方を操作することができる、実数の周波数変換（具体的にはMDCT）を利用する方法を非特許文献１に従い説明する。

《MDCT領域のDL音源強調》
実数の周波数変換には、離散サイン変換など様々なものがあるが、ここでは、MDCTを利用した方法について説明する。

まず、MDCTを行列形式で定義する。最初に、観測信号χ_k(1≦k≦K)を重なりのないT個（ただし、Tは2以上の整数）のブロックへ分割する。ここでt番目のブロックの観測信号x_tは以下のように表現できる。

ここで、LはMDCTの分析長である。なお、t番目のブロックの観測信号x_tはL/2次元ベクトル（ただし、Lは1以上の整数）である。

すると、MDCTと逆MDCT（IMDCT: inverse MDCT）はそれぞれ以下のように記述できる。

ここで、X_t ^C:=(X_t,1 ^C, …, X_t,L/2 ^C)^Tであり、X_t,1 ^C, …, X_t,L/2 ^Cはそれぞれ観測信号のMDCTスペクトルである。また、A(=CW)は分析行列である。ただし、C∈R^L/2×L（ただし、Rは実数の集合）は、MDCT行列であり、その(p, q)要素（1≦p≦L/2, 1≦q≦L）は以下のように記述できる。

また、W∈R^L×Lは、分析／合成窓を表す対角行列（以下、窓関数行列という）であり、ここではプリンセン−ブラッドレイ(Princen-Bradley)条件を満たす窓関数を利用する。例えば、以下のサイン(sin)窓が利用できる。

ただし、W_q,qはWの(q, q)要素である。

ここで、MDCT行列CはL/2×Lの行列であるため、逆行列は存在しない。ゆえに、逆MDCTの出力であるx_t ^(C1)とx_t ^(C2)には、時間歪み（time-domain aliasing）が含まれる。しかし、この歪みは、以下の重畳加算により除去することができる。

この特性は時間歪み除去（TDAC: time-domain aliasing cancellation）と呼ばれる。以上の演算をまとめると、MDCTを利用した分析合成は以下の行列演算で記述できる。

ただし、O_OLA=[0_L/2×L/2, I_L/2×L/2, I_L/2×L/2, 0_L/2×L/2]は重畳加算行列であり、0_L/2×L/2とI_L/2×L/2はそれぞれL/2×L/2のゼロ行列とL/2×L/2の単位行列である。つまり、重畳加算行列O_OLAは、L/2×2Lの行列である。

ここでMDCTスペクトルは実数であるため、実数の時間周波数マスクを用いてMDCT領域の振幅と位相の両方を制御できる。つまり、実数の時間周波数マスクを用いて目的音を完全に復元することができる。今、MDCT領域における時間周波数マスクによる音源強調処理を以下のように定義する。

ここで、G_t,q ^C(=S_t,q ^C/X_t,q ^C)はMDCT領域の時間周波数マスクである。

そして、DFT領域のDL音源強調と同様に、時間フレームtの時間周波数マスクを縦に並べたベクトルG_t ^C:=(G_t,1 ^C, …, G_t,L ^C)^Tを

により推定し（ただし、φ_tはt番目のブロックの音響特徴量である）、時間周波数マスクを以下のように乗算することを考える。

ここで、S^_t ^C:=(S^_t,1 ^C, …, S^_t,L ^C)^Tである。

すると、式(12)〜式(15)より、MDCT領域のDL音源強調は以下の行列演算で記述できる。

ここで、出力音s^_tは、M(φ_t|Θ)の出力を利用した線形演算で記述されているため、出力音s^_tはパラメータΘで微分可能である。すなわち、出力音の推定精度（つまり、目的音と出力音の誤差）を定義する目的関数を時間領域で定義することで、パラメータΘを誤差逆伝搬法などの勾配法で学習することができる。目的関数T(Θ)には、例えば以下の絶対平均誤差を利用することができる。

ここで、s_tはt番目のブロックの目的音であり、以下のように表される。

なお、目的関数T(Θ)は、時間領域で定義される関数であればどのようなものでもよく、例えば、二乗誤差や重み付き二乗誤差を利用することができる。

《本発明のアイディア》
本発明の実施形態は、MDCT領域のDL音源強調にウィンドウスイッチングを用いることに特徴がある。

先述した通り、DFTやMDCTなどを用いた時間周波数スペクトル分析には、時間周波数分解能のトレードオフが存在する。周波数分析長が長いほど周波数分解能が上がるため、母音のような調波構造を持つ音については解析がしやすいが、音量が時間的に速く変化する子音については解析がしづらい。また、分析フレームの後半で音量が急激に上昇すると、分析合成後の信号の前半にプリエコーが生じるという問題もある。一方、周波数分析長が短いほど時間分解能が上がるため、子音のような時間変化が速い音については解析がしやすいが、母音などの周期的な音については解析がしづらい。これらはトレードオフの関係にあるため、母音と子音の解析精度を両方とも上げるためには、各時刻ごとに母音か子音かを判定して、適切な周波数分析長を選択する必要がある。

この問題を解決するために、MDCTでは動的に分析長を変化させるウィンドウスイッチングという方法が開発されている（参考非特許文献２、参考非特許文献３）。この方法は、MPEG-1 Layer III (MP3)などの音声符号化で実際に利用されているものである（参考非特許文献３）。
（参考非特許文献２：T. Mochizuki, “Perfect Reconstruction Conditions for Adaptive Blocksize MDCT”, IEICE Trans. on Fund. of Elect., Comm. and Computer Sciences, Vol.E77-A, No.5, pp.894-899, 1994.）
（参考非特許文献３：V. Britanak, et al., “Cosine-/Sine- Modulated Filter Banks”, Springer, 2018.）

従来の分析長の切り替えは、聴覚モデルに基づくルールによってアタック(Attack)判定（つまり、音量が大きく変化する部分の検出）をし、決定論的に窓を切り替えることにより、実現されている。そのため、信号の復元精度を直接最大化するようなアタック判定にはなっていない。本発明の実施形態では、信号の復元精度を直接最大化するようなアタック判定になるように分析長を変化させるか否かの判定を行うDNNと、音源強調性能を最大化するように長い分析長に対応する時間周波数マスクを推定するDNNと短い分析長に対応する時間周波数マスクを推定するDNNを同時に最適化する。以下、詳しく説明する。

《ウィンドウスイッチング》
まず、ウィンドウスイッチングについて説明する。ウィンドウスイッチングは、完全再構成条件を保ちつつ時間周波数分解能のトレードフを解決するために開発された手法である。代表的な実装では、ロング(Long)、スタート(Start)、ショート(Short)、ストップ(Stop)の4種類の窓関数を利用する。ロング、ショートは、それぞれ長さがL_long、L_shortの窓関数であり（ただし、L_long>L_short）、サイン窓などで実装される。母音などの周期的な音を解析するためにロングが利用され、子音などの時間的な変化が速い音を解析するためにショートが利用される。しかし、ロングを利用したフレームと隣接するフレームでショートを利用すると、その切り替え箇所でプリンセン−ブラッドレイ条件を満たさなくなるため、完全再構成条件を満足することができない（すなわち、切り替え箇所において２つの窓関数が滑らかにつながらない）。そこで、ロングからショートへの切り替えを滑らかにする窓関数（スタート）とショートからロングへの切り替えを滑らかにする窓関数（ストップ）を利用する。このため、窓関数の切り替えには完全な自由度があるわけではない。具体的には、図１に示す状態遷移により制約される。図１は４つの窓関数の切り替えの状態遷移を示すものである。MPEG-1 Layer III(MP3)における窓関数の切り替えでは、聴覚心理モデルに基づくアタック判定の結果に基づいて、図１に示す状態遷移ルールに従い決定論的に窓関数を切り替える。

《本発明の実施形態における音源強調処理》
DL音源強調において、信号の性質に合わせて適応的にMDCTの分析長を変化させるために、ウィンドウスイッチングを導入することを考える。そのため、アタック判定を行い、目的音の復元精度を最大化するようなDNNを構成、つまり学習することを考える。しかし、このようなDNNの学習を実現するためには、以下の２つの問題を解決しなくてはならない。

(1)フレームの同期問題
DL音源強調の多くでは、式(17)のように、時間フレームtごとに計算される出力音の推定精度を用いて定義される目的関数を利用してDNNの学習を行う。しかし、分析長が異なる窓を制約なく利用すると、ロングを利用した場合とショートを利用した場合で、フレームの同期がとれなくなり、その結果、目的関数が定義できなくなる。例えば、L_long=512、L_short=128とした場合、ショートはL_long/L_short=4の倍数回で利用しないと、L_longを利用した場合とフレーム同期をとることができなくなる。フレーム同期をとれない場合、式(17)のようなフレーム単位で定義された目的関数を用いて、アタック判定を行うDNNと時間周波数マスクを推定するDNNを同時に最適化することができなくなる。したがって、DL音源強調でウィンドウスイッチングを行うためには、窓関数の切り替えに対して制約を設けなくてはならない。

(2)目的関数の微分可能性問題
DNNを学習するためには、目的関数をDNNのパラメータで微分可能な形で記述する必要がある。窓関数の切り替えは、アタック／非アタック(attack/non-attack)の二値判定結果をもとに、窓関数の決定論的な遷移で実現される（図１参照）。これを単純にプログラムとして実装する場合にはif分岐やswitch分岐を利用する必要があるが、プログラムによる決定論的な分岐は、DNNのパラメータで微分できない。したがって、アタック判定を行うDNNを学習するためには、これらの決定論的な分岐を、DNNのパラメータで微分可能な数式で記述する必要がある。

上記２つの問題を解決するため、本発明の実施形態では以下の方法をとる。
(1)フレームの同期問題
プリンセン−ブラッドレイ条件を満たし、同期がとれるような窓関数に対応する分析行列を定義することにより解決する。

(2)目的関数の微分可能性問題
アタック判定を行うDNNは、時間フレームtがアタックである確率を表す2次元ベクトルp(a_t)とし（式(28)参照）、ガンベル−ソフトマックス(Gumbel-softmax)を用いてベクトルp(a_t)から時間フレームtがアタックであるか否かを示す2次元ベクトルa_tを出力する（式(31)参照）。この出力ベクトルa_tから状態遷移行列Q_i,k,j（式(35)参照）を用いて再帰的に時間フレームtの窓関数を選択し、各分析窓を利用して音源強調した結果の線形和として出力音s^_tを求める（式(36)参照）。上記の演算は、決定論的な窓関数の切り替えとほぼ同等の動作をすること及びDNNのパラメータで微分可能な演算であることから、アタック判定を行うDNNを学習できるようになる。なお、ガンベル−ソフトマックス(Gumbel-softmax)は、例えば、参考非特許文献４に記載されている。
（参考非特許文献４：E. Jang, S. Gu, B. Poole, “Categorical reparameterization with gumbel-softmax”, arXiv preprint arXiv:1611.01144, 2016.）

以下、これらの解決法について詳しく説明する。まず、(1)フレームの同期問題の解決法について説明する。

本発明の実施形態では、フレーム同期を保証するために、ロング、スタート、ショート、ストップの4種類の窓関数を利用する。その際、ロングにおけるMDCTの分析長L_longとショートにおけるMDCTの分析長L_shortに以下の関係が成立するものとする。

ここで、mは1以上の整数とする。

このような窓関数を利用すると、プリンセン−ブラッドレイ条件を満たすように窓関数を設計した際、ショートを利用して2^m回分析したデータ点数が、ロングを利用して1回分析したデータ点数（L_long）と一致する。すなわち、式(7)の形式において分析行列A（つまり、MDCT行列Cと窓関数行列W）を入れ替えるだけで、ウィンドウスイッチングを利用した信号分析を実現することができる。ロング、スタート、ショート、ストップの各窓関数に対応する分析行列A₁, A₂, A₃, A₄は、以下のようになる。

ここで、C_longとC_shortは、それぞれ式(9)で定義される、分析長がL_longとL_shortであるMDCT行列である。つまり、MDCT行列C_longの(p, q)要素（1≦p≦L_long/2, 1≦q≦L_long）、MDCT行列C_shortの(p, q)要素（1≦p≦L_short/2, 1≦q≦L_short）は、それぞれ以下のようになる。

また、w^lとw^sは、それぞれロングのためのサイン窓ベクトルとショートのためのサイン窓ベクトルを表し、そのq番目の要素w^l _q(q∈{0, 1, …, L_long-1}), w^s _q(q∈{0, 1, …, L_short-1})はそれぞれ以下のようになる。

つまり、w^lはL_long次元サイン窓ベクトル、w^sはL_short次元サイン窓ベクトルとなる。また、w^l _1stとw^l _2ndはw^lの前半部と後半部、w^s _1stとw^s _2ndはw^sの前半部と後半部を表す。つまり、w^l _1st=(w^l ₀, …, w^l _{(L_long)/2-1})^T, w^l _2nd=(w^l _{(L_long)/2}, …, w^l _{(L_long)-1})^T, w^s _1st=(w^s ₀, …, w^s _{(L_short)/2-1})^T, w^s _2nd=(w^s _{(L_short)/2}, …, w^s _{(L_short)-1})^Tである。1_{L_long/4-L_short/4}と0_{L_long/4-L_short/4}はそれぞれ要素が1であるL_long/4-L_short/4次元ベクトルと要素が0であるL_long/4-L_short/4次元ベクトルである。また、I_C(n)とI_R(n) (n∈{0, 1, …, L_long/L_short-1})は以下で表される行列のインデックスである。

ここで、[1:N]は、[1, 2, 3, ..., N]の数列を表す。

したがって、A₃は、A₃(I_C(0), I_R(0)), A₃(I_C(0), I_R(1)), …, A₃(I_C(2^m-1), I_R(2^m-1))の2^m×2^m個のL_short/2×L_shortの行列を用いて定義されることになる。

なお、ロング、スタート、ショート、ストップの各窓関数をそれぞれ第1窓関数、第2窓関数、第3窓関数、第4窓関数という。また、第j窓関数に対応する分析行列A_j(j=1, 2, ,3 ,4)を第j分析行列という。

次に、(2)目的関数の微分可能性問題の解決法について説明する。ウィンドウスイッチングを実現するためには、時間フレームtがアタックであるか否かを判定すればよいので、a_1,t=1は非アタックであること、a_2,t=1はアタックであることを示す二値変数の組(a_1,t, a_2,t)を推定すればよい（以下、a_t=(a_1,t, a_2,t)^Tをアタック判定ベクトルということにする）。単純に考えると、従来のDNNを用いた識別問題のように、出力層の活性化関数がソフトマックス(softmax)であるDNN M_A（Θ_Aを当該ニューラルネットワークのパラメータとする）を利用して、以下のように時間フレームtがアタックである確率を推定し、

次式の閾値判定をすることにより、実現できるように思える。

しかし、この閾値判定はパラメータΘ_Aで微分不可能な関数であるため、誤差逆伝搬法によりパラメータΘ_Aを学習することができない。

そこで本発明の実施形態では、閾値判定の代わりにガンベル−ソフトマックスを用いて、p(a_t)から近似的にアタック判定ベクトルa_tを推定する。

ここで、λは温度パラメータであり10^-3程度に設定すればよい。また、式(33)の〜は右辺の確率分布からのサンプリングを表し、Uniform(0,1)は定義域が0から1の一様分布を表す。

この手法で得られるアタック判定ベクトルa_tは、近似的にワン−ホット−ベクトル(one-hot-vector)、つまり、１つの要素が1、その他の要素はすべて0となるベクトルとなる。

そして、アタック判定ベクトルa_tが得られれば、時間フレームtの窓関数ベクトルz_t=(z_1,t, z_2,t, z_3,t, z_4,t)^Tは、以下の式により、再帰的に求めることができる。

ここで、z_1,t=1はロング(long)、z_2,t=1はスタート(start)、z_3,t=1はショート(short)、z_4,t=1はストップ(stop)を表し、Q_i,k,jは以下で定義される状態遷移行列である。

式(34)によりz_k,tを求めると、窓関数ベクトルz_tもワン−ホット−ベクトルとなるため、時間フレームtの出力音s^_tは、４つの窓関数で分析した出力音の和として、以下のように求めることができる。

ここで、

であり、x^l _tはt番目のブロックの観測信号である（式(6)参照）。また、M_j(j=1,…,4)は、第j窓関数を利用してj番目の出力音s^_j,t ^C（以下、第j出力音という）を求めるDNN（第j窓関数に対応するニューラルネットワーク）であり、Θ_jはそのパラメータである。

図２は、観測信号x_tと音響特徴量φ_tから出力音s^_tを生成するまでの音源強調処理の過程を示す図である。アタック判定ベクトル生成部は、DNN M_Aにより構成され、式(28)及び式(31)の計算を行う構成部である。窓関数ベクトル生成部は、式(34)の計算を行う構成部である。第j出力音生成部（j=1, 2, 3, ,4）は、DNN M_jにより構成され、式(37)の計算を行う構成部である。出力音生成部は、式(36)の計算を行う構成部である。なお、すべてのDNN（つまり、M_A, M₁, M₂, M₃, M₄）のパラメータ（つまり、Θ_A, Θ₁, Θ₂, Θ₃, Θ₄）で微分可能な形式で全体の計算過程が記述されているため、式(17)のような目的関数を利用してパラメータを学習することができる。

＜第１実施形態＞
ここでは、＜技術的背景＞で説明したDL音源強調を学習する音源強調学習装置１００について説明する。

以下、図３〜図４を参照して音源強調学習装置１００を説明する。図３は、音源強調学習装置１００の構成を示すブロック図である。図４は、音源強調学習装置１００の動作を示すフローチャートである。図３に示すように音源強調学習装置１００は、信号重畳部１１０と、信号分割部１１５と、音源強調処理部１２０と、目的関数計算部１３０と、パラメータ更新部１４０と、収束条件判定部１５０と、記録部１９０を含む。記録部１９０は、音源強調学習装置１００の処理に必要な情報を適宜記録する構成部である。記録部１９０は、例えば、学習対象となるニューラルネットワークM_A, M₁, M₂, M₃, M₄のパラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を記録する。ニューラルネットワークM_A, M₁, M₂, M₃, M₄は、全結合ニューラルネットワークや長期短期記憶(LSTM: Long Short Term Memory)ネットワークなどとして定義すればよい。また、パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄は、例えば乱数を用いて初期化すればよい。その他、記録部１９０は、例えば、分析長L_long, L_shortを記録する。L_long=512、L_short=64と設定すればよい。

音源強調学習装置１００は、目的音学習データ記録部９１０、雑音学習データ記録部９２０に接続している。目的音学習データ記録部９１０、雑音学習データ記録部９２０には、事前に収音した目的音と雑音が学習データとして記録されている。目的音学習データ、雑音学習データは、時間領域信号である。例えば、音声を目的音とする場合、目的音学習データは、無響室などで収録した発話データである。この発話データは8秒間程度の発話であり、5000発話程度以上集めることが望ましい。また、雑音学習データは、使用を想定する環境で収録した雑音である。

音源強調学習装置１００の各構成部で用いる各種パラメータ（例えば、パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄や分析長L_long, L_short）については、目的音学習データや雑音学習データと同様、外部から入力するようにしてもよいし、事前に各構成部に設定されていてもよい。

図４に従い音源強調学習装置１００の動作について説明する。信号重畳部１１０は、目的音学習データと雑音学習データから、時間領域の観測信号χ_k（1≦k≦K、Kは1以上の整数）を生成する（Ｓ１１０）。具体的には、まず、目的音学習データ（先ほどの例でいうと、8秒間程度の発話データ）をランダムに1つ選択し、目的音学習データと同じ長さの雑音学習データをランダムに1つ選択する。さらに、式(1)に基づいて目的音学習データと雑音学習データを重畳することにより、観測信号を生成する。目的音学習データと雑音学習データの比率は使用を想定する環境に合わせて設定するのが好ましいが、例えば、信号対雑音比で-12〜12dB程度となるように重畳するとよい。したがって、観測信号χ_kは、目的音σ_kと雑音ν_kの和として表される（式(1)参照）。

信号分割部１１５は、Ｓ１１０で生成した観測信号χ_k（1≦k≦K）から、観測信号x_t（1≦t≦T、Tは2以上の整数）と目的音s_t（1≦t≦T）を生成する（Ｓ１１５）。具体的には、観測信号χ_k（1≦k≦K）を重なりのないT個の、長さL_long/2（L_longは1以上の整数）のブロックへ分割して、t番目のブロックの観測信号x_t（1≦t≦T）を得る。つまり、観測信号x_tは、以下のようなL_long/2次元ベクトルとなる（式(6)参照）。

同様に、観測信号χ_k（1≦k≦K）に含まれる目的音を重なりのないT個の、長さL_long/2のブロックへ分割して、t番目のブロックの目的音s_t（1≦t≦T）を得る。つまり、目的音s_t（1≦t≦T）は、以下のようなL_long/2次元ベクトルとなる（式(18)参照）。

音源強調処理部１２０は、ニューラルネットワークM_A, M₁, M₂, M₃, M₄を用いて、Ｓ１１５で生成した観測信号x_t（1≦t≦T）から、出力音s^_t（1≦t≦T）を推定する（Ｓ１２０）。なお、出力音s^_t（1≦t≦T）は、観測信号x_tに含まれる目的音を強調した信号である。以下、図５〜図６を参照して音源強調処理部１２０について説明する。図５は、音源強調処理部１２０の構成を示すブロック図である。図６は、音源強調処理部１２０の動作を示すフローチャートである。図５に示すように音源強調処理部１２０は、音響特徴量抽出部１２３と、アタック判定ベクトル生成部１２４と、窓関数ベクトル生成部１２５と、第1出力音生成部１２６₁と、第2出力音生成部１２６₂と、第3出力音生成部１２６₃と、第4出力音生成部１２６₄と、出力音生成部１２７を含む。

図６に従い音源強調処理部１２０の動作について説明する。音響特徴量抽出部１２３は、Ｓ１１５で生成した観測信号x_t（1≦t≦T）から、音響特徴量φ_t（1≦t≦T）を抽出する（Ｓ１２３）。音響特徴量φ_tはt番目のブロックの音響特徴量である。音響特徴量を抽出する方法はどのようなものであってもよい。

アタック判定ベクトル生成部１２４は、ニューラルネットワークM_Aを用いて、Ｓ１２３で抽出した音響特徴量φ_t（1≦t≦T）から、アタック判定ベクトルa_t（1≦t≦T）を生成する（Ｓ１２４）。アタック判定ベクトルa_tは、t番目のブロックがアタックであるか否か（つまり、音量が大きく変化する部分であるか否か）の判定結果を示すベクトルである。具体的には、以下のようにして生成する。まず、アタック判定ベクトル生成部１２４は、ニューラルネットワークM_Aを用いて、音響特徴量φ_tから式(28)で計算されるベクトルp(a_t)を生成する。次に、アタック判定ベクトル生成部１２４は、ベクトルp(a_t)から式(31)によりアタック判定ベクトルa_tを生成する。

窓関数ベクトル生成部１２５は、Ｓ１２４で生成したアタック判定ベクトルa_t（1≦t≦T）から、窓関数ベクトルz_t（1≦t≦T）を生成する（Ｓ１２５）。窓関数ベクトルz_tは、４つの窓関数で分析した出力音、つまり、第1出力音s^_1,t ^C、第2出力音s^_2,t ^C、第3出力音s^_3,t ^C、第4出力音s^_4,t ^Cの和を生成するために用いるベクトルである。具体的には、窓関数ベクトル生成部１２５は、式(35)で定義される状態遷移行列を用いて、アタック判定ベクトルa_tから式(34)で計算されるz_k,t(k=1, 2, 3, , 4)を第k成分とするベクトルz_tを生成する。

第j出力音生成部１２６_j(j=1, 2, 3, 4)は、第j窓関数に対応するニューラルネットワークM_jを用いて、Ｓ１１５で生成した観測信号x_t（1≦t≦T）とＳ１２３で抽出した音響特徴量φ_t（1≦t≦T）から、第j出力音s^_j,t ^C（1≦t≦T）を生成する（Ｓ１２６_j）。以下、図７〜図８を参照して第j出力音生成部１２６_jについて説明する。図７は、第j出力音生成部１２６_jの構成を示すブロック図である。図８は、第j出力音生成部１２６_jの動作を示すフローチャートである。図７に示すように第j出力音生成部１２６_jは、第j周波数変換部１２６２_jと、第j時間周波数マスク推定部１２６３_jと、第j時間周波数マスク処理部１２６４_jと、第j逆周波数変換部１２６５_jを含む。

図８に従い第j出力音生成部１２６_jの動作について説明する。

第j周波数変換部１２６２_jは、実数で定義された周波数変換を用いて、Ｓ１１５で生成した観測信号x_t（1≦t≦T）から、第j観測信号周波数変換スペクトルX_j,t ^C（1≦t≦T）を生成する（Ｓ１２６２_j）。実数で定義された周波数変換としてMDCTを用いる場合、実数で定義された周波数変換は、第j分析行列A_jにより定義され、第j観測信号周波数変換スペクトルX_j,k ^Cは、次式により計算される（式(7)参照）。

ここで、第j分析行列A_jは、第j窓関数に対応する分析行列であり、式(20)〜式(23)で定義される。

第j時間周波数マスク推定部１２６３_jは、第j窓関数に対応するニューラルネットワークM_jを用いて、Ｓ１２３で抽出した音響特徴量φ_t（1≦t≦T）から、第j時間周波数マスクG^_j,t ^C（1≦t≦T）を推定する（Ｓ１２６３_j）。MDCTを用いる場合、第j時間周波数マスクG^_j,t ^Cは次式により計算される（式(14)参照）。

最初に回帰関数M_j(φ_t|Θ_j)の値（時間周波数マスクG^_j,t ^C）を計算するときは、事前に与えてあるパラメータΘ_jの初期値を用いる。その後は、後述するＳ１４０で更新されたパラメータΘ_jを用いて回帰関数M_j(φ_t|Θ_j)の値を計算する。

第j時間周波数マスク処理部１２６４_jは、Ｓ１２６３_jで推定した第j時間周波数マスクG^_j,t ^C（1≦t≦T）とＳ１２６２_jで生成した第j観測信号周波数変換スペクトルX_j,t ^C（1≦t≦T）から、第j出力音周波数変換スペクトルS^_j,t ^C（1≦t≦T）を生成する（Ｓ１２６４_j）。MDCTを用いる場合、第j出力音周波数変換スペクトルS^_j,t ^Cは次式により計算される（式(15)参照）。

第j逆周波数変換部１２６５_jは、実数で定義された逆周波数変換を用いて、１２６４_jで生成した第j出力音周波数変換スペクトルS^_j,t ^C（1≦t≦T）から、第j出力音s^_j,t ^C（1≦t≦T）を生成する（Ｓ１２６５_j）。実数で定義された周波数変換としてMDCTを用いる場合、実数で定義された逆周波数変換として逆MDCTを用いることになる。この場合、実数で定義された逆周波数変換は、第j分析行列A_jにより定義され、第j出力音s^_j,t ^Cは次式により計算される（式(37)参照）。

出力音生成部１２７は、Ｓ１２６₁で生成した第1出力音s^_1,t ^C（1≦t≦T）とＳ１２６₂で生成した第2出力音s^_2,t ^C（1≦t≦T）とＳ１２６₃で生成した第3出力音s^_3,t ^C（1≦t≦T）とＳ１２６₄で生成した第4出力音s^_4,t ^C（1≦t≦T）とＳ１２５で生成した窓関数ベクトルz_t（1≦t≦T）から、出力音s^_t（1≦t≦T）を生成する（Ｓ１２７）。具体的には、出力音s^_tは式(36)により計算される。

目的関数計算部１３０は、Ｓ１２０で推定した出力音s^_t（1≦t≦T）とＳ１１５で生成した目的音s_t（1≦t≦T）から、出力音の推定誤差を示す目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)の値を計算する（Ｓ１３０）。目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)は、時間領域で定義された関数、特にブロック単位での出力音の推定誤差E(s_t, s^_t)を用いて定義される関数であればどのようなものでもよい。例えば、次式のように絶対平均誤差を用いて目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)を定義してもよい（式(17)参照）。

この場合、E(s_t, s^_t)=||s_t-s^_t||₁である。また、重み付き二乗誤差を用いて定義してもよい。

パラメータ更新部１４０は、Ｓ１３０で計算した目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)の値を最適化（最小化）するように、パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を更新する（Ｓ１４０）。パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄の更新には、例えば、確率的最急降下法を用いるとよい。この場合、学習率は10^-5程度に設定すればよい。

収束条件判定部１５０は、パラメータ更新の終了条件として事前に設定された収束条件を判定し、収束条件が満たされた場合はＳ１４０で生成したパラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を出力し、収束条件が満たされない場合はＳ１１０〜Ｓ１４０の処理を繰り返す（Ｓ１５０）。収束条件として、例えばＳ１１０〜Ｓ１４０の処理の実行回数が所定の回数に達したかという条件を採用することができる。この場合、所定の回数を10万回程度に設定すればよい。

本実施形態の発明によれば、分析長が異なる実数周波数変換を利用して推定した時間周波数マスクを用いた音源強調技術を学習することが可能となる。これにより、時間周波数スペクトル分析の時間周波数分解能のトレードオフに関する問題を解決することができる。

＜第２実施形態＞
ここでは、第１実施形態の音源強調学習装置１００が生成したパラメータを用いて音源強調を行う音源強調装置２００について説明する。

以下、図９〜図１０を参照して音源強調装置２００を説明する。図９は、音源強調装置２００の構成を示すブロック図である。図１０は、音源強調装置２００の動作を示すフローチャートである。図９に示すように音源強調装置２００は、信号分割部２１５と、音源強調処理部１２０と、出力音統合部２１０と、記録部２９０を含む。記録部２９０は、音源強調装置２００の処理に必要な情報を適宜記録する構成部である。記録部２９０は、例えば、音源強調学習装置１００が生成したパラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を記録しておく。

音源強調装置２００には、時間領域の観測信号χ_k（1≦k≦K）が入力される。この観測信号χ_k（1≦k≦K）は、例えば、マイクロホンを用いて事前に収音した信号である。

図１０に従い音源強調装置２００の動作について説明する。信号分割部２１５は、音源強調装置２００の入力である時間領域の観測信号χ_k（1≦k≦K）から、観測信号x_t（1≦t≦T、Tは2以上の整数）を生成する（Ｓ２１５）。生成方法は、Ｓ１１５と同様でよい。

音源強調処理部１２０は、パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を用いて、Ｓ２１５で生成した観測信号x_t（1≦t≦T）から、出力音s^_t（1≦t≦T）を推定する（Ｓ１２０）。

出力音統合部２１０は、Ｓ１２０で推定した出力音s^_t（1≦t≦T）から、観測信号χ_k（1≦k≦K）に含まれる目的音を強調した出力音σ^_k（1≦k≦K）を生成する（Ｓ２１０）。生成処理は、Ｓ２１５での処理と反対の処理となる。つまり、出力音s^_t（1≦t≦T）を順に結合することにより、出力音σ^_k（1≦k≦K）を生成する。

本実施形態の発明によれば、深層学習により、分析長が異なる実数周波数変換を利用して推定した時間周波数マスクを用いて、音源強調が可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Tを2以上の整数、L_longを1以上の整数、x_t（1≦t≦T）を時間領域の観測信号を重なりのないT個の、長さL_long/2のブロックへ分割して得られるt番目のブロックの観測信号、φ_t（1≦t≦T）を前記観測信号x_tから抽出して得られるt番目のブロックの音響特徴量とし、
前記音響特徴量φ_t（1≦t≦T）から、t番目のブロックがアタックであるか否かの判定結果を示すベクトルであるアタック判定ベクトルa_t（1≦t≦T）を生成するアタック判定ベクトル生成部と、
前記アタック判定ベクトルa_t（1≦t≦T）から、窓関数ベクトルz_t（1≦t≦T）を生成する窓関数ベクトル生成部と、
j=1, …, J（Jを1以上の整数）とし、
第j窓関数に対応する計算ユニットを用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第j出力音s^_j,t ^C（1≦t≦T）を生成する第j出力音生成部と、
前記第j出力音s^_j,t ^C（1≦t≦T）（j=1, …, J）と前記窓関数ベクトルz_t（1≦t≦T）から、前記観測信号x_t（1≦t≦T）に含まれる目的音を強調した出力音s^_t（1≦t≦T）を生成する出力音生成部と
を含む音源強調装置。
請求項１に記載の音源強調装置であって、
前記アタック判定ベクトル生成部は、ニューラルネットワークM_Aを用いて、前記アタック判定ベクトルa_t（1≦t≦T）を生成し、
J=4とし、
前記第j窓関数に対応する計算ユニットは、第j窓関数に対応するニューラルネットワークM_jであり、
前記第j出力音生成部は、
実数で定義された周波数変換を用いて、前記観測信号x_t（1≦t≦T）から、第j観測信号周波数変換スペクトルX_j,t ^C（1≦t≦T）を生成する第j周波数変換部と、
前記ニューラルネットワークM_jを用いて、前記音響特徴量φ_t（1≦t≦T）から、第j時間周波数マスクG^_j,t ^C（1≦t≦T）を推定する第j時間周波数マスク推定部と、
前記第j時間周波数マスクG^_j,t ^C（1≦t≦T）と前記第j観測信号周波数変換スペクトルX_j,t ^C（1≦t≦T）から、第j出力音周波数変換スペクトルS^_j,t ^C（1≦t≦T）を生成する第j時間周波数マスク処理部と、
実数で定義された逆周波数変換を用いて、前記第j出力音周波数変換スペクトルS^_j,t ^C（1≦t≦T）から、前記第j出力音s^_j,t ^C（1≦t≦T）を生成する第j逆周波数変換部とを含む
ことを特徴とする音源強調装置。
請求項２に記載の音源強調装置であって、
L_shortをL_short=L_long/2^m（mは1以上の整数）を満たす1以上の整数とし、
前記実数で定義された周波数変換及び前記実数で定義された逆周波数変換は、第j窓関数に対応する分析行列A_j（以下、第j分析行列という）により定義されるものであり、
前記第j観測信号周波数変換スペクトルX_j,k ^Cは、次式により計算され、

（ただし、第j分析行列A_jは、それぞれ次式で定義される。

ここで、C_longとC_shortはそれぞれ分析長がL_longであるMDCT行列と分析長がL_shortであるMDCT行列、w^lとw^sはそれぞれ第1窓関数のためのL_long次元サイン窓ベクトルと第3窓関数のためのL_short次元サイン窓ベクトル、w^l _1st=(w^l ₀, …, w^l _{(L_long)/2-1})^T, w^l _2nd=(w^l _{(L_long)/2}, …, w^l _{(L_long)-1})^T, w^s _1st=(w^s ₀, …, w^s _{(L_short)/2-1})^T, w^s _2nd=(w^s _{(L_short)/2}, …, w^s _{(L_short)-1})^T, 1_{L_long/4-L_short/4}と0_{L_long/4-L_short/4}はそれぞれ要素が1であるL_long/4-L_short/4次元ベクトルと要素が0であるL_long/4-L_short/4次元ベクトル、I_C(n)とI_R(n) (n∈{0, 1, …, L_long/L_short-1})はそれぞれ次式で表される行列のインデックスである。

）
前記第j出力音s^_j,t ^Cは、次式により計算される

ことを特徴とする音源強調装置。
請求項１に記載の音源強調装置であって、
a_t=(a_1,t, a_2,t)^T, z_t=(z_1,t, z_2,t, z_3,t, z_4,t)^Tとし、
前記窓関数ベクトルz_tは、次式により計算される

（ただし、Q_i,k,jは次式で定義される状態遷移行列である。

）
ことを特徴とする音源強調装置。
Tを2以上の整数、L_longを1以上の整数、x_t（1≦t≦T）を時間領域の観測信号を重なりのないT個の、長さL_long/2のブロックへ分割して得られるt番目のブロックの観測信号、s_t（1≦t≦T）を前記時間領域の観測信号に含まれる目的音を重なりのないT個の、長さL_long/2のブロックへ分割して得られるt番目のブロックの目的音、φ_t（1≦t≦T）を前記観測信号x_tから抽出して得られるt番目のブロックの音響特徴量とし、
ニューラルネットワークM_Aを用いて、前記音響特徴量φ_t（1≦t≦T）から、t番目のブロックがアタックであるか否かの判定結果を示すベクトルであるアタック判定ベクトルa_t（1≦t≦T）を生成するアタック判定ベクトル生成部と、
前記アタック判定ベクトルa_t（1≦t≦T）から、窓関数ベクトルz_t（1≦t≦T）を生成する窓関数ベクトル生成部と、
窓関数ロング（以下、第1窓関数という）に対応するニューラルネットワークM₁を用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第1出力音s^_1,t ^C（1≦t≦T）を生成する第1出力音生成部と、
窓関数スタート（以下、第2窓関数という）に対応するニューラルネットワークM₂を用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第2出力音s^_2,t ^C（1≦t≦T）を生成する第2出力音生成部と、
窓関数ショート（以下、第3窓関数という）に対応するニューラルネットワークM₃を用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第3出力音s^_3,t ^C（1≦t≦T）を生成する第3出力音生成部と、
窓関数ストップ（以下、第4窓関数という）に対応するニューラルネットワークM₄を用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第4出力音s^_4,t ^C（1≦t≦T）を生成する第4出力音生成部と、
前記第1出力音s^_1,t ^C（1≦t≦T）と前記第2出力音s^_2,t ^C（1≦t≦T）と前記第3出力音s^_3,t ^C（1≦t≦T）と前記第4出力音s^_4,t ^C（1≦t≦T）と前記窓関数ベクトルz_t（1≦t≦T）から、前記観測信号x_t（1≦t≦T）に含まれる目的音を強調した出力音s^_t（1≦t≦T）を生成する出力音生成部と、
前記出力音s^_t（1≦t≦T）と前記目的音s_t（1≦t≦T）から、出力音の推定誤差を示す目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)（ただし、Θ_A, Θ₁, Θ₂, Θ₃, Θ₄はそれぞれ前記ニューラルネットワークM_A, M₁, M₂, M₃, M₄のパラメータである）の値を計算する目的関数計算部と、
前記目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)の値を最適化するように前記パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を更新するパラメータ更新部と、
所定の収束条件が満たされた場合に前記パラメータΘ_A, Θ₁, Θ₂, Θ₃, Θ₄を出力する収束判定部と
を含む音源強調学習装置であって、
前記目的関数T(Θ_A, Θ₁, Θ₂, Θ₃, Θ₄)は、ブロック単位での出力音の推定誤差E(s_t, s^_t)を用いて定義される関数である
音源強調学習装置。
Tを2以上の整数、L_longを1以上の整数、x_t（1≦t≦T）を時間領域の観測信号を重なりのないT個の、長さL_long/2のブロックへ分割して得られるt番目のブロックの観測信号、φ_t（1≦t≦T）を前記観測信号x_tから抽出して得られるt番目のブロックの音響特徴量とし、
音源強調装置が、前記音響特徴量φ_t（1≦t≦T）から、t番目のブロックがアタックであるか否かの判定結果を示すベクトルであるアタック判定ベクトルa_t（1≦t≦T）を生成するアタック判定ベクトル生成ステップと、
前記音源強調装置が、前記アタック判定ベクトルa_t（1≦t≦T）から、窓関数ベクトルz_t（1≦t≦T）を生成する窓関数ベクトル生成ステップと、
j=1, …, J（Jを1以上の整数）とし、
前記音源強調装置が、第j窓関数に対応する計算ユニットを用いて、前記観測信号x_t（1≦t≦T）と前記音響特徴量φ_t（1≦t≦T）から、第j出力音s^_j,t ^C（1≦t≦T）を生成する第j出力音生成ステップと、
前記音源強調装置が、前記第j出力音s^_j,t ^C（1≦t≦T）（j=1, …, J）と前記窓関数ベクトルz_t（1≦t≦T）から、前記観測信号x_t（1≦t≦T）に含まれる目的音を強調した出力音s^_t（1≦t≦T）を生成する出力音生成ステップと
を含む音源強調方法。
請求項１ないし４のいずれか１項に記載の音源強調装置または請求項５に記載の音源強調学習装置としてコンピュータを機能させるためのプログラム。