JP6910609B2

JP6910609B2 - 信号解析装置、方法、及びプログラム

Info

Publication number: JP6910609B2
Application number: JP2018163563A
Authority: JP
Inventors: 弘和亀岡; 莉李; 翔太井上; 牧野　昭二; 昭二牧野
Original assignee: Nippon Telegraph and Telephone Corp; University of Tsukuba NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tsukuba NUC
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2021-07-28
Anticipated expiration: 2038-08-31
Also published as: JP2020034870A

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、各構成音が混合された観測信号を入力として各構成音の信号に分離するための信号解析装置、方法、及びプログラムに関する。

ブラインド音源分離(Blind Source Separation; BSS) は、音源とマイクとの間の伝達関数が未知な状況下で、マイクアレイの入力から個々の音源信号を分離する技術である。周波数領域で定式化されるBSSのアプローチは、周波数ごとの音源分離の問題と周波数ごとに得られる分離信号がそれぞれどの音源のものであるかを対応付けるパーミュテーション整合と呼ぶ問題を併せて解く必要があるが、音源の混合過程を畳み込み演算を含まない瞬時混合系で表せるため比較的効率の高いアルゴリズムを実現できる利点がある。また、音源に関する時間周波数領域で成り立つ様々な仮定やマイクロホンアレーの周波数応答に関する仮定を有効活用できるようになる点も大きな利点である。

例えば、同一音源に由来する周波数成分の大きさは同期して時間変化しやすいという傾向を手がかりにしながら各周波数における音源分離とパーミュテーション整合を同時解決する独立ベクトル分析(Independent Vector Analysis; IVA) と呼ぶ独立成分分析(Independent Component Analysis;ICA)の拡張版が提案されている。近年、非負値行列因子分解(Non-negative Matrix Factorization; NMF) を用いたモノラル音源分離法を多チャンネル拡張した多チャンネルNMF(Multichannel NMF; MNMF) と呼ぶ枠組が提案されている。

NMFによるモノラル音源分離法では観測信号のパワー（あるいは振幅）スペクトログラムを非負値行列とみなし、これを二つの非負値行列の積で近似する。これは、各時間フレームで観測される混合信号のパワースペクトルが、時間変化する振幅によってスケーリングされた基底スペクトルの線形和によって近似することに相当する。MNMF法は、このアイディアをBSSにおける各音源のパワースペクトログラムのモデル化に導入した枠組である。この方法はIVA と同様音源のスペクトル構造を手がかりにしながら周波数ごとの音源分離とパーミュテーション整合を同時解決するアプローチとなっている。非特許文献１ではこの枠組を独立低ランク行列分析(Independent Low-Rank Matrix Analysis; ILRMA) と呼んでいる。

上述のとおりMNMFやILRMAでは各音源のパワースペクトログラムを二つの非負値行列の積（低ランクの行列）でモデル化するが、IVAは各音源のパワースペクトログラムを非負値ベクトルの直積（ランク１の行列）でモデル化した特殊ケースと見なせる。ILRMAのIVAに対する音源分離精度の優位性は、両モデル間の表現能力の差によるところが大きい。これはすなわち、より柔軟で高い表現能力をもつスペクトログラムモデルを導入することができれば、さらなる高精度化が望めることを示唆している。行列積では実際に表現可能なスペクトログラムの範囲は限定的である（音声をはじめ多くの音源のスペクトログラムを必ずしも正確に表現することができない）ため、パワースペクトログラムのモデル化には改良の余地が残されている。

非特許文献２では、行列積に代わるパワースペクトログラムモデルとしてニューラルネットワーク(Neural Network; NN)を用いることでILRMAの改良を試みた手法が提案されている。この手法では、単一フレームのパワースペクトルを出力するNNを各音源のサンプルを用いて事前学習し、音源分離アルゴリズムにおいて、学習したNNのフィードフォワード計算により各音源のパワースペクトログラムを更新する方法をとっている。NNがもつ豊かな関数表現能力により、非特許文献２の実験ではILRMA に比べて高い音源分離精度が得られている。

北村大地, 小野順貴, 澤田宏, 亀岡弘和, 猿渡洋, "独立低ランク行列分析に基づくブラインド音源分離,"IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73-80, Oct. 2017. 北村大地, 角野隼斗, 高宗典玄, 高道慎之介, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離の実験的評価," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13-20, Mar. 2018.

しかし、上記の手法では、各音源のパワースペクトログラムを更新する際に尤度関数を増大させる保証がないため、ILRMA やIVA と異なり音源分離アルゴリズムの収束性は保証されず、分離行列の局所解や停留点を得る保証がない点が解決すべき課題となっている。

本発明は、上記課題を解決するために成されたものであり、各構成音が混合した混合信号から、各構成音を精度よく分離することができる信号解析装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る信号解析装置は、各構成音が混合された観測信号を入力として、各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定するパラメータ推定部を含んで構成されている。

また、本発明に係る信号解析方法は、パラメータ推定部が、各構成音が混合された観測信号を入力として、各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定する。

また、本発明に係るプログラムは、コンピュータを、上記発明に係る信号解析装置の各部として機能させるためのプログラムである。

本発明の信号解析装置、方法、及びプログラムによれば、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定することにより、各構成音が混合した混合信号から、各構成音を精度よく分離することができる、という効果が得られる。

本発明の実施の形態に係るエンコーダ及びデコーダの構成を説明するための概念図である。本発明の実施の形態に係る信号解析装置の構成を示すブロック図である。本発明の実施の形態に係る信号解析装置における学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャートである。（Ａ）音声のスペクトログラムを示す図、及び（Ｂ）行列積モデルを用いた手法により得られた音声のスペクトログラムを示す図である。本発明の実施の形態の手法により得られた音声のスペクトログラムを示す図である。本発明の実施の形態の手法と従来手法による、ＳＤＲ、ＳＩＲ、ＳＡＲの平均値を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞
まず、本発明の実施の形態における概要を説明する。

本発明の実施の形態に係る手法は、以下の特徴を備えている。

第一の特徴は、変分自己符号化器に基づく音源パワースペクトログラムのモデル化である。

変分自己符号化器(VariationalAutoencoder; VAE)または音源クラスラベルを補助入力とした条件付きVAE(ConditionalVAE; CVAE) により音源の複素スペクトログラムの生成モデルを記述し、ネットワークパラメータを各音源のサンプルを用いて事前学習する。エンコーダとデコーダのネットワークアーキテクチャを全層畳み込みネットワーク(Fully Convolutional Network; FCN) とすることで、非特許文献２のように単一フレームのみのパワースペクトルではなく、パワースペクトログラム全体を生成するようなモデル化が可能である。

第二の特徴は、音源分離アルゴリズムの収束性である。

上述のVAE音源モデルに基づき分離行列の尤度関数を定義し、音源分離アルゴリズムでは分離行列とVAEのデコーダネットワーク入力および音源クラスベクトルを尤度関数が上昇するように更新する。これにより、分離行列を停留点に収束させることができる。デコーダネットワーク入力の更新には誤差逆伝播法(Backpropagation) を用いる。

第三の特徴は、事前学習と音源分離の最適化規準の一貫性である。

事前学習に用いる音源モデルと音源分離に用いる音源モデルは同形の確率モデル（局所ガウス音源モデルの形）のため、事前学習と音源分離において同一規準により整合された最適化が行われる。

＜本発明の実施の形態の原理＞
＜問題の定式化＞
マイク数をM、音源数をM とし、マイクiの観測信号、音源jの信号の短時間フーリエ変換(Short-Time Fourier transform; STFT) をそれぞれx_i(f,n)、 s_j(f,n) とする。また、これらを要素としたベクトルを

とする。ただし、fとnはそれぞれ周波数および時間フレームのインデックスを表すものとし、x_i(f,n) やs_j(f,n) のような信号の時間周波数表現を複素スペクトログラムという。以下、音源信号ベクトル

と観測信号ベクトル

との間の関係式として瞬時分離系

を仮定する。

は分離行列と呼ばれ、優決定条件のBSSではこれを推定することが目的となる。ただし、(・)^T は行列またはベクトルの転置、(・)^H は複素共役転置を表す。以上の瞬時混合系の仮定の下で、さらに音源jの複素スペクトログラムs_j(f,n)を

のように平均が0、分散がu_j(f,n)の複素ガウス分布に従う確率変数と仮定する。

より、

は音源j のパワースペクトログラムを表す。このように各時間周波数点で異なる分散の複素ガウス分布に独立に従う複素スペクトログラムの生成モデルを局所ガウス音源モデルと呼ぶ。s_j(f,n)とs_j′(f, n)(j≠j′)が統計的に独立のとき、

は

に従う。式(3)、(6)より

は

に従う。従って、分離行列

と各音源のパワースペクトログラム

が与えられたもとでの観測データ

の条件付分布の対数は

となる。式(11) は

の対数尤度であり、式(11) が大きくなるように

を求めることで周波数ごとの独立成分を得る分離行列

を得ることができる。音源パワースペクトログラムu_j(f,n)に制約がない場合は、式(11)は周波数fごとの項に分解されるため、式(11)により求まる

で得られた分離信号のインデックスにはパーミュテーションの任意性が生じる。このため、同一音源に由来する周波数ごとの独立成分をグルーピングするパーミュテーション整合処理が後段で別途必要になる。IVAやILRMAは、音源パワースペクトログラムu_j(f,n)に構造的制約を与えることで周波数ごとの音源分離とパーミュテーション整合を同時解決することを可能にしている。

＜先行技術１: 独立低ランク行列分析(ILRMA)（非特許文献１）＞
ここで、音源パワースペクトログラムu_j(f,n) を

のように非負の基底スペクトル

の線形和で表現した場合の上述の枠組をILRMAと呼び、式(11) を

の尤度関数として

を推定するアルゴリズムが非特許文献１で提案されている。

式(11)を最大化する

を解析的に求めることは難しいが、それぞれを反復的に式(11) が上昇するように更新することで、

の停留点を探索することができる。

＜Ｗの更新＞
式(11) の中で

に関係する項だけを取り出すと

となる。ただし

である。式(13)を上昇させる

の更新は、自然勾配法、FastICAや反復射影法(IP)などを用いて行うことができる。導出は省略するが、IP による

の更新則は以下で与えられる。

ただし、

はM×Mの単位行列

の第j列ベクトルである。

＜

の更新＞

式(11) において

に関係する項は

となる。式(16) を上昇させる

の更新は、EMアルゴリズムや補助関数法を用いて行うことができる。導出は省略するが、補助関数法による

の更新則は以下で与えられる。

この手法では、u_j(f,n)が式(12)の形に制約されるため、式(12)に従わないスペクトログラムをもつ音源を対象とした場合の分離性能は限定的となる。

＜先行技術２:独立深層学習行列分析(IDLMA)（非特許文献２）＞
上述のILRMAのアルゴリズムにおいて

の更新を介して行われる

の更新を、事前学習したニューラルネットワーク(Neural Network; NN) のフィードフォワード計算

に置き換えた手法を独立深層学習行列分析(Independent Deeply Learned Matrix Analysis;IDLMA) と呼ぶ。ただし、

はパラメータθのニューラルネットワークの出力を表し、入力

は分離信号j のフレームnの振幅スペクトル

、出力

は音源jのフレームnのパワースペクトル

である。式(20) の更新は式(11)を上昇させる保証はないため、

の更新と式(20) の更新による反復アルゴリズムの収束性は保証されない。

＜本発明の実施の形態の方法＞
本発明の実施の形態は、各音源の複素スペクトログラムs(f,n)をVAEまたは音源クラスラベルを補助入力としたCVAEによりモデル化する点がポイントである。以下でまずVAEおよびCVAEの原理を説明し、VAE音源モデルを用いたBSS手法を定式化する。

＜変分自己符号化器(Variational Autoencoder; VAE)＞
VAEはエンコーダとデコーダのNNからなる確率的生成モデルである。エンコーダネットワークは入力データ

が与えられた下での潜在変数

の条件付分布

のパラメータを出力するNNで、デコーダネットワークは潜在変数

が与えられた下でのデータ

の条件付分布

のパラメータを出力するNNである。学習データを

とすると、VAEはエンコーダ分布

とデコーダ分布

が無矛盾となるように、エンコーダ分布

と、

から導かれる事後分布

ができるだけ一致するようにエンコーダとデコーダのNNパラメータφ，θを学習する。Jensenの不等式を用いることにより対数周辺尤度（エビデンス）

の下界

が得られる。式(21)の左辺と右辺の差は

と

のKullback-Leibler (KL) ダイバージェンス

と等しく、

のとき最小となる。よって、式(21) の右辺を大きくすることは

と

を近づけることに相当する。ここで、

をパラメータφのエンコーダネットワークの出力、

をパラメータθのデコーダネットワークの出力とし、

をそれぞれこれらを平均と分散とした正規分布、

を標準正規分布

と仮定すると、式(21) の右辺第一項は

と書ける。ただし、[・]_nはベクトルの第n要素を表す。ここで、

という関係式を通して

に変数変換できることを用いている。ただし、

はベクトルの要素ごとの積を表す。式(26)は、

に由来するランダム項を無視すると

の重み付き二乗誤差の負となっていることが分かる。これがVAE（確率的な自己符号化器）と呼ばれる所以である。また、式(21)の右辺第二項は

と

のKLダイバージェンスの負で与えられ、エンコーダネットワークの出力の各要素が独立にかつ正規分布に従うよう強制する正則化項として働く。

条件付VAE(Conditional VAE; CVAE) は

のようにエンコーダとデコーダを補助変数cを入力可能な形にしたVAEの拡張版である。このとき、最大化したい目的関数は、

となる。ただし、

は学習サンプル

による標本平均を表す。

＜VAE音源モデルを用いたBSS＞
ある音源の複素スペクトログラムを

とし、対応する音源の属性ラベルをcとする。ここで音源の属性は、音声の場合は話者ID、楽音の場合は楽器の種類などをさし、cは該当属性を示した1one-hotベクトルとする。まず、

の生成モデルを、cを補助入力としたCVAEによりモデル化する。ここで、デコーダ分布

を式(5) の局所ガウス音源モデルと同形とするため、平均が0の複素ガウス分布

とし、分散

のみを出力するネットワークをデコーダとする。ただし、ｇはパワースペクトログラムのスケールを表す変数であり、

はデコーダ出力の

の第(f,n)要素を表す。一方、エンコーダ分布

は通常のCVAEと同様、

とする。ただし、

はそれぞれ

の第k要素を表す。

上記の変分自己符号化器と同様に、デコーダとエンコーダのNNパラメータθ、φは各種属性の音源の複素スペクトログラム

のサンプルを用いて

を規準として学習する。ただし、

は学習サンプル

による標本平均を表す。以上により学習したデコーダ分布

をVAE音源モデルと呼ぶ。図１に本発明の実施の形態におけるCVAEの概念図を示す。

VAE音源モデルは、学習サンプルに含まれる様々な属性の音源の複素スペクトログラムを表現可能なユニバーサルな生成モデルとなっており、VAEの特徴よりcは音源属性のカテゴリカルな特徴を調整する役割、zは属性内の変動を調整する役割を担った変数となっている。式(30)より、VAE音源モデルは

をパラメータとした局所ガウス音源モデルと見なせるため、音源jの複素スペクトログラム

の生成モデルを、

を入力としたデコーダ分布

により表現することで、式(11) と同形の尤度関数に帰着する。すなわち、最大化すべき尤度関数は式(11)のv_j(f,n)に

を代入した

となる。従って、式(34)が大きくなるように分離行列

、VAE音源モデルパラメータ

、スケールパラメータg_jを反復的に更新することで、式(34)の停留点を探索することができる。式(34)を上昇させる

の更新は上記＜Ｗの更新＞と同様の方法、式(34)を上昇させる

の更新は誤差逆伝播法(Backpropagation)、式(34)を上昇させる

の更新は

により行うことができる。ただし、c_jの更新は、c_jの要素の和が1となる制約の下で行う必要がある場合は、c_jをソフトマックス層

に置き換えた上で、その入力u_jをc_jの代わりのパラメータとして扱い最適化する方法が簡便である。また、式(35)は、

が固定された下で式(11)を最大にするg_jをg_jの更新値とすることを意味する。以上より提案する音源分離アルゴリズムは以下のようにまとめられる。

1. 式(33)を学習規準としてθ、φを学習する。

2.

を初期化する。

3. 各jについて下記ステップを繰り返す。

（a）式(14)、(15)により

を更新する。

（b）式(34)を規準として誤差逆伝播法により

または

を更新する。

（c）式(35)によりg_jを更新する。

＜本発明の実施の形態に係る信号解析装置の構成＞
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図２に示すように、本発明の実施の形態に係る信号解析装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及びパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この信号解析装置１００は、機能的には図２に示すように入力部１０と、演算部２０と、出力部９０と、を含んで構成されている。

入力部１０は、学習データとして、複数の構成音の各々について、当該構成音の信号の時系列データ及び当該構成音の信号の属性を示す属性ラベルを受け付ける。また、入力部１０は、解析対象データとして、複数の構成音が混じっている混合信号（以後、観測信号）の時系列データを受け付ける。なお、構成音の信号の属性を示す属性ラベルは、人手で与えておけばよい。また、構成音の信号の属性とは、例えば、性別、大人／子供、話者ＩＤなどである。

演算部２０は、時間周波数展開部２４と、学習部３２と、音源信号モデル記憶部３４と、パラメータ推定部３６と、を含んで構成されている。

時間周波数展開部２４は、構成音毎に、当該構成音の信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。また、時間周波数展開部２４は、観測信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。

学習部３２は、構成音毎に、当該構成音についてのパワースペクトログラム及び属性ラベルに基づいて、当該構成音のパワースペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音のパワースペクトログラムを生成するデコーダを学習する。

具体的には、学習部３２は、構成音毎に、デコーダによって生成されたパワースペクトログラムと、元の構成音の信号におけるパワースペクトログラムとの誤差、並びに、エンコーダによって推定された潜在ベクトル系列と、元の構成音の信号における潜在ベクトル系列との距離を用いて表される、上記式（３３）の目的関数の値を最大化するように、エンコーダ及びデコーダを学習し、音源信号モデル記憶部３４に格納する。ここで、エンコーダ及びデコーダの各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。

パラメータ推定部３６は、観測信号のパワースペクトログラムに基づいて、各構成音についての、デコーダによって生成される、当該構成音のパワースペクトログラムの分散とスケールパラメータとから算出される、当該構成音のパワースペクトログラム、各構成音のパワースペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び観測信号を各構成音に分離した信号を用いて表される上記式（３４）式の目的関数を最大化するように、分離行列と、潜在ベクトル系列と、構成音の属性ラベルと、スケールパラメータとを推定する。

具体的には、パラメータ推定部３６は、初期値設定部４０、分離行列更新部４２、潜在変数更新部４４、スケールパラメータ更新部４６、及び収束判定部４８を備えている。

初期値設定部４０は、分離行列と、各構成音の潜在ベクトル系列と、各構成音の属性ラベルと、各構成音のスケールパラメータとに初期値を設定する。

分離行列更新部４２は、観測信号のパワースペクトログラムと、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式（３４）に示す目的関数を大きくするように、上記式（１４）、（１５）に従って、分離行列を更新する。

潜在変数更新部４４は、観測信号のパワースペクトログラムと、更新された分離行列と、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、上記式（３４）に示す目的関数を大きくするように、誤差逆伝播法により、各構成音の潜在ベクトル系列と、各構成音の属性ラベルとを更新する。

スケールパラメータ更新部４６は、観測信号のパワースペクトログラムと、更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式（３４）に示す目的関数を大きくするように、上記式（３５）に従って、スケールパラメータを更新する。

収束判定部４８は、収束条件を満たすか否かを判定し、収束条件を満たすまで、分離行列更新部４２における更新処理と、潜在変数更新部４４における更新処理と、スケールパラメータ更新部４６における更新処理とを繰り返させる。

収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記式（３４）の目的関数の値と前回の目的関数の値との差分が、予め定められた閾値以下であることを用いることができる。

出力部９０は、パラメータ推定部３６において取得した、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、各構成音のデコーダを用いて生成される各構成音のパワースペクトログラムを求め、各構成音のパワースペクトログラムから、各構成音の信号を生成して出力する。

＜本発明の実施の形態に係る信号解析装置の作用＞
次に、本発明の実施の形態に係る信号解析装置１００の作用について説明する。

入力部１０において、学習データとして、複数の構成音の各々について、当該構成音の信号の時系列データ及び当該構成音の信号の属性を示す属性ラベルを受け付けると、信号解析装置１００は、図３に示す学習処理ルーチンを実行する。

まず、ステップＳ１００において、構成音毎に、当該構成音の信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。

次のステップＳ１０２では、構成音毎に、当該構成音についてのパワースペクトログラム及び属性ラベルに基づいて、当該構成音のパワースペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音のパワースペクトログラムを生成するデコーダを学習し、学習したエンコーダ及びデコーダのパラメータを、音源信号モデル記憶部３４に格納する。

そして、入力部１０において、各構成音が混在した観測信号の時系列データを受け付けると、信号解析装置１００は、図４に示すパラメータ推定処理ルーチンを実行する。

まず、ステップＳ１２０において、観測信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。

ステップＳ１２２では、初期値設定部４０は、分離行列と、各構成音の潜在ベクトル系列と、各構成音の属性ラベルと、各構成音のスケールパラメータとに初期値を設定する。

ステップＳ１２４では、分離行列更新部４２は、上記ステップＳ１２０で計算された観測信号のパワースペクトログラムと、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式（３４）に示す目的関数を大きくするように、上記式（１４）、（１５）に従って、分離行列を更新する。

ステップＳ１２６では、潜在変数更新部４４は、上記ステップＳ１２０で計算された観測信号のパワースペクトログラムと、更新された分離行列と、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、上記式（３４）に示す目的関数を大きくするように、誤差逆伝播法により、各構成音の潜在ベクトル系列と、各構成音の属性ラベルとを更新する。

ステップＳ１２８では、スケールパラメータ更新部４６は、上記ステップＳ１２０で計算された観測信号のパワースペクトログラムと、更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式（３４）に示す目的関数を大きくするように、上記式（３５）に従って、スケールパラメータを更新する。

次に、ステップＳ１３０では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップＳ１３２へ移行し、収束条件を満たしていない場合には、ステップＳ１２４へ移行し、ステップＳ１２４〜ステップＳ１２８の処理を繰り返す。

ステップＳ１３２では、上記ステップＳ１２４〜Ｓ１２８で最終的に更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、及び各構成音のスケールパラメータに基づいて、各構成音のデコーダを用いて各構成音のパワースペクトログラムを生成し、各構成音のパワースペクトログラムから、各構成音の信号を生成して、出力部９０から出力し、パラメータ推定処理ルーチンを終了する。

＜実験結果＞
本発明の実施の形態の手法による音源分離効果を確認するため、図５と図６に音声のスペクトログラムに対して式(12)の行列積モデルをフィッティングした例と、本発明の実施の形態に係るVAE音源モデルをフィッティングした例を示す。行列積モデルに比べてVAE音源モデルの方が正確に音声のスペクトログラムを表現できていることが確認できる。

また、本発明の実施の形態の手法の有効性を確認するため、VCTK2018の女性話者（SF1、SF2）と男性話者（SM1、SM2）の声を用いて音源分離実験を行った。音源数を2、マイク数を2として、鏡像法によりシミュレートした室内インパルス応答を用いて混合信号を生成した。ILRMA（非特許文献１）をベースラインとして、Signal-to-Distortion Ration (SDR)、Signal-to-Interference Ratio (SIR)、 Signal-to-Artifact Ratio (SAR) を指標として、本発明の実施の形態の手法（MVAE）とILRMAの分離精度を評価した。図７にその結果を示す。本発明の実施の形態の手法（MVAE）が従来手法に比べて高い分離性能を得られていることが確認できる。

以上説明したように、本発明の実施の形態に係る信号解析装置によれば、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、構成音のスペクトログラムの分散と、スケールパラメータとから算出される、構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、分離行列と、潜在ベクトル系列と、スケールパラメータとを推定することにより、各構成音が混合した混合信号から、各構成音を精度よく分離することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、属性ラベルを入力としないエンコーダ及びデコーダを用いてもよい。この場合、属性ラベルが不要なため、パラメータ推定部では、属性ラベルを推定しない。

また、観測信号のパワースペクトログラムや構成音のパワースペクトログラムを計算する場合を例に説明したが、これに限定されるものではなく、観測信号の振幅スペクトログラムや構成音の振幅スペクトログラムを計算するようにしてもよい。この場合には、学習部３２は、構成音毎に、当該構成音の振幅スペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音の振幅スペクトログラムを生成するデコーダを学習する。また、パラメータ推定部３６は、観測信号の振幅スペクトログラムに基づいて、各構成音についての、デコーダによって生成される、当該構成音の振幅スペクトログラムの分散とスケールパラメータとから算出される、当該構成音の振幅スペクトログラム、各構成音の振幅スペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最大化するように、分離行列と、潜在ベクトル系列と、構成音の属性ラベルと、スケールパラメータとを推定する。

また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０入力部
２０演算部
２４時間周波数展開部
３２学習部
３４音源信号モデル記憶部
３６パラメータ推定部
４０初期値設定部
４２分離行列更新部
４４潜在変数更新部
４６スケールパラメータ更新部
４８収束判定部
９０出力部
１００信号解析装置

Claims

各構成音が混合された観測信号を入力として、
各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定するパラメータ推定部
を含む信号解析装置。
各構成音についてのスペクトログラムに基づいて、前記構成音毎に、前記構成音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダ、及び前記エンコーダを学習する学習部を更に含む請求項１記載の信号解析装置。
前記エンコーダは、前記構成音のスペクトログラム及び前記構成音の属性を示す属性ラベルを入力として、前記潜在ベクトル系列を推定し、
前記デコーダは、前記潜在ベクトル系列及び前記構成音の属性ラベルを入力として、前記構成音のスペクトログラムの分散を推定し、
前記パラメータ推定部は、前記目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記属性ラベルと、前記スケールパラメータとを推定する請求項２記載の信号解析装置。
パラメータ推定部が、各構成音が混合された観測信号を入力として、
各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定する
信号解析方法。
コンピュータを、請求項１〜請求項３のいずれか１項に記載の信号解析装置の各部として機能させるためのプログラム。