JP2020034870A - 信号解析装置、方法、及びプログラム - Google Patents

信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP2020034870A
JP2020034870A JP2018163563A JP2018163563A JP2020034870A JP 2020034870 A JP2020034870 A JP 2020034870A JP 2018163563 A JP2018163563 A JP 2018163563A JP 2018163563 A JP2018163563 A JP 2018163563A JP 2020034870 A JP2020034870 A JP 2020034870A
Authority
JP
Japan
Prior art keywords
sound
spectrogram
constituent sound
constituent
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018163563A
Other languages
English (en)
Other versions
JP6910609B2 (ja
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
莉 李
Ri Ri
莉 李
翔太 井上
Shota Inoue
翔太 井上
牧野 昭二
Shoji Makino
昭二 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tsukuba NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tsukuba NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018163563A priority Critical patent/JP6910609B2/ja
Publication of JP2020034870A publication Critical patent/JP2020034870A/ja
Application granted granted Critical
Publication of JP6910609B2 publication Critical patent/JP6910609B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】各構成音が混合した混合信号から、各構成音を精度よく分離することができる。【解決手段】パラメータ推定部36が、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、構成音のスペクトログラムの分散と、スケールパラメータとから算出される、構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、分離行列と、潜在ベクトル系列と、スケールパラメータとを推定する。【選択図】図2

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、各構成音が混合された観測信号を入力として各構成音の信号に分離するための信号解析装置、方法、及びプログラムに関する。
ブラインド音源分離(Blind Source Separation; BSS) は、音源とマイクとの間の伝達関数が未知な状況下で、マイクアレイの入力から個々の音源信号を分離する技術である。周波数領域で定式化されるBSSのアプローチは、周波数ごとの音源分離の問題と周波数ごとに得られる分離信号がそれぞれどの音源のものであるかを対応付けるパーミュテーション整合と呼ぶ問題を併せて解く必要があるが、音源の混合過程を畳み込み演算を含まない瞬時混合系で表せるため比較的効率の高いアルゴリズムを実現できる利点がある。また、音源に関する時間周波数領域で成り立つ様々な仮定やマイクロホンアレーの周波数応答に関する仮定を有効活用できるようになる点も大きな利点である。
例えば、同一音源に由来する周波数成分の大きさは同期して時間変化しやすいという傾向を手がかりにしながら各周波数における音源分離とパーミュテーション整合を同時解決する独立ベクトル分析(Independent Vector Analysis; IVA) と呼ぶ独立成分分析(Independent Component Analysis;ICA)の拡張版が提案されている。近年、非負値行列因子分解(Non-negative Matrix Factorization; NMF) を用いたモノラル音源分離法を多チャンネル拡張した多チャンネルNMF(Multichannel NMF; MNMF) と呼ぶ枠組が提案されている。
NMFによるモノラル音源分離法では観測信号のパワー(あるいは振幅)スペクトログラムを非負値行列とみなし、これを二つの非負値行列の積で近似する。これは、各時間フレームで観測される混合信号のパワースペクトルが、時間変化する振幅によってスケーリングされた基底スペクトルの線形和によって近似することに相当する。MNMF法は、このアイディアをBSSにおける各音源のパワースペクトログラムのモデル化に導入した枠組である。この方法はIVA と同様音源のスペクトル構造を手がかりにしながら周波数ごとの音源分離とパーミュテーション整合を同時解決するアプローチとなっている。非特許文献1ではこの枠組を独立低ランク行列分析(Independent Low-Rank Matrix Analysis; ILRMA) と呼んでいる。
上述のとおりMNMFやILRMAでは各音源のパワースペクトログラムを二つの非負値行列の積(低ランクの行列)でモデル化するが、IVAは各音源のパワースペクトログラムを非負値ベクトルの直積(ランク1の行列)でモデル化した特殊ケースと見なせる。ILRMAのIVAに対する音源分離精度の優位性は、両モデル間の表現能力の差によるところが大きい。これはすなわち、より柔軟で高い表現能力をもつスペクトログラムモデルを導入することができれば、さらなる高精度化が望めることを示唆している。行列積では実際に表現可能なスペクトログラムの範囲は限定的である(音声をはじめ多くの音源のスペクトログラムを必ずしも正確に表現することができない)ため、パワースペクトログラムのモデル化には改良の余地が残されている。
非特許文献2では、行列積に代わるパワースペクトログラムモデルとしてニューラルネットワーク(Neural Network; NN)を用いることでILRMAの改良を試みた手法が提案されている。この手法では、単一フレームのパワースペクトルを出力するNNを各音源のサンプルを用いて事前学習し、音源分離アルゴリズムにおいて、学習したNNのフィードフォワード計算により各音源のパワースペクトログラムを更新する方法をとっている。NNがもつ豊かな関数表現能力により、非特許文献2の実験ではILRMA に比べて高い音源分離精度が得られている。
北村大地, 小野順貴, 澤田宏, 亀岡弘和, 猿渡洋, "独立低ランク行列分析に基づくブラインド音源分離,"IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73-80, Oct. 2017. 北村大地, 角野隼斗, 高宗典玄, 高道慎之介, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離の実験的評価," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13-20, Mar. 2018.
しかし、上記の手法では、各音源のパワースペクトログラムを更新する際に尤度関数を増大させる保証がないため、ILRMA やIVA と異なり音源分離アルゴリズムの収束性は保証されず、分離行列の局所解や停留点を得る保証がない点が解決すべき課題となっている。
本発明は、上記課題を解決するために成されたものであり、各構成音が混合した混合信号から、各構成音を精度よく分離することができる信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る信号解析装置は、各構成音が混合された観測信号を入力として、各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定するパラメータ推定部を含んで構成されている。
また、本発明に係る信号解析方法は、パラメータ推定部が、各構成音が混合された観測信号を入力として、各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定する。
また、本発明に係るプログラムは、コンピュータを、上記発明に係る信号解析装置の各部として機能させるためのプログラムである。
本発明の信号解析装置、方法、及びプログラムによれば、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定することにより、各構成音が混合した混合信号から、各構成音を精度よく分離することができる、という効果が得られる。
本発明の実施の形態に係るエンコーダ及びデコーダの構成を説明するための概念図である。 本発明の実施の形態に係る信号解析装置の構成を示すブロック図である。 本発明の実施の形態に係る信号解析装置における学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャートである。 (A)音声のスペクトログラムを示す図、及び(B)行列積モデルを用いた手法により得られた音声のスペクトログラムを示す図である。 本発明の実施の形態の手法により得られた音声のスペクトログラムを示す図である。 本発明の実施の形態の手法と従来手法による、SDR、SIR、SARの平均値を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態に係る手法は、以下の特徴を備えている。
第一の特徴は、変分自己符号化器に基づく音源パワースペクトログラムのモデル化である。
変分自己符号化器(VariationalAutoencoder; VAE)または音源クラスラベルを補助入力とした条件付きVAE(ConditionalVAE; CVAE) により音源の複素スペクトログラムの生成モデルを記述し、ネットワークパラメータを各音源のサンプルを用いて事前学習する。エンコーダとデコーダのネットワークアーキテクチャを全層畳み込みネットワーク(Fully Convolutional Network; FCN) とすることで、非特許文献2のように単一フレームのみのパワースペクトルではなく、パワースペクトログラム全体を生成するようなモデル化が可能である。
第二の特徴は、音源分離アルゴリズムの収束性である。
上述のVAE音源モデルに基づき分離行列の尤度関数を定義し、音源分離アルゴリズムでは分離行列とVAEのデコーダネットワーク入力および音源クラスベクトルを尤度関数が上昇するように更新する。これにより、分離行列を停留点に収束させることができる。デコーダネットワーク入力の更新には誤差逆伝播法(Backpropagation) を用いる。
第三の特徴は、事前学習と音源分離の最適化規準の一貫性である。
事前学習に用いる音源モデルと音源分離に用いる音源モデルは同形の確率モデル(局所ガウス音源モデルの形)のため、事前学習と音源分離において同一規準により整合された最適化が行われる。
<本発明の実施の形態の原理>
<問題の定式化>
マイク数をM、音源数をM とし、マイクiの観測信号、音源jの信号の短時間フーリエ変換(Short-Time Fourier transform; STFT) をそれぞれxi(f,n)、 sj(f,n) とする。また、これらを要素としたベクトルを
とする。ただし、fとnはそれぞれ周波数および時間フレームのインデックスを表すものとし、xi(f,n) やsj(f,n) のような信号の時間周波数表現を複素スペクトログラムという。以下、音源信号ベクトル

と観測信号ベクトル

との間の関係式として瞬時分離系
を仮定する。

は分離行列と呼ばれ、優決定条件のBSSではこれを推定することが目的となる。ただし、(・)T は行列またはベクトルの転置、(・)H は複素共役転置を表す。以上の瞬時混合系の仮定の下で、さらに音源jの複素スペクトログラムsj(f,n)を
のように平均が0、分散がuj(f,n)の複素ガウス分布に従う確率変数と仮定する。

より、

は音源j のパワースペクトログラムを表す。このように各時間周波数点で異なる分散の複素ガウス分布に独立に従う複素スペクトログラムの生成モデルを局所ガウス音源モデルと呼ぶ。sj(f,n)とsj′(f, n)(j≠j′)が統計的に独立のとき、

に従う。式(3)、(6)より

に従う。従って、分離行列

と各音源のパワースペクトログラム

が与えられたもとでの観測データ

の条件付分布の対数は
となる。式(11) は

の対数尤度であり、式(11) が大きくなるように

を求めることで周波数ごとの独立成分を得る分離行列

を得ることができる。音源パワースペクトログラムuj(f,n)に制約がない場合は、式(11)は周波数fごとの項に分解されるため、式(11)により求まる

で得られた分離信号のインデックスにはパーミュテーションの任意性が生じる。このため、同一音源に由来する周波数ごとの独立成分をグルーピングするパーミュテーション整合処理が後段で別途必要になる。IVAやILRMAは、音源パワースペクトログラムuj(f,n)に構造的制約を与えることで周波数ごとの音源分離とパーミュテーション整合を同時解決することを可能にしている。
<先行技術1: 独立低ランク行列分析(ILRMA)(非特許文献1)>
ここで、音源パワースペクトログラムuj(f,n) を
のように非負の基底スペクトル

の線形和で表現した場合の上述の枠組をILRMAと呼び、式(11) を

の尤度関数として

を推定するアルゴリズムが非特許文献1で提案されている。
式(11)を最大化する

を解析的に求めることは難しいが、それぞれを反復的に式(11) が上昇するように更新することで、

の停留点を探索することができる。
<Wの更新>
式(11) の中で

に関係する項だけを取り出すと
となる。ただし

である。式(13)を上昇させる

の更新は、自然勾配法、FastICAや反復射影法(IP)などを用いて行うことができる。導出は省略するが、IP による

の更新則は以下で与えられる。
ただし、

はM×Mの単位行列

の第j列ベクトルである。


の更新>
式(11) において

に関係する項は
となる。式(16) を上昇させる

の更新は、EMアルゴリズムや補助関数法を用いて行うことができる。導出は省略するが、補助関数法による

の更新則は以下で与えられる。
この手法では、uj(f,n)が式(12)の形に制約されるため、式(12)に従わないスペクトログラムをもつ音源を対象とした場合の分離性能は限定的となる。
<先行技術2:独立深層学習行列分析(IDLMA)(非特許文献2)>
上述のILRMAのアルゴリズムにおいて

の更新を介して行われる

の更新を、事前学習したニューラルネットワーク(Neural Network; NN) のフィードフォワード計算
に置き換えた手法を独立深層学習行列分析(Independent Deeply Learned Matrix Analysis;IDLMA) と呼ぶ。ただし、

はパラメータθのニューラルネットワークの出力を表し、入力

は分離信号j のフレームnの振幅スペクトル

、出力

は音源jのフレームnのパワースペクトル

である。式(20) の更新は式(11)を上昇させる保証はないため、

の更新と式(20) の更新による反復アルゴリズムの収束性は保証されない。
<本発明の実施の形態の方法>
本発明の実施の形態は、各音源の複素スペクトログラムs(f,n)をVAEまたは音源クラスラベルを補助入力としたCVAEによりモデル化する点がポイントである。以下でまずVAEおよびCVAEの原理を説明し、VAE音源モデルを用いたBSS手法を定式化する。
<変分自己符号化器(Variational Autoencoder; VAE)>
VAEはエンコーダとデコーダのNNからなる確率的生成モデルである。エンコーダネットワークは入力データ

が与えられた下での潜在変数

の条件付分布

のパラメータを出力するNNで、デコーダネットワークは潜在変数

が与えられた下でのデータ

の条件付分布

のパラメータを出力するNNである。学習データを

とすると、VAEはエンコーダ分布

とデコーダ分布

が無矛盾となるように、エンコーダ分布

と、

から導かれる事後分布

ができるだけ一致するようにエンコーダとデコーダのNNパラメータφ,θを学習する。Jensenの不等式を用いることにより対数周辺尤度(エビデンス)

の下界
が得られる。式(21)の左辺と右辺の差は



のKullback-Leibler (KL) ダイバージェンス

と等しく、
のとき最小となる。よって、式(21) の右辺を大きくすることは



を近づけることに相当する。ここで、

をパラメータφのエンコーダネットワークの出力、

をパラメータθのデコーダネットワークの出力とし、

をそれぞれこれらを平均と分散とした正規分布、

を標準正規分布
と仮定すると、式(21) の右辺第一項は
と書ける。ただし、[・]nはベクトルの第n要素を表す。ここで、

という関係式を通して

に変数変換できることを用いている。ただし、

はベクトルの要素ごとの積を表す。式(26)は、

に由来するランダム項を無視すると

の重み付き二乗誤差の負となっていることが分かる。これがVAE(確率的な自己符号化器)と呼ばれる所以である。また、式(21)の右辺第二項は



のKLダイバージェンスの負で与えられ、エンコーダネットワークの出力の各要素が独立にかつ正規分布に従うよう強制する正則化項として働く。
条件付VAE(Conditional VAE; CVAE) は
のようにエンコーダとデコーダを補助変数cを入力可能な形にしたVAEの拡張版である。このとき、最大化したい目的関数は、
となる。ただし、

は学習サンプル

による標本平均を表す。
<VAE音源モデルを用いたBSS>
ある音源の複素スペクトログラムを

とし、対応する音源の属性ラベルをcとする。ここで音源の属性は、音声の場合は話者ID、楽音の場合は楽器の種類などをさし、cは該当属性を示した1one-hotベクトルとする。まず、

の生成モデルを、cを補助入力としたCVAEによりモデル化する。ここで、デコーダ分布

を式(5) の局所ガウス音源モデルと同形とするため、平均が0の複素ガウス分布
とし、分散

のみを出力するネットワークをデコーダとする。ただし、gはパワースペクトログラムのスケールを表す変数であり、

はデコーダ出力の

の第(f,n)要素を表す。一方、エンコーダ分布

は通常のCVAEと同様、
とする。ただし、

はそれぞれ

の第k要素を表す。
上記の変分自己符号化器と同様に、デコーダとエンコーダのNNパラメータθ、φは各種属性の音源の複素スペクトログラム

のサンプルを用いて
を規準として学習する。ただし、

は学習サンプル

による標本平均を表す。以上により学習したデコーダ分布

をVAE音源モデルと呼ぶ。図1に本発明の実施の形態におけるCVAEの概念図を示す。
VAE音源モデルは、学習サンプルに含まれる様々な属性の音源の複素スペクトログラムを表現可能なユニバーサルな生成モデルとなっており、VAEの特徴よりcは音源属性のカテゴリカルな特徴を調整する役割、zは属性内の変動を調整する役割を担った変数となっている。式(30)より、VAE音源モデルは

をパラメータとした局所ガウス音源モデルと見なせるため、音源jの複素スペクトログラム

の生成モデルを、

を入力としたデコーダ分布

により表現することで、式(11) と同形の尤度関数に帰着する。すなわち、最大化すべき尤度関数は式(11)のvj(f,n)に

を代入した
となる。従って、式(34)が大きくなるように分離行列

、VAE音源モデルパラメータ

、スケールパラメータgjを反復的に更新することで、式(34)の停留点を探索することができる。式(34)を上昇させる

の更新は上記<Wの更新>と同様の方法、式(34)を上昇させる

の更新は誤差逆伝播法(Backpropagation)、式(34)を上昇させる

の更新は
により行うことができる。ただし、cjの更新は、cjの要素の和が1となる制約の下で行う必要がある場合は、cjをソフトマックス層
に置き換えた上で、その入力ujをcjの代わりのパラメータとして扱い最適化する方法が簡便である。また、式(35)は、

が固定された下で式(11)を最大にするgjをgjの更新値とすることを意味する。以上より提案する音源分離アルゴリズムは以下のようにまとめられる。
1. 式(33)を学習規準としてθ、φを学習する。
2.

を初期化する。
3. 各jについて下記ステップを繰り返す。
(a)式(14)、(15)により

を更新する。
(b)式(34)を規準として誤差逆伝播法により

または

を更新する。
(c)式(35)によりgjを更新する。
<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図2に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する学習処理ルーチン及びパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
入力部10は、学習データとして、複数の構成音の各々について、当該構成音の信号の時系列データ及び当該構成音の信号の属性を示す属性ラベルを受け付ける。また、入力部10は、解析対象データとして、複数の構成音が混じっている混合信号(以後、観測信号)の時系列データを受け付ける。なお、構成音の信号の属性を示す属性ラベルは、人手で与えておけばよい。また、構成音の信号の属性とは、例えば、性別、大人/子供、話者IDなどである。
演算部20は、時間周波数展開部24と、学習部32と、音源信号モデル記憶部34と、パラメータ推定部36と、を含んで構成されている。
時間周波数展開部24は、構成音毎に、当該構成音の信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。また、時間周波数展開部24は、観測信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
学習部32は、構成音毎に、当該構成音についてのパワースペクトログラム及び属性ラベルに基づいて、当該構成音のパワースペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音のパワースペクトログラムを生成するデコーダを学習する。
具体的には、学習部32は、構成音毎に、デコーダによって生成されたパワースペクトログラムと、元の構成音の信号におけるパワースペクトログラムとの誤差、並びに、エンコーダによって推定された潜在ベクトル系列と、元の構成音の信号における潜在ベクトル系列との距離を用いて表される、上記式(33)の目的関数の値を最大化するように、エンコーダ及びデコーダを学習し、音源信号モデル記憶部34に格納する。ここで、エンコーダ及びデコーダの各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。
パラメータ推定部36は、観測信号のパワースペクトログラムに基づいて、各構成音についての、デコーダによって生成される、当該構成音のパワースペクトログラムの分散とスケールパラメータとから算出される、当該構成音のパワースペクトログラム、各構成音のパワースペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び観測信号を各構成音に分離した信号を用いて表される上記式(34)式の目的関数を最大化するように、分離行列と、潜在ベクトル系列と、構成音の属性ラベルと、スケールパラメータとを推定する。
具体的には、パラメータ推定部36は、初期値設定部40、分離行列更新部42、潜在変数更新部44、スケールパラメータ更新部46、及び収束判定部48を備えている。
初期値設定部40は、分離行列と、各構成音の潜在ベクトル系列と、各構成音の属性ラベルと、各構成音のスケールパラメータとに初期値を設定する。
分離行列更新部42は、観測信号のパワースペクトログラムと、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(34)に示す目的関数を大きくするように、上記式(14)、(15)に従って、分離行列を更新する。
潜在変数更新部44は、観測信号のパワースペクトログラムと、更新された分離行列と、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、上記式(34)に示す目的関数を大きくするように、誤差逆伝播法により、各構成音の潜在ベクトル系列と、各構成音の属性ラベルとを更新する。
スケールパラメータ更新部46は、観測信号のパワースペクトログラムと、更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(34)に示す目的関数を大きくするように、上記式(35)に従って、スケールパラメータを更新する。
収束判定部48は、収束条件を満たすか否かを判定し、収束条件を満たすまで、分離行列更新部42における更新処理と、潜在変数更新部44における更新処理と、スケールパラメータ更新部46における更新処理とを繰り返させる。
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記式(34)の目的関数の値と前回の目的関数の値との差分が、予め定められた閾値以下であることを用いることができる。
出力部90は、パラメータ推定部36において取得した、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、各構成音のデコーダを用いて生成される各構成音のパワースペクトログラムを求め、各構成音のパワースペクトログラムから、各構成音の信号を生成して出力する。
<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。
入力部10において、学習データとして、複数の構成音の各々について、当該構成音の信号の時系列データ及び当該構成音の信号の属性を示す属性ラベルを受け付けると、信号解析装置100は、図3に示す学習処理ルーチンを実行する。
まず、ステップS100において、構成音毎に、当該構成音の信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。
次のステップS102では、構成音毎に、当該構成音についてのパワースペクトログラム及び属性ラベルに基づいて、当該構成音のパワースペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音のパワースペクトログラムを生成するデコーダを学習し、学習したエンコーダ及びデコーダのパラメータを、音源信号モデル記憶部34に格納する。
そして、入力部10において、各構成音が混在した観測信号の時系列データを受け付けると、信号解析装置100は、図4に示すパラメータ推定処理ルーチンを実行する。
まず、ステップS120において、観測信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。
ステップS122では、初期値設定部40は、分離行列と、各構成音の潜在ベクトル系列と、各構成音の属性ラベルと、各構成音のスケールパラメータとに初期値を設定する。
ステップS124では、分離行列更新部42は、上記ステップS120で計算された観測信号のパワースペクトログラムと、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(34)に示す目的関数を大きくするように、上記式(14)、(15)に従って、分離行列を更新する。
ステップS126では、潜在変数更新部44は、上記ステップS120で計算された観測信号のパワースペクトログラムと、更新された分離行列と、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、上記式(34)に示す目的関数を大きくするように、誤差逆伝播法により、各構成音の潜在ベクトル系列と、各構成音の属性ラベルとを更新する。
ステップS128では、スケールパラメータ更新部46は、上記ステップS120で計算された観測信号のパワースペクトログラムと、更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(34)に示す目的関数を大きくするように、上記式(35)に従って、スケールパラメータを更新する。
次に、ステップS130では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS132へ移行し、収束条件を満たしていない場合には、ステップS124へ移行し、ステップS124〜ステップS128の処理を繰り返す。
ステップS132では、上記ステップS124〜S128で最終的に更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、及び各構成音のスケールパラメータに基づいて、各構成音のデコーダを用いて各構成音のパワースペクトログラムを生成し、各構成音のパワースペクトログラムから、各構成音の信号を生成して、出力部90から出力し、パラメータ推定処理ルーチンを終了する。
<実験結果>
本発明の実施の形態の手法による音源分離効果を確認するため、図5と図6に音声のスペクトログラムに対して式(12)の行列積モデルをフィッティングした例と、本発明の実施の形態に係るVAE音源モデルをフィッティングした例を示す。行列積モデルに比べてVAE音源モデルの方が正確に音声のスペクトログラムを表現できていることが確認できる。
また、本発明の実施の形態の手法の有効性を確認するため、VCTK2018の女性話者(SF1、SF2)と男性話者(SM1、SM2)の声を用いて音源分離実験を行った。音源数を2、マイク数を2として、鏡像法によりシミュレートした室内インパルス応答を用いて混合信号を生成した。ILRMA(非特許文献1)をベースラインとして、Signal-to-Distortion Ration (SDR)、Signal-to-Interference Ratio (SIR)、 Signal-to-Artifact Ratio (SAR) を指標として、本発明の実施の形態の手法(MVAE)とILRMAの分離精度を評価した。図7にその結果を示す。本発明の実施の形態の手法(MVAE)が従来手法に比べて高い分離性能を得られていることが確認できる。
以上説明したように、本発明の実施の形態に係る信号解析装置によれば、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、構成音のスペクトログラムの分散と、スケールパラメータとから算出される、構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、分離行列と、潜在ベクトル系列と、スケールパラメータとを推定することにより、各構成音が混合した混合信号から、各構成音を精度よく分離することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、属性ラベルを入力としないエンコーダ及びデコーダを用いてもよい。この場合、属性ラベルが不要なため、パラメータ推定部では、属性ラベルを推定しない。
また、観測信号のパワースペクトログラムや構成音のパワースペクトログラムを計算する場合を例に説明したが、これに限定されるものではなく、観測信号の振幅スペクトログラムや構成音の振幅スペクトログラムを計算するようにしてもよい。この場合には、学習部32は、構成音毎に、当該構成音の振幅スペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音の振幅スペクトログラムを生成するデコーダを学習する。また、パラメータ推定部36は、観測信号の振幅スペクトログラムに基づいて、各構成音についての、デコーダによって生成される、当該構成音の振幅スペクトログラムの分散とスケールパラメータとから算出される、当該構成音の振幅スペクトログラム、各構成音の振幅スペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最大化するように、分離行列と、潜在ベクトル系列と、構成音の属性ラベルと、スケールパラメータとを推定する。
また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
24 時間周波数展開部
32 学習部
34 音源信号モデル記憶部
36 パラメータ推定部
40 初期値設定部
42 分離行列更新部
44 潜在変数更新部
46 スケールパラメータ更新部
48 収束判定部
90 出力部
100 信号解析装置

Claims (5)

  1. 各構成音が混合された観測信号を入力として、
    各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定するパラメータ推定部
    を含む信号解析装置。
  2. 各構成音についてのスペクトログラムに基づいて、前記構成音毎に、前記構成音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダ、及び前記エンコーダを学習する学習部を更に含む請求項1記載の信号解析装置。
  3. 前記エンコーダは、前記構成音のスペクトログラム及び前記構成音の属性を示す属性ラベルを入力として、前記潜在ベクトル系列を推定し、
    前記デコーダは、前記潜在ベクトル系列及び前記構成音の属性ラベルを入力として、前記構成音のスペクトログラムの分散を推定し、
    前記パラメータ推定部は、前記目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記属性ラベルと、前記スケールパラメータとを推定する請求項2記載の信号解析装置。
  4. パラメータ推定部が、各構成音が混合された観測信号を入力として、
    各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定する
    信号解析方法。
  5. コンピュータを、請求項1〜請求項3のいずれか1項に記載の信号解析装置の各部として機能させるためのプログラム。
JP2018163563A 2018-08-31 2018-08-31 信号解析装置、方法、及びプログラム Active JP6910609B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018163563A JP6910609B2 (ja) 2018-08-31 2018-08-31 信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018163563A JP6910609B2 (ja) 2018-08-31 2018-08-31 信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020034870A true JP2020034870A (ja) 2020-03-05
JP6910609B2 JP6910609B2 (ja) 2021-07-28

Family

ID=69668023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018163563A Active JP6910609B2 (ja) 2018-08-31 2018-08-31 信号解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6910609B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021189246A (ja) * 2020-05-27 2021-12-13 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
JP2021189247A (ja) * 2020-05-27 2021-12-13 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018042791A1 (ja) * 2016-09-01 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018042791A1 (ja) * 2016-09-01 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021189246A (ja) * 2020-05-27 2021-12-13 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
JP2021189247A (ja) * 2020-05-27 2021-12-13 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
JP7376896B2 (ja) 2020-05-27 2023-11-09 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
JP7376895B2 (ja) 2020-05-27 2023-11-09 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム

Also Published As

Publication number Publication date
JP6910609B2 (ja) 2021-07-28

Similar Documents

Publication Publication Date Title
Makishima et al. Independent deeply learned matrix analysis for determined audio source separation
Luo et al. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation
Leglaive et al. Semi-supervised multichannel speech enhancement with variational autoencoders and non-negative matrix factorization
Huang et al. Deep learning for monaural speech separation
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
US9668066B1 (en) Blind source separation systems
CN108292508B (zh) 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质
Kameoka et al. Semi-blind source separation with multichannel variational autoencoder
WO2019017403A1 (ja) マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
Mogami et al. Independent deeply learned matrix analysis for multichannel audio source separation
JP6976804B2 (ja) 音源分離方法および音源分離装置
WO2016130885A1 (en) Audio source separation
WO2015173192A1 (en) Method and system of on-the-fly audio source separation
Seki et al. Underdetermined source separation based on generalized multichannel variational autoencoder
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Nesta et al. Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction
Kubo et al. Efficient full-rank spatial covariance estimation using independent low-rank matrix analysis for blind source separation
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2020034870A (ja) 信号解析装置、方法、及びプログラム
Duong et al. Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model
Li et al. FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation algorithm for determined mixtures
Giacobello et al. Speech dereverberation based on convex optimization algorithms for group sparse linear prediction
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP2020095732A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
Du et al. Semi-supervised multichannel speech separation based on a phone-and speaker-aware deep generative model of speech spectrograms

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180926

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210628

R150 Certificate of patent or registration of utility model

Ref document number: 6910609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250