JP7376833B2

JP7376833B2 - 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラム

Info

Publication number: JP7376833B2
Application number: JP2022524772A
Authority: JP
Inventors: 千紘渡邊; 弘和亀岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-11-09
Anticipated expiration: 2040-05-20
Also published as: WO2021234873A1; JPWO2021234873A1

Description

本発明は、音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラムに関する。

複数の音源によるモノラルの混合音信号から各音源の信号を分離する音源分離の技術がある。このような技術としては、例えば観測信号のスペクトログラムの各時間周波数点においてどの話者のエネルギーが支配的かを識別するクラス識別問題の考え方に着想を得て提案された技術がある。このようなクラス識別問題の考え方に着想を得て提案された技術として、近年、機械学習の手法を用いた技術が提案されている。機械学習の手法を用いた音源分離の技術としては、例えばニューラルネットワーク(ＮｅｕｒａｌＮｅｔｗｏｒｋ；ＮＮ)を用いた音源分離の技術が提案されている（非特許文献１及び２参照）。

ニューラルネットワークを用いた音源分離の技術としては、例えば深層クラスタリング（ＤｅｅｐＣｌｕｓｔｅｒｉｎｇ；ＤＣ）法（非特許文献３及び４参照）を用いた音源分離の技術が提案されている。ＤＣ法を用いた音源分離の技術ではまず、ＮＮを用いて各時間周波数点の低次元埋め込み表現が学習される。時間周波数点とは、時間軸と周波数軸とが張る空間（時間周波数空間）内の点（すなわち時間周波数空間に含まれる元）である。

各時間周波数点は、時間周波数空間における各時間周波数点の位置が示す時間及び周波数ごとにＮ次元の特徴量ベクトルを示す（Ｎは２以上の整数）。特徴量ベクトルは、解析対象から得られる情報のうち学習等を通じて得られた所定の条件を満たす情報の集合である。低次元埋め込み表現を学習するとは、Ｎ次元の特徴量ベクトルを次元がＮ未満の特徴量ベクトルに変換する写像を学習することを意味する。

これにより各時間周波数点の低次元埋め込みを表現する学習済みモデルが得られる。ＤＣ法を用いた音源分離の技術では次に、ｋ平均法等の教師なしクラスタリング手法を用い、得られた埋め込みベクトルをクラスタリングすることにより音源分離を行う。埋め込みベクトルとは、各時間周波数点における次元がＮ未満の特徴量ベクトルである。ＤＣ法を用いた音源分離の技術は、未知の音源の混合音声に対しても高精度な分離が可能であることが実験的に示されている。

John R. Hershey, Zhuo Chen, Jonathan Le Roux, Shinji Watanabe,"DEEP CLUSTERING:DISCRIMINATIVE EMBEDDINGS FOR SEGMENTATION AND SEPARATION", In ICASSP, pp.31-35, 2016 Li Li, Hirokazu Kameoka," DEEP CLUSTERING WITH GATED CONVOLUTIONAL NETWORKS", In ICASSP,pp.16-20, 2018

しかしながら、ＤＣ法を含めＮＮを用いた音源分離の技術は、学習により得られた写像であって音源分離を行う写像である学習済みモデルの解釈が難しい場合があった。学習済みモデルを解釈するとは、学習済みモデルの予測結果の根拠を知ることを意味する。例えばＤＣ法であれば、埋め込みベクトルが決定された根拠をユーザが判断することが難しい場合があった。

もし学習済みモデルの解釈が容易になれば、ＤＣ法に対する理解が深まり、汎化性能の向上や話者以外の音源への適応などの、音源分離の技術の更なる向上が期待される。特に、埋め込みベクトルを決定する際に具体的にどのようなスペクトログラム構造を手がかりにしているか、を可視化する、つまりユーザが知ることができれば音源分離の技術が大きく向上することが期待される。

上記事情に鑑み、本発明は、音源分離を行う学習済みモデルの解釈を容易にする技術を提供することを目的としている。

本発明の一態様は、複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得部と、前記スペクトログラムの時間軸方向に区分された１つの区間に属する時間周波数点における１又は複数の値であって前記スペクトログラムに関する１又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、前記推定結果と前記支配音源情報との違いを取得する損失取得部と、を備え、前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、音源分離モデル学習装置である。

本発明により、音源分離を行う学習済みモデルの解釈を容易にすることが可能となる。

実施形態の音源分離システム１００の概要を説明する説明図。実施形態における音源分離モデル学習装置１の概要を説明する説明図。実施形態における音源分離モデル学習装置１のハードウェア構成の一例を示す図。実施形態における制御部１０の機能構成の一例を示す図。実施形態における音源分離装置２のハードウェア構成の一例を示す図。実施形態における制御部２０の機能構成の一例を示す図。実施形態における音源分離モデル学習装置１が実行する処理の流れの一例を示すフローチャート。実施形態における音源分離装置２が実行する処理の流れの一例を示すフローチャート。実施形態における分離実験の第１の結果を示す図。実施形態における分離実験の第２の結果を示す図。実施形態における分離実験の第３の結果を示す図。実施形態における分離実験の第４の結果を示す図実施形態における分離実験の第５の結果を示す図実施形態における分離実験の第６の結果を示す図実施形態における分離実験の第７の結果を示す図

（実施形態）
図１及び図２を用いて、実施形態の音源分離システム１００の概要を説明する。図１は、実施形態の音源分離システム１００の概要を説明する説明図である。以下説明の簡単のため音源分離システム１００の処理対処の信号として音声の信号を例に音源分離システム１００を説明するが、音源分離システム１００の処理対象の信号は音の信号であればどのようなものであってもよい。例えば、音源分離システム１００の処理対象の信号は、楽器の音の信号であってもよい。なお音源は、モノラル音源である。音源分離システム１００は、分離対象の混合音信号から非混合音信号を分離する。混合音信号は、複数の非混合音信号が混合された音の信号である。異なる非混合音信号は、音源が異なる音の信号である。

混合音信号は、例えば第１の人が発した音声に第２の人が発した音声とが混じった音声の信号である。このような場合、音源分離システム１００は、第１の人が発した音声の信号と第２の人が発した音声の信号とを分離する。この場合、第１の人が発した音声の信号と第２の人が発した音声の信号とはそれぞれ非混合音信号の一例である。音源分離システム１００によって分離される非混合音信号の数は１つであってもよいし複数であってもよい。

音源分離システム１００は、音源分離モデル学習装置１及び音源分離装置２を備える。音源分離モデル学習装置１は、混合スペクトログラムから支配音源情報を推定する学習済みのモデル（以下「音源分離モデル」という。）を機械学習によって得る。

混合スペクトログラムは、混合音信号のスペクトログラムである。支配的とは、他の音源よりもスペクトログラムの強度（すなわち音の強さ）が強いことを意味する。時間周波数点とは、スペクトログラムの一点を表す。すなわち時間周波数点は、一軸が時刻を表し一軸が周波数を表す空間における点である。スペクトログラムにおける時間周波数点の値は音の強さを表す。

支配音源情報は、混合スペクトログラムの各時間周波数点について、混合スペクトログラムに含まれる複数の音源のいずれが支配的かを示す情報である。そのため、音源分離モデルは、混合スペクトログラムから支配音源情報の推定結果（以下「推定支配音源情報」という。）を取得するモデルである。

以下説明の簡単のため学習するとは、入力に基づいて機械学習のモデル（以下「機械学習モデル」という。）におけるパラメータの値を好適に調整することを意味する。以下の説明において、Ａであるように学習するとは、機械学習モデルにおけるパラメータの値がＡを満たすように調整されることを意味する。Ａは予め定められた条件を表す。学習済みモデルとは、１又は複数回の学習が行われた後の機械学習モデルであって所定の終了条件（以下「学習終了条件」という。）が満たされたタイミングの機械学習モデルである。

音源分離モデル学習装置１は、学習済みモデルを得るためのデータ（以下「学習用データ」という。）を用いて学習を行う。学習用データは、具体的には複数の対データを含む。対データは、学習用スペクトルグラムＸと学習用支配音源情報Ｙとの対である。

学習用スペクトログラムＸは、音源分離モデル学習装置１が学習済みモデルを得る際の説明変数として用いられる混合スペクトログラムである。学習用スペクトログラムＸは以下の式（１）で表される情報である。

式(１)におけるｆ（ｆは０以上（Ｆ－１）以下の整数。Ｆは１以上の整数。）は混合スペクトログラムの各点の周波数軸上の位置を表す。式（１）におけるｎ（ｎは０以上（Ｎ－１）以下の整数。Ｎは１以上の整数。）は混合スペクトログラムの各点の時間軸上の位置を表す。そのため、式（１）は（Ｆ×Ｎ）個の時間周波数点を有する混合スペクトログラムを表す。学習用スペクトログラムＸは、より具体的には以下の式（２）で表される。

式（２）におけるｋ（ｋは１以上Ｋ以下の整数。Ｋは１以上の整数）は、各時間周波数点を識別する識別子である。

学習用支配音源情報Ｙは、音源分離モデル学習装置１が学習済みモデルを得る際の目的変数として用いられる情報である。すなわち、学習用支配音源情報Ｙは、学習用データにおける正解ラベルである。学習用支配音源情報Ｙは、学習用スペクトルグラムＸの時間周波数点ごとに、予め定められた音源（以下「学習用音源」という。）が支配的か否かを示す。各時間周波数点において学習用音源が支配的か否かは、例えば時間周波数点ごとに０又は１の２値で表される。

図２は、実施形態における音源分離モデル学習装置１の概要を説明する説明図である。音源分離モデル学習装置１は、学習用スペクトログラムＸに基づき、後述するスペクトログラムテンプレートとテンプレート重みとを推定し、推定したスペクトログラムテンプレートとテンプレート重みとの合成積を取得する。音源分離モデル学習装置１は、合成積に基づき学習用支配音源情報Ｙの推定結果（以下「推定支配音源情報Ｖ」という）を取得する。次に音源分離モデル学習装置１は、取得した推定支配音源情報Ｖと学習用支配音源情報Ｙとの違いに基づき、スペクトログラムテンプレートと、学習用スペクトログラムＸに基づきテンプレート重みを推定する機械学習モデル（以下「重み推定モデル」という。）とを更新する。

スペクトログラムテンプレートは、学習用スペクトログラムＸの時間軸方向に区分された１つの区間（以下「時間区間」という。）に属する時間周波数点における１又は複数の値であって学習用スペクトログラムＸに関する１又は複数の値を表す情報である。スペクトログラムテンプレートは、区間によらず同一である。

スペクトログラムテンプレートは学習によって更新される。スペクトログラムテンプレートが表す学習用スペクトログラムＸに関する値は、音源分離モデル学習装置１による学習の過程に依存する。そのため、スペクトログラムテンプレートが表す学習用スペクトログラムＸに関する値は、物理量であることもあるし統計値等の物理量では無い値であることもあり、どのような種類の値であるかは音源分離モデル学習装置１のユーザが予め決定する値ではない。

スペクトログラムテンプレートは学習の段階では（すなわち学習終了条件が満たされるまで）、学習によって更新されるものの、学習済みモデル（すなわち音源分離モデル）を用いて分離対象の混合音信号を分離する段階では変化しない。

テンプレート重みは、学習用スペクトログラムＸに基づきスペクトログラムテンプレートを用いた合成積の推定に用いる重みである。テンプレート重みは、学習済みモデル（すなわち音源分離モデル）を用いて分離対象の混合音信号を分離する段階においても、分離対象の混合音信号に応じた値である。

音源分離モデルは、学習終了条件が満たされたタイミングにおける重み推定モデルを有する学習済みモデルであって、学習終了条件が満たされたタイミングにおけるスペクトログラムテンプレートを（学習済み）パラメータとして有する学習済みモデルである。

音源分離モデル学習装置１は、音源分離ニューラルネットワーク１１０、損失取得部１２０及びテンプレート更新部１３０を備える。音源分離モデル学習装置１においては、音源分離ニューラルネットワーク１１０、損失取得部１２０及びテンプレート更新部１３０が協働して音源分離モデルを得るための学習を実行する。

音源分離ニューラルネットワーク１１０は、詳細を後述する損失取得部１２０が取得する損失に基づいて学習することで音源分離モデルを得るニューラルネットワークである。音源分離ニューラルネットワーク１１０は、入力情報取得部１１１、構成情報推定部１１２及び支配音源情報推定部１１３を備える。

入力情報取得部１１１は、学習用スペクトログラムＸを取得する。入力情報取得部１１１は、音源分離ニューラルネットワーク１１０においては入力層である。

構成情報推定部１１２は、学習用スペクトログラムＸに基づきテンプレート重みを推定する。構成情報推定部１１２は、学習用スペクトログラムＸに基づきテンプレート重みを推定可能であって、重み推定モデルを学習により更新可能に構成されていればどのようなものであってもよい。構成情報推定部１１２は、例えば畳み込みネットワーク（ＣＮＮ：Convolutional Neural Network）である。構成情報推定部１１２は、音源分離ニューラルネットワーク１１０においては例えば第１中間層から第（Ｌ－１）中間層までの中間層である。

構成情報推定部１１２は、詳細を後述する損失取得部１２０が取得する損失に基づいて学習する。構成情報推定部１１２による学習により、重み推定モデルが更新される。重み推定モデルは、損失を小さくするように更新される。

支配音源情報推定部１１３は、スペクトログラムテンプレートとテンプレート重みとの合成積を取得する。支配音源情報推定部１１３は、取得した合成積に基づき推定支配音源情報Ｖを取得する。支配音源情報推定部１１３は、音源分離ニューラルネットワーク１１０においては例えば第Ｌ中間層及び出力層である。

損失取得部１２０は、推定支配音源情報Ｖと学習用支配音源情報Ｙとの間の違いを取得する。以下、推定支配音源情報Ｖと学習用支配音源情報Ｙとの間の違いを損失という。損失は、例えば以下の式（３）で表される。式（３）の左辺の記号は損失を表す記号である。

式（３）において以下の式（４）で表される記号は、Ｆｒｏｂｅｎｉｕｓノルムを表す。また、式（３）において「Ｔ」は行列の転置を意味する。そのため、例えばＶ^Ｔは行列Ｖの転置行列を意味する。

式（３）においてＹＹ^Ｔは、学習用スペクトログラムＸの時間周波数点ｋと時間周波数点ｋ´とで同一の音源が支配的であるときにｋ行ｋ´列目の要素が１、そうでないときに０であるようなＫ行Ｋ列のバイナリ行列である。なお、ｋ及びｋ´は１以上Ｋ以下の整数であり、Ｋは２以上の整数である。

テンプレート更新部１３０は、損失に基づきスペクトログラムテンプレートを更新する。より具体的には、テンプレート更新部１３０は、損失を小さくするようにスペクトログラムテンプレートを更新する。テンプレート更新部１３０がスペクトログラムテンプレートを更新するとは、支配音源情報推定部１１３を構成するニューラルネットワークにおけるスペクトログラムテンプレートを表すパラメータの値を好適に調整することを意味する。なお、テンプレート更新部１３０は、スペクトログラムテンプレートの更新に際してスペクトログラムテンプレートを非負の値（以下「非負値」という。）に更新する。

なお、音源分離ニューラルネットワーク１１０の学習が一度も行われていない段階におけるスペクトログラムテンプレート（すなわちスペクトログラムテンプレートの初期値）は、予め定められた値である。スペクトログラムテンプレートの初期値は、例えば乱数を用いて予め定められた値である。なお、スペクトログラムテンプレートは１つである必要は無く複数であってもよい。スペクトログラムテンプレートの数は、予めユーザが設定した所定の数であってもよいし、交差検証（cross validation）などの手法を用いて予め決定された数であってもよい。

ここで、音源分離ニューラルネットワーク１１０で実行される処理の具体的な処理の一例を、以下の構成条件を満たす音源分離ニューラルネットワーク１１０を例に説明する。構成条件は、音源分離ニューラルネットワーク１１０の、入力層が入力情報取得部１１１であり、第１中間層から第（Ｌ－１）中間層までの中間層が構成情報推定部１１２であり、第Ｌ中間層及び出力層が支配音源情報推定部１１３であるという条件である。

第１中間層から第（Ｌ－１）層中間層までで、入力層に入力された学習用スペクトログラムＸに基づき、テンプレート重みが推定される。第（Ｌ－１）中間層の出力結果が、テンプレート重みである。第（Ｌ－１）中間層の活性化関数は非負値を出力する。そのため、テンプレート重みの値は非負値である。なお、非負値を出力する活性化関数は、例えばソフトプラス関数や正規化線形関数である。

第１中間層から第（Ｌ－１）層中間層は、入力層に入力された学習用スペクトログラムＸに基づき、テンプレート重みを推定可能なニューラルネットワークであればどのようなものであってもよい。

第Ｌ層では、スペクトログラムテンプレートとテンプレート重みとの合成積が取得される。合成積を取得する処理を数式で表すと例えば以下の式（５）で表される。

式（５）においてＨ^（Ｌ）は第Ｌ層の出力を表し、Ｈ^{（Ｌ－１）}は第（Ｌ－１）層の出力を表す。式（５）をより詳しく、Ｈ^（Ｌ）の要素ごとに表すと以下の式（６）で表される。

式（６）においてｄは音源を表す。例えばｄは、０又は１の値であり、１が２人の話者のうちの一方の話者を表し、０が他方の話者を表す。式（６）においてｍは１以上Ｎ以下の整数であり、学習用スペクトログラムＸの時間軸上の時刻を表す。式（６）におけるｊ（ｊは１以上Ｊ以下の整数。Ｊは１以上の整数。）は、音源ｄについてのスペクトログラムテンプレートを識別する識別子である。そのためＪは音源ｄについてのスペクトログラムテンプレートの総数である。

すなわち式（６）は、式（６）の左辺が、以下の式（７）で表されるＪ個のスペクトログラムテンプレートをそれぞれ時間軸方向にｍだけシフトさせた後に以下の式（８）で表される値を乗算したものの総和、であることを示す。

式（８）は、Ｈ^{（Ｌ－１）}の音源ｄの時刻（ｎ－ｍ）におけるスペクトログラムテンプレートｊに乗算されるテンプレート重みを表す。

最終層では、第Ｌ中間層で取得された合成積が規格化される。最終層の処理は例えば以下の式（９）で表される。

式（９）をより詳しく、Ｖの要素ごとに表すと以下の式（１０）で表される。

式（１０）においてεは、ゼロ割りを避けるために予め定められた所定の定数である。εは、式（１０）の右辺の他の値と比較して、充分小さな値であることが望ましい。式（１０）は、推定支配音源情報Ｖの二乗ノルムが１となることを表している。しかしながら、推定支配音源情報Ｖはどのように規格化されてもよく、例えば推定支配音源情報Ｖのｐ乗ノルムが１となるように規格化されてもよい（ｐは１以上の整数）。

また、式（１０）の右辺の分子の値を音源ｄの振幅スペクトログラムと解釈する場合、式（１０）の左辺はＷｉｅｎｅｒマスクを表すと解釈することができる。

なお、最終層において規格化の処理は必ずしも実行される必要は無く、最終層ではＨ^（Ｌ）を推定支配音源情報Ｖとして取得してもよい。式（９）で表される推定支配音源情報Ｖは、合成積を規格化しただけなので、損失は合成積と学習用支配音源情報Ｙとの間の違いを表す量である。

音源分離装置２は、音源分離モデル学習装置１が学習によって得た音源分離モデルを用いて、入力された混合音信号から非混合音信号を分離する。混合音信号から分離する非混合音信号の数は、予め音源分離装置２のユーザが指定した数（以下「ユーザ指定数」という。）であってもよいし、その他の何らかの学習モデルに基づき混合音信号から音源の数を推定する技術を用いて推定した数であってもよい。その他の何らかの学習モデルは、例えば以下の参考文献１に記載の方法である。以下説明の簡単のため、混合音信号から分離する非混合音信号の数が予めユーザが指定した数である場合を例に音源分離システム１００を説明する。

参考文献１：F. Stoter et al.,”CountNet: Estimating the Number of Concurrent Speakers Using Supervised Learning” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Volume: 27, Issue: 2, Feb.2019, pp.268-282

図３は、実施形態における音源分離モデル学習装置１のハードウェア構成の一例を示す図である。音源分離モデル学習装置１は、バスで接続されたＣＰＵ（Central Processing Unit）等のプロセッサ９１とメモリ９２とを備える制御部１０を備え、プログラムを実行する。音源分離モデル学習装置１は、プログラムの実行によって制御部１０、入力部１１、インタフェース部１２、記憶部１３及び出力部１４を備える装置として機能する。より具体的には、プロセッサ９１が記憶部１３に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、音源分離モデル学習装置１は、制御部１０、入力部１１、インタフェース部１２、記憶部１３及び出力部１４を備える装置として機能する。

制御部１０は、音源分離モデル学習装置１が備える各種機能部の動作を制御する。制御部１０は、例えば単位学習処理を実行する。単位学習処理は、１つの学習用データ用いて損失を取得し、取得した損失に基づいてスペクトログラムテンプレートと重み推定モデルとを更新する一連の処理である。

入力部１１は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１１は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部１１は、自装置に対する各種情報の入力を受け付ける。入力部１１は、例えば学習の開始を指示する入力を受け付ける。入力部１１は、例えば学習用データの入力を受け付ける。学習の開始の指示は、例えば学習用データが入力されることであってもよい。

インタフェース部１２は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部１２は、有線又は無線を介して外部装置と通信する。外部装置は、例えばＵＳＢ（Universal Serial Bus）メモリ等の記憶装置であってもよい。外部装置が例えば学習用データを出力する場合、インタフェース部１２は外部装置との通信によって外部装置が出力する学習用データを取得する。

インタフェース部１２は、自装置を音源分離装置２に接続するための通信インタフェースを含んで構成される。インタフェース部１２は、有線又は無線を介して音源分離装置２と通信する。インタフェース部１２は、音源分離装置２との通信により、音源分離装置２に音源分離モデルを出力する。

記憶部１３は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１３は音源分離モデル学習装置１に関する各種情報を記憶する。記憶部１３は、例えば予め重み推定モデルを記憶する。記憶部１３は、例えば予めスペクトログラムテンプレートの初期値を記憶する。記憶部１３は、例えばスペクトログラムテンプレートを記憶する。

出力部１４は、各種情報を出力する。出力部１４は、例えばＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置を含んで構成される。出力部１４は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部１４は、例えば入力部１１に入力された情報を出力する。出力部１４は、例えば学習終了条件が満たされた時点におけるスペクトログラムテンプレートを示す情報を表示してもよい。

図４は、実施形態における制御部１０の機能構成の一例を示す図である。制御部１０は、被管理部１０１及び管理部１０２を備える。被管理部１０１は、単位学習処理を実行する。被管理部１０１は、音源分離ニューラルネットワーク１１０、損失取得部１２０、テンプレート更新部１３０及び学習用データ取得部１４０を備える。

学習用データ取得部１４０は、入力部１１又はインタフェース部１２に入力された学習用データを取得する。学習用データ取得部１４０は、取得した学習用データのうち、学習用スペクトログラムＸを音源分離ニューラルネットワーク１１０に出力し、学習用支配音源情報Ｙを損失取得部１２０に出力する。より具体的には学習用データ取得部１４０は、学習用スペクトログラムＸについては、入力情報取得部１１１に出力する。

管理部１０２は、被管理部１０１の動作を制御する。管理部１０２は、被管理部１０１の動作の制御として、例えば単位学習処理の実行を制御する。

管理部１０２は、例えば入力部１１、インタフェース部１２、記憶部１３及び出力部１４の動作を制御する。管理部１０２は、例えば記憶部１３から各種情報を読み出し被管理部１０１に出力する。管理部１０２は、例えば入力部１１に入力された情報を取得し被管理部１０１に出力する。管理部１０２は、例えば入力部１１に入力された情報を取得し記憶部１３に記録する。管理部１０２、例えばインタフェース部１２に入力された情報を取得し被管理部１０１に出力する。管理部１０２、例えばインタフェース部１２に入力された情報を取得し記憶部１３に記録する。管理部１０２は、例えば入力部１１に入力された情報を出力部１４に出力させる。

管理部１０２は、例えば単位学習処理の実行に用いられる情報と単位学習処理の実行によって生じた情報とを記憶部１３に記録する。

図５は、実施形態における音源分離装置２のハードウェア構成の一例を示す図である。音源分離装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２０を備え、プログラムを実行する。音源分離装置２は、プログラムの実行によって制御部２０、入力部２１、インタフェース部２２、記憶部２３及び出力部２４を備える装置として機能する。より具体的には、プロセッサ９３が記憶部２３に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、音源分離装置２は、制御部２０、入力部２１、インタフェース部２２、記憶部２３及び出力部２４を備える装置として機能する。

制御部２０は、音源分離装置２が備える各種機能部の動作を制御する。制御部２０は、例えば音源分離モデル学習装置１が得た音源分離モデルを用いて、分離対象の混合音信号からユーザ指定数の非混合音信号を分離する。以下説明の簡単のためユーザ指定数は分離対象の混合音信号が音源分離装置２に入力される前に予め入力済みである場合を例に、音源分離装置２を説明する。

入力部２１は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２１は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部２１は、自装置に対する各種情報の入力を受け付ける。入力部２１は、例えばユーザ指定数の入力を受け付ける。入力部２１は、例えば混合音信号から非混合音信号を分離する処理の開始を指示する入力を受け付ける。入力部２１は、例えば分離対象の混合音信号の入力を受け付ける。

インタフェース部２２は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部２２は、有線又は無線を介して外部装置と通信する。外部装置は、例えば混合音信号から分離された非混合音信号の出力先である。このような場合、インタフェース部２２は、外部装置との通信によって外部装置に非混合音信号を出力する。非混合音信号の出力際の外部装置は、例えばスピーカー等の音の出力装置である。

外部装置は、例えば音源分離モデルを記憶したＵＳＢメモリ等の記憶装置であってもよい。外部装置が例えば音源分離モデルを記憶しており音源分離モデルを出力する場合、インタフェース部２２は外部装置との通信によって音源分離モデルを取得する。

外部装置は、例えば混合音信号の出力元である。このような場合、インタフェース部２２は、外部装置との通信によって外部装置から混合音信号を取得する。

インタフェース部２２は、自装置を音源分離モデル学習装置１に接続するための通信インタフェースを含んで構成される。インタフェース部２２は、有線又は無線を介して音源分離モデル学習装置１と通信する。インタフェース部２２は、音源分離モデル学習装置１との通信により、音源分離モデル学習装置１から音源分離モデルを取得する。

記憶部２３は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２３は音源分離装置２に関する各種情報を記憶する。記憶部１３は、例えばインタフェース部２２を介して取得した音源分離モデルを記憶する。記憶部１３は、例えば入力部１１を介して入力されたユーザ指定数を記憶する。記憶部１３は、スペクトログラムテンプレートの数を記憶する。

出力部２４は、各種情報を出力する。出力部２４は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２４は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部２４は、例えば入力部２１に入力された情報を出力する。出力部２４は、例えば混合音信号から非混合音信号を分離した際に用いたスペクトログラムテンプレートとスペクトログラムテンプレートに対応するテンプレート重みとを出力する。

図６は、実施形態における制御部２０の機能構成の一例を示す図である。制御部２０は、分離対象取得部２０１、スペクトログラム取得部２０２、分離情報取得部２０３、非混合音信号生成部２０４、音信号出力制御部２０５及びインタフェース制御部２０６を備える。

分離対象取得部２０１は、分離対象の混合音信号を取得する。分離対象取得部２０１は、例えば入力部２１に入力された混合音信号を取得する。分離対象取得部２０１は、例えばインタフェース部２２に入力された混合音信号を取得する。

スペクトログラム取得部２０２は、分離対象取得部２０１が取得した混合音信号のスペクトログラム（以下「分離対象スペクトログラム」という。）を取得する。スペクトログラムの取得方法は、混合音信号からスペクトログラムを取得可能であればどのような方法であってもよい。スペクトログラムの取得方法は、例えば混合音信号の波形に対し短時間フーリエ変換を適用した後，その振幅情報のみを抽出した振幅スペクトログラムを取得する方法であってもよい。である。取得されたスペクトログラムは分離情報取得部２０３に出力される。

分離情報取得部２０３は、分離対象スペクトログラムに基づき音源分離モデルを用いて、分離対象の混合音信号に含まれるユーザ指定数の非混合音信号それぞれについて推定支配音源情報Ｖを取得する。なお、音源分離モデルには、学習に用いた全ての音源に対するスペクトログラムテンプレートが入手される。そのため、ユーザ指定数が複数の場合には、音源分離モデルは、学習に用いられた全ての音源を分離可能である。

非混合音信号生成部２０４は、分離対象の混合音信号と、分離対象スペクトログラムと、分離情報取得部２０３が取得した推定支配音源情報Ｖと、を用いて、非混合音信号を生成する。非混合音信号生成部２０４は、例えば推定支配音源情報Ｖを入力振幅スペクトログラムに乗じ、Ｇｒｉｆｆｉｎ－Ｌｉｍ法等の位相再構成法に基づき位相情報を付加した上で逆短時間フーリエ変換を適用することによって、非混合音信号を生成する。このようにして、非混合音信号生成部２０４は、分離対象の混合音信号から非混合音信号を分離する。分離された非混合音信号は音信号出力制御部２０５に出力される。

音信号出力制御部２０５は、インタフェース部２２の動作を制御する。音信号出力制御部２０５は、インタフェース部２２の動作を制御することでインタフェース部２２に分離した非混合音信号を出力させる。

図７は、実施形態における音源分離モデル学習装置１が実行する処理の流れの一例を示すフローチャートである。より具体的には、図７は単位学習処理の流れの一例を示すフローチャートである。音源分離モデル学習装置１は、学習用データが入力されるたびに図７に示す単位学習処理を実行し音源分離モデルを得る。

入力部１１又はインタフェース部１２に学習用データが入力される（ステップＳ１０１）。次に入力情報取得部１１１が学習用データに含まれる学習用スペクトログラムＸを取得する（ステップＳ１０２）。次に構成情報推定部１１２が、学習用スペクトログラムＸに基づき重み推定モデルを用いてテンプレート重みを推定する（ステップＳ１０３）。

ステップＳ１０３の次に、支配音源情報推定部１１３が、スペクトログラムテンプレートとテンプレート重みとに基づき推定支配音源情報Ｖを推定する（ステップＳ１０４）。次に損失取得部１２０は、推定支配音源情報Ｖと学習用データに含まれる学習用支配音源情報Ｙとの間の違い（すなわち損失）を取得する（ステップＳ１０５）。次に、テンプレート更新部１３０が損失を小さくするようにスペクトログラムテンプレートを更新し、構成情報推定部１１２が損失を小さくするように重み推定モデルを更新する（ステップＳ１０６）。

図８は、実施形態における音源分離装置２が実行する処理の流れの一例を示すフローチャートである。以下説明の簡単のため、ユーザ指定数は予め音源分離装置２に入力済みであり、入力されたユーザ指定数は記憶部２３に記憶済みである場合を例に音源分離装置２が実行する処理の流れの一例を説明する。

分離対象取得部２０１が、入力部２１又はインタフェース部２２に入力された分離対象の混合音信号を取得する（ステップＳ２０１）。次にスペクトログラム取得部２０２が、分離対象の混合音信号を用いて分離対象スペクトログラムを取得する（ステップＳ２０２）。次に分離情報取得部２０３が、分離対象スペクトログラムに基づき音源分離モデルを用いて、分離対象の混合音信号に含まれるユーザ指定数の非混合音信号それぞれについて推定支配音源情報Ｖを取得する（ステップＳ２０３）。

次に非混合音信号生成部２０４が、分離対象の混合音信号と、分離対象スペクトログラムと、分離情報取得部２０３が取得した推定支配音源情報Ｖと、を用いて、混合音信号から非混合音信号を分離する（ステップＳ２０４）。次に音信号出力制御部２０５が、インタフェース部２２の動作を制御することでインタフェース部２２に分離した非混合音信号を出力させる（ステップＳ２０５）。

＜実験結果＞
音源分離システム１００を用いて音声の分離を行った実験（以下「分離実験」という。）の実験結果を説明する。分離実験では、ＴｈｅＣＭＵＡｒｃｔｉｃｓｐｅｅｃｈｄａｔａｂａｓｅｓ（参考文献２参照）の音声データが混合音信号として用いられた。学習用データとしては、話者０（ｂｄｌ）と話者１（ｃｌｂ）の音声をそれぞれ１０００発話ずつ用いた。

参考文献２：J. Kominek and A. W. Black,“The CMU Arctic speech databases”, In 5th ISCA Speech Synthesis Workshop, pp.223-224, 2004.

学習用データは、以下のようにして作成された。まず、話者０と話者１との各１発話の信号に対して、ハミング窓による短時間フーリエ変換を適用した。次に、０から１までの閉区間上の一様分布から生成された重みを短時間フーリエ変換後の各信号に乗じ、話者ごとにスペクトログラムＸ｛～｝^（ｄ）を得た。分離実験においてｄは０又は１であり、０は話者０を示し、１は話者１を示す。なお、Ｘ｛～｝は、以下の式（１１）で表される記号を意味する。

また、Ｘ｛～｝^（ｑ）は、以下の式（１２）で表される記号を意味する。

次にスペクトログラムＸ｛～｝^（ｄ）を合成し、混合信号の複素スペクトログラムＸ｛～｝を算出した。すなわち、Ｘ｛～｝＝（Ｘ｛～｝^（０）＋Ｘ｛～｝^（１））である。次に提案モデルへの入力Ｘ＝（Ｘ_ｆ、ｎ）_ｆ、ｎを最大値が１になるようにスケーリングし、振幅スペクトログラムＸ_ｆ、ｎを取得した。振幅スペクトログラムＸ_ｆ、ｎは以下の式（１３）で表される。

また、分離実験では各時間周波数点（ｆ、ｎ) について、以下の式（１４）を満たすものを無音として扱った。

また、分離実験では、各時間周波数点（ｆ、ｎ）の支配的な話者を示す学習用支配音源情報Ｙとして以下の式（１５）で表される情報を用いた。式（１５）の左辺が分離実験で用いた学習用支配音源情報Ｙを表す。

テストデータの作成には、話者０（ｂｄｌ）と話者１（ｃｌｂ）の音声をそれぞれ６６発話ずつ用いた。テストデータの作成方法は学習用データと同様であるが、短時間フーリエ変換の適用後に乗じる重みはどちらの話者に関しても１にした。

図９は、実施形態における分離実験の第１の結果を示す図である。具体的には図９は、５００エポックの学習によって得られた音源分離モデルを用いたテストデータのスペクトログラムの一例である。図９の結果Ｒ１が話者０のスペクトログラムであり、図９の結果Ｒ２が話者１のスペクトログラムである。

図１０は、実施形態における分離実験の第２の結果を示す図である。具体的には図１０は、図９のテストデータに対する正解データの支配音源情報を表す。図１０の結果Ｒ３が話者０に対応する正解データであり、図９の結果Ｒ４が話者１に対応する正解データである。

図１１は、実施形態における分離実験の第３の結果を示す図である。具体的には図１１は、図９のテストデータに対する音源分離装置２の正規化前の推定結果である。図１１の結果Ｒ５が話者０に対応する推定結果であり、図１１の結果Ｒ６が話者１に対応する推定結果である。

図１２は、実施形態における分離実験の第４の結果を示す図である。具体的には図１２は、図９のテストデータに対する音源分離装置２の正規化後の推定結果である。図１２の結果Ｒ７が話者０に対応する推定結果であり、図１２の結果Ｒ８が話者１に対応する推定結果である。

図１３は、実施形態における分離実験の第５の結果を示す図である。具体的には図１３は、図９のテストデータに対して音源分離装置２が取得したスペクトログラムテンプレートを示す。図１３の結果Ｒ９が話者０に対応するスペクトログラムテンプレートであり、図１３の結果Ｒ１０が話者１に対応するスペクトログラムテンプレートである。図１３は、ｊの小さい方から順に５つのスペクトログラムテンプレートを表す。なお、各スペクトログラムテンプレートの横軸は、時刻を表し、縦軸は周波数を表す。ｊは複数のスペクトログラムテンプレートを区別するための番号である。

図１４は、実施形態における分離実験の第６の結果を示す図である。具体的には図１４は、図９のテストデータに対して音源分離装置２が取得した話者０に対応するテンプレート重みを示す。図１４において、Ｒ１１－０は、図１３のｊ＝０における話者０に対応するテンプレート重みを示す。図１４において、Ｒ１１－１は、図１３のｊ＝１における話者０に対応するテンプレート重みを示す。図１４において、Ｒ１１－２は、図１３のｊ＝２における話者０に対応するテンプレート重みを示す。図１４において、Ｒ１１－３は、図１３のｊ＝３における話者０に対応するテンプレート重みを示す。図１４において、Ｒ１１－４は、図１３のｊ＝４における話者０に対応するテンプレート重みを示す。

図１５は、実施形態における分離実験の第７の結果を示す図である。具体的には図１５は、図９のテストデータに対して音源分離装置２が取得した話者１に対応するテンプレート重みを示す。図１５において、Ｒ１２－０は、図１３のｊ＝０における話者１に対応するテンプレート重みを示す。図１５において、Ｒ１２－１は、図１３のｊ＝１における話者１に対応するテンプレート重みを示す。図１５において、Ｒ１２－２は、図１３のｊ＝２における話者１に対応するテンプレート重みを示す。図１５において、Ｒ１２－３は、図１３のｊ＝３における話者１に対応するテンプレート重みを示す。図１５において、Ｒ１２－４は、図１３のｊ＝４における話者１に対応するテンプレート重みを示す。

図１３～図１５の実験結果は、音源分離装置２がどのようにして話者の違いを分離したかを示す。そのため、分離実験の結果は、音源分離システム１００は学習済みモデルの解釈を容易にすることを示す。

このように構成された実施形態の音源分離システム１００は、スペクトログラムテンプレートとテンプレート重みとを推定し、推定結果に基づき損失を小さくするように学習する。具体的には、音源分離システム１００を用いれば、ユーザは、スペクトログラムテンプレートとその重みを見ることで、入力された信号に対する音源分離に用いられる周波数パターンの情報とその時間変化をそれぞれ把握することができる。なお、周波数パターンとは、周波数に応じたエネルギーの分布を表す情報である。そのため、音源分離システム１００を用いればユーザは、どのようにして音源が分離されたのかについて少なくとも周波数パターンの時間変化を知ることができ、周波数パターンの時間変化を学習済みモデルの解釈に役立てることができる。このように、音源分離システム１００は、学習済みモデルの解釈を容易にする。

また、このように構成された実施形態の音源分離システム１００は、スペクトログラムテンプレートとテンプレート重みとの値が非負値であるように学習を行う。このような場合、スペクトログラムテンプレートの値とテンプレート重みの値とが負の値であるということが無くなるので、スペクトログラムテンプレートの表す物理的な意味やテンプレート重みの表す物理的な意味の解釈を容易にする。そのため、このように構成された音源分離システム１００は学習済みモデルの解釈を容易にする。

（変形例）
なお、式（１０）の右辺の分子の値を音源ｄの振幅スペクトログラムと解釈する場合、式（１０）の右辺を全音源ｄについて和をとった値は、学習用スペクトログラムＸを良く近似しているという条件（以下「正則化条件」という。）が満たされることが望ましい。このような正則化条件は、以下の式（１６）で表される損失を小さくするという条件である。

式（１６）の右辺第１項は式（３）の左辺の値である。式（１７）においてＤ（Ａ｜｜Ｂ）は、ＡとＢとが一致するときに０を出力し、ＸとＹとの違いが大きくなるほど大きい値を出力する非負値関数である。そのためＤ（Ａ｜｜Ｂ）は、例えば｜Ａ－Ｂ｜^２である。式（１６）においてλは正則化の強さを表す非負の定数である。

式（１７）は、式（１０）の右辺を全音源ｄについて和をとった値と学習用スペクトログラムＸの間の誤差を表す項（正則化項）である。音源分離モデル学習装置１は、式（１６）で表される損失を小さくするように学習することで、式（１０）の右辺を全音源ｄについて和をとった値と学習用スペクトログラムＸとの違いを小さくすることができる。具体的には、損失取得部１２０が式（３）で表される損失に代えて式（１６）で表される損失を取得すれば、音源分離モデル学習装置１は式（１０）の右辺を全音源ｄについて和をとった値と学習用スペクトログラムＸとの違いを小さくすることができる。

なお、音源分離装置２は、必ずしもスペクトログラム取得部２０２を備える必要は無い。このような場合、音源分離装置２には分離対象スペクトログラムがそのまま入力される。

なお、音源分離モデル学習装置１及び音源分離装置２は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。音源分離モデル学習装置１が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。なお、テンプレート更新部１３０は、支配音源情報推定部１１３が備えてもよい。

なお、非混合音信号生成部２０４は分離部の一例である。なお、構成情報推定部１１２は、重み推定部の一例である。なお、スペクトログラムテンプレートは非負の値である方が非負の値でない場合よりも学習済みモデルの解釈を容易にするが、必ずしも非負の値である必要は無い。また、テンプレート重みについても、非負の値である方が非負の値でない場合よりも学習済みモデルの解釈を容易にするが、必ずしも非負の値である必要は無い。

なお、音源分離モデル学習装置１と音源分離装置２の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１００…音源分離システム、１…音源分離モデル学習装置、２…音源分離装置、１０…制御部、１１…入力部、１２…インタフェース部、１３…記憶部、１４…出力部、１０１…被管理部、１０２…管理部、１１０…音源分離ニューラルネットワーク、１１１…入力情報取得部、１１２…構成情報推定部、１１３…支配音源情報推定部、１２０…損失取得部、１３０…テンプレート更新部、１４０…学習用データ取得部、２０…制御部、２１…入力部、２２…インタフェース部、２３…記憶部、２４…出力部、２０１…分離対象取得部、２０２…スペクトログラム取得部、２０３…分離情報取得部、２０４…非混合音信号生成部、２０５…音信号出力制御部、２０６…インタフェース制御部、９１…プロセッサ、９２…メモリ、９３…プロセッサ、９４…メモリ

Claims

複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得部と、
前記スペクトログラムの時間軸方向に区分された１つの区間に属する時間周波数点における１又は複数の値であって前記スペクトログラムに関する１又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、
前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、
前記推定結果と前記支配音源情報との違いを取得する損失取得部と、
を備え、
前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、
前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、
音源分離モデル学習装置。
前記違いに基づいて前記テンプレートを更新するテンプレート更新部、
を備える請求項１に記載の音源分離モデル学習装置。
前記テンプレートの値は非負の値である、
請求項１又は２に記載の音源分離モデル学習装置。
前記重み推定部は前記重みの値として非負の値を取得する、
請求項１から３のいずれか一項に記載の音源分離モデル学習装置。
前記テンプレートと前記重みとを出力する出力部に前記テンプレートと前記重みとを出力させる出力制御部、
を備える請求項１から４のいずれか一項に記載の音源分離モデル学習装置。
複数の音が混合された混合信号のスペクトログラムを取得するスペクトログラム取得部と、
複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得部と、前記スペクトログラムの時間軸方向に区分された１つの区間に属する時間周波数点における１又は複数の値であって前記スペクトログラムに関する１又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、前記推定結果と前記支配音源情報との違いを取得する損失取得部と、前記テンプレート及び前記重みを出力する出力部と、を備え、前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する音源分離モデル学習装置によって学習された前記テンプレート及び前記モデルを用いて分離対象の混合信号が含む複数の音源の音の信号を分離する分離部と、
を備える音源分離装置。
複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得ステップと、
前記スペクトログラムの時間軸方向に区分された１つの区間に属する時間周波数点における１又は複数の値であって前記スペクトログラムに関する１又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定ステップと、
前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定ステップと、
前記推定結果と前記支配音源情報との違いを取得する損失取得ステップと、
を有し、
前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、
前記重み推定ステップでは前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、
音源分離モデル学習方法。
請求項１から５のいずれか一項に記載の音源分離モデル学習装置としてコンピュータを機能させるためのプログラム。