JP7376833B2 - 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラム - Google Patents
音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラム Download PDFInfo
- Publication number
- JP7376833B2 JP7376833B2 JP2022524772A JP2022524772A JP7376833B2 JP 7376833 B2 JP7376833 B2 JP 7376833B2 JP 2022524772 A JP2022524772 A JP 2022524772A JP 2022524772 A JP2022524772 A JP 2022524772A JP 7376833 B2 JP7376833 B2 JP 7376833B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- spectrogram
- template
- source separation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 201
- 238000000034 method Methods 0.000 title claims description 38
- 230000005236 sound signal Effects 0.000 claims description 86
- 239000002131 composite material Substances 0.000 claims description 22
- 238000010801 machine learning Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000012549 training Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000005401 electroluminescence Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000665848 Isca Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本発明は、音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラムに関する。
複数の音源によるモノラルの混合音信号から各音源の信号を分離する音源分離の技術がある。このような技術としては、例えば観測信号のスペクトログラムの各時間周波数点においてどの話者のエネルギーが支配的かを識別するクラス識別問題の考え方に着想を得て提案された技術がある。このようなクラス識別問題の考え方に着想を得て提案された技術として、近年、機械学習の手法を用いた技術が提案されている。機械学習の手法を用いた音源分離の技術としては、例えばニューラルネットワーク(Neural Network; NN)を用いた音源分離の技術が提案されている(非特許文献1及び2参照)。
ニューラルネットワークを用いた音源分離の技術としては、例えば深層クラスタリング(Deep Clustering;DC)法(非特許文献3及び4参照)を用いた音源分離の技術が提案されている。DC法を用いた音源分離の技術ではまず、NNを用いて各時間周波数点の低次元埋め込み表現が学習される。時間周波数点とは、時間軸と周波数軸とが張る空間(時間周波数空間)内の点(すなわち時間周波数空間に含まれる元)である。
各時間周波数点は、時間周波数空間における各時間周波数点の位置が示す時間及び周波数ごとにN次元の特徴量ベクトルを示す(Nは2以上の整数)。特徴量ベクトルは、解析対象から得られる情報のうち学習等を通じて得られた所定の条件を満たす情報の集合である。低次元埋め込み表現を学習するとは、N次元の特徴量ベクトルを次元がN未満の特徴量ベクトルに変換する写像を学習することを意味する。
これにより各時間周波数点の低次元埋め込みを表現する学習済みモデルが得られる。DC法を用いた音源分離の技術では次に、k平均法等の教師なしクラスタリング手法を用い、得られた埋め込みベクトルをクラスタリングすることにより音源分離を行う。埋め込みベクトルとは、各時間周波数点における次元がN未満の特徴量ベクトルである。DC法を用いた音源分離の技術は、未知の音源の混合音声に対しても高精度な分離が可能であることが実験的に示されている。
John R. Hershey, Zhuo Chen, Jonathan Le Roux, Shinji Watanabe,"DEEP CLUSTERING:DISCRIMINATIVE EMBEDDINGS FOR SEGMENTATION AND SEPARATION", In ICASSP, pp.31-35, 2016
Li Li, Hirokazu Kameoka," DEEP CLUSTERING WITH GATED CONVOLUTIONAL NETWORKS", In ICASSP,pp.16-20, 2018
しかしながら、DC法を含めNNを用いた音源分離の技術は、学習により得られた写像であって音源分離を行う写像である学習済みモデルの解釈が難しい場合があった。学習済みモデルを解釈するとは、学習済みモデルの予測結果の根拠を知ることを意味する。例えばDC法であれば、埋め込みベクトルが決定された根拠をユーザが判断することが難しい場合があった。
もし学習済みモデルの解釈が容易になれば、DC法に対する理解が深まり、汎化性能の向上や話者以外の音源への適応などの、音源分離の技術の更なる向上が期待される。特に、埋め込みベクトルを決定する際に具体的にどのようなスペクトログラム構造を手がかりにしているか、を可視化する、つまりユーザが知ることができれば音源分離の技術が大きく向上することが期待される。
上記事情に鑑み、本発明は、音源分離を行う学習済みモデルの解釈を容易にする技術を提供することを目的としている。
本発明の一態様は、複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得部と、前記スペクトログラムの時間軸方向に区分された1つの区間に属する時間周波数点における1又は複数の値であって前記スペクトログラムに関する1又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、前記推定結果と前記支配音源情報との違いを取得する損失取得部と、を備え、前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、音源分離モデル学習装置である。
本発明により、音源分離を行う学習済みモデルの解釈を容易にすることが可能となる。
(実施形態)
図1及び図2を用いて、実施形態の音源分離システム100の概要を説明する。図1は、実施形態の音源分離システム100の概要を説明する説明図である。以下説明の簡単のため音源分離システム100の処理対処の信号として音声の信号を例に音源分離システム100を説明するが、音源分離システム100の処理対象の信号は音の信号であればどのようなものであってもよい。例えば、音源分離システム100の処理対象の信号は、楽器の音の信号であってもよい。なお音源は、モノラル音源である。音源分離システム100は、分離対象の混合音信号から非混合音信号を分離する。混合音信号は、複数の非混合音信号が混合された音の信号である。異なる非混合音信号は、音源が異なる音の信号である。
図1及び図2を用いて、実施形態の音源分離システム100の概要を説明する。図1は、実施形態の音源分離システム100の概要を説明する説明図である。以下説明の簡単のため音源分離システム100の処理対処の信号として音声の信号を例に音源分離システム100を説明するが、音源分離システム100の処理対象の信号は音の信号であればどのようなものであってもよい。例えば、音源分離システム100の処理対象の信号は、楽器の音の信号であってもよい。なお音源は、モノラル音源である。音源分離システム100は、分離対象の混合音信号から非混合音信号を分離する。混合音信号は、複数の非混合音信号が混合された音の信号である。異なる非混合音信号は、音源が異なる音の信号である。
混合音信号は、例えば第1の人が発した音声に第2の人が発した音声とが混じった音声の信号である。このような場合、音源分離システム100は、第1の人が発した音声の信号と第2の人が発した音声の信号とを分離する。この場合、第1の人が発した音声の信号と第2の人が発した音声の信号とはそれぞれ非混合音信号の一例である。音源分離システム100によって分離される非混合音信号の数は1つであってもよいし複数であってもよい。
音源分離システム100は、音源分離モデル学習装置1及び音源分離装置2を備える。音源分離モデル学習装置1は、混合スペクトログラムから支配音源情報を推定する学習済みのモデル(以下「音源分離モデル」という。)を機械学習によって得る。
混合スペクトログラムは、混合音信号のスペクトログラムである。支配的とは、他の音源よりもスペクトログラムの強度(すなわち音の強さ)が強いことを意味する。時間周波数点とは、スペクトログラムの一点を表す。すなわち時間周波数点は、一軸が時刻を表し一軸が周波数を表す空間における点である。スペクトログラムにおける時間周波数点の値は音の強さを表す。
支配音源情報は、混合スペクトログラムの各時間周波数点について、混合スペクトログラムに含まれる複数の音源のいずれが支配的かを示す情報である。そのため、音源分離モデルは、混合スペクトログラムから支配音源情報の推定結果(以下「推定支配音源情報」という。)を取得するモデルである。
以下説明の簡単のため学習するとは、入力に基づいて機械学習のモデル(以下「機械学習モデル」という。)におけるパラメータの値を好適に調整することを意味する。以下の説明において、Aであるように学習するとは、機械学習モデルにおけるパラメータの値がAを満たすように調整されることを意味する。Aは予め定められた条件を表す。学習済みモデルとは、1又は複数回の学習が行われた後の機械学習モデルであって所定の終了条件(以下「学習終了条件」という。)が満たされたタイミングの機械学習モデルである。
音源分離モデル学習装置1は、学習済みモデルを得るためのデータ(以下「学習用データ」という。)を用いて学習を行う。学習用データは、具体的には複数の対データを含む。対データは、学習用スペクトルグラムXと学習用支配音源情報Yとの対である。
学習用スペクトログラムXは、音源分離モデル学習装置1が学習済みモデルを得る際の説明変数として用いられる混合スペクトログラムである。学習用スペクトログラムXは以下の式(1)で表される情報である。
式(1)におけるf(fは0以上(F-1)以下の整数。Fは1以上の整数。)は混合スペクトログラムの各点の周波数軸上の位置を表す。式(1)におけるn(nは0以上(N-1)以下の整数。Nは1以上の整数。)は混合スペクトログラムの各点の時間軸上の位置を表す。そのため、式(1)は(F×N)個の時間周波数点を有する混合スペクトログラムを表す。学習用スペクトログラムXは、より具体的には以下の式(2)で表される。
式(2)におけるk(kは1以上K以下の整数。Kは1以上の整数)は、各時間周波数点を識別する識別子である。
学習用支配音源情報Yは、音源分離モデル学習装置1が学習済みモデルを得る際の目的変数として用いられる情報である。すなわち、学習用支配音源情報Yは、学習用データにおける正解ラベルである。学習用支配音源情報Yは、学習用スペクトルグラムXの時間周波数点ごとに、予め定められた音源(以下「学習用音源」という。)が支配的か否かを示す。各時間周波数点において学習用音源が支配的か否かは、例えば時間周波数点ごとに0又は1の2値で表される。
図2は、実施形態における音源分離モデル学習装置1の概要を説明する説明図である。音源分離モデル学習装置1は、学習用スペクトログラムXに基づき、後述するスペクトログラムテンプレートとテンプレート重みとを推定し、推定したスペクトログラムテンプレートとテンプレート重みとの合成積を取得する。音源分離モデル学習装置1は、合成積に基づき学習用支配音源情報Yの推定結果(以下「推定支配音源情報V」という)を取得する。次に音源分離モデル学習装置1は、取得した推定支配音源情報Vと学習用支配音源情報Yとの違いに基づき、スペクトログラムテンプレートと、学習用スペクトログラムXに基づきテンプレート重みを推定する機械学習モデル(以下「重み推定モデル」という。)とを更新する。
スペクトログラムテンプレートは、学習用スペクトログラムXの時間軸方向に区分された1つの区間(以下「時間区間」という。)に属する時間周波数点における1又は複数の値であって学習用スペクトログラムXに関する1又は複数の値を表す情報である。スペクトログラムテンプレートは、区間によらず同一である。
スペクトログラムテンプレートは学習によって更新される。スペクトログラムテンプレートが表す学習用スペクトログラムXに関する値は、音源分離モデル学習装置1による学習の過程に依存する。そのため、スペクトログラムテンプレートが表す学習用スペクトログラムXに関する値は、物理量であることもあるし統計値等の物理量では無い値であることもあり、どのような種類の値であるかは音源分離モデル学習装置1のユーザが予め決定する値ではない。
スペクトログラムテンプレートは学習の段階では(すなわち学習終了条件が満たされるまで)、学習によって更新されるものの、学習済みモデル(すなわち音源分離モデル)を用いて分離対象の混合音信号を分離する段階では変化しない。
テンプレート重みは、学習用スペクトログラムXに基づきスペクトログラムテンプレートを用いた合成積の推定に用いる重みである。テンプレート重みは、学習済みモデル(すなわち音源分離モデル)を用いて分離対象の混合音信号を分離する段階においても、分離対象の混合音信号に応じた値である。
音源分離モデルは、学習終了条件が満たされたタイミングにおける重み推定モデルを有する学習済みモデルであって、学習終了条件が満たされたタイミングにおけるスペクトログラムテンプレートを(学習済み)パラメータとして有する学習済みモデルである。
音源分離モデル学習装置1は、音源分離ニューラルネットワーク110、損失取得部120及びテンプレート更新部130を備える。音源分離モデル学習装置1においては、音源分離ニューラルネットワーク110、損失取得部120及びテンプレート更新部130が協働して音源分離モデルを得るための学習を実行する。
音源分離ニューラルネットワーク110は、詳細を後述する損失取得部120が取得する損失に基づいて学習することで音源分離モデルを得るニューラルネットワークである。音源分離ニューラルネットワーク110は、入力情報取得部111、構成情報推定部112及び支配音源情報推定部113を備える。
入力情報取得部111は、学習用スペクトログラムXを取得する。入力情報取得部111は、音源分離ニューラルネットワーク110においては入力層である。
構成情報推定部112は、学習用スペクトログラムXに基づきテンプレート重みを推定する。構成情報推定部112は、学習用スペクトログラムXに基づきテンプレート重みを推定可能であって、重み推定モデルを学習により更新可能に構成されていればどのようなものであってもよい。構成情報推定部112は、例えば畳み込みネットワーク(CNN:Convolutional Neural Network)である。構成情報推定部112は、音源分離ニューラルネットワーク110においては例えば第1中間層から第(L-1)中間層までの中間層である。
構成情報推定部112は、詳細を後述する損失取得部120が取得する損失に基づいて学習する。構成情報推定部112による学習により、重み推定モデルが更新される。重み推定モデルは、損失を小さくするように更新される。
支配音源情報推定部113は、スペクトログラムテンプレートとテンプレート重みとの合成積を取得する。支配音源情報推定部113は、取得した合成積に基づき推定支配音源情報Vを取得する。支配音源情報推定部113は、音源分離ニューラルネットワーク110においては例えば第L中間層及び出力層である。
損失取得部120は、推定支配音源情報Vと学習用支配音源情報Yとの間の違いを取得する。以下、推定支配音源情報Vと学習用支配音源情報Yとの間の違いを損失という。損失は、例えば以下の式(3)で表される。式(3)の左辺の記号は損失を表す記号である。
式(3)において以下の式(4)で表される記号は、Frobeniusノルムを表す。また、式(3)において「T」は行列の転置を意味する。そのため、例えばVTは行列Vの転置行列を意味する。
式(3)においてYYTは、学習用スペクトログラムXの時間周波数点kと時間周波数点k´とで同一の音源が支配的であるときにk行k´列目の要素が1、そうでないときに0であるようなK行K列のバイナリ行列である。なお、k及びk´は1以上K以下の整数であり、Kは2以上の整数である。
テンプレート更新部130は、損失に基づきスペクトログラムテンプレートを更新する。より具体的には、テンプレート更新部130は、損失を小さくするようにスペクトログラムテンプレートを更新する。テンプレート更新部130がスペクトログラムテンプレートを更新するとは、支配音源情報推定部113を構成するニューラルネットワークにおけるスペクトログラムテンプレートを表すパラメータの値を好適に調整することを意味する。なお、テンプレート更新部130は、スペクトログラムテンプレートの更新に際してスペクトログラムテンプレートを非負の値(以下「非負値」という。)に更新する。
なお、音源分離ニューラルネットワーク110の学習が一度も行われていない段階におけるスペクトログラムテンプレート(すなわちスペクトログラムテンプレートの初期値)は、予め定められた値である。スペクトログラムテンプレートの初期値は、例えば乱数を用いて予め定められた値である。なお、スペクトログラムテンプレートは1つである必要は無く複数であってもよい。スペクトログラムテンプレートの数は、予めユーザが設定した所定の数であってもよいし、交差検証(cross validation)などの手法を用いて予め決定された数であってもよい。
ここで、音源分離ニューラルネットワーク110で実行される処理の具体的な処理の一例を、以下の構成条件を満たす音源分離ニューラルネットワーク110を例に説明する。構成条件は、音源分離ニューラルネットワーク110の、入力層が入力情報取得部111であり、第1中間層から第(L-1)中間層までの中間層が構成情報推定部112であり、第L中間層及び出力層が支配音源情報推定部113であるという条件である。
第1中間層から第(L-1)層中間層までで、入力層に入力された学習用スペクトログラムXに基づき、テンプレート重みが推定される。第(L-1)中間層の出力結果が、テンプレート重みである。第(L-1)中間層の活性化関数は非負値を出力する。そのため、テンプレート重みの値は非負値である。なお、非負値を出力する活性化関数は、例えばソフトプラス関数や正規化線形関数である。
第1中間層から第(L-1)層中間層は、入力層に入力された学習用スペクトログラムXに基づき、テンプレート重みを推定可能なニューラルネットワークであればどのようなものであってもよい。
第L層では、スペクトログラムテンプレートとテンプレート重みとの合成積が取得される。合成積を取得する処理を数式で表すと例えば以下の式(5)で表される。
式(5)においてH(L)は第L層の出力を表し、H(L-1)は第(L-1)層の出力を表す。式(5)をより詳しく、H(L)の要素ごとに表すと以下の式(6)で表される。
式(6)においてdは音源を表す。例えばdは、0又は1の値であり、1が2人の話者のうちの一方の話者を表し、0が他方の話者を表す。式(6)においてmは1以上N以下の整数であり、学習用スペクトログラムXの時間軸上の時刻を表す。式(6)におけるj(jは1以上J以下の整数。Jは1以上の整数。)は、音源dについてのスペクトログラムテンプレートを識別する識別子である。そのためJは音源dについてのスペクトログラムテンプレートの総数である。
すなわち式(6)は、式(6)の左辺が、以下の式(7)で表されるJ個のスペクトログラムテンプレートをそれぞれ時間軸方向にmだけシフトさせた後に以下の式(8)で表される値を乗算したものの総和、であることを示す。
式(8)は、H(L-1)の音源dの時刻(n-m)におけるスペクトログラムテンプレートjに乗算されるテンプレート重みを表す。
最終層では、第L中間層で取得された合成積が規格化される。最終層の処理は例えば以下の式(9)で表される。
式(9)をより詳しく、Vの要素ごとに表すと以下の式(10)で表される。
式(10)においてεは、ゼロ割りを避けるために予め定められた所定の定数である。εは、式(10)の右辺の他の値と比較して、充分小さな値であることが望ましい。式(10)は、推定支配音源情報Vの二乗ノルムが1となることを表している。しかしながら、推定支配音源情報Vはどのように規格化されてもよく、例えば推定支配音源情報Vのp乗ノルムが1となるように規格化されてもよい(pは1以上の整数)。
また、式(10)の右辺の分子の値を音源dの振幅スペクトログラムと解釈する場合、式(10)の左辺はWienerマスクを表すと解釈することができる。
なお、最終層において規格化の処理は必ずしも実行される必要は無く、最終層ではH(L)を推定支配音源情報Vとして取得してもよい。式(9)で表される推定支配音源情報Vは、合成積を規格化しただけなので、損失は合成積と学習用支配音源情報Yとの間の違いを表す量である。
音源分離装置2は、音源分離モデル学習装置1が学習によって得た音源分離モデルを用いて、入力された混合音信号から非混合音信号を分離する。混合音信号から分離する非混合音信号の数は、予め音源分離装置2のユーザが指定した数(以下「ユーザ指定数」という。)であってもよいし、その他の何らかの学習モデルに基づき混合音信号から音源の数を推定する技術を用いて推定した数であってもよい。その他の何らかの学習モデルは、例えば以下の参考文献1に記載の方法である。以下説明の簡単のため、混合音信号から分離する非混合音信号の数が予めユーザが指定した数である場合を例に音源分離システム100を説明する。
参考文献1:F. Stoter et al.,”CountNet: Estimating the Number of Concurrent Speakers Using Supervised Learning” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Volume: 27, Issue: 2, Feb.2019, pp.268-282
図3は、実施形態における音源分離モデル学習装置1のハードウェア構成の一例を示す図である。音源分離モデル学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部10を備え、プログラムを実行する。音源分離モデル学習装置1は、プログラムの実行によって制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。より具体的には、プロセッサ91が記憶部13に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、音源分離モデル学習装置1は、制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。
制御部10は、音源分離モデル学習装置1が備える各種機能部の動作を制御する。制御部10は、例えば単位学習処理を実行する。単位学習処理は、1つの学習用データ用いて損失を取得し、取得した損失に基づいてスペクトログラムテンプレートと重み推定モデルとを更新する一連の処理である。
入力部11は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部11は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部11は、自装置に対する各種情報の入力を受け付ける。入力部11は、例えば学習の開始を指示する入力を受け付ける。入力部11は、例えば学習用データの入力を受け付ける。学習の開始の指示は、例えば学習用データが入力されることであってもよい。
インタフェース部12は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して外部装置と通信する。外部装置は、例えばUSB(Universal Serial Bus)メモリ等の記憶装置であってもよい。外部装置が例えば学習用データを出力する場合、インタフェース部12は外部装置との通信によって外部装置が出力する学習用データを取得する。
インタフェース部12は、自装置を音源分離装置2に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して音源分離装置2と通信する。インタフェース部12は、音源分離装置2との通信により、音源分離装置2に音源分離モデルを出力する。
記憶部13は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部13は音源分離モデル学習装置1に関する各種情報を記憶する。記憶部13は、例えば予め重み推定モデルを記憶する。記憶部13は、例えば予めスペクトログラムテンプレートの初期値を記憶する。記憶部13は、例えばスペクトログラムテンプレートを記憶する。
出力部14は、各種情報を出力する。出力部14は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部14は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部14は、例えば入力部11に入力された情報を出力する。出力部14は、例えば学習終了条件が満たされた時点におけるスペクトログラムテンプレートを示す情報を表示してもよい。
図4は、実施形態における制御部10の機能構成の一例を示す図である。制御部10は、被管理部101及び管理部102を備える。被管理部101は、単位学習処理を実行する。被管理部101は、音源分離ニューラルネットワーク110、損失取得部120、テンプレート更新部130及び学習用データ取得部140を備える。
学習用データ取得部140は、入力部11又はインタフェース部12に入力された学習用データを取得する。学習用データ取得部140は、取得した学習用データのうち、学習用スペクトログラムXを音源分離ニューラルネットワーク110に出力し、学習用支配音源情報Yを損失取得部120に出力する。より具体的には学習用データ取得部140は、学習用スペクトログラムXについては、入力情報取得部111に出力する。
管理部102は、被管理部101の動作を制御する。管理部102は、被管理部101の動作の制御として、例えば単位学習処理の実行を制御する。
管理部102は、例えば入力部11、インタフェース部12、記憶部13及び出力部14の動作を制御する。管理部102は、例えば記憶部13から各種情報を読み出し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し記憶部13に記録する。管理部102、例えばインタフェース部12に入力された情報を取得し被管理部101に出力する。管理部102、例えばインタフェース部12に入力された情報を取得し記憶部13に記録する。管理部102は、例えば入力部11に入力された情報を出力部14に出力させる。
管理部102は、例えば単位学習処理の実行に用いられる情報と単位学習処理の実行によって生じた情報とを記憶部13に記録する。
図5は、実施形態における音源分離装置2のハードウェア構成の一例を示す図である。音源分離装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部20を備え、プログラムを実行する。音源分離装置2は、プログラムの実行によって制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。より具体的には、プロセッサ93が記憶部23に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、音源分離装置2は、制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。
制御部20は、音源分離装置2が備える各種機能部の動作を制御する。制御部20は、例えば音源分離モデル学習装置1が得た音源分離モデルを用いて、分離対象の混合音信号からユーザ指定数の非混合音信号を分離する。以下説明の簡単のためユーザ指定数は分離対象の混合音信号が音源分離装置2に入力される前に予め入力済みである場合を例に、音源分離装置2を説明する。
入力部21は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部21は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部21は、自装置に対する各種情報の入力を受け付ける。入力部21は、例えばユーザ指定数の入力を受け付ける。入力部21は、例えば混合音信号から非混合音信号を分離する処理の開始を指示する入力を受け付ける。入力部21は、例えば分離対象の混合音信号の入力を受け付ける。
インタフェース部22は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して外部装置と通信する。外部装置は、例えば混合音信号から分離された非混合音信号の出力先である。このような場合、インタフェース部22は、外部装置との通信によって外部装置に非混合音信号を出力する。非混合音信号の出力際の外部装置は、例えばスピーカー等の音の出力装置である。
外部装置は、例えば音源分離モデルを記憶したUSBメモリ等の記憶装置であってもよい。外部装置が例えば音源分離モデルを記憶しており音源分離モデルを出力する場合、インタフェース部22は外部装置との通信によって音源分離モデルを取得する。
外部装置は、例えば混合音信号の出力元である。このような場合、インタフェース部22は、外部装置との通信によって外部装置から混合音信号を取得する。
インタフェース部22は、自装置を音源分離モデル学習装置1に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して音源分離モデル学習装置1と通信する。インタフェース部22は、音源分離モデル学習装置1との通信により、音源分離モデル学習装置1から音源分離モデルを取得する。
記憶部23は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部23は音源分離装置2に関する各種情報を記憶する。記憶部13は、例えばインタフェース部22を介して取得した音源分離モデルを記憶する。記憶部13は、例えば入力部11を介して入力されたユーザ指定数を記憶する。記憶部13は、スペクトログラムテンプレートの数を記憶する。
出力部24は、各種情報を出力する。出力部24は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部24は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部24は、例えば入力部21に入力された情報を出力する。出力部24は、例えば混合音信号から非混合音信号を分離した際に用いたスペクトログラムテンプレートとスペクトログラムテンプレートに対応するテンプレート重みとを出力する。
図6は、実施形態における制御部20の機能構成の一例を示す図である。制御部20は、分離対象取得部201、スペクトログラム取得部202、分離情報取得部203、非混合音信号生成部204、音信号出力制御部205及びインタフェース制御部206を備える。
分離対象取得部201は、分離対象の混合音信号を取得する。分離対象取得部201は、例えば入力部21に入力された混合音信号を取得する。分離対象取得部201は、例えばインタフェース部22に入力された混合音信号を取得する。
スペクトログラム取得部202は、分離対象取得部201が取得した混合音信号のスペクトログラム(以下「分離対象スペクトログラム」という。)を取得する。スペクトログラムの取得方法は、混合音信号からスペクトログラムを取得可能であればどのような方法であってもよい。スペクトログラムの取得方法は、例えば混合音信号の波形に対し短時間フーリエ変換を適用した後,その振幅情報のみを抽出した振幅スペクトログラムを取得する方法であってもよい。である。取得されたスペクトログラムは分離情報取得部203に出力される。
分離情報取得部203は、分離対象スペクトログラムに基づき音源分離モデルを用いて、分離対象の混合音信号に含まれるユーザ指定数の非混合音信号それぞれについて推定支配音源情報Vを取得する。なお、音源分離モデルには、学習に用いた全ての音源に対するスペクトログラムテンプレートが入手される。そのため、ユーザ指定数が複数の場合には、音源分離モデルは、学習に用いられた全ての音源を分離可能である。
非混合音信号生成部204は、分離対象の混合音信号と、分離対象スペクトログラムと、分離情報取得部203が取得した推定支配音源情報Vと、を用いて、非混合音信号を生成する。非混合音信号生成部204は、例えば推定支配音源情報Vを入力振幅スペクトログラムに乗じ、Griffin-Lim法等の位相再構成法に基づき位相情報を付加した上で逆短時間フーリエ変換を適用することによって、非混合音信号を生成する。このようにして、非混合音信号生成部204は、分離対象の混合音信号から非混合音信号を分離する。分離された非混合音信号は音信号出力制御部205に出力される。
音信号出力制御部205は、インタフェース部22の動作を制御する。音信号出力制御部205は、インタフェース部22の動作を制御することでインタフェース部22に分離した非混合音信号を出力させる。
図7は、実施形態における音源分離モデル学習装置1が実行する処理の流れの一例を示すフローチャートである。より具体的には、図7は単位学習処理の流れの一例を示すフローチャートである。音源分離モデル学習装置1は、学習用データが入力されるたびに図7に示す単位学習処理を実行し音源分離モデルを得る。
入力部11又はインタフェース部12に学習用データが入力される(ステップS101)。次に入力情報取得部111が学習用データに含まれる学習用スペクトログラムXを取得する(ステップS102)。次に構成情報推定部112が、学習用スペクトログラムXに基づき重み推定モデルを用いてテンプレート重みを推定する(ステップS103)。
ステップS103の次に、支配音源情報推定部113が、スペクトログラムテンプレートとテンプレート重みとに基づき推定支配音源情報Vを推定する(ステップS104)。次に損失取得部120は、推定支配音源情報Vと学習用データに含まれる学習用支配音源情報Yとの間の違い(すなわち損失)を取得する(ステップS105)。次に、テンプレート更新部130が損失を小さくするようにスペクトログラムテンプレートを更新し、構成情報推定部112が損失を小さくするように重み推定モデルを更新する(ステップS106)。
図8は、実施形態における音源分離装置2が実行する処理の流れの一例を示すフローチャートである。以下説明の簡単のため、ユーザ指定数は予め音源分離装置2に入力済みであり、入力されたユーザ指定数は記憶部23に記憶済みである場合を例に音源分離装置2が実行する処理の流れの一例を説明する。
分離対象取得部201が、入力部21又はインタフェース部22に入力された分離対象の混合音信号を取得する(ステップS201)。次にスペクトログラム取得部202が、分離対象の混合音信号を用いて分離対象スペクトログラムを取得する(ステップS202)。次に分離情報取得部203が、分離対象スペクトログラムに基づき音源分離モデルを用いて、分離対象の混合音信号に含まれるユーザ指定数の非混合音信号それぞれについて推定支配音源情報Vを取得する(ステップS203)。
次に非混合音信号生成部204が、分離対象の混合音信号と、分離対象スペクトログラムと、分離情報取得部203が取得した推定支配音源情報Vと、を用いて、混合音信号から非混合音信号を分離する(ステップS204)。次に音信号出力制御部205が、インタフェース部22の動作を制御することでインタフェース部22に分離した非混合音信号を出力させる(ステップS205)。
<実験結果>
音源分離システム100を用いて音声の分離を行った実験(以下「分離実験」という。)の実験結果を説明する。分離実験では、The CMU Arctic speech databases(参考文献2参照)の音声データが混合音信号として用いられた。学習用データとしては、話者0(bdl)と話者1(clb)の音声をそれぞれ1000発話ずつ用いた。
音源分離システム100を用いて音声の分離を行った実験(以下「分離実験」という。)の実験結果を説明する。分離実験では、The CMU Arctic speech databases(参考文献2参照)の音声データが混合音信号として用いられた。学習用データとしては、話者0(bdl)と話者1(clb)の音声をそれぞれ1000発話ずつ用いた。
参考文献2:J. Kominek and A. W. Black,“The CMU Arctic speech databases”, In 5th ISCA Speech Synthesis Workshop, pp.223-224, 2004.
学習用データは、以下のようにして作成された。まず、話者0と話者1との各1発話の信号に対して、ハミング窓による短時間フーリエ変換を適用した。次に、0から1までの閉区間上の一様分布から生成された重みを短時間フーリエ変換後の各信号に乗じ、話者ごとにスペクトログラムX{~}(d)を得た。分離実験においてdは0又は1であり、0は話者0を示し、1は話者1を示す。なお、X{~}は、以下の式(11)で表される記号を意味する。
また、X{~}(q)は、以下の式(12)で表される記号を意味する。
次にスペクトログラムX{~}(d)を合成し、混合信号の複素スペクトログラムX{~}を算出した。すなわち、X{~}=(X{~}(0)+X{~}(1))である。次に提案モデルへの入力X=(Xf、n)f、nを最大値が1になるようにスケーリングし、振幅スペクトログラムXf、nを取得した。振幅スペクトログラムXf、nは以下の式(13)で表される。
また、分離実験では各時間周波数点(f、n) について、以下の式(14)を満たすものを無音として扱った。
また、分離実験では、各時間周波数点(f、n)の支配的な話者を示す学習用支配音源情報Yとして以下の式(15)で表される情報を用いた。式(15)の左辺が分離実験で用いた学習用支配音源情報Yを表す。
テストデータの作成には、話者0(bdl)と話者1(clb)の音声をそれぞれ66発話ずつ用いた。テストデータの作成方法は学習用データと同様であるが、短時間フーリエ変換の適用後に乗じる重みはどちらの話者に関しても1にした。
図9は、実施形態における分離実験の第1の結果を示す図である。具体的には図9は、500エポックの学習によって得られた音源分離モデルを用いたテストデータのスペクトログラムの一例である。図9の結果R1が話者0のスペクトログラムであり、図9の結果R2が話者1のスペクトログラムである。
図10は、実施形態における分離実験の第2の結果を示す図である。具体的には図10は、図9のテストデータに対する正解データの支配音源情報を表す。図10の結果R3が話者0に対応する正解データであり、図9の結果R4が話者1に対応する正解データである。
図11は、実施形態における分離実験の第3の結果を示す図である。具体的には図11は、図9のテストデータに対する音源分離装置2の正規化前の推定結果である。図11の結果R5が話者0に対応する推定結果であり、図11の結果R6が話者1に対応する推定結果である。
図12は、実施形態における分離実験の第4の結果を示す図である。具体的には図12は、図9のテストデータに対する音源分離装置2の正規化後の推定結果である。図12の結果R7が話者0に対応する推定結果であり、図12の結果R8が話者1に対応する推定結果である。
図13は、実施形態における分離実験の第5の結果を示す図である。具体的には図13は、図9のテストデータに対して音源分離装置2が取得したスペクトログラムテンプレートを示す。図13の結果R9が話者0に対応するスペクトログラムテンプレートであり、図13の結果R10が話者1に対応するスペクトログラムテンプレートである。図13は、jの小さい方から順に5つのスペクトログラムテンプレートを表す。なお、各スペクトログラムテンプレートの横軸は、時刻を表し、縦軸は周波数を表す。jは複数のスペクトログラムテンプレートを区別するための番号である。
図14は、実施形態における分離実験の第6の結果を示す図である。具体的には図14は、図9のテストデータに対して音源分離装置2が取得した話者0に対応するテンプレート重みを示す。図14において、R11-0は、図13のj=0における話者0に対応するテンプレート重みを示す。図14において、R11-1は、図13のj=1における話者0に対応するテンプレート重みを示す。図14において、R11-2は、図13のj=2における話者0に対応するテンプレート重みを示す。図14において、R11-3は、図13のj=3における話者0に対応するテンプレート重みを示す。図14において、R11-4は、図13のj=4における話者0に対応するテンプレート重みを示す。
図15は、実施形態における分離実験の第7の結果を示す図である。具体的には図15は、図9のテストデータに対して音源分離装置2が取得した話者1に対応するテンプレート重みを示す。図15において、R12-0は、図13のj=0における話者1に対応するテンプレート重みを示す。図15において、R12-1は、図13のj=1における話者1に対応するテンプレート重みを示す。図15において、R12-2は、図13のj=2における話者1に対応するテンプレート重みを示す。図15において、R12-3は、図13のj=3における話者1に対応するテンプレート重みを示す。図15において、R12-4は、図13のj=4における話者1に対応するテンプレート重みを示す。
図13~図15の実験結果は、音源分離装置2がどのようにして話者の違いを分離したかを示す。そのため、分離実験の結果は、音源分離システム100は学習済みモデルの解釈を容易にすることを示す。
このように構成された実施形態の音源分離システム100は、スペクトログラムテンプレートとテンプレート重みとを推定し、推定結果に基づき損失を小さくするように学習する。具体的には、音源分離システム100を用いれば、ユーザは、スペクトログラムテンプレートとその重みを見ることで、入力された信号に対する音源分離に用いられる周波数パターンの情報とその時間変化をそれぞれ把握することができる。なお、周波数パターンとは、周波数に応じたエネルギーの分布を表す情報である。そのため、音源分離システム100を用いればユーザは、どのようにして音源が分離されたのかについて少なくとも周波数パターンの時間変化を知ることができ、周波数パターンの時間変化を学習済みモデルの解釈に役立てることができる。このように、音源分離システム100は、学習済みモデルの解釈を容易にする。
また、このように構成された実施形態の音源分離システム100は、スペクトログラムテンプレートとテンプレート重みとの値が非負値であるように学習を行う。このような場合、スペクトログラムテンプレートの値とテンプレート重みの値とが負の値であるということが無くなるので、スペクトログラムテンプレートの表す物理的な意味やテンプレート重みの表す物理的な意味の解釈を容易にする。そのため、このように構成された音源分離システム100は学習済みモデルの解釈を容易にする。
(変形例)
なお、式(10)の右辺の分子の値を音源dの振幅スペクトログラムと解釈する場合、式(10)の右辺を全音源dについて和をとった値は、学習用スペクトログラムXを良く近似しているという条件(以下「正則化条件」という。)が満たされることが望ましい。このような正則化条件は、以下の式(16)で表される損失を小さくするという条件である。
なお、式(10)の右辺の分子の値を音源dの振幅スペクトログラムと解釈する場合、式(10)の右辺を全音源dについて和をとった値は、学習用スペクトログラムXを良く近似しているという条件(以下「正則化条件」という。)が満たされることが望ましい。このような正則化条件は、以下の式(16)で表される損失を小さくするという条件である。
式(16)の右辺第1項は式(3)の左辺の値である。式(17)においてD(A||B)は、AとBとが一致するときに0を出力し、XとYとの違いが大きくなるほど大きい値を出力する非負値関数である。そのためD(A||B)は、例えば|A-B|2である。式(16)においてλは正則化の強さを表す非負の定数である。
式(17)は、式(10)の右辺を全音源dについて和をとった値と学習用スペクトログラムXの間の誤差を表す項(正則化項)である。音源分離モデル学習装置1は、式(16)で表される損失を小さくするように学習することで、式(10)の右辺を全音源dについて和をとった値と学習用スペクトログラムXとの違いを小さくすることができる。具体的には、損失取得部120が式(3)で表される損失に代えて式(16)で表される損失を取得すれば、音源分離モデル学習装置1は式(10)の右辺を全音源dについて和をとった値と学習用スペクトログラムXとの違いを小さくすることができる。
なお、音源分離装置2は、必ずしもスペクトログラム取得部202を備える必要は無い。このような場合、音源分離装置2には分離対象スペクトログラムがそのまま入力される。
なお、音源分離モデル学習装置1及び音源分離装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。音源分離モデル学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。なお、テンプレート更新部130は、支配音源情報推定部113が備えてもよい。
なお、非混合音信号生成部204は分離部の一例である。なお、構成情報推定部112は、重み推定部の一例である。なお、スペクトログラムテンプレートは非負の値である方が非負の値でない場合よりも学習済みモデルの解釈を容易にするが、必ずしも非負の値である必要は無い。また、テンプレート重みについても、非負の値である方が非負の値でない場合よりも学習済みモデルの解釈を容易にするが、必ずしも非負の値である必要は無い。
なお、音源分離モデル学習装置1と音源分離装置2の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100…音源分離システム、 1…音源分離モデル学習装置、 2…音源分離装置、 10…制御部、 11…入力部、 12…インタフェース部、 13…記憶部、 14…出力部、 101…被管理部、 102…管理部、 110…音源分離ニューラルネットワーク、 111…入力情報取得部、 112…構成情報推定部、 113…支配音源情報推定部、 120…損失取得部、 130…テンプレート更新部、 140…学習用データ取得部、 20…制御部、 21…入力部、 22…インタフェース部、 23…記憶部、 24…出力部、 201…分離対象取得部、 202…スペクトログラム取得部、 203…分離情報取得部、 204…非混合音信号生成部、 205…音信号出力制御部、 206…インタフェース制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ
Claims (8)
- 複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得部と、
前記スペクトログラムの時間軸方向に区分された1つの区間に属する時間周波数点における1又は複数の値であって前記スペクトログラムに関する1又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、
前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、
前記推定結果と前記支配音源情報との違いを取得する損失取得部と、
を備え、
前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、
前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、
音源分離モデル学習装置。 - 前記違いに基づいて前記テンプレートを更新するテンプレート更新部、
を備える請求項1に記載の音源分離モデル学習装置。 - 前記テンプレートの値は非負の値である、
請求項1又は2に記載の音源分離モデル学習装置。 - 前記重み推定部は前記重みの値として非負の値を取得する、
請求項1から3のいずれか一項に記載の音源分離モデル学習装置。 - 前記テンプレートと前記重みとを出力する出力部に前記テンプレートと前記重みとを出力させる出力制御部、
を備える請求項1から4のいずれか一項に記載の音源分離モデル学習装置。 - 複数の音が混合された混合信号のスペクトログラムを取得するスペクトログラム取得部と、
複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得部と、前記スペクトログラムの時間軸方向に区分された1つの区間に属する時間周波数点における1又は複数の値であって前記スペクトログラムに関する1又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、前記推定結果と前記支配音源情報との違いを取得する損失取得部と、前記テンプレート及び前記重みを出力する出力部と、を備え、前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する音源分離モデル学習装置によって学習された前記テンプレート及び前記モデルを用いて分離対象の混合信号が含む複数の音源の音の信号を分離する分離部と、
を備える音源分離装置。 - 複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得ステップと、
前記スペクトログラムの時間軸方向に区分された1つの区間に属する時間周波数点における1又は複数の値であって前記スペクトログラムに関する1又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定ステップと、
前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定ステップと、
前記推定結果と前記支配音源情報との違いを取得する損失取得ステップと、
を有し、
前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、
前記重み推定ステップでは前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、
音源分離モデル学習方法。 - 請求項1から5のいずれか一項に記載の音源分離モデル学習装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/019997 WO2021234873A1 (ja) | 2020-05-20 | 2020-05-20 | 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021234873A1 JPWO2021234873A1 (ja) | 2021-11-25 |
JP7376833B2 true JP7376833B2 (ja) | 2023-11-09 |
Family
ID=78708280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022524772A Active JP7376833B2 (ja) | 2020-05-20 | 2020-05-20 | 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7376833B2 (ja) |
WO (1) | WO2021234873A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018502319A (ja) | 2015-07-07 | 2018-01-25 | 三菱電機株式会社 | 信号の1つ又は複数の成分を区別する方法 |
WO2018042791A1 (ja) | 2016-09-01 | 2018-03-08 | ソニー株式会社 | 情報処理装置、情報処理方法及び記録媒体 |
JP2019144511A (ja) | 2018-02-23 | 2019-08-29 | 日本電信電話株式会社 | 音響信号モデル学習装置、音響信号解析装置、方法、及びプログラム |
-
2020
- 2020-05-20 WO PCT/JP2020/019997 patent/WO2021234873A1/ja active Application Filing
- 2020-05-20 JP JP2022524772A patent/JP7376833B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018502319A (ja) | 2015-07-07 | 2018-01-25 | 三菱電機株式会社 | 信号の1つ又は複数の成分を区別する方法 |
WO2018042791A1 (ja) | 2016-09-01 | 2018-03-08 | ソニー株式会社 | 情報処理装置、情報処理方法及び記録媒体 |
JP2019144511A (ja) | 2018-02-23 | 2019-08-29 | 日本電信電話株式会社 | 音響信号モデル学習装置、音響信号解析装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021234873A1 (ja) | 2021-11-25 |
JPWO2021234873A1 (ja) | 2021-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kavalerov et al. | Universal sound separation | |
EP3292515B1 (en) | Method for distinguishing one or more components of signal | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
Toledano et al. | Multi-resolution speech analysis for automatic speech recognition using deep neural networks: Experiments on TIMIT | |
Bandela et al. | Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition | |
Vignolo et al. | Genetic wavelet packets for speech recognition | |
JP6099032B2 (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP7376833B2 (ja) | 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラム | |
JP2009204808A (ja) | 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体 | |
JP3541224B2 (ja) | 音源の分離方法および分離装置 | |
Park et al. | Separation of instrument sounds using non-negative matrix factorization with spectral envelope constraints | |
CN116312617A (zh) | 语音转换方法、装置、电子设备及存储介质 | |
Khamsehashari et al. | Voice privacy-leveraging multi-scale blocks with ECAPA-TDNN SE-res2next extension for speaker anonymization | |
JP2020034870A (ja) | 信号解析装置、方法、及びプログラム | |
Grais et al. | Initialization of nonnegative matrix factorization dictionaries for single channel source separation | |
US20200273480A1 (en) | Sound source separating device, sound source separating method, and program | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
JP5771582B2 (ja) | 音響信号分析装置、方法、及びプログラム | |
Badeau et al. | Nonnegative matrix factorization | |
JP6564744B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP7498408B2 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
WO2022234615A1 (ja) | 変換モデル学習装置、変換モデル生成方法、変換装置、変換方法およびプログラム | |
WO2022101967A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231009 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7376833 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |