JP6821615B2 - マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム - Google Patents

マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム Download PDF

Info

Publication number
JP6821615B2
JP6821615B2 JP2018029969A JP2018029969A JP6821615B2 JP 6821615 B2 JP6821615 B2 JP 6821615B2 JP 2018029969 A JP2018029969 A JP 2018029969A JP 2018029969 A JP2018029969 A JP 2018029969A JP 6821615 B2 JP6821615 B2 JP 6821615B2
Authority
JP
Japan
Prior art keywords
mask
sound source
acoustic signal
mask information
input acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018029969A
Other languages
English (en)
Other versions
JP2019144467A (ja
Inventor
卓哉 樋口
卓哉 樋口
中谷 智広
智広 中谷
慶介 木下
慶介 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018029969A priority Critical patent/JP6821615B2/ja
Priority to PCT/JP2019/005976 priority patent/WO2019163736A1/ja
Priority to US16/971,656 priority patent/US11562765B2/en
Publication of JP2019144467A publication Critical patent/JP2019144467A/ja
Application granted granted Critical
Publication of JP6821615B2 publication Critical patent/JP6821615B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Description

本発明は、複数の音源からの音が混合された音響信号を、音源毎の信号に分離する音源分離技術に関する。
複数の音源からの音が混合された音響信号を、音源毎の信号に分離する音源分離技術には、複数のマイクで収音された音を対象とした音源分離技術と、1つのマイクで収音された音を対象とした音源分離技術がある。後者の場合はマイクの位置に関する情報を利用することができないため、前者の場合よりも難しいとされている。
後者の問題のように、マイクの位置の情報を使わず、入力音響信号の情報に基づいて音源分離を行う技術として、非特許文献1が知られている。
非特許文献1では、入力音響信号を双方向長短期記憶(BLSTM: bi-directional long short-term memory)により埋め込みベクトルに変換した後、埋め込みベクトルをk-means法により音源毎のクラスタにクラスタリングして、各クラスタに属する音源を抽出するためのマスクを推定する。BLSTMのパラメータの学習においては、予め与えられた教師マスク(正解のマスク)と推定されたマスクとの距離を最小化するように、BLSTMのパラメータを更新する。運用時には、パラメータ学習済みのBLSTMを用いて入力音響信号を埋め込みベクトルに変換し、その結果をk-means法によりクラスタリングして、マスク推定結果を得る。
Zhuo Chen, Yi Luo, and Nima Mesgarani, "Deep attractor network for single-microphone speaker separation," arXiv preprint arXiv:1611.08930v2, 2017.
非特許文献1では、学習時はSoftmax関数を用いて埋め込みベクトルからマスクを推定しているのに対して、運用時には埋め込みベクトルに対してk-means法を適用しクラスタリングすることでマスクの推定が行われる。つまり、学習時と運用時でマスク推定の基準が同一ではないため、運用時の入力音響信号にとって最適なBLSTMのパラメータ学習がなされているとはいえず、運用時における音源分離の精度が低下する可能性がある。
本発明は、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させることを目的とする。
本発明の一形態に係るマスク推定装置は、
入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置であって、
学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するマスク計算部と、
を有することを特徴とする。
また、本発明の一形態に係るモデル学習装置は、
入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置であって、
前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するマスク計算部と、
前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するパラメータ更新部と、
を有することを特徴とする。
また、本発明の一形態に係る音源分離装置は、
入力音響信号から特定の音源の信号を抽出する音源分離装置であって、
学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するマスク計算部と、
前記マスク情報を用いて前記入力音響信号から特定の音源の信号を抽出する音源分離部と、
を有することを特徴とする。
また、本発明の一形態に係るマスク推定方法は、
入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置が実行するマスク推定方法であって、
学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するステップと、
を有することを特徴とする。
また、本発明の一形態に係るモデル学習方法は、
入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置が実行するモデル学習方法であって、
前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するステップと、
前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するステップと、
を有することを特徴とする。
また、本発明の一形態に係る音源分離方法は、
入力音響信号から特定の音源の信号を抽出する音源分離装置が実行する音源分離方法であって、
学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するステップと、
前記マスク情報を用いて前記入力音響信号から特定の音源を抽出するステップと、
を有することを特徴とする。
また、本発明の一形態に係るプログラムは、上記の装置の各部としてコンピュータを機能させることを特徴とする。
本発明によれば、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させることが可能になる。
本発明の実施例におけるシステム構成例を示す図である。 本発明の実施例1におけるマスク推定装置の機能構成を示す図である。 本発明の実施例1におけるマスク推定装置のマスク計算部の機能構成を示す図である。 本発明の実施例2におけるモデル学習装置の機能構成を示す図である。 本発明の実施例3における音源分離装置の機能構成を示す図である。 各装置のハードウェア構成例を示す図である。
以下、図面を参照して本発明の実施例について説明する。
図1は、本発明の実施例におけるシステム構成例を示す図である。図1において、マイクMは、C個のクラスS1〜SCにクラスタリングされ得る複数の音源からの音を収音することができる。マイクMは、収音された音を音響信号として音源分離装置30に出力する。ただし、本実施例の音源分離装置30は、マイクで収音した音を直接、音源分離装置30に入力する場合に限定されるものではなく、例えば、マイク等により収音した音がメディアやハードディスク等に記憶されており、その記憶された音響信号を音源分離装置30に読み込むことで実行される形式であっても良い。
音源分離装置30は、音響信号を入力として受け取り、特定の音源の信号を出力する装置である。音源分離装置30は、特定の音源の信号のみを出力することも可能であり、音源毎の信号を出力することも可能である。音源分離装置30は、入力音響信号から特定の音源の信号を抽出するためにマスクを用いる。音源分離装置30は、マスクを特定するためのマスク情報を推定するために、ニューラルネットワークモデルを利用する。なお、マスク情報には、マスクそのものだけでなく、マスクを決定するためのパラメータも含まれる。音源分離装置30は、学習時には、予め用意された学習用入力音響信号(マスク情報が予め知られているものとする)を用いて、ニューラルネットワークモデルを学習する。音源分離装置30は、運用時には、学習時に学習されたニューラルネットワークモデル(パラメータ設定済みのニューラルネットワーク)を用いて、マスク情報を計算する。
なお、音源分離装置30におけるニューラルネットワークモデルの学習及びマスク情報の計算は別の装置で行われても、同じ装置で行われてもよい。以下の実施例では、それぞれモデル学習装置及びマスク推定装置という別の装置で行われるものとして説明する。
<実施例1:マスク推定装置>
実施例1では、複数の音源からの音が混合された混合音響信号である入力音響信号が入力され、入力音響信号から特定の音源を抽出するために用いられるマスクを特定するためのマスク情報、又は入力音響信号から音源毎の信号に分離するために用いられるマスクを特定するためのマスク情報を出力するマスク推定装置について説明する。
図1に、本発明の実施例1におけるマスク推定装置10の機能構成を示す。マスク推定装置10は、変換部110と、マスク計算部120とを有する。
(変換部)
変換部110は、入力音響信号を入力とし、所定次元のベクトル(埋め込みベクトル)を出力するニューラルネットワークである。ニューラルネットワークの種類は特に限定されるものではないが、例えば、非特許文献1に記載の双方向長短期記憶(BLSTM)が用いられてもよい。以下の説明では、BLSTMを例に挙げて説明する。
ニューラルネットワークモデル(この例ではBLSTMの各パラメータ)は、後述のモデル学習装置により予め学習済みであるものとする。変換部110は、学習済みのニューラルネットワークにより、以下の通り、入力音響信号を埋め込みベクトルに変換する。
まず、変換部110は、入力音響信号を時間周波数解析し、時間周波数点ごとの特徴量をニューラルネットワークに入力し、時間周波数点のインデックスnに対応する埋め込みベクトル
Figure 0006821615
を得る。ここで、n∈{1,...,N}は時間周波数点のインデックスであり、Dはニューラルネットワークが出力する埋め込みベクトルの次数である。
(マスク計算部)
マスク計算部120は、変換部110から出力された埋め込みベクトルを入力とし、マスク情報を出力する処理部である。マスク計算部120は、マスク情報を計算するために、埋め込みベクトルを混合ガウスモデルにフィッティングさせる。
具体的には、埋め込みベクトルがC個のガウス分布で構成された混合ガウス分布に従うものと仮定して、埋め込みベクトルをより適切に表現できる混合ガウス分布のパラメータである平均μc及び共分散行列Σcを推定する。ここで、c∈{1,...,C}は各音源に対応するクラスタのインデックスであり、Cは音源のクラスタの総数である。また、μcはクラスタcに対応するガウス分布の平均、Σcはクラスタcに対応するガウス分布の共分散行列を表す。マスクの推定値は、推定された混合ガウス分布のパラメータμc及びΣcから下記式により得られる。
Figure 0006821615
ここで、
Figure 0006821615
は平均μ及び共分散行列Σのときのガウス分布の確率密度関数である。
このように、マスク
Figure 0006821615
は推定された混合ガウス分布のパラメータμc及びΣcから特定できるので、マスク情報はマスクそのものであってもよいし、混合ガウス分布のパラメータであってもよい。以下、マスク計算部120で計算される混合ガウス分布のパラメータμc及びΣcの推定値を^μc及び^Σcと表記することとする。なお、^は直後の記号(μやΣ)の上に表示される記号である。
マスク計算部120は、混合ガウスモデルへのフィッティングのために、埋め込みベクトルに対する混合ガウス分布のパラメータの尤度を最大化するように、各ガウス分布のパラメータを求める。具体的には、変換部110により得られた全ての時間周波数点についての埋め込みベクトルに基づいて、以下の対数尤度関数を最大化するように、各ガウス分布のパラメータ^μc及び^Σcを繰り返し更新する。
Figure 0006821615
パラメータの更新は、例えば、EM(expectation-maximization)アルゴリズムを用いて行う。図3に、EMアルゴリズムを用いるときのマスク計算部120の機能構成を示す。マスク計算部120は、第1更新部121と、第2更新部122と、判定部123と、記憶部124とを有する。
記憶部124は、第1更新部121、第2更新部122及び判定部123の処理で用いられるパラメータの初期値又は更新値を格納する記憶装置である。最初に、記憶部124には、混合ガウス分布のパラメータ^μc及び^Σcの初期値が格納されている。初期値は任意に決めることができる。
(第1更新部)
第1更新部121は、変換部110から出力された埋め込みベクトルを入力とし、マスクの推定値を出力する処理部である。第1更新部121は、EMアルゴリズムのE-stepに相当する処理を行う。具体的には、第1更新部121は、下記式により、事後確率であるマスクの推定値を計算する。
Figure 0006821615
ここで、
Figure 0006821615
は、記憶部124に記憶されたパラメータである。
(第2更新部)
第2更新部122は、第1更新部121で求めたマスクの推定値と、変換部110から出力された埋め込みベクトルとを入力とし、パラメータの推定値^μc及び^Σcを出力する処理部である。第2更新部122は、EMアルゴリズムのM-stepに相当する処理を行う。具体的には、第2更新部122は、下記式により^μc及び^Σcを更新する。
Figure 0006821615
(判定部)
判定部123は、所定の基準を満たすまで、第1更新部と第2更新部を繰り返し実行させることで、マスク情報を繰り返し更新させる処理を行う。そして、所定の基準を満たしたら、その時点で記憶部124に記憶されているガウス分布の各パラメータの値を出力して処理を終了する。
所定の基準とは、例えば、第2更新部122で求めたガウス分布のパラメータの推定値と、変換部110から出力された埋め込みベクトルとに基づいて計算される対数尤度を最大化することである。対数尤度は、埋め込みベクトルを今のガウス分布のパラメータの推定値に基づいてクラスタリングしたときの尤もらしさの評価値のようなものと考えることができ、より尤もらしくクラスタリングできるようにガウス分布のパラメータの推定値を繰り返し更新するのである。
具体的には、第2更新部122で求めたガウス分布のパラメータの推定値と埋め込みベクトルに基づいて上記式(2)の対数尤度を求める。ここで、式(2)におけるパラメータμc及びΣcは、その推定値^μc及び^Σcに置き換えるものとする。そして、直前の判定部123の処理で算出した対数尤度のほうが小さければ、基準を満たしたと判定して記憶部124に記憶されているガウス分布のパラメータ、若しくは、当該ガウス分布のパラメータから求めたマスク推定値をマスク情報として出力し、処理を終了する。そうでない(基準を満たしていない)場合は、第1更新部121に戻って処理を繰り返すようにすればよい。あるいは、今回算出した対数尤度から直前の判定部123の処理で算出した対数尤度を差し引いた値が所定の閾値を下回れば基準を満たしたと判定し、そうでない場合は基準を満たさないとしてもよい。あるいは、繰り返し処理の回数をカウントしておき、所定の回数に達したら所定の基準を満たしたと判定してもよい。
<実施例2:モデル学習装置>
実施例2では、実施例1のニューラルネットワークモデル、具体的には、実施例1の推定を行う際の変換部110を構成するニューラルネットワークのパラメータを学習するモデル学習装置について説明する。
図4に、本発明の実施例2におけるモデル学習装置20の機能構成を示す。モデル学習装置20は、変換部210と、マスク計算部220と、パラメータ更新部230とを有する。
(変換部)
変換部210は、学習用に予め用意された混合音響信号である学習用入力音響信号を入力とし、所定次元のベクトル(埋め込みベクトル)を出力するニューラルネットワークである。ただし、学習用入力音響信号は学習用に予め用意されたものであり、正解となるマスク情報(教師マスク情報)が予め知られているとする。変換部210は、実施例1と同様に、ニューラルネットワーク(例えばBLSTM)を用いて、学習用入力音響信号を埋め込みベクトルに変換する。ここで、ニューラルネットワークの各パラメータとしては、予め決められた初期値が最初に用いられるが、後述のパラメータ更新部230においてパラメータが更新された場合には、パラメータの更新値が用いられる。
(マスク計算部)
マスク計算部220は、変換部210から出力された埋め込みベクトルを入力とし、マスク情報の推定結果(推定マスク情報)を出力する処理部である。マスク計算部120は、推定マスク情報を計算するために、実施例1と同様の手法で、埋め込みベクトルを混合ガウスモデルにフィッティングさせる。このように、学習時と運用時で同様の手法でマスクを推定することにより、運用時に入力音響信号にとって最適なニューラルネットワークの各パラメータの学習が実現できる。
具体的には、マスク計算部220は、混合ガウスモデルにフィッティングさせることで、推定マスク情報を求めるが、混合ガウスモデルのフィッティングはEMアルゴリズムを用いるのではなく、予め与えられた共分散行列Σcと教師マスクMn,cから求めた平均μcを用いる。
共分散行列Σcはc∈{1,...,C}の全てにおいて共通であり、Σc=σIとする。ここでIは単位行列であり、σはスカラ変数で任意の値を設定できるものとする。平均μc
Figure 0006821615
により教師マスクMn,cから計算する。
よって、推定マスク情報は下記式により求めることができる。
Figure 0006821615
(パラメータ更新部)
パラメータ更新部230は、予め知られている教師マスク情報と、マスク計算部220から出力された推定マスク情報とを入力とし、ニューラルネットワークの各パラメータを更新する処理部である。
具体的には、パラメータ更新部230は、前記変換部と前記マスク計算部の処理を行って得たマスク情報と、予め用意された正解のマスク情報とが近づくように、ニューラルネットワークの各パラメータを繰り返し更新する。
例えば、推定マスク情報と教師マスク情報の比較結果が所定の基準を満たすまで、ニューラルネットワークの各パラメータを繰り返し更新する。例えば、推定マスクと教師マスクとの距離を表すコスト関数を定義して、ニューラルネットワークの各パラメータを更新してもよく、推定マスクを用いて計算された信号と学習用入力音響信号との距離を表すコスト関数を定義して、ニューラルネットワークの各パラメータを更新してもよい。これは、ニューラルネットワークで通常行われる学習処理と同じであり、誤差伝播学習法等により行えばよい。例えば、下記式により推定マスク
Figure 0006821615
と教師マスクMn,cとの交差エントロピーに基づいて、ニューラルネットワークの各パラメータΘの更新を行えばよい。
Figure 0006821615
<実施例3:音源分離装置>
実施例3では、実施例1のマスク推定装置10を用いて、入力音響信号から特定の音源の信号を抽出する音源分離装置30について説明する。音源分離装置30は、入力音響信号から特定の音源の信号のみを抽出することもでき、入力音響信号を音源毎の信号に分離して出力することもできる。
図5に、本発明の実施例3における音源分離装置30の機能構成を示す。音源分離装置30は、マスク推定装置10に加えて、音源分離部310を有する。
<音源分離部>
音源分離部310は、入力音響信号と、マスク推定装置10から出力されたマスク情報とを入力とし、特定の音源の信号又は音源毎の信号を出力する処理部である。
具体的には、音源分離部310は、入力音響信号にマスク推定装置10で推定したマスク情報に基づいて構成したマスクをかけることにより、音源毎の信号の推定結果を得て出力する。特定の音源からの信号のみ出力したい場合には、音源を特定する情報cをさらに入力として受け取り、マスク情報のうち入力された音源cを特定する情報に対応するマスク情報からマスクを構成し、入力音響信号に適用することで、当該音源の信号の推定値を得ればよい。
<ハードウェア構成例>
図6に、本発明の実施例における各装置(マスク推定装置10、モデル学習装置20、音源分離装置30)のハードウェア構成例を示す。各装置は、CPU(Central Processing Unit)151等のプロセッサ、RAM(Random Access Memory)やROM(Read Only Memory)等のメモリ装置152、ハードディスク等の記憶装置153等から構成されたコンピュータでもよい。例えば、各装置の機能および処理は、記憶装置153又はメモリ装置152に格納されているデータやプログラムをCPU151が実行することによって実現される。また、各装置に必要な情報は、入出力インタフェース装置154から入力され、各装置において求められた結果は、入出力インタフェース装置154から出力されてもよい。
<補足>
説明の便宜上、本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置は機能的なブロック図を用いて説明しているが、本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、本発明の実施例は、コンピュータに対して本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置の機能を実現させるプログラム、コンピュータに対して本発明の実施例に係る方法の各手順を実行させるプログラム等により、実現されてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。また、本発明の実施例に係る方法は、実施例に示す順序と異なる順序で実施されてもよい。
以上、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させるための手法について説明したが、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。
10 マスク推定装置
110 変換部
120 マスク計算部
121 第1更新部
122 第2更新部
123 判定部
124 記憶部
20 モデル学習装置
210 変換部
220 マスク計算部
230 パラメータ更新部
30 音源分離装置
310 音源分離部
151 CPU
152 メモリ
153 記憶装置
154 入出力インタフェース装置

Claims (9)

  1. 入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置であって、
    学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
    前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するマスク計算部と、
    を有するマスク推定装置。
  2. 前記マスク計算部は、前記埋め込みベクトルに対する混合ガウス分布のパラメータの尤度を最大化するように、前記マスク情報の計算を行う、請求項1に記載のマスク推定装置。
  3. 前記学習済みニューラルネットワークモデルは、
    予め用意された学習用の入力音響信号に対して、前記変換部と前記マスク計算部の処理を行って得たマスク情報と、予め用意された正解のマスク情報とが近づくように学習されたものである、請求項1または2記載のマスク推定装置。
  4. 入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置であって、
    前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
    前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するマスク計算部と、
    前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するパラメータ更新部と、
    を有するモデル学習装置。
  5. 入力音響信号から特定の音源の信号を抽出する音源分離装置であって、
    学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
    前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するマスク計算部と、
    前記マスク情報を用いて前記入力音響信号から特定の音源の信号を抽出する音源分離部と、
    を有する音源分離装置。
  6. 入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置が実行するマスク推定方法であって、
    学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
    前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するステップと、
    を有するマスク推定方法。
  7. 入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置が実行するモデル学習方法であって、
    前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
    前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するステップと、
    前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するステップと、
    を有するモデル学習方法。
  8. 入力音響信号から特定の音源の信号を抽出する音源分離装置が実行する音源分離方法であって、
    学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
    前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するステップと、
    前記マスク情報を用いて前記入力音響信号から特定の音源を抽出するステップと、
    を有する音源分離方法。
  9. 請求項1乃至5のうちいずれか1項に記載の装置の各部としてコンピュータを機能させるためのプログラム。
JP2018029969A 2018-02-22 2018-02-22 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム Active JP6821615B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018029969A JP6821615B2 (ja) 2018-02-22 2018-02-22 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
PCT/JP2019/005976 WO2019163736A1 (ja) 2018-02-22 2019-02-19 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
US16/971,656 US11562765B2 (en) 2018-02-22 2019-02-19 Mask estimation apparatus, model learning apparatus, sound source separation apparatus, mask estimation method, model learning method, sound source separation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018029969A JP6821615B2 (ja) 2018-02-22 2018-02-22 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019144467A JP2019144467A (ja) 2019-08-29
JP6821615B2 true JP6821615B2 (ja) 2021-01-27

Family

ID=67686764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018029969A Active JP6821615B2 (ja) 2018-02-22 2018-02-22 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム

Country Status (3)

Country Link
US (1) US11562765B2 (ja)
JP (1) JP6821615B2 (ja)
WO (1) WO2019163736A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220169242A (ko) * 2021-06-18 2022-12-27 삼성전자주식회사 전자 장치 및 전자 장치의 개인화된 음성 처리 방법
CN113408702B (zh) * 2021-06-23 2022-12-27 腾讯音乐娱乐科技(深圳)有限公司 音乐神经网络模型预训练方法及电子设备和存储介质
CN113377331B (zh) * 2021-07-05 2023-04-07 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置、设备及存储介质
WO2023127057A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198306A1 (ja) * 2018-04-12 2019-10-17 日本電信電話株式会社 推定装置、学習装置、推定方法、学習方法及びプログラム
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
US10991385B2 (en) * 2018-08-06 2021-04-27 Spotify Ab Singing voice separation with deep U-Net convolutional networks
CN111863015A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치

Also Published As

Publication number Publication date
JP2019144467A (ja) 2019-08-29
US20200395037A1 (en) 2020-12-17
US11562765B2 (en) 2023-01-24
WO2019163736A1 (ja) 2019-08-29

Similar Documents

Publication Publication Date Title
JP6821615B2 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP2021516369A (ja) 混合音声の認識方法、装置及びコンピュータ可読記憶媒体
CN110853666A (zh) 一种说话人分离方法、装置、设备及存储介质
JP5214760B2 (ja) 学習装置、方法及びプログラム
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
CN111599346B (zh) 一种说话人聚类方法、装置、设备及存储介质
JP2019074625A (ja) 音源分離方法および音源分離装置
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
WO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
US8494986B2 (en) Information processing apparatus, information processing method, and program
JP7103235B2 (ja) パラメタ算出装置、パラメタ算出方法、及び、パラメタ算出プログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
Imoto et al. Acoustic scene analysis from acoustic event sequence with intermittent missing event
Subba Ramaiah et al. A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
JP7292646B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP2019035851A (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210106

R150 Certificate of patent or registration of utility model

Ref document number: 6821615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150