JP7131424B2

JP7131424B2 - 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム

Info

Publication number: JP7131424B2
Application number: JP2019026853A
Authority: JP
Inventors: 翼落合; マークデルクロア; 慶介木下; 厚徳小川; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2022-09-06
Anticipated expiration: 2039-02-18
Also published as: JP2020134657A; US20220076690A1; WO2020170907A1; US11978471B2

Description

本発明は、複数音源の音響信号が混合された混合音響信号から、音源毎の音響信号に分離したり、特定音源の音響信号を抽出したりする信号処理技術に関する。

近年、モノラル音声を対象とした話者分離技術の研究が盛んに行われている。話者分離技術には、事前情報を用いないブラインド音源分離（非特許文献１）と、話者の音声に関する補助情報を用いた目的話者抽出（非特許文献２）の大きく２つの手法が知られている。

Morten Kolbaek, etc., "Multitalker speech separation with utterance-level permutation invariant training of deep re-current neural networks", Trans. on TASLP, 2017. Marc Delcroix, etc., "Single Channel Target Speaker Extraction and Recognition with Speaker Beam", Proc. on ICASSP, 2018.

ブラインド音源分離は、事前情報なしで話者分離が可能であるという利点があるが、発話間でパーミュテーション問題が生じるという問題点がある。ここでパーミュテーション問題とは、処理対象の長時間の音声を単位時間毎にブラインド音源分離で処理をしていく際に、各時間区間において分離信号の音源の順序が異なってしまう（入れ替わってしまう）問題である。

また、目的話者抽出では、補助情報を用いて話者をトラッキングすることで、ブラインド音源分離において発生する発話間のパーミュテーション問題を解決できる可能性があるが、混合音声に含まれる話者が事前に分からない場合には、手法そのものを適用できないという問題点が存在する。

上記のように、ブラインド音源分離と目的話者抽出はそれぞれ利点及び問題点を有するため、状況に応じて両者を使い分ける必要がある。しかし、これまでブラインド音源分離と目的話者抽出はそれぞれ目的に応じてモデル学習が行われ、独立したシステムとして構築されてきた。そのため、１つのモデルで両者を使い分けることができなかった。

以上の問題に鑑み、本発明は、ブラインド音源分離と目的話者抽出とを統合的に扱うための手法を提供することを目的とする。

本発明の一形態に係る信号処理装置は、
ニューラルネットワークを用いて、入力された混合音響信号を複数の第１内部状態に変換する変換部と、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第１内部状態の重み付け和である第２内部状態を生成し、前記補助情報が入力されない場合、前記複数の第１内部状態のいずれかを選択することによって第２内部状態を生成する重み付け部と、
ニューラルネットワークを用いて、前記第２内部状態に基づいてマスクを推定するマスク推定部と、
を有することを特徴とする。

また、本発明の一形態に係る学習装置は、
ニューラルネットワークを用いて、入力された学習用の混合音響信号を複数の第１内部状態に変換する変換部と、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第１内部状態の重み付け和である第２内部状態を生成し、前記補助情報が入力されない場合、前記複数の第１内部状態のいずれかを選択することによって第２内部状態を生成する重み付け部と、
ニューラルネットワークを用いて、前記第２内部状態に基づいてマスクを推定するマスク推定部と、
前記学習用の混合音響信号に対して前記推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との比較結果に基づいて、前記変換部、前記重み付け部及び前記マスク推定部のそれぞれにおいて用いられるニューラルネットワークのパラメータを更新するパラメータ更新部と、
を有することを特徴とする。

また、本発明の一形態に係る信号処理方法は、
信号処理装置が実行する信号処理方法であって、
ニューラルネットワークを用いて、入力された混合音響信号を複数の第１内部状態に変換するステップと、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第１内部状態の重み付け和である第２内部状態を生成し、前記補助情報が入力されない場合、前記複数の第１内部状態のいずれかを選択することによって第２内部状態を生成するステップと、
ニューラルネットワークを用いて、前記第２内部状態に基づいてマスクを推定するステップと、
を有することを特徴とする。

また、本発明の一形態に係る学習方法は、
学習装置が実行する学習方法であって、
ニューラルネットワークを用いて、入力された学習用の混合音響信号を複数の第１内部状態に変換するステップと、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第１内部状態の重み付け和である第２内部状態を生成し、前記補助情報が入力されない場合、前記複数の第１内部状態のいずれかを選択することによって第２内部状態を生成するステップと、
ニューラルネットワークを用いて、前記第２内部状態に基づいてマスクを推定するステップと、
前記学習用の混合音響信号に対して前記推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との比較結果に基づいて、前記変換するステップ、前記生成するステップ及び前記推定するステップのそれぞれにおいて用いられるニューラルネットワークのパラメータを更新するステップと、
を有することを特徴とする。

また、本発明の一形態に係るプログラムは、上記の装置としてコンピュータを機能させることを特徴とする。

本発明によれば、ブラインド音源分離と目的話者抽出とを統合的に扱うことが可能になる。

本発明の実施例におけるシステム構成例を示す図である。従来のブラインド音源分離を行うニューラルネットワークの構成を示す図である。本発明の実施例における信号処理装置の原理を説明するための図（その１）である。本発明の実施例における信号処理装置の原理を説明するための図（その２）である。本発明の実施例における信号処理装置の構成を示す図である。信号処理装置の変換部の構成を示す図である。本発明の実施例における学習装置の構成を示す図である。本発明の実施例の評価結果を示す図である。本発明の実施例における各装置のハードウェア構成例を示す図である。

以下、図面を参照して本発明の実施例について説明する。

図１は、本発明の実施例におけるシステム構成例を示す図である。図１において、マイクMICは、複数の音源（以下、少なくとも一部の音源を話者とも言う）Y₁～Y_Lからの音響信号（音声等）を収音することができる。マイクMICは、収音された音声を混合音声信号Yとして信号処理装置１００に出力する。なお、以下で「音声」と称している信号は、人の声に限るものではなく、特定の音源が発する音響信号を意味するものとする。つまり、混合音声信号は、複数の音源からの音響信号が混合された混合音響信号であってもよい。また、本実施例の信号処理装置１００は、マイクで収音した音声を直接、信号処理装置１００に入力する場合に限定されるものではなく、例えば、マイク等により収音した音声がメディアやハードディスク等に記憶されており、その記憶された音声信号を信号処理装置１００に読み込むことで実行される形式であってもよい。

信号処理装置１００は、混合音声信号Yを入力として受け取り、事前情報なしに特定の音源の信号を分離（ブラインド音源分離）することができ、また、目的とする話者（以下、目的話者と呼ぶ）の音声に関する補助情報を用いて特定の音源の信号を抽出（目的話者抽出）することもできる装置である。上述の通り、目的話者は『目的とする音源』であれば人に限るものではないので、補助情報は目的とする音源が発する音響信号に関する補助情報を意味する。信号処理装置１００は、特定の音源の信号を分離したり抽出したりするためにマスクを用いる。信号処理装置１００は、マスクを推定するために双方向長短期記憶（BLSTM：bi-directional long short-term memory）等のニューラルネットワークを利用する。

ここで、音源数が2の場合を例に挙げて非特許文献１のブラインド音源分離について説明する。

図２は、非特許文献１の従来のブラインド音源分離を行うニューラルネットワークの構成を示す図である。従来のブラインド音源分離では、入力された混合音声信号Yを複数のBLSTM層により内部状態に変換し、最後に混合音声信号に含まれる音源数（ここでは2個）分だけ用意された線形変換層（LINEAR+SIGMOID）により、内部状態をそれぞれ線形変換することで各音源に対応するマスクM₁、M₂を得る。なお、線形変換層では、内部状態を線形変換した後、シグモイド関数を適用することで出力情報を決定する。

次に、本発明の実施例における信号処理装置１００の原理について説明する。

図３及び図４は、本発明の実施例における信号処理装置１００の原理を説明するための図である。

ブラインド音源分離と目的話者抽出とを統合的に扱うためには、ブラインド音源分離の枠組みの中に目的話者抽出の機能を取り込む必要がある。そのために、図２においてニューラルネットワークの後段部分におかれていた音源毎に分離して線形変換を行う線形変換層を、図３のようにニューラルネットワークの前半部分の変換部に移動させることを考える。後述するように、変換部は混合音声信号Yをニューラルネットワークにより変換し、分離された信号に対応する内部状態Z₁、Z₂に変換する。内部状態の数は混合音声信号Yに含まれると想定される最大の音源数（ここでは2）以上とすることが好ましい。このとき、線形変換層以降のマスク推定部におけるBLSTM層と線形変換層は共有化することができる。

さらに、図４のように、変換部とマスク推定部の間に重み付け部（ATTENTION層）を追加し、目的話者の音声に関する補助情報X_s ^AUXに応じて内部状態を変換するような構成とする。補助情報X_s ^AUXが入力された場合には、重み付け部は、入力された補助情報に基づいて複数の内部状態Z₁、Z₂から目的話者に対応する内部状態をZ_s ^ATTとして求めて後段のマスク推定部を実行させることで、目的話者抽出のためのマスクを推定させることが可能となる。また、補助情報が入力されない場合には、重み付け部はZ_s ^ATTをZ₁として後段のマスク推定部を実行させ、同様にZ_s ^ATTをZ₂として後段のマスク推定部を実行させることで、ブラインド音源分離のマスクを推定させることが可能となる。つまり、補助情報の有無に応じて内部状態を変換することで、ブラインド音源分離と目的話者抽出を切り替えて使うことが可能となる。

以下に説明するように、信号処理装置１００の変換部、重み付け部及びマスク推定部のそれぞれはニューラルネットワークを用いて構成される。信号処理装置１００は、学習時には、予め用意された学習用データ（個別の音源からの正解の音声信号が知られているものとする）を用いて、ニューラルネットワークのパラメータを学習させる。信号処理装置１００は、運用時には、学習時に学習されたパラメータ設定済みのニューラルネットワークを用いて、マスクを計算する。

なお、信号処理装置１００におけるニューラルネットワークのパラメータの学習は別の装置で行われても、同じ装置で行われてもよい。以下の実施例では、ニューラルネットワークの学習が学習装置という別の装置で行われるものとして説明する。

＜実施例１：信号処理装置＞
実施例１では、話者の音声に関する補助情報の有無に応じて、ブラインド音源分離と目的話者抽出とを統合的に扱うための信号処理装置１００について説明する。

図５は、本発明の実施例における信号処理装置１００の構成を示す図である。信号処理装置１００は、変換部１１０と、補助情報入力部１２０と、重み付け部１３０と、マスク推定部１４０とを有する。変換部１１０、重み付け部１３０、及びマスク推定部１４０がそれぞれニューラルネットワークの層（複数層）に対応する。ニューラルネットワークの各パラメータは、予め用意された学習用データを用いて後述の学習装置により予め学習されているものとし、具体的には、学習用データに対してマスク推定部１４０で推定されたマスクを適用して得られる音声信号と、学習用データに含まれる正解の音声信号との誤差が小さくなるように学習されているものとする。

〔変換部〕
変換部１１０は、混合音声信号を入力とし、I個の内部状態を表すベクトルZ₁～Z_Iを出力するニューラルネットワークである。ここでIは入力混合音声に含まれる音源数以上とすることが好ましい。ニューラルネットワークの種類は特に限定されるものではないが、例えば、非特許文献１及び２に記載のBLSTMが用いられてもよい。以下の説明では、BLSTMを例に挙げて説明する。

具体的には、変換部１１０は図６のような層から構成される。まず、BLSTM層により、入力された混合音声信号を内部状態Zに変換する。次に、内部状態ZをI個の線形変換層（第１LINEAR層～第I-LINEAR層）によりそれぞれ異なる線形変換を行い、I個の内部状態である埋め込みベクトルZ₁～Z_Iを得る。ここで、t（t=1,…,T）を処理対象の時間フレームのインデックスとすると、埋め込みベクトルZ₁～Z_IはZ_i={z_it}_t=1 ^T（i=1,…,I）のように表現できる。

〔補助情報入力部〕
補助情報入力部１２０は、目的話者抽出を行う場合に、目的話者の音声に関する補助情報X_s ^AUXを入力とし、重み付け部１３０に対して補助情報X_s ^AUXを出力する入力部である。

補助情報入力部１２０には、目的話者抽出を行う場合には、目的話者の音声の特徴を表す補助情報X_s ^AUXが入力される。ここで、sは目的話者を表すインデックスである。例えば、補助情報X_s ^AUXは、例えば、非特許文献２に記載の目的話者の音声信号を短時間フーリエ変換（STFT：short-time Fourier transform）等で特徴抽出することによって得られたベクトルA^(s)(t,f)を変換して得た話者ベクトル等を用いてもよい。目的話者抽出を行わない場合（すなわち、ブラインド音源分離を行う場合）には、補助情報入力部１２０には何も入力されない。

〔重み付け部〕
重み付け部１３０は、変換部１１０から出力された内部状態Z₁～Z_Iを入力とするとともに、目的話者抽出を行う場合には補助情報入力部１２０から出力された補助情報X_s ^AUXを入力とし、マスク推定のための内部状態Z_s ^ATT={z_t ^ATT}_t=1 ^Tを出力する処理部である。上記の通り、t（t=1,…,T）は処理対象の時間フレームのインデックスである。

重み付け部１３０は、補助情報X_s ^AUXの有無に応じて、入力されたI個の内部状態Z₁～Z_Iを重み付けすることにより、内部状態z_t ^ATTを得て出力する。例えば、I=2の場合は、補助情報の有無に応じてアテンション重みa_tを以下のように設定する。

ここで、MLPAttentionは、内部状態Z_iと補助情報X_s ^AUXとに基づいてI次元の重みベクトルを得るためのニューラルネットワークである。ニューラルネットワークの種類は特に限定されるものではないが、例えば、多層パーセプトロン（MLP：multilayer perceptron）が用いられてもよい。

次に、重み付け部１３０は以下により内部状態z_t ^ATTを得る。

つまり、アテンション重みa_tはI次元のベクトルであって、補助情報が入力されない場合には、アテンション重みa_tをi（i=1,2,3,…,I）番目の要素のみが1で、その他の要素が0となるような単位ベクトルとする。そして、重み付け部１３０は、I個の内部状態Z₁～Z_Iにアテンション重みa_tを適用することでi番目の内部状態Z_iを選択して内部状態z_t ^ATTとして出力する。アテンション重みa_tとしてI個の単位ベクトルをそれぞれ設定することで、混合音声に含まれる全ての話者の音声をブラインドな形で分離するマスクを推定させることが可能となる。言い換えれば、補助情報が入力されない場合には、重み付け部１３０は、I個の内部状態Z₁～Z_Iのいずれか１つを選択する演算（hard alighment）を実行することになる。

補助情報が入力された場合は、内部状態Z_i及び補助情報X_s ^AUXに基づいて推定されたアテンション重みa_tを用いる。重み付け部１３０は、I個の内部状態Z₁～Z_Iにアテンション重みa_tを適用することで、I個の内部状態Z₁～Z_Iから目的話者sに対応する内部状態を計算し、z_t ^ATTとして出力する。言い換えれば、補助情報が入力された場合は、重み付け部１３０は、補助情報X_s ^AUXに基づいて、I個の内部状態Z₁～Z_Iの重み付け和(soft alignment)により、内部状態z_t ^ATTを得て出力する。

なお、この重み付け部１３０において各内部状態に乗ずる重みは時刻毎に異なる。つまり、重み付け部１３０は、時刻毎に重み付け和の算出（hard alignmentもしくはsoft alignment）を行う。

アテンション重みの推定には、例えばDzmitry Bahdanau, etc., "Neural machine translation by jointly learning to align and translate", Proc on ICLR, 2015に開示されているMLP attentionを用いることができる。ここでは、MLP attentionの構成として、キーをFeature(Zi)、クエリをFeature(X_s ^AUX)、バリューをZiと設定した。なお、Feature(・)は、入力された系列・から特徴抽出を行うMLPを表す。
〔マスク推定部〕
マスク推定部１４０は、重み付け部１３０から出力された内部状態Z^ATT（時刻毎の内部状態z_t ^ATTを並べた時系列情報）を入力とし、マスクを出力するニューラルネットワークである。ニューラルネットワークの種類は特に限定されるものではないが、例えば、非特許文献１及び２に記載のBLSTMが用いられてもよい。

マスク推定部１４０は、例えば、BLSTMと全結合層により構成され、内部状態Z^ATTを時間周波数マスクM_ATTに変換して出力する。

＜実施例２：学習装置＞
実施例２では、実施例１の信号処理装置１００を構成するニューラルネットワークのパラメータを学習させる学習装置２００について説明する。

図７は、本発明の実施例における学習装置２００の構成を示す図である。学習装置２００は、変換部２１０と、補助情報入力部２２０と、重み付け部２３０と、マスク推定部２４０と、パラメータ更新部２５０とを有する。変換部２１０、補助情報入力部２２０、重み付け部２３０、及びマスク推定部２４０の機能は実施例１と同じである。

ニューラルネットワークのパラメータを学習させるための学習用データとして、混合音声信号と、当該混合音声信号に含まれる各音源のクリーン信号（すなわち、正解の音声信号）と、目的話者の音声に関する補助情報（存在する場合と存在しない場合がある）を対応付けたデータの集合が与えられるものとする。

学習用データの中の混合音声信号及び補助情報を入力として、変換部２１０、重み付け部２３０、及びマスク推定部２４０が実施例１と同様の処理を行うことで、マスクの推定値が得られる。ただし、ニューラルネットワークの各パラメータには適当な初期値を設定しておくものとする。

〔パラメータ更新部〕
パラメータ更新部２５０は、マスク推定部２４０から出力されたマスクと学習用データを入力として、ニューラルネットワークの各パラメータを出力する処理部である。

パラメータ更新部２５０は、学習用データの中の入力混合音声信号にマスク推定部２４０で推定したマスクを適用して得られる音声信号と、学習用データの中のクリーン信号との比較結果に基づいて、変換部２１０、重み付け部２３０、及びマスク推定部２４０におけるニューラルネットワークの各パラメータを誤差逆伝播法等により更新する。

ニューラルネットワークの各パラメータの更新のため、パラメータ更新部２５０は、補助情報を用いないブラインド音源分離と、補助情報を用いる目的話者抽出との双方の損失を考慮したマルチタスク学習を行う。例えば、補助情報を用いないブラインド音源分離のための損失関数をL_uninfoとし、補助情報を用いた目的話者抽出のための損失関数をL_infoとし、εを所定の補間係数（予め値を設定しておくものとする）として、マルチタスク学習に基づく損失関数L_multiを以下のように定義し、これに基づいてパラメータ更新部２５０は誤差逆伝播学習を行う。

L_multi=εL_uninfo+(1-ε)L_info
パラメータ更新部２５０は、誤差が閾値より小さくなるという収束条件等の所定の条件を満たすまで、マスクの推定とパラメータの更新を繰り返し、最終的に得られたパラメータを学習済みのニューラルネットワークパラメータとして用いる。

＜本発明の実施例の効果＞
本発明の実施例における信号処理装置１００は、先に入力混合音声信号を複数の内部状態に分離した後、補助情報の有無に応じて、複数の内部状態の何れかを選択するか、複数の内部状態の重み付け和である内部状態を生成するかの何れかを行った後、選択又は生成された内部状態を変換することでマスクの推定を行う。そのため、１つのニューラルネットワークのモデルを用いて、ブラインド音源分離と目的話者抽出を切り替えて行うことが可能となる。

また、本発明の実施例における学習装置２００は、ブラインド音源分離と目的話者抽出の双方の損失を考慮したマルチタスク学習を行う。そのため、個別の学習よりも良い分離性能を持つ信号処理装置を学習できる。

本発明の実施例における信号処理装置１００の性能を評価するため、実験データセットを用いて、ブラインド音源分離手法であるPIT（Permutation Invariant Training）と、目的話者抽出手法であるSpeakerBeamと、本発明の実施例（本方式）との性能評価を行った。３つの手法のいずれも３層のBLSTMに基づくニューラルネットワーク構造を使用した。図８は、本発明の実施例の評価結果を示す図であり、未処理の混合音声信号と、３つの手法のSDR（Signal to Distortion Ratio）（dB単位）を示す。図８から、補助情報を用いない場合、本発明の実施例はマルチタスク学習の効果によってPITと比較してより良い分離性能を示していることが分かる。また、補助情報を用いる場合であっても、その用途に特化して設計されたSpeakerBeamと同等の分離性能を示していることが分かる。

＜ハードウェア構成例＞
図９に、本発明の実施例における各装置（信号処理装置１００、学習装置２００）のハードウェア構成例を示す。各装置は、CPU（Central Processing Unit）１５１等のプロセッサ、RAM（Random Access Memory）やROM（Read Only Memory）等のメモリ装置１５２、ハードディスク等の記憶装置１５３等から構成されたコンピュータでもよい。例えば、各装置の機能及び処理は、記憶装置１５３又はメモリ装置１５２に格納されているデータやプログラムをCPU１５１が実行することによって実現される。また、各装置に必要な情報は、入出力インタフェース装置１５４から入力され、各装置において求められた結果は、入出力インタフェース装置１５４から出力されてもよい。

＜補足＞
説明の便宜上、本発明の実施例に係る信号処理装置及び学習装置は機能的なブロック図を用いて説明しているが、本発明の実施例に係る信号処理装置及び学習装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、本発明の実施例は、コンピュータに対して本発明の実施例に係る信号処理装置及び学習装置の機能を実現させるプログラム、コンピュータに対して本発明の実施例に係る方法の各手順を実行させるプログラム等により、実現されてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。また、本発明の実施例に係る方法は、実施例に示す順序と異なる順序で実施されてもよい。

以上、ブラインド音源分離と目的話者抽出とを統合的に扱うための手法について説明したが、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。

１００信号処理装置
１１０変換部
１２０補助情報入力部
１３０重み付け部
１４０マスク推定部
２００学習装置
２１０変換部
２２０補助情報入力部
２３０重み付け部
２４０マスク推定部
２５０パラメータ更新部

Claims

ニューラルネットワークを用いて、入力された混合音響信号を複数の第１内部状態に変換する変換部と、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第１内部状態の重み付け和である第２内部状態を生成し、前記補助情報が入力されない場合、前記複数の第１内部状態のいずれかを選択することによって第２内部状態を生成する重み付け部と、
ニューラルネットワークを用いて、前記第２内部状態に基づいてマスクを推定するマスク推定部と、
を有する信号処理装置。
前記ニューラルネットワークのそれぞれは、予め用意された学習用の混合音響信号に対して前記マスク推定部によって推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との誤差が小さくなるように学習されたものである、請求項１に記載の信号処理装置。
前記変換部は、前記入力された混合音響信号を、I個の第１内部状態に変換し、
前記重み付け部は、前記補助情報が入力された場合、前記I個の第１内部状態に、前記I個の第１内部状態及び前記補助情報に基づいて推定されたI次元の重みベクトルを適用することによって第２内部状態を生成し、前記補助情報が入力されない場合、前記I個の第１内部状態に、i（i=1,…,I）番目の要素が1であり他の要素が0であるI次元の単位ベクトルを適用することによって第２内部状態を生成する、請求項１又は２に記載の信号処理装置。
ニューラルネットワークを用いて、入力された学習用の混合音響信号を複数の第１内部状態に変換する変換部と、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第１内部状態の重み付け和である第２内部状態を生成し、前記補助情報が入力されない場合、前記複数の第１内部状態のいずれかを選択することによって第２内部状態を生成する重み付け部と、
ニューラルネットワークを用いて、前記第２内部状態に基づいてマスクを推定するマスク推定部と、
前記学習用の混合音響信号に対して前記マスク推定部によって推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との比較結果に基づいて、前記変換部、前記重み付け部及び前記マスク推定部のそれぞれにおいて用いられるニューラルネットワークのパラメータを更新するパラメータ更新部と、
を有する学習装置。
前記パラメータ更新部は、前記補助情報が入力された場合の損失と、前記補助情報が入力されない場合の損失との双方を考慮して、パラメータを更新する、請求項４に記載の学習装置。
信号処理装置が実行する信号処理方法であって、
ニューラルネットワークを用いて、入力された混合音響信号を複数の第１内部状態に変換するステップと、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第１内部状態の重み付け和である第２内部状態を生成し、前記補助情報が入力されない場合、前記複数の第１内部状態のいずれかを選択することによって第２内部状態を生成するステップと、
ニューラルネットワークを用いて、前記第２内部状態に基づいてマスクを推定するステップと、
を有する信号処理方法。
学習装置が実行する学習方法であって、
ニューラルネットワークを用いて、入力された学習用の混合音響信号を複数の第１内部状態に変換するステップと、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第１内部状態の重み付け和である第２内部状態を生成し、前記補助情報が入力されない場合、前記複数の第１内部状態のいずれかを選択することによって第２内部状態を生成するステップと、
ニューラルネットワークを用いて、前記第２内部状態に基づいてマスクを推定するステップと、
前記学習用の混合音響信号に対して前記推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との比較結果に基づいて、前記変換するステップ、前記生成するステップ及び前記推定するステップのそれぞれにおいて用いられるニューラルネットワークのパラメータを更新するステップと、
を有する学習方法。
請求項１乃至５のうちいずれか１項に記載の装置としてコンピュータを機能させるためのプログラム。