JP7376895B2

JP7376895B2 - 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム

Info

Publication number: JP7376895B2
Application number: JP2020092462A
Authority: JP
Inventors: 邦夫柏野; 康智大石; 隆仁川西; 博俊竹内
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2023-11-09
Anticipated expiration: 2040-05-27
Also published as: JP2021189246A

Description

特許法第３０条第２項適用２０２０年日本音響学会春季研究発表会講演論文集発行日２０２０年３月２日

本発明は、学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラムに関する。

従来、目的音声の物理的な性質に基づき、音響信号から目的音声の信号を分離する音源分離という技術が知られている。音源分離では、例えば、目的音声の到来方向、音響的性質、音色、声質、音源の統計的な独立性、要素信号の共通性といった物理的な性質が利用される。

例えば、音源分離として、目的話者が実際に発した音声を使って音源分離モデルを当該目的話者に適応させることにより、混合音声信号から目的話者の音声信号を分離する技術が知られている（例えば、非特許文献１を参照）。

Marc Delcroix, Katerina Zmolikova,木下慶介,荒木章子,小川厚徳,中谷智広, "SpeakerBeam: 聞きたい人の声に耳を傾けるコンピュータ──深層学習に基づく音声の選択的聴取" NTT技術ジャーナル 2018.9

しかしながら、従来の技術には、目的音声の物理的性質が未知であったり、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれる場合、目的音声が出現している時間区間を精度良く推定できない場合があるという問題がある。

例えば、非特許文献１に記載の技術では、実際に適応用の音声が得られた第１の音源からの音声を分離することはできるが、当該第１の音源と音声の物理的性質が類似する第２の音源については、当該第２の音源から適応用の音声を得ていない場合、音声を分離することができないため、第２の音源のからの音声が出現している時間区間を推定することは困難である。

上述した課題を解決し、目的を達成するために、学習装置は、意味を解釈可能な態様でラベルを表現した情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて特徴量算出する第１の特徴量算出部と、音響信号を前記第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて特徴量算出する第２の特徴量算出部と、前記第１の特徴量及び前記第２の特徴量を基に生成される第１のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第１のマスクの、周波数成分を集約した第２のマスクを評価するための指標を算出する指標算出部と、前記指標が最適化されるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても目的音声が出現している時間区間を精度良く推定することができる。

図１は、第１の実施形態に係る学習装置の構成例を示す図である。図２は、第１の実施形態に係る学習処理の流れを示す模式図である。図３は、Triplet Lossを説明する図である。図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図５は、第２の実施形態に係る学習装置の構成例を示す図である。図６は、第２の実施形態に係る学習処理の流れを示す模式図である。図７は、第２の実施形態に係る学習装置の処理の流れを示すフローチャートである。図８は、第３の実施形態に係る生成装置の構成例を示す図である。図９は、第３の実施形態に係る生成処理の流れを示す模式図である。図１０は、第３の実施形態に係る生成装置の処理の流れを示すフローチャートである。図１１は、第４の実施形態に係る生成処理の流れを示す模式図である。図１２は、第４の実施形態に係る生成装置の処理の流れを示すフローチャートである。図１３は、実験におけるデータの結合について説明する図である。図１４は、実験における各パラメータの設定値を示す図である。図１５は、実験で得られたスペクトログラムを示す図である。図１６は、実験で得られたマスクを示す図である。図１７は、実験で得られたマスクを示す図である。図１８は、生成プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態］
第１の実施形態に係る学習装置は、音源分離のための音源分離モデルの学習を行う。本実施形態における音源分離モデルは、ラベルを特定可能な情報及び音響信号の入力を受け付け、音響信号から目的音声の成分を抽出するためのマスクを推定する。なお、目的音声を発する音源を目的音源と呼ぶ。ラベルは、目的音源を識別するための情報である。また、ラベルを特定可能な情報を、ラベル情報と呼ぶ。

本実施形態の音源分離モデルは、ラベル情報を基にラベルを特定することができる。ラベル情報は、意味を解釈可能な態様でラベルを表現した情報であればよい。例えば、意味を解釈可能な態様には、言語が含まれる。このため、ラベル情報は文字列で表現されたものであってもよい。

例えば、「ヴァイオリン」という文字列については、楽器の一種であるヴァイオリンを意味するものと解釈可能である。このため、本実施形態の音源分離モデルは、「ヴァイオリン」という文字列がラベル情報として入力されれば、ラベルがヴァイオリンであることを特定する。つまり、音源分離モデルは、「ヴァイオリン」という文字列がラベル情報として入力されれば、ヴァイオリンの音を目的音声として分離するためのマスクを推定する。

これに対し、例えば非特許文献１に記載の技術では、ヴァイオリンの音を目的音声として分離するためには、実際にヴァイオリンを演奏して得られた音声の信号をモデルに入力する必要があった。

ラベル情報は、文字列で表現されたものに限られない。例えば、ラベル情報は、ラベルによって識別される物体が写った画像、ラベルに対応する単語列を含む発話の音声から得られる信号等であってもよい。なお、ラベル情報が音声信号である場合、本実施形態の音源分離モデルは、当該音声の信号の物理的性質ではなく、当該音声に含まれる言語的意味内容に基づきラベルを特定する。以下の説明では、音声を観測して得られる信号を音響信号と呼ぶ場合がある。

［第１の実施形態の構成］
まず、図１を用いて、第１の実施形態に係る生成装置の構成について説明する。図１は、第１の実施形態に係る学習装置の構成例を示す図である。図１に示すように、学習装置１０は、ラベル特徴量算出部１０１、スペクトログラム特徴量算出部１０２、マスク生成部１０３、指標算出部１０４、更新部１０５を有する。また、学習装置１０は、ラベルエンコーダ情報１１１及びオーディオエンコーダ情報１１２を記憶する。

ラベル特徴量算出部１０１は、ラベルを特定可能なラベル情報を入力とし、ラベル情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出し、出力する。ラベルエンコーダ情報１１１は、第１のモデルを構築するための情報である。第１のモデルがニューラルネットワークである場合、ラベルエンコーダ情報１１１は、各ユニットの重みやバイアス等のパラメータである。

スペクトログラム特徴量算出部１０２は、音響信号を入力とし、入力された音響信号（以下、入力音響信号と記載）を第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出し、出力する。オーディオエンコーダ情報１１２は、第２のモデルを構築するための情報である。第２のモデルがニューラルネットワークである場合、オーディオエンコーダ情報１１２は、各ユニットの重みやバイアス等のパラメータである。

マスク生成部１０３は、第１の特徴量及び第２の特徴量を入力とし、第１の特徴量及び第２の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成し、出力する。指標算出部１０４は、第１の特徴量及び第２の特徴量を基に生成されるマスクであって、音響信号からラベルに対応する成分を抽出するためのマスクを入力とし、マスクを評価するための指標を算出し、出力する。更新部１０５は、指標を入力とし、指標が最適化されるように、第１のモデルのパラメータ及び第２のモデルのパラメータを更新する。つまり、更新部１０５は、ラベルエンコーダ情報１１１及びオーディオエンコーダ情報１１２を更新し、出力する。

なお、指標算出部１０４は、マスク生成部１０３によって生成されたマスクを使用せずに指標を算出してもよい。この場合、本実施形態では、マスク生成部１０３はマスクを生成しなくてもよい。

図２を用いて、学習装置１０による学習処理を詳細に説明する。図２は、第１の実施形態に係る学習処理の流れを示す模式図である。なお、図２に示す各手法は一例であり、適宜他の手法に置き換えられてもよい。

図２に示すように、ラベル特徴量算出部１０１は、ラベル情報（Label input）を、ラベルエンコーダ（Label encoder）に入力する。ここでは、ラベル情報は、「Writing」、「Cough」等の文字列であるものとする。

ラベル特徴量算出部１０１は、ラベル情報に対し、One-hot encodingを行い、ｓ次元のバイナリベクトル（Binary vector）に変換する。さらに、ラベル特徴量算出部１０１は、３層の全結合型ニューラルネットワーク（Fully connected network）にｓ次元のバイナリベクトルを入力し、１×１×ｈ次元のベクトルであるラベル特徴量（Label feature）を得る。

このように、ラベルエンコーダによれば、ラベル情報はｈ次元の潜在空間にマッピングされる。ｈ次元の潜在空間は、第１の空間の一例である。また、全結合型ニューラルネットワークを含むラベルエンコーダは、第１のモデルの一例である。また、ラベル特徴量は、第１の特徴量の一例である。また、ｈは、第１の次元数の一例である。

なお、図２に示すような、One-hot encoding及び３層の全結合型ニューラルネットワークを含むラベルエンコーダは、ラベル情報からラベル特徴量を得る手段の一例に過ぎない。例えば、ラベルエンコーダは、word2vec等のベクトル化手段、及びLSTM（例えば、参考文献１を参照）等を用いたものであってもよい。
参考文献１：Shota Ikawa, Kunio Kashino, “Acoustic event search with an onomatopoeic query: measuring distance between onomatopoeic words and sounds,” In Proc. Detection and Classification of Acoustic Scenes and Events (DCASE), 2018.

また、ラベルエンコーダの性能によっては、単語だけでなく、文章や擬音語等がラベル情報として用いられてもよい。例えば、word2vecによれば、単語を組み合わせた文章をベクトルに変換することができる。

このように、ラベル特徴量算出部１０１は、意味を解釈可能な態様でラベルを表現した情報をｈ次元の潜在空間にマッピングしたラベル特徴量を、ラベルエンコーダを用いて算出する。また、ラベル特徴量算出部１０１は、文字列で表現されたラベルから作成されたベクトルをラベルエンコーダに入力して得られる出力を、ラベル特徴量として算出する。また、ラベル特徴量算出部１０１は、ｈ次元の変数を少なくとも含む特徴量をラベル特徴量として算出する。

特に、図２の例では、ラベル特徴量算出部１０１は、所定の単語を表すラベルから作成されたｓ次元（ｓはあらかじめ設定された単語数）のOne-hotベクトルを、ラベルエンコーダに含まれるニューラルネットワークに入力して得られる１×１×ｈ（ｈはあらかじめ設定された任意の数）次元の特徴量をラベル特徴量として算出する。

一方、スペクトログラム特徴量算出部１０２は、入力音響信号（Audio input）をオーディオエンコーダに入力する。まず、スペクトログラム特徴量算出部１０２は、入力音響信号の振幅スペクトログラムを算出する。例えば、スペクトログラム特徴量算出部１０２は、６４ｍｓのハミング窓からなるフレームを８ｍｓずつずらしながらSTFT（短時間フーリエ変換）を行うことでｆ×ｔの振幅スペクトログラムを算出する。ただし、ｆ及びｔは、それぞれ周波数ビンの数及び時間ビンの数である。

さらに、スペクトログラム特徴量算出部１０２は、振幅スペクトログラムをAudio U-Net（例えば、参考文献２を参照）に入力し、ｆ×ｔ×ｈ次元のベクトルであるスペクトログラム特徴量（Spectrogram feature）を得る。
参考文献２：Rouditchenko, Andrew, et al. “Self-supervised Audio-visual Co-segmentation.” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.

ここで、振幅スペクトログラムは、各時間の振幅スペクトルを時間的につなげたものである。また、パワースペクトログラムは、振幅スペクトログラムを２乗したものである。例えば、スペクトログラム特徴量算出部１０２は、振幅スペクトログラムの代わりに、パワースペクトログラムの対数値をAudio U-Netに入力し、スペクトログラム特徴量を得るようにしてもよい。また、以降の説明では、振幅スペクトログラムを単にスペクトログラムと呼ぶ。

スペクトログラム特徴量は、スペクトログラムのサイズｆ×ｔを保持したｈ次元の特徴ベクトルの集合ということができる。また、スペクトログラム特徴量算出部１０２は、入力音響信号から得られたスペクトログラムをミニバッチ処理するために、スペクトログラムの時間フレーム数がｔより長い場合はｔ以降を切り捨て、ｔよりも短い場合は０埋めをしてもよい。

このように、オーディオエンコーダによれば、入力音響信号はｈ次元の潜在空間にマッピングされる。また、Audio U-Netを含むオーディオエンコーダは、第２のモデルの一例である。また、スペクトログラム特徴量は、第２の特徴量の一例である。

なお、図２に示すような、STFT及びAudio U-Netを含むオーディオエンコーダは、入力音響信号からスペクトログラム特徴量を得る手段の一例に過ぎない。例えば、オーディオエンコーダは、STFTの代わりに、MFCC（メル周波数ケプストラム係数；Mel Frequency Cepstrum Coefficients）、帯域フィルタバンク、CNN（畳み込みニューラルネットワーク）等を用いるものであってもよい。また、オーディオエンコーダは、Audio U-Netの代わりに、CNNを組み合わせたモデルを用いるものであってもよい。

このように、スペクトログラム特徴量算出部１０２は、ｈ次元の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量をスペクトログラム特徴量として算出する。

特に、図２の例では、スペクトログラム特徴量算出部１０２は、入力音響信号から作成されたｆ（ｆは周波数ビンの数）×ｔ（ｔは時間ビンの数）次元のスペクトログラムを、オーディオエンコーダに含まれるニューラルネットワークに入力して得られるｆ×ｔ×ｈ次元の特徴量をスペクトログラム特徴量として算出する。

マスク生成部１０３は、ラベル特徴量及びスペクトログラム特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成する。図２に示すように、まず、マスク生成部１０３は、ラベル特徴量とスペクトログラム特徴量の内積（Dot product）を算出する。

そして、マスク生成部１０３は、内積を活性化関数に通すことで、マスクを得る。活性化関数をＲｅＬｕ６とし、ラベル特徴量をｘ、時間周波数点（ｆ，ｔ）のスペクトログラム特徴量をｙ_ｆ，ｔとすると、マスク生成部１０３は、時間周波数点（ｆ，ｔ）のマスクｍ_ｆ，ｔをＲｅＬｕ６（ｘ^Ｔｙ_ｆ，ｔ）のように算出することができる。なお、第１の実施形態のマスク生成部１０３によって得られる、時間周波数点ごとの要素を持つマスクを、後に説明するタイムマスクと区別して、スペクトログラムマスクと呼ぶ場合がある。

指標算出部１０４は、ラベル特徴量とスペクトログラム特徴量の類似度を基に指標を算出する。指標算出部１０４は、内積そのものを指標としてもよいし、マスクを指標としてもよいし、マスクから算出される類似度（Similarity score）を指標としてもよい。また、指標算出部１０４は、内積以外にもL1距離、L2距離、Lp距離及び各種の統計的ダイバージェンスを用いて指標を算出することができる。また、図２の例では、マスク生成部１０３が内積を算出しているが、指標算出部１０４が内積を算出してもよい。更新部１０５は、指標が最小化されるようにラベルエンコーダのパラメータ及びオーディオエンコーダのパラメータを更新する。

学習装置１０は、Triplet Lossによって各モデルの評価及び更新を行うことができる。図３は、Triplet Lossを説明する図である。図３において、関数ｆ、関数ｇは、それぞれオーディオエンコーダ及びラベルエンコーダである。また、Ａ_ａは入力音響信号である。また、Ｌ_ａは、positiveなラベル、すなわち音響信号Ａ_ａに対応付けるためのラベルである。また、Ｌ_ｂは、negativeなラベル、すなわちpositiveなラベル以外のラベルである。また、Ｓｉｍは類似度を求める関数である。ペアデータの組み合わせの選び方は膨大であるが、一例として、参考文献３に記載の方法のように、ミニバッチに含まれるデータの中から、効率的な学習に有用なデータ、すなわちハードポジティブ（positiveなラベルをもつデータの中でアンカーとのロスが大きいもの）、ハードネガティブ（negativeなラベルをもつデータの中でアンカーとのロスが小さいもの）、を選べばよい。
参考文献３：Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

指標算出部１０４は、音響信号に対応付けられたラベルから算出されたラベル特徴量とスペクトログラム特徴量との類似度が大きいほど小さくなり、かつ、音響信号に対応付けられたラベルと異なるラベルから算出されたラベル特徴量とスペクトログラム特徴量との類似度が大きいほど大きくなるような指標を算出する。

例えば、指標算出部１０４は、マスクのGMP（Global mean pooling）を類似度として算出することができる。GMPによれば、周波数成分と時間成分が集約されるため、指標算出部１０４は、ｆ×ｔ×１次元のマスクから、スカラである類似度を得ることができる。この場合、図３の関数Ｓｉｍは、GMPを得るための関数である。また、指標算出部１０４は、指標として、損失関数Ｓ_ｎ－Ｓ_ｐを算出することができる。

また、指標算出部１０４は、参考文献４に記載された手法を用いて、（１）式のように損失関数を算出してもよい。
参考文献４：Yair Movshovitz-Attias, Alexander Toshev, Thomas K. Leung, Sergey Ioffe, and Saurabh Singh. No fuss distance metric learning using proxies. In ICCV, pages 360-368, 2017.

（１）式において、Ｂはミニバッチサイズである。各ミニバッチには、入力音響信号及びラベル情報の組み合わせが含まれている。ｘは、ラベルエンコーダから出力されるラベル特徴量である。ｙは、オーディオエンコーダから出力されるスペクトログラム特徴量である。ｉ，ｊ，ｋは、ミニバッチ内の入力音響信号及びラベル情報を識別するための識別子である。また、識別子が一致するｘとｙはpositiveなペアデータである。また、識別子が一致しないｘとｙはnegativeなペアデータである。例えば、negativeなペアは、ミニバッチの中からランダムに選ばれたものであってもよい。

なお、マスクの各時間周波数点の値を、入力音響信号のスペクトログラムの各時間周波数点に乗じることで正解ラベルに対応する成分が抽出される。このため、入力音響信号に正解ラベルに対応する成分が多く含まれているほど、マスクの各要素の値は大きくなる傾向にあり、さらにGMPの値も大きくなることが考えられる。本実施形態の指標算出部１０４は、このような性質を利用して類似度を算出する。

なお、マスクは、目的外音の遮断又は減衰に使われる場合もある。そのような場合、positiveなペアとnegativeなペアの類似度の大小関係は逆転する場合がある。その場合、指標算出部１０４は、例えば損失関数の正負を逆転させる等の対応を行えばよい。

更新部１０５は、誤差逆伝播法等の手法を用いて、損失関数が最小化されるように、ラベルエンコーダとオーディオエンコーダの両方のパラメータを更新する。損失関数を最小化することは、マスクを最適化することを意味する。

［第１の実施形態の処理の流れ］
図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図４に示すように、まず、ラベル特徴量算出部１０１は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する（ステップＳ１０１）。次に、スペクトログラム特徴量算出部１０２は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する（ステップＳ１０２）。ここで、ステップＳ１０１とステップＳ１０２が実行される順番は逆であってもよい。また、ステップＳ１０１とステップＳ１０２は並行して実行されてもよい。

ここで、マスク生成部１０３は、ラベル特徴量とスペクトログラム特徴量の内積を算出する（ステップＳ１０３）。そして、マスク生成部１０３は、内積からスペクトログラムマスクを生成する（ステップＳ１０４）。さらに、指標算出部１０４は、スペクトログラムマスクを集約し類似度を算出する（ステップＳ１０５）。

指標算出部１０４は、算出した類似度とnegativeペアデータの類似度を基に損失関数を算出する（ステップＳ１０６）。例えば、指標算出部１０４は、ステップＳ１０５とステップＳ１０６の間に、negativeペアデータの類似度を算出する処理を実行してもよい。そして、更新部１０５は、損失関数が最小化されるように各エンコーダのパラメータを更新する（ステップＳ１０７）。

ここで、学習装置１０は、終了条件が充足されている場合（ステップＳ１０８、Yes）、処理を終了する。一方、学習装置１０は、終了条件が充足されていない場合（ステップＳ１０８、No）、ステップＳ１０１に戻り更新済みの各モデルを使って処理を繰り返す。なお、例えば、終了条件は、用意されたミニバッチ内の全てのデータについて処理が実行済みであること、規定回数だけ処理が繰り返されたこと、パラメータの更新幅が収束したこと等である。

［第１の実施形態の効果］
これまで説明してきたように、ラベル特徴量算出部１０１は、意味を解釈可能な態様でラベルを表現した情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出する。スペクトログラム特徴量算出部１０２は、音響信号を第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出する。指標算出部１０４は、第１の特徴量及び第２の特徴量を基に生成されるマスクであって、音響信号からラベルに対応する成分を抽出するためのマスクを評価するための指標を算出する。更新部１０５は、指標が最適化されるように、第１のモデルのパラメータ及び第２のモデルのパラメータを更新する。このように、学習装置１０は、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、各モデルの学習を行うことができる。このため、第１の実施形態によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。

また、ラベル特徴量算出部１０１は、文字列で表現されたラベルから作成されたベクトルを第１のモデルに入力して得られる出力を、第１の特徴量として算出する。このように、学習装置１０は、目的音声の物理的性質が未知の場合であっても、文字列のような人間が認識可能な態様で表現されたラベルを基に、音源分離モデルの学習を行うことができる。

また、ラベル特徴量算出部１０１は、第１の次元数の変数を少なくとも含む特徴量を第１の特徴量として算出する。スペクトログラム特徴量算出部１０２は、第１の次元数の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量を第２の特徴量として算出する。指標算出部１０４は、第１の特徴量と第２の特徴量の内積を基に指標を算出する。このように、学習装置１０は、ラベルの特徴量と入力音響信号の特徴量を同一次元数の潜在空間にマッピングすることにより、容易に指標を算出することができる。

また、指標算出部１０４は、音響信号に対応付けられたラベルから算出された第１の特徴量と第２の特徴量との類似度が大きいほど小さくなり、かつ、音響信号に対応付けられたラベルと異なるラベルから算出された第１の特徴量と第２の特徴量との類似度が大きいほど大きくなるような指標を算出する。更新部１０５は、指標が最小化されるように第１のモデルのパラメータ及び第２のモデルのパラメータを更新する。このように、学習装置１０は、距離指標を使ったTriplet Lossによる学習を行うことができる。

また、ラベル特徴量算出部１０１は、所定の単語を表すラベルから作成されたｓ次元（ｓはあらかじめ設定された単語数）のOne-hotベクトルを、第１のモデルであるニューラルネットワークに入力して得られる１×１×ｈ（ｈはあらかじめ設定された任意の数）次元の特徴量を第１の特徴量として算出する。スペクトログラム特徴量算出部１０２は、音響信号から作成されたｆ（ｆは周波数ビンの数）×ｔ（ｔは時間ビンの数）次元のスペクトログラムを、第２のモデルであるニューラルネットワークに入力して得られるｆ×ｔ×ｈ次元の特徴量を第２の特徴量として算出する。このように、学習装置１０は、スペクトログラムの時間周波数方向の特徴を維持しつつ潜在空間にマッピングすることができる。

［ラベルの付与方法について］
第１の実施形態では、学習用のデータとして、入力音響信号とラベル情報とを組み合わせたデータが入力される。第１の実施形態では、入力音響信号にラベルを付与する方法は任意の方法であってよい。例えば、専門家が入力音響信号を聴き、組み合わせるべきラベルを判断し付与することが考えられる。このように付与されたラベルを使った学習を、ここでは網羅的な教師あり学習と呼ぶ。

しかしながら、網羅的な教師あり学習には、作業コストが大きいという問題がある。そこで、ラベルの付与を自動化する方法として、動画の音声と、当該動画に写っている物体を示すラベルとを対応付けることが考えられる。動画に写っている物体は、画像認識によって得ることができる。また、クラウドソーシング等を利用して大規模にラベル付与を行う方法が考えられる。

また、学習用の入力音響信号としてdry sourceが手に入るとは限らない。このため、入力音響信号には多数の雑音や残響が含まれることになり、ラベルと一対一に対応しない場合がある。さらに、上記のクラウドソーシング等では、非専門家がラベルの付与を行うため、基準がばらつくことが考えられる。

しかしながら、第１の実施形態では、ラベルを入力音響信号と必ずしも一対一で対応させる必要はない。例えば、入力音響信号に少なくとも「Writing」に対応する目的音声が含まれていれば、当該入力音響信号に「Writing」というラベルが付されていてもよい。そのような入力音響信号とラベルから算出された類似度は、少なくとも他のラベルから算出された類似度よりも、大きくなると考えられるためである。また、Triplet Lossは、このような網羅的な教師あり学習が行えない状況でも利用可能である。

［第２の実施形態］
第１の実施形態では、学習装置１０は、ラベル特徴量及びスペクトログラム特徴量の内積を基に損失関数を算出していた。一方で、内積を基に生成されたマスクによれば、ラベルに対応する目的音声の成分を実際に分離し、合成した音響信号を出力することができる。第２の実施形態では、学習装置１０は、合成した音響信号が最適化されるように学習を行う。

［第２の実施形態の構成］
図５を用いて、第２の実施形態に係る学習装置の構成について説明する。図５は、第２の実施形態に係る学習装置の構成例を示す図である。なお、図５において、第１の実施形態と同様の部分については、図１等と同様の符号を付し説明を省略する。図５に示すように、学習装置１０ａは、抽出部１０６、合成部１０７及び更新部１０８を有する。

前述の通り、スペクトログラム特徴量算出部１０２は、入力音響信号からスペクトログラム特徴量を算出する過程で、スペクトログラムを算出する。第２の実施形態では、スペクトログラム特徴量算出部１０２は、スペクトログラムを抽出部１０６に対し出力する。抽出部１０６は、スペクトログラム及びマスク生成部１０３によって生成されるマスクを入力とする。

抽出部１０６は、スペクトログラムにマスクを適用し、所定の成分を抽出し、出力する。例えば、抽出部１０６は、スペクトログラムの各時間周波数成分にマスクの値を重みとして乗じてもよいし、マスクの値に基づいて抽出する成分を選択してもよい。

合成部１０７は、抽出部１０６によって抽出された成分を入力とし、抽出部１０６によって抽出された成分を基に、音響信号を合成し、出力する。例えば、合成部１０７は、時間周波数成分から正弦波パラメータを抽出し、正弦波加算合成を行うMcAulay-Quatieriの方法（例えば、参考文献５を参照）によって音響信号を合成してもよい。また、合成部１０７は、時間周波数成分に対して位相成分を反復処理により推定し復元するGriffin-Limの方法（例えば、参考文献６）によって音響信号を合成してもよい。
参考文献５：R. J. McAulay, T. F. Quatieri. Speech Analysis/Synthesis Based on a Sinusoidal Representation, IEEE Trans. ASSP, vol.34, no.4, pp.744-754, 1986.
参考文献６：D. W. Griffin and J. S. Lim. Signal estimation from modified short-time Fourier transform," IEEE Trans. ASSP, vol.32, no.2, pp. 236-243, 1984.

更新部１０８は、入力音響信号、及び、合成部１０７によって合成された音響信号を入力とし、音響信号に関する損失関数が最小化されるように、各モデルを更新し、更新したパラメータを出力する。例えば、更新部１０８は、第１の実施形態と同様にTriplet Lossを採用し、positiveなペアデータから合成された音響信号、negativeなペアデータから合成された音響信号とを基に算出された損失関数を最適化してもよい。

図６は、第２の実施形態に係る学習処理の流れを示す模式図である。図６に示すように、合成部１０７は、スペクトログラムとマスクとから出力音響信号（Audio output）を合成する。そして、更新部１０８は、Triplet Lossによりモデルを更新（Updating）する。

［第２の実施形態の処理の流れ］
図７は、第２の実施形態に係る学習装置の処理の流れを示すフローチャートである。図７に示すように、まず、ラベル特徴量算出部１０１は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する（ステップＳ１２１）。次に、スペクトログラム特徴量算出部１０２は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する（ステップＳ１２２）。ここで、ステップＳ１２１とステップＳ１２２が実行される順番は逆であってもよい。また、ステップＳ１２１とステップＳ１２２は並行して実行されてもよい。

ここで、マスク生成部１０３は、ラベル特徴量とスペクトログラム特徴量の内積を算出する（ステップＳ１２３）。そして、マスク生成部１０３は、内積からスペクトログラムマスクを生成する（ステップＳ１２４）。そして、抽出部１０６は、入力音響信号にスペクトログラムマスクを適用し、所定の成分を抽出する（ステップＳ１２５）。また、合成部１０７は、抽出した成分を基に音響信号を合成する（ステップＳ１２６）。

指標算出部１０４は、合成した音響信号を基に損失関数を算出する（ステップＳ１２７）。そして、指標算出部１０４は、損失関数が最小化されるように各エンコーダのパラメータを更新する（ステップＳ１２８）。

ここで、学習装置１０ａは、終了条件が充足されている場合（ステップＳ１２９、Yes）、処理を終了する。一方、学習装置１０ａは、終了条件が充足されていない場合（ステップＳ１２９、No）、ステップＳ１２１に戻り更新済みの各モデルを使って処理を繰り返す。なお、例えば、終了条件は、用意されたミニバッチ内の全てのデータについて処理が実行済みであること、規定回数だけ処理が繰り返されたこと、パラメータの更新幅が収束したこと等である。

［第２の実施形態の効果］
第２の実施形態の学習装置１０ａは、第１の実施形態の学習装置１０と同様に、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、各モデルの学習を行うことができる。このため、第２の実施形態でも同様に、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。

［第３の実施形態］
第３の実施形態に係る生成装置は、学習済みの音源分離モデルを使って、マスクの生成やマスクを使った目的音声の分離を行う。音源分離モデルには、ラベルエンコーダ及びオーディオエンコーダが含まれる。

［第３の実施形態の構成］
まず、図８を用いて、第３の実施形態に係る生成装置の構成について説明する。図８は、第３の実施形態に係る学習装置の構成例を示す図である。図８に示すように、生成装置２０は、ラベル特徴量算出部２０１、スペクトログラム特徴量算出部２０２、マスク生成部２０３、指標算出部２０４、抽出部２０６、合成部２０７を有する。また、生成装置２０は、ラベルエンコーダ情報２１１及びオーディオエンコーダ情報２１２を記憶する。

ラベル特徴量算出部２０１、スペクトログラム特徴量算出部２０２、マスク生成部２０３、指標算出部２０４、抽出部２０６、合成部２０７は、それぞれラベル特徴量算出部１０１、スペクトログラム特徴量算出部１０２、マスク生成部１０３、指標算出部１０４、抽出部１０６、合成部１０７と同様の機能を有する。また、ラベルエンコーダ情報２１１は、学習済みのラベルエンコーダの情報である。また、オーディオエンコーダ情報２１２は、学習済みのオーディオエンコーダの情報である。

ラベル特徴量算出部２０１は、ラベルを特定可能なラベル情報を入力とし、当該ラベル情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出し、出力する。スペクトログラム特徴量算出部２０２は、入力音響信号を入力とし、入力音響信号を第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出し、出力する。

マスク生成部２０３は、第１の特徴量及び第２の特徴量を入力とし、第１の特徴量及び第２の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成し、出力する。指標算出部２０４は、第１の特徴量及び第２の特徴量を基に生成されるマスクを入力として、マスクの類似度を算出する。

抽出部２０６は、入力音響信号から得られるスペクトログラム及びマスクを入力とし、スペクトログラムに、マスクを適用し、所定の成分を抽出し、出力する。合成部２０７は、抽出部２０６によって抽出された成分を入力とし、成分を基に、音響信号を合成し、出力する。

例えば、合成部２０７は、時間周波数成分から正弦波パラメータを抽出し、正弦波加算合成を行うMcAulay-Quatieriの方法（例えば、参考文献５を参照）によって音響信号を合成してもよい。また、合成部２０７は、時間周波数成分に対して位相成分を反復処理により推定し復元するGriffin-Limの方法（例えば、参考文献６）によって音響信号を合成してもよい。

生成装置２０は、合成部２０７によって合成された出力音響信号を出力する。また、図８に示すように、生成装置２０は、出力音響信号だけでなく、指標算出部２０４によって算出された類似度を出力してもよいし、マスク生成部２０３によって生成されたマスクを出力してもよい。

図９は、第３の実施形態に係る生成処理の流れを示す模式図である。図９に示すように、第３の実施形態の生成装置２０は、第１の実施形態及び第２の実施形態の学習装置と異なり、学習済みのモデルをあらかじめ記憶装置等に記憶し、当該モデルを用いてマスクの生成を行うものである。そのため、生成装置２０は、更新部を有しておらず、モデルの更新に関する処理は行わない。ただし、生成装置２０に学習装置と同等の学習機能を追加し、モデルの更新に関する処理を行うように構成することは妨げられない。

［第３の実施形態の処理の流れ］
図１０は、第３の実施形態に係る生成装置の処理の流れを示すフローチャートである。図１０に示すように、まず、ラベル特徴量算出部２０１は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する（ステップＳ２０１）。次に、スペクトログラム特徴量算出部２０２は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する（ステップＳ２０２）。ここで、ステップＳ２０１とステップＳ２０２が実行される順番は逆であってもよい。また、ステップＳ２０１とステップＳ２０２は並行して実行されてもよい。

ここで、マスク生成部２０３は、ラベル特徴量とスペクトログラム特徴量の内積を算出する（ステップＳ２０３）。そして、マスク生成部２０３は、内積からスペクトログラムマスクを生成する（ステップＳ２０４）。そして、抽出部２０６は、入力音響信号にスペクトログラムマスクを適用し、所定の成分を抽出する（ステップＳ２０５）。また、合成部２０７は、抽出した成分を基に音響信号を合成する（ステップＳ２０６）。

生成装置２０は、生成した音響信号を出力音響信号として出力する（ステップＳ２０７）。なお、生成装置２０は、スペクトログラムマスクそのものを出力してもよいし、スペクトログラムマスクから算出された類似度を出力してもよい。

［第３の実施形態の効果］
これまで説明してきたように、ラベル特徴量算出部２０１は、意味を解釈可能な態様でラベルを表現した情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出する。スペクトログラム特徴量算出部２０２は、音響信号を第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出する。マスク生成部２０３は、第１の特徴量及び第２の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成する。このように、生成装置２０は、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、当該ラベルに応じたマスクを生成することができる。このため、第３の実施形態によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。

［第４の実施形態］
これまでの実施形態では、マスクは、時間周波数点ごとの成分を抽出するためのものであった。一方で、マスクによって時間方向の音源分離を行いたい場合がある。特に、一定期間において、異なるラベルの音声が時間的に重複なく存在する場合、マスクによって各ラベルに対応する時間帯を特定できれば、各ラベルに対応する目的音声を分離することができると考えられる。

そこで、第４の実施形態では、図１１に示すように、時間周波数点ごとの成分が周波数方向に集約された時間方向のマスク、すなわちタイムマスクを生成する。図１１は、第４の実施形態に係る生成処理の流れを示す模式図である。

図１１に示すように、スペクトログラム特徴量算出部２０２は、生成したスペクトログラム特徴量を周波数方向に集約する。このため、スペクトログラム特徴量の周波数方向のサイズは１となる。そして、マスク生成部２０３は、ラベル特徴量と集約済みのスペクトログラム特徴量の内積を算出する。

なお、マスク生成部２０３は、時間周波数点ごとの成分を含むスペクトログラムマスクを、さらに周波数方向に集約することによりタイムマスクを生成してもよい。その場合、スペクトログラム特徴量算出部２０２は、スペクトログラム特徴量の集約を行わない。

また、図１１に示すように、指標算出部２０４は、タイムマスクをさらに時間方向に集約することで、類似度を算出することができる。なお、スペクトログラムマスクは、第１のマスクの一例である。また、タイムマスクは、第２のマスクの一例である。

このように、タイムマスクは、スペクトログラムマスクの周波数成分を集約したマスクと言うことができる。例えば、タイムマスクの生成方法には、スペクトログラムマスクを実際に生成することなく、スペクトログラム特徴量をあらかじめ集約しておく第１の方法と、スペクトロマスクを実際に生成し集約を行う第２の方法がある。第１の方法には、計算量が削減されるという効果がある。一方、第２の方法には、スペクトログラムマスクとタイムマスクの両方を得ることができるという効果がある。

［第４の実施形態の処理の流れ］
図１２は、第４の実施形態に係る生成装置の処理の流れを示すフローチャートである。図１２に示すように、まず、ラベル特徴量算出部２０１は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する（ステップＳ２２１）。次に、スペクトログラム特徴量算出部２０２は、オーディオエンコーダにより、入力音響信号から周波数成分を集約したスペクトログラム特徴量を算出する（ステップＳ２２２）。ここで、ステップＳ２２１とステップＳ２２２が実行される順番は逆であってもよい。また、ステップＳ２２１とステップＳ２２２は並行して実行されてもよい。

ここで、マスク生成部２０３は、ラベル特徴量とスペクトログラム特徴量の内積を算出する（ステップＳ２２３）。そして、マスク生成部２０３は、内積からタイムマスクを生成する（ステップＳ２２４）。

そして、生成装置２０は、入力音響信号にタイムマスクを適用し、所定の成分を抽出する（ステップＳ２２５）。また、生成装置２０は、抽出した成分を基に音響信号を合成する（ステップＳ２２６）。

生成装置２０は、生成した音響信号を出力音響信号として出力する（ステップＳ２２７）。なお、生成装置２０は、タイムマスクそのものを出力してもよいし、タイムマスクから算出された類似度を出力してもよい。

［第４の実施形態の効果］
これまで説明してきたように、ラベル特徴量算出部２０１は、意味を解釈可能な態様でラベルを表現した情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出する。スペクトログラム特徴量算出部２０２は、音響信号を第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出する。マスク生成部２０３は、第１の特徴量及び第２の特徴量を基に生成される第１のマスクであって、音響信号からラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第１のマスクの、周波数成分を集約した第２のマスクを生成する。このため、第４の実施形態によれば、特に、異なるラベルの音声が時間的に重複なく存在する場合に、目的音声の分離を効率良く行うことができる。

第４の実施形態によれば、例えば、ニュース番組では、政治コーナー、スポーツコーナーといったコーナーが時間で区切られている場合がある。例えば、各コーナーで読み上げられたニュースの原稿に、第３の実施形態で得られたタイムマスクを適用することで、特定のコーナーに対応する原稿の部分を特定することができる。

ここで、第４の実施形態で用いられるラベルエンコーダ及びオーディオエンコーダは、例えば、タイムマスクによって抽出された成分から合成された音響信号を使ってTriplet Lossによって学習されたものであってもよい。これは、学習時に、マスク生成部１０３が、生成したスペクトログラムマスクの周波数成分を集約し、タイムマスクを生成することによって実現される。

これより、以下のような実施形態が考えられる。ラベル特徴量算出部１０１は、意味を解釈可能な態様でラベルを表現した情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出する。スペクトログラム特徴量算出部１０２は、音響信号を第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出する。指標算出部１０４は、第１の特徴量及び第２の特徴量を基に生成される第１のマスクであって、音響信号からラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第１のマスクの、周波数成分を集約した第２のマスクを評価するための指標を算出する。更新部１０５は、指標が最適化されるように、第１のモデルのパラメータ及び第２のモデルのパラメータを更新する。

［実験結果］
各実施形態を基に行った実験について説明する。実験は、２種の音源からなる時間的な重畳のない混合音に対して、スペクトログラムマスクを生成した。さらに、実験では、潜在変数の次元数ｈを音源クラス数ｌ以下に設定することで、潜在変数を媒介にすることの有用性を検証した。

実験では、作成した混合音からなるデータセットを用いて、第１の実施形態で説明した音源分離モデルの学習を行った。さらに、学習済みの音源分離モデルを用いて、第３の実施形態で説明した生成装置にテスト用の混合音と２ラベルのうちの片方のみを入力し、対応する領域にスペクトログラムが生成されるかを確認した。

実験では、データセットとして、DCASE 2018 challenge task2（参考文献７：http://dcase.community/challenge2018/index）で公開されたFSD Kaggle 2018を用いた。FSD Kaggle 2018は、４１クラスの環境音からなる９５００個程度のデータセットである。

データセットのうち、手動アノテーションデータを使用した。また、極端に時間の短いデータを避けるため３秒以上の長さを持つデータを使用した。また、上記を満たすデータから異なるクラスのデータを２種類抜き出し、図１３のように、２つの信号（ラベルＡ及びラベルＢの信号）を、無音を挟み結合した。図１３は、実験におけるデータの結合について説明する図である。結合されたシングルチャネルデータに対応するクラスは常に２つである。

図１４は、実験における各パラメータの設定値を示す図である。図１４に示すように、潜在変数の次元数ｈは３２とした。また、２つの信号は、トランペットの音と、鍵をジャラジャラさせた音であり、それぞれラベルＡ及びラベルＢに対応する。

図１５は、実験で得られたスペクトログラムを示す図である。また、図１６及び図１７は、実験で得られたマスクを示す図である。図１６は、ラベルとしてトランペットを指定したときのマスクである。また、図１７は、ラベルとして鍵をジャラジャラする音を指定したときのマスクである。これらの図から、実施形態によれば、各ラベルを分離可能なマスクが生成されていることが分かる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置１０及び生成装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は生成処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０又は生成装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal Handyphone System）等の移動体通信端末、さらには、PDA（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置１０及び生成装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理又は生成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、ラベルと音響信号を入力とし、分離された目的音声の信号を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１８は、学習プログラムを実行するコンピュータの一例を示す図である。なお、生成処理についても同様のコンピュータによって実行されてもよい。コンピュータ１０００は、例えば、メモリ１０１０、CPU１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ROM（Read Only Memory）１０１１及びRAM１０１２を含む。ROM１０１１は、例えば、BIOS（BASIC Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local Area Network）、WAN（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

１０、１０ａ学習装置
２０生成装置
１０１、２０１ラベル特徴量算出部
１０２、２０２スペクトログラム特徴量算出部
１０３、２０３マスク生成部
１０４、２０４指標算出部
１０５、１０８更新部
１０６、２０６抽出部
１０７、２０７合成部
１１１、２１１ラベルエンコーダ情報
１１２、２１２オーディオエンコーダ情報

Claims

意味を解釈可能な態様でラベルを表現した情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出する第１の特徴量算出部と、
音響信号を前記第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出する第２の特徴量算出部と、
前記第１の特徴量及び前記第２の特徴量を基に生成される第１のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第１のマスクの、周波数成分を集約した第２のマスクを評価するための指標を算出する指標算出部と、
前記指標が最適化されるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
前記第１の特徴量算出部は、文字列で表現されたラベルから作成されたベクトルを前記第１のモデルに入力して得られる出力を、前記第１の特徴量として算出することを特徴とする請求項１に記載の学習装置。
前記第１の特徴量算出部は、第１の次元数の変数を少なくとも含む特徴量を前記第１の特徴量として算出し、
前記第２の特徴量算出部は、前記第１の次元数の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量を前記第２の特徴量として算出し、
前記指標算出部は、前記第１の特徴量と前記第２の特徴量の類似度を基に前記指標を算出することを特徴とする請求項１又は２に記載の学習装置。
前記指標算出部は、前記音響信号に対応付けられたラベルから算出された前記第１の特徴量と前記第２の特徴量との類似度が大きいほど小さくなり、かつ、前記音響信号に対応付けられたラベルと異なるラベルから算出された前記第１の特徴量と前記第２の特徴量との類似度が大きいほど大きくなるような指標を算出し、
前記更新部は、前記指標が最小化されるように前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新することを特徴とする請求項１から３のいずれか１項に記載の学習装置。
第１の特徴量算出部は、所定の単語を表すラベルから作成されたｓ次元（ｓはあらかじめ設定された単語数）のOne-hotベクトルを、前記第１のモデルであるニューラルネットワークに入力して得られる１×１×ｈ（ｈはあらかじめ設定された任意の数）次元の特徴量を前記第１の特徴量として算出し、
前記第２の特徴量算出部は、前記音響信号から作成されたｆ（ｆは周波数ビンの数）×ｔ（ｔは時間ビンの数）次元のスペクトログラムを、前記第２のモデルであるニューラルネットワークに入力して得られるｆ×ｔ×ｈ次元の特徴量を前記第２の特徴量として算出することを特徴とする請求項１から４のいずれか１項に記載の学習装置。
ラベルを特定可能な情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出する第１の特徴量算出部と、
音響信号を前記第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出する第２の特徴量算出部と、
前記第１の特徴量及び前記第２の特徴量を基に生成される第１のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第１のマスクの、周波数成分を集約した第２のマスクを評価するための指標を算出する指標算出部と、
前記指標が最適化されるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
学習装置が実行する学習方法であって、
意味を解釈可能な態様でラベルを表現した情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出する第１の特徴量算出工程と、
音響信号を前記第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出する第２の特徴量算出工程と、
前記第１の特徴量及び前記第２の特徴量を基に生成される第１のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第１のマスクの、周波数成分を集約した第２のマスクを評価するための指標を算出する指標算出工程と、
前記指標が最適化されるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１から６のいずれか１項に記載の学習装置として機能させるための学習プログラム。
意味を解釈可能な態様でラベルを表現した第１の情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出し、第１の音響信号を前記第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出し、前記第１の特徴量及び前記第２の特徴量を基に生成される第１のマスクであって、前記第１の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第１のマスクの、周波数成分を集約した第２のマスクを評価するための指標を算出し、前記指標が最適化されるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する方法によって学習済みの前記第１のモデル及び前記第２のモデルを用いる生成装置であって、
意味を解釈可能な態様でラベルを表現した第２の情報を前記第１の空間にマッピングした第３の特徴量を、前記第１のモデルを用いて算出する第１の特徴量算出部と、
第２の音響信号を前記第１の空間にマッピングした第４の特徴量を、前記第２のモデルを用いて算出する第２の特徴量算出部と、
前記第３の特徴量及び前記第４の特徴量を基に生成される第３のマスクであって、前記第２の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第３のマスクの、周波数成分を集約した第４のマスクを生成するマスク生成部と、
を有することを特徴とする生成装置。
意味を解釈可能な態様でラベルを表現した第１の情報を第１の空間にマッピングした第１の特徴量を、第１のモデルを用いて算出し、第１の音響信号を前記第１の空間にマッピングした第２の特徴量を、第２のモデルを用いて算出し、前記第１の特徴量及び前記第２の特徴量を基に生成される第１のマスクであって、前記第１の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第１のマスクの、周波数成分を集約した第２のマスクを評価するための指標を算出し、前記指標が最適化されるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する方法によって学習済みの前記第１のモデル及び前記第２のモデルを用いる生成装置が実行する生成方法であって、
意味を解釈可能な態様でラベルを表現した第２の情報を前記第１の空間にマッピングした第３の特徴量を、前記第１のモデルを用いて算出する第１の特徴量算出工程と、
第２の音響信号を前記第１の空間にマッピングした第４の特徴量を、前記第２のモデルを用いて算出する第２の特徴量算出工程と、
前記第３の特徴量及び前記第４の特徴量を基に生成される第３のマスクであって、前記第２の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第３のマスクの、周波数成分を集約した第４のマスクを生成するマスク生成工程と、
を含むことを特徴とする生成方法。
コンピュータを、請求項９に記載の生成装置として機能させるための生成プログラム。