JP2019139102A

JP2019139102A - 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム

Info

Publication number: JP2019139102A
Application number: JP2018023296A
Authority: JP
Inventors: 弘和亀岡; Hirokazu Kameoka; 卓弘金子; Takuhiro Kaneko; 田中　宏; Hiroshi Tanaka; 宏田中; 伸克北条; Nobukatsu Hojo; 圭佑小山田; Keisuke Oyamada; 弘泰安東; Hiroyasu Ando
Original assignee: Nippon Telegraph and Telephone Corp; University of Tsukuba NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tsukuba NUC
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2019-08-22
Anticipated expiration: 2038-02-13
Also published as: JP6872197B2

Abstract

【課題】音響信号を高品質に生成する。【解決手段】学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。【選択図】図２

Description

本発明は、音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムに係り、音響信号を生成するための音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムに関する。

音響信号処理において、短時間Fourier 変換(Short Time Fourier Transform; STFT) などにより得られる振幅スペクトログラムに対する加工処理（強調処理を含む）が有効な場面が多い。また、近年は音声合成においても、振幅スペクトログラムの合成を経て信号生成を行うアプローチの有効性が示されている。振幅スペクトログラムは位相情報を含まないため、振幅スペクトログラムから音響信号を再構成するには位相スペクトログラムの再構成が必要となる。従来、STFT の振幅スペクトログラムを対象とした位相再構成手法として、Griffin-Lim らによる信号処理をベースとした方法（非特許文献１）（以後、Griffin-Lim 法）が広く用いられてきた。この方法は、STFT によって得られる複素スペクトログラムが、時間領域信号の冗長表現となっていることを手がかりにした方法で、振幅スペクトログラムを入力とし、

Step 0：位相スペクトログラムを初期設定する。
Step 1：入力振幅スペクトログラムと前段で得られる位相スペクトログラムから複素スペクトログラムを構成し、逆STFT により時間領域信号を算出する。
Step 2：上記Step 1 の時間領域信号にSTFT を行い、複素スペクトログラムを再計算する。
Step 3：上記Step 2 の複素スペクトログラムの偏角成分を新しい位相スペクトログラムの推定値とし、上記Step 1 に戻る。
という反復アルゴリズムにより振幅スペクトログラムから音響信号を再構成することができる。

Daniel Griffin and Jae Lim: "Signal estimation from modi_ed short-time Fourier transform," IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236-243, 1984.

この方法では少ない反復回数では必ずしも品質の高い音響信号が再構成されるとは限らないことが知られており、質の高い音響信号を得るには多数の反復回数を要する場合が多い。このため実時間処理などには不向きという難点がある。

本発明は、上記課題を解決するためになされたものであり、音響信号を高品質に生成することができる音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために第１の発明に係る音響信号生成モデル学習装置は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部を含んで構成されている。

第２の発明に係る音響信号生成モデル学習装置は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、前記教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部を含んで構成されている。

第３の発明に係る音響信号生成装置は、音響信号を生成するためのニューラルネットワークである生成器を用いて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部を含み、前記生成器は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である。

第４の発明に係る音響信号生成装置は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、音響信号を生成するためのニューラルネットワークである生成器を用いて、前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、前記生成器は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である。

第５の発明に係る音響信号生成モデル学習方法は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。

第６の発明に係る音響信号生成モデル学習方法は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、入力生成部が、前記教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。

第７の発明に係るプログラムは、上記の音響信号生成モデル学習装置または音響信号生成装置の各部としてコンピュータを機能させるためのプログラムである。

以上説明したように、本発明の音響信号生成モデル学習装置、方法、及びプログラムによれば、音響信号を高品質に生成する生成器を学習することができる、という効果が得られる。

また、本発明の音響信号生成装置及びプログラムによれば、音響信号を高品質に生成することができる、という効果が得られる。

第１の実施の形態における位相再構成フローを示す図である。第１の実施の形態における学習方法を示す図である。第１の実施の形態に係る音響信号生成モデル学習装置の構成を示す概略図である。第１の実施の形態に係る音響信号生成装置の構成を示す概略図である。第２の実施の形態における位相再構成フローを示す図である。第２の実施の形態における学習方法を示す図である。第３の実施の形態における位相再構成フローを示す図である。第３の実施の形態に係る音響信号生成モデル学習装置の構成を示す概略図である。第３の実施の形態に係る音響信号生成装置の構成を示す概略図である。第３の実施の形態に係る音響信号生成モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。第３の実施の形態に係る音響信号生成装置における音響信号生成処理ルーチンの内容を示すフローチャートである。本実験における生成フローを示す図である。本実験におけるニューラルネットワークの構成を示す図である。第３の実施の形態の手法及び従来手法の実験結果を示す図である。第３の実施の形態の手法及び従来手法の実験結果を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、振幅スペクトログラムから音響信号を生成することを目的とした音響信号生成技術である。

＜本発明の実施の形態の概要＞
本発明の実施の形態の特徴は以下の通りである。

時間領域信号（または複素スペクトログラム）とその振幅スペクトログラムのペアを教師データとして、振幅スペクトログラムから時間領域信号（または複素スペクトログラム）を再構成するプロセスをニューラルネットワーク（生成器）でモデル化し、信号再構成（または位相再構成）プロセスそのものを学習により決定する。

教師信号（または教師複素スペクトログラム）と生成器により生成された信号（または複素スペクトログラム）の誤差を学習規準とする。

誤差の測り方の例は下記のとおりである。

(手法1) 教師信号（または教師複素スペクトログラム）と生成器により生成された信号（または複素スペクトログラム）の要素ごとの誤差の総和を、学習規準とする。

(手法2) 生成器により生成された信号か実データの信号かを識別する識別器の中間層の出力値間で測る誤差を学習規準とする。

期待される効果は以下のとおりである。

Griffin-Lim 法より高速に音響信号を生成できる。また、Griffin-Lim 法より高品質な音響信号を生成できる。

[第１の実施の形態]
＜提案手法１＞
既存手法では、複素スペクトログラムが時間領域信号の冗長表現となっていることを手掛かりに振幅スペクトログラムのみから位相スペクトログラムを再構成することを可能にしている。これに対し本発明の実施に形態に係る方法では、振幅スペクトログラムから時間領域信号または複素スペクトログラムへの変換関数をニューラルネットワーク(Neural Network; NN) によりモデル化し、振幅スペクトログラムから時間領域信号または複素スペクトログラムのペアを教師データとしてニューラルネットワークのパラメータを学習により決定する。生成処理のフローを図１に示す。学習が完了したニューラルネットワークを用いることで、入力された振幅スペクトログラムに対して時間領域信号または複素スペクトログラムを得ることができる。

＜学習方法１＞
まず、学習データとして、音声や楽曲などの音響信号またはSTFT やウェーブレット変換などにより得られるその複素スペクトログラムx を用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム（複素スペクトログラムの振幅成分）f_a を得る。この振幅スペクトログラムf_a を入力として、x が再構成されるようニューラルネットワークを学習する。具体的には、振幅スペクトログラムf_a を入力したニューラルネットワークの出力を~x とすると、x と~x を何らかの距離指標を小さくするようにニューラルネットワークのパラメータを最適化する。距離指標の例としては、最小二乗誤差などが挙げられる。最小二乗誤差を距離指標として用いる場合、目的関数L2 は以下の式で表される。

図２に、学習処理フローを示す。

＜学習方法補足１＞
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。

＜学習方法補足２＞
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513 点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。

＜生成方法＞
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列f_aを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。

＜生成方法補足１＞
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。

＜生成方法補足２＞
学習方法補足２と同様に、想定する時間周波数解析の方法によって、その対称性を利用することもできる。

＜システム構成＞
＜音響信号生成モデル学習装置の構成＞
次に、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置、及び学習された生成器を用いて音響信号を生成する音響信号生成装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。

図３に示すように、第１の実施の形態に係る音響信号生成モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図３に示すように、音響信号生成モデル学習装置１００は、入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアを受け付ける。

演算部２０は、学習部２４を備えている。

学習部２４は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。

学習規準は、例えば、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの要素毎の誤差の総和を表す。

学習部２４により学習された生成器のパラメータが、出力部５０により出力される。

＜音響信号生成装置の構成＞
図４に示すように、第１の実施の形態に係る音響信号生成装置１５０は、ＣＰＵと、ＲＡＭと、後述する音響信号生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図４に示すように、音響信号生成装置１５０は、入力部６０と、演算部７０と、出力部９０とを備えている。

入力部６０は、振幅スペクトログラムを受け付ける。

演算部７０は、生成部７６を備えている。

生成部７６は、音響信号生成モデル学習装置１００により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部９０により出力する。

＜音響信号生成モデル学習装置の作用＞
次に、第１の実施の形態に係る音響信号生成モデル学習装置１００の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置１００に入力されると、音響信号生成モデル学習装置１００において、学習処理ルーチンが実行される。学習処理ルーチンでは、学習部２４が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器を学習する。そして、学習された生成器のパラメータが、出力部５０により出力される。

＜音響信号生成装置の作用＞
次に、第１の実施の形態に係る音響信号生成装置１５０の作用について説明する。まず、音響信号生成モデル学習装置１００によって学習された生成器のパラメータが、音響信号生成装置１５０に入力される。また、振幅スペクトログラムが、音響信号生成装置１５０に入力されると、音響信号生成装置１５０において、音響信号生成処理ルーチンが実行される。音響信号生成処理ルーチンでは、生成部７６が、生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部９０により出力する。

以上説明したように、第１の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。

また、第１の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を用いることにより、音響信号を高品質に生成することができる。

[第２の実施の形態]
次に、第２の実施の形態について説明する。なお、第２の実施の形態に係る音響信号生成モデル学習装置及び音響信号生成装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

＜提案手法２＞
上記提案手法１では、時間領域信号間または複素スペクトログラム間の要素ごとの誤差の総和を学習規準としたが、このような規準を用いた場合、ターゲットの時間領域信号または複素スペクトログラムに平均的にフィットするものを出力するよう生成器Gのパラメータが学習されることになる。このように学習された生成器Gからは、ランダムな成分が除去され、過剰に平滑化された時間領域信号または複素スペクトログラムしか生成されないようになる可能性が考えられる。実世界信号の多くは少なからずのランダム成分を含むものであり、ランダム成分が信号（または位相）再構成の過程で除去されることが再構成信号の聴感上の品質に限界を与える可能性がある。そこで、提案手法２では、生成器Gによる信号（または位相）再構成の過程で、実世界信号が本来もつ微細なランダム成分が失われないようにするため、提案手法１と異なる学習規準を用いて生成器G を学習する。具体的には、生成器Gにより生成された信号なのか実データの信号なのかを識別するニューラルネットワーク（以後、識別器D）を導入し、この識別器Dの中間層の出力値間で測る誤差を学習規準とする。提案手法２の処理のフローを図５に示す。

＜学習方法＞
図６に学習方法の処理フローを示す。まず、学習データとして、音声や楽曲などの音響信号またはSTFTやウェーブレット変換などにより得られるその複素スペクトログラムをベクトル化したものxを用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム（複素スペクトログラムの振幅成分）をベクトル化したものf_a を得る。この振幅スペクトログラムf_a とランダム源成分z を入力として、x が再構成されるよう生成器G を学習する。ここで、ランダム源成分z はある分布(例えば、一様分布) に従って生成した乱数ベクトルである。さらに、生成器G により生成された信号なのか実データの信号なのかを２クラス識別する（例えば0 か1 かを出力する）識別器D を導入し、これも生成器G と併せて学習する。振幅スペクトログラムf_a とランダム源成分z を入力した生成器G の出力を~x とすると、x と~x を入力したときの識別器D の中間層におけるそれぞれの出力値の間で測る誤差を小さくするように生成器G のパラメータを学習する。一方、識別器D は、生成器G により生成された信号なのか実データの信号なのかを正しく識別するよう何らかの識別スコアを学習規準として学習する。

まず、式(2) のような規準を考える。式(2) において、G は生成器(Generator) を表し、D は識別器(Discriminator) を表す。この規準は、識別器D が入力の時間領域信号または複素スペクトログラムが実データなのか生成器G から生成されたものなのかを正しく識別できているかを表すクロスエントロピーと呼ぶ識別スコアを表す。よって、この規準をD に関して大きくすることは、識別器D が、入力の時間領域信号または複素スペクトログラムが実データなのか生成器G から生成されたものなのかを正しく識別できるようにすることを意味する。

一方、生成器G は、再構成した時間領域信号または複素スペクトログラムが、識別器D に（誤って）実データと識別されるように学習したい。これは上記規準をG に関して小さくすることにより達成される。加えて、生成器の出力~x がターゲットの信号x とできるだけ近くなるようにしたい。学習がある程度進んだ識別器D の中間層は、~x とx をできるだけ識別しやすいような（引き離すような）特徴量空間となっているはずのため、そのような空間で~x とx をできるだけ近づけることで、x との違いをより見分けられないような~x を得られるようになることが期待される。そこで、式(2) に加えて、~x とx の識別器D の中間層におけるそれぞれの出力値の誤差

を生成器G の学習規準として考える。ただし、D_h(・) は識別器D の第h層の出力値を表す。よって、D₀(x) = x である。C(α，β)はαとβのベクトル間距離を表す関数であり、例えばp-ノルム

などが挙げられる。また、w_h は非負の重み定数である。よって、第h層の出力値のみの距離を考慮する場合はw_h′= 0 (h′≠h)とすれば良い。

以上より、識別器D に関しては

を、生成器G に関しては

をそれぞれ学習規準として識別器D と生成器G を競争させながら学習する。ただし、λは第二項の重みを表す定数で、0≦λ≦1 の範囲で適当に定めるものとする。

このように識別器と生成器を競争させることにより生成器を学習する方法論は、敵対的生成器(Generative Adversarial Network; GAN) と呼ばれる。本実施の形態はこの方法論を、以上のように信号（または位相）再構成問題に合った形に導入した点が新しい。式(2) に示した規準は、非特許文献２で提案されたものである。近年、GAN に関する研究は多岐に渡っており、非特許文献３や非特許文献４などを始めとして様々な改良が行われている。

[非特許文献２] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozairy, Aaron Courville and Yoshua Bengio: “Generative Adversarial Nets," arXiv:1406.2661, 2014.

[非特許文献３] MAO, Xudong, et al.: “Least squares generative adversarial networks," arXiv preprint ArXiv:1611.04076, 2016.

[非特許文献４] Martin Arjovsky, Soumith Chintala, and Leon Bottou: “Wasserstein GAN," arXiv preprint arXiv:1701.07875, 2017.

本学習方法において設計すべき最適化関数として、式(2) に限る必要性はなく、非特許文献３や非特許文献４などで提案されているものを用いても良い。

＜学習方法補足１＞
識別器D には、式(6) のように音声特徴量系列f′も入力させても良い。音声特徴量系列f′の例としては、声帯音源情報や振幅スペクトログラムなどが挙げられる。後者の場合はf′= f_aとなる。

＜学習方法補足２＞
本ニューラルネットワークを学習するときに、提案手法1を用いて、生成器Gを事前学習しても良い。

＜学習方法補足３＞
複素スペクトログラムにおいて、各周波数のフレーム間の位相差が同じであれば第一フレームの位相スペクトル（初期位相）が任意であったとしても、対応する時間領域信号は人間の聴覚的には同一と知覚されることが知られている。よって、人間にとって知覚できない違いを同一と見なすことにすれば、初期位相の任意性の分、それぞれの入力振幅スペクトログラムに対し正解となる時間領域信号または複素スペクトログラムは多数存在することになる。そこで、ターゲットの教師データを、それぞれの入力振幅スペクトログラムに対し初期位相を変えた時間領域信号または複素スペクトログラムを多数用意しても良い。

＜学習方法補足４＞
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。

＜学習方法補足５＞
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。

＜学習方法補足６＞
時間領域信号について、フーリエ変換を行って得られる複素スペクトログラムの位相成分に対して、任意の値を足し合わせて新たな複素スペクトログラムを構築する。この新たな複素スペクトログラムを逆フーリエ変換で時間領域信号に変換しても、人間の聴覚的には元の時間領域信号と同一に知覚されることが知られている。この性質を利用して、学習方法補足３のように入力振幅スペクトログラムに対応する教師データ(時間領域信号ないし複素スペクトログラム) を多数用意しても良い。

＜生成方法補足２＞
学習方法補足５と同様に、想定する時間周波数解析の方法によってはその対称性を利用することもできる。

＜システム構成＞
＜音響信号生成モデル学習装置の構成＞
第２の実施の形態に係る音響信号生成モデル学習装置１００の学習部２４は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。

具体的には、学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す。

＜音響信号生成装置の構成＞
第２の実施の形態に係る音響信号生成装置１５０の生成部７６は、音響信号生成モデル学習装置１００により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部９０により出力する。

なお、第２の実施の形態に係る音響信号生成モデル学習装置１００及び音響信号生成装置１５０の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器、及び実データであるか否かを識別するためのニューラルネットワークである識別器を、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。

また、第２の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を用いることにより、音響信号を高品質に生成することができる。

[第３の実施の形態]
次に、第３の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

＜提案手法３＞
提案手法１、２では振幅スペクトログラムとランダム源成分を生成器の入力としていたが、提案手法３では入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする。入力の時間領域信号または複素スペクトログラムは、入力振幅スペクトログラムとランダムに生成した位相スペクトログラムから構成しても良いし、Griffin-Lim法を適用することにより得たものを用いても良い。ただし、Griffin-Lim 法を用いる場合、アルゴリズムの反復回数を増やすと生成器の入力を算出する段階で計算時間がかかってしまう。従って、その場合には例えば反復回数を５回程度とする。図７に提案手法３の処理フローを示す。

＜学習方法＞
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第２の実施の形態で説明した提案手法２の学習方法、学習方法補足１〜６と同様である。

＜学習方法補足＞
生成器に入力する位相スペクトログラムをランダム生成する際、あるフレームの位相スペクトルは固定しても良い。音響信号の位相成分について考えると、ある瞬間にどのような位相をもっているべきかは絶対的に決まるものではなく、前後の信号の位相との相対的な関係性からどのような位相をもつべきかは決まる。この性質を利用し、位相をランダムサンプリングする時に、例えば1 フレーム目の位相成分だけ固定しておくと、生成器は2 フレーム目以降の位相を再構成するにあたり1 フレーム目の位相成分との相対的な関係性を学習するだけで良いので効率的に学習が進む可能性がある。

＜生成方法＞
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第２の実施の形態で説明した提案手法２の生成方法、生成方法補足１〜２と同様である。

＜システム構成＞
＜音響信号生成モデル学習装置の構成＞
図８に示すように、第３の実施の形態に係る音響信号生成モデル学習装置１００は、入力部１０と、演算部３２０と、出力部５０とを備えている。

演算部３２０は、入力生成部３２２と、学習部３２４とを備えている。

入力生成部３２２は、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。例えば、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて、Griffin-Lim 法により、時間領域信号または複素スペクトログラムを構成する。

学習部３２４は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。

学習規準は、例えば、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、入力生成部３２２により教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す。

＜音響信号生成装置の構成＞
図９に示すように、第３の実施の形態に係る音響信号生成装置３５０は、入力部６０と、演算部３７０と、出力部９０とを備えている。

入力部６０は、振幅スペクトログラムを受け付ける。

演算部３７０は、入力生成部３７２及び生成部３７６を備えている。

入力生成部３７２は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。

生成部３７６は、音響信号生成モデル学習装置３００により学習された生成器を用いて、入力生成部３７２により構成された時間領域信号又は複素スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部９０により出力する。

＜音響信号生成モデル学習装置の作用＞
次に、第３の実施の形態に係る音響信号生成モデル学習装置３００の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置３００に入力されると、音響信号生成モデル学習装置３００において、図１０に示す学習処理ルーチンが実行される。

まず、ステップＳ３００において、入力生成部３２２は、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。

そして、ステップＳ３０２において、学習部３２４は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器と識別器とを、学習規準を小さくするように学習する。そして、学習された生成器のパラメータが、出力部５０により出力される。

＜音響信号生成装置の作用＞
次に、第３の実施の形態に係る音響信号生成装置３５０の作用について説明する。まず、音響信号生成モデル学習装置３００によって学習された生成器のパラメータが、音響信号生成装置３５０に入力される。また、振幅スペクトログラムが、音響信号生成装置３５０に入力されると、音響信号生成装置１５０において、図１１に示す音響信号生成処理ルーチンが実行される。

まず、ステップＳ３１０において、入力生成部３７２は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。

ステップＳ３１２では、生成部３７６が、音響信号生成モデル学習装置３００により学習された生成器を用いて、上記ステップＳ３１０で構成された時間領域信号又は複素スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部９０により出力する。

以上説明したように、第３の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器、及び実データであるか否かを識別するためのニューラルネットワークである識別器を、教師音響信号の時間領域信号又は複素スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。

また、第３の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように予め学習された生成器を用いることにより、音響信号を高品質に生成することができる。

＜実験＞
本発明の第３の実施の形態で説明した提案手法３の有効性を示すために、一実現方法を用いて、実験を行った。

＜実験設定（品質に関して）＞
＜ニューラルネットワークの概要＞
実験用のデータセットとして、非特許文献５を利用した。このデータセットには、ノイズを含んだ音声データとノイズを含まない音声データが存在するが、本実験ではノイズを含まない音声データのみを用いた。訓練データとテストデータは、すでにデータセット内で分割されているので、そのまま訓練用とテスト用として用いた。なお、音声信号のサンプリング周波数は16kHz とした。ただし、学習時は音声データを0.5 秒の重複を持たせつつ1 秒ごとに切り分けた。

[非特許文献５] Cassia Valentini-Botinhao: “Noisy speech database for training speech enhancement algorithms and TTS models," [dataset]. University of Edinburgh. School of Informatics. Centre for Speech Technology Research (CSTR). http://dx.doi.org/10.7488/ds/1356.

提案手法３では、生成器(図７参照)の入力として、振幅スペクトログラムf_a と乱数で与えられる位相成分z を用いて構成した複素スペクトログラムないし音響信号を用いている。本実験では、これらのうち複素スペクトログラムx′を用いた。生成器の出力は複素スペクトログラム^x とした。ただし、上記第２の実施の形態の学習方法補足５で述べた複素スペクトログラムの対称性を利用した。また、識別器(図６参照) の入力としては、音響信号xを用いた。ここで、識別器は音響信号を入力とし、生成器は複素スペクトログラムを出力としているため、生成器が出力する複素スペクトログラム^x に対して逆STFT を適用し音響信号~x に変換してから識別器に与えた。つまり、識別器は音響信号としての本物らしさを基準に、真のデータx と生成器の出力を逆STFT で変換した~x を分類すること目的とし、生成器は音響信号に変換した時に本物らしい複素スペクトログラムを生成することを目的とする。

＜データの前処理＞
ここでニューラルネットワークの学習に際して行った前処理について述べる。まず、音声データに対してSTFTを適用して、複素スペクトログラムに変換した。この時、フーリエ変換の窓幅は1024 点、シフト幅は512点、窓関数はブラックマン窓とした。次に、複素スペクトログラムの絶対値をとることで、振幅スペクトログラムを抽出した。また、音声データから変換された複素スペクトログラムについて、時系列方向に周波数方向の各次元の平均と分散を求めておく。この平均と分散は、学習および生成時に用いる。

＜学習方法＞
次に、生成器に入力する複素スペクトログラムの構築を考える。前述のようにして得た振幅スペクトログラムに、反復回数を5回としたGriffin-Lim 法を適用し、生成器に入力する複素スペクトログラムを構築した。ただし、この複素スペクトログラムの構築は、学習と並行して行った。つまり、生成器に複素スペクトログラムを入力する時に毎回、Griffin-Lim 法により振幅スペクトログラムから複素スペクトログラムを構築した。このとき、Griffin-Lim 法で用いる位相成分の初期値は毎回一様分布からランダムサンプリングした。

また、構築した複素スペクトログラムを生成器に入力する時、データの前処理で求めた平均と分散を用いて、複素スペクトログラムの正規化を行う。ここで適用する正規化とは、データの平均が0、分散が1 になるような手法をさす。生成器に入力する複素スペクトログラムを構築する時に位相成分をランダムサンプリングするが、上記第３の実施の形態で説明した学習方法補足を適用して、1フレーム目の位相は固定した。

なお、1 フレーム目の位相を固定するために、真の音声信号から得られる位相を用いた。

生成器の出力について、上記第２の実施の形態で説明した学習方法補足４を適用した。つまり、生成器が出力した複素スペクトログラムの振幅成分を、生成器に入力した複素スペクトログラムの振幅成分に置き換える処理を適用した。なお、生成器へ入力された複素スペクトログラムは正規化が適用されているので、生成器が出力する複素スペクトログラムに対して、スケールを元に戻す処理を適用した。

識別器に入力する真の音声信号については、上記第２の実施の形態で説明した学習方法補足６を適用して位相の異なる音声信号を多数構築し、与えた。また、識別器に音声信号を与えるとき、16384 で割ったものを与えた。

生成器と識別器を競争させながら最適化を行う目的関数

としては、非特許文献３で提案されたものを用いた。また、識別器の中間層におけるターゲットの信号x と生成器が生成した信号~x の距離に関する学習規準

について、距離尺度はL2 ノルムを用いて、重み定数w_hはw_h≠0＝1、w₀= 0とした。また、上記第２の実施の形態で説明した学習方法補足１にあるように、識別器には真のデータないし再構成されたデータと共に、音響特徴量系列f′を与えた。音響特徴量系列としては、振幅スペクトログラムf_a を用いた。

＜生成方法＞
本実験における生成方法を図１２に示す。なお、ニューラルネットワークに入力する複素スペクトログラムは前処理で求めた平均・分散を用いて正規化し、出力はスケールを元に戻す処理を適用している。また、学習時には1 フレーム目の位相を固定しているが、テスト時は位相成分全てをランダムサンプリングした。

＜ネットワーク構造＞
図１３に本実験で構築したニューラルネットワークを示す。今回は、非特許文献６を参考にニューラルネットワークを構築した。

[非特許文献６] Christian Ledig et al.: “Photo-realistic single image super-resolution using a generative adversarial network," arXiv preprint arXiv:1609.04802, 2016.

生成器に複素スペクトログラムを入力する時に、実部と虚部を分けて2 チャンネル化した。図の右上がり斜線で示される層は畳み込みニューラルネットワーク(Convolutional Neural Network; CNN) を表す。CNN の上に記述されている記号(例：2D k11 s1 c64) は、CNN のハイパーパラメータを表す。D は、畳み込み演算の際の次元を示す。二次元の畳み込み演算を行った時は2D と示してある。k は、カーネルの大きさを表す。例えば、2D かつk5 の時、カーネルのサイズは5²= 25 である。1D かつk32 の時は、カーネルのサイズは32¹ = 32 である。s は、カーネルのストライド幅を示す。s1 はストライド幅が1 を示す。c はカーネルの数を表す。c64 は畳み込み演算に64 つのカーネルを用いたことを示す。次に、ドットの層は活性化関数を示す。生成器は全てPReLU を用い、識別器は全てLeaky ReLUを用いた。また、右下がり斜線で示される層は線型結合を表し、上についている数字は出力の次元を示す。特に記号がついていない層は、前の層と同じ設定にしている。本実験で用いたニューラルネットワークの構造は、一例に過ぎない。

＜評価方法＞
本実験では、評価方法としてAB テストを用いた。反復回数を400 回としたGriffin-Lim 法と提案手法３で再構成した音声データのペアをつくり、5 人の被験者に評価させた。また、1 人の被験者につき10 つのペア音声を与え、1 ペアごとにどちらの方が品質が高いかを質問した。この時、非特許文献５のテストデータを用いたが、2-5 秒の長さのデータのみを評価対象とした。

＜評価結果＞
図１４に品質に関する主観的評価実験の結果を示す。本実験では、50 ペア(10 ペア/人× 5 人) のうち、約76% のペアについて反復回数を400 回としたGriffin-Lim 法よりも提案手法で位相を復元させた音声信号の方が、不快感がなく自然な音声に聞こえると評価された。よって、Griffin-Lim 法よりも提案手法３の方が、自然な音声が得られるように位相を復元できていることが示された。

＜実験設定(位相復元処理の速度について)＞
＜ニューラルネットワークの概要＞
ニューラルネットワークの実装に関しては、品質に関する実験と同様の設定とした。

＜評価方法＞
本実験では、提案手法３と非特許文献１で位相復元を行なった場合の、処理速度に関する比較を行う。以下の2 つの状況それぞれについて、比較をした。

・１秒に切り分けたテストデータを1000 サンプル与え、1 サンプルあたりの位相復元にかかる時間
・テストデータを切り分けずに全サンプル与え、1 サンプルあたりの位相復元にかかる時間

また、提案手法３はGPU を用いた時と、CPU のみを用いた時のそれぞれについて処理時間を計測した。実験に用いた計算機のCPU モデルは"Intel(R) Core(TM) i7-6850K CPU @ 3.60GHz"であり、コア数は12、クロック周波数は3799.968[MHz] である。また、GPU はNVIDIA（Ｒ）社製の"GeForce GTX 1080"を用いた。

＜評価結果＞
まず、1 秒の音声信号に関して位相復元にかかる時間について比較する。表1 は処理時間の平均値と標準偏差を示す。括弧の中の数字が標準偏差である。提案手法３をGPU 上で実行した時が最も処理速度が速く、既存手法をCPU 上で実行した時と比較して、約10 倍の速度で位相復元処理が行えている。

次に、テストデータを切り分けずに各手法に与え、1 サンプルごとに処理にかかる時間を計測した。

図１５に結果を示す。与える音声を1 秒に切り分けた時と同様、提案手法３をGPU 上で実行した時が最も処理速度が速かった。

以上説明したように、本発明の実施の形態の手法を用いることによって、振幅スペクトログラムから時間領域信号（または複素スペクトログラム）を再構成するプロセスをニューラルネットワーク（生成器）でモデル化することができるようになる。これにより、Griffin-Lim 法よりも高速かつ高品質に、振幅スペクトログラムから音響信号を再構成できる。また、GAN を用いた手法では、実世界信号がもつランダム性を考慮しており、自然な音響信号が得られる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施形態では、音響信号生成モデル学習装置及び音響信号生成装置を別々の装置として構成しているが、一つの装置として構成してもよい。

また、上述の音響信号生成モデル学習装置、音響信号生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０、６０入力部
２０、７０、３２０、３７０演算部
２４、３２４学習部
５０、９０出力部
７６、３７６生成部
１００、３００音響信号生成モデル学習装置
１５０、３５０音響信号生成装置
３２２、３７２入力生成部

Claims

音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
を含む音響信号生成モデル学習装置。
前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す請求項１記載の音響信号生成モデル学習装置。
音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、
教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
を含む音響信号生成モデル学習装置。
音響信号を生成するためのニューラルネットワークである生成器を用いて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部を含み、
前記生成器は、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である音響信号生成装置。
入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
音響信号を生成するためのニューラルネットワークである生成器を用いて、前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、
前記生成器は、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である音響信号生成装置。
音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、
学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する
音響信号生成モデル学習方法。
音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、
入力生成部が、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、
学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する
音響信号生成モデル学習方法。
請求項１〜請求項３の何れか１項に記載の音響信号生成モデル学習装置又は請求項４若しくは請求項５に記載の音響信号生成装置の各部としてコンピュータを機能させるためのプログラム。