JP2019139102A - 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム - Google Patents

音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP2019139102A
JP2019139102A JP2018023296A JP2018023296A JP2019139102A JP 2019139102 A JP2019139102 A JP 2019139102A JP 2018023296 A JP2018023296 A JP 2018023296A JP 2018023296 A JP2018023296 A JP 2018023296A JP 2019139102 A JP2019139102 A JP 2019139102A
Authority
JP
Japan
Prior art keywords
spectrogram
acoustic signal
time domain
signal
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018023296A
Other languages
English (en)
Other versions
JP6872197B2 (ja
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
卓弘 金子
Takuhiro Kaneko
卓弘 金子
田中 宏
Hiroshi Tanaka
宏 田中
伸克 北条
Nobukatsu Hojo
伸克 北条
圭佑 小山田
Keisuke Oyamada
圭佑 小山田
弘泰 安東
Hiroyasu Ando
弘泰 安東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tsukuba NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tsukuba NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018023296A priority Critical patent/JP6872197B2/ja
Publication of JP2019139102A publication Critical patent/JP2019139102A/ja
Application granted granted Critical
Publication of JP6872197B2 publication Critical patent/JP6872197B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

【課題】音響信号を高品質に生成する。【解決手段】学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。【選択図】図2

Description

本発明は、音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムに係り、音響信号を生成するための音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムに関する。
音響信号処理において、短時間Fourier 変換(Short Time Fourier Transform; STFT) などにより得られる振幅スペクトログラムに対する加工処理(強調処理を含む)が有効な場面が多い。また、近年は音声合成においても、振幅スペクトログラムの合成を経て信号生成を行うアプローチの有効性が示されている。振幅スペクトログラムは位相情報を含まないため、振幅スペクトログラムから音響信号を再構成するには位相スペクトログラムの再構成が必要となる。従来、STFT の振幅スペクトログラムを対象とした位相再構成手法として、Griffin-Lim らによる信号処理をベースとした方法(非特許文献1)(以後、Griffin-Lim 法)が広く用いられてきた。この方法は、STFT によって得られる複素スペクトログラムが、時間領域信号の冗長表現となっていることを手がかりにした方法で、振幅スペクトログラムを入力とし、
Step 0:位相スペクトログラムを初期設定する。
Step 1:入力振幅スペクトログラムと前段で得られる位相スペクトログラムから複素スペクトログラムを構成し、逆STFT により時間領域信号を算出する。
Step 2:上記Step 1 の時間領域信号にSTFT を行い、複素スペクトログラムを再計算する。
Step 3:上記Step 2 の複素スペクトログラムの偏角成分を新しい位相スペクトログラムの推定値とし、上記Step 1 に戻る。
という反復アルゴリズムにより振幅スペクトログラムから音響信号を再構成することができる。
Daniel Griffin and Jae Lim: "Signal estimation from modi_ed short-time Fourier transform," IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236-243, 1984.
この方法では少ない反復回数では必ずしも品質の高い音響信号が再構成されるとは限らないことが知られており、質の高い音響信号を得るには多数の反復回数を要する場合が多い。このため実時間処理などには不向きという難点がある。
本発明は、上記課題を解決するためになされたものであり、音響信号を高品質に生成することができる音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために第1の発明に係る音響信号生成モデル学習装置は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部を含んで構成されている。
第2の発明に係る音響信号生成モデル学習装置は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、前記教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部を含んで構成されている。
第3の発明に係る音響信号生成装置は、音響信号を生成するためのニューラルネットワークである生成器を用いて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部を含み、前記生成器は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である。
第4の発明に係る音響信号生成装置は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、音響信号を生成するためのニューラルネットワークである生成器を用いて、前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、前記生成器は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である。
第5の発明に係る音響信号生成モデル学習方法は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。
第6の発明に係る音響信号生成モデル学習方法は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、入力生成部が、前記教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。
第7の発明に係るプログラムは、上記の音響信号生成モデル学習装置または音響信号生成装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の音響信号生成モデル学習装置、方法、及びプログラムによれば、音響信号を高品質に生成する生成器を学習することができる、という効果が得られる。
また、本発明の音響信号生成装置及びプログラムによれば、音響信号を高品質に生成することができる、という効果が得られる。
第1の実施の形態における位相再構成フローを示す図である。 第1の実施の形態における学習方法を示す図である。 第1の実施の形態に係る音響信号生成モデル学習装置の構成を示す概略図である。 第1の実施の形態に係る音響信号生成装置の構成を示す概略図である。 第2の実施の形態における位相再構成フローを示す図である。 第2の実施の形態における学習方法を示す図である。 第3の実施の形態における位相再構成フローを示す図である。 第3の実施の形態に係る音響信号生成モデル学習装置の構成を示す概略図である。 第3の実施の形態に係る音響信号生成装置の構成を示す概略図である。 第3の実施の形態に係る音響信号生成モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。 第3の実施の形態に係る音響信号生成装置における音響信号生成処理ルーチンの内容を示すフローチャートである。 本実験における生成フローを示す図である。 本実験におけるニューラルネットワークの構成を示す図である。 第3の実施の形態の手法及び従来手法の実験結果を示す図である。 第3の実施の形態の手法及び従来手法の実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、振幅スペクトログラムから音響信号を生成することを目的とした音響信号生成技術である。
<本発明の実施の形態の概要>
本発明の実施の形態の特徴は以下の通りである。
時間領域信号(または複素スペクトログラム)とその振幅スペクトログラムのペアを教師データとして、振幅スペクトログラムから時間領域信号(または複素スペクトログラム)を再構成するプロセスをニューラルネットワーク(生成器)でモデル化し、信号再構成(または位相再構成)プロセスそのものを学習により決定する。
教師信号(または教師複素スペクトログラム)と生成器により生成された信号(または複素スペクトログラム)の誤差を学習規準とする。
誤差の測り方の例は下記のとおりである。
(手法1) 教師信号(または教師複素スペクトログラム)と生成器により生成された信号(または複素スペクトログラム)の要素ごとの誤差の総和を、学習規準とする。
(手法2) 生成器により生成された信号か実データの信号かを識別する識別器の中間層の出力値間で測る誤差を学習規準とする。
期待される効果は以下のとおりである。
Griffin-Lim 法より高速に音響信号を生成できる。また、Griffin-Lim 法より高品質な音響信号を生成できる。
[第1の実施の形態]
<提案手法1>
既存手法では、複素スペクトログラムが時間領域信号の冗長表現となっていることを手掛かりに振幅スペクトログラムのみから位相スペクトログラムを再構成することを可能にしている。これに対し本発明の実施に形態に係る方法では、振幅スペクトログラムから時間領域信号または複素スペクトログラムへの変換関数をニューラルネットワーク(Neural Network; NN) によりモデル化し、振幅スペクトログラムから時間領域信号または複素スペクトログラムのペアを教師データとしてニューラルネットワーク のパラメータを学習により決定する。生成処理のフローを図1に示す。学習が完了したニューラルネットワーク を用いることで、入力された振幅スペクトログラムに対して時間領域信号または複素スペクトログラムを得ることができる。
<学習方法1>
まず、学習データとして、音声や楽曲などの音響信号またはSTFT やウェーブレット変換などにより得られるその複素スペクトログラムx を用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム(複素スペクトログラムの振幅成分)fa を得る。この振幅スペクトログラムfa を入力として、x が再構成されるようニューラルネットワーク を学習する。具体的には、振幅スペクトログラムfa を入力したニューラルネットワーク の出力を~x とすると、x と~x を何らかの距離指標を小さくするようにニューラルネットワーク のパラメータを最適化する。距離指標の例としては、最小二乗誤差などが挙げられる。最小二乗誤差を距離指標として用いる場合、目的関数L2 は以下の式で表される。
図2に、学習処理フローを示す。
<学習方法補足1>
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。
<学習方法補足2>
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513 点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。
<生成方法>
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列faを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。
<生成方法補足1>
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。
<生成方法補足2>
学習方法補足2と同様に、想定する時間周波数解析の方法によって、その対称性を利用することもできる。
<システム構成>
<音響信号生成モデル学習装置の構成>
次に、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置、及び学習された生成器を用いて音響信号を生成する音響信号生成装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図3に示すように、第1の実施の形態に係る音響信号生成モデル学習装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図3に示すように、音響信号生成モデル学習装置100は、入力部10と、演算部20と、出力部50とを備えている。
入力部10は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアを受け付ける。
演算部20は、学習部24を備えている。
学習部24は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。
学習規準は、例えば、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの要素毎の誤差の総和を表す。
学習部24により学習された生成器のパラメータが、出力部50により出力される。
<音響信号生成装置の構成>
図4に示すように、第1の実施の形態に係る音響信号生成装置150は、CPUと、RAMと、後述する音響信号生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図4に示すように、音響信号生成装置150は、入力部60と、演算部70と、出力部90とを備えている。
入力部60は、振幅スペクトログラムを受け付ける。
演算部70は、生成部76を備えている。
生成部76は、音響信号生成モデル学習装置100により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
<音響信号生成モデル学習装置の作用>
次に、第1の実施の形態に係る音響信号生成モデル学習装置100の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置100に入力されると、音響信号生成モデル学習装置100において、学習処理ルーチンが実行される。学習処理ルーチンでは、学習部24が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器を学習する。そして、学習された生成器のパラメータが、出力部50により出力される。
<音響信号生成装置の作用>
次に、第1の実施の形態に係る音響信号生成装置150の作用について説明する。まず、音響信号生成モデル学習装置100によって学習された生成器のパラメータが、音響信号生成装置150に入力される。また、振幅スペクトログラムが、音響信号生成装置150に入力されると、音響信号生成装置150において、音響信号生成処理ルーチンが実行される。音響信号生成処理ルーチンでは、生成部76が、生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
以上説明したように、第1の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。
また、第1の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を用いることにより、音響信号を高品質に生成することができる。
[第2の実施の形態]
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る音響信号生成モデル学習装置及び音響信号生成装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
<提案手法2>
上記提案手法1では、時間領域信号間または複素スペクトログラム間の要素ごとの誤差の総和を学習規準としたが、このような規準を用いた場合、ターゲットの時間領域信号または複素スペクトログラムに平均的にフィットするものを出力するよう生成器Gのパラメータが学習されることになる。このように学習された生成器Gからは、ランダムな成分が除去され、過剰に平滑化された時間領域信号または複素スペクトログラムしか生成されないようになる可能性が考えられる。実世界信号の多くは少なからずのランダム成分を含むものであり、ランダム成分が信号(または位相)再構成の過程で除去されることが再構成信号の聴感上の品質に限界を与える可能性がある。そこで、提案手法2では、生成器Gによる信号(または位相)再構成の過程で、実世界信号が本来もつ微細なランダム成分が失われないようにするため、提案手法1と異なる学習規準を用いて生成器G を学習する。具体的には、生成器Gにより生成された信号なのか実データの信号なのかを識別するニューラルネットワーク(以後、識別器D)を導入し、この識別器Dの中間層の出力値間で測る誤差を学習規準とする。提案手法2の処理のフローを図5に示す。
<学習方法>
図6に学習方法の処理フローを示す。まず、学習データとして、音声や楽曲などの音響信号またはSTFTやウェーブレット変換などにより得られるその複素スペクトログラムをベクトル化したものxを用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム(複素スペクトログラムの振幅成分)をベクトル化したものfa を得る。この振幅スペクトログラムfa とランダム源成分z を入力として、x が再構成されるよう生成器G を学習する。ここで、ランダム源成分z はある分布(例えば、一様分布) に従って生成した乱数ベクトルである。さらに、生成器G により生成された信号なのか実データの信号なのかを2クラス識別する(例えば0 か1 かを出力する)識別器D を導入し、これも生成器G と併せて学習する。振幅スペクトログラムfa とランダム源成分z を入力した生成器G の出力を~x とすると、x と~x を入力したときの識別器D の中間層におけるそれぞれの出力値の間で測る誤差を小さくするように生成器G のパラメータを学習する。一方、識別器D は、生成器G により生成された信号なのか実データの信号なのかを正しく識別するよう何らかの識別スコアを学習規準として学習する。
まず、式(2) のような規準を考える。式(2) において、G は生成器(Generator) を表し、D は識別器(Discriminator) を表す。この規準は、識別器D が入力の時間領域信号または複素スペクトログラムが実データなのか生成器G から生成されたものなのかを正しく識別できているかを表すクロスエントロピーと呼ぶ識別スコアを表す。よって、この規準をD に関して大きくすることは、識別器D が、入力の時間領域信号または複素スペクトログラムが実データなのか生成器G から生成されたものなのかを正しく識別できるようにすることを意味する。
一方、生成器G は、再構成した時間領域信号または複素スペクトログラムが、識別器D に(誤って)実データと識別されるように学習したい。これは上記規準をG に関して小さくすることにより達成される。加えて、生成器の出力~x がターゲットの信号x とできるだけ近くなるようにしたい。学習がある程度進んだ識別器D の中間層は、~x とx をできるだけ識別しやすいような(引き離すような)特徴量空間となっているはずのため、そのような空間で~x とx をできるだけ近づけることで、x との違いをより見分けられないような~x を得られるようになることが期待される。そこで、式(2) に加えて、~x とx の識別器D の中間層におけるそれぞれの出力値の誤差
を生成器G の学習規準として考える。ただし、Dh(・) は識別器D の第h層の出力値を表す。よって、D0(x) = x である。C(α,β)はαとβのベクトル間距離を表す関数であり、例えばp-ノルム
などが挙げられる。また、wh は非負の重み定数である。よって、第h層の出力値のみの距離を考慮する場合はwh′= 0 (h′≠h)とすれば良い。
以上より、識別器D に関しては

を、生成器G に関しては

をそれぞれ学習規準として識別器D と生成器G を競争させながら学習する。ただし、λは第二項の重みを表す定数で、0≦λ≦1 の範囲で適当に定めるものとする。
このように識別器と生成器を競争させることにより生成器を学習する方法論は、敵対的生成器(Generative Adversarial Network; GAN) と呼ばれる。本実施の形態はこの方法論を、以上のように信号(または位相)再構成問題に合った形に導入した点が新しい。式(2) に示した規準は、非特許文献2で提案されたものである。近年、GAN に関する研究は多岐に渡っており、非特許文献3や非特許文献4などを始めとして様々な改良が行われている。
[非特許文献2] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozairy, Aaron Courville and Yoshua Bengio: “Generative Adversarial Nets," arXiv:1406.2661, 2014.
[非特許文献3] MAO, Xudong, et al.: “Least squares generative adversarial networks," arXiv preprint ArXiv:1611.04076, 2016.
[非特許文献4] Martin Arjovsky, Soumith Chintala, and Leon Bottou: “Wasserstein GAN," arXiv preprint arXiv:1701.07875, 2017.
本学習方法において設計すべき最適化関数として、式(2) に限る必要性はなく、非特許文献3や非特許文献4などで提案されているものを用いても良い。
<学習方法補足1>
識別器D には、式(6) のように音声特徴量系列f′も入力させても良い。音声特徴量系列f′の例としては、声帯音源情報や振幅スペクトログラムなどが挙げられる。後者の場合はf′= faとなる。
<学習方法補足2>
本ニューラルネットワークを学習するときに、提案手法1を用いて、生成器Gを事前学習しても良い。
<学習方法補足3>
複素スペクトログラムにおいて、各周波数のフレーム間の位相差が同じであれば第一フレームの位相スペクトル(初期位相)が任意であったとしても、対応する時間領域信号は人間の聴覚的には同一と知覚されることが知られている。よって、人間にとって知覚できない違いを同一と見なすことにすれば、初期位相の任意性の分、それぞれの入力振幅スペクトログラムに対し正解となる時間領域信号または複素スペクトログラムは多数存在することになる。そこで、ターゲットの教師データを、それぞれの入力振幅スペクトログラムに対し初期位相を変えた時間領域信号または複素スペクトログラムを多数用意しても良い。
<学習方法補足4>
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。
<学習方法補足5>
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。
<学習方法補足6>
時間領域信号について、フーリエ変換を行って得られる複素スペクトログラムの位相成分に対して、 任意の値を足し合わせて新たな複素スペクトログラムを構築する。この新たな複素スペクトログラムを逆フーリエ変換で時間領域信号に変換しても、人間の聴覚的には元の時間領域信号と同一に知覚されることが知られている。この性質を利用して、学習方法補足3のように入力振幅スペクトログラムに対応する教師データ(時間領域信号ないし複素スペクトログラム) を多数用意しても良い。
<生成方法>
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列faを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。
<生成方法補足1>
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。
<生成方法補足2>
学習方法補足5と同様に、想定する時間周波数解析の方法によってはその対称性を利用することもできる。
<システム構成>
<音響信号生成モデル学習装置の構成>
第2の実施の形態に係る音響信号生成モデル学習装置100の学習部24は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。
具体的には、学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す。
学習部24により学習された生成器のパラメータが、出力部50により出力される。
<音響信号生成装置の構成>
第2の実施の形態に係る音響信号生成装置150の生成部76は、音響信号生成モデル学習装置100により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
なお、第2の実施の形態に係る音響信号生成モデル学習装置100及び音響信号生成装置150の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器、及び実データであるか否かを識別するためのニューラルネットワークである識別器を、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。
また、第2の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を用いることにより、音響信号を高品質に生成することができる。
[第3の実施の形態]
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
<提案手法3>
提案手法1、2では振幅スペクトログラムとランダム源成分を生成器の入力としていたが、提案手法3では入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする。入力の時間領域信号または複素スペクトログラムは、入力振幅スペクトログラムとランダムに生成した位相スペクトログラムから構成しても良いし、Griffin-Lim法を適用することにより得たものを用いても良い。ただし、Griffin-Lim 法を用いる場合、アルゴリズムの反復回数を増やすと生成器の入力を算出する段階で計算時間がかかってしまう。従って、その場合には例えば反復回数を5回程度とする。図7に提案手法3の処理フローを示す。
<学習方法>
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第2の実施の形態で説明した提案手法2の学習方法、学習方法補足1〜6と同様である。
<学習方法補足>
生成器に入力する位相スペクトログラムをランダム生成する際、あるフレームの位相スペクトルは固定しても良い。音響信号の位相成分について考えると、ある瞬間にどのような位相をもっているべきかは絶対的に決まるものではなく、前後の信号の位相との相対的な関係性からどのような位相をもつべきかは決まる。この性質を利用し、位相をランダムサンプリングする時に、例えば1 フレーム目の位相成分だけ固定しておくと、生成器は2 フレーム目以降の位相を再構成するにあたり1 フレーム目の位相成分との相対的な関係性を学習するだけで良いので効率的に学習が進む可能性がある。
<生成方法>
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第2の実施の形態で説明した提案手法2の生成方法、生成方法補足1〜2と同様である。
<システム構成>
<音響信号生成モデル学習装置の構成>
図8に示すように、第3の実施の形態に係る音響信号生成モデル学習装置100は、入力部10と、演算部320と、出力部50とを備えている。
入力部10は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアを受け付ける。
演算部320は、入力生成部322と、学習部324とを備えている。
入力生成部322は、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。例えば、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて、Griffin-Lim 法により、時間領域信号または複素スペクトログラムを構成する。
学習部324は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。
学習規準は、例えば、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、入力生成部322により教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す。
学習部24により学習された生成器のパラメータが、出力部50により出力される。
<音響信号生成装置の構成>
図9に示すように、第3の実施の形態に係る音響信号生成装置350は、入力部60と、演算部370と、出力部90とを備えている。
入力部60は、振幅スペクトログラムを受け付ける。
演算部370は、入力生成部372及び生成部376を備えている。
入力生成部372は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
生成部376は、音響信号生成モデル学習装置300により学習された生成器を用いて、入力生成部372により構成された時間領域信号又は複素スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
<音響信号生成モデル学習装置の作用>
次に、第3の実施の形態に係る音響信号生成モデル学習装置300の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置300に入力されると、音響信号生成モデル学習装置300において、図10に示す学習処理ルーチンが実行される。
まず、ステップS300において、入力生成部322は、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
そして、ステップS302において、学習部324は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器と識別器とを、学習規準を小さくするように学習する。そして、学習された生成器のパラメータが、出力部50により出力される。
<音響信号生成装置の作用>
次に、第3の実施の形態に係る音響信号生成装置350の作用について説明する。まず、音響信号生成モデル学習装置300によって学習された生成器のパラメータが、音響信号生成装置350に入力される。また、振幅スペクトログラムが、音響信号生成装置350に入力されると、音響信号生成装置150において、図11に示す音響信号生成処理ルーチンが実行される。
まず、ステップS310において、入力生成部372は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
ステップS312では、生成部376が、音響信号生成モデル学習装置300により学習された生成器を用いて、上記ステップS310で構成された時間領域信号又は複素スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
以上説明したように、第3の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器、及び実データであるか否かを識別するためのニューラルネットワークである識別器を、教師音響信号の時間領域信号又は複素スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。
また、第3の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように予め学習された生成器を用いることにより、音響信号を高品質に生成することができる。
<実験>
本発明の第3の実施の形態で説明した提案手法3の有効性を示すために、一実現方法を用いて、実験を行った。
<実験設定(品質に関して)>
<ニューラルネットワークの概要>
実験用のデータセットとして、非特許文献5を利用した。このデータセットには、ノイズを含んだ音声データとノイズを含まない音声データが存在するが、本実験ではノイズを含まない音声データのみを用いた。訓練データとテストデータは、すでにデータセット内で分割されているので、そのまま訓練用とテスト用として用いた。なお、音声信号のサンプリング周波数は16kHz とした。ただし、学習時は音声データを0.5 秒の重複を持たせつつ1 秒ごとに切り分けた。
[非特許文献5] Cassia Valentini-Botinhao: “Noisy speech database for training speech enhancement algorithms and TTS models," [dataset]. University of Edinburgh. School of Informatics. Centre for Speech Technology Research (CSTR). http://dx.doi.org/10.7488/ds/1356.
提案手法3では、生成器(図7参照)の入力として、振幅スペクトログラムfa と乱数で与えられる位相成分z を用いて構成した複素スペクトログラムないし音響信号を用いている。本実験では、これらのうち複素スペクトログラムx′を用いた。生成器の出力は複素スペクトログラム^x とした。ただし、上記第2の実施の形態の学習方法補足5で述べた複素スペクトログラムの対称性を利用した。また、識別器(図6参照) の入力としては、音響信号xを用いた。ここで、識別器は音響信号を入力とし、生成器は複素スペクトログラムを出力としているため、生成器が出力する複素スペクトログラム^x に対して逆STFT を適用し音響信号~x に変換してから識別器に与えた。つまり、識別器は音響信号としての本物らしさを基準に、真のデータx と生成器の出力を逆STFT で変換した~x を分類すること目的とし、生成器は音響信号に変換した時に本物らしい複素スペクトログラムを生成することを目的とする。
<データの前処理>
ここでニューラルネットワークの学習に際して行った前処理について述べる。まず、音声データに対してSTFTを適用して、複素スペクトログラムに変換した。この時、フーリエ変換の窓幅は1024 点、シフト幅は512点、窓関数はブラックマン窓とした。次に、複素スペクトログラムの絶対値をとることで、振幅スペクトログラムを抽出した。また、音声データから変換された複素スペクトログラムについて、時系列方向に周波数方向の各次元の平均と分散を求めておく。この平均と分散は、学習および生成時に用いる。
<学習方法>
次に、生成器に入力する複素スペクトログラムの構築を考える。前述のようにして得た振幅スペクトログラムに、反復回数を5回としたGriffin-Lim 法を適用し、生成器に入力する複素スペクトログラムを構築した。ただし、この複素スペクトログラムの構築は、学習と並行して行った。つまり、生成器に複素スペクトログラムを入力する時に毎回、Griffin-Lim 法により振幅スペクトログラムから複素スペクトログラムを構築した。このとき、Griffin-Lim 法で用いる位相成分の初期値は毎回一様分布からランダムサンプリングした。
また、構築した複素スペクトログラムを生成器に入力する時、データの前処理で求めた平均と分散を用いて、複素スペクトログラムの正規化を行う。ここで適用する正規化とは、データの平均が0、分散が1 になるような手法をさす。生成器に入力する複素スペクトログラムを構築する時に位相成分をランダムサンプリングするが、上記第3の実施の形態で説明した学習方法補足を適用して、1フレーム目の位相は固定した。
なお、1 フレーム目の位相を固定するために、真の音声信号から得られる位相を用いた。
生成器の出力について、上記第2の実施の形態で説明した学習方法補足4を適用した。つまり、生成器が出力した複素スペクトログラムの振幅成分を、生成器に入力した複素スペクトログラムの振幅成分に置き換える処理を適用した。なお、生成器へ入力された複素スペクトログラムは正規化が適用されているので、生成器が出力する複素スペクトログラムに対して、スケールを元に戻す処理を適用した。
識別器に入力する真の音声信号については、上記第2の実施の形態で説明した学習方法補足6を適用して位相の異なる音声信号を多数構築し、与えた。また、識別器に音声信号を与えるとき、16384 で割ったものを与えた。
生成器と識別器を競争させながら最適化を行う目的関数

としては、非特許文献3で提案されたものを用いた。また、識別器の中間層におけるターゲットの信号x と生成器が生成した信号~x の距離に関する学習規準

について、距離尺度はL2 ノルムを用いて、重み定数whはwh≠0=1、w0= 0とした。また、上記第2の実施の形態で説明した学習方法補足1にあるように、識別器には真のデータないし再構成されたデータと共に、音響特徴量系列f′を与えた。音響特徴量系列としては、振幅スペクトログラムfa を用いた。
<生成方法>
本実験における生成方法を図12に示す。なお、ニューラルネットワークに入力する複素スペクトログラムは前処理で求めた平均・分散を用いて正規化し、出力はスケールを元に戻す処理を適用している。また、学習時には1 フレーム目の位相を固定しているが、テスト時は位相成分全てをランダムサンプリングした。
<ネットワーク構造>
図13に本実験で構築したニューラルネットワーク を示す。今回は、非特許文献6を参考にニューラルネットワーク を構築した。
[非特許文献6] Christian Ledig et al.: “Photo-realistic single image super-resolution using a generative adversarial network," arXiv preprint arXiv:1609.04802, 2016.
生成器に複素スペクトログラムを入力する時に、実部と虚部を分けて2 チャンネル化した。図の右上がり斜線で示される層は畳み込みニューラルネットワーク(Convolutional Neural Network; CNN) を表す。CNN の上に記述されている記号(例:2D k11 s1 c64) は、CNN のハイパーパラメータを表す。D は、畳み込み演算の際の次元を示す。二次元の畳み込み演算を行った時は2D と示してある。k は、カーネルの大きさを表す。例えば、2D かつk5 の時、カーネルのサイズは52= 25 である。1D かつk32 の時は、カーネルのサイズは321 = 32 である。s は、カーネルのストライド幅を示す。s1 はストライド幅が1 を示す。c はカーネルの数を表す。c64 は畳み込み演算に64 つのカーネルを用いたことを示す。次に、ドットの層は活性化関数を示す。生成器は全てPReLU を用い、識別器は全てLeaky ReLUを用いた。また、右下がり斜線で示される層は線型結合を表し、上についている数字は出力の次元を示す。特に記号がついていない層は、前の層と同じ設定にしている。本実験で用いたニューラルネットワーク の構造は、一例に過ぎない。
<評価方法>
本実験では、評価方法としてAB テストを用いた。反復回数を400 回としたGriffin-Lim 法と提案手法3で再構成した音声データのペアをつくり、5 人の被験者に評価させた。また、1 人の被験者につき10 つのペア音声を与え、1 ペアごとにどちらの方が品質が高いかを質問した。この時、非特許文献5のテストデータを用いたが、2-5 秒の長さのデータのみを評価対象とした。
<評価結果>
図14に品質に関する主観的評価実験の結果を示す。本実験では、50 ペア(10 ペア/人× 5 人) のうち、約76% のペアについて反復回数を400 回としたGriffin-Lim 法よりも提案手法で位相を復元させた音声信号の方が、不快感がなく自然な音声に聞こえると評価された。よって、Griffin-Lim 法よりも提案手法3の方が、自然な音声が得られるように位相を復元できていることが示された。
<実験設定(位相復元処理の速度について)>
<ニューラルネットワーク の概要>
ニューラルネットワーク の実装に関しては、品質に関する実験と同様の設定とした。
<評価方法>
本実験では、提案手法3と非特許文献1で位相復元を行なった場合の、処理速度に関する比較を行う。以下の2 つの状況それぞれについて、比較をした。
・1秒に切り分けたテストデータを1000 サンプル与え、1 サンプルあたりの位相復元にかかる時間
・テストデータを切り分けずに全サンプル与え、1 サンプルあたりの位相復元にかかる時間
また、提案手法3はGPU を用いた時と、CPU のみを用いた時のそれぞれについて処理時間を計測した。実験に用いた計算機のCPU モデルは"Intel(R) Core(TM) i7-6850K CPU @ 3.60GHz"であり、コア数は12、クロック周波数は3799.968[MHz] である。また、GPU はNVIDIA(R)社製の"GeForce GTX 1080"を用いた。
<評価結果>
まず、1 秒の音声信号に関して位相復元にかかる時間について比較する。表1 は処理時間の平均値と標準偏差を示す。括弧の中の数字が標準偏差である。提案手法3をGPU 上で実行した時が最も処理速度が速く、既存手法をCPU 上で実行した時と比較して、約10 倍の速度で位相復元処理が行えている。
次に、テストデータを切り分けずに各手法に与え、1 サンプルごとに処理にかかる時間を計測した。
図15に結果を示す。与える音声を1 秒に切り分けた時と同様、提案手法3をGPU 上で実行した時が最も処理速度が速かった。
以上説明したように、本発明の実施の形態の手法を用いることによって、振幅スペクトログラムから時間領域信号(または複素スペクトログラム)を再構成するプロセスをニューラルネットワーク(生成器)でモデル化することができるようになる。これにより、Griffin-Lim 法よりも高速かつ高品質に、振幅スペクトログラムから音響信号を再構成できる。また、GAN を用いた手法では、実世界信号がもつランダム性を考慮しており、自然な音響信号が得られる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施形態では、音響信号生成モデル学習装置及び音響信号生成装置を別々の装置として構成しているが、一つの装置として構成してもよい。
また、上述の音響信号生成モデル学習装置、音響信号生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10、60 入力部
20、70、320、370 演算部
24、324 学習部
50、90 出力部
76、376 生成部
100、300 音響信号生成モデル学習装置
150、350 音響信号生成装置
322、372 入力生成部

Claims (8)

  1. 音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、
    教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
    振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
    前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
    を含む音響信号生成モデル学習装置。
  2. 前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す請求項1記載の音響信号生成モデル学習装置。
  3. 音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、
    教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
    教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
    時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
    前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
    を含む音響信号生成モデル学習装置。
  4. 音響信号を生成するためのニューラルネットワークである生成器を用いて、 振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部を含み、
    前記生成器は、
    教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
    前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、
    振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である音響信号生成装置。
  5. 入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
    音響信号を生成するためのニューラルネットワークである生成器を用いて、 前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、
    前記生成器は、
    教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
    前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、
    時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である音響信号生成装置。
  6. 音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、
    学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
    振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
    前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する
    音響信号生成モデル学習方法。
  7. 音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、
    入力生成部が、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、
    学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
    時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
    前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する
    音響信号生成モデル学習方法。
  8. 請求項1〜請求項3の何れか1項に記載の音響信号生成モデル学習装置又は請求項4若しくは請求項5に記載の音響信号生成装置の各部としてコンピュータを機能させるためのプログラム。
JP2018023296A 2018-02-13 2018-02-13 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム Active JP6872197B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018023296A JP6872197B2 (ja) 2018-02-13 2018-02-13 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018023296A JP6872197B2 (ja) 2018-02-13 2018-02-13 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019139102A true JP2019139102A (ja) 2019-08-22
JP6872197B2 JP6872197B2 (ja) 2021-05-19

Family

ID=67693841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018023296A Active JP6872197B2 (ja) 2018-02-13 2018-02-13 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6872197B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020122855A (ja) * 2019-01-30 2020-08-13 日本電信電話株式会社 推定装置、その方法、およびプログラム
GB2609019A (en) * 2021-07-16 2023-01-25 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609021A (en) * 2021-07-16 2023-01-25 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609605A (en) * 2021-07-16 2023-02-15 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
JP2017520803A (ja) * 2014-10-21 2017-07-27 三菱電機株式会社 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法
US20170330586A1 (en) * 2016-05-10 2017-11-16 Google Inc. Frequency based audio analysis using neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
JP2017520803A (ja) * 2014-10-21 2017-07-27 三菱電機株式会社 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法
US20170330586A1 (en) * 2016-05-10 2017-11-16 Google Inc. Frequency based audio analysis using neural networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIM SALIMANS, 外5名: "Improved Techniques for Training GANs", [ONLINE], JPN6020039810, 10 June 2016 (2016-06-10), ISSN: 0004368917 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020122855A (ja) * 2019-01-30 2020-08-13 日本電信電話株式会社 推定装置、その方法、およびプログラム
JP7120573B2 (ja) 2019-01-30 2022-08-17 日本電信電話株式会社 推定装置、その方法、およびプログラム
GB2609019A (en) * 2021-07-16 2023-01-25 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609021A (en) * 2021-07-16 2023-01-25 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609605A (en) * 2021-07-16 2023-02-15 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609021B (en) * 2021-07-16 2024-04-17 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609605B (en) * 2021-07-16 2024-04-17 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems

Also Published As

Publication number Publication date
JP6872197B2 (ja) 2021-05-19

Similar Documents

Publication Publication Date Title
Bhavan et al. Bagged support vector machines for emotion recognition from speech
Casanova et al. SC-GlowTTS: An efficient zero-shot multi-speaker text-to-speech model
JP6872197B2 (ja) 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
Su et al. Bandwidth extension is all you need
Jang et al. Universal melgan: A robust neural vocoder for high-fidelity waveform generation in multiple domains
US20230282202A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
CN112634920A (zh) 基于域分离的语音转换模型的训练方法及装置
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
Natsiou et al. Audio representations for deep learning in sound synthesis: A review
US20220335944A1 (en) Voice conversion apparatus, voice conversion learning apparatus, image generation apparatus, image generation learning apparatus, voice conversion method, voice conversion learning method, image generation method, image generation learning method, and computer program
Besbes et al. Multi-class SVM for stressed speech recognition
Mishra et al. Variational mode decomposition based acoustic and entropy features for speech emotion recognition
US20220156552A1 (en) Data conversion learning device, data conversion device, method, and program
Haque et al. High-fidelity audio generation and representation learning with guided adversarial autoencoder
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
Choi et al. Intelligible lip-to-speech synthesis with speech units
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
Celik CovidCoughNet: A new method based on convolutional neural networks and deep feature extraction using pitch-shifting data augmentation for covid-19 detection from cough, breath, and voice signals
US20230326476A1 (en) Bandwidth extension and speech enhancement of audio
Tobing et al. Voice conversion with CycleRNN-based spectral mapping and finely tuned WaveNet vocoder
CN116705056A (zh) 音频生成方法、声码器、电子设备及存储介质
Choi et al. DiffV2S: Diffusion-based video-to-speech synthesis with vision-guided speaker embedding
Yang et al. A fast high-fidelity source-filter vocoder with lightweight neural modules

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210409

R150 Certificate of patent or registration of utility model

Ref document number: 6872197

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350