JP2019139102A - 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム - Google Patents
音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2019139102A JP2019139102A JP2018023296A JP2018023296A JP2019139102A JP 2019139102 A JP2019139102 A JP 2019139102A JP 2018023296 A JP2018023296 A JP 2018023296A JP 2018023296 A JP2018023296 A JP 2018023296A JP 2019139102 A JP2019139102 A JP 2019139102A
- Authority
- JP
- Japan
- Prior art keywords
- spectrogram
- acoustic signal
- time domain
- signal
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims description 123
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 99
- 238000012545 processing Methods 0.000 description 25
- 239000013589 supplement Substances 0.000 description 21
- 238000002474 experimental method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 241000522254 Cassia Species 0.000 description 1
- 235000014489 Cinnamomum aromaticum Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
Description
Step 1:入力振幅スペクトログラムと前段で得られる位相スペクトログラムから複素スペクトログラムを構成し、逆STFT により時間領域信号を算出する。
Step 2:上記Step 1 の時間領域信号にSTFT を行い、複素スペクトログラムを再計算する。
Step 3:上記Step 2 の複素スペクトログラムの偏角成分を新しい位相スペクトログラムの推定値とし、上記Step 1 に戻る。
という反復アルゴリズムにより振幅スペクトログラムから音響信号を再構成することができる。
本発明の実施の形態の特徴は以下の通りである。
<提案手法1>
既存手法では、複素スペクトログラムが時間領域信号の冗長表現となっていることを手掛かりに振幅スペクトログラムのみから位相スペクトログラムを再構成することを可能にしている。これに対し本発明の実施に形態に係る方法では、振幅スペクトログラムから時間領域信号または複素スペクトログラムへの変換関数をニューラルネットワーク(Neural Network; NN) によりモデル化し、振幅スペクトログラムから時間領域信号または複素スペクトログラムのペアを教師データとしてニューラルネットワーク のパラメータを学習により決定する。生成処理のフローを図1に示す。学習が完了したニューラルネットワーク を用いることで、入力された振幅スペクトログラムに対して時間領域信号または複素スペクトログラムを得ることができる。
まず、学習データとして、音声や楽曲などの音響信号またはSTFT やウェーブレット変換などにより得られるその複素スペクトログラムx を用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム(複素スペクトログラムの振幅成分)fa を得る。この振幅スペクトログラムfa を入力として、x が再構成されるようニューラルネットワーク を学習する。具体的には、振幅スペクトログラムfa を入力したニューラルネットワーク の出力を~x とすると、x と~x を何らかの距離指標を小さくするようにニューラルネットワーク のパラメータを最適化する。距離指標の例としては、最小二乗誤差などが挙げられる。最小二乗誤差を距離指標として用いる場合、目的関数L2 は以下の式で表される。
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513 点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列faを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。
学習方法補足2と同様に、想定する時間周波数解析の方法によって、その対称性を利用することもできる。
<音響信号生成モデル学習装置の構成>
次に、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置、及び学習された生成器を用いて音響信号を生成する音響信号生成装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図4に示すように、第1の実施の形態に係る音響信号生成装置150は、CPUと、RAMと、後述する音響信号生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
次に、第1の実施の形態に係る音響信号生成モデル学習装置100の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置100に入力されると、音響信号生成モデル学習装置100において、学習処理ルーチンが実行される。学習処理ルーチンでは、学習部24が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器を学習する。そして、学習された生成器のパラメータが、出力部50により出力される。
次に、第1の実施の形態に係る音響信号生成装置150の作用について説明する。まず、音響信号生成モデル学習装置100によって学習された生成器のパラメータが、音響信号生成装置150に入力される。また、振幅スペクトログラムが、音響信号生成装置150に入力されると、音響信号生成装置150において、音響信号生成処理ルーチンが実行される。音響信号生成処理ルーチンでは、生成部76が、生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る音響信号生成モデル学習装置及び音響信号生成装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
上記提案手法1では、時間領域信号間または複素スペクトログラム間の要素ごとの誤差の総和を学習規準としたが、このような規準を用いた場合、ターゲットの時間領域信号または複素スペクトログラムに平均的にフィットするものを出力するよう生成器Gのパラメータが学習されることになる。このように学習された生成器Gからは、ランダムな成分が除去され、過剰に平滑化された時間領域信号または複素スペクトログラムしか生成されないようになる可能性が考えられる。実世界信号の多くは少なからずのランダム成分を含むものであり、ランダム成分が信号(または位相)再構成の過程で除去されることが再構成信号の聴感上の品質に限界を与える可能性がある。そこで、提案手法2では、生成器Gによる信号(または位相)再構成の過程で、実世界信号が本来もつ微細なランダム成分が失われないようにするため、提案手法1と異なる学習規準を用いて生成器G を学習する。具体的には、生成器Gにより生成された信号なのか実データの信号なのかを識別するニューラルネットワーク(以後、識別器D)を導入し、この識別器Dの中間層の出力値間で測る誤差を学習規準とする。提案手法2の処理のフローを図5に示す。
図6に学習方法の処理フローを示す。まず、学習データとして、音声や楽曲などの音響信号またはSTFTやウェーブレット変換などにより得られるその複素スペクトログラムをベクトル化したものxを用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム(複素スペクトログラムの振幅成分)をベクトル化したものfa を得る。この振幅スペクトログラムfa とランダム源成分z を入力として、x が再構成されるよう生成器G を学習する。ここで、ランダム源成分z はある分布(例えば、一様分布) に従って生成した乱数ベクトルである。さらに、生成器G により生成された信号なのか実データの信号なのかを2クラス識別する(例えば0 か1 かを出力する)識別器D を導入し、これも生成器G と併せて学習する。振幅スペクトログラムfa とランダム源成分z を入力した生成器G の出力を~x とすると、x と~x を入力したときの識別器D の中間層におけるそれぞれの出力値の間で測る誤差を小さくするように生成器G のパラメータを学習する。一方、識別器D は、生成器G により生成された信号なのか実データの信号なのかを正しく識別するよう何らかの識別スコアを学習規準として学習する。
を、生成器G に関しては
をそれぞれ学習規準として識別器D と生成器G を競争させながら学習する。ただし、λは第二項の重みを表す定数で、0≦λ≦1 の範囲で適当に定めるものとする。
識別器D には、式(6) のように音声特徴量系列f′も入力させても良い。音声特徴量系列f′の例としては、声帯音源情報や振幅スペクトログラムなどが挙げられる。後者の場合はf′= faとなる。
本ニューラルネットワークを学習するときに、提案手法1を用いて、生成器Gを事前学習しても良い。
複素スペクトログラムにおいて、各周波数のフレーム間の位相差が同じであれば第一フレームの位相スペクトル(初期位相)が任意であったとしても、対応する時間領域信号は人間の聴覚的には同一と知覚されることが知られている。よって、人間にとって知覚できない違いを同一と見なすことにすれば、初期位相の任意性の分、それぞれの入力振幅スペクトログラムに対し正解となる時間領域信号または複素スペクトログラムは多数存在することになる。そこで、ターゲットの教師データを、それぞれの入力振幅スペクトログラムに対し初期位相を変えた時間領域信号または複素スペクトログラムを多数用意しても良い。
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。
時間領域信号について、フーリエ変換を行って得られる複素スペクトログラムの位相成分に対して、 任意の値を足し合わせて新たな複素スペクトログラムを構築する。この新たな複素スペクトログラムを逆フーリエ変換で時間領域信号に変換しても、人間の聴覚的には元の時間領域信号と同一に知覚されることが知られている。この性質を利用して、学習方法補足3のように入力振幅スペクトログラムに対応する教師データ(時間領域信号ないし複素スペクトログラム) を多数用意しても良い。
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列faを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。
学習方法補足5と同様に、想定する時間周波数解析の方法によってはその対称性を利用することもできる。
<音響信号生成モデル学習装置の構成>
第2の実施の形態に係る音響信号生成モデル学習装置100の学習部24は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。
第2の実施の形態に係る音響信号生成装置150の生成部76は、音響信号生成モデル学習装置100により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
提案手法1、2では振幅スペクトログラムとランダム源成分を生成器の入力としていたが、提案手法3では入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする。入力の時間領域信号または複素スペクトログラムは、入力振幅スペクトログラムとランダムに生成した位相スペクトログラムから構成しても良いし、Griffin-Lim法を適用することにより得たものを用いても良い。ただし、Griffin-Lim 法を用いる場合、アルゴリズムの反復回数を増やすと生成器の入力を算出する段階で計算時間がかかってしまう。従って、その場合には例えば反復回数を5回程度とする。図7に提案手法3の処理フローを示す。
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第2の実施の形態で説明した提案手法2の学習方法、学習方法補足1〜6と同様である。
生成器に入力する位相スペクトログラムをランダム生成する際、あるフレームの位相スペクトルは固定しても良い。音響信号の位相成分について考えると、ある瞬間にどのような位相をもっているべきかは絶対的に決まるものではなく、前後の信号の位相との相対的な関係性からどのような位相をもつべきかは決まる。この性質を利用し、位相をランダムサンプリングする時に、例えば1 フレーム目の位相成分だけ固定しておくと、生成器は2 フレーム目以降の位相を再構成するにあたり1 フレーム目の位相成分との相対的な関係性を学習するだけで良いので効率的に学習が進む可能性がある。
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第2の実施の形態で説明した提案手法2の生成方法、生成方法補足1〜2と同様である。
<音響信号生成モデル学習装置の構成>
図8に示すように、第3の実施の形態に係る音響信号生成モデル学習装置100は、入力部10と、演算部320と、出力部50とを備えている。
図9に示すように、第3の実施の形態に係る音響信号生成装置350は、入力部60と、演算部370と、出力部90とを備えている。
次に、第3の実施の形態に係る音響信号生成モデル学習装置300の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置300に入力されると、音響信号生成モデル学習装置300において、図10に示す学習処理ルーチンが実行される。
次に、第3の実施の形態に係る音響信号生成装置350の作用について説明する。まず、音響信号生成モデル学習装置300によって学習された生成器のパラメータが、音響信号生成装置350に入力される。また、振幅スペクトログラムが、音響信号生成装置350に入力されると、音響信号生成装置150において、図11に示す音響信号生成処理ルーチンが実行される。
本発明の第3の実施の形態で説明した提案手法3の有効性を示すために、一実現方法を用いて、実験を行った。
<ニューラルネットワークの概要>
実験用のデータセットとして、非特許文献5を利用した。このデータセットには、ノイズを含んだ音声データとノイズを含まない音声データが存在するが、本実験ではノイズを含まない音声データのみを用いた。訓練データとテストデータは、すでにデータセット内で分割されているので、そのまま訓練用とテスト用として用いた。なお、音声信号のサンプリング周波数は16kHz とした。ただし、学習時は音声データを0.5 秒の重複を持たせつつ1 秒ごとに切り分けた。
ここでニューラルネットワークの学習に際して行った前処理について述べる。まず、音声データに対してSTFTを適用して、複素スペクトログラムに変換した。この時、フーリエ変換の窓幅は1024 点、シフト幅は512点、窓関数はブラックマン窓とした。次に、複素スペクトログラムの絶対値をとることで、振幅スペクトログラムを抽出した。また、音声データから変換された複素スペクトログラムについて、時系列方向に周波数方向の各次元の平均と分散を求めておく。この平均と分散は、学習および生成時に用いる。
次に、生成器に入力する複素スペクトログラムの構築を考える。前述のようにして得た振幅スペクトログラムに、反復回数を5回としたGriffin-Lim 法を適用し、生成器に入力する複素スペクトログラムを構築した。ただし、この複素スペクトログラムの構築は、学習と並行して行った。つまり、生成器に複素スペクトログラムを入力する時に毎回、Griffin-Lim 法により振幅スペクトログラムから複素スペクトログラムを構築した。このとき、Griffin-Lim 法で用いる位相成分の初期値は毎回一様分布からランダムサンプリングした。
としては、非特許文献3で提案されたものを用いた。また、識別器の中間層におけるターゲットの信号x と生成器が生成した信号~x の距離に関する学習規準
について、距離尺度はL2 ノルムを用いて、重み定数whはwh≠0=1、w0= 0とした。また、上記第2の実施の形態で説明した学習方法補足1にあるように、識別器には真のデータないし再構成されたデータと共に、音響特徴量系列f′を与えた。音響特徴量系列としては、振幅スペクトログラムfa を用いた。
本実験における生成方法を図12に示す。なお、ニューラルネットワークに入力する複素スペクトログラムは前処理で求めた平均・分散を用いて正規化し、出力はスケールを元に戻す処理を適用している。また、学習時には1 フレーム目の位相を固定しているが、テスト時は位相成分全てをランダムサンプリングした。
図13に本実験で構築したニューラルネットワーク を示す。今回は、非特許文献6を参考にニューラルネットワーク を構築した。
本実験では、評価方法としてAB テストを用いた。反復回数を400 回としたGriffin-Lim 法と提案手法3で再構成した音声データのペアをつくり、5 人の被験者に評価させた。また、1 人の被験者につき10 つのペア音声を与え、1 ペアごとにどちらの方が品質が高いかを質問した。この時、非特許文献5のテストデータを用いたが、2-5 秒の長さのデータのみを評価対象とした。
図14に品質に関する主観的評価実験の結果を示す。本実験では、50 ペア(10 ペア/人× 5 人) のうち、約76% のペアについて反復回数を400 回としたGriffin-Lim 法よりも提案手法で位相を復元させた音声信号の方が、不快感がなく自然な音声に聞こえると評価された。よって、Griffin-Lim 法よりも提案手法3の方が、自然な音声が得られるように位相を復元できていることが示された。
<ニューラルネットワーク の概要>
ニューラルネットワーク の実装に関しては、品質に関する実験と同様の設定とした。
本実験では、提案手法3と非特許文献1で位相復元を行なった場合の、処理速度に関する比較を行う。以下の2 つの状況それぞれについて、比較をした。
・テストデータを切り分けずに全サンプル与え、1 サンプルあたりの位相復元にかかる時間
まず、1 秒の音声信号に関して位相復元にかかる時間について比較する。表1 は処理時間の平均値と標準偏差を示す。括弧の中の数字が標準偏差である。提案手法3をGPU 上で実行した時が最も処理速度が速く、既存手法をCPU 上で実行した時と比較して、約10 倍の速度で位相復元処理が行えている。
20、70、320、370 演算部
24、324 学習部
50、90 出力部
76、376 生成部
100、300 音響信号生成モデル学習装置
150、350 音響信号生成装置
322、372 入力生成部
Claims (8)
- 音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
を含む音響信号生成モデル学習装置。 - 前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す請求項1記載の音響信号生成モデル学習装置。
- 音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、
教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
を含む音響信号生成モデル学習装置。 - 音響信号を生成するためのニューラルネットワークである生成器を用いて、 振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部を含み、
前記生成器は、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である音響信号生成装置。 - 入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
音響信号を生成するためのニューラルネットワークである生成器を用いて、 前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、
前記生成器は、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である音響信号生成装置。 - 音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、
学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する
音響信号生成モデル学習方法。 - 音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、
入力生成部が、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、
学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する
音響信号生成モデル学習方法。 - 請求項1〜請求項3の何れか1項に記載の音響信号生成モデル学習装置又は請求項4若しくは請求項5に記載の音響信号生成装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018023296A JP6872197B2 (ja) | 2018-02-13 | 2018-02-13 | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018023296A JP6872197B2 (ja) | 2018-02-13 | 2018-02-13 | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019139102A true JP2019139102A (ja) | 2019-08-22 |
JP6872197B2 JP6872197B2 (ja) | 2021-05-19 |
Family
ID=67693841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018023296A Active JP6872197B2 (ja) | 2018-02-13 | 2018-02-13 | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6872197B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020122855A (ja) * | 2019-01-30 | 2020-08-13 | 日本電信電話株式会社 | 推定装置、その方法、およびプログラム |
GB2609019A (en) * | 2021-07-16 | 2023-01-25 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609021A (en) * | 2021-07-16 | 2023-01-25 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609605A (en) * | 2021-07-16 | 2023-02-15 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
US20170330586A1 (en) * | 2016-05-10 | 2017-11-16 | Google Inc. | Frequency based audio analysis using neural networks |
-
2018
- 2018-02-13 JP JP2018023296A patent/JP6872197B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
US20170330586A1 (en) * | 2016-05-10 | 2017-11-16 | Google Inc. | Frequency based audio analysis using neural networks |
Non-Patent Citations (1)
Title |
---|
TIM SALIMANS, 外5名: "Improved Techniques for Training GANs", [ONLINE], JPN6020039810, 10 June 2016 (2016-06-10), ISSN: 0004368917 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020122855A (ja) * | 2019-01-30 | 2020-08-13 | 日本電信電話株式会社 | 推定装置、その方法、およびプログラム |
JP7120573B2 (ja) | 2019-01-30 | 2022-08-17 | 日本電信電話株式会社 | 推定装置、その方法、およびプログラム |
GB2609019A (en) * | 2021-07-16 | 2023-01-25 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609021A (en) * | 2021-07-16 | 2023-01-25 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609605A (en) * | 2021-07-16 | 2023-02-15 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609021B (en) * | 2021-07-16 | 2024-04-17 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609605B (en) * | 2021-07-16 | 2024-04-17 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
Also Published As
Publication number | Publication date |
---|---|
JP6872197B2 (ja) | 2021-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhavan et al. | Bagged support vector machines for emotion recognition from speech | |
Casanova et al. | SC-GlowTTS: An efficient zero-shot multi-speaker text-to-speech model | |
JP6872197B2 (ja) | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム | |
US10008218B2 (en) | Blind bandwidth extension using K-means and a support vector machine | |
Su et al. | Bandwidth extension is all you need | |
Jang et al. | Universal melgan: A robust neural vocoder for high-fidelity waveform generation in multiple domains | |
US20230282202A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
CN112634920A (zh) | 基于域分离的语音转换模型的训练方法及装置 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
JP7124373B2 (ja) | 学習装置、音響生成装置、方法及びプログラム | |
Natsiou et al. | Audio representations for deep learning in sound synthesis: A review | |
US20220335944A1 (en) | Voice conversion apparatus, voice conversion learning apparatus, image generation apparatus, image generation learning apparatus, voice conversion method, voice conversion learning method, image generation method, image generation learning method, and computer program | |
Besbes et al. | Multi-class SVM for stressed speech recognition | |
Mishra et al. | Variational mode decomposition based acoustic and entropy features for speech emotion recognition | |
US20220156552A1 (en) | Data conversion learning device, data conversion device, method, and program | |
Haque et al. | High-fidelity audio generation and representation learning with guided adversarial autoencoder | |
Kaur et al. | Genetic algorithm for combined speaker and speech recognition using deep neural networks | |
Choi et al. | Intelligible lip-to-speech synthesis with speech units | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
Celik | CovidCoughNet: A new method based on convolutional neural networks and deep feature extraction using pitch-shifting data augmentation for covid-19 detection from cough, breath, and voice signals | |
US20230326476A1 (en) | Bandwidth extension and speech enhancement of audio | |
Tobing et al. | Voice conversion with CycleRNN-based spectral mapping and finely tuned WaveNet vocoder | |
CN116705056A (zh) | 音频生成方法、声码器、电子设备及存储介质 | |
Choi et al. | DiffV2S: Diffusion-based video-to-speech synthesis with vision-guided speaker embedding | |
Yang et al. | A fast high-fidelity source-filter vocoder with lightweight neural modules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210406 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6872197 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |