JP7124373B2 - LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM - Google Patents
LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM Download PDFInfo
- Publication number
- JP7124373B2 JP7124373B2 JP2018056905A JP2018056905A JP7124373B2 JP 7124373 B2 JP7124373 B2 JP 7124373B2 JP 2018056905 A JP2018056905 A JP 2018056905A JP 2018056905 A JP2018056905 A JP 2018056905A JP 7124373 B2 JP7124373 B2 JP 7124373B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform data
- group
- neural network
- generator
- frequency information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本開示は、音響処理技術に関する。 The present disclosure relates to sound processing technology.
従来の音声合成では、波形接続型と隠れマルコフモデル型が主流であった。さらに、深層学習の発展によりニューラルネットワーク型の音声合成手法が提案されるようになった。ニューラルネットワーク型の代表例であるWaveNetは、Text-To-Speechに利用され、波形接続型や隠れマルコフ型と比較して、自然で高品質な音声合成を実現できる。 In the conventional speech synthesis, waveform concatenation type and hidden Markov model type are mainstream. Furthermore, with the development of deep learning, a neural network type speech synthesis method has been proposed. WaveNet, which is a representative example of the neural network type, is used for Text-To-Speech, and can realize natural and high-quality speech synthesis compared to the waveform connection type and hidden Markov type.
一方、WaveNetは損失関数を用いた効率的な学習が困難であるなどの問題がある。 On the other hand, WaveNet has problems such as difficulty in efficient learning using a loss function.
テキストから人の音声の波形データを合成する場合に限らず、様々なソース情報から特定のグループに属する音の波形データ(音響データ)を生成する場合にも同様の問題がある。 The same problem occurs not only when synthesizing human speech waveform data from text, but also when generating sound waveform data (acoustic data) belonging to a specific group from various source information.
本開示の課題は、特定のグループに属する音の波形データ(音響データ)を効果的に生成するための音響処理技術を提供することである。 An object of the present disclosure is to provide an acoustic processing technique for effectively generating waveform data (acoustic data) of sounds belonging to a specific group.
上記課題を解決するため、本開示の一態様は、ソース情報を第1のニューラルネットワークに入力し、前記第1のニューラルネットワークからの出力として、前記第1のニューラルネットワークに入力したソース情報に対応する波形データを生成する生成器と、前記生成器の前記第1のニューラルネットワークから出力された波形データから、微分可能な数値情報としての第1の周波数情報を抽出する抽出部と、前記第1の周波数情報を第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第1の周波数情報が第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第1の判別値を出力する判別器と、前記判別器が出力する前記第1の判別値を入力とする損失関数に基づいて、前記判別器が出力する前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習させる制御部と、を有する音響生成装置に関する。 In order to solve the above problems, one aspect of the present disclosure is to input source information to a first neural network, and output from the first neural network corresponds to the source information input to the first neural network. an extraction unit for extracting first frequency information as differentiable numerical information from the waveform data output from the first neural network of the generator; and the first is input to a second neural network, and as an output from the second neural network, the probability that the first frequency information is frequency information extracted from the waveform data belonging to the first group Based on a discriminator that outputs a first discriminant value as differentiable numerical information indicating the degree, and a loss function that inputs the first discriminant value output by the discriminator, the discriminator outputs and a control unit that trains the first neural network so that the first discrimination value indicates a higher likelihood .
本開示によると、特定のグループに属する音の波形データ(音響データ)を効果的に生成するための音響処理技術を提供することができる。 According to the present disclosure, it is possible to provide an acoustic processing technique for effectively generating waveform data (acoustic data) of sounds belonging to a specific group.
以下の実施例では、ソース情報から所与のデータセットの波形に尤もらしい波形を生成するための音響生成モデルを学習し、当該学習済み音響生成モデルを用いて波形データを生成する音響処理技術が開示される。 In the following examples, the sound processing technology learns a sound generation model for generating a plausible waveform for the waveform of a given data set from source information, and generates waveform data using the trained sound generation model. disclosed.
本開示による学習装置は、ソース情報から波形データを生成する生成器とスペクトログラムから出力値を生成する判別器とを含む学習対象のモデルを有し、ソース情報を生成器に入力し、生成器から波形データを取得し、取得した波形データと学習用の波形データとから音響画像変換方式(定Q変換、フーリエ変換など)に従って変換された各スペクトログラムを判別器に入力し、判別器の出力値を入力とする損失関数に基づき生成器及び判別器を学習する。また、本開示による波形生成装置及び音響生成装置は、学習済み生成器を利用してデータセットの波形データのスペクトログラムに尤もらしい波形データを生成する。 A learning device according to the present disclosure has a learning target model including a generator that generates waveform data from source information and a discriminator that generates an output value from a spectrogram; Waveform data is acquired, each spectrogram converted from the acquired waveform data and the waveform data for learning according to the acoustic image conversion method (constant Q transform, Fourier transform, etc.) is input to the discriminator, and the output value of the discriminator is A generator and a discriminator are trained based on a loss function as an input. Also, the waveform generator and sound generator according to the present disclosure utilize a trained generator to generate waveform data that is plausible in the spectrogram of the waveform data of the dataset.
まず、図1を参照して、本開示の一実施例による学習済み生成器を有する音響生成装置を説明する。図1は、本開示の一実施例による学習済み生成器を有する音響生成装置を示す概略図である。 First, referring to FIG. 1, a sound generator having a trained generator according to one embodiment of the present disclosure will be described. FIG. 1 is a schematic diagram illustrating a sound generator having a trained generator according to one embodiment of the disclosure.
図1に示されるように、本開示の一実施例による音響生成装置200は、ニューラルネットワークとして実現される生成器を有し、学習装置100によって学習された生成器を利用して、ソース情報からデータセットの波形データと同じグループに属することが尤もらしい波形データを生成する。具体的には、例えば、人の音声の波形データを生成させるように生成器を学習させる場合には、学習用のデータセットとして人の音声の波形データが用いられる。人の音声以外にも、楽器の音や動物の声など、ある特定のグループに属する波形データを生成させる場合には、その特定のグループに属する波形データを学習用のデータセットとすればよい。本開示の一実施例による学習装置100は、データベース50に格納されている所望のオーディオデータ(音の波形データ)を示すデータセットによって生成器及び判別器を学習し、学習された生成器を音響生成装置200に提供する。
As shown in FIG. 1, a
次に、図2~4を参照して、本開示の一実施例による学習装置を説明する。図2は、本開示の一実施例による学習装置の機能構成を示すブロック図である。 A learning device according to an embodiment of the present disclosure will now be described with reference to FIGS. FIG. 2 is a block diagram showing the functional configuration of the learning device according to one embodiment of the present disclosure.
図2に示されるように、学習装置100は、生成器110、変換部120、判別器130及び学習部140を有する。学習装置100は、生成器110及び判別器130の2つのタイプのニューラルネットワークを有し、GAN(Generative Adversarial Networks)方式に従って、判別器130からのフィードバック情報に基づき所与のデータセットの波形データに尤もらしい波形データを生成するよう生成器110と判別器130とを学習する。
As shown in FIG. 2, the
なお、生成器(生成部)および判別器(判別部)は、制御部(CPU、GPU)がニューラルネットワークをシミュレートすることによって実現され、メモリ内の所定の記憶情報に従って生成処理や判別処理を実行するモデルとして実現される。これらのモデルで用いられる記憶情報は、ニューラルネットワークにおけるパラメータ(重み値)であり、学習によって変化する情報である。 The generator (generating unit) and classifier (discriminating unit) are realized by simulating a neural network by the control unit (CPU, GPU), and the generating process and the discriminating process are performed according to predetermined stored information in the memory. Realized as a running model. The stored information used in these models is the parameters (weight values) in the neural network and information that changes through learning.
生成器110は、入力されたソース情報から波形データを生成する。当該ソース情報は、乱数、オーディオ、テキスト、発話など生成対象の波形データと異なるタイプのデータであってもよい。例えば、生成器110は、図3に示されるように、乱数を生成器のニューラルネットワークに入力し、当該ニューラルネットワークから波形データを取得する。ここで、当該乱数は、正規分布に従う乱数であってもよい。
The
変換部120は、音響画像変換方式に従って取得した波形データと学習用の波形データとをそれぞれスペクトログラムに変換する。具体的には、変換部120は、入力について微分可能な所定の音響画像変換方式(例えば、定Q変換、フーリエ変換)に従って各波形データを時間、周波数及びオーディオ成分の強度を表すスペクトログラムに変換し、変換されたスペクトログラムを判別器130に提供する。ここで、本開示の一実施例によるスペクトログラムは、複数次元においてデータ成分を含むデータ配列として実現されうる。
The
判別器130は、生成器110によって生成された波形データを示すスペクトログラムと、データベース50における学習用スペクトログラムとからそれぞれの出力値を計算する。具体的には、判別器130は、図3に示されるように、生成器110によって生成された波形データを示すスペクトログラムを判別器130のニューラルネットワークに入力し、当該ニューラルネットワークから実数値を取得する一方、学習用の波形データを示すスペクトログラムを判別器130のニューラルネットワークに入力し、当該ニューラルネットワークから実数値を取得する。ここで、判別器130の出力値は、学習用のデータセット(第1のグループに属する波形データ)からサンプリングした波形のスペクトログラムの尤もらしさを表す。
The
学習部140は、出力値の誤差に基づき生成器110と判別器130とを学習する。
The
つまり、学習部140は、生成器110が、学習用のデータセットが属するグループと同じグループである第1のグループに属する波形データを生成するように(第1のグループに属さない波形データを生成しないように)ニューラルネットワークのパラメータ(第1の記憶情報)を変化させる。
That is, the
また、学習部140は、判別器130が、前記第1のグループに属する波形データと前記第1のグループに属さない波形データとを正しく判別できるようにニューラルネットワークのパラメータ(第2の記憶情報)を変化させる。
具体的には、学習部140は、後述される学習処理を制御する。また、学習用の波形データを示すスペクトログラムをxrealとし、生成器110によって生成された波形データを示すスペクトログラムをxfakeとし、Dを判別器130の出力値とした場合、学習部140は、
logD(xreal)+log(1-D(xfake))
を最大化するよう判別器130のニューラルネットワークのパラメータを更新すると共に、
log(1-D(xfake))
を最小化するよう生成器110のニューラルネットワークのパラメータを更新してもよい。
In addition, the
Specifically, the
logD(x real )+log(1−D(x fake ))
updating the parameters of the neural network of the
log(1−D(x fake ))
The parameters of the neural network of
ここで、学習装置100は、例えば、図4に示されるように、CPU(Central Processing Unit)101、GPU(Graphics Processing Unit)102、RAM(Random Access Memory)103、通信インタフェース(IF)104、ハードディスク105、表示装置106及び入力装置107によるハードウェア構成を有してもよい。CPU101及びGPU102は、後述される学習装置100の各種処理を実行し、上述した生成器110、変換部120、判別器130及び学習部140を実現するプロセッサとして機能し、特に、CPU101は学習装置100における学習処理の実行を制御し、GPU102は機械学習における行列演算等の学習処理を実行する。RAM103及びハードディスク105は、学習装置100における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM103は、CPU101及びGPU102における作業データを格納するワーキングメモリとして機能し、ハードディスク105は、CPU101及びGPU102の制御プログラム及び/又は学習用データを格納する。通信IF104は、データベース50から学習用データを取得するための通信インタフェースである。表示装置106は、処理の内容、経過、結果等の各種情報を表示し、入力装置107は、キーボード、マウスなどの情報及びデータを入力するためのデバイスである。しかしながら、本開示による学習装置100は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。
Here, for example, as shown in FIG. 4, the
次に、図5~6を参照して、本開示の一実施例による学習装置100における学習処理を説明する。図5は、本開示の一実施例による音響生成モデルの学習処理を示すフローチャートである。図示された実施例では、限定されることなく、ソース情報として乱数が用いられる。
Next, learning processing in the
図5に示されるように、ステップS101において、生成器110は、乱数から波形データを取得する。具体的には、生成器110は、乱数を生成器110のニューラルネットワークに入力し、当該ニューラルネットワークから波形データを取得する。また、生成器110は、入力されるソース情報から第1の記憶情報に従って波形データを生成する。このとき、判別器130は、入力される周波数情報が第1のグループに属する波形データから抽出される周波数情報であるか否かを第2の記憶情報に従って判別する。ここで、第1の記憶情報は、生成された波形データから抽出される周波数情報を判別した判別結果に基づいて第1のグループに属する波形データが生成するように変更させる。また、第2の記憶情報は、第1のグループに属する波形データから抽出される周波数情報を判別した判別結果と、生成された波形データから抽出される周波数情報を判別した判別結果とに基づいて第1のグループに属する波形データと第1のグループに属さない波形データとを正しく判別できるように、変更される。
As shown in FIG. 5, in step S101, the
ステップS102において、変換部120は、生成器110によって生成された波形データと学習用の波形データとをそれぞれスペクトログラムに変換する。具体的には、変換部120は、入力について微分可能な所定の音響画像変換方式(例えば、定Q変換、フーリエ変換)に従って各波形データを時間、周波数及びオーディオ成分の強度を表すスペクトログラムに変換する。また、変換部120は、波形データを、複数の軸のうちの1つの軸を対数の周波数軸とした画像データに変換する。このとき、波形データを変換部120で変換して得られた画像データを周波数情報として判別部130に判別させてもよい。
In step S102, the
ステップS103において、判別器130は、変換された各スペクトログラムからそれぞれの出力値を計算する。具体的には、判別器130は、生成器110によって生成された波形データを示すスペクトログラムと学習用の波形データを示すスペクトログラムとを判別器130のニューラルネットワークに入力し、当該ニューラルネットワークから各実数値を取得する。
In step S103, the
ステップS104において、学習部140は、出力値の誤差に基づき生成器110と判別器130とを学習する。具体的には、学習部140は、出力値の誤差に基づき生成器110のニューラルネットワークのパラメータと、判別器130のニューラルネットワークとのパラメータとを更新する。すなわち、学習部140は、複数のソース情報のそれぞれを生成器110に入力して複数の波形データを生成するとともに、生成された複数の波形データのそれぞれを変換部120により変換して得られる複数の画像データと、第1のグループに属する複数の波形データのそれぞれを変換部120により変換して得られる複数の画像データとを、判別器130により判別させ、判別による複数の判別結果に基づいて、第1の記憶情報及び第2の記憶情報を変化させていくことで学習対象のモデルを学習させてもよい。
In step S104, the
上述したステップS101~S104は、所定の回数実行され、最終的に取得した生成器110のニューラルネットワークが、音響生成装置200に提供される学習済みの音響生成モデルとして決定されてもよい。
The above-described steps S101 to S104 may be performed a predetermined number of times, and the finally acquired neural network of the
上述した学習処理は、例えば、図6に示される手順に従って実現されてもよい。 The learning process described above may be implemented according to the procedure shown in FIG. 6, for example.
図6に示されるように、ステップS201において、学習部140は、繰り返しカウンタ(iteration)を0に初期化する。
As shown in FIG. 6, the
ステップS202において、学習部140は、繰り返しカウンタが指定回数未満であるか判定する。繰り返しカウンタが指定回数未満である場合(ステップS202:YES)、学習部140は、ステップS203において、ステップカウンタ(step)を0に初期化する。他方、繰り返しカウンタが指定回数に達している場合(ステップS202:NO)、学習部140は、当該学習処理を終了する。
In step S202, the
ステップS204において、学習部140は、ステップカウンタが指定回数未満であるか判定する。ステップカウンタが指定回数未満である場合(ステップS204:YES)、ステップS205において、生成器110は、乱数から波形データを生成する。
In step S204, the
ステップS206において、学習部140は、データベース50から学習用の波形をサンプリングし、学習用の波形データを生成する。
In step S206, the
ステップS207において、変換部120は、ステップS205において生成された波形データと、ステップS205において生成された学習用の波形データとをそれぞれ所定の音響画像変換方式に従ってスペクトログラムに変換する。例えば、本実施例では、変換部120は、フーリエ変換によって波形データをスペクトログラムに変換するが、本開示の音響画像変換方式はこれに限定されず、例えば、定Q変換などの他の入力について微分可能な音響画像変換方式が適用されてもよい。
In step S207, the
ステップS208において、判別器130は、ニューラルネットワークを利用して、変換された各スペクトログラムから実数値を計算し、学習部140は、計算された各実数値の誤差を計算する。例えば、学習部140は、
logD(xreal)+log(1-D(xfake))
を誤差として算出してもよい。
In step S208, the
logD(x real )+log(1−D(x fake ))
may be calculated as an error.
ステップS209において、学習部140は、算出した誤差を最大化するよう判別器130のニューラルネットワークのパラメータを更新する。
In step S209, the
ステップS210において、学習部140は、ステップカウンタをインクリメントし、ステップS204に戻る。
In step S210, learning
他方、ステップカウンタが指定回数に達している場合(ステップS204:NO)、ステップS211において、生成器110は、乱数から波形データを生成する。
On the other hand, if the step counter has reached the specified number of times (step S204: NO), the
ステップS212において、変換部120は、ステップS211において生成された波形データを所定の音響画像変換方式に従ってスペクトログラムに変換する。例えば、本実施例では、変換部120は、フーリエ変換によって波形データをスペクトログラムに変換するが、本開示の音響画像変換方式はこれに限定されず、例えば、定Q変換などの他の入力について微分可能な音響画像変換方式が適用されてもよい。
In step S212, the
ステップS213において、判別器130は、ニューラルネットワークを利用して、変換されたスペクトログラムから実数値を計算し、学習部140は、計算された実数値の誤差log(1-D(xfake))を算出する。
In step S213, the
ステップS214において、学習部140は、算出した誤差を最小化するよう生成器110のニューラルネットワークのパラメータを更新する。
In step S214, the
ステップS215において、学習部140は、繰り返しカウンタをインクリメントし、ステップS202に戻る。
In step S215, the
次に、図7~8を参照して、本開示の他の実施例による生成器及び判別器による学習処理を説明する。図7及び8は、本開示の一実施例による生成器及び判別器による学習処理を示す概略図である。図示される実施例では、学習装置100は、サイクルGAN方式に従って生成器110及び判別器130を学習する。
Next, the learning process by generators and classifiers according to other embodiments of the present disclosure will be described with reference to FIGS. 7-8. 7 and 8 are schematic diagrams illustrating the training process by generators and classifiers according to one embodiment of the present disclosure. In the illustrated embodiment, the
図7に示されるように、生成器110は、2つのニューラルネットワークGAtoB及びGBtoAを有し、GAtoBはドメインAからドメインBへの変換を実行し、GBtoAはドメインBからドメインAへの変換を実行する。例えば、ドメインAは男声のデータセットであり、ドメインBは女声のデータセットであってもよい。この場合、GAtoBは男声の波形データを女声の波形データに変換し、GBtoAは女声の波形データを男声の波形データに変換する。
As shown in FIG. 7, the
他方、判別器130もまた、2つのニューラルネットワークDA及びDBを有し、図8に示されるように、DAは入力されたスペクトログラムがドメインAのデータセットの波形データのスペクトログラムに尤もらしいかを判別し、DBは入力されたスペクトログラムがドメインBのデータセットの波形データのスペクトログラムに尤もらしいかを判別する。例えば、ドメインAが男声のデータセットであり、ドメインBが女声のデータセットである場合、DAは入力されたスペクトログラムが男声のスペクトログラムに尤もらしいかを判別し、DBは入力されたスペクトログラムが男声のスペクトログラムに尤もらしいかを判別する。すなわち、第1のグループに属する波形データは、言葉を発声した音声データに対応する波形データであってもよい。また、第1のグループに属する波形データは、特定の人の声に対応する波形データであり、第2のグループに属する波形データは、特定の人とは異なる人の声に対応する波形データであってもよい。
On the other hand, the
本実施例では、図示されるように、GAtoB及びGBtoAはそれぞれ変換された波形データを出力し、変換部120は、所定の音響画像変換方式(例えば、定Q変換、フーリエ変換)に従って各波形データをスペクトログラムに変換し、それぞれDB及びDAに入力する。DA及びDBは、上述した実施例と同様に、各自のドメインのデータセットの学習用の波形データを示すスペクトログラムと、GBtoA及びGAtoBによりそれぞれ変換された波形データを示すスペクトログラムとをそれぞれ入力した際の出力値を計算する。学習部140は、これらの出力値の誤差に基づき、上述したようにGAtoB及びGBtoAとDA及びDBとのパラメータを更新する。
In this embodiment, as shown, G AtoB and G BtoA each output transformed waveform data, and
さらに本実施例では、図示されるように、GAtoB及びGBtoAは、それぞれ変換された波形データを他方のGBtoA及びGAtoBに入力し、GBtoA及びGAtoBは、それぞれ入力された波形データを変換し、変換された波形データをそれぞれDA及びDBと変換部120に入力する。変換部120は、上記と同様に、所定の音響画像変換方式に従って各波形データをスペクトログラムに変換し、それぞれDB及びDAに入力する。DA及びDBは、上述した実施例と同様に、各自のドメインのデータセットの学習用の波形データを示すスペクトログラムと、GBtoA及びGAtoBによりそれぞれ変換された波形データを示すスペクトログラムとの出力値を計算する。学習部140は、これらの出力値の誤差に基づき、上述したようにGAtoB及びGBtoAとDA及びDBとのパラメータを更新する。
Further, in this embodiment, as shown, G AtoB and G BtoA input the converted waveform data to the other G BtoA and G AtoB , respectively, and G BtoA and G AtoB each input waveform data , and the converted waveform data are input to D A and D B and the
このように、生成器110において波形データを変換及び逆変換することによって、例えば、発話内容は同じであって、声質のみ変わっている波形データを取得することが可能になる。
By transforming and inversely transforming the waveform data in the
また、一実施例では、判別器130は、入力される周波数情報が第1のグループに属する波形データから抽出される周波数情報である確からしさに応じた出力値を判別結果として出力し、学習部140は、第1のグループに属する波形データから抽出される周波数情報の入力に対して出力される出力値がより高い確からしさを示し、生成器110で生成された波形データから抽出される周波数情報の入力に対して出力される出力値がより低い確からしさを示すように、第2の記憶情報を変化させるとともに、生成器110で生成された波形データから抽出される周波数情報の入力に対して出力される出力値がより高い確からしさを示すように、第1の記憶情報を変化させてもよい。
In one embodiment, the
また、一実施例では、生成器110は、第2のグループに属する波形データから第1のグループに属する波形データを生成し、波形データから第2のグループに属する波形データを生成し、判別器130は、入力される周波数情報が第1のグループに属する波形データから抽出される周波数情報であるか否かを判別してもよい。このとき、学習部140は、第2のグループに属する第1の元波形データから第1のグループに属する第1の変換波形データを生成器110に生成させた後、第1の変換波形データから第2のグループに属する第1の再構成波形データを生成器110に生成させるとともに、第1の元波形データから抽出される周波数情報を判別した判別結果と、第1の再構成波形データから抽出される周波数情報を判別した判別結果との誤差を少なくするように生成器110を学習させてもよい。
In one embodiment, the
また、一実施例では、判別器130は、入力される周波数情報が第2のグループに属する波形データから抽出される周波数情報であるか否かを判別してもよい。このとき、学習部140は、第1のグループに属する第2の元波形データから第2のグループに属する第2の変換波形データを生成器110に生成させた後、第2の変換波形データから第1のグループに属する第2の再構成波形データを生成器110に生成させるとともに、第2の元波形データから抽出される周波数情報を判別した判別結果と、第2の再構成波形データから抽出される周波数情報を判別した判別結果との誤差を少なくするように生成器110を学習させてもよい。
In one embodiment, the
次に、図9~10を参照して、本開示の一実施例による音響生成装置を説明する。図9は、本開示の一実施例による音響生成装置の機能構成を示すブロック図である。 A sound generating device according to one embodiment of the present disclosure will now be described with reference to FIGS. 9-10. FIG. 9 is a block diagram showing the functional configuration of a sound generator according to one embodiment of the present disclosure.
図9に示されるように、音響生成装置200は、取得部210及び生成器220を有する。音響生成装置200は、学習装置100から生成器110の音響生成モデルを取得し、当該音響生成モデルを生成器220として用いてソース情報から波形データを生成する。
As shown in FIG. 9 , the
取得部210は、ソース情報を取得する。当該ソース情報は、乱数、オーディオ、テキスト、発話など生成対象の波形データを示すオーディオデータと異なるタイプの波形データであってもよく、学習装置100において学習された生成器110に入力される情報に対応するタイプの情報である。すなわち、ソース情報は、言葉に対応するラベル情報または前記言葉を表すテキスト情報であってもよいし、言葉を発声した音声データに対応する波形データであってもよいし、後述される第1のグループとは異なる第2のグループに属する波形データであってもよいし、あるいは、乱数であってもよい。
生成器220は、ソース情報を学習済み音響生成モデルに入力し、当該音響生成モデルから波形データを取得する。当該音響生成モデルは、上述したような手順に従って学習装置100において学習される。すなわち、学習装置100は、ソース情報を生成器110に入力し、生成器110から対応する波形データを取得する。そして、学習装置100は、音響画像変換方式に従って当該波形データと学習用の波形データとをそれぞれスペクトログラムに変換して判別器130に入力し、これらのスペクトログラムの出力値の誤差に基づき生成器110と判別器130とを学習する。また、生成器220は、取得した波形データをオーディオデータに変換するなど、波形データに対して所定の出力処理を実行する。
The
ここで、音響生成装置200は、例えば、図10に示されるように、CPU201、ROM(Read-Only Memory)202、RAM203、USB(Universal Serial Bus)メモリポート204及び再生装置205によるハードウェア構成を有してもよい。CPU201は、後述される音響生成装置200の各種処理を実行し、上述した取得部210及び生成器220を実現するプロセッサとして機能する。ROM202及びRAM203は、音響生成装置200における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM203は、CPU201における作業データを格納するワーキングメモリとして機能し、ROM203は、CPU201の制御プログラム及び/又はデータを格納する。USBメモリポート204は、ユーザによりセットされたUSBメモリに格納されているソース情報を取得する。再生装置205は、CPU201の指示によってソース情報から生成されたオーディオデータを再生する。しかしながら、本開示による音響生成装置200は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、上述した取得部210及び生成器220の1つ以上は、フィルタ回路などの電子回路により実現されてもよい。
Here, for example, as shown in FIG. 10, the
次に、図11を参照して、本開示の一実施例による音響生成装置200における音響生成処理を説明する。図11は、本開示の一実施例による音響生成処理を示すフローチャートである。
Next, sound generation processing in the
図11に示されるように、ステップS301において、取得部210は、ソース情報を取得する。具体的には、取得部210は、学習装置100において学習用に生成器110に入力された情報に対応するソース情報を取得する。
As shown in FIG. 11, in step S301, the obtaining
ステップS302において、生成器220は、学習済み音響生成モデルにソース情報を入力し、当該音響生成モデルから波形データを取得する。
In step S302, the
ステップS303において、生成器220は、取得した波形データをオーディオデータに変換するなど、波形データに対して所定の出力処理を実行する。
In step S303, the
本開示の一態様では、
入力されるソース情報から第1の記憶情報に従って波形データを生成する生成部と、
入力される周波数情報が第1のグループに属する波形データから抽出される周波数情報であるか否かを第2の記憶情報に従って判別する判別部と、
前記生成部で生成された波形データから抽出される周波数情報を前記判別部で判別した判別結果に基づいて、前記生成部が前記第1のグループに属する波形データを生成するように前記第1の記憶情報を変化させる制御部と、
を有する波形生成装置が提供される。
In one aspect of the present disclosure,
a generator that generates waveform data according to first stored information from input source information;
a determination unit that determines whether or not input frequency information is frequency information extracted from waveform data belonging to the first group according to second stored information;
Based on the discrimination result of discriminating the frequency information extracted from the waveform data generated by the generating section, the generating section generates the waveform data belonging to the first group. a controller for changing stored information;
A waveform generator is provided comprising:
一実施例では、前記制御部は、前記第1のグループに属する波形データから抽出される周波数情報を前記判別部で判別した判別結果と、前記生成部で生成された波形データから抽出される周波数情報を前記判別部で判別した判別結果とに基づいて、前記判別部が前記第1のグループに属する波形データと前記第1のグループに属さない波形データとを正しく判別できるように前記第2の記憶情報を変化させてもよい。 In one embodiment, the control unit determines a determination result of frequency information extracted from the waveform data belonging to the first group by the determination unit, and a frequency extracted from the waveform data generated by the generation unit. Based on the determination result of information determined by the determination unit, the second determination unit can correctly determine waveform data belonging to the first group and waveform data not belonging to the first group. The stored information may be changed.
一実施例では、波形データを、複数の軸のうちの1つの軸を対数の周波数軸とした画像データに変換する変換部を有し、前記制御部は、波形データを前記変換部で変換して得られた画像データを前記周波数情報として前記判別部に判別させるように制御してもよい。 In one embodiment, the control unit includes a conversion unit that converts the waveform data into image data with one of a plurality of axes as a logarithmic frequency axis, and the control unit converts the waveform data with the conversion unit. The image data obtained by the method may be controlled so as to be discriminated by the discriminating section as the frequency information.
一実施例では、前記生成部と前記判別部とを含む学習対象のモデルとして、前記第1の記憶情報と前記第2の記憶情報とを格納する記憶部を有し、前記制御部は、複数のソース情報のそれぞれを前記生成部に入力して複数の波形データを生成するとともに、生成された複数の波形データのそれぞれを前記変換部により変換して得られる複数の画像データと、前記第1のグループに属する複数の波形データのそれぞれを前記変換部により変換して得られる複数の画像データとを、前記判別部により判別させ、前記判別による複数の判別結果に基づいて、前記第1の記憶情報及び前記第2の記憶情報を変化させていくことで前記学習対象のモデルを学習させてもよい。 In one embodiment, a learning target model including the generation unit and the determination unit includes a storage unit that stores the first storage information and the second storage information, and the control unit includes a plurality of to the generation unit to generate a plurality of waveform data, and a plurality of image data obtained by converting each of the generated plurality of waveform data by the conversion unit; and a plurality of image data obtained by converting each of the plurality of waveform data belonging to the group of (1) and (2) by the discrimination unit, and based on the plurality of discrimination results obtained by the discrimination, the first storage The model to be learned may be learned by changing the information and the second stored information.
一実施例では、前記判別部は、入力される周波数情報が前記第1のグループに属する波形データから抽出される周波数情報である確からしさに応じた出力値を前記判別結果として出力し、前記制御部は、前記第1のグループに属する波形データから抽出される周波数情報の入力に対して出力される出力値がより高い確からしさを示し、前記生成部で生成された波形データから抽出される周波数情報の入力に対して出力される出力値がより低い確からしさを示すように、前記第2の記憶情報を変化させるとともに、前記生成部で生成された波形データから抽出される周波数情報の入力に対して出力される出力値がより高い確からしさを示すように、前記第1の記憶情報を変化させてもよい。 In one embodiment, the determination unit outputs an output value corresponding to the probability that the input frequency information is frequency information extracted from the waveform data belonging to the first group as the determination result, and the control The unit indicates that the output value output with respect to the input of the frequency information extracted from the waveform data belonging to the first group has a higher probability, and the frequency extracted from the waveform data generated by the generation unit. changing the second stored information so that the output value output with respect to the information input indicates a lower probability, and inputting frequency information extracted from the waveform data generated by the generating unit; The first stored information may be changed so that the output value to be output indicates a higher likelihood.
一実施例では、前記第1のグループに属する波形データは、言葉を発声した音声データに対応する波形データであってもよい。 In one embodiment, the waveform data belonging to the first group may be waveform data corresponding to speech data obtained by uttering words.
一実施例では、前記ソース情報は、前記言葉に対応するラベル情報または前記言葉を表すテキスト情報であってもよい。 In one embodiment, the source information may be label information corresponding to the term or text information representing the term.
一実施例では、前記ソース情報は、言葉を発声した音声データに対応する波形データであってもよい。 In one embodiment, the source information may be waveform data corresponding to voice data uttering words.
一実施例では、前記ソース情報は、前記第1のグループとは異なる第2のグループに属する波形データであってもよい。 In one embodiment, the source information may be waveform data belonging to a second group different from the first group.
一実施例では、前記第1のグループに属する波形データは、特定の人の声に対応する波形データであり、前記第2のグループに属する波形データは、前記特定の人とは異なる人の声に対応する波形データであってもよい。 In one embodiment, the waveform data belonging to the first group is waveform data corresponding to the voice of a specific person, and the waveform data belonging to the second group is the voice of a person different from the specific person. may be waveform data corresponding to .
一実施例では、前記生成部は、前記第2のグループに属する波形データから前記第1のグループに属する波形データを生成する第1生成部と、前記波形データから前記第2のグループに属する波形データを生成する第2生成部とを有し、前記判別部は、入力される周波数情報が前記第1のグループに属する波形データから抽出される周波数情報であるか否かを判別する第1判別部を有し、前記制御部は、前記第1生成部に前記第2のグループに属する第1の元波形データから前記第1のグループに属する第1の変換波形データを生成させた後、前記第2生成部に前記第1の変換波形データから前記第2のグループに属する第1の再構成波形データを生成させるとともに、前記第1の元波形データから抽出される周波数情報を前記第1判別部で判別した判別結果と、前記第1の再構成波形データから抽出される周波数情報を前記第1判別部で判別した判別結果との誤差を少なくするように前記生成部を学習させてもよい。 In one embodiment, the generation unit includes a first generation unit that generates waveform data belonging to the first group from waveform data belonging to the second group, and a waveform data belonging to the second group from the waveform data. a second generation unit that generates data, the determination unit having a first determination that determines whether or not the input frequency information is frequency information extracted from the waveform data belonging to the first group. The control unit causes the first generation unit to generate first converted waveform data belonging to the first group from the first original waveform data belonging to the second group, and then the causing a second generation unit to generate first reconstructed waveform data belonging to the second group from the first converted waveform data, and determining frequency information extracted from the first original waveform data for the first determination; The generation unit may learn to reduce an error between the determination result determined by the unit and the determination result obtained by determining the frequency information extracted from the first reconstructed waveform data by the first determination unit. .
一実施例では、前記判別部は、入力される周波数情報が前記第2のグループに属する波形データから抽出される周波数情報であるか否かを判別する第2判別部を更に有し、前記制御部は、前記第2生成部に前記第1のグループに属する第2の元波形データから前記第2のグループに属する第2の変換波形データを生成させた後、前記第1生成部に前記第2の変換波形データから前記第1のグループに属する第2の再構成波形データを生成させるとともに、前記第2の元波形データから抽出される周波数情報を前記第2判別部で判別した判別結果と、前記第2の再構成波形データから抽出される周波数情報を前記第2判別部で判別した判別結果との誤差を少なくするように前記生成部を学習させてもよい。 In one embodiment, the determination unit further includes a second determination unit that determines whether the input frequency information is frequency information extracted from the waveform data belonging to the second group, and the control The section causes the second generation section to generate the second converted waveform data belonging to the second group from the second original waveform data belonging to the first group, and then causes the first generation section to generate the second waveform data belonging to the second group. Second reconstructed waveform data belonging to the first group is generated from the second transformed waveform data, and the frequency information extracted from the second original waveform data is discriminated by the second discriminator. Alternatively, the generation unit may be trained so as to reduce an error between the frequency information extracted from the second reconstructed waveform data and the determination result obtained by the second determination unit.
一実施例では、前記ソース情報は、乱数であってもよい。 In one embodiment, the source information may be random numbers.
本開示の一態様では、
学習対象のモデルを格納するメモリと、
前記メモリに接続されるプロセッサと、
を有する学習装置であって、
前記学習対象のモデルは、ソース情報から波形データを生成する生成器と、スペクトログラムから出力値を生成する判別器とを含み、
前記プロセッサは、
前記ソース情報を前記生成器に入力し、前記生成器から第1の波形データを取得し、
音響画像変換方式に従って前記第1の波形データと学習用の第2の波形データとをそれぞれ第1のスペクトログラムと第2のスペクトログラムとに変換し、
前記第1のスペクトログラムと前記第2のスペクトログラムとを前記判別器に入力し、前記第1のスペクトログラムと前記第2のスペクトログラムとの各出力値を取得し、
前記出力値の誤差に基づき前記生成器と前記判別器とを学習する学習装置が提供される。
In one aspect of the present disclosure,
a memory for storing a model to be learned;
a processor connected to the memory;
A learning device having
The model to be learned includes a generator that generates waveform data from source information and a discriminator that generates an output value from a spectrogram,
The processor
inputting the source information into the generator and obtaining first waveform data from the generator;
converting the first waveform data and the second waveform data for learning into a first spectrogram and a second spectrogram, respectively, according to an acoustic image conversion method;
Inputting the first spectrogram and the second spectrogram into the discriminator, obtaining each output value of the first spectrogram and the second spectrogram,
A learning device is provided for learning the generator and the discriminator based on the errors in the output values.
一実施例では、前記音響画像変換方式は、入力について微分可能な音響画像変換方式であってもよい。 In one embodiment, the acoustic image transformation scheme may be an acoustic image transformation scheme that is differentiable with respect to the input.
一実施例では、前記プロセッサは、GAN(Generative Adversarial Network)方式に従って前記生成器と前記判別器とを学習してもよい。 In one embodiment, the processor may learn the generator and the discriminator according to a Generative Adversarial Network (GAN) scheme.
一実施例では、前記学習対象のモデルは、複数の生成器と複数の判別器とを含み、前記プロセッサは、サイクルGAN方式に従って前記複数の生成器と前記複数の判別器とを学習してもよい。 In one embodiment, the model to be trained includes a plurality of generators and a plurality of classifiers, and the processor learns the plurality of generators and the plurality of classifiers according to a cycle GAN method. good.
本開示の一態様では、
学習済みモデルを格納するメモリと、
前記メモリに接続されるプロセッサと、
を有する音響生成装置であって、
前記プロセッサは、
ソース情報を取得し、
前記ソース情報を前記学習済みモデルに入力し、前記学習済みモデルから波形データを取得し、
前記学習済みモデルは、
前記ソース情報を生成器に入力し、前記生成器から第1の波形データを取得し、
音響画像変換方式に従って前記第1の波形データと学習用の第2の波形データとをそれぞれ第1のスペクトログラムと第2のスペクトログラムとに変換し、
前記第1のスペクトログラムと前記第2のスペクトログラムとを判別器に入力し、前記第1のスペクトログラムと前記第2のスペクトログラムとの各出力値を取得し、
前記出力値の誤差に基づき前記生成器と前記判別器とを学習することによって取得される生成器である音響生成装置が提供される。
In one aspect of the present disclosure,
a memory for storing trained models;
a processor connected to the memory;
A sound generator having
The processor
get the source information,
inputting the source information into the trained model, obtaining waveform data from the trained model;
The trained model is
inputting the source information into a generator and obtaining first waveform data from the generator;
converting the first waveform data and the second waveform data for learning into a first spectrogram and a second spectrogram, respectively, according to an acoustic image conversion method;
Inputting the first spectrogram and the second spectrogram into a discriminator, obtaining each output value of the first spectrogram and the second spectrogram,
A sound generation device is provided, which is a generator obtained by learning the generator and the discriminator based on the error of the output value.
一実施例では、前記音響画像変換方式は、入力について微分可能な音響画像変換方式であってもよい。 In one embodiment, the acoustic image transformation scheme may be an acoustic image transformation scheme that is differentiable with respect to the input.
一実施例では、前記生成器と前記判別器とは、GAN方式に従って学習されてもよい。 In one embodiment, the generator and classifier may be trained according to the GAN scheme.
一実施例では、前記学習済みモデルは、サイクルGAN方式に従って複数の生成器と複数の判別器とを学習することによって取得されてもよい。 In one embodiment, the trained model may be obtained by training multiple generators and multiple classifiers according to a cycle GAN scheme.
本開示の一態様では、
ソース情報から波形データを生成する生成器と、スペクトログラムから出力値を生成する判別器とを含む学習対象のモデルを学習する方法であって、
プロセッサが、前記ソース情報を前記生成器に入力し、前記生成器から第1の波形データを取得し、
前記プロセッサが、音響画像変換方式に従って前記第1の波形データと学習用の第2の波形データとをそれぞれ第1のスペクトログラムと第2のスペクトログラムとに変換し、
前記プロセッサが、前記第1のスペクトログラムと前記第2のスペクトログラムとを前記判別器に入力し、前記第1のスペクトログラムと前記第2のスペクトログラムとの各出力値を取得し、
前記プロセッサが、前記出力値の誤差に基づき前記生成器と前記判別器とを学習する方法が提供される。
In one aspect of the present disclosure,
A method for learning a model to be learned including a generator that generates waveform data from source information and a discriminator that generates output values from a spectrogram, comprising:
a processor inputs the source information to the generator and obtains first waveform data from the generator;
The processor converts the first waveform data and the second waveform data for learning into a first spectrogram and a second spectrogram, respectively, according to an acoustic image conversion method;
The processor inputs the first spectrogram and the second spectrogram to the discriminator, obtains each output value of the first spectrogram and the second spectrogram,
A method is provided for the processor to train the generator and the classifier based on the errors in the output values.
本開示の一態様では、
プロセッサが、ソース情報を取得し、
前記プロセッサが、前記ソース情報を学習済みモデルに入力し、前記学習済みモデルから波形データを取得する方法であって、
前記学習済みモデルは、
前記ソース情報を生成器に入力し、前記生成器から第1の波形データを取得し、
音響画像変換方式に従って前記第1の波形データと学習用の第2の波形データとをそれぞれ第1のスペクトログラムと第2のスペクトログラムとに変換し、
前記第1のスペクトログラムと前記第2のスペクトログラムとを判別器に入力し、前記第1のスペクトログラムと前記第2のスペクトログラムとの各出力値を取得し、
前記出力値の誤差に基づき前記生成器と前記判別器とを学習することによって取得される生成器である方法が提供される。
In one aspect of the present disclosure,
The processor obtains the source information,
A method in which the processor inputs the source information to a trained model and obtains waveform data from the trained model, comprising:
The trained model is
inputting the source information into a generator and obtaining first waveform data from the generator;
converting the first waveform data and the second waveform data for learning into a first spectrogram and a second spectrogram, respectively, according to an acoustic image conversion method;
Inputting the first spectrogram and the second spectrogram into a discriminator, obtaining each output value of the first spectrogram and the second spectrogram,
A method is provided wherein the generator is obtained by training the generator and the discriminator based on the errors of the output values.
本開示の一態様では、
上述した方法をプロセッサに実現させるプログラム又はコンピュータ可読記憶媒体が提供される。
In one aspect of the present disclosure,
A program or computer readable storage medium is provided that causes a processor to implement the method described above.
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。 Although the embodiments of the present disclosure have been described in detail above, the present disclosure is not limited to the specific embodiments described above, and various modifications can be made within the scope of the gist of the present disclosure described in the claims.・Changes are possible.
50 データベース
100 学習装置
110,220 生成器
120 変換部
130 判別器
140 学習部
200 音響生成装置
210 取得部
50
Claims (15)
前記生成器の前記第1のニューラルネットワークから出力された波形データから、微分可能な数値情報としての第1の周波数情報を抽出する抽出部と、
前記第1の周波数情報を第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第1の周波数情報 が第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第1の判別値を出力する判別器と、
前記判別器が出力する前記第1の判別値を入力とする損失関数に基づいて、前記判別器が出力する前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習 させる制御部と、
を有する音響生成装置。 inputting source information into a first neural network and corresponding to the source information input into the first neural network as an output from the first neural network; a generator for generating waveform data;
an extraction unit that extracts first frequency information as differentiable numerical information from the waveform data output from the first neural network of the generator;
inputting the first frequency information to a second neural network, and outputting the first frequency information from the second neural network; is the frequency information extracted from the waveform data belonging to the first groupOutput the first discriminant value as differentiable numerical information indicating the degree of likelihooda discriminator;
Based on a loss function having as input the first discriminant value output by the discriminator, the first neural network is operated so that the first discriminant value output by the discriminator indicates a higher likelihood. study a control unit that causes
A sound generator having a
前記抽出部は、前記取得部で取得した波形データから、微分可能な数値情報としての第2の周波数情報を抽出し、 The extraction unit extracts second frequency information as differentiable numerical information from the waveform data acquired by the acquisition unit,
前記判別器は、前記第2の周波数情報を前記第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第2の周波数情報が前記第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第2の判別値を出力し、 The discriminator inputs the second frequency information to the second neural network, and outputs the second frequency information from waveform data belonging to the first group as an output from the second neural network. Outputting a second discriminant value as differentiable numerical information indicating the degree of likelihood of the extracted frequency information,
前記制御部は、前記判別器が出力する前記第1の判別値および前記第2の判別値を入力とする損失関数に基づいて、前記判別器が出力する前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習させるとともに、前記判別器が出力する前記第1の判別値がより低い確からしさを示し、かつ、前記判別器が出力する前記第2の判別値がより高い確からしさを示すように前記第2のニューラルネットワークを学習させる、 The control unit determines whether the first discriminant value output by the discriminator has a higher probability based on a loss function that receives the first discriminant value and the second discriminant value output by the discriminator. The first discriminant value output by the discriminator indicates a lower likelihood, and the second discriminant value output by the discriminator is trained by the first neural network to indicate the likelihood training the second neural network to exhibit a higher likelihood of
請求項1記載の音響生成装置。 A sound generating device according to claim 1.
前記抽出部は、 波形データを前記変換部で変換して得られた画像データを、微分可能な数値情報である前記周波数情報として抽出する、
請求項1または2に記載の音響生成装置。 a conversion unit that converts waveform data into image data with one of a plurality of axes as a logarithmic frequency axis;
The extractor is Image data obtained by converting the waveform data in the conversion unit,extracting as the frequency information, which is differentiable numerical information;
3. A sound generator according to claim 1 or 2.
前記第1のグループに属する波形データは、前記言葉を発声した音声データに対応する波形データである、
請求項1から3のいずれか一項 に記載の音響生成装置。 The source information iswordsis text information representing the law of nature,
The waveform data belonging to the first group is waveform data corresponding to voice data uttering the words.
any one of claims 1 to 3 The sound generating device according to .
前記ソース情報は、 前記特定の人とは異なる人の声に対応する波形データである、請求項1から4のいずれか一項に記載の音響生成装置。 The waveform data belonging to the first group is waveform data corresponding to a specific human voice,
The source information is Waveform data corresponding to the voice of a person different from the specific person,any one of claims 1 to 4The sound generating device according to .
前記第1のグループに属する 波形データから前記第2のグループに属する波形データを生成する第2生成器 と、
入力 される周波数情報が前記第1のグループに属する波形データから抽出される周波数情報であるか否かを判別する第1判別器 と、
前記 第1生成器に前記第2のグループに属する第1の元波形データから前記第1のグループに属する第1の変換波形データを生成させた後、前記第2生成器に前記第1の変換波形データから前記第2のグループに属する第1の再構成波形データを生成させるとともに、前記第1の元波形データから抽出される周波数情報を前記第1判別器で判別した判別結果と、前記第1の再構成波形データから抽出される周波数情報を前記第1判別器で判別した判別結果との誤差を少なくするように前記第1生成器および前記第2生成器を学習させる 制御部と、
を有する 音響生成装置。 second From the waveform data belonging to the group offirsta first generator that generates waveform data belonging to the group of
belonging to the first group A second generator for generating waveform data belonging to the second group from waveform data When,
input A first discriminator for discriminating whether or not the frequency information obtained is frequency information extracted from the waveform data belonging to the first group When,
Said After causing the first generator to generate the first converted waveform data belonging to the first group from the first original waveform data belonging to the second group, the second generator generates the first converted waveform. First reconstructed waveform data belonging to the second group is generated from data, and a discrimination result obtained by discriminating frequency information extracted from the first original waveform data by the first discriminator; so as to reduce the error between the frequency information extracted from the reconstructed waveform data of and the discrimination result discriminated by the first discriminator.said first generator and said second generatorto learn a control unit;
have Sound generator.
前記制御部は、前記第2生成器に前記第1のグループに属する第2の元波形データから前記第2のグループに属する第2の変換波形データを生成させた後、前記第1生成器に前記第2の変換波形データから前記第1のグループに属する第2の再構成波形データを生成させるとともに、前記第2の元波形データから抽出される周波数情報を前記第2判別器で判別した判別結果と、前記第2の再構成波形データから抽出される周波数情報を前記第2判別器で判別した判別結果との誤差を少なくするように前記第1生成器および前記第2生成器を学習させる、請求項6に記載の音響生成装置。 input further comprising a second discriminator that discriminates whether or not the frequency information obtained is frequency information extracted from the waveform data belonging to the second group;
After causing the second generator to generate second converted waveform data belonging to the second group from the second original waveform data belonging to the first group, the control unit causes the first generator to second reconstructed waveform data belonging to the first group is generated from the second transformed waveform data, and frequency information extracted from the second original waveform data is discriminated by the second discriminator. so as to reduce the error between the result and the discrimination result obtained by discriminating the frequency information extracted from the second reconstructed waveform data by the second discriminator.said first generator and said second generatorto learnClaim 6The sound generating device according to .
前記第2のグループに属する波形データは、前記特定の人とは異なる人の声に対応する波形データである、請求項6または7に記載の音響生成装置。 8. The sound generator according to claim 6, wherein the waveform data belonging to said second group is waveform data corresponding to a voice of a person different from said specific person.
前記第2のグループに属する波形データは、女性の声に対応する波形データである、請求項6または8に記載の音響生成装置。 9. The sound generator according to claim 6, wherein the waveform data belonging to said second group is waveform data corresponding to a female voice.
ソース情報を第1のニューラルネットワークに入力し、前記第1のニューラルネットワークからの出力として、前記第1のニューラルネットワークに入力したソース情報に対応する波形データを生成する生成処理と、 A generation process of inputting source information into a first neural network and generating waveform data corresponding to the source information input into the first neural network as an output from the first neural network;
前記生成処理により前記第1のニューラルネットワークから出力された波形データから、微分可能な数値情報としての第1の周波数情報を抽出する抽出処理と、 an extraction process of extracting first frequency information as differentiable numerical information from the waveform data output from the first neural network by the generation process;
前記第1の周波数情報を第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第1の周波数情報が第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第1の判別値を出力する判別処理と、 The first frequency information is input to a second neural network, and as an output from the second neural network, the first frequency information is frequency information extracted from waveform data belonging to the first group. A discrimination process that outputs a first discriminant value as differentiable numerical information indicating the degree of likelihood;
前記判別処理により出力された前記第1の判別値を入力とする損失関数に基づいて、前記判別処理により出力される前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習させる制御処理と、 Based on a loss function having as input the first discriminant value output by the discriminating process, the first neural network is configured so that the first discriminant value output by the discriminating process indicates a higher likelihood. a control process for learning the network;
を実行する方法。 how to run.
前記プロセッサが、前記ソース情報を学習済みモデルに入力し、前記学習済みモデルから波形データを取得する方法であって、
前記学習済みモデルは、
ソース情報を第1のニューラルネットワークに入力し、前記第1のニューラルネットワークからの出力として、前記第1のニューラルネットワークに入力したソース情報に対応する波形データを生成する生成処理と、
前記生成処理により前記第1のニューラルネットワークから出力された波形データから、微分可能な数値情報としての第1の周波数情報を抽出する抽出処理と、
前記第1の周波数情報を第2のニューラルネットワークに入力し、前記第2のニューラルネットワークからの出力として、前記第1の周波数情報が第1のグループに属する波形データから抽出される周波数情報である確からしさの程度を示す微分可能な数値情報としての第1の判別値を出力する判別処理と、
前記判別処理により出力された前記第1の判別値を入力とする損失関数に基づいて、前記判別処理により出力される前記第1の判別値がより高い確からしさを示すように前記第1のニューラルネットワークを学習させる制御処理と、
を実行することによって取得される前記第1のニューラルネットワークを含む、 方法。 The processor obtains the source information,
A method in which the processor inputs the source information to a trained model and obtains waveform data from the trained model, comprising:
The trained model is
A generation process of inputting source information into a first neural network and generating waveform data corresponding to the source information input into the first neural network as an output from the first neural network;
an extraction process for extracting first frequency information as differentiable numerical information from the waveform data output from the first neural network by the generation process;
The first frequency information is input to a second neural network, and as an output from the second neural network, the first frequency information is frequency information extracted from waveform data belonging to the first group. A discrimination process that outputs a first discriminant value as differentiable numerical information indicating the degree of likelihood;
Based on a loss function having as input the first discriminant value output by the discriminating process, the first neural network is configured so that the first discriminant value output by the discriminating process indicates a higher likelihood. a control process for learning the network;
comprising the first neural network obtained by performing Method.
第2のグループに属する波形データから、第1の記憶情報に従って、第1のグループに属する波形データを生成する第1生成処理と、 a first generating process for generating waveform data belonging to the first group from the waveform data belonging to the second group according to the first stored information;
前記第1のグループに属する波形データから、第2の記憶情報に従って、前記第2のグループに属する波形データを生成する第2生成処理と、 a second generating process for generating waveform data belonging to the second group from the waveform data belonging to the first group according to second stored information;
入力される周波数情報が前記第1のグループに属する波形データから抽出される周波数情報であるか否かを判別する第1判別処理と、 a first determination process for determining whether or not the input frequency information is frequency information extracted from the waveform data belonging to the first group;
前記第1生成処理により前記第2のグループに属する第1の元波形データから前記第1のグループに属する第1の変換波形データを生成させた後、前記第2生成処理により前記第1の変換波形データから前記第2のグループに属する第1の再構成波形データを生成させるとともに、前記第1の元波形データから抽出される周波数情報を前記第1判別処理で判別した判別結果と、前記第1の再構成波形データから抽出される周波数情報を前記第1判別処理で判別した判別結果との誤差を少なくするように前記第1の記憶情報および前記第2の記憶情報を変化させる制御処理と、 After the first transformed waveform data belonging to the first group is generated from the first original waveform data belonging to the second group by the first generating process, the first transformation is performed by the second generating process. First reconstructed waveform data belonging to the second group is generated from waveform data, and a discrimination result obtained by discriminating frequency information extracted from the first original waveform data in the first discrimination process; a control process for changing the first stored information and the second stored information so as to reduce an error between the frequency information extracted from one piece of reconstructed waveform data and the determination result determined in the first determination process; ,
を実行する方法。 how to run.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018056905A JP7124373B2 (en) | 2018-03-23 | 2018-03-23 | LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018056905A JP7124373B2 (en) | 2018-03-23 | 2018-03-23 | LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019168608A JP2019168608A (en) | 2019-10-03 |
JP7124373B2 true JP7124373B2 (en) | 2022-08-24 |
Family
ID=68107350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018056905A Active JP7124373B2 (en) | 2018-03-23 | 2018-03-23 | LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7124373B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261177A (en) * | 2020-01-19 | 2020-06-09 | 平安科技(深圳)有限公司 | Voice conversion method, electronic device and computer readable storage medium |
JP7277668B2 (en) * | 2020-03-19 | 2023-05-19 | 株式会社ソニー・インタラクティブエンタテインメント | Information processing device, information processing method and program |
CN111986648A (en) * | 2020-06-29 | 2020-11-24 | 联想(北京)有限公司 | Information processing method, device and equipment |
WO2023209762A1 (en) * | 2022-04-25 | 2023-11-02 | 日本電信電話株式会社 | Learning device, conversion device, method, and program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018036413A (en) | 2016-08-30 | 2018-03-08 | 日本電信電話株式会社 | Voice synthesis learning device, method, and program |
-
2018
- 2018-03-23 JP JP2018056905A patent/JP7124373B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018036413A (en) | 2016-08-30 | 2018-03-08 | 日本電信電話株式会社 | Voice synthesis learning device, method, and program |
Non-Patent Citations (3)
Title |
---|
"Generative Adversarial Network-based Postfilter for STFT Spectrograms",Proceedings of INTERSPEECH 2017,2017年08月24日,p.3389-3393 |
"PARALLEL-DATA-FREE VOICE CONVERSION USING CYCLE-CONSISTENT ADVERSARIAL NETWORKS",[online],2017年12月20日,p.1-5,[令和3年12月15日検索],インターネット<URL:https://arxiv.org/pdf/1711.11293.pdf> |
房 福明、山岸 順一、越前 功,CycleGANを用いた高品質なノンパラレル声質変換,電子情報通信学会技術研究報告 Vol.117 No.368,一般社団法人電子情報通信学会,2017年12月14日,pp.37-42 |
Also Published As
Publication number | Publication date |
---|---|
JP2019168608A (en) | 2019-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600047B (en) | Perceptual STARGAN-based multi-to-multi speaker conversion method | |
JP7124373B2 (en) | LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM | |
CN109767778B (en) | Bi-L STM and WaveNet fused voice conversion method | |
CN108231062B (en) | Voice translation method and device | |
WO2020248393A1 (en) | Speech synthesis method and system, terminal device, and readable storage medium | |
Ai et al. | A neural vocoder with hierarchical generation of amplitude and phase spectra for statistical parametric speech synthesis | |
CN110047501B (en) | Many-to-many voice conversion method based on beta-VAE | |
JP2013037174A (en) | Noise/reverberation removal device, method thereof, and program | |
Choi et al. | Sequence-to-sequence emotional voice conversion with strength control | |
WO2023245389A1 (en) | Song generation method, apparatus, electronic device, and storage medium | |
CN112735454A (en) | Audio processing method and device, electronic equipment and readable storage medium | |
CN111326170B (en) | Method and device for converting ear voice into normal voice by combining time-frequency domain expansion convolution | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
JP2019139102A (en) | Audio signal generation model learning device, audio signal generation device, method, and program | |
JP5807921B2 (en) | Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program | |
CN116229932A (en) | Voice cloning method and system based on cross-domain consistency loss | |
WO2019218773A1 (en) | Voice synthesis method and device, storage medium, and electronic device | |
JP7393585B2 (en) | WaveNet self-training for text-to-speech | |
Deng et al. | One-shot voice conversion algorithm based on representations separation | |
CN113241054B (en) | Speech smoothing model generation method, speech smoothing method and device | |
CN116168678A (en) | Speech synthesis method, device, computer equipment and storage medium | |
Ai et al. | Denoising-and-dereverberation hierarchical neural vocoder for statistical parametric speech synthesis | |
JP2022133447A (en) | Speech processing method and device, electronic apparatus, and storage medium | |
Ko et al. | Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity MultiSpeaker TTS | |
CN113066472A (en) | Synthetic speech processing method and related device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7124373 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |