JP6911208B2 - 発話スタイル転移 - Google Patents
発話スタイル転移 Download PDFInfo
- Publication number
- JP6911208B2 JP6911208B2 JP2020542648A JP2020542648A JP6911208B2 JP 6911208 B2 JP6911208 B2 JP 6911208B2 JP 2020542648 A JP2020542648 A JP 2020542648A JP 2020542648 A JP2020542648 A JP 2020542648A JP 6911208 B2 JP6911208 B2 JP 6911208B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- utterance
- audio data
- person
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012546 transfer Methods 0.000 title description 4
- 238000013528 artificial neural network Methods 0.000 claims description 366
- 238000000034 method Methods 0.000 claims description 89
- 230000006870 function Effects 0.000 claims description 87
- 238000012549 training Methods 0.000 claims description 75
- 230000008569 process Effects 0.000 claims description 62
- 230000005236 sound signal Effects 0.000 claims description 46
- 230000000306 recurrent effect Effects 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 31
- 230000002457 bidirectional effect Effects 0.000 claims description 26
- 238000003672 processing method Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 239000011295 pitch Substances 0.000 description 56
- 210000002569 neuron Anatomy 0.000 description 35
- 230000004913 activation Effects 0.000 description 14
- 238000007493 shaping process Methods 0.000 description 13
- 230000001755 vocal effect Effects 0.000 description 11
- 230000015654 memory Effects 0.000 description 10
- 241001672694 Citrus reticulata Species 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 238000002864 sequence alignment Methods 0.000 description 9
- 210000002364 input neuron Anatomy 0.000 description 8
- 210000004205 output neuron Anatomy 0.000 description 8
- 230000008521 reorganization Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000399 orthopedic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
本願は2018年2月16日に出願された米国仮特許出願第62/710,501号および2019年1月28日に出願された第62/797,864号ならびに2019年2月28日に出願された欧州特許出願第18157080.5号の利益を主張するものである。各出願の内容は参照によってその全体において組み込まれる。
本開示はオーディオ信号の処理に関する。特に、本開示は発話スタイル転移実装のためのオーディオ信号の処理に関する。
Lifa Sun et al.、"Voice Conversion Using Deep Bidirectional Long Short-Term Memory Based Recurrent Neural Networks"、2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 19 April 2015, pp.4869-4873
SAMPLERNN: An Unconditional End-To-End Neural Audio Generation Model、会議論文として公開、International Conference on Learning Representations, Toulon, France, April 24-26, 2017
y=Ax+b (式1)
いよる線形変換を適用する。
y=F(x,w) (式2)
に基づいていてもよい。
Loss=L(F(x,w),Y) (式3)
のように構築してもよい。
For i=1,2,…n, do x=x−η∇Li(x) (式4)
Y=X*W (式5)
に従った行列乗算を介して各フレームに対して線形演算を実行するよう構成される。
Claims (27)
- コンピュータで実装されるオーディオ処理方法であって:
発話合成器をトレーニングすることを含み、該トレーニングは:
(a)一つまたは複数のプロセッサおよび一つまたは複数の非一時的記憶媒体を有する制御システムを介して実装される内容抽出プロセスによって、第一の人物の第一の発話に対応する第一のオーディオ・データを受領する段階と;
(b)前記内容抽出プロセスによって、前記第一の発話に対応する第一のタイムスタンプ付けされた音素シーケンスおよび第一のピッチ輪郭データを生成する段階と;
(c)前記制御システムを介して実装される第一のニューラルネットワークによって、前記第一のタイムスタンプ付けされた音素シーケンスおよび前記第一のピッチ輪郭データを受領する段階と;
(d)前記第一のニューラルネットワークによって、前記第一のタイムスタンプ付けされた音素シーケンスおよび前記第一のピッチ輪郭データに対応する第一のニューラルネットワーク出力を生成する段階であって、前記第一のニューラルネットワーク出力は複数のフレーム・サイズを含む、段階と;
(e)前記制御システムを介して実装される第二のニューラルネットワークによって、前記第一のニューラルネットワーク出力を受領する段階であって、前記第二のニューラルネットワークはモジュールの階層構成を含み、各モジュールは異なる時間分解能で動作し、前記第一のニューラルネットワークは、前記第一のニューラルネットワーク出力の前記複数のフレーム・サイズのそれぞれが前記第二のニューラルネットワークのあるモジュールの時間分解能に対応するよう、前記第一のニューラルネットワーク出力を生成している、段階と;
(f)前記第二のニューラルネットワークによって、第一の予測されたオーディオ信号を生成する段階と;
(g)前記制御システムを介して、前記第一の予測されたオーディオ信号を第一の試験データと比較する段階であって、前記試験データは、前記第一の人物の発話に対応するオーディオ・データである、段階と;
(h)前記制御システムを介して、前記第一の予測されたオーディオ信号についての損失関数値を決定する段階と;
(i)前記第一の予測されたオーディオ信号についての現在の損失関数値と前記第一の予測されたオーディオ信号についての以前の損失関数値との間の差が所定の値以下になるまで(a)ないし(h)を繰り返す段階であって、(f)を繰り返すことは、前記第二のニューラルネットワークの少なくとも一つの重みに対応する少なくとも一つの非一時的記憶媒体位置の物理的状態を変更することを含む、段階とを含む、
オーディオ処理方法。 - (a)は、前記第一の人物の前記第一の発話に対応する第一のタイムスタンプ付けされたテキストを受領することをさらに含む、請求項1記載のオーディオ処理方法。
- (a)は、前記第一の人物に対応する第一の識別データを受領することをさらに含む、請求項1または2記載のオーディオ処理方法。
- 前記発話合成器を発話生成のために制御することをさらに含み、該発話生成は:
(j)前記内容抽出プロセスによって、第二の人物の第二の発話に対応する第二のオーディオ・データ、前記第二の発話に対応する第二のタイムスタンプ付けされたテキストおよび前記第一の人物の発話に対応する第一の識別データを受領する段階と;
(k)前記内容抽出プロセスによって、前記第二の発話に対応する第二のタイムスタンプ付けされた音素シーケンスおよび第二のピッチ輪郭データを生成する段階と;
(l)前記第一のニューラルネットワークによって、(k)の前記第二のタイムスタンプ付けされた音素シーケンスおよび前記第二のピッチ輪郭データを受領する段階と;
(m)前記第一のニューラルネットワークによって、(k)の前記第二のタイムスタンプ付けされた音素シーケンスおよび前記第二のピッチ輪郭データに対応する第一のニューラルネットワーク出力を生成する段階と;
(n)前記第二のニューラルネットワークによって、(m)の前記第一のニューラルネットワーク出力および前記第一の識別データを受領する段階と;
(o)前記第二のニューラルネットワークによって、(m)の前記第一のニューラルネットワーク出力および前記第一の識別データに対応する合成されたオーディオ・データを生成する段階とを含む、
請求項3記載のオーディオ処理方法。 - 合成されたオーディオ・データは、前記第一の人物の発話特性に従って前記第二の人物によって発声される単語に対応する、請求項4記載のオーディオ処理方法。
- 前記トレーニングは、第一の言語で前記第一のオーディオ・データを受領することに関わり、前記合成されたオーディオ・データは、第二の言語で前記第二の人物によって発声された単語に対応する、請求項5記載のオーディオ処理方法。
- 一つまたは複数のトランスデューサに、前記合成されたオーディオ・データを再生させることをさらに含む、請求項4ないし6のうちいずれか一項記載のオーディオ処理方法。
- 前記トレーニングは:
第三のニューラルネットワークによって、前記第一のオーディオ・データを受領する段階と;
前記第一の人物の発話に対応する第一の発話特性を決定し、エンコードされたオーディオ・データを出力するよう前記第三のニューラルネットワークをトレーニングする段階とをさらに含む、
請求項4ないし7のうちいずれか一項記載のオーディオ処理方法。 - 前記トレーニングは、前記エンコードされたオーディオ・データが前記第一の人物の発話に対応するかどうかを判定するよう第四のニューラルネットワークをトレーニングする段階をさらに含む、請求項8記載のオーディオ処理方法。
- 前記発話生成は:
前記第三のニューラルネットワークによって、前記第二のオーディオ・データを受領する段階と;
前記第三のニューラルネットワークによって、前記第二のオーディオ・データに対応する第二のエンコードされたオーディオ・データを生成する段階と;
前記第四のニューラルネットワークによって、前記第二のエンコードされたオーディオ・データを受領する段階と;
前記第四のニューラルネットワークが、修正された第二のエンコードされたオーディオ・データが前記第一の人物の発話に対応すると判定するまで、対話的プロセスを介して、修正された第二のエンコードされたオーディオ・データを生成し、前記第四のニューラルネットワークが、修正された第二のエンコードされたオーディオ・データが前記第一の人物の発話に対応すると判定した後、該修正された第二のエンコードされたオーディオ・データを前記第二のニューラルネットワークに提供する段階とをさらに含む、
請求項9記載のオーディオ処理方法。 - (a)ないし(h)を繰り返すことは、前記第一のニューラルネットワークまたは前記第二のニューラルネットワークの少なくとも一方を、現在の損失関数値に基づく逆方向伝搬を介してトレーニングすることに関わる、請求項1ないし10のうちいずれか一項記載のオーディオ処理方法。
- 前記第一のニューラルネットワークは、双方向再帰型ニューラルネットワークを含む、請求項1ないし11のうちいずれか一項記載のオーディオ処理方法。
- インターフェース・システムと;一つまたは複数のプロセッサおよび該一つまたは複数のプロセッサに動作上結合された一つまたは複数の非一時的記憶媒体を有する制御システムとを有する発話合成装置であって、前記制御システムは、発話合成器を実装するよう構成されており、前記発話合成器は、内容抽出器、第一のニューラルネットワークおよび第二のニューラルネットワークを含み、前記第一のニューラルネットワークは双方向再帰型ニューラルネットワークを含み、前記第二のニューラルネットワークは階層構成をなすモジュールを含み、各モジュールは異なる時間分解能で動作し、前記第一のニューラルネットワークおよび前記第二のニューラルネットワークは:
(a)前記インターフェース・システムを介して前記内容抽出器によって、第一の人物の第一の発話に対応する第一のオーディオ・データを受領する段階と;
(b)前記内容抽出器によって、前記第一の発話に対応する第一のタイムスタンプ付けされた音素シーケンスおよび第一のピッチ輪郭データを生成する段階と;
(c)前記第一のニューラルネットワークによって、前記第一のタイムスタンプ付けされた音素シーケンスおよび前記第一のピッチ輪郭データを受領する段階と;
(d)前記第一のニューラルネットワークによって、前記第一のタイムスタンプ付けされた音素シーケンスおよび前記第一のピッチ輪郭データに対応する第一のニューラルネットワーク出力を生成する段階であって、前記第一のニューラルネットワーク出力は複数のフレーム・サイズを含み、各フレーム・サイズは前記第二のニューラルネットワークのあるモジュールの時間分解能に対応する、段階と;
(e)前記第二のニューラルネットワークによって、前記第一のニューラルネットワーク出力を受領する段階と;
(f)前記第二のニューラルネットワークによって、第一の予測されたオーディオ信号を生成する段階と;
(g)前記第一の予測されたオーディオ信号を第一の試験データと比較する段階であって、前記試験データは前記第一の人物の発話に対応するオーディオ・データである、段階と;
(h)前記第一の予測されたオーディオ信号についての損失関数値を決定する段階と;
(i)前記第一の予測されたオーディオ信号についての現在の損失関数値と前記第一の予測されたオーディオ信号についての以前の損失関数値との間の差が所定の値以下になるまで(a)ないし(h)を繰り返す段階とを含むプロセスに従ってトレーニングされており、
前記制御システムは、発話生成のために前記発話合成器モジュールを制御するよう構成されており、前記発話生成は:
(j)前記内容抽出器によって、前記インターフェース・システムを介して、第二の人物の第二の発話に対応する第二のオーディオ・データ、前記第二の発話に対応する第二のタイムスタンプ付けされたテキストおよび前記第一の人物の発話に対応する第一の識別データを受領する段階と;
(k)前記内容抽出器によって、前記第二の発話に対応する第二のタイムスタンプ付けされた音素シーケンスおよび第二のピッチ輪郭データを生成する段階と;
(l)前記第一のニューラルネットワークによって、(k)の前記第二のタイムスタンプ付けされた音素シーケンスおよび前記第二のピッチ輪郭データを受領する段階と;
(m)前記第一のニューラルネットワークによって、(k)の前記第二のタイムスタンプ付けされた音素シーケンスおよび前記第二のピッチ輪郭データに対応する第一のニューラルネットワーク出力を生成する段階と;
(n)前記第二のニューラルネットワークによって、(m)の前記第一のニューラルネットワーク出力および前記第一の識別データを受領する段階と;
(o)前記第二のニューラルネットワークによって、(m)の前記第一のニューラルネットワーク出力および前記第一の識別データに対応する合成されたオーディオ・データを生成する段階とを含む、
発話合成装置。 - 前記合成されたオーディオ・データは、前記第一の人物の発話特性に従って前記第二の人物によって発声される単語に対応する、請求項13記載の発話合成装置。
- 前記トレーニングは、第一の言語で前記第一のオーディオ・データを受領することに関わり、合成されたオーディオ・データは、第二の言語で前記第二の人物によって発声された単語に対応する、請求項14記載の発話合成装置。
- 前記制御システムは、一つまたは複数のトランスデューサに、第二の合成されたオーディオ・データを再生させるよう構成される、請求項13ないし15のうちいずれか一項記載の発話合成装置。
- 合成されたオーディオ・データを生成することは、前記第二のニューラルネットワークの少なくとも一つの重みに対応する少なくとも一つの非一時的記憶媒体位置の物理的状態を変更することを含む、請求項13ないし16のうちいずれか一項記載の発話合成装置。
- インターフェース・システムと;
一つまたは複数のプロセッサおよび該一つまたは複数のプロセッサに動作上結合された一つまたは複数の非一時的記憶媒体を有する制御システムとを有する発話合成装置であって、
前記制御システムは、発話合成器を実装するよう構成されており、前記発話合成器は、内容抽出器、第一のニューラルネットワークおよび第二のニューラルネットワークを含み、前記第一のニューラルネットワークは双方向再帰型ニューラルネットワークを含み、前記第二のニューラルネットワークは階層構成をなすモジュールを含み、各モジュールは異なる時間分解能で動作しし、前記第二のニューラルネットワークは、請求項1ないし12のうちいずれか一項記載のオーディオ処理方法によって第一の話者の第一の発話に対応する第一の合成されたオーディオ・データを生成するようトレーニングされており、前記制御システムは:
(a)前記内容抽出器によって前記インターフェース・システムを介して、第二の人物の第二の発話に対応する第二のオーディオ・データ、前記第二の発話に対応する第二のタイムスタンプ付けされたテキストおよび前記第一の人物の発話に対応する第一の識別データを受領する段階と;
(b)前記内容抽出器によって、前記第二の発話に対応する第二のタイムスタンプ付けされた音素シーケンスおよび第二のピッチ輪郭データを生成する段階と;
(c)前記第一のニューラルネットワークによって、(b)の前記第二のタイムスタンプ付けされた音素シーケンスおよび前記第二のピッチ輪郭データを受領する段階と;
(d)前記第一のニューラルネットワークによって、(b)の前記第二のタイムスタンプ付けされた音素シーケンスおよび前記第二のピッチ輪郭データに対応する第一のニューラルネットワーク出力を生成する段階であって、前記第一のニューラルネットワーク出力は複数のフレーム・サイズを含み、各フレーム・サイズは前記第二のニューラルネットワークのあるモジュールの時間分解能に対応する、段階と;
(e)前記第二のニューラルネットワークによって、(d)の前記第一のニューラルネットワーク出力および前記第一の識別データを受領する段階と;
(f)前記第二のニューラルネットワークによって、(d)の前記第一のニューラルネットワーク出力および前記第一の識別データに対応する第二の合成されたオーディオ・データを生成する段階とを実行するよう前記発話合成器を制御するよう構成されている、
発話合成装置。 - 前記第二の合成されたオーディオ・データは、前記第一の人物の発話特性に従って前記第二の人物によって発声される単語に対応する、請求項18記載の発話合成装置。
- 前記トレーニングは、第一の言語で前記第一のオーディオ・データを受領することに関わり、前記第二の合成されたオーディオ・データは、第二の言語で前記第二の人物によって発声された単語に対応する、請求項19記載の発話合成装置。
- 一つまたは複数のトランスデューサに、前記第二の合成されたオーディオ・データを再生させることをさらに含む、請求項18ないし20のうちいずれか一項記載の発話合成装置。
- 前記合成されたオーディオ・データを生成することは、前記第二のニューラルネットワークの少なくとも一つの重みに対応する少なくとも一つの非一時的記憶媒体位置の物理的状態を変更することを含む、請求項18ないし21のうちいずれか一項記載の発話合成装置。
- インターフェース・システムと;一つまたは複数のプロセッサおよび該一つまたは複数のプロセッサに動作上結合された一つまたは複数の非一時的記憶媒体を有する制御システムとを有する発話合成装置であって、前記制御システムは、発話合成器を実装するよう構成されており、前記発話合成器は、内容抽出器、第一のニューラルネットワークおよび第二のニューラルネットワークを含み、前記第一のニューラルネットワークは双方向再帰型ニューラルネットワークを含み、前記第二のニューラルネットワークは階層構成をなすモジュールを含み、各モジュールは異なる時間分解能で動作し、前記第一のニューラルネットワークおよび前記第二のニューラルネットワークは:
(a)前記インターフェース・システムを介して前記内容抽出器によって、目標話者の第一の発話に対応する第一のオーディオ・データを受領する段階と;
(b)前記内容抽出器によって、前記第一の発話に対応する第一のタイムスタンプ付けされた音素シーケンスおよび第一のピッチ輪郭データを生成する段階と;
(c)前記第一のニューラルネットワークによって、前記第一のタイムスタンプ付けされた音素シーケンスおよび前記第一のピッチ輪郭データを受領する段階と;
(d)前記第一のニューラルネットワークによって、前記第一のタイムスタンプ付けされた音素シーケンスおよび前記第一のピッチ輪郭データに対応する第一のニューラルネットワーク出力を生成する段階であって、前記第一のニューラルネットワーク出力は複数のフレーム・サイズを含み、各フレーム・サイズは前記第二のニューラルネットワークのあるモジュールの時間分解能に対応する、段階と;
(e)前記第二のニューラルネットワークによって、前記第一のニューラルネットワーク出力を受領する段階と;
(f)前記第二のニューラルネットワークによって、第一の予測されたオーディオ信号を生成する段階と;
(g)前記第一の予測されたオーディオ信号を第一の試験データと比較する段階と;
(h)前記第一の予測されたオーディオ信号についての損失関数値を決定する段階と;
(i)前記第一の予測されたオーディオ信号についての現在の損失関数値と前記第一の予測されたオーディオ信号についての以前の損失関数値との間の差が所定の値以下になるまで(a)ないし(h)を繰り返す段階とを含むプロセスに従ってトレーニングされており、
前記制御システムは、発話生成のために前記発話合成器モジュールを制御するよう構成されており、前記発話生成は:
(j)前記内容抽出器によって、前記インターフェース・システムを介して、源話者の第二の発話に対応する第二のオーディオ・データ、前記第二の発話に対応する第二のタイムスタンプ付けされたテキストおよび前記目標話者の発話に対応する第一の識別データを受領する段階と;
(k)前記内容抽出器によって、前記第二の発話に対応する第二のタイムスタンプ付けされた音素シーケンスおよび第二のピッチ輪郭データを生成する段階と;
(l)前記第一のニューラルネットワークによって、(k)の前記第二のタイムスタンプ付けされた音素シーケンスおよび前記第二のピッチ輪郭データを受領する段階と;
(m)前記第一のニューラルネットワークによって、(k)の前記第二のタイムスタンプ付けされた音素シーケンスおよび前記第二のピッチ輪郭データに対応する第一のニューラルネットワーク出力を生成する段階と;
(n)前記第二のニューラルネットワークによって、(m)の前記第一のニューラルネットワーク出力および前記第一の識別データを受領する段階と;
(o)前記第二のニューラルネットワークによって、(m)の前記第一のニューラルネットワーク出力および前記第一の識別データに対応する合成されたオーディオ・データを生成する段階とを含む、
発話合成装置。 - 前記合成されたオーディオ・データが、前記目標話者の発話特性に従って前記源話者によって発声された単語に対応する、請求項23記載の発話合成装置。
- 前記目標話者および前記源話者が、異なる年齢における同じ人物である、請求項23記載の発話合成装置。
- 前記目標話者の前記第一の発話は、第一の年齢におけるまたは該第一の年齢を含む年齢範囲の間の、ある人物の発話に対応し、前記源話者の前記第二の発話は、第二の年齢におけるその人物の発話に対応する、請求項23記載の発話合成装置。
- 前記第一の年齢が前記第二の年齢より若い年齢である、請求項26記載の発話合成装置。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862710501P | 2018-02-16 | 2018-02-16 | |
US62/710,501 | 2018-02-16 | ||
EP18157080 | 2018-02-16 | ||
EP18157080.5 | 2018-02-16 | ||
US201962797864P | 2019-01-28 | 2019-01-28 | |
US62/797,864 | 2019-01-28 | ||
PCT/US2019/017941 WO2019161011A1 (en) | 2018-02-16 | 2019-02-14 | Speech style transfer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021508859A JP2021508859A (ja) | 2021-03-11 |
JP6911208B2 true JP6911208B2 (ja) | 2021-07-28 |
Family
ID=66102176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020542648A Active JP6911208B2 (ja) | 2018-02-16 | 2019-02-14 | 発話スタイル転移 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP3752964B1 (ja) |
JP (1) | JP6911208B2 (ja) |
CN (1) | CN111771213B (ja) |
WO (1) | WO2019161011A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201804073D0 (en) * | 2018-03-14 | 2018-04-25 | Papercup Tech Limited | A speech processing system and a method of processing a speech signal |
US20210089909A1 (en) * | 2019-09-25 | 2021-03-25 | Deepmind Technologies Limited | High fidelity speech synthesis with adversarial networks |
WO2020035085A2 (en) * | 2019-10-31 | 2020-02-20 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for determining voice characteristics |
CN111627420B (zh) * | 2020-04-21 | 2023-12-08 | 升智信息科技(南京)有限公司 | 极低资源下的特定发音人情感语音合成方法及装置 |
CN111599343B (zh) * | 2020-05-14 | 2021-11-09 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112116906B (zh) * | 2020-08-27 | 2024-03-22 | 山东浪潮科学研究院有限公司 | 一种基于gan网络的现场混音方法、装置、设备及介质 |
CN112309365B (zh) * | 2020-10-21 | 2024-05-10 | 北京大米科技有限公司 | 语音合成模型的训练方法、装置、存储介质以及电子设备 |
CN112382272B (zh) * | 2020-12-11 | 2023-05-23 | 平安科技(深圳)有限公司 | 可控制语音速度的语音合成方法、装置、设备及存储介质 |
CN112633381B (zh) * | 2020-12-24 | 2023-09-01 | 北京百度网讯科技有限公司 | 音频识别的方法及音频识别模型的训练方法 |
CN112992107B (zh) * | 2021-03-25 | 2024-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 训练声学转换模型的方法、终端及存储介质 |
EP4293660A4 (en) * | 2021-06-22 | 2024-07-17 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE AND ITS CONTROL METHOD |
JP7069386B1 (ja) | 2021-06-30 | 2022-05-17 | 株式会社ドワンゴ | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
CN114171053B (zh) * | 2021-12-20 | 2024-04-05 | Oppo广东移动通信有限公司 | 一种神经网络的训练方法、音频分离方法、装置及设备 |
CN115132196B (zh) * | 2022-05-18 | 2024-09-10 | 腾讯科技(深圳)有限公司 | 语音指令识别的方法、装置、电子设备及存储介质 |
WO2023236054A1 (zh) * | 2022-06-07 | 2023-12-14 | 北京小米移动软件有限公司 | 一种生成音频的方法、装置及存储介质 |
CN114999447B (zh) * | 2022-07-20 | 2022-10-25 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型及语音合成方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8738370B2 (en) * | 2005-06-09 | 2014-05-27 | Agi Inc. | Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program |
US8340977B2 (en) * | 2008-05-08 | 2012-12-25 | Broadcom Corporation | Compensation technique for audio decoder state divergence |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
JP6543820B2 (ja) * | 2015-06-04 | 2019-07-17 | 国立大学法人電気通信大学 | 声質変換方法および声質変換装置 |
US9558734B2 (en) * | 2015-06-29 | 2017-01-31 | Vocalid, Inc. | Aging a text-to-speech voice |
US9792897B1 (en) * | 2016-04-13 | 2017-10-17 | Malaspina Labs (Barbados), Inc. | Phoneme-expert assisted speech recognition and re-synthesis |
CN105869630B (zh) * | 2016-06-27 | 2019-08-02 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
US10176819B2 (en) * | 2016-07-11 | 2019-01-08 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106875007A (zh) * | 2017-01-25 | 2017-06-20 | 上海交通大学 | 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络 |
-
2019
- 2019-02-14 CN CN201980013180.8A patent/CN111771213B/zh active Active
- 2019-02-14 EP EP19716599.6A patent/EP3752964B1/en active Active
- 2019-02-14 JP JP2020542648A patent/JP6911208B2/ja active Active
- 2019-02-14 WO PCT/US2019/017941 patent/WO2019161011A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
CN111771213A (zh) | 2020-10-13 |
JP2021508859A (ja) | 2021-03-11 |
EP3752964A1 (en) | 2020-12-23 |
WO2019161011A1 (en) | 2019-08-22 |
CN111771213B (zh) | 2021-10-08 |
EP3752964B1 (en) | 2023-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6911208B2 (ja) | 発話スタイル転移 | |
US11538455B2 (en) | Speech style transfer | |
Sun | End-to-end speech emotion recognition with gender information | |
Deng | Deep learning: from speech recognition to language and multimodal processing | |
Ling et al. | Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends | |
Dahl et al. | Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition | |
Hossain et al. | Implementation of back-propagation neural network for isolated Bangla speech recognition | |
Gaurav et al. | Performance of deer hunting optimization based deep learning algorithm for speech emotion recognition | |
Das et al. | A hybrid meta-heuristic feature selection method for identification of Indian spoken languages from audio signals | |
Bose et al. | Deep learning for audio signal classification | |
Guha et al. | Hybrid feature selection method based on harmony search and naked mole-rat algorithms for spoken language identification from audio signals | |
Deng et al. | Foundations and trends in signal processing: Deep learning–methods and applications | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
Meyer | Multi-task and transfer learning in low-resource speech recognition | |
Roy et al. | A survey of classification techniques in speech emotion recognition | |
Swain et al. | A DCRNN-based ensemble classifier for speech emotion recognition in Odia language | |
Gambhir et al. | End-to-end multi-modal low-resourced speech keywords recognition using sequential Conv2D nets | |
Jolad et al. | ANNs for automatic speech recognition—a survey | |
Cakir | Multilabel sound event classification with neural networks | |
Sarma et al. | Speech recognition in Indian languages—a survey | |
Mohanty et al. | Improvement of speech emotion recognition by deep convolutional neural network and speech features | |
Bansal et al. | Automatic speech recognition by cuckoo search optimization based artificial neural network classifier | |
Mohanty et al. | Application of deep learning approach for recognition of voiced Odia digits | |
Bohouta | Improving wake-up-word and general speech recognition systems | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200806 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200806 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210707 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6911208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |