JP6875572B2 - 音声合成方法、装置、電子デバイス、及びプログラム - Google Patents
音声合成方法、装置、電子デバイス、及びプログラム Download PDFInfo
- Publication number
- JP6875572B2 JP6875572B2 JP2020025772A JP2020025772A JP6875572B2 JP 6875572 B2 JP6875572 B2 JP 6875572B2 JP 2020025772 A JP2020025772 A JP 2020025772A JP 2020025772 A JP2020025772 A JP 2020025772A JP 6875572 B2 JP6875572 B2 JP 6875572B2
- Authority
- JP
- Japan
- Prior art keywords
- time step
- current time
- feature
- spectral
- spectral feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 32
- 230000003595 spectral effect Effects 0.000 claims description 140
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 230000001537 neural effect Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000015654 memory Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000000034 method Methods 0.000 description 16
- 230000001052 transient effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 101100129915 Escherichia coli (strain K12) melB gene Proteins 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することと、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して音声を出力することと、を含む。
本実施形態では、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する。音響モデルは、自己回帰を導入することにより、トレーニングデータ量が少ない場合でも、高い再現度、高いナチュラル度の音声を生成することができる。そして、自己回帰の都度得られた現在のタイムステップにおけるスペクトル特徴がニューラルネットワークベースのボコーダーに入力され、合成された音声を得る。ニューラルネットワークベースのボコーダは、汎用的な装置においてリアルタイムで高音質な音声を実現できるとともに、演算量を削減して合成速度を高めることができる。自己回帰型の音響モデルとニューラルネットワークベースのボコーダーとを組み合わせることにより、ハードウェア資源の節約と音声合成の高速化を図りつつ、合成音声のナチュラル度と音質を向上させることができる。
テキスト情報が、エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力することを含む。
本実施形態では、テキスト情報は、少なくとも1つの全結合層及びゲート付き回帰ユニットを経た後、前後文書の情報を有効に取得できるため、合成された音声の表現がより流暢になる。
直前のタイムステップにおける接続特徴をデコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力することと、
直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得することと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得することと、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力し、現在のタイムステップにおける第1のスペクトル特徴を取得することと,をさらに含む。
本実施形態では、直前のタイムステップにおける第1のスペクトル特徴または直前のタイムステップにおける第2のスペクトル特徴を、現在のタイムステップにおけるテキスト特徴に接続した後、音響モデルのボコーダーに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する。ボコーダーにおいて自己回帰的なスペクトル特徴が生成されるため、トレーニングデータ量が少ない場合でも、高い還元度で高いナチュラル度の音声を生成することができる。
現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得することと、
現在のタイムステップにおける第1のスペクトル特徴または現在のタイムステップにおける第2のスペクトル特徴をニューラルボコーダーに入力して、音声を出力することと、を含む。
本実施形態では、第1のスペクトル特徴を2つの畳み込みニューラルネットワークを通して、第2のスペクトル特徴を取得することができるため、第1のスペクトルシグネチャの平滑化を高めることができる。この畳み込みニューラルネットワークによるスペクトル特徴の平滑化処理により、第1のスペクトル特徴よりも平滑化が進んだ第2のスペクトル特徴が得られる。
現在のタイムステップにおける第1のスペクトル特徴と、真のスペクトル特徴と、に基づいて第1の損失を算出することと、
現在のタイムステップにおける第2のスペクトル特徴と、真のスペクトル特徴と、に基づいて第2の損失を算出することと、
第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングすることと、をさらに含む。
本実施形態では、第1の損失及び第2の損失を算出する際に真のスペクトル特徴を導入することにより、第2の損失及び第2の損失を用いてトレーニングされた音響モデルによって生成されるスペクトル特徴が真のスペクトル特徴により近づくため、合成音声の再現度が向上する。
テキスト情報を音響モデルのエンコーダに入力し、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュールと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力し、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュールと、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力し、音声を出力する音声合成モジュールと、を含む。
テキスト情報が、エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュールを含む。
直前のタイムステップにおける接続特徴をデコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力し、直前のタイムステップにおける第1のスペクトル特徴を出力する第1のデコーディングサブモジュールと、
直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力し、直前のタイムステップにおける第2のスペクトル特徴を取得する回帰サブモジュールと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第2のスペクトル特徴とを接続し、現在のタイムステップにおける接続特徴を取得する接続サブモジュールと、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力し、現在のタイムステップにおける第1のスペクトル特徴を取得する第2のデコーディングサブモジュールと、を含む。
現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力し、現在のタイムステップにおける第2のスペクトル特徴を取得する平滑化サブモジュールと、
現在のタイムステップにおける第1のスペクトル特徴または現在のタイムステップにおける第2のスペクトル特徴をニューラルボコーダーに入力し、音声を出力する合成サブモジュールと、を含む。
現在のタイムステップにおける第1のスペクトル特徴と、真のスペクトル特徴と、に基づいて第1の損失を算出し、
現在のタイムステップにおける第2のスペクトル特徴と、真のスペクトル特徴と、に基づいて第2の損失を算出し、
第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングするモデル訓練モジュール、をさらに含む。
本発明によれば、音響モデルの自己回帰を用いた技術的手段により、合成音声が不自然で流暢でなく、音質が悪く、音声合成速度も遅い、という技術的課題を克服し、合成音声の再現度及びナチュラル度を向上させるとともに、音声合成速度を速くする、という技術的効果が得られる。
1つの具体的な実施の形態において、図1に示すように、音声合成方法を提供する。当該音声合成方法は、以下のステップS10、S20、S30を含む。
S10において、テキスト情報を音響モデルのエンコーダに入力し、現在のタイムステップにおけるテキスト特徴を出力する。
S20において、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力し、現在のタイムステップにおけるスペクトル特徴を取得する。
S30において、現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して音声を出力する。
S101において、テキスト情報が、エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力する。
本実施形態では、テキスト情報は、少なくとも1つの全結合層及びゲート付き回帰ユニットを経た後、前後文書の情報を有効に取得できるため、合成された音声の表現がより流暢になる。
S201において、直前のタイムステップにおける接続特徴をデコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力する。
S202において、直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得する。
S203において、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する。
S204において、現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する。
本実施形態では、直前のタイムステップにおける第1のスペクトル特徴または直前のタイムステップにおける第2のスペクトル特徴を、現在のタイムステップにおけるテキスト特徴に接続した後、音響モデルのボコーダーに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する。ボコーダーにおいて自己回帰的なスペクトル特徴が生成されるため、トレーニングデータ量が少ない場合でも、高い還元度で高いナチュラル度の音声を生成することができる。
S301において、現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得する。
S302において、現在のタイムステップにおける第1のスペクトル特徴または現在のタイムステップにおける第2のスペクトル特徴をニューラルボコーダーに入力して、音声を出力する。
本実施形態では、第1のスペクトル特徴を2つの畳み込みニューラルネットワークを通して、第2のスペクトル特徴を取得することができるため、第1のスペクトルシグネチャの平滑化を高めることができる。この畳み込みニューラルネットワークによるスペクトル特徴の平滑化処理により、第1のスペクトル特徴よりも平滑化が進んだ第2のスペクトル特徴が得られる。
S40において、現在のタイムステップにおける第1のスペクトル特徴と真のスペクトル特徴とに基づいて第1の損失を算出し、現在のタイムステップにおける第2のスペクトル特徴と真のスペクトル特徴とに基づいて第2の損失を算出する。
S50において、第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングする。
本実施形態では、第1の損失及び第2の損失を算出する際に真のスペクトル特徴を導入することにより、第2の損失及び第2の損失を用いてトレーニングされた音響モデルによって生成されるスペクトル特徴が真のスペクトル特徴により近づくため、合成音声の再現度が向上する。
1つの実施形態では、音声の合成は下記の2つの段階を含む。第1の段階では、音声合成の前段のシステムにて、テキストをリッチテキスト情報に変換し、第2の段階では、音声合成の後段のシステムにて、リッチテキスト情報を音声に合成する。音声合成の後段のシステムにおいて、テキスト情報をスペクトル特徴に変換する音響モデルを提供することができる。本実施形態では、まず、図3に示すように、音響モデルとして、melベースの自己回帰型循環ニューラルネットワーク( MELRNN )を提供することができる。前段のシステムより提供されたリッチテキスト情報は、5音素を抽出することにより、615次元のような次元の高いテキスト情報に拡張することができる。高次元テキスト情報はエンコーダに入力され、第1の全結合層、第2の全結合層、及び第1のゲート付き回帰ユニット( GRU,Gated Recurrent Unit )を通して、時系列に関連する高次元のテキスト特徴を取得することができる。エンコーダから出力された現在のタイムステップにおけるテキスト特徴を、直前のタイムステップにおけるメル特徴に接続して、現在のタイムステップにおける接続特徴を得る。このステップにより、直前のタイムステップにおけるメル特徴がMELRNNにおける時間進行プロセスに導入される。そして、現在のタイムステップにおける接続特徴がデコーダに入力され、第2のゲート付き回帰ユニット、第3のゲート付き回帰ユニット、及び第4の全結合層を通して、図3に示されたスペクトル特徴mel1のような現在のタイムステップにおけるメル(mel)特徴が出力される。mel1が1つの全結合層を通過させた結果であるmel2を、次のタイムステップにおけるテキスト特徴と接続して、次のタイムステップにおける接続特徴を得ることができる。このステップにより、現在時刻のメル(mel)特徴がメルベースの回帰ニューラルネットワークの時間進行プロセスに導入される。このように、複数のタイムステップにおけるメル(mel)特徴が得られる。mel1に続いて、2層の畳み込みニューラルネットワーク( CNN,Convolutional Neural Networks )を通してmel3を得、mel特徴をより滑らかにする。
1つの具体的な実施の形態において、図5に示すように、音声合成装置100を提供する。当該音声合成装置100は、
テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュール101と、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュール102と、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力する音声合成モジュール103と、を含む。
テキスト情報が、エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュール1011を含む。
直前のタイムステップにおける接続特徴をデコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力する第1のデコーディングサブモジュール1021と、
直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得する回帰サブモジュール1022と、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する接続サブモジュール1023と、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する第2のデコーディングサブモジュール1024と、を含む。
現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得する平滑化サブモジュール1031と、
現在のタイムステップにおける第1のスペクトル特徴または現在のタイムステップにおける第2のスペクトル特徴をニューラルボコーダーに入力して、音声を出力する合成サブモジュール1032と、を含む。
図7は本願実施形態の音声合成方法に係る電子デバイスの構成図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、およびその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は例示的なものに過ぎず、本明細書で説明されたものおよび/または要求される本明細書の実施を制限することは意図されない。
図7に示すように、当該電子デバイスは、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス(例えば、インターフェースに接続された表示デバイス)にグラフィックユーザインターフェース(Graphical User Interface,GUI)を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)を提供する。図7においてプロセッサ701を例とする。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本明細書で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本明細書で開示された技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、および代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。
Claims (13)
- テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することと、
前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することと、
前記現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力することと、を含む、
ことを特徴とする音声合成方法。 - 前記テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することは、
前記テキスト情報が、前記エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力することを含む、
ことを特徴とする請求項1に記載の音声合成方法。 - 前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することとは、
直前のタイムステップにおける接続特徴を前記デコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力することと、
前記直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得することと、
前記現在のタイムステップにおけるテキスト特徴と前記直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得することと、
前記現在のタイムステップにおける接続特徴を前記音響モデルのデコーダに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得することと、を含む、
ことを特徴とする請求項1に記載の音声合成方法。 - 現在のタイムステップにおけるスペクトル特徴を、ニューラルボコーダーに入力して音声を出力することは、
前記現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得することと、
前記現在のタイムステップにおける第1のスペクトル特徴または前記現在のタイムステップにおける第2のスペクトル特徴を前記ニューラルボコーダーに入力して、前記音声を出力することと、を含む、
ことを特徴とする請求項3に記載の音声合成方法。 - 前記現在のタイムステップにおける第1のスペクトル特徴と、真のスペクトル特徴と、に基づいて第1の損失を算出することと、
前記現在のタイムステップにおける第2のスペクトル特徴と、前記真のスペクトル特徴と、に基づいて第2の損失を算出することと、
前記第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングすること、をさらに含む、
ことを特徴とする請求項4に記載の音声合成方法。 - テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュールと、
前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュールと、
前記現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力する音声合成モジュールと、を含む、
ことを特徴とする音声合成装置。 - 前記テキスト特徴抽出モジュールは、
前記テキスト情報が、前記エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュールを含む、
ことを特徴とする請求項6に記載の音声合成装置。 - 前記特徴回帰モジュールは、
直前のタイムステップにおける接続特徴を前記デコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力する第1のデコーディングサブモジュールと、
前記直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得する回帰サブモジュールと、
前記現在のタイムステップにおけるテキスト特徴と前記直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する接続サブモジュールと、
前記現在のタイムステップにおける接続特徴を前記音響モデルのデコーダに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する第2のデコーディングサブモジュールと、を含む、
ことを特徴とする請求項6に記載の音声合成装置。 - 前記音声合成モジュールは、
前記現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得する平滑化サブモジュールと、
前記現在のタイムステップにおける第1のスペクトル特徴または前記現在のタイムステップにおける第2のスペクトル特徴を前記ニューラルボコーダーに入力して、前記音声を出力する合成サブモジュールと、を含む、
ことを特徴とする請求項8に記載の音声合成装置。 - 前記現在のタイムステップにおける第1のスペクトル特徴と、真のスペクトル特徴と、に基づいて第1の損失を算出し、
前記現在のタイムステップにおける第2のスペクトル特徴と、前記真のスペクトル特徴と、に基づいて第2の損失を算出し、
前記第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングするモデル訓練モジュール、をさらに含む、を特徴とする請求項9に記載の音声合成装置。 - 1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶する記憶装置とを含み、
前記1つ又は複数のプロセッサは、前記1つ又は複数のプログラムを実行する場合、請求項1〜5のいずれか1項に記載の音声合成方法を実行させる、
ことを特徴とする電子デバイス。 - コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
当該プログラムがプロセッサに実行される場合、請求項1〜5のいずれか1項に記載の音声合成方法を実行させる、
ことを特徴とするコンピュータ可読記憶媒体。 - コンピュータにおいて、プロセッサにより実行される場合、請求項1〜5のいずれか1項に記載の音声合成方法を実現することを特徴とするプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910888456.9A CN110473516B (zh) | 2019-09-19 | 2019-09-19 | 语音合成方法、装置以及电子设备 |
CN201910888456.9 | 2019-09-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021047392A JP2021047392A (ja) | 2021-03-25 |
JP6875572B2 true JP6875572B2 (ja) | 2021-05-26 |
Family
ID=68516319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020025772A Active JP6875572B2 (ja) | 2019-09-19 | 2020-02-19 | 音声合成方法、装置、電子デバイス、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11417314B2 (ja) |
JP (1) | JP6875572B2 (ja) |
CN (1) | CN110473516B (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111048116B (zh) * | 2019-12-23 | 2022-08-19 | 度小满科技(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN113053356B (zh) * | 2019-12-27 | 2024-05-31 | 科大讯飞股份有限公司 | 语音波形生成方法、装置、服务器及存储介质 |
CN113539231B (zh) * | 2020-12-30 | 2024-06-18 | 腾讯科技(深圳)有限公司 | 音频处理方法、声码器、装置、设备及存储介质 |
CN112863477B (zh) * | 2020-12-31 | 2023-06-27 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置及存储介质 |
CN112908294B (zh) * | 2021-01-14 | 2024-04-05 | 杭州倒映有声科技有限公司 | 一种语音合成方法以及语音合成系统 |
CN112786009A (zh) * | 2021-02-26 | 2021-05-11 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112951202B (zh) * | 2021-03-11 | 2022-11-08 | 北京嘀嘀无限科技发展有限公司 | 语音合成方法、装置、电子设备以及程序产品 |
CN113096679A (zh) * | 2021-04-02 | 2021-07-09 | 北京字节跳动网络技术有限公司 | 音频数据处理方法和装置 |
CN113436603B (zh) * | 2021-06-28 | 2023-05-02 | 北京达佳互联信息技术有限公司 | 声码器的训练方法和装置及合成音频信号的方法和声码器 |
CN113593519B (zh) * | 2021-06-30 | 2023-10-31 | 北京新氧科技有限公司 | 文本的语音合成方法、系统、装置、设备及存储介质 |
CN113628610B (zh) * | 2021-08-12 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语音合成方法和装置、电子设备 |
CN113450758B (zh) * | 2021-08-27 | 2021-11-16 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置、设备及介质 |
CN114582317B (zh) * | 2022-03-29 | 2023-08-08 | 马上消费金融股份有限公司 | 语音合成方法、声学模型的训练方法及装置 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248990A (ja) * | 1995-03-07 | 1996-09-27 | Fujitsu Ltd | 音声合成装置 |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US6266637B1 (en) * | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
US7761296B1 (en) * | 1999-04-02 | 2010-07-20 | International Business Machines Corporation | System and method for rescoring N-best hypotheses of an automatic speech recognition system |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US6915261B2 (en) * | 2001-03-16 | 2005-07-05 | Intel Corporation | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs |
US8886538B2 (en) * | 2003-09-26 | 2014-11-11 | Nuance Communications, Inc. | Systems and methods for text-to-speech synthesis using spoken example |
US7689421B2 (en) * | 2007-06-27 | 2010-03-30 | Microsoft Corporation | Voice persona service for embedding text-to-speech features into software programs |
WO2011025532A1 (en) * | 2009-08-24 | 2011-03-03 | NovaSpeech, LLC | System and method for speech synthesis using frequency splicing |
CN105206264B (zh) * | 2015-09-22 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105448289A (zh) * | 2015-11-16 | 2016-03-30 | 努比亚技术有限公司 | 一种语音合成、删除方法、装置及语音删除合成方法 |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
CN107545903B (zh) * | 2017-07-19 | 2020-11-24 | 南京邮电大学 | 一种基于深度学习的语音转换方法 |
CN109326278B (zh) * | 2017-07-31 | 2022-06-07 | 科大讯飞股份有限公司 | 一种声学模型构建方法及装置、电子设备 |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN107992485A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种同声传译方法及装置 |
CN107945786B (zh) * | 2017-11-27 | 2021-05-25 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
CN108492818B (zh) * | 2018-03-22 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 文本到语音的转换方法、装置和计算机设备 |
CN109036371B (zh) * | 2018-07-19 | 2020-12-18 | 北京光年无限科技有限公司 | 用于语音合成的音频数据生成方法及系统 |
CN109036377A (zh) | 2018-07-26 | 2018-12-18 | 中国银联股份有限公司 | 一种语音合成方法及装置 |
US10380997B1 (en) * | 2018-07-27 | 2019-08-13 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
CN109841206B (zh) * | 2018-08-31 | 2022-08-05 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
US10726830B1 (en) * | 2018-09-27 | 2020-07-28 | Amazon Technologies, Inc. | Deep multi-channel acoustic modeling |
CN109599092B (zh) * | 2018-12-21 | 2022-06-10 | 秒针信息技术有限公司 | 一种音频合成方法及装置 |
CN109902155B (zh) * | 2018-12-29 | 2021-07-06 | 清华大学 | 多模态对话状态处理方法、装置、介质及计算设备 |
CN109859736B (zh) * | 2019-01-23 | 2021-05-25 | 北京光年无限科技有限公司 | 语音合成方法及系统 |
CN109523989B (zh) * | 2019-01-29 | 2022-01-11 | 网易有道信息技术(北京)有限公司 | 语音合成方法、语音合成装置、存储介质及电子设备 |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
CN110164413B (zh) * | 2019-05-13 | 2021-06-04 | 北京百度网讯科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
JP7432199B2 (ja) * | 2019-07-05 | 2024-02-16 | 国立研究開発法人情報通信研究機構 | 音声合成処理装置、音声合成処理方法、および、プログラム |
KR20190087353A (ko) * | 2019-07-05 | 2019-07-24 | 엘지전자 주식회사 | 음성 인식 검증 장치 및 방법 |
CN110232907B (zh) * | 2019-07-24 | 2021-11-02 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置、可读存储介质及计算设备 |
JP7336135B2 (ja) * | 2019-08-19 | 2023-08-31 | 大学共同利用機関法人情報・システム研究機構 | 音声合成装置 |
-
2019
- 2019-09-19 CN CN201910888456.9A patent/CN110473516B/zh active Active
-
2020
- 2020-02-19 JP JP2020025772A patent/JP6875572B2/ja active Active
- 2020-02-21 US US16/797,267 patent/US11417314B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN110473516A (zh) | 2019-11-19 |
US20210090550A1 (en) | 2021-03-25 |
CN110473516B (zh) | 2020-11-27 |
US11417314B2 (en) | 2022-08-16 |
JP2021047392A (ja) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6875572B2 (ja) | 音声合成方法、装置、電子デバイス、及びプログラム | |
KR102484967B1 (ko) | 음성 전환 방법, 장치 및 전자 기기 | |
JP7259197B2 (ja) | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN111859994B (zh) | 机器翻译模型获取及文本翻译方法、装置及存储介质 | |
CN112382271B (zh) | 语音处理方法、装置、电子设备和存储介质 | |
CN112365880B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN110619867B (zh) | 语音合成模型的训练方法、装置、电子设备及存储介质 | |
CN112509552B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
JP7044839B2 (ja) | エンドツーエンドモデルのトレーニング方法および装置 | |
JP7167106B2 (ja) | 口形特徴予測方法、装置及び電子機器 | |
KR102538467B1 (ko) | 모델의 증류 방법, 장치, 전자기기 및 저장매체 | |
KR102630243B1 (ko) | 구두점 예측 방법 및 장치 | |
JP6986592B2 (ja) | リズム一時停止予測方法、装置および電子機器 | |
CN110767212B (zh) | 一种语音处理方法、装置和电子设备 | |
CN115953997A (zh) | 使用神经网络的文本到语音合成的无监督对齐 | |
CN111666387A (zh) | 对话生成方法、装置、电子设备及存储介质 | |
JP7216065B2 (ja) | 音声認識方法及び装置、電子機器並びに記憶媒体 | |
JP7121791B2 (ja) | 言語生成方法、装置及び電子機器 | |
JP7121106B2 (ja) | 構文線形性に基づく言語変換方法および装置 | |
CN112541956A (zh) | 动画合成方法、装置、移动终端和电子设备 | |
CN113689866B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
CN112527105B (zh) | 人机互动方法、装置、电子设备及存储介质 | |
CN114999440A (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
Shipton et al. | Implementing WaveNet Using Intel® Stratix® 10 NX FPGA for Real-Time Speech Synthesis | |
CN114495898B (zh) | 一种统一的语音合成与语音转换的训练方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210422 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6875572 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE Ref document number: 6875572 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |