JP6875572B2 - 音声合成方法、装置、電子デバイス、及びプログラム - Google Patents

音声合成方法、装置、電子デバイス、及びプログラム Download PDF

Info

Publication number
JP6875572B2
JP6875572B2 JP2020025772A JP2020025772A JP6875572B2 JP 6875572 B2 JP6875572 B2 JP 6875572B2 JP 2020025772 A JP2020025772 A JP 2020025772A JP 2020025772 A JP2020025772 A JP 2020025772A JP 6875572 B2 JP6875572 B2 JP 6875572B2
Authority
JP
Japan
Prior art keywords
time step
current time
feature
spectral
spectral feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020025772A
Other languages
English (en)
Other versions
JP2021047392A (ja
Inventor
サン,チェンシー
サン,タオ
ズー,シァオリン
ワン,ウェンフ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2021047392A publication Critical patent/JP2021047392A/ja
Application granted granted Critical
Publication of JP6875572B2 publication Critical patent/JP6875572B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、音声合成の技術分野に関し、特に、音声合成方法、装置、電子デバイス、及びプログラムに関する。
音声合成は、機械的、電子的な方法により人工音声を生成する技術であり、コンピュータ自身から生成された、あるいは外部から入力された文字情報を、聞き取り可能な、流暢な中国語の音声に変換して出力する技術である。具体的には、テキストを一旦コンパクトな音声表現に変換し、この表現をボコーダと呼ばれる音声波形合成手法を用いて音声に変換する。例えば、現在のスマートデバイスは、音声を再生する際に音声を合成する必要がある。しかしながら、従来の音声装置は、合成された音声が不自然で流暢でなく、音質が悪く、音声合成速度も遅いという問題があった。
本発明は、従来技術における上記の1つ又は複数の技術課題を解決するための音声合成方法、装置、及び電子デバイスを提供する。
本発明の第1態様は、音声合成方法を提供する。当該方法は、
テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することと、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して音声を出力することと、を含む。
本実施形態では、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する。音響モデルは、自己回帰を導入することにより、トレーニングデータ量が少ない場合でも、高い再現度、高いナチュラル度の音声を生成することができる。そして、自己回帰の都度得られた現在のタイムステップにおけるスペクトル特徴がニューラルネットワークベースのボコーダーに入力され、合成された音声を得る。ニューラルネットワークベースのボコーダは、汎用的な装置においてリアルタイムで高音質な音声を実現できるとともに、演算量を削減して合成速度を高めることができる。自己回帰型の音響モデルとニューラルネットワークベースのボコーダーとを組み合わせることにより、ハードウェア資源の節約と音声合成の高速化を図りつつ、合成音声のナチュラル度と音質を向上させることができる。
1つの実施形態において、テキスト情報を音響モデルのエンコーダに入力し、現在のタイムステップにおけるテキスト特徴を出力することは、
テキスト情報が、エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力することを含む。
本実施形態では、テキスト情報は、少なくとも1つの全結合層及びゲート付き回帰ユニットを経た後、前後文書の情報を有効に取得できるため、合成された音声の表現がより流暢になる。
1つの実施形態において、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することとは、
直前のタイムステップにおける接続特徴をデコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力することと、
直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得することと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得することと、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力し、現在のタイムステップにおける第1のスペクトル特徴を取得することと,をさらに含む。
本実施形態では、直前のタイムステップにおける第1のスペクトル特徴または直前のタイムステップにおける第2のスペクトル特徴を、現在のタイムステップにおけるテキスト特徴に接続した後、音響モデルのボコーダーに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する。ボコーダーにおいて自己回帰的なスペクトル特徴が生成されるため、トレーニングデータ量が少ない場合でも、高い還元度で高いナチュラル度の音声を生成することができる。
1つの実施形態において、現在のタイムステップにおけるスペクトル特徴を、ニューラルボコーダーに入力して音声を出力することは、
現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得することと、
現在のタイムステップにおける第1のスペクトル特徴または現在のタイムステップにおける第2のスペクトル特徴をニューラルボコーダーに入力して、音声を出力することと、を含む。
本実施形態では、第1のスペクトル特徴を2つの畳み込みニューラルネットワークを通して、第2のスペクトル特徴を取得することができるため、第1のスペクトルシグネチャの平滑化を高めることができる。この畳み込みニューラルネットワークによるスペクトル特徴の平滑化処理により、第1のスペクトル特徴よりも平滑化が進んだ第2のスペクトル特徴が得られる。
1つの実施形態において、当該方法は、
現在のタイムステップにおける第1のスペクトル特徴と、真のスペクトル特徴と、に基づいて第1の損失を算出することと、
現在のタイムステップにおける第2のスペクトル特徴と、真のスペクトル特徴と、に基づいて第2の損失を算出することと、
第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングすることと、をさらに含む。
本実施形態では、第1の損失及び第2の損失を算出する際に真のスペクトル特徴を導入することにより、第2の損失及び第2の損失を用いてトレーニングされた音響モデルによって生成されるスペクトル特徴が真のスペクトル特徴により近づくため、合成音声の再現度が向上する。
本発明の第2態様は、音声合成装置を提供する。当該音声合成装置は、
テキスト情報を音響モデルのエンコーダに入力し、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュールと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力し、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュールと、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力し、音声を出力する音声合成モジュールと、を含む。
1つの実施形態において、テキスト特徴抽出モジュールは、
テキスト情報が、エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュールを含む。
1つの実施形態において、特徴回帰モジュールは、
直前のタイムステップにおける接続特徴をデコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力し、直前のタイムステップにおける第1のスペクトル特徴を出力する第1のデコーディングサブモジュールと、
直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力し、直前のタイムステップにおける第2のスペクトル特徴を取得する回帰サブモジュールと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第2のスペクトル特徴とを接続し、現在のタイムステップにおける接続特徴を取得する接続サブモジュールと、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力し、現在のタイムステップにおける第1のスペクトル特徴を取得する第2のデコーディングサブモジュールと、を含む。
1つの実施形態において、音声合成モジュールは、
現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力し、現在のタイムステップにおける第2のスペクトル特徴を取得する平滑化サブモジュールと、
現在のタイムステップにおける第1のスペクトル特徴または現在のタイムステップにおける第2のスペクトル特徴をニューラルボコーダーに入力し、音声を出力する合成サブモジュールと、を含む。
1つの実施形態において、当該装置は、
現在のタイムステップにおける第1のスペクトル特徴と、真のスペクトル特徴と、に基づいて第1の損失を算出し、
現在のタイムステップにおける第2のスペクトル特徴と、真のスペクトル特徴と、に基づいて第2の損失を算出し、
第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングするモデル訓練モジュール、をさらに含む。
本発明の第3態様は、電子デバイスを提供する。前記デバイスの機能は、ハードウェアによって実現されてもよく、ハードウェアをもって対応するソフトウェアを実行することによって実現されてもよい。前記ハードウェア又はソフトウェアは、上記機能に対応する1つ又は複数のモジュールを含む。
1つの可能な実施形態において、電子デバイスには、プロセッサとメモリが含まれ、前記メモリには、音声合成装置が上記の音声合成方法を実行するためのプログラムが記憶され、前記プロセッサは、前記メモリに記憶されたプログラムを実行するように構成される。前記電子デバイスは、他のデバイス又は通信ネットワークと通信するための通信インターフェースをさらに含む。
本発明の第4態様は、音声合成装置に使用される、上記音声合成方法を実行するためのプログラムを含むコンピュータソフトウェアコマンドを記憶するコンピュータ可読記憶媒体を提供する。
上記の技術案のうちの少なくとも1つの技術案は、下記のメリット及び有益的な効果を有する。
本発明によれば、音響モデルの自己回帰を用いた技術的手段により、合成音声が不自然で流暢でなく、音質が悪く、音声合成速度も遅い、という技術的課題を克服し、合成音声の再現度及びナチュラル度を向上させるとともに、音声合成速度を速くする、という技術的効果が得られる。
上記の選択可能な実施形態が有する他の効果については、以下の具体的な実施形態を参照しながら説明する。
本発明に係る音声合成方法の一実施形態のフローチャートである。 本発明に係る音声合成方法のもう1つの実施形態のフローチャートである。 本発明に係るMelに基づくニューラルネットワークの一実施形態のシーングラフィックである。 本発明に係る線形予測ニューラルボコーダーの一実施形態のシーングラフィックである。 本発明に係る音声合成装置の一実施形態の構成図である。 本発明に係る音声合成装置のもう1つの実施形態の構成図である。 本発明に係る電子デバイスの一実施形態の構成図である。
以下、図面を参照しながら本発明の例示的な実施形態を説明するが、本発明の実施形態の様々な詳細が理解を容易にするために含まれており、それらは単なる例示的と考えられるべきである。したがって、当業者は、本願の範囲および旨から逸脱することなく、本願明細書に記載された実施形態に対して様々な変更および修正を行うことができることを理解すべきである。同様に、以下の説明では、公知な機能および構造についての説明は、明瞭かつ簡明のために省略される。
(第1の実施形態)
1つの具体的な実施の形態において、図1に示すように、音声合成方法を提供する。当該音声合成方法は、以下のステップS10、S20、S30を含む。
S10において、テキスト情報を音響モデルのエンコーダに入力し、現在のタイムステップにおけるテキスト特徴を出力する。
S20において、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力し、現在のタイムステップにおけるスペクトル特徴を取得する。
S30において、現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して音声を出力する。
本実施形態において、音響モデルは、自己回帰型の音響モデル、例えば、MELRNN ( melベースの再帰型メル循環ニューラルネットワーク、Recurrent Neural Network )を選択することができる。ニューラルボコーダーは、mel−LPCNet (線形予測ニューラルネットワークベースのボコーダー、Linear Prediction Network )を選択することができる。もちろん、他のタイプの音響モデルやニューラルネットワークベースのボコーダーであってもよく、実際の必要に応じて適応的に選択することは、全て本実施形態の保護の範囲内にある。自己回帰型の音響モデルは、エンコーダ、デコーダ、及びエンコーダとデコーダとの間に配置された連結モジュールを含む。エンコーダは、テキスト情報を時系列に関連する次元の高いテキスト特徴に変換するのに使用され、デコーダは、高次元のテキスト特徴をスペクトル特徴に変換するのに使用される。スペクトル特徴自体は時系列特性を有する。エンコーダより出力された現在のタイムステップにおけるテキスト特徴と、デコーダにより出力された直前のタイムステップにおけるスペクトル特徴とは、接続モジュールによって接続され、現在のタイムステップにおける接続(スティッチング)特徴を取得する。現在のタイムステップにおける接続特徴は、デコーダに入力され、現在のタイムステップにおけるスペクトル特徴が得られる。このループにより、音響モデルに自己回帰が導入され、直前の時刻におけるスペクトル特徴が再帰型ニューラルネットワーク( RNN )の時間推定過程に導入され、再帰型ニューラルネットワークの不足が補われ、トレーニングデータ量が少ない場合でも、高い復元度で高いナチュラル度を持つ音声を生成することができる。
そして、自己回帰の都度得られた現在のタイムステップにおけるスペクトル特徴がmel−LPCNetに入力され、合成された音声が得られる。ニューラルネットワークベースのボコーダーは、汎用的な装置でリアルタイムで高音質な音声を実現できるとともに、演算量を削減して合成速度を高めることができる。自己回帰型の音響モデルとニューラルネットワークベースのボコーダーとを組み合わせることにより、ハードウェア資源の節約と音声合成の高速化を図りつつ、合成音声のナチュラル度と音質を向上させることができる。
1つの具体的な実施の形態において、図2に示すように、ステップS10では、以下のステップS101を含む。
S101において、テキスト情報が、エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力する。
本実施形態では、テキスト情報は、少なくとも1つの全結合層及びゲート付き回帰ユニットを経た後、前後文書の情報を有効に取得できるため、合成された音声の表現がより流暢になる。
1つの具体的な実施の形態において、図2に示すように、ステップS20では、以下のステップS201〜S204を含む。
S201において、直前のタイムステップにおける接続特徴をデコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力する。
S202において、直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得する。
S203において、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する。
S204において、現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する。
本実施形態では、直前のタイムステップにおける第1のスペクトル特徴または直前のタイムステップにおける第2のスペクトル特徴を、現在のタイムステップにおけるテキスト特徴に接続した後、音響モデルのボコーダーに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する。ボコーダーにおいて自己回帰的なスペクトル特徴が生成されるため、トレーニングデータ量が少ない場合でも、高い還元度で高いナチュラル度の音声を生成することができる。
1つの具体的な実施の形態において、図2に示すように、ステップS30では、以下のステップS301〜S302を含む。
S301において、現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得する。
S302において、現在のタイムステップにおける第1のスペクトル特徴または現在のタイムステップにおける第2のスペクトル特徴をニューラルボコーダーに入力して、音声を出力する。
本実施形態では、第1のスペクトル特徴を2つの畳み込みニューラルネットワークを通して、第2のスペクトル特徴を取得することができるため、第1のスペクトルシグネチャの平滑化を高めることができる。この畳み込みニューラルネットワークによるスペクトル特徴の平滑化処理により、第1のスペクトル特徴よりも平滑化が進んだ第2のスペクトル特徴が得られる。
1つの具体的な実施の形態において、図2に示すように、以下のステップS40〜S50を含む。
S40において、現在のタイムステップにおける第1のスペクトル特徴と真のスペクトル特徴とに基づいて第1の損失を算出し、現在のタイムステップにおける第2のスペクトル特徴と真のスペクトル特徴とに基づいて第2の損失を算出する。
S50において、第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングする。
本実施形態では、第1の損失及び第2の損失を算出する際に真のスペクトル特徴を導入することにより、第2の損失及び第2の損失を用いてトレーニングされた音響モデルによって生成されるスペクトル特徴が真のスペクトル特徴により近づくため、合成音声の再現度が向上する。
(第2の実施形態)
1つの実施形態では、音声の合成は下記の2つの段階を含む。第1の段階では、音声合成の前段のシステムにて、テキストをリッチテキスト情報に変換し、第2の段階では、音声合成の後段のシステムにて、リッチテキスト情報を音声に合成する。音声合成の後段のシステムにおいて、テキスト情報をスペクトル特徴に変換する音響モデルを提供することができる。本実施形態では、まず、図3に示すように、音響モデルとして、melベースの自己回帰型循環ニューラルネットワーク( MELRNN )を提供することができる。前段のシステムより提供されたリッチテキスト情報は、5音素を抽出することにより、615次元のような次元の高いテキスト情報に拡張することができる。高次元テキスト情報はエンコーダに入力され、第1の全結合層、第2の全結合層、及び第1のゲート付き回帰ユニット( GRU,Gated Recurrent Unit )を通して、時系列に関連する高次元のテキスト特徴を取得することができる。エンコーダから出力された現在のタイムステップにおけるテキスト特徴を、直前のタイムステップにおけるメル特徴に接続して、現在のタイムステップにおける接続特徴を得る。このステップにより、直前のタイムステップにおけるメル特徴がMELRNNにおける時間進行プロセスに導入される。そして、現在のタイムステップにおける接続特徴がデコーダに入力され、第2のゲート付き回帰ユニット、第3のゲート付き回帰ユニット、及び第4の全結合層を通して、図3に示されたスペクトル特徴mel1のような現在のタイムステップにおけるメル(mel)特徴が出力される。mel1が1つの全結合層を通過させた結果であるmel2を、次のタイムステップにおけるテキスト特徴と接続して、次のタイムステップにおける接続特徴を得ることができる。このステップにより、現在時刻のメル(mel)特徴がメルベースの回帰ニューラルネットワークの時間進行プロセスに導入される。このように、複数のタイムステップにおけるメル(mel)特徴が得られる。mel1に続いて、2層の畳み込みニューラルネットワーク( CNN,Convolutional Neural Networks )を通してmel3を得、mel特徴をより滑らかにする。
次いで、メルベースの自己回帰型音響モデルの都度出力された各タイムステップにおけるメル(mel)特徴がmel−LPCNetに入力され、例えば、mel1またはmel3がmel−LPCNetに入力されてメル(mel)特徴が音声に変換されることができる。図4に示されるように、mel−LPCNetは、フレームレベルネットワーク、サンプルレベルネットワーク、及び両ネットワークの間にある線形予測エンコーダ及び予測演算器を含む。その中、mel1またはmel3をmel−LPCNetに入力して音声を出力するステップは、mel1またはmel3をフレームレベルネットワークに入力し、時系列的に関連するmel4を抽出するステップを含む。mel1またはmel3は、線形予測符号化器( computer LPC )に入力され、重み係数ベクトルが出力される。重み係数ベクトルと、サンプル点レベルのネットワークから出力された線形サンプル点は、予測計算器に入力されて線形演算が行われ、予測サンプル点が得られる。予測サンプル点およびmel4をサンプル点レベルのネットワークに入力し、音声に含まれる線形サンプル点を出力する。予測サンプル点およびmel4をサンプル点レベルのネットワークに入力し、線形サンプル点を出力するステップは、予測サンプル点、線形サンプル点、偏差補正のための第1の補償サンプル点、およびmel4を、接続モジュール、少なくとも1つのゲート付き回帰ユニット、例えば、第5および第6のゲート付き回帰ユニット、第7の全結合層、損失関数層、およびサンプル層を通して、第2の補償サンプル点を得ることを含む。予測サンプル点と第2の補償サンプル点を加算し、線形サンプル点を得る。
なお、音声ファイルから真のmelスペクトル特徴を抽出するようにしてもよい。真のスペクトル特徴はmel−LPCNetに入力され、線形サンプル点が計算される。MELRNNが出力する予測スペクトル特徴をmel−LPCNetに入力してもよい。すなわち直前時刻の出力を次の時刻の入力とする方法で得られたmelをmel−LPCNetトレーニングの入力特徴とする。予測スペクトル特徴をトレーニングサンプルとして、得られた音響モデルの精度をトレーニングするとともに音質を向上させる。LPCNetを独立したボコーダとみなしとき、他のボコーダと比べてネットワーク構成自体が簡単であり、mel−LPCNetはトレーニングしタスクの一部を事前知識により低演算量の数学演算に変換することに加え、間引きが行われるため、コストパフォーマンスが非常に高い。また、ノード数は比較的少ないもののMELRNNやmel−LPCNetが提案されているため、量子化後のモデルのサイズは、それぞれ18Mと2.3M程度で済む。計算量が少なく、消費電力が低いという特徴を有し、組み込みシステムにも使用できる。
(第3の実施形態)
1つの具体的な実施の形態において、図5に示すように、音声合成装置100を提供する。当該音声合成装置100は、
テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュール101と、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュール102と、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力する音声合成モジュール103と、を含む。
1つの実施形態において、図6に示すように、音声合成装置200を提供する。当該音声合成装置200のテキスト特徴抽出モジュール101は、
テキスト情報が、エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュール1011を含む。
1つの実施形態において、図6に示すように、特徴回帰モジュール102は、
直前のタイムステップにおける接続特徴をデコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力する第1のデコーディングサブモジュール1021と、
直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得する回帰サブモジュール1022と、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する接続サブモジュール1023と、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する第2のデコーディングサブモジュール1024と、を含む。
1つの実施形態において、図6に示すように、音声合成モジュール103は、
現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得する平滑化サブモジュール1031と、
現在のタイムステップにおける第1のスペクトル特徴または現在のタイムステップにおける第2のスペクトル特徴をニューラルボコーダーに入力して、音声を出力する合成サブモジュール1032と、を含む。
本発明は、本願は電子デバイスとコンピュータ可読記憶媒体も提供する。
図7は本願実施形態の音声合成方法に係る電子デバイスの構成図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、およびその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は例示的なものに過ぎず、本明細書で説明されたものおよび/または要求される本明細書の実施を制限することは意図されない。
図7に示すように、当該電子デバイスは、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス(例えば、インターフェースに接続された表示デバイス)にグラフィックユーザインターフェース(Graphical User Interface,GUI)を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)を提供する。図7においてプロセッサ701を例とする。
メモリ702は、本明細書にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本明細書で提供される音声合成方法を少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行されることができる命令を記憶する。本明細書における非一過性のコンピュータ可読記憶媒体は、本明細書で提供された音声合成方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ702は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよく、本発明の実施形態における音声合成方法に対応するプログラム命令/モジュール(たとえば、図5に示されるテキスト特徴抽出モジュール101、特徴回帰モジュール102、音声合成モジュール103)のようなものである。プロセッサ701は、メモリ702に記憶されている非一過性のソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、すなわち上述した方法に関する実施形態に係る音声合成方法を実行する。
メモリ702は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、音声合成方法に係る電子デバイスの使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ702は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ702はオプションとして、プロセッサ701に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して音声合成方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。
音声合成方法に係る電子デバイスは、入力装置703と出力装置704とをさらに含むことができる。プロセッサ701、メモリ702、入力装置703、および出力装置704は、バスまたは他の方法で接続されてもよく、図7ではバスを介して接続されている。
入力装置703は、入力された数字または文字を受信し、音声合成方法に係る電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置704は、表示装置、補助照明装置(例えばLED)、および触覚フィードバック装置(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(Liquid Crystal Display、LCD)、発光ダイオード(Light Emitting Diode、LED)ディスプレイおよびプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書におけるシステムおよび技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路(Appplication Specific Integrated Circuits、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて実装されてもよく、この1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、および/または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置より、データと命令を受信し、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置に、データと命令を送信する。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう)は、プログラマブルプロセッサのマシン命令を含み、プロセス指向および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/マシン言語を用いてこれらの計算プログラムを実施することができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、マシン命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス(programmable logic device、PLD)を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとの対話を提供するために、本明細書で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置(例えば、CRT(Cathode Ray Tube、ブラウン管)またはLCD(液晶ディスプレイ)モニタ)と、入力をコンピュータに提供するためのキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えてもよい。他の種類の装置も、ユーザとの対話を提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、ユーザからの入力は、いかなる形式(音響入力、音声入力、または触覚入力を含む)で受信されてもよい。
本明細書で説明されているシステムおよび技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、または中間部構成要素を含む計算システム(例えば、アプリケーションサーバ)、または、フロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本明細書で説明されたシステムおよび技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ)に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク(Local Area Network,LAN)、広域ネットワーク(Wide Area Network,WAN)およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。
本発明の実施形態によれば、音響モデルは、自己回帰を導入し、直前のタイムステップにおけるスペクトル特徴を音響モデルの時間推定過程に表示的に導入することにより、トレーニングデータ量が少ない場合でも、高い再現度、高いナチュラル度の音声を生成することができるとともに、音声合成の速度を高めることができる。そして、得られた直前のタイムステップにおけるスペクトル特徴、または現在のタイムステップにおけるスペクトル特徴等各タイムステップにおけるスペクトル特徴を、ニューラルネットワークベースのボコーダーに入力され、合成された音声を得る。ニューラルネットワークベースのボコーダは、汎用的な装置においてリアルタイムで高音質な音声を実現できる。音響モデルとニューラルネットワークベースのボコーダーとを組み合わせることにより、ハードウェア資源の節約と音声合成の高速化を図りつつ、合成音声のナチュラル度と音質を向上させることができる。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本明細書で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本明細書で開示された技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、および代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims (13)

  1. テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することと、
    前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することと、
    前記現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力することと、を含む、
    ことを特徴とする音声合成方法。
  2. 前記テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することは、
    前記テキスト情報が、前記エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力することを含む、
    ことを特徴とする請求項1に記載の音声合成方法。
  3. 前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することとは、
    直前のタイムステップにおける接続特徴を前記デコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力することと、
    前記直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得することと、
    前記現在のタイムステップにおけるテキスト特徴と前記直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得することと、
    前記現在のタイムステップにおける接続特徴を前記音響モデルのデコーダに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得することと、を含む、
    ことを特徴とする請求項1に記載の音声合成方法。
  4. 現在のタイムステップにおけるスペクトル特徴を、ニューラルボコーダーに入力して音声を出力することは、
    前記現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得することと、
    前記現在のタイムステップにおける第1のスペクトル特徴または前記現在のタイムステップにおける第2のスペクトル特徴を前記ニューラルボコーダーに入力して、前記音声を出力することと、を含む、
    ことを特徴とする請求項3に記載の音声合成方法。
  5. 前記現在のタイムステップにおける第1のスペクトル特徴と、真のスペクトル特徴と、に基づいて第1の損失を算出することと、
    前記現在のタイムステップにおける第2のスペクトル特徴と、前記真のスペクトル特徴と、に基づいて第2の損失を算出することと、
    前記第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングすること、をさらに含む、
    ことを特徴とする請求項4に記載の音声合成方法。
  6. テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュールと、
    前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュールと、
    前記現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力する音声合成モジュールと、を含む、
    ことを特徴とする音声合成装置。
  7. 前記テキスト特徴抽出モジュールは、
    前記テキスト情報が、前記エンコーダの少なくとも1つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュールを含む、
    ことを特徴とする請求項6に記載の音声合成装置。
  8. 前記特徴回帰モジュールは、
    直前のタイムステップにおける接続特徴を前記デコーダの少なくとも1つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第1のスペクトル特徴を出力する第1のデコーディングサブモジュールと、
    前記直前のタイムステップにおける第1のスペクトル特徴をもう1つの全結合層に入力して、直前のタイムステップにおける第2のスペクトル特徴を取得する回帰サブモジュールと、
    前記現在のタイムステップにおけるテキスト特徴と前記直前のタイムステップにおける第2のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する接続サブモジュールと、
    前記現在のタイムステップにおける接続特徴を前記音響モデルのデコーダに入力して、現在のタイムステップにおける第1のスペクトル特徴を取得する第2のデコーディングサブモジュールと、を含む、
    ことを特徴とする請求項6に記載の音声合成装置。
  9. 前記音声合成モジュールは、
    前記現在のタイムステップにおける第1のスペクトル特徴を少なくとも1つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第2のスペクトル特徴を取得する平滑化サブモジュールと、
    前記現在のタイムステップにおける第1のスペクトル特徴または前記現在のタイムステップにおける第2のスペクトル特徴を前記ニューラルボコーダーに入力して、前記音声を出力する合成サブモジュールと、を含む、
    ことを特徴とする請求項8に記載の音声合成装置。
  10. 前記現在のタイムステップにおける第1のスペクトル特徴と、真のスペクトル特徴と、に基づいて第1の損失を算出し、
    前記現在のタイムステップにおける第2のスペクトル特徴と、前記真のスペクトル特徴と、に基づいて第2の損失を算出し、
    前記第1の損失及び第2の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングするモデル訓練モジュール、をさらに含む、を特徴とする請求項9に記載の音声合成装置。
  11. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶する記憶装置とを含み、
    前記1つ又は複数のプロセッサは、前記1つ又は複数のプログラムを実行する場合、請求項1〜5のいずれか1項に記載の音声合成方法を実行させる、
    ことを特徴とする電子デバイス。
  12. コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
    当該プログラムがプロセッサに実行される場合、請求項1〜5のいずれか1項に記載の音声合成方法を実行させる、
    ことを特徴とするコンピュータ可読記憶媒体。
  13. コンピュータにおいて、プロセッサにより実行される場合、請求項1〜5のいずれか1項に記載の音声合成方法を実現することを特徴とするプログラム。
JP2020025772A 2019-09-19 2020-02-19 音声合成方法、装置、電子デバイス、及びプログラム Active JP6875572B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910888456.9A CN110473516B (zh) 2019-09-19 2019-09-19 语音合成方法、装置以及电子设备
CN201910888456.9 2019-09-19

Publications (2)

Publication Number Publication Date
JP2021047392A JP2021047392A (ja) 2021-03-25
JP6875572B2 true JP6875572B2 (ja) 2021-05-26

Family

ID=68516319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020025772A Active JP6875572B2 (ja) 2019-09-19 2020-02-19 音声合成方法、装置、電子デバイス、及びプログラム

Country Status (3)

Country Link
US (1) US11417314B2 (ja)
JP (1) JP6875572B2 (ja)
CN (1) CN110473516B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048116B (zh) * 2019-12-23 2022-08-19 度小满科技(北京)有限公司 一种数据处理方法、装置及电子设备
CN113053356B (zh) * 2019-12-27 2024-05-31 科大讯飞股份有限公司 语音波形生成方法、装置、服务器及存储介质
CN113539231B (zh) * 2020-12-30 2024-06-18 腾讯科技(深圳)有限公司 音频处理方法、声码器、装置、设备及存储介质
CN112863477B (zh) * 2020-12-31 2023-06-27 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置及存储介质
CN112908294B (zh) * 2021-01-14 2024-04-05 杭州倒映有声科技有限公司 一种语音合成方法以及语音合成系统
CN112786009A (zh) * 2021-02-26 2021-05-11 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN112951202B (zh) * 2021-03-11 2022-11-08 北京嘀嘀无限科技发展有限公司 语音合成方法、装置、电子设备以及程序产品
CN113096679A (zh) * 2021-04-02 2021-07-09 北京字节跳动网络技术有限公司 音频数据处理方法和装置
CN113436603B (zh) * 2021-06-28 2023-05-02 北京达佳互联信息技术有限公司 声码器的训练方法和装置及合成音频信号的方法和声码器
CN113593519B (zh) * 2021-06-30 2023-10-31 北京新氧科技有限公司 文本的语音合成方法、系统、装置、设备及存储介质
CN113628610B (zh) * 2021-08-12 2024-02-13 科大讯飞股份有限公司 一种语音合成方法和装置、电子设备
CN113450758B (zh) * 2021-08-27 2021-11-16 北京世纪好未来教育科技有限公司 语音合成方法、装置、设备及介质
CN114582317B (zh) * 2022-03-29 2023-08-08 马上消费金融股份有限公司 语音合成方法、声学模型的训练方法及装置

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248990A (ja) * 1995-03-07 1996-09-27 Fujitsu Ltd 音声合成装置
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US7761296B1 (en) * 1999-04-02 2010-07-20 International Business Machines Corporation System and method for rescoring N-best hypotheses of an automatic speech recognition system
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6915261B2 (en) * 2001-03-16 2005-07-05 Intel Corporation Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US7689421B2 (en) * 2007-06-27 2010-03-30 Microsoft Corporation Voice persona service for embedding text-to-speech features into software programs
WO2011025532A1 (en) * 2009-08-24 2011-03-03 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
CN105206264B (zh) * 2015-09-22 2017-06-27 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
CN107545903B (zh) * 2017-07-19 2020-11-24 南京邮电大学 一种基于深度学习的语音转换方法
CN109326278B (zh) * 2017-07-31 2022-06-07 科大讯飞股份有限公司 一种声学模型构建方法及装置、电子设备
CN107452369B (zh) * 2017-09-28 2021-03-19 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
CN107992485A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种同声传译方法及装置
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
CN108492818B (zh) * 2018-03-22 2020-10-30 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN109036371B (zh) * 2018-07-19 2020-12-18 北京光年无限科技有限公司 用于语音合成的音频数据生成方法及系统
CN109036377A (zh) 2018-07-26 2018-12-18 中国银联股份有限公司 一种语音合成方法及装置
US10380997B1 (en) * 2018-07-27 2019-08-13 Deepgram, Inc. Deep learning internal state index-based search and classification
CN109841206B (zh) * 2018-08-31 2022-08-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
US10726830B1 (en) * 2018-09-27 2020-07-28 Amazon Technologies, Inc. Deep multi-channel acoustic modeling
CN109599092B (zh) * 2018-12-21 2022-06-10 秒针信息技术有限公司 一种音频合成方法及装置
CN109902155B (zh) * 2018-12-29 2021-07-06 清华大学 多模态对话状态处理方法、装置、介质及计算设备
CN109859736B (zh) * 2019-01-23 2021-05-25 北京光年无限科技有限公司 语音合成方法及系统
CN109523989B (zh) * 2019-01-29 2022-01-11 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
CN110164413B (zh) * 2019-05-13 2021-06-04 北京百度网讯科技有限公司 语音合成方法、装置、计算机设备和存储介质
JP7432199B2 (ja) * 2019-07-05 2024-02-16 国立研究開発法人情報通信研究機構 音声合成処理装置、音声合成処理方法、および、プログラム
KR20190087353A (ko) * 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법
CN110232907B (zh) * 2019-07-24 2021-11-02 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置、可读存储介质及计算设备
JP7336135B2 (ja) * 2019-08-19 2023-08-31 大学共同利用機関法人情報・システム研究機構 音声合成装置

Also Published As

Publication number Publication date
CN110473516A (zh) 2019-11-19
US20210090550A1 (en) 2021-03-25
CN110473516B (zh) 2020-11-27
US11417314B2 (en) 2022-08-16
JP2021047392A (ja) 2021-03-25

Similar Documents

Publication Publication Date Title
JP6875572B2 (ja) 音声合成方法、装置、電子デバイス、及びプログラム
KR102484967B1 (ko) 음성 전환 방법, 장치 및 전자 기기
JP7259197B2 (ja) モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111859994B (zh) 机器翻译模型获取及文本翻译方法、装置及存储介质
CN112382271B (zh) 语音处理方法、装置、电子设备和存储介质
CN112365880B (zh) 语音合成方法、装置、电子设备及存储介质
CN110619867B (zh) 语音合成模型的训练方法、装置、电子设备及存储介质
CN112509552B (zh) 语音合成方法、装置、电子设备和存储介质
JP7044839B2 (ja) エンドツーエンドモデルのトレーニング方法および装置
JP7167106B2 (ja) 口形特徴予測方法、装置及び電子機器
KR102538467B1 (ko) 모델의 증류 방법, 장치, 전자기기 및 저장매체
KR102630243B1 (ko) 구두점 예측 방법 및 장치
JP6986592B2 (ja) リズム一時停止予測方法、装置および電子機器
CN110767212B (zh) 一种语音处理方法、装置和电子设备
CN115953997A (zh) 使用神经网络的文本到语音合成的无监督对齐
CN111666387A (zh) 对话生成方法、装置、电子设备及存储介质
JP7216065B2 (ja) 音声認識方法及び装置、電子機器並びに記憶媒体
JP7121791B2 (ja) 言語生成方法、装置及び電子機器
JP7121106B2 (ja) 構文線形性に基づく言語変換方法および装置
CN112541956A (zh) 动画合成方法、装置、移动终端和电子设备
CN113689866B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN112527105B (zh) 人机互动方法、装置、电子设备及存储介质
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
Shipton et al. Implementing WaveNet Using Intel® Stratix® 10 NX FPGA for Real-Time Speech Synthesis
CN114495898B (zh) 一种统一的语音合成与语音转换的训练方法和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210422

R150 Certificate of patent or registration of utility model

Ref document number: 6875572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE

Ref document number: 6875572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250