JP7464621B2 - 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 - Google Patents

音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 Download PDF

Info

Publication number
JP7464621B2
JP7464621B2 JP2021558871A JP2021558871A JP7464621B2 JP 7464621 B2 JP7464621 B2 JP 7464621B2 JP 2021558871 A JP2021558871 A JP 2021558871A JP 2021558871 A JP2021558871 A JP 2021558871A JP 7464621 B2 JP7464621 B2 JP 7464621B2
Authority
JP
Japan
Prior art keywords
acoustic
vocoder
parameter
model
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021558871A
Other languages
English (en)
Other versions
JP2022527970A (ja
Inventor
▲執▼政 武
政臣 ▲張▼
▲偉▼ 宋
永▲輝▼ ▲饒▼
知杭 解
光▲輝▼ 徐
▲樹▼勇 ▲劉▼
博森 ▲馬▼
双▲穩▼ 邱
▲雋▼民 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Publication of JP2022527970A publication Critical patent/JP2022527970A/ja
Application granted granted Critical
Publication of JP7464621B2 publication Critical patent/JP7464621B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Description

関連出願の相互参照
本出願は、2019年4月3日に出願された中国特許出願第201910266289.4号に基づいており、またその優先権の利益を主張するものであり、参照によりその全体が本出願に組み込まれる。
本開示は、コンピュータ技術の分野、特に音声合成方法およびデバイス、ならびにコンピュータ可読ストレージ媒体に関する。
テキストから音声への変換を実現することができる音声合成システム(テキストトゥスピーチ、TTS)は、一連のアルゴリズム操作によってテキストを音声に変換し、機械によって人間の発音をシミュレートするプロセスを実装し得る。
現在の音声合成システムは、通常、単一言語の発音しかサポートできない。
本発明者らは、現在の音声合成システムは、通常、中国語または英語の発音のみをサポートしているが、滑らかな多言語発音を実現できないことを発見した。
本開示によって解決されるべき1つの技術的問題は、多言語発音をサポートするエンドツーエンドの音声合成システムをどのように実装するかである。
本開示のいくつかの実施形態によれば、音声合成方法が提供される。本方法は、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するステップと、セグメントの各々が属する言語カテゴリに従って、テキストの音素シーケンスを生成するためにセグメントの各々をセグメントに対応する音素に変換するステップと、事前にトレーニングされた音声合成モデルに音素シーケンスを入力して、音素シーケンスをボコーダ特性パラメータに変換するステップと、音声を生成するためにボコーダ特性パラメータをボコーダに入力するステップとを備える。
いくつかの実施形態によれば、セグメントの各々が属する言語カテゴリに従ってテキストを複数のセグメントに分割するステップは、テキストの各文字の符号化に従って、各文字が属する言語カテゴリを認識するステップと、同じ言語に属する連続する文字を言語の1つのセグメントに分割するステップとを備える。
いくつかの実施形態によれば、テキストの音素シーケンスを生成するステップは、テキストの韻律構造を決定するステップと、テキストの音素シーケンスを形成するために、テキストの韻律構造に従ってテキストの各文字に対応する音素の後に韻律識別子を追加するステップとを備える。
いくつかの実施形態によれば、事前にトレーニングされた音声合成モデルに音素シーケンスを入力し、音素シーケンスをボコーダ特性パラメータに変換するステップは、音素シーケンスを音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力するステップと、ボコーダ特性パラメータを取得するために、音声合成モデルのボコーダパラメータ変換モデルに音響特性パラメータを入力するステップとを備える。
いくつかの実施形態によれば、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを備え、音素シーケンスを音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力するステップは、注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定するステップと、音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了するステップとを備える。
いくつかの実施形態によれば、音響特性パラメータは、音声周波数スペクトルパラメータを備え、ボコーダパラメータ変換モデルは、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える。
いくつかの実施形態によれば、音響特性パラメータの周波数がボコーダ特性パラメータの周波数よりも低い場合、音響特性パラメータを繰り返しアップサンプリングすることによって、音響特性パラメータの周波数をボコーダ特性パラメータの周波数と等しくする。
いくつかの実施形態によれば、本方法は、音声合成モデルをトレーニングするステップをさらに備え、トレーニング方法は、トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成するステップと、トレーニングテキストの各々に対応する第1の音響特性パラメータサンプルおよびトレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングするステップと、トレーニングされた音響パラメータ予測モデルを使用することによって、トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換するステップと、ボコーダの合成周波数に応じて、トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換するステップと、トレーニングテキストの各々に対応する第2の音響特性パラメータサンプルおよびボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングするステップとを備える。
いくつかの実施形態によれば、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを備え、音素シーケンスを音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力するステップは、エンコーダに音素シーケンスを入力し、エンコーダによって出力された音素シーケンスにおける各要素に対応する特性表現を取得するステップと、コンテキストベクトルを取得するために、各要素に対応する特性表現、デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を注意モデルに入力するステップと、デコーダの第2の反復層によって現時点のデコーダ出力の隠れ状態を取得するために、デコーダの第1の反復層およびコンテキストベクトルによって現時点のデコーダ出力の隠れ状態をデコーダの第2の反復層に入力するステップと、デコーダによって出力される各瞬間のデコーダの隠れ状態に従って音響特性パラメータを予測するステップとを備える。
いくつかの実施形態によれば、セグメントの各々が属する言語カテゴリに従って、セグメントの各々を対応する音素にそれぞれ変換するステップは、セグメントの各々が属する言語カテゴリに従って、セグメントの各々に対してそれぞれテキストの正規化を実行するステップと、セグメントの各々が属する言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行するステップと、セグメントの各々が属する言語カテゴリのあらかじめ設定された音素変換テーブルに従って、セグメントの各々の分割された単語グループを対応する音素に変換するステップとを備え、音素は文字の声調を備える。
本開示の他の実施形態によれば、音声合成デバイスが提供される。本デバイスは、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するように構成された言語認識モジュールと、セグメントの各々が属する言語カテゴリに従って、テキストの音素シーケンスを生成するためにセグメントの各々をセグメントに対応する音素に変換するように構成された音素変換モジュールと、事前にトレーニングされた音声合成モデルに音素シーケンスを入力して、音素シーケンスをボコーダ特性パラメータに変換するように構成されたパラメータ変換モジュールと、音声を生成するためにボコーダ特性パラメータをボコーダに入力するように構成された音声生成モジュールとを備える。
いくつかの実施形態によれば、言語認識モジュールは、テキストの各文字の符号化に従って、各文字が属する言語カテゴリを認識することと、同じ言語に属する連続する文字を言語の1つのセグメントに分割することとを行うように構成される。
いくつかの実施形態によれば、音素変換モジュールは、テキストの韻律構造を決定することと、テキストの音素シーケンスを形成するために、テキストの韻律構造に従ってテキストの各文字に対応する音素の後に韻律識別子を追加することとを行うように構成される。
いくつかの実施形態によれば、パラメータ変換モジュールは、音素シーケンスを音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力することと、ボコーダ特性パラメータを取得するために、音声合成モデルのボコーダパラメータ変換モデルに音響特性パラメータを入力することとを行うように構成される。
いくつかの実施形態によれば、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを備え、パラメータ変換モジュールは、注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定することと、音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了することとを行うように構成される。
いくつかの実施形態によれば、音響特性パラメータは、音声周波数スペクトルパラメータを備え、ボコーダパラメータ変換モデルは、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える。
いくつかの実施形態によれば、音響特性パラメータの周波数がボコーダ特性パラメータの周波数よりも低い場合、音響特性パラメータを繰り返しアップサンプリングすることによって、音響特性パラメータの周波数をボコーダ特性パラメータの周波数と等しくする。
いくつかの実施形態によれば、モデルトレーニングモジュールは、トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成することと、トレーニングテキストの各々に対応する第1の音響特性パラメータサンプルおよびトレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングすることと、トレーニングされた音響パラメータ予測モデルを使用することによって、トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換することと、ボコーダの合成周波数に応じて、トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換することと、トレーニングテキストの各々に対応する第2の音響特性パラメータサンプルおよびボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングすることとを行うように構成される。
いくつかの実施形態によれば、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを備え、パラメータ変換モジュールは、エンコーダに音素シーケンスを入力し、エンコーダによって出力された音素シーケンスにおける各要素に対応する特性表現を取得することと、コンテキストベクトルを取得するために、各要素に対応する特性表現、デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を注意モデルに入力することと、デコーダの第2の反復層によって現時点のデコーダ出力の隠れ状態を取得するために、デコーダの第1の反復層およびコンテキストベクトルによって現時点のデコーダ出力の隠れ状態をデコーダの第2の反復層に入力することと、デコーダによって出力される各瞬間のデコーダの隠れ状態に従って音響特性パラメータを予測することとを行うように構成される。
いくつかの実施形態によれば、音素変換モジュールは、セグメントの各々が属する言語カテゴリに従って、セグメントの各々に対してそれぞれテキストの正規化を実行することと、セグメントの各々が属する言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行することと、セグメントの各々が属する言語カテゴリのあらかじめ設定された音素変換テーブルに従って、セグメントの各々の分割された単語グループを対応する音素に変換することとを行うように構成され、音素は文字の声調を備える。
本開示のさらに他の実施形態によれば、音声合成デバイスが提供される。本デバイスは、メモリと、メモリに結合されたプロセッサとを備え、プロセッサは、メモリに記憶された命令に基づいて、前述の実施形態のいずれかによる音声合成方法を実装するように構成される。
本開示の他の実施形態によれば、コンピュータ可読ストレージ媒体が提供される。コンピュータ可読ストレージ媒体は、プロセッサによって実行されると、前述の実施形態のいずれかによる方法のステップを実装するコンピュータプログラムを記憶している。
本開示では、テキストが異なる言語カテゴリに属する複数のセグメントに分割されるように、テキスト内の言語カテゴリが最初に識別される。セグメントの各々が属する言語カテゴリに従って、各セグメントはそれぞれ対応する音素に変換される。ボコーダが、ボコーダ特性パラメータに基づいて音声を出力するように、テキストの音素シーケンスが音声合成モデルに入力され、ボコーダ特性パラメータに変換される。本開示の解決策は、多言語発音をサポートするエンドツーエンドの音声合成システムを実装する。さらに、文字シーケンスによるボコーダ特性パラメータへの直接変換と比較して、音素シーケンスによるボコーダ特性パラメータへの変換により、より正確で滑らかで自然な合成音声を可能にすることができる。
本開示の他の特性および利点は、添付の図面を参照して、本開示の例示的な実施形態の以下の詳細な説明から明らかになるであろう。
本開示のさらなる理解を提供することが意図される、本明細書に記載の添付の図面は、本出願の一部を構成する。本開示を説明することが意図される、本開示の例示的な実施形態ならびにその図解は、本開示に関する不適切な定義を構成するものではない。添付の図面は以下のとおりである。
本開示のいくつかの実施形態による、音声合成方法の概略フローチャートを示す図である。 あらかじめ設定された英語の文字が変換された例を示す図である。 本開示のいくつかの実施形態による、音声合成モデルの概略構造図を示す図である。 本開示の他の実施形態による、音声合成方法の概略フローチャートを示す図である。 本開示のいくつかの実施形態による、音声合成デバイスの概略構造図を示す図である。 本開示の他の実施形態による、音声合成デバイスの概略構造図を示す図である。 本開示のさらに他の実施形態による、音声合成デバイスの概略構造図を示す図である。
本開示の実施形態における技術的解決策は、本開示の実施形態における添付の図面と併せて、以下に明示的かつ完全に説明される。明らかに、記載された実施形態は、実施形態のすべてではなく、本開示の実施形態の一部に過ぎない。実際に例示的であるに過ぎない少なくとも1つの例示的な実施形態の以下の説明は、決して、本開示ならびにその適用または使用に関するいかなる限界としても機能してはならない。本開示の実施形態に基づいて、本発明の努力が含まれないという前提で当業者によって取得された他のすべての実施形態は、本開示の保護範囲に含まれるものとする。
本開示は音声合成方法を提供し、これは図1と併せて以下に説明される。
図1は、本開示のいくつかの実施形態による、音声合成方法の概略フローチャートを示している。図1に示されるように、この実施形態の方法は、ステップS102からS108を備える。
ステップS102において、テキストが異なる言語カテゴリに属する複数のセグメントに分割される。
いくつかの実施形態では、各文字が属する言語カテゴリは、テキスト内の各文字の符号化に従って識別され、同じ言語に属する連続する文字は、言語の1つのセグメントに分割される。たとえば、テキストが中国語と英語の文字を含む場合、テキスト内の文字のユニコードコードまたは他のコードが取得され得、テキスト内の中国語と英語の文字はユニコードコードに従って認識されるため、テキストは、異なる言語の複数のセグメントに分割される。他の言語(たとえば、日本語、フランス語など)の文字が含まれている場合、対応する符号化形式に従って認識され得る。
次に、中国語と英語を含むテキストを例として、異なる言語カテゴリに属する複数のセグメントに分割する特定の実施形態について説明する。(1)文中に英語の文字があるかどうかは、文中の文字の符号化に従って決定される。文中に英語の文字がない場合、(2)が実行され、文中に英語の文字がある場合、(3)が実行される。(2)その文は中国語の文としてマーク付けされる。(3)文中に中国語の文字があるかどうかを決定する。文中に中国語の文字がない場合、(4)が実行される。文中に中国語の文字がある場合、(7)が実行される。(4)その文があらかじめ設定された英語の文字のみを含むかどうかが決定され、あらかじめ設定された英語の文字は、少なくとも1種類の測定単位、略語、および英語のシリアル番号を含み得る。その文があらかじめ設定された英語の文字のみを含む場合、(5)が実行される。それ以外の場合、(6)が実行される。(5)その文は中国語の文としてマーク付けされる。(6)その文は英語の文としてマーク付けされる。(7)その文は中国語のセグメントと英語のセグメントに分割される。
上述の実施形態では、その文があらかじめ設定された英語の文字のみを含む場合、その後、中国語に従ってあらかじめ設定された英語の文字を正規化することを容易にするために、その文は中国語の文としてマーク付けされる。たとえば、12km/hなどのあらかじめ設定された英語の文字は、その後の正規化中に図2Aに示されるものに変換され得、その後に生成される音は中国語の発音になり、中国のユーザの習慣により適合する。当業者は、上述の実施形態を参照して、文がいくつかの特別な国際ユニバーサル文字のみを含む場合、その文は、テキストの正規化と音声合成の後続の処理を容易にするために、発音要件に基づいてあらかじめ設定された言語カテゴリとしてマーク付けされ得ることを理解し得る。
上述のステップ(7)は、以下のステップを含み得る。(i)現在の文字の言語カテゴリが前の文字の言語カテゴリと同じであるかどうかが決定される。同じである場合、(ii)が実行され、同じではない場合、(iv)が実行される。(ii)現在の文字は、現在のセグメントセットに置き換えられる。(iii)文の終わりに到達したかどうかが決定される。文の終わりに到達した場合、(iv)が実行され、文の終わりに到達していない場合、(v)が実行される。(iv)現在のセグメントセットにおける文字は言語カテゴリでマーク付けされ、現在のセグメントセットから削除される。(V)次の文字が現在の文字として更新される。次いで、(i)に戻って同じことを再開する。
ステップS104において、各セグメントは、テキストの音素シーケンスが生成されるように、セグメントの各々が属する言語カテゴリに従って、それぞれセグメントに対応する音素に変換される。
いくつかの実施形態では、各セグメントは、セグメントの各々が属する言語カテゴリに従ってそれぞれ正規化され、正規化後の各セグメントは、セグメントの各々が属する言語カテゴリに従って、それぞれ単語グループに分割され、各セグメントの分割された単語グループは、セグメントが属する言語カテゴリに対応するあらかじめ設定された音素変換テーブルに従って対応する音素に変換される。テキストは通常、12km/s、2019などのいくつかの異常な略語を含む。これらの異常なテキストは、正規化動作を通じた音声合成システムによる音声合成に適した通常のテキストに変換される必要がある。異なる言語カテゴリに属するセグメントは、それぞれ正規化される必要がある。異なる言語カテゴリの特殊文字コントラストテーブルによると、異常な文字は正常な文字に変換され得る。たとえば、後続の音素変換を容易にするために、12km/sは図2Aに示されるものに変換される。
たとえば、異なる言語は異なる単語グループ分割方法を有するため、英語は単語ごとに単語グループに分割されるが、中国語は意味情報などに応じて単語グループに分割される必要がある。したがって、各セグメントは、セグメントの各々が属する言語カテゴリに従って、それぞれ単語グループに分割される。分割された各単語グループは、異なる言語カテゴリに対応するあらかじめ設定された音素変換テーブルを照会することによって、対応する音素(G2P)に変換され得る。スペルミスのある単語、新しく作成された単語、ネットワークワードなど、あらかじめ設定された音素変換テーブル(OOV)に存在しない一部の単語は、ニューラルネットワークなどの既存の技術を通じて音素変換の対象となる場合がある。あらかじめ設定された音素変換テーブルは、ポリフォニの正確な音素変換を実行するために、ポリフォニの音素対応を含み得る。他の方法でポリフォニを認識すること、またはリストされている例に限定されない他の既存の技術を通じて音素変換を実行することも可能である。
いくつかの実施形態では、音素は文字の声調を含み得、音素の一部として声調をとることによって、合成された音声をより正確かつ自然にし得る。英語などの一部の言語には声調がないため、音素シーケンスに対応する声調マークを追加する必要はない。いくつかの実施形態では、テキストはまた、たとえば、テキストの韻律語および韻律句を識別するなど、韻律構造に分割され得る。テキストの韻律構造によれば、テキストの音素シーケンスを形成するために、テキストの各文字に対応する音素の後に韻律識別子が追加される。韻律識別子は、一時停止を示すために、韻律語または韻律句の音素の後に追加される特別なマークであり得る。韻律構造の予測は、既存の技術を適用する可能性があるが、ここでは詳細に説明しない。
ステップS106において、音素シーケンスは、事前にトレーニングされた音声合成モデルに入力され、ボコーダ特性パラメータに変換される。
上述の実施形態によれば、テキストの音素シーケンスは、音素(声調を含む)および各文字の韻律識別子を含み得、また、入力音素シーケンスの終わりを示す記号<EOS>などのいくつかの特別な記号を含み得る。音声合成モデルのトレーニングプロセスについては、後で説明する。
いくつかの実施形態では、音声合成モデルは、音響パラメータ予測モデルとボコーダパラメータ変換モデルとを含み得る。音響パラメータには、たとえば、メル周波数スペクトルパラメータまたは線形周波数スペクトルパラメータなどの音声周波数スペクトルパラメータを含む。ボコーダのパラメータは、実際に使用されているボコーダに応じて決定される。たとえば、ボコーダがワールドボコーダである場合、ボコーダのパラメータは、基本周波数(F0)、メル一般化ケプストラム(MGC)、バンドアピリオディカル(BAP: band a periodical)などを含み得る。音声合成モデルの音響パラメータ予測モデルに入力された音素シーケンスは、音響特性パラメータに変換され得、音声合成モデルにおけるボコーダパラメータ変換モデルに音響特性パラメータを入力することによって、ボコーダ特性パラメータの出力が取得され得る。
エンコーダ-デコーダネットワーク構造を適用する音響特性パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを含む。入力音素シーケンスと出力音響特性パラメータシーケンスは、長さが互いに一致しない場合があり、通常、音響特性パラメータシーケンスは比較的長い場合がある。エンコーダ-デコーダに基づくニューラルネットワーク構造は、音声合成の特性に適合するように、柔軟な特性予測を実行し得る。エンコーダは、3層の1次元畳み込み、および双方向LSTM(長短期記憶)コード化を含み得る。3層の1次元畳み込みでは、各音素のローカルコンテキスト情報を学習することが可能であり、双方向LSTMコード化では、各音素の双方向グローバル情報が計算によって取得される。エンコーダモジュールは、3層の1次元畳み込みと双方向LSTM符号化を通じて、コンテキスト情報を含む入力音素の非常に表現力豊かな特性表現を取得することができる。
デコーダは、たとえば、2つの完全に接続された層と2つのLSTMを含む。2つの完全に接続された層は、ニューラルネットワークの過剰適合現象の発生を防ぐために、ドロップアウト技術を使用し得る。注意モデルにより、デコーダは、復号化プロセス中の現在の復号化の瞬間に、どの入力音素の内部表現に注意を向けるべきかを学習する。注意メカニズムによって、デコーダはまた、パラメータ予測が完了した入力音素、および現時点で特別な注意が払われる必要がある音素を学習し得る。注意モデルはエンコーダのコンテキストベクトルを取得し、復号化プロセス中に、このコンテキストベクトルと併せて、現時点で取得される必要のある音響パラメータをより適切に予測し、復号化プロセスを終了するかどうかを決定することができる。
いくつかの実施形態では、以下のステップは、音響特性パラメータ予測モデルにおいて実行され得る。エンコーダの出力音素シーケンスの各要素に対応する特性表現を取得するために、音素シーケンスがエンコーダに入力される。各要素に対応する特性表現、デコーダにおける第1の反復層(たとえば、第1のLSTM)の現時点におけるデコーダ出力の隠れ状態、および前の瞬間における各要素に対応する注意重みの累積情報は、コンテキストベクトルを取得するために注意モデルに入力される。デコーダの第1の反復層の現時点におけるデコーダ出力の隠れ状態およびコンテキストベクトルは、デコーダの第2の反復層によって出力された現時点におけるデコーダの隠れ状態を取得するためにデコーダの第2の反復層に入力され、音響特性パラメータは、デコーダによって出力される各瞬間におけるデコーダの隠れ状態に基づいて予測される。たとえば、デコーダの隠れ状態シーケンスは、音響を取得するために線形変換される。
たとえば、入力音素シーケンスはX=[x1、x2、…、xj、…xM]であり、エンコーダによって出力される特性表現シーケンスはH=[h1、h2、…、hj、…hM]であり、jは入力音素シーケンスにおける各要素の位置を表し、Mは音素シーケンス内の要素の総数を表す。デコーダによって出力される隠れ状態シーケンスは、S=[s1、s2、…、si、…]であり、iはデコーダによって出力されるタイムステップを表す。音素シーケンスの韻律識別子はまた、対応する隠れ状態に変換され、次いで、デコーダの隠れ状態に変換され得る。
たとえば、コンテキストベクトルは、以下の式を使用することによって計算され得る。
Figure 0007464621000001
ここで、iはデコーダのタイムステップを表し、jはエンコーダに対応する音素シーケンス内の要素の位置を表し、iおよびjは正の整数である。v、W、V、U、bはモデルトレーニング中に学習されたパラメータであり、siは、デコーダにおける第1の反復層(たとえば、第1のLSTM)の現在のi番目の瞬間における復号化出力の隠れ状態を表す。hjはj番目の要素に対応する特性表現を表し、fi,jはfiにおけるベクトルであり、Fはあらかじめ設定された長さの畳み込みカーネルであり、αi-1はi-1番目の瞬間における各要素に対応する累積注意重み情報(アライメント)であり、ei,jは値であり、eiは各要素に対応する構成ベクトルであり、βiはベクトルであり、βi,jrはβiにおける値を表し、ciは、i番目の瞬間における対応するコンテキストベクトルであり、Mは音素シーケンス内の要素の総数を表す。
いくつかの実施形態では、現時点でエンコーダによって出力される各特性表現の注意重みを決定するために、注意モデルが使用される。音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の注意重みが注意重みの最大値であるかどうかを決定する(すなわち、入力音素シーケンスにおけるすべての要素の注意重み)。最大値である場合、復号化プロセスは終了する。特性表現の注意重みは、注意モデルによって生成される。たとえば、あらかじめ設定された要素は音素シーケンスにおける最後の<EOS>記号である。
復号化を停止するかどうかを決定する上述の方法では、実際の必要に応じてデコーダに復号化を終了させることが可能である。復号化プロセスを終了させる必要があるかどうかは、学習したアライメント情報に基づいて決定される。注意モデルが復号化中に最後の記号に注意をシフトしたが、復号化プロセスが正しい予測によって終了されなかった場合、システムはアライメント情報に基づいて復号化プロセスを強制的に終了する可能性がある。上述の補助復号化終了アルゴリズムでは、モデルが復号化プロセスの終了を予測できない、または終了を誤って予測するという問題を有利に解決することが可能であり、そのため、音響パラメータ予測モデルが複数のフレームの音響特性を予測し続け、いくつかの理解できない音声を最終的に合成するという条件を回避し、したがってシステムの音声出力における精度、流暢さ、および自然さが向上される。
入力音素シーケンスの音響特性パラメータが予測によって取得された後、音響特性パラメータ(たとえば、メルスペクトルパラメータ)がボコーダパラメータ変換モデルに入力されてボコーダ特性パラメータに変換され、次いで、音声合成はボコーダによって実行され得る。
ボコーダパラメータ変換モデルは、DNN-LSTM(ディープニューラルネットワーク-長短期記憶ネットワーク)のニューラルネットワーク構造である可能性がある。ネットワーク構造は、多層ディープニューラルネットワークと、長期および短期記憶ネットワークとを含み得る。たとえば、図2Bに示されるように、ネットワーク構造は2層のReLU(活性化関数)接続と1層のLSTMとを含む。音響特性パラメータは、最初にDNNネットワーク(たとえば、ReLU)に入力されるため、音響特性の非線形変換を学習し、ニューラルネットワークの内部特性表現を学習することができ、これは特性学習プロセスと同等である。DNNネットワークによって出力された特性は、よりスムーズな特性変換を取得するために、音響特性パラメータの履歴依存情報を学習するためにLSTMに入力される。本発明者らは、ネットワーク構造が2層のReLU接続と1層のLSTMとを含む場合、ボコーダのパラメータのより良い変換効果があることを試験によって発見した。
いくつかの実施形態では、音響特性パラメータの周波数がボコーダ特性パラメータの周波数よりも低い場合、音響特性パラメータを繰り返しアップサンプリングすることによって、音響特性パラメータの周波数をボコーダ特性パラメータの周波数と等しくする。たとえば、音響パラメータ予測モデルは15ミリ秒のフレームでパラメータ予測を実行するが、ボコーダは通常5ミリ秒のフレームで音声合成を実行するため、時間周波数における不一致の問題がある。2つのモデルの周波数における不一致の問題を解決するために、ボコーダモデルの周波数と一致するように、音響パラメータ予測モデルの出力に対してアップサンプリングを実行する必要がある。アップサンプリングは、音響パラメータ予測モデルの出力に対して繰り返し実行され得る。たとえば、音響特性パラメータを3回重ね合わせ、1*80次元のメルスペクトルパラメータについては、3回繰り返すことで3*80次元のメルスペクトルパラメータが取得され得る。本発明者らは、アップサンプリングニューラルネットワークの学習、または差分によるアップサンプリングの実行と比較して、特性を直接繰り返すことによるアップサンプリングが好ましい効果を達成できることを試験により決定した。
ステップS108において、音声を生成するために、ボコーダ特性パラメータがボコーダに入力される。
上述の実施形態におけるボコーダパラメータ変換モデルは、ワールドボコーダと組み合わせることができる。従来技術におけるウェーブネット(ネットワーク構造が複雑であり、音声をオンラインでリアルタイムに生成できない)と比較すると、計算を高速化し、単純なネットワークアーキテクチャによって音声がリアルタイムで生成されるように実装することが可能であり、それによって、従来技術におけるグリフィンリムモデルと比較して、音響の重複を減らし、音声合成効果を向上させる。
前述の実施形態の方法では、テキストが異なる言語カテゴリに属する複数のセグメントに分割されるように、テキスト内の言語カテゴリが最初に識別される。セグメントの各々が属する言語カテゴリに従って、各セグメントは対応する音素に変換される。テキストの音素シーケンスは音声合成モデルに入力され、ボコーダ特性パラメータに変換され、ボコーダはボコーダ特性パラメータに基づいて音声を出力する。上述の実施形態の解決策は、多言語発音をサポートするエンドツーエンドの音声合成システムを実装し、文字シーケンスによるボコーダ特性パラメータへの直接変換と比較して、音素シーケンスによるボコーダ特性パラメータへの変換によって、より正確で滑らかで自然な音声合成が可能になる。さらに、韻律構造、声調等を追加することによって音素シーケンスが生成され、音声合成効果をさらに向上させることが可能になる。新しいボコーダ特性パラメータ変換モデルにより、音声がリアルタイムで生成されるように実装するために計算を高速化することが可能であり、それによって、音響の重複を減らし、音声合成効果をさらに向上させることが可能になる。さらに、上述の実施形態はまた、復号化プロセスを終了させる方法を提供し、これは、モデルが復号化プロセスの終了を予測できない、または終了を誤って予測するという問題を解決し得、それによって、音響パラメータ予測モデルがいくつかの理解できない音声を最終的に合成することを回避し、システムの音声出力における精度、流暢さ、および自然さをさらに向上させる。
いくつかの実施形態では、音声合成モデルをトレーニングする方法は、ボコーダの合成周波数に基づいて、各トレーニングテキストに対応する音声サンプルをボコーダ特性パラメータサンプルに変換するステップと、音声合成モデルによって出力されるボコーダ特性パラメータを取得するために、各トレーニングテキストをトレーニングされる音声合成モデルに入力するステップと、ボコーダ特性パラメータを対応するボコーダ特性パラメータサンプルと比較して、トレーニングが完了するまで、比較結果に基づいてトレーニングされる音声合成モデルのパラメータを調整するステップとを含む。
ボコーダパラメータ変換モデルの精度をさらに向上させるために、本開示のいくつかの実施形態による音声合成モデルのトレーニング方法を、図3と併せて以下に説明する。
図3は、本開示の他の実施形態による、音声合成方法の概略フローチャートを示している。図3に示されるように、この実施形態の方法は、ステップS302からS310を備える。
ステップS302において、各トレーニングテキストに対応する音声サンプルは、あらかじめ設定された周波数に従って異なるフレームに分割され、各トレーニングテキストに対応する第1の音響特性パラメータサンプルをそれぞれ生成するように、フレームごとに音響特性パラメータが抽出される。
たとえば、フレームを形成するために、各音声サンプルが15ミリ秒の周波数で分割され得、第1の音響特性パラメータサンプル(たとえば、メルスペクトルパラメータ)を生成するためにサンプルの各フレームの音響特性パラメータが抽出され得る。
ステップS304において、音響パラメータ予測モデルは、各トレーニングテキストに対応する第1の音響特性パラメータサンプル、および各トレーニングテキストを使用することによってトレーニングされる。
まず、トレーニングテキストごとに、トレーニングテキストが異なる言語カテゴリのセグメントに分割され得、セグメントの各々が属する言語カテゴリに従って、各セグメントはそれぞれ対応する音素に変換され、トレーニングテキストの音素シーケンスが生成される。音素シーケンスは、声調、韻律識別子などを含み得る。各トレーニングテキストの音素シーケンスは、各トレーニングテキストに対応する出力音響特性パラメータを取得するために、音響パラメータ予測モデルに入力される。同じトレーニングテキストに対応する出力音響特性パラメータが第1の音響特性パラメータサンプルと比較され、音響パラメータ予測モデルにおけるパラメータが、第1のあらかじめ設定された目標が満たされるまで比較結果に基づいて調整され、それによって、音響パラメータ予測モデルのトレーニングが完了する。
ステップS306において、各トレーニングテキストは、トレーニングされた音響パラメータ予測モデルを使用することによって、それぞれ第2の音響特性パラメータサンプルに変換される。
各トレーニングテキストは、トレーニングされた音響パラメータ予測モデルに入力され、したがって、各トレーニングテキストに対応する第2の音響特性パラメータサンプルが取得される。
ステップS308において、ボコーダの合成周波数に基づいて、各トレーニングテキストに対応する音声サンプルがそれぞれボコーダの特性パラメータサンプルに変換される。
たとえば、音声サンプルは、フレームとして5ミリ秒の周波数で分割され得、サンプルの各フレームは、ボコーダ特性パラメータサンプル(たとえば、MGC、BAP、ログF0)に変換され得る。ステップS308を実行する順序は、それがステップS310の前である限り、制限されない。
ステップS310において、ボコーダパラメータ変換モデルは、第2の音響特性パラメータサンプルおよび各トレーニングテキストに対応するボコーダ特性パラメータサンプルを使用することによってトレーニングされる。
たとえば、各第2の音響特性パラメータサンプルは、出力ボコーダ特性パラメータを取得するためにボコーダパラメータ変換モデルに入力される。出力ボコーダ特性パラメータは、対応するボコーダ特性パラメータサンプルと比較され、ボコーダパラメータ変換モデルにおけるパラメータは、第2のあらかじめ設定されたターゲットが満たされるまで比較結果に基づいて調整され、それによって、ボコーダパラメータ変換モデルのトレーニングが完了する。
上述の実施形態の方法では、ボコーダパラメータ変換モデルは、音響予測モデルの予測によって取得された音響特性パラメータをトレーニングデータとして使用することによってトレーニングされるので、ボコーダパラメータ変換モデルの精度を向上させ、より正確で滑らかで自然な合成音声を可能にすることができる。これは、音声ファイルから直接抽出された実際の音響特性パラメータ(たとえば、メルスペクトルパラメータ)を使用することによってボコーダパラメータ変換モデルがトレーニングされると、モデルの入力特性と実際の音声合成中のモデルのトレーニング特性とに違いが生じるためである。これは特に、入力特性が、実際の音声合成プロセス中に音響パラメータ予測モデルの予測によって取得されたメルスペクトルであるためである。音響パラメータ予測モデルの復号化プロセス中に、復号化ステップの数が増えるにつれて、予測によって取得される音響特性パラメータにますます多くのエラーが存在する可能性がある。ただし、音響パラメータ変換モジュールのトレーニングプロセスにおいては、サウンドファイルの実際の音響特性パラメータが使用される。トレーニングによって取得されたモデルは、予測によって取得された音響特性パラメータと、復号化プロセス中にエラーを蓄積した音響特性パラメータを学習していない。したがって、入力特性とトレーニング特性が互いに一致しないと、ボコーダパラメータ変換モデルのパフォーマンスが大幅に低下する可能性がある。
本開示はまた、音声合成デバイスを提供し、これは、図4と併せて以下に説明される。
図4は、本開示のいくつかの実施形態による、音声合成デバイスの構造図を示している。図4に示されるように、この実施形態のデバイス40は、言語認識モジュール402と、音素変換モジュール404と、パラメータ変換モジュール406と、音声生成モジュール408とを含む。
言語認識モジュール402は、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割する。
いくつかの実施形態では、言語認識モジュール402は、テキストの各文字の符号化に従って各文字が属する言語カテゴリを認識することと、同じ言語に属する連続する文字を言語の1つのセグメントに分割することとを行うように構成される。
音素変換モジュール404は、セグメントの各々が属する言語カテゴリに従ってテキストの音素シーケンスを生成するために、セグメントの各々をセグメントに対応する音素に変換するように構成される。
いくつかの実施形態では、音素変換モジュール404は、テキストの韻律構造を決定することと、テキストの音素シーケンスを形成するために、テキストの韻律構造に従ってテキストの各文字に対応する音素の後に韻律識別子を追加することとを行うように構成される。
いくつかの実施形態では、音素変換モジュール404は、セグメントの各々が属する言語カテゴリに従って、セグメントの各々に対してそれぞれテキストの正規化を実行することと、セグメントの各々が属する言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行することと、セグメントの各々が属する言語カテゴリのあらかじめ設定された音素変換テーブルに従って、セグメントの各々の分割された単語グループを対応する音素に変換することとを行うように構成され、音素は文字の声調を含む。
パラメータ変換モジュール406は、音素シーケンスを事前にトレーニングされた音声合成モデルに入力し、それをボコーダ特性パラメータに変換するように構成される。
いくつかの実施形態では、パラメータ変換モジュール406は、音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力することと、ボコーダ特性パラメータを取得するために、音声合成モデルのボコーダパラメータ変換モデルに音響特性パラメータを入力することとを行うように構成される。
いくつかの実施形態では、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを含み、パラメータ変換モジュール406は、注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定することと、音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、復号化プロセスを終了することとを行うように構成される。
いくつかの実施形態では、音響特性パラメータは、音声周波数スペクトルパラメータを含み、ボコーダパラメータ変換モデルは、多層ディープニューラルネットワークと長期および短期記憶ネットワークで構成される。
いくつかの実施形態では、音響特性パラメータの周波数がボコーダ特性パラメータの周波数よりも低い場合、音響特性パラメータを繰り返しアップサンプリングすることによって、音響特性パラメータの周波数をボコーダ特性パラメータの周波数と等しくする。
いくつかの実施形態では、パラメータ変換モジュール406は、エンコーダに音素シーケンスを入力し、エンコーダによって出力された音素シーケンスにおける各要素に対応する特性表現を取得することと、コンテキストベクトルを取得するために、各要素に対応する特性表現、デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を注意モデルに入力することと、デコーダの第2の反復層によって現時点のデコーダ出力の隠れ状態を取得するために、デコーダの第1の反復層およびコンテキストベクトルによって現時点のデコーダ出力の隠れ状態をデコーダの第2の反復層に入力することと、デコーダによって出力される各瞬間のデコーダの隠れ状態に従って音響特性パラメータを予測することとを行うように構成される。
音声生成モジュール408は、音声を生成するためにボコーダ特性パラメータをボコーダに入力するように構成される。
いくつかの実施形態では、図4に示されるように、音声合成デバイス40は、トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成することと、トレーニングテキストの各々に対応する第1の音響特性パラメータサンプルおよびトレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングすることと、トレーニングされた音響パラメータ予測モデルを使用することによって、トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換することと、ボコーダの合成周波数に応じて、トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換することと、トレーニングテキストの各々に対応する第2の音響特性パラメータサンプルおよびボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングすることとを行うように構成されたモデルトレーニングモジュール410をさらに含む。
本開示の実施形態における音声合成デバイスは、様々なコンピューティングデバイスまたはコンピュータシステムによって実装され得、これは、図5および図6と併せて以下に説明される。
図5は、本開示のいくつかの実施形態による、音声合成デバイスの構造図を示している。図5に示されるように、この実施形態のデバイス50は、メモリ510と、メモリ510に結合されたプロセッサ520とを備え、プロセッサ520は、メモリ510に記憶された命令に基づいて、本開示の任意の実施形態における音声合成方法を実装するように構成される。
メモリ510は、たとえば、システムメモリ、固定された不揮発性ストレージ媒体などを含み得る。システムメモリは、たとえば、オペレーティングシステム、アプリケーションプログラム、ブートローダ、データベース、および他のプログラムを記憶する。
図6は、本開示の他の実施形態による、音声合成デバイスの構造図を示している。図6に示されるように、この実施形態のデバイス60は、それぞれメモリ510およびプロセッサ520と同様のメモリ610およびプロセッサ620を含む。I/Oインターフェース630、ネットワークインターフェース640、ストレージインターフェース650などをさらに備え得る。これらのインターフェース630、640、650、ならびにそれらの間のメモリ610およびプロセッサ620は、たとえば、バス660を介して接続され得る。I/Oインターフェース630は、ディスプレイ、マウス、キーボード、およびタッチスクリーンなどの入力および出力デバイスのための接続インターフェースを提供する。ネットワークインターフェース640は、様々なネットワーク化されたデバイスのための接続インターフェースを提供する。たとえば、データベースサーバまたはクラウドストレージサーバに接続されている場合がある。ストレージインターフェース650は、SDカードまたはUSBフラッシュディスクなどの外部ストレージデバイスのための接続インターフェースを提供する。
当業者は、本開示の実施形態が、方法、システム、またはコンピュータプログラム製品として提供され得ることを理解するであろう。したがって、本開示は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、またはソフトウェアとハードウェアの態様の組合せの形をとり得る。さらに、本開示は、コンピュータ使用可能なプログラムコードを含む1つまたは複数のコンピュータ使用可能な非一時的ストレージ媒体(ディスクメモリ、CD-ROM、光メモリなどを含むがこれらに限定されない)に具現化されたコンピュータプログラム製品の形をとり得る。
本開示は、本開示の実施形態による方法、デバイス(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロックビューを参照して説明される。フローチャートおよび/またはブロックビューの各ステップおよび/またはブロック、ならびにフローチャートおよび/またはブロックビューのステップおよび/またはブロックの組合せは、コンピュータプログラム命令によって実装され得ることが理解されよう。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理デバイスのプロセッサによって実行される命令が、フローチャートの1つまたは複数のステップ、および/またはブロックビューにおける1つまたは複数のブロックにおいて指定された機能を実現するためのデバイスを生成するように、汎用コンピュータ、専用コンピュータ、組込み処理機械、または機械を製造するための他のプログラム可能なデータ処理デバイスのプロセッサに提供され得る。
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデータ処理デバイスを特定の方法で動作するように導くことができるコンピュータ可読メモリに記憶され得、その結果、コンピュータ可読メモリに記憶された命令は、命令デバイスを含む製造物を生成する。命令デバイスは、フローチャートにおける1つまたは複数のステップにおいて、あるいはブロックビューにおける1つまたは複数のブロックにおいて指定された機能を実現する。
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデータ処理デバイスにロードされ得、その結果、コンピュータ実装処理を生成するために、一連の動作ステップがコンピュータまたは他のプログラム可能なデバイス上で実行され、その結果、コンピュータまたは他のプログラム可能なデバイス上で実行される命令が、フローチャートの1つまたは複数のステップ、および/あるいはブロックビューにおける1つまたは複数のブロックにおいて指定された機能を実現するためのステップを提供する。
前述の説明は、本開示の好ましい実施形態に過ぎず、本開示を限定するために役立つものではない。本開示の趣旨および原則の範囲内で行われた修正、同等の置換え、改善などはすべて、本開示の保護範囲内に含まれるべきである。
40 デバイス
50 デバイス
60 デバイス
402 言語認識モジュール
404 音素変換モジュール
406 パラメータ変換モジュール
408 音声生成モジュール
410 モデルトレーニングモジュール
510 メモリ
520 プロセッサ
610 メモリ
620 プロセッサ
630 I/Oインターフェース
640 ネットワークインターフェース
650 ストレージインターフェース
660 バス

Claims (13)

  1. プロセッサによって、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するステップ(S102)と、
    前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、前記テキストの音素シーケンスを生成するために前記セグメントの各々をセグメントに対応する音素に変換するステップ(S104)と、
    前記プロセッサによって、事前にトレーニングされた音声合成モデルに前記音素シーケンスを入力して、前記音素シーケンスをボコーダ特性パラメータに変換するステップ(S106)であって、前記変換するステップ(S106)は、
    前記音素シーケンスを音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの音響パラメータ予測モデルに入力するステップであって、
    注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定するステップと、
    前記音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の前記注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了するステップと
    を備え、前記音響パラメータ予測モデルが、前記エンコーダと、前記デコーダと、前記注意モデルとを備える、入力するステップと、
    前記ボコーダ特性パラメータを取得するために、前記音声合成モデルのボコーダパラメータ変換モデルに前記音響特性パラメータを入力するステップと
    を備える、ステップ(S106)と、
    前記プロセッサによって、音声を生成するために前記ボコーダ特性パラメータをボコーダに入力するステップ(S108)と
    を備えることを特徴とする、音声合成方法。
  2. 前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って前記テキストを複数のセグメントに分割するステップが、
    前記プロセッサによって、前記テキストの各文字の符号化に従って、各文字が属する前記言語カテゴリを認識するステップと、
    前記プロセッサによって、同じ言語に属する連続する文字を前記言語の1つのセグメントに分割するステップと
    を備える、
    および/または、
    前記テキストの音素シーケンスを生成するステップが、
    前記プロセッサによって、前記テキストの韻律構造を決定するステップと、
    前記プロセッサによって、前記テキストの前記音素シーケンスを形成するために、前記テキストの前記韻律構造に従って前記テキストの各文字に対応する前記音素の後に韻律識別子を追加するステップとを備える、
    および/または、
    前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々を前記対応する音素にそれぞれ変換するステップが、
    前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々に対してそれぞれテキストの正規化を実行するステップと、
    前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行するステップと、
    前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリのあらかじめ設定された音素変換テーブルに従って、前記セグメントの各々の分割された単語グループを対応する音素に変換するステップとを備え、
    前記音素が文字の声調を備えることを特徴とする、請求項1に記載の音声合成方法。
  3. 前記音響特性パラメータが、音声周波数スペクトルパラメータを備え、
    前記ボコーダパラメータ変換モデルが、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える、
    および/または、
    前記音響特性パラメータの周波数が前記ボコーダ特性パラメータの周波数よりも低い場合、前記プロセッサによって、前記音響特性パラメータを繰り返しアップサンプリングすることによって、前記音響特性パラメータの前記周波数を前記ボコーダ特性パラメータの周波数と等しくすることを特徴とする、請求項1に記載の音声合成方法。
  4. 前記プロセッサによって、前記音声合成モデルをトレーニングするステップをさらに備え、
    トレーニング方法が、
    トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、前記トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成するステップと、
    前記トレーニングテキストの各々に対応する前記第1の音響特性パラメータサンプルおよび前記トレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングするステップと、
    トレーニングされた音響パラメータ予測モデルを使用することによって、前記トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換するステップと、
    前記ボコーダの合成周波数に応じて、前記トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換するステップと、
    前記トレーニングテキストの各々に対応する前記第2の音響特性パラメータサンプルおよび前記ボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングするステップと
    を備えることを特徴とする、請求項1に記載の音声合成方法。
  5. 前記音響パラメータ予測モデルが、エンコーダと、デコーダと、注意モデルとを備え、前記音素シーケンスを前記音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの前記音響パラメータ予測モデルに入力する前記ステップが、
    前記エンコーダに前記音素シーケンスを入力し、前記エンコーダによって出力された前記音素シーケンスにおける各要素に対応する特性表現を取得するステップと、
    コンテキストベクトルを取得するために、各要素に対応する特性表現、前記デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を前記注意モデルに入力するステップと、
    前記デコーダの第2の反復層によって前記現時点の前記デコーダ出力の隠れ状態を取得するために、前記デコーダの第1の反復層および前記コンテキストベクトルによって前記現時点の前記デコーダ出力の隠れ状態を前記デコーダの第2の反復層に入力するステップと、
    前記デコーダによって出力される各瞬間の前記デコーダの隠れ状態に従って前記音響特性パラメータを予測するステップと
    を備えることを特徴とする、請求項1に記載の音声合成方法。
  6. セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するように構成された言語認識モジュール(402)と、
    前記セグメントの各々が属する前記言語カテゴリに従って、前記テキストの音素シーケンスを生成するために前記セグメントの各々を前記セグメントに対応する音素に変換するように構成された音素変換モジュール(404)と、
    事前にトレーニングされた音声合成モデルに前記音素シーケンスを入力して、前記音素シーケンスをボコーダ特性パラメータに変換するように構成されたパラメータ変換モジュール(406)であって、前記変換することが、
    前記音素シーケンスを音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの音響パラメータ予測モデルに入力することであって、
    注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定することと、
    前記音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の前記注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了することと
    を含み、前記音響パラメータ予測モデルが、前記エンコーダと、前記デコーダと、前記注意モデルとを備える、入力することと、
    前記ボコーダ特性パラメータを取得するために、前記音声合成モデルのボコーダパラメータ変換モデルに前記音響特性パラメータを入力すること
    を含む、パラメータ変換モジュール(406)と、
    音声を生成するために前記ボコーダ特性パラメータをボコーダに入力するように構成された音声生成モジュール(408)と
    を備えることを特徴とする、音声合成デバイス。
  7. 前記言語認識モジュールが、前記テキストの各文字の符号化に従って、各文字が属する前記言語カテゴリを認識することと、同じ言語に属する連続する文字を前記言語の1つのセグメントに分割することとを行うように構成される、
    および/または、
    前記音素変換モジュールが、前記テキストの韻律構造を決定することと、前記テキストの前記音素シーケンスを形成するために、前記テキストの前記韻律構造に従って前記テキストの各文字に対応する前記音素の後に韻律識別子を追加することとを行うように構成される、
    および/または、
    前記音素変換モジュールが、前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々に対してそれぞれテキストの正規化を実行することと、前記セグメントの各々が属する前記言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行することと、前記セグメントの各々が属する前記言語カテゴリのあらかじめ設定された音素変換テーブルに従って、前記セグメントの各々の分割された単語グループを対応する音素に変換することとを行うように構成され、
    前記音素が文字の声調を備えることを特徴とする、請求項6に記載の音声合成デバイス。
  8. 記パラメータ変換モジュールが、前記エンコーダに前記音素シーケンスを入力し、前記エンコーダによって出力された前記音素シーケンスにおける各要素に対応する特性表現を取得することと、コンテキストベクトルを取得するために、各要素に対応する特性表現、前記デコーダにおける第1の反復層による前記現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を前記注意モデルに入力することと、前記デコーダの第2の反復層によって前記現時点の前記デコーダ出力の隠れ状態を取得するために、前記デコーダの第1の反復層および前記コンテキストベクトルによって前記現時点の前記デコーダ出力の隠れ状態を前記デコーダの第2の反復層に入力することと、前記デコーダによって出力される各瞬間の前記デコーダの隠れ状態に従って前記音響特性パラメータを予測することとを行うように構成されることを特徴とする、請求項6に記載の音声合成デバイス。
  9. 前記音響特性パラメータが、音声周波数スペクトルパラメータを備え、
    前記ボコーダパラメータ変換モデルが、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える、および/または、
    前記音響特性パラメータの周波数が前記ボコーダ特性パラメータの周波数よりも低い場合、前記音響特性パラメータを繰り返しアップサンプリングすることによって、前記音響特性パラメータの前記周波数を前記ボコーダ特性パラメータの周波数と等しくすることを特徴とする、請求項6に記載の音声合成デバイス。
  10. トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、前記トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成することと、前記トレーニングテキストの各々に対応する前記第1の音響特性パラメータサンプルおよび前記トレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングすることと、トレーニングされた音響パラメータ予測モデルを使用することによって、前記トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換することと、前記ボコーダの合成周波数に応じて、前記トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換することと、前記トレーニングテキストの各々に対応する前記第2の音響特性パラメータサンプルおよび前記ボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングすることとを行うように構成されたモデルトレーニングモジュールをさらに備えることを特徴とする、請求項6に記載の音声合成デバイス。
  11. メモリと、
    前記メモリに結合されたプロセッサと
    を特徴とし、前記プロセッサが、前記メモリに記憶された命令に基づいて、請求項1から5のいずれか一項に記載の音声合成方法を実装するように構成される、音声合成デバイス。
  12. プロセッサによって実行されると、請求項1から5のいずれか一項に記載の方法のステップを実装するコンピュータプログラム命令を記憶している、コンピュータ可読ストレージ媒体。
  13. 請求項1から5のいずれか一項に記載の方法をプロセッサに実行させるように構成されることを特徴とする、コンピュータプログラム
JP2021558871A 2019-04-03 2020-03-30 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 Active JP7464621B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910266289.4 2019-04-03
CN201910266289.4A CN111798832A (zh) 2019-04-03 2019-04-03 语音合成方法、装置和计算机可读存储介质
PCT/CN2020/082172 WO2020200178A1 (zh) 2019-04-03 2020-03-30 语音合成方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022527970A JP2022527970A (ja) 2022-06-07
JP7464621B2 true JP7464621B2 (ja) 2024-04-09

Family

ID=72664952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021558871A Active JP7464621B2 (ja) 2019-04-03 2020-03-30 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体

Country Status (5)

Country Link
US (1) US11881205B2 (ja)
EP (1) EP3937165A4 (ja)
JP (1) JP7464621B2 (ja)
CN (1) CN111798832A (ja)
WO (1) WO2020200178A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331183B (zh) * 2020-10-27 2022-03-18 中科极限元(杭州)智能科技股份有限公司 基于自回归网络的非平行语料语音转换方法及系统
CN112185340B (zh) * 2020-10-30 2024-03-15 网易(杭州)网络有限公司 语音合成方法、语音合成装置、存储介质与电子设备
CN112365878B (zh) * 2020-10-30 2024-01-23 广州华多网络科技有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN112435650B (zh) * 2020-11-11 2022-04-15 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112420016B (zh) * 2020-11-20 2022-06-03 四川长虹电器股份有限公司 一种合成语音与文本对齐的方法、装置及计算机储存介质
CN112634865B (zh) * 2020-12-23 2022-10-28 爱驰汽车有限公司 语音合成方法、装置、计算机设备和存储介质
CN112951200B (zh) * 2021-01-28 2024-03-12 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN112992177B (zh) * 2021-02-20 2023-10-17 平安科技(深圳)有限公司 语音风格迁移模型的训练方法、装置、设备及存储介质
CN112802449B (zh) * 2021-03-19 2021-07-02 广州酷狗计算机科技有限公司 音频合成方法、装置、计算机设备及存储介质
CN113035228A (zh) * 2021-03-23 2021-06-25 广州酷狗计算机科技有限公司 声学特征提取方法、装置、设备及存储介质
CN113761841B (zh) * 2021-04-19 2023-07-25 腾讯科技(深圳)有限公司 将文本数据转换为声学特征的方法
CN113362803B (zh) * 2021-05-31 2023-04-25 杭州芯声智能科技有限公司 一种arm侧离线语音合成的方法、装置及存储介质
CN113345412A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质
CN113345415A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN113327576B (zh) * 2021-06-03 2024-04-23 多益网络有限公司 语音合成方法、装置、设备及存储介质
CN113450760A (zh) * 2021-06-07 2021-09-28 北京一起教育科技有限责任公司 一种文本转语音的方法、装置及电子设备
CN113409761B (zh) * 2021-07-12 2022-11-01 上海喜马拉雅科技有限公司 语音合成方法、装置、电子设备以及计算机可读存储介质
CN113724683B (zh) * 2021-07-23 2024-03-22 阿里巴巴达摩院(杭州)科技有限公司 音频生成方法、计算机设备及计算机可读存储介质
CN113838453B (zh) * 2021-08-17 2022-06-28 北京百度网讯科技有限公司 语音处理方法、装置、设备和计算机存储介质
CN113838452B (zh) 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质
CN113808571B (zh) * 2021-08-17 2022-05-27 北京百度网讯科技有限公司 语音合成方法、装置、电子设备以及存储介质
CN113707125B (zh) * 2021-08-30 2024-02-27 中国科学院声学研究所 一种多语言语音合成模型的训练方法及装置
CN114299910B (zh) * 2021-09-06 2024-03-22 腾讯科技(深圳)有限公司 语音合成模型的训练方法、使用方法、装置、设备及介质
CN114267375B (zh) * 2021-11-24 2022-10-28 北京百度网讯科技有限公司 音素检测方法及装置、训练方法及装置、设备和介质
CN114267376B (zh) * 2021-11-24 2022-10-18 北京百度网讯科技有限公司 音素检测方法及装置、训练方法及装置、设备和介质
CN115691476B (zh) * 2022-06-06 2023-07-04 腾讯科技(深圳)有限公司 语音识别模型的训练方法、语音识别方法、装置及设备
US20240054989A1 (en) * 2022-08-15 2024-02-15 Tencent America LLC Systems and methods for character-to-phone conversion
CN116665636B (zh) * 2022-09-20 2024-03-12 荣耀终端有限公司 音频数据处理方法、模型训练方法、电子设备和存储介质
CN117765926B (zh) * 2024-02-19 2024-05-14 上海蜜度科技股份有限公司 语音合成方法、系统、电子设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287444A (ja) 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
JP2007532995A (ja) * 2004-04-06 2007-11-15 デパートメント・オブ・インフォメーション・テクノロジー 疑似インターリングア及び交雑アプローチを用いた英語からヒンディ語及びその他のインド諸語への複数言語機械翻訳システム
US20050267757A1 (en) * 2004-05-27 2005-12-01 Nokia Corporation Handling of acronyms and digits in a speech recognition and text-to-speech engine
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
US20070106513A1 (en) * 2005-11-10 2007-05-10 Boillot Marc A Method for facilitating text to speech synthesis using a differential vocoder
US8825485B2 (en) 2009-06-10 2014-09-02 Kabushiki Kaisha Toshiba Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language
US8478581B2 (en) * 2010-01-25 2013-07-02 Chung-ching Chen Interlingua, interlingua engine, and interlingua machine translation system
US8688435B2 (en) * 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9484014B1 (en) 2013-02-20 2016-11-01 Amazon Technologies, Inc. Hybrid unit selection / parametric TTS system
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
CN106297764B (zh) * 2015-05-27 2019-07-30 科大讯飞股份有限公司 一种多语种混语文本处理方法及系统
TWI605350B (zh) 2015-07-21 2017-11-11 華碩電腦股份有限公司 文字轉語音方法以及多語言語音合成裝置
US9865251B2 (en) * 2015-07-21 2018-01-09 Asustek Computer Inc. Text-to-speech method and multi-lingual speech synthesizer using the method
RU2632424C2 (ru) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
JP6819988B2 (ja) * 2016-07-28 2021-01-27 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10796686B2 (en) * 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
CN107945786B (zh) 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287444A (ja) 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Jonathan Shen, et al.,Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions,International Conference on Acoustics, Speech and Signal Processing,2018,IEEE2,2018年04月15日,pp. 4779-4783,https://ieeexplore.ieee.org/document/8461368
Jose Sotelo, et al.,Char2Wav: End-to-End Speech Synthesis,ICSR 2017,2017年,pp. 1-6,https;//openview.net/pdf?id=B1VWyySKx
Qingyun Dou, et al.,Hierarchical RNNs for Waveform-Level Speech Synthesis,IEEE Spoken Language Technology Workshop,2018,IEEE,2018年12月18日,pp. 618-625,https://ieeexplore.ieee.org/document/8639588
Wei Ping, et al.,Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning,arXiv,2018年02月22日,pp. 1-16,https://arxiv.org/abs/1710.07654

Also Published As

Publication number Publication date
JP2022527970A (ja) 2022-06-07
WO2020200178A1 (zh) 2020-10-08
EP3937165A4 (en) 2023-05-10
EP3937165A1 (en) 2022-01-12
US20220165249A1 (en) 2022-05-26
US11881205B2 (en) 2024-01-23
CN111798832A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
JP7464621B2 (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
CN110534089B (zh) 一种基于音素和韵律结构的中文语音合成方法
AU2019395322B2 (en) Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping
KR20210146368A (ko) 숫자 시퀀스에 대한 종단 간 자동 음성 인식
CN115485766A (zh) 使用bert模型的语音合成韵律
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
JP7314450B2 (ja) 音声合成方法、装置、機器、及びコンピュータ記憶媒体
CN113450757A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
CN115424604B (zh) 一种基于对抗生成网络的语音合成模型的训练方法
CN114464162B (zh) 语音合成方法、神经网络模型训练方法、和语音合成模型
CN114708848A (zh) 音视频文件大小的获取方法和装置
JP7357518B2 (ja) 音声合成装置及びプログラム
CN113628609A (zh) 自动音频内容生成
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
Setlur et al. Towards using heterogeneous relation graphs for end-to-end tts
CN115114933A (zh) 用于文本处理的方法、装置、设备和存储介质
Costa et al. Free tools and resources for hmm-based brazilian portuguese speech synthesis
Le Maguer et al. Agile MaryTTS Architecture for the Blizzard Challenge 2018
Nitisaroj et al. The Lessac Technologies system for Blizzard Challenge 2010
CN114267330A (zh) 语音合成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240328

R150 Certificate of patent or registration of utility model

Ref document number: 7464621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150