JP7464621B2 - 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 - Google Patents
音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 Download PDFInfo
- Publication number
- JP7464621B2 JP7464621B2 JP2021558871A JP2021558871A JP7464621B2 JP 7464621 B2 JP7464621 B2 JP 7464621B2 JP 2021558871 A JP2021558871 A JP 2021558871A JP 2021558871 A JP2021558871 A JP 2021558871A JP 7464621 B2 JP7464621 B2 JP 7464621B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- vocoder
- parameter
- model
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 10
- 238000012549 training Methods 0.000 claims description 77
- 230000015572 biosynthetic process Effects 0.000 claims description 76
- 238000003786 synthesis reaction Methods 0.000 claims description 76
- 238000006243 chemical reaction Methods 0.000 claims description 73
- 238000000034 method Methods 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 230000006403 short-term memory Effects 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Description
本出願は、2019年4月3日に出願された中国特許出願第201910266289.4号に基づいており、またその優先権の利益を主張するものであり、参照によりその全体が本出願に組み込まれる。
50 デバイス
60 デバイス
402 言語認識モジュール
404 音素変換モジュール
406 パラメータ変換モジュール
408 音声生成モジュール
410 モデルトレーニングモジュール
510 メモリ
520 プロセッサ
610 メモリ
620 プロセッサ
630 I/Oインターフェース
640 ネットワークインターフェース
650 ストレージインターフェース
660 バス
Claims (13)
- プロセッサによって、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するステップ(S102)と、
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、前記テキストの音素シーケンスを生成するために前記セグメントの各々をセグメントに対応する音素に変換するステップ(S104)と、
前記プロセッサによって、事前にトレーニングされた音声合成モデルに前記音素シーケンスを入力して、前記音素シーケンスをボコーダ特性パラメータに変換するステップ(S106)であって、前記変換するステップ(S106)は、
前記音素シーケンスを音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの音響パラメータ予測モデルに入力するステップであって、
注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定するステップと、
前記音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の前記注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了するステップと
を備え、前記音響パラメータ予測モデルが、前記エンコーダと、前記デコーダと、前記注意モデルとを備える、入力するステップと、
前記ボコーダ特性パラメータを取得するために、前記音声合成モデルのボコーダパラメータ変換モデルに前記音響特性パラメータを入力するステップと
を備える、ステップ(S106)と、
前記プロセッサによって、音声を生成するために前記ボコーダ特性パラメータをボコーダに入力するステップ(S108)と
を備えることを特徴とする、音声合成方法。 - 前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って前記テキストを複数のセグメントに分割するステップが、
前記プロセッサによって、前記テキストの各文字の符号化に従って、各文字が属する前記言語カテゴリを認識するステップと、
前記プロセッサによって、同じ言語に属する連続する文字を前記言語の1つのセグメントに分割するステップと
を備える、
および/または、
前記テキストの音素シーケンスを生成するステップが、
前記プロセッサによって、前記テキストの韻律構造を決定するステップと、
前記プロセッサによって、前記テキストの前記音素シーケンスを形成するために、前記テキストの前記韻律構造に従って前記テキストの各文字に対応する前記音素の後に韻律識別子を追加するステップとを備える、
および/または、
前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々を前記対応する音素にそれぞれ変換するステップが、
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々に対してそれぞれテキストの正規化を実行するステップと、
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行するステップと、
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリのあらかじめ設定された音素変換テーブルに従って、前記セグメントの各々の分割された単語グループを対応する音素に変換するステップとを備え、
前記音素が文字の声調を備えることを特徴とする、請求項1に記載の音声合成方法。 - 前記音響特性パラメータが、音声周波数スペクトルパラメータを備え、
前記ボコーダパラメータ変換モデルが、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える、
および/または、
前記音響特性パラメータの周波数が前記ボコーダ特性パラメータの周波数よりも低い場合、前記プロセッサによって、前記音響特性パラメータを繰り返しアップサンプリングすることによって、前記音響特性パラメータの前記周波数を前記ボコーダ特性パラメータの周波数と等しくすることを特徴とする、請求項1に記載の音声合成方法。 - 前記プロセッサによって、前記音声合成モデルをトレーニングするステップをさらに備え、
トレーニング方法が、
トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、前記トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成するステップと、
前記トレーニングテキストの各々に対応する前記第1の音響特性パラメータサンプルおよび前記トレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングするステップと、
トレーニングされた音響パラメータ予測モデルを使用することによって、前記トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換するステップと、
前記ボコーダの合成周波数に応じて、前記トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換するステップと、
前記トレーニングテキストの各々に対応する前記第2の音響特性パラメータサンプルおよび前記ボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングするステップと
を備えることを特徴とする、請求項1に記載の音声合成方法。 - 前記音響パラメータ予測モデルが、エンコーダと、デコーダと、注意モデルとを備え、前記音素シーケンスを前記音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの前記音響パラメータ予測モデルに入力する前記ステップが、
前記エンコーダに前記音素シーケンスを入力し、前記エンコーダによって出力された前記音素シーケンスにおける各要素に対応する特性表現を取得するステップと、
コンテキストベクトルを取得するために、各要素に対応する特性表現、前記デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を前記注意モデルに入力するステップと、
前記デコーダの第2の反復層によって前記現時点の前記デコーダ出力の隠れ状態を取得するために、前記デコーダの第1の反復層および前記コンテキストベクトルによって前記現時点の前記デコーダ出力の隠れ状態を前記デコーダの第2の反復層に入力するステップと、
前記デコーダによって出力される各瞬間の前記デコーダの隠れ状態に従って前記音響特性パラメータを予測するステップと
を備えることを特徴とする、請求項1に記載の音声合成方法。 - セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するように構成された言語認識モジュール(402)と、
前記セグメントの各々が属する前記言語カテゴリに従って、前記テキストの音素シーケンスを生成するために前記セグメントの各々を前記セグメントに対応する音素に変換するように構成された音素変換モジュール(404)と、
事前にトレーニングされた音声合成モデルに前記音素シーケンスを入力して、前記音素シーケンスをボコーダ特性パラメータに変換するように構成されたパラメータ変換モジュール(406)であって、前記変換することが、
前記音素シーケンスを音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの音響パラメータ予測モデルに入力することであって、
注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定することと、
前記音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の前記注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了することと
を含み、前記音響パラメータ予測モデルが、前記エンコーダと、前記デコーダと、前記注意モデルとを備える、入力することと、
前記ボコーダ特性パラメータを取得するために、前記音声合成モデルのボコーダパラメータ変換モデルに前記音響特性パラメータを入力すること
を含む、パラメータ変換モジュール(406)と、
音声を生成するために前記ボコーダ特性パラメータをボコーダに入力するように構成された音声生成モジュール(408)と
を備えることを特徴とする、音声合成デバイス。 - 前記言語認識モジュールが、前記テキストの各文字の符号化に従って、各文字が属する前記言語カテゴリを認識することと、同じ言語に属する連続する文字を前記言語の1つのセグメントに分割することとを行うように構成される、
および/または、
前記音素変換モジュールが、前記テキストの韻律構造を決定することと、前記テキストの前記音素シーケンスを形成するために、前記テキストの前記韻律構造に従って前記テキストの各文字に対応する前記音素の後に韻律識別子を追加することとを行うように構成される、
および/または、
前記音素変換モジュールが、前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々に対してそれぞれテキストの正規化を実行することと、前記セグメントの各々が属する前記言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行することと、前記セグメントの各々が属する前記言語カテゴリのあらかじめ設定された音素変換テーブルに従って、前記セグメントの各々の分割された単語グループを対応する音素に変換することとを行うように構成され、
前記音素が文字の声調を備えることを特徴とする、請求項6に記載の音声合成デバイス。 - 前記パラメータ変換モジュールが、前記エンコーダに前記音素シーケンスを入力し、前記エンコーダによって出力された前記音素シーケンスにおける各要素に対応する特性表現を取得することと、コンテキストベクトルを取得するために、各要素に対応する特性表現、前記デコーダにおける第1の反復層による前記現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を前記注意モデルに入力することと、前記デコーダの第2の反復層によって前記現時点の前記デコーダ出力の隠れ状態を取得するために、前記デコーダの第1の反復層および前記コンテキストベクトルによって前記現時点の前記デコーダ出力の隠れ状態を前記デコーダの第2の反復層に入力することと、前記デコーダによって出力される各瞬間の前記デコーダの隠れ状態に従って前記音響特性パラメータを予測することとを行うように構成されることを特徴とする、請求項6に記載の音声合成デバイス。
- 前記音響特性パラメータが、音声周波数スペクトルパラメータを備え、
前記ボコーダパラメータ変換モデルが、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える、および/または、
前記音響特性パラメータの周波数が前記ボコーダ特性パラメータの周波数よりも低い場合、前記音響特性パラメータを繰り返しアップサンプリングすることによって、前記音響特性パラメータの前記周波数を前記ボコーダ特性パラメータの周波数と等しくすることを特徴とする、請求項6に記載の音声合成デバイス。 - トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、前記トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成することと、前記トレーニングテキストの各々に対応する前記第1の音響特性パラメータサンプルおよび前記トレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングすることと、トレーニングされた音響パラメータ予測モデルを使用することによって、前記トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換することと、前記ボコーダの合成周波数に応じて、前記トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換することと、前記トレーニングテキストの各々に対応する前記第2の音響特性パラメータサンプルおよび前記ボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングすることとを行うように構成されたモデルトレーニングモジュールをさらに備えることを特徴とする、請求項6に記載の音声合成デバイス。
- メモリと、
前記メモリに結合されたプロセッサと
を特徴とし、前記プロセッサが、前記メモリに記憶された命令に基づいて、請求項1から5のいずれか一項に記載の音声合成方法を実装するように構成される、音声合成デバイス。 - プロセッサによって実行されると、請求項1から5のいずれか一項に記載の方法のステップを実装するコンピュータプログラム命令を記憶している、コンピュータ可読ストレージ媒体。
- 請求項1から5のいずれか一項に記載の方法をプロセッサに実行させるように構成されることを特徴とする、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910266289.4 | 2019-04-03 | ||
CN201910266289.4A CN111798832A (zh) | 2019-04-03 | 2019-04-03 | 语音合成方法、装置和计算机可读存储介质 |
PCT/CN2020/082172 WO2020200178A1 (zh) | 2019-04-03 | 2020-03-30 | 语音合成方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022527970A JP2022527970A (ja) | 2022-06-07 |
JP7464621B2 true JP7464621B2 (ja) | 2024-04-09 |
Family
ID=72664952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021558871A Active JP7464621B2 (ja) | 2019-04-03 | 2020-03-30 | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11881205B2 (ja) |
EP (1) | EP3937165A4 (ja) |
JP (1) | JP7464621B2 (ja) |
CN (1) | CN111798832A (ja) |
WO (1) | WO2020200178A1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331183B (zh) * | 2020-10-27 | 2022-03-18 | 中科极限元(杭州)智能科技股份有限公司 | 基于自回归网络的非平行语料语音转换方法及系统 |
CN112185340B (zh) * | 2020-10-30 | 2024-03-15 | 网易(杭州)网络有限公司 | 语音合成方法、语音合成装置、存储介质与电子设备 |
CN112365878B (zh) * | 2020-10-30 | 2024-01-23 | 广州华多网络科技有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN112435650B (zh) * | 2020-11-11 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112420016B (zh) * | 2020-11-20 | 2022-06-03 | 四川长虹电器股份有限公司 | 一种合成语音与文本对齐的方法、装置及计算机储存介质 |
CN112634865B (zh) * | 2020-12-23 | 2022-10-28 | 爱驰汽车有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN112951200B (zh) * | 2021-01-28 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN112992177B (zh) * | 2021-02-20 | 2023-10-17 | 平安科技(深圳)有限公司 | 语音风格迁移模型的训练方法、装置、设备及存储介质 |
CN112802449B (zh) * | 2021-03-19 | 2021-07-02 | 广州酷狗计算机科技有限公司 | 音频合成方法、装置、计算机设备及存储介质 |
CN113035228A (zh) * | 2021-03-23 | 2021-06-25 | 广州酷狗计算机科技有限公司 | 声学特征提取方法、装置、设备及存储介质 |
CN113761841B (zh) * | 2021-04-19 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 将文本数据转换为声学特征的方法 |
CN113362803B (zh) * | 2021-05-31 | 2023-04-25 | 杭州芯声智能科技有限公司 | 一种arm侧离线语音合成的方法、装置及存储介质 |
CN113345412A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备以及存储介质 |
CN113345415A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113327576B (zh) * | 2021-06-03 | 2024-04-23 | 多益网络有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113450760A (zh) * | 2021-06-07 | 2021-09-28 | 北京一起教育科技有限责任公司 | 一种文本转语音的方法、装置及电子设备 |
CN113409761B (zh) * | 2021-07-12 | 2022-11-01 | 上海喜马拉雅科技有限公司 | 语音合成方法、装置、电子设备以及计算机可读存储介质 |
CN113724683B (zh) * | 2021-07-23 | 2024-03-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频生成方法、计算机设备及计算机可读存储介质 |
CN113838453B (zh) * | 2021-08-17 | 2022-06-28 | 北京百度网讯科技有限公司 | 语音处理方法、装置、设备和计算机存储介质 |
CN113838452B (zh) | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
CN113808571B (zh) * | 2021-08-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备以及存储介质 |
CN113707125B (zh) * | 2021-08-30 | 2024-02-27 | 中国科学院声学研究所 | 一种多语言语音合成模型的训练方法及装置 |
CN114299910B (zh) * | 2021-09-06 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 语音合成模型的训练方法、使用方法、装置、设备及介质 |
CN114267375B (zh) * | 2021-11-24 | 2022-10-28 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN114267376B (zh) * | 2021-11-24 | 2022-10-18 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN115691476B (zh) * | 2022-06-06 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
US20240054989A1 (en) * | 2022-08-15 | 2024-02-15 | Tencent America LLC | Systems and methods for character-to-phone conversion |
CN116665636B (zh) * | 2022-09-20 | 2024-03-12 | 荣耀终端有限公司 | 音频数据处理方法、模型训练方法、电子设备和存储介质 |
CN117765926B (zh) * | 2024-02-19 | 2024-05-14 | 上海蜜度科技股份有限公司 | 语音合成方法、系统、电子设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287444A (ja) | 2003-03-24 | 2004-10-14 | Microsoft Corp | 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
JP2007532995A (ja) * | 2004-04-06 | 2007-11-15 | デパートメント・オブ・インフォメーション・テクノロジー | 疑似インターリングア及び交雑アプローチを用いた英語からヒンディ語及びその他のインド諸語への複数言語機械翻訳システム |
US20050267757A1 (en) * | 2004-05-27 | 2005-12-01 | Nokia Corporation | Handling of acronyms and digits in a speech recognition and text-to-speech engine |
TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
US20070106513A1 (en) * | 2005-11-10 | 2007-05-10 | Boillot Marc A | Method for facilitating text to speech synthesis using a differential vocoder |
US8825485B2 (en) | 2009-06-10 | 2014-09-02 | Kabushiki Kaisha Toshiba | Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language |
US8478581B2 (en) * | 2010-01-25 | 2013-07-02 | Chung-ching Chen | Interlingua, interlingua engine, and interlingua machine translation system |
US8688435B2 (en) * | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
US9483461B2 (en) * | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9484014B1 (en) | 2013-02-20 | 2016-11-01 | Amazon Technologies, Inc. | Hybrid unit selection / parametric TTS system |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
CN106297764B (zh) * | 2015-05-27 | 2019-07-30 | 科大讯飞股份有限公司 | 一种多语种混语文本处理方法及系统 |
TWI605350B (zh) | 2015-07-21 | 2017-11-11 | 華碩電腦股份有限公司 | 文字轉語音方法以及多語言語音合成裝置 |
US9865251B2 (en) * | 2015-07-21 | 2018-01-09 | Asustek Computer Inc. | Text-to-speech method and multi-lingual speech synthesizer using the method |
RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
JP6819988B2 (ja) * | 2016-07-28 | 2021-01-27 | 国立研究開発法人情報通信研究機構 | 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN107945786B (zh) | 2017-11-27 | 2021-05-25 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
-
2019
- 2019-04-03 CN CN201910266289.4A patent/CN111798832A/zh active Pending
-
2020
- 2020-03-30 JP JP2021558871A patent/JP7464621B2/ja active Active
- 2020-03-30 WO PCT/CN2020/082172 patent/WO2020200178A1/zh unknown
- 2020-03-30 EP EP20783784.0A patent/EP3937165A4/en active Pending
- 2020-03-30 US US17/600,850 patent/US11881205B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287444A (ja) | 2003-03-24 | 2004-10-14 | Microsoft Corp | 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ |
Non-Patent Citations (4)
Title |
---|
Jonathan Shen, et al.,Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions,International Conference on Acoustics, Speech and Signal Processing,2018,IEEE2,2018年04月15日,pp. 4779-4783,https://ieeexplore.ieee.org/document/8461368 |
Jose Sotelo, et al.,Char2Wav: End-to-End Speech Synthesis,ICSR 2017,2017年,pp. 1-6,https;//openview.net/pdf?id=B1VWyySKx |
Qingyun Dou, et al.,Hierarchical RNNs for Waveform-Level Speech Synthesis,IEEE Spoken Language Technology Workshop,2018,IEEE,2018年12月18日,pp. 618-625,https://ieeexplore.ieee.org/document/8639588 |
Wei Ping, et al.,Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning,arXiv,2018年02月22日,pp. 1-16,https://arxiv.org/abs/1710.07654 |
Also Published As
Publication number | Publication date |
---|---|
JP2022527970A (ja) | 2022-06-07 |
WO2020200178A1 (zh) | 2020-10-08 |
EP3937165A4 (en) | 2023-05-10 |
EP3937165A1 (en) | 2022-01-12 |
US20220165249A1 (en) | 2022-05-26 |
US11881205B2 (en) | 2024-01-23 |
CN111798832A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
CN110534089B (zh) | 一种基于音素和韵律结构的中文语音合成方法 | |
AU2019395322B2 (en) | Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping | |
KR20210146368A (ko) | 숫자 시퀀스에 대한 종단 간 자동 음성 인식 | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
JP7314450B2 (ja) | 音声合成方法、装置、機器、及びコンピュータ記憶媒体 | |
CN113450757A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
CN114464162B (zh) | 语音合成方法、神经网络模型训练方法、和语音合成模型 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
CN113628609A (zh) | 自动音频内容生成 | |
Hendessi et al. | A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
Setlur et al. | Towards using heterogeneous relation graphs for end-to-end tts | |
CN115114933A (zh) | 用于文本处理的方法、装置、设备和存储介质 | |
Costa et al. | Free tools and resources for hmm-based brazilian portuguese speech synthesis | |
Le Maguer et al. | Agile MaryTTS Architecture for the Blizzard Challenge 2018 | |
Nitisaroj et al. | The Lessac Technologies system for Blizzard Challenge 2010 | |
CN114267330A (zh) | 语音合成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7464621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |