JP2021196598A - モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents
モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2021196598A JP2021196598A JP2020201661A JP2020201661A JP2021196598A JP 2021196598 A JP2021196598 A JP 2021196598A JP 2020201661 A JP2020201661 A JP 2020201661A JP 2020201661 A JP2020201661 A JP 2020201661A JP 2021196598 A JP2021196598 A JP 2021196598A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- speech synthesis
- target
- pose
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000001308 synthesis method Methods 0.000 title claims abstract description 28
- 238000004590 computer program Methods 0.000 title claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 143
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 143
- 239000013598 vector Substances 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 15
- 239000002245 particle Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
Description
サンプルテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するステップと、を含む音声合成モデルのトレーニング方法を提供する。
ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成するステップと、を含む音声合成方法を提供する。
サンプルテキストデータの音素特徴および韻律語境界特徴を確定するためのサンプル音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプル特徴組合せモジュールと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するためのモデルトレーニングモジュールと、を含む音声合成モデルのトレーニング装置を提供する。
ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するためのターゲット音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲット特徴組合せモジュールと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する音声合成モジュールと、を含む音声合成装置を提供する。
少なくとも1つのプロセッサおよび前記少なくとも1つのプロセッサに通信接続されたメモリを含む電子機器であって、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が格納され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を実行可能にする、電子機器を提供する。
コンピュータ命令が格納されている非一時的コンピュータ可読媒体であって、
前記コンピュータ命令が本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を前記コンピュータに実行させるためのものである非一時的コンピュータ可読記憶媒体を提供する。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を実現するコンピュータプログラムを提供する。
Claims (21)
- サンプルテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するステップと、を含む音声合成モデルのトレーニング方法。 - 前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップは、
前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、
前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、を含む請求項1に記載の方法。 - 前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングするステップは、
前記組合せ特徴と前記サンプルテキストデータに関連付けられたサンプルオーディオデータの音響特徴とに基づいて、ポーズ隠れ特徴分布を確定するステップと、
前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて、初期音声合成モデルに対して教師なしトレーニングを行うステップと、を含む請求項1に記載の方法。 - 前記組合せ特徴およびサンプルオーディオデータの音響特徴に基づいて、ポーズ隠れ特徴分布を確定するステップは、
前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するステップと、
前記ポーズ記号の音響特徴を変分オートエンコーダによって処理して、前記ポーズ隠れ特徴分布を取得するステップと、を含む請求項3に記載の方法。 - 前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて、初期音声合成モデルに対して教師なしトレーニングを行うステップは、
前記組合せ特徴に基づいて、組合せ特徴ベクトル表現を確定するステップと、
前記ポーズ隠れ特徴分布をサンプリングして、ポーズ隠れ特徴を取得するステップと、
前記組合せ特徴ベクトル表現を、前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するステップと、
前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するステップと、を含む請求項3に記載の方法。 - 前記方法は、
前記初期音声合成モデルの出力とサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するステップをさらに含む請求項1〜5のいずれか1項に記載の方法。 - ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成するステップと、を含む音声合成方法。 - 前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップは、
前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、
前記韻律語位置に前記ポーズ記号を挿入して、前記ターゲットテキストデータの組合せ特徴を取得するステップと、を含む請求項7に記載の方法。 - ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得するステップは、
ユーザが所望するターゲットポーズ時間と、前記ターゲット音声合成モデルのトレーニング段階で得られた、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定するステップと、
前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて、音響特徴を取得するステップと、を含む請求項7に記載の方法。 - サンプルテキストデータの音素特徴および韻律語境界特徴を確定するためのサンプル音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプル特徴組合せモジュールと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するためのモデルトレーニングモジュールと、を含む音声合成モデルのトレーニング装置。 - 前記サンプル特徴組合せモジュールは、
前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのサンプル韻律語位置ユニットと、
前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプルポーズ記号挿入ユニットと、を含む請求項10に記載の装置。 - 前記モデルトレーニングモジュールは、
前記組合せ特徴と、前記サンプルテキストデータに関連付けられたサンプルオーディオデータの音響特徴とに基づいて、ポーズ隠れ特徴分布を確定するための隠れ特徴分布ユニットと、
前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて初期音声合成モデルに対して教師なしトレーニングを行うためのモデルトレーニングユニットと、を含む請求項10に記載の装置。 - 前記隠れ特徴分布ユニットは、
前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するための音響特徴サブユニットと、
前記ポーズ記号の音響特徴を変分オートエンコーダによって処理して、前記ポーズ隠れ特徴分布を取得するための隠れ特徴分布サブユニットと、を含む請求項12に記載の装置。 - 前記モデルトレーニングユニットは、
前記組合せ特徴に基づいて組合せ特徴ベクトル表現を確定するための特徴表現サブユニットと、
前記ポーズ隠れ特徴分布をサンプリングしてポーズ隠れ特徴を取得するための隠れ特徴サンプリングサブユニットと、
前記組合せ特徴ベクトル表現を前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するための復号化サブユニットと、
前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するための符号化サブユニットと、を含む請求項12に記載の装置。 - 前記装置は、
前記初期音声合成モデルの出力およびサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するためのボコーダモジュールをさらに含む請求項10〜14のいずれか1項に記載の装置。 - ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するためのターゲット音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲット特徴組合せモジュールと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する音声合成モジュールと、を含む音声合成装置。 - 前記ターゲット特徴組合せモジュールは、
前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのターゲット韻律語位置ユニットと、
前記韻律語位置に前記ポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲットポーズ記号挿入ユニットと、を含む請求項16に記載の装置。 - 前記音声合成モジュールは、
ユーザが所望するターゲットポーズ時間と、前記ターゲット音声合成モデルのトレーニング段階で得られた、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定するための隠れ特徴確定ユニットと、
前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて音響特徴を取得するための音声合成ユニットと、を含む請求項16に記載の装置。 - 少なくとも1つのプロセッサおよび前記少なくとも1つのプロセッサに通信接続されたメモリを含む電子機器であって、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が格納され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1〜9のいずれか1項に記載の方法を実行可能にする、電子機器。 - コンピュータ命令が格納されている非一時的コンピュータ可読媒体であって、
前記コンピュータ命令が請求項1〜9のいずれか1項に記載の方法を前記コンピュータに実行させるためのものである、非一時的コンピュータ可読記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜9のいずれか1項に記載の方法を実現するコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010546704.4A CN111667816B (zh) | 2020-06-15 | 2020-06-15 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
CN202010546704.4 | 2020-06-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021196598A true JP2021196598A (ja) | 2021-12-27 |
JP7259197B2 JP7259197B2 (ja) | 2023-04-18 |
Family
ID=72387761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020201661A Active JP7259197B2 (ja) | 2020-06-15 | 2020-12-04 | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11769480B2 (ja) |
EP (1) | EP3879525B1 (ja) |
JP (1) | JP7259197B2 (ja) |
KR (1) | KR102496817B1 (ja) |
CN (1) | CN111667816B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331176B (zh) * | 2020-11-03 | 2023-03-10 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN112331177A (zh) * | 2020-11-05 | 2021-02-05 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN112071300B (zh) * | 2020-11-12 | 2021-04-06 | 深圳追一科技有限公司 | 语音会话方法、装置、计算机设备和存储介质 |
CN112289305A (zh) * | 2020-11-23 | 2021-01-29 | 北京有竹居网络技术有限公司 | 韵律预测方法、装置、设备以及存储介质 |
CN112735379B (zh) * | 2020-12-30 | 2023-06-13 | 北京大米科技有限公司 | 语音合成方法、装置、电子设备和可读存储介质 |
CN112786005B (zh) * | 2020-12-30 | 2023-12-01 | 科大讯飞股份有限公司 | 信息合成方法、装置、电子设备和计算机可读存储介质 |
CN112927674B (zh) * | 2021-01-20 | 2024-03-12 | 北京有竹居网络技术有限公司 | 语音风格的迁移方法、装置、可读介质和电子设备 |
CN112863484B (zh) * | 2021-01-25 | 2024-04-09 | 中国科学技术大学 | 韵律短语边界预测模型训练方法和韵律短语边界预测方法 |
CN113129862B (zh) * | 2021-04-22 | 2024-03-12 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、系统及服务器 |
CN113362836A (zh) * | 2021-06-02 | 2021-09-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 训练声码器方法、终端及存储介质 |
CN113506562B (zh) * | 2021-07-19 | 2022-07-19 | 武汉理工大学 | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 |
KR20230055083A (ko) * | 2021-10-18 | 2023-04-25 | 삼성전자주식회사 | 전자 장치, 단말 장치 및 그 제어 방법 |
CN114420087B (zh) * | 2021-12-27 | 2022-10-21 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN114970666B (zh) * | 2022-03-29 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种口语处理方法、装置、电子设备及存储介质 |
CN115116427B (zh) * | 2022-06-22 | 2023-11-14 | 马上消费金融股份有限公司 | 标注方法、语音合成方法、训练方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08508127A (ja) * | 1993-10-15 | 1996-08-27 | エイ・ティ・アンド・ティ・コーポレーション | システムをトレーニングする方法、その結果得られる装置、およびその使用方法 |
JP2005345846A (ja) * | 2004-06-04 | 2005-12-15 | Advanced Telecommunication Research Institute International | 入力テキストのポーズ位置予測装置 |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
JP2020034883A (ja) * | 2018-08-27 | 2020-03-05 | 日本放送協会 | 音声合成装置及びプログラム |
JP2020060642A (ja) * | 2018-10-09 | 2020-04-16 | 株式会社日立ソリューションズ・テクノロジー | 音声合成システム、及び音声合成装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100959494B1 (ko) * | 2003-03-06 | 2010-05-26 | 주식회사 케이티 | 미등록어 합성 기능을 이용한 음성합성기 및 그 방법 |
CN1320482C (zh) * | 2003-09-29 | 2007-06-06 | 摩托罗拉公司 | 标识文本串中的自然语音停顿的方法 |
CN101051458B (zh) * | 2006-04-04 | 2011-02-09 | 中国科学院自动化研究所 | 基于组块分析的韵律短语预测方法 |
CN101051459A (zh) | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 基频和停顿预测及语音合成的方法和装置 |
CN101000764B (zh) * | 2006-12-18 | 2011-05-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN102194454B (zh) * | 2010-03-05 | 2012-11-28 | 富士通株式会社 | 用于检测连续语音中的关键词的设备和方法 |
JP5754141B2 (ja) * | 2011-01-13 | 2015-07-29 | 富士通株式会社 | 音声合成装置および音声合成プログラム |
CN102881282B (zh) * | 2011-07-15 | 2014-08-20 | 富士通株式会社 | 一种获取韵律边界信息的方法及系统 |
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
CN105185373B (zh) * | 2015-08-06 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 韵律层级预测模型的生成及韵律层级预测方法和装置 |
CN107039034B (zh) * | 2016-02-04 | 2020-05-01 | 科大讯飞股份有限公司 | 一种韵律预测方法及系统 |
US10475438B1 (en) * | 2017-03-02 | 2019-11-12 | Amazon Technologies, Inc. | Contextual text-to-speech processing |
CN107564511B (zh) * | 2017-09-25 | 2018-09-11 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN109697973A (zh) * | 2019-01-22 | 2019-04-30 | 清华大学深圳研究生院 | 一种韵律层级标注的方法、模型训练的方法及装置 |
KR102581346B1 (ko) * | 2019-05-31 | 2023-09-22 | 구글 엘엘씨 | 다국어 음성 합성 및 언어간 음성 복제 |
CN110534087B (zh) * | 2019-09-04 | 2022-02-15 | 清华大学深圳研究生院 | 一种文本韵律层级结构预测方法、装置、设备及存储介质 |
CN110782870B (zh) * | 2019-09-06 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
-
2020
- 2020-06-15 CN CN202010546704.4A patent/CN111667816B/zh active Active
- 2020-12-03 US US17/111,238 patent/US11769480B2/en active Active
- 2020-12-04 JP JP2020201661A patent/JP7259197B2/ja active Active
-
2021
- 2021-03-12 EP EP21162416.8A patent/EP3879525B1/en active Active
- 2021-03-16 KR KR1020210034326A patent/KR102496817B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08508127A (ja) * | 1993-10-15 | 1996-08-27 | エイ・ティ・アンド・ティ・コーポレーション | システムをトレーニングする方法、その結果得られる装置、およびその使用方法 |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
JP2005345846A (ja) * | 2004-06-04 | 2005-12-15 | Advanced Telecommunication Research Institute International | 入力テキストのポーズ位置予測装置 |
JP2020034883A (ja) * | 2018-08-27 | 2020-03-05 | 日本放送協会 | 音声合成装置及びプログラム |
JP2020060642A (ja) * | 2018-10-09 | 2020-04-16 | 株式会社日立ソリューションズ・テクノロジー | 音声合成システム、及び音声合成装置 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102496817B1 (ko) | 2023-02-06 |
US20210390943A1 (en) | 2021-12-16 |
EP3879525B1 (en) | 2023-05-10 |
KR20210036883A (ko) | 2021-04-05 |
CN111667816A (zh) | 2020-09-15 |
JP7259197B2 (ja) | 2023-04-18 |
CN111667816B (zh) | 2024-01-23 |
EP3879525A1 (en) | 2021-09-15 |
US11769480B2 (en) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7259197B2 (ja) | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP7280386B2 (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US11373049B2 (en) | Cross-lingual classification using multilingual neural machine translation | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
CN107077841B (zh) | 用于文本到语音的超结构循环神经网络 | |
US11488577B2 (en) | Training method and apparatus for a speech synthesis model, and storage medium | |
JP2021157193A (ja) | 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
US11282498B2 (en) | Speech synthesis method and speech synthesis apparatus | |
JP2021197133A (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
JP2022523883A (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
JP7395553B2 (ja) | 文章翻訳方法、装置、電子機器及び記憶媒体 | |
KR102619408B1 (ko) | 음성 합성 방법, 장치, 전자 기기 및 저장 매체 | |
WO2021034395A1 (en) | Data-driven and rule-based speech recognition output enhancement | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
JP2023546930A (ja) | 言語間音声合成を改良するための音声認識の使用 | |
CN113191140B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
US20220366890A1 (en) | Method and apparatus for text-based speech synthesis | |
Šoić et al. | Spoken notifications in smart environments using Croatian language | |
KR20100069555A (ko) | 음성 인식 시스템 및 방법 | |
Barakat et al. | Deep learning-based expressive speech synthesis: a systematic review of approaches, challenges, and resources | |
JP2023006055A (ja) | プログラム、情報処理装置、方法 | |
JP2022169012A (ja) | 編集装置、音声合成装置及びプログラム | |
WO2023278065A1 (en) | Text-based speech generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230317 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7259197 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |