CN112151005B - 一种中英文混合的语音合成方法及装置 - Google Patents
一种中英文混合的语音合成方法及装置 Download PDFInfo
- Publication number
- CN112151005B CN112151005B CN202011040833.2A CN202011040833A CN112151005B CN 112151005 B CN112151005 B CN 112151005B CN 202011040833 A CN202011040833 A CN 202011040833A CN 112151005 B CN112151005 B CN 112151005B
- Authority
- CN
- China
- Prior art keywords
- english
- chinese
- text
- pinyin
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 10
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 31
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000033764 rhythmic process Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Document Processing Apparatus (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及语音合成的技术领域,本发明是要解决中英文混合文本的语音合成问题,提出一种中英文混合的语音合成方法及装置,该方法包括了训练阶段和推理阶段,通过将英文单词转换为CMU发音音素,再将CMU发音音素转换为拼音音素,将中、英文统一为了拼音音素的表征方式,此外,为了区分中、英文的发音特点,引入了代表不同语言的语言标记,为了区分不同说话人的声学特征,引入了说话人识别向量,使得中英文混合的语音合成成为可能,并且具有较高的语音合成质量。在传统语音合成方法的基础上,扩大了语音合成在中英文混合上的应用场景。
Description
技术领域
本发明涉及语音处理技术领域,具体的说是一种中英文混合的语音合成方法及装置。
背景技术
语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音。涉及到声学、语言学、计算机科学等多门学科。然而,不同语言的语音合成在各方面都存在差异,如前端处理的差异、发音特点的差异、表征方式的差异等等,现有的混合语言文本的合成方式是由一个主播同时说多种语言进行采集后合成,这使得混合语言文本的语音合成存在较大难度,以及过度依赖能同时说多种语言的主播。
发明内容
本发明提供了一种中英文混合的语音合成方法及装置,用于解决现有技术中中英文混合文本语言合成难度大的问题。
本发明采用的技术方案是:提供一种中英文混合的语音合成方法,包括训练阶段和推理阶段,训练阶段包括以下步骤:
S11.获取多人中、英文语音训练数据,并提取语音声学特征,得到训练数据集;
S12.对英文文本规范化处理,并通过CMU发音字典将英文文本转换为CMU发音音素,再将CMU发音音素转换为拼音音素;
S13.对中文文本规范化处理,并结合韵律分析,将中文汉字转换为拼音音素;
S14.对训练数据集生成代表所属语言类别的语言标记以及对应说话人识别向量;
S15.将转换为拼音音素的文本、语言标记、语音声学特征、说话人识别向量,共同输入到语音合成模型进行训练,得到训练好的语音合成模型;
所述推理阶段包括以下步骤:
S21.对待合成文本进行规范化处理,并对中英文进行区分,得到中文文本和英文文本;
S22.对步骤S21得到的中文文本采用韵律分析,并将中文汉字转换为拼音音素;
S23.将步骤S21得到的英文文本转换为CMU发音音素,再将CMU发音音素映射为拼音音素;
S24.对待合成文本生成代表所属语言类别的语言标记以及对应说话人识别向量;
S25.将处理为拼音音素的文本、语言标记、说话人识别向量,共同输入到训练好的语音合成模型,输出声学特征;
S26.将步骤S25得到的声学特征经声码器输出音频。
优选地,在步骤S11中:
中、英文的语音训练数据包括:中文语音数据以及对应的中文文本,英文语音数据以及对应的英文文本,中英文混合的语音数据以及对应的中英文混合文本;提取的语音声学特征包括梅尔频谱特征。
优选地,在步骤S12中:
对非法字符进行剔除;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素。
优选地,在步骤S13中:
对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
优选地,在步骤S14中:
语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人识别模型生成,用于编码说话人信息。
优选地,在步骤S15中:
文本对应的语音声学特征包括梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征;模型网络结构包括但不限于目前主流的端到端Tacotron模型。
优选地,在步骤S21-S25中:
推理阶段的语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的中、英文语音文本的处理方式与训练阶段一致,不同点在于,若文本中的英文单词不存在于CMU发音字典,则将该单词看作分开的英文字母,并将英文字母转换为CMU发音字典,进而转换为拼音音素。
优选地,在步骤S26中:
采用的声码器包括WaveNET、WavRNN、MelGAN。
本发明还提供一种中英文混合的语音合成装置,包括:
文本处理模块,用于将中英文文本规范化处理,并且转换为统一的拼音音素表达方式;
信息编码模块,用于对中、英文生成代表不同所属语言类别的语言标记以及对应说话人的说话人识别向量;
声学特征输出模块,用于输入经处理为拼音音素的文本、语言标记、说话人识别向量,输出语音的声学特征;
声码器模块,用于输入语音的声学特征,输出音频。
本发明的有益效果是:通过将英文单词转换为CMU发音音素,再将CMU发音音素转换为拼音音素,将中、英文统一为了拼音音素的表征方式,此外,为了区分中、英文的发音特点,引入了代表不同语言的语言标记,为了区分不同说话人的声学特征,引入了说话人识别向量,使得中英文混合的语音合成成为可能,并且具有很高的语音合成质量。
附图说明
图1为本发明公开的一种中英文混合的语音合成方法流程示意图;
图2为本发明公开的语音合成模型训练的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
实施例1:
参见图1,一种中英文混合的语音合成方法,包括训练阶段和推理阶段,在训练阶段包括以下步骤:
S11.获取多人中、英文语音训练数据,并提取语音声学特征,得到训练数据集;
可选的,英文语音合成数据集可以使用LJSpeech、VCTK等公开数据集,中文语音合成数据集使用标贝公司的女生语音数据库以及自行录制的涵盖20多个人声音的语音数据库。
可理解的,中、英文的语音训练数据包括:中文语音数据以及对应的中文文本,英文语音数据以及对应的英文文本,中英文混合的语音数据以及对应的中英文混合文本;提取的语音声学特征包括但不限于梅尔频谱特征。
S12.对英文文本规范化处理,并通过卡内基梅隆大学(CMU)发音字典将英文文本转换为CMU发音音素,再将CMU发音音素转换为拼音音素;
可选的,对英文文本规范化处理,剔除非法字符;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典键值,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素。
举例说明,英文文本为“Dr.Forde,%a name familiar to the reader,who methim at the door.”,首先剔除非法字符‘%’,然后将英文文本统一为ASCII编码,再将英文统一为小写字母,对英文缩写‘dr.’拓展为‘docter’,经处理的英文文本为“doctor forde,a name familiar to the reader who met him at the door.”;再根据CMU发音字典,将英文单词转换为CMU发音音素,得到“{D AA1 K T ER0}{F AO1 R D}{EY1}{N EY1 M}{F AH0M IH1 L Y ER0}{T UW1}{DH AH0}{R IY1 D ER0}{S EY1}{B EH1 S T}{AH1 V}{Y UW1}{HHUW1}{M EH1 T}{HH IH1 M}{AE1 T}{DH AH0}{D AO1 R}”;通过CMU发音音素与拼音音素的映射字典,将CMU发音音素转换为拼音音素,得到“d a1 k t e0 f uo1 r d,ai1 n ai1 m fa0 m i1 l y e0 t u1 s i a0 r i1 d e0 s ai1 b ai1 s t a1 w y u1 h u1 m ai1 t hi1 m a1 t s i a0 d uo1 r.”。
S13.对中文文本规范化处理,并结合韵律分析,将中文汉字转换为拼音音素;
可选的,对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注等,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
S14.对训练数据集生成代表所属语言类别的语言标记以及对应说话人识别向量;
可理解的是,语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等,反之亦然;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人识别模型生成,用于编码说话人信息。
具体的,生成语言标记以及说话人识别向量的过程如图2所示,在本例中,混合文本为“我是中国人,我爱China”,经处理及转换后,为“uo3 sh iii4#1zh ong1 g uo2 ren2#3uo3 ai4 ch ai1 n a0#4”,此处中文标记为0,英文标记为1,其它标记为2,完整的的语言标记为“000200000021111112”;说话人识别向量则由经过预训练的多说话人识别模型生成,维度为256。
S15.将转换为拼音音素的文本、语言标记、语音声学特征、说话人识别向量,共同输入到语音合成模型进行训练,得到训练好的语音合成模型。
可选的,文本对应的语音声学特征包括但不限于梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征;模型网络结构包括但不限于目前主流的端到端Tacotron模型。
具体的,如图2所示,整体架构采用Tacotron网络模型,将文本向量与语言标记进行拼接,一起输入到编码层网络,再将编码层网络的输出与说话人识别向量进行拼接,一起输入到解码层网络,最后输出声学特征。
推理阶段包括以下步骤:
S21.对待合成文本进行规范化处理,并对中英文进行区分,得到中文文本和英文文本;
S22.对步骤S21得到的中文文本采用韵律分析,并将中文汉字转换为拼音音素;
S23.将步骤S21得到的英文文本转换为CMU发音音素,再将CMU发音音素映射为拼音音素;
S24.对待合成文本生成代表所属语言类别的语言标记以及对应说话人识别向量;
S25.将处理为拼音音素的文本、语言标记、说话人识别向量,共同输入到训练好的语音合成模型,输出声学特征;
S26.将步骤S25得到的声学特征经声码器输出音频。
可理解的是,推理阶段的语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的中、英文语音文本的处理方式与训练阶段一致,不同点在于,若文本中的英文单词不存在于CMU发音字典,则将该单词看作分开的英文字母,并将英文字母转换为CMU发音字典,进而转换为拼音音素。
举例说明,若待合成文本为“我爱China”,由于“China”存在于发音字典,则将“China”转换为CMU发音“CH AY1 N AH0”,再转换为拼音音素“ch ai1 n a0”,最后得到“uo3ai4 ch ai1 n a0”;若待合成文本为“我会念ABCD”,由于“ABCD”不在CMU发音字典,则对“ABCD”添加分隔符,变成“A B C D”,此时的CMU发音为“{EY1}{B IY1}{S IY1}{D IY1}”,转换为拼音音素得到“ai1 b i1 s i1 d i1”,最后得到“uo3 h uei4 n ian4 ai1 b i1 s i1d i1”。
可选的,采用的声码器包括但不限于WavNET、WavRNN、MelGAN。
通过本实施例1提供的一种中英文混合的语音合成方法,通过将英文单词转换为CMU发音音素,再将CMU发音音素转换为拼音音素,将中、英文统一为了拼音音素的表征方式,此外,为了区分中、英文的发音特点,引入了代表不同语言的语言标记,为了区分不同说话人的声学特征,引入了说话人识别向量,使得中英文混合文本的语音合成成为可能,并且具有较高的语音合成质量。
实施例2
一种中英文混合的语音合成装置,包括:
文本处理模块,用于将中英文文本规范化处理,并且转换为统一的拼音音素表达方式;
可选的,文本处理模块对混合文本中英文进行不同处理,对英文文本进行规范化,剔除非法字符;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典键值,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素;对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注等,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
信息编码模块,用于对中、英文生成代表不同所属语言类别的语言标记以及对应的说话人识别向量;
可理解的是,语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等,反之亦然;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人的识别模型生成,用于编码说话人信息。
声学特征输出模块,用于输入经处理为拼音音素的文本、语言标记、说话人识别向量,输出语音的声学特征;
可选的,文本对应的语音声学特征包括但不限于梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征。
声码器模块,用于输入语音的声学特征,输出音频。
可选的,采用的声码器包括但不限于WaveNET、WavRNN、MelGAN。
通过本实施例2提供的一种中英文混合的语音合成装置,利用CMU发音字典以及CMU发音与拼音音素的映射字典,将文本统一为拼音音素表达方式;同时为了区别中、英文发音特征,加入了区别语言的语言标记;为了区别说话人特征,加入了代表说话人信息的说话人识别向量。通过以上方法,将语音合成的应用场景扩展到了中英文混合文本。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种中英文混合的语音合成方法,其特征在于:包括训练阶段和推理阶段,所述训练阶段包括以下步骤:
S11.获取多人中、英文语音训练数据,并提取语音声学特征,得到训练数据集;
S12.对英文文本规范化处理,并通过CMU发音字典将英文文本转换为CMU发音音素,再将CMU发音音素转换为拼音音素;
S13.对中文文本规范化处理,并结合韵律分析,将中文汉字转换为拼音音素;
S14.对训练数据集生成代表所属语言类别的语言标记以及对应说话人识别向量;
S15.将转换为拼音音素的文本、语言标记、语音声学特征、说话人识别向量,共同输入到语音合成模型进行训练,得到训练好的语音合成模型;
所述推理阶段包括以下步骤:
S21.对待合成文本进行规范化处理,并对中英文进行区分,得到中文文本和英文文本;
S22.对步骤S21得到的中文文本采用韵律分析,并将中文汉字转换为拼音音素;
S23.将步骤S21得到的英文文本转换为CMU发音音素,再将CMU发音音素映射为拼音音素;
S24.对待合成文本生成代表所属语言类别的语言标记以及对应说话人识别向量;
S25.将处理为拼音音素的文本、语言标记、说话人识别向量,共同输入到训练好的语音合成模型,输出声学特征;
S26.将步骤S25得到的声学特征经声码器输出音频。
2.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S11中:
中、英文的语音训练数据包括:中文语音数据以及对应的中文文本,英文语音数据以及对应的英文文本,中英文混合的语音数据以及对应的中英文混合文本;提取的语音声学特征包括梅尔频谱特征。
3.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S12中:
对非法字符进行剔除;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素。
4.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S13中:
对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
5.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S14中:
语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人识别模型生成,用于编码说话人信息。
6.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S15中:
文本对应的语音声学特征包括梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征;模型网络结构包括但不限于目前主流的端到端Tacotron模型。
7.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S21-S25中:
推理阶段的语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的中、英文语音文本的处理方式与训练阶段一致,不同点在于,若文本中的英文单词不存在于CMU发音字典,则将该单词看作分开的英文字母,并将英文字母转换为CMU发音字典,进而转换为拼音音素。
8.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S26中:
采用的声码器包括WaveNET、WavRNN、MelGAN。
9.一种中英文混合的语音合成装置,其特征在于,所述装置通过权利要求1所述的方法实现中英文混合的语音合成,所述装置包括:
文本处理模块,用于将中英文文本规范化处理,并且转换为统一的拼音音素表达方式;
信息编码模块,用于对中、英文生成代表不同所属语言类别的语言标记以及对应说话人的说话人识别向量;
声学特征输出模块,用于输入经处理为拼音音素的文本、语言标记、说话人识别向量,输出语音的声学特征;
声码器模块,用于输入语音的声学特征,输出音频;
所述装置利用CMU发音字典以及CMU发音与拼音音素的映射字典,将文本统一为拼音音素表达方式;同时为了区别中、英文发音特征,加入了区别语言的语言标记;为了区别说话人特征,加入了代表说话人信息的说话人识别向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011040833.2A CN112151005B (zh) | 2020-09-28 | 2020-09-28 | 一种中英文混合的语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011040833.2A CN112151005B (zh) | 2020-09-28 | 2020-09-28 | 一种中英文混合的语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112151005A CN112151005A (zh) | 2020-12-29 |
CN112151005B true CN112151005B (zh) | 2022-08-19 |
Family
ID=73895681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011040833.2A Active CN112151005B (zh) | 2020-09-28 | 2020-09-28 | 一种中英文混合的语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151005B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145719B (zh) * | 2019-12-31 | 2022-04-05 | 北京太极华保科技股份有限公司 | 将中英混合及语气标签化的数据标注方法及装置 |
CN112735373B (zh) * | 2020-12-31 | 2024-05-03 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112802450B (zh) * | 2021-01-05 | 2022-11-18 | 杭州一知智能科技有限公司 | 一种韵律可控的中英文混合的语音合成方法及其系统 |
CN112802448B (zh) * | 2021-01-05 | 2022-10-11 | 杭州一知智能科技有限公司 | 一种新音色生成的语音合成方法和系统 |
CN113362805B (zh) * | 2021-06-18 | 2022-06-21 | 四川启睿克科技有限公司 | 一种音色、口音可控的中英文语音合成方法及装置 |
CN113380221A (zh) * | 2021-06-21 | 2021-09-10 | 携程科技(上海)有限公司 | 中英文混合的语音合成方法、装置、电子设备和存储介质 |
CN113409798B (zh) * | 2021-06-22 | 2024-07-05 | 科大讯飞股份有限公司 | 车内含噪语音数据生成方法、装置以及设备 |
CN113453072A (zh) * | 2021-06-29 | 2021-09-28 | 王瑶 | 按级别拼合和播放多语言影音文件的方法、系统和介质 |
CN114495939A (zh) * | 2021-12-27 | 2022-05-13 | 北京理工大学 | 一种基于区别性特征的神经语音音译方法 |
CN114387947B (zh) * | 2022-03-23 | 2022-08-02 | 北京中科深智科技有限公司 | 一种适用于电商直播中虚拟主播的自动语音合成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015111818A1 (en) * | 2014-01-21 | 2015-07-30 | Lg Electronics Inc. | Emotional-speech synthesizing device, method of operating the same and mobile terminal including the same |
CN109036377A (zh) * | 2018-07-26 | 2018-12-18 | 中国银联股份有限公司 | 一种语音合成方法及装置 |
CN109285535A (zh) * | 2018-10-11 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于前端设计的语音合成方法 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN110675854A (zh) * | 2019-08-22 | 2020-01-10 | 厦门快商通科技股份有限公司 | 一种中英文混合语音识别方法及装置 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111462727A (zh) * | 2020-03-31 | 2020-07-28 | 北京字节跳动网络技术有限公司 | 用于生成语音的方法、装置、电子设备和计算机可读介质 |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
-
2020
- 2020-09-28 CN CN202011040833.2A patent/CN112151005B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015111818A1 (en) * | 2014-01-21 | 2015-07-30 | Lg Electronics Inc. | Emotional-speech synthesizing device, method of operating the same and mobile terminal including the same |
CN109036377A (zh) * | 2018-07-26 | 2018-12-18 | 中国银联股份有限公司 | 一种语音合成方法及装置 |
CN109285535A (zh) * | 2018-10-11 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于前端设计的语音合成方法 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN110675854A (zh) * | 2019-08-22 | 2020-01-10 | 厦门快商通科技股份有限公司 | 一种中英文混合语音识别方法及装置 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111462727A (zh) * | 2020-03-31 | 2020-07-28 | 北京字节跳动网络技术有限公司 | 用于生成语音的方法、装置、电子设备和计算机可读介质 |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
Non-Patent Citations (2)
Title |
---|
"Effectiveness of multiscale fractal dimension-based phonetic segmentation in speech synthesis for low resource language";Mohammadi Zaki;《IEEE》;20141204;全文 * |
"Effectiveness of PLP-based phonetic segmentation for speech synthesis";Nirmesh J Shah;《IEEE》;20140714;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112151005A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112151005B (zh) | 一种中英文混合的语音合成方法及装置 | |
CN112435650B (zh) | 一种多说话人、多语言的语音合成方法及系统 | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
US7966173B2 (en) | System and method for diacritization of text | |
CN112002308A (zh) | 一种语音识别方法及装置 | |
EP1463031A1 (en) | Front-end architecture for a multi-lingual text-to-speech system | |
KR20060049290A (ko) | 혼성-언어 텍스트의 음성 변환 방법 | |
CN108231062A (zh) | 一种语音翻译方法及装置 | |
WO2004066271A1 (ja) | 音声合成装置,音声合成方法および音声合成システム | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
CN112786018A (zh) | 语音转换及相关模型的训练方法、电子设备和存储装置 | |
CN113380222A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN116092473A (zh) | 韵律标注模型、韵律预测模型的训练方法及相关设备 | |
Kurian et al. | Continuous speech recognition system for Malayalam language using PLP cepstral coefficient | |
CN112927677B (zh) | 语音合成方法和装置 | |
Kayte et al. | A Marathi Hidden-Markov Model Based Speech Synthesis System | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
CN109859746B (zh) | 一种基于tts的语音识别语料库生成方法及系统 | |
Ajayi et al. | Systematic review on speech recognition tools and techniques needed for speech application development | |
Peng et al. | Decoupled pronunciation and prosody modeling in meta-learning-based multilingual speech synthesis | |
Sefara et al. | Web-based automatic pronunciation assistant | |
CN114255735A (zh) | 语音合成方法及系统 | |
CN114999447A (zh) | 一种基于对抗生成网络的语音合成模型及训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |