CN112151005A - 一种中英文混合的语音合成方法及装置 - Google Patents

一种中英文混合的语音合成方法及装置 Download PDF

Info

Publication number
CN112151005A
CN112151005A CN202011040833.2A CN202011040833A CN112151005A CN 112151005 A CN112151005 A CN 112151005A CN 202011040833 A CN202011040833 A CN 202011040833A CN 112151005 A CN112151005 A CN 112151005A
Authority
CN
China
Prior art keywords
english
chinese
text
pinyin
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011040833.2A
Other languages
English (en)
Other versions
CN112151005B (zh
Inventor
王昆
朱海
周琳珉
刘书君
展华益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011040833.2A priority Critical patent/CN112151005B/zh
Publication of CN112151005A publication Critical patent/CN112151005A/zh
Application granted granted Critical
Publication of CN112151005B publication Critical patent/CN112151005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及语音合成的技术领域,本发明是要解决中英文混合文本的语音合成问题,提出一种中英文混合的语音合成方法及装置,该方法包括了训练阶段和推理阶段,通过将英文单词转换为CMU发音音素,再将CMU发音音素转换为拼音音素,将中、英文统一为了拼音音素的表征方式,此外,为了区分中、英文的发音特点,引入了代表不同语言的语言标记,为了区分不同说话人的声学特征,引入了说话人识别向量,使得中英文混合的语音合成成为可能,并且具有较高的语音合成质量。在传统语音合成方法的基础上,扩大了语音合成在中英文混合上的应用场景。

Description

一种中英文混合的语音合成方法及装置
技术领域
本发明涉及语音处理技术领域,具体的说是一种中英文混合的语音合成方法及装置。
背景技术
语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音。涉及到声学、语言学、计算机科学等多门学科。然而,不同语言的语音合成在各方面都存在差异,如前端处理的差异、发音特点的差异、表征方式的差异等等,现有的混合语言文本的合成方式是由一个主播同时说多种语言进行采集后合成,这使得混合语言文本的语音合成存在较大难度,以及过度依赖能同时说多种语言的主播。
发明内容
本发明提供了一种中英文混合的语音合成方法及装置,用于解决现有技术中中英文混合文本语言合成难度大的问题。
本发明采用的技术方案是:提供一种中英文混合的语音合成方法,包括训练阶段和推理阶段,训练阶段包括以下步骤:
S11.获取多人中、英文语音训练数据,并提取语音声学特征,得到训练数据集;
S12.对英文文本规范化处理,并通过CMU发音字典将英文文本转换为CMU发音音素,再将CMU发音音素转换为拼音音素;
S13.对中文文本规范化处理,并结合韵律分析,将中文汉字转换为拼音音素;
S14.对训练数据集生成代表所属语言类别的语言标记以及对应说话人识别向量;
S15.将转换为拼音音素的文本、语言标记、语音声学特征、说话人识别向量,共同输入到语音合成模型进行训练,得到训练好的语音合成模型;
所述推理阶段包括以下步骤:
S21.对待合成文本进行规范化处理,并对中英文进行区分,得到中文文本和英文文本;
S22.对步骤S21得到的中文文本采用韵律分析,并将中文汉字转换为拼音音素;
S23.将步骤S21得到的英文文本转换为CMU发音音素,再将CMU发音音素映射为拼音音素;
S24.对待合成文本生成代表所属语言类别的语言标记以及对应说话人识别向量;
S25.将处理为拼音音素的文本、语言标记、说话人识别向量,共同输入到训练好的语音合成模型,输出声学特征;
S26.将步骤S25得到的声学特征经声码器输出音频。
优选地,在步骤S11中:
中、英文的语音训练数据包括:中文语音数据以及对应的中文文本,英文语音数据以及对应的英文文本,中英文混合的语音数据以及对应的中英文混合文本;提取的语音声学特征包括梅尔频谱特征。
优选地,在步骤S12中:
对非法字符进行剔除;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素。
优选地,在步骤S13中:
对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
优选地,在步骤S14中:
语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人识别模型生成,用于编码说话人信息。
优选地,在步骤S15中:
文本对应的语音声学特征包括梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征;模型网络结构包括但不限于目前主流的端到端Tacotron模型。
优选地,在步骤S21-S25中:
推理阶段的语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的中、英文语音文本的处理方式与训练阶段一致,不同点在于,若文本中的英文单词不存在于CMU发音字典,则将该单词看作分开的英文字母,并将英文字母转换为CMU发音字典,进而转换为拼音音素。
优选地,在步骤S26中:
采用的声码器包括WaveNET、WavRNN、MelGAN。
本发明还提供一种中英文混合的语音合成装置,包括:
文本处理模块,用于将中英文文本规范化处理,并且转换为统一的拼音音素表达方式;
信息编码模块,用于对中、英文生成代表不同所属语言类别的语言标记以及对应说话人的说话人识别向量;
声学特征输出模块,用于输入经处理为拼音音素的文本、语言标记、说话人识别向量,输出语音的声学特征;
声码器模块,用于输入语音的声学特征,输出音频。
本发明的有益效果是:通过将英文单词转换为CMU发音音素,再将CMU发音音素转换为拼音音素,将中、英文统一为了拼音音素的表征方式,此外,为了区分中、英文的发音特点,引入了代表不同语言的语言标记,为了区分不同说话人的声学特征,引入了说话人识别向量,使得中英文混合的语音合成成为可能,并且具有很高的语音合成质量。
附图说明
图1为本发明公开的一种中英文混合的语音合成方法流程示意图;
图2为本发明公开的语音合成模型训练的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
实施例1:
参见图1,一种中英文混合的语音合成方法,包括训练阶段和推理阶段,在训练阶段包括以下步骤:
S11.获取多人中、英文语音训练数据,并提取语音声学特征,得到训练数据集;
可选的,英文语音合成数据集可以使用LJSpeech、VCTK等公开数据集,中文语音合成数据集使用标贝公司的女生语音数据库以及自行录制的涵盖20多个人声音的语音数据库。
可理解的,中、英文的语音训练数据包括:中文语音数据以及对应的中文文本,英文语音数据以及对应的英文文本,中英文混合的语音数据以及对应的中英文混合文本;提取的语音声学特征包括但不限于梅尔频谱特征。
S12.对英文文本规范化处理,并通过卡内基梅隆大学(CMU)发音字典将英文文本转换为CMU发音音素,再将CMU发音音素转换为拼音音素;
可选的,对英文文本规范化处理,剔除非法字符;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典键值,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素。
举例说明,英文文本为“Dr.Forde,%a name familiar to the reader,who methim at the door.”,首先剔除非法字符‘%’,然后将英文文本统一为ASCII编码,再将英文统一为小写字母,对英文缩写‘dr.’拓展为‘docter’,经处理的英文文本为“doctor forde,a name familiar to the reader who met him at the door.”;再根据CMU发音字典,将英文单词转换为CMU发音音素,得到“{D AA1 K T ER0}{F AO1 R D}{EY1}{N EY1 M}{F AH0M IH1 L Y ER0}{T UW1}{DH AH0}{R IY1 D ER0}{S EY1}{B EH1 S T}{AH1 V}{Y UW1}{HHUW1}{M EH1 T}{HH IH1 M}{AE1 T}{DH AH0}{D AO1 R}”;通过CMU发音音素与拼音音素的映射字典,将CMU发音音素转换为拼音音素,得到“d a1 k t e0 f uo1 r d,ai1 n ai1 m fa0 m i1 l y e0 t u1 s i a0 r i1 d e0 s ai1 b ai1 s t a1 w y u1 h u1 m ai1 t hi1 m a1 t s i a0 d uo1 r.”。
S13.对中文文本规范化处理,并结合韵律分析,将中文汉字转换为拼音音素;
可选的,对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注等,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
S14.对训练数据集生成代表所属语言类别的语言标记以及对应说话人识别向量;
可理解的是,语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等,反之亦然;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人识别模型生成,用于编码说话人信息。
具体的,生成语言标记以及说话人识别向量的过程如图2所示,在本例中,混合文本为“我是中国人,我爱China”,经处理及转换后,为“uo3 sh iii4#1zh ong1 g uo2 ren2#3uo3 ai4 ch ai1 n a0#4”,此处中文标记为0,英文标记为1,其它标记为2,完整的的语言标记为“000200000021111112”;说话人识别向量则由经过预训练的多说话人识别模型生成,维度为256。
S15.将转换为拼音音素的文本、语言标记、语音声学特征、说话人识别向量,共同输入到语音合成模型进行训练,得到训练好的语音合成模型。
可选的,文本对应的语音声学特征包括但不限于梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征;模型网络结构包括但不限于目前主流的端到端Tacotron模型。
具体的,如图2所示,整体架构采用Tacotron网络模型,将文本向量与语言标记进行拼接,一起输入到编码层网络,再将编码层网络的输出与说话人识别向量进行拼接,一起输入到解码层网络,最后输出声学特征。
推理阶段包括以下步骤:
S21.对待合成文本进行规范化处理,并对中英文进行区分,得到中文文本和英文文本;
S22.对步骤S21得到的中文文本采用韵律分析,并将中文汉字转换为拼音音素;
S23.将步骤S21得到的英文文本转换为CMU发音音素,再将CMU发音音素映射为拼音音素;
S24.对待合成文本生成代表所属语言类别的语言标记以及对应说话人识别向量;
S25.将处理为拼音音素的文本、语言标记、说话人识别向量,共同输入到训练好的语音合成模型,输出声学特征;
S26.将步骤S25得到的声学特征经声码器输出音频。
可理解的是,推理阶段的语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的中、英文语音文本的处理方式与训练阶段一致,不同点在于,若文本中的英文单词不存在于CMU发音字典,则将该单词看作分开的英文字母,并将英文字母转换为CMU发音字典,进而转换为拼音音素。
举例说明,若待合成文本为“我爱China”,由于“China”存在于发音字典,则将“China”转换为CMU发音“CH AY1 N AH0”,再转换为拼音音素“ch ai1 n a0”,最后得到“uo3ai4 ch ai1 n a0”;若待合成文本为“我会念ABCD”,由于“ABCD”不在CMU发音字典,则对“ABCD”添加分隔符,变成“A B C D”,此时的CMU发音为“{EY1}{B IY1}{S IY1}{D IY1}”,转换为拼音音素得到“ai1 b i1 s i1 d i1”,最后得到“uo3 h uei4 n ian4 ai1 b i1 s i1d i1”。
可选的,采用的声码器包括但不限于WavNET、WavRNN、MelGAN。
通过本实施例1提供的一种中英文混合的语音合成方法,通过将英文单词转换为CMU发音音素,再将CMU发音音素转换为拼音音素,将中、英文统一为了拼音音素的表征方式,此外,为了区分中、英文的发音特点,引入了代表不同语言的语言标记,为了区分不同说话人的声学特征,引入了说话人识别向量,使得中英文混合文本的语音合成成为可能,并且具有较高的语音合成质量。
实施例2
一种中英文混合的语音合成装置,包括:
文本处理模块,用于将中英文文本规范化处理,并且转换为统一的拼音音素表达方式;
可选的,文本处理模块对混合文本中英文进行不同处理,对英文文本进行规范化,剔除非法字符;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典键值,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素;对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注等,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
信息编码模块,用于对中、英文生成代表不同所属语言类别的语言标记以及对应的说话人识别向量;
可理解的是,语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等,反之亦然;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人的识别模型生成,用于编码说话人信息。
声学特征输出模块,用于输入经处理为拼音音素的文本、语言标记、说话人识别向量,输出语音的声学特征;
可选的,文本对应的语音声学特征包括但不限于梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征。
声码器模块,用于输入语音的声学特征,输出音频。
可选的,采用的声码器包括但不限于WaveNET、WavRNN、MelGAN。
通过本实施例2提供的一种中英文混合的语音合成装置,利用CMU发音字典以及CMU发音与拼音音素的映射字典,将文本统一为拼音音素表达方式;同时为了区别中、英文发音特征,加入了区别语言的语言标记;为了区别说话人特征,加入了代表说话人信息的说话人识别向量。通过以上方法,将语音合成的应用场景扩展到了中英文混合文本。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种中英文混合的语音合成方法,其特征在于:包括训练阶段和推理阶段,所述训练阶段包括以下步骤:
S11.获取多人中、英文语音训练数据,并提取语音声学特征,得到训练数据集;
S12.对英文文本规范化处理,并通过CMU发音字典将英文文本转换为CMU发音音素,再将CMU发音音素转换为拼音音素;
S13.对中文文本规范化处理,并结合韵律分析,将中文汉字转换为拼音音素;
S14.对训练数据集生成代表所属语言类别的语言标记以及对应说话人识别向量;
S15.将转换为拼音音素的文本、语言标记、语音声学特征、说话人识别向量,共同输入到语音合成模型进行训练,得到训练好的语音合成模型;
所述推理阶段包括以下步骤:
S21.对待合成文本进行规范化处理,并对中英文进行区分,得到中文文本和英文文本;
S22.对步骤S21得到的中文文本采用韵律分析,并将中文汉字转换为拼音音素;
S23.将步骤S21得到的英文文本转换为CMU发音音素,再将CMU发音音素映射为拼音音素;
S24.对待合成文本生成代表所属语言类别的语言标记以及对应说话人识别向量;
S25.将处理为拼音音素的文本、语言标记、说话人识别向量,共同输入到训练好的语音合成模型,输出声学特征;
S26.将步骤S25得到的声学特征经声码器输出音频。
2.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S11中:
中、英文的语音训练数据包括:中文语音数据以及对应的中文文本,英文语音数据以及对应的英文文本,中英文混合的语音数据以及对应的中英文混合文本;提取的语音声学特征包括梅尔频谱特征。
3.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S12中:
对非法字符进行剔除;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素。
4.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S13中:
对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
5.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S14中:
语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人识别模型生成,用于编码说话人信息。
6.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S15中:
文本对应的语音声学特征包括梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征;模型网络结构包括但不限于目前主流的端到端Tacotron模型。
7.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S21-S25中:
推理阶段的语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的中、英文语音文本的处理方式与训练阶段一致,不同点在于,若文本中的英文单词不存在于CMU发音字典,则将该单词看作分开的英文字母,并将英文字母转换为CMU发音字典,进而转换为拼音音素。
8.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S26中:
采用的声码器包括WaveNET、WavRNN、MelGAN。
9.一种中英文混合的语音合成装置,其特征在于,包括:
文本处理模块,用于将中英文文本规范化处理,并且转换为统一的拼音音素表达方式;
信息编码模块,用于对中、英文生成代表不同所属语言类别的语言标记以及对应说话人的说话人识别向量;
声学特征输出模块,用于输入经处理为拼音音素的文本、语言标记、说话人识别向量,输出语音的声学特征;
声码器模块,用于输入语音的声学特征,输出音频。
CN202011040833.2A 2020-09-28 2020-09-28 一种中英文混合的语音合成方法及装置 Active CN112151005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011040833.2A CN112151005B (zh) 2020-09-28 2020-09-28 一种中英文混合的语音合成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011040833.2A CN112151005B (zh) 2020-09-28 2020-09-28 一种中英文混合的语音合成方法及装置

Publications (2)

Publication Number Publication Date
CN112151005A true CN112151005A (zh) 2020-12-29
CN112151005B CN112151005B (zh) 2022-08-19

Family

ID=73895681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011040833.2A Active CN112151005B (zh) 2020-09-28 2020-09-28 一种中英文混合的语音合成方法及装置

Country Status (1)

Country Link
CN (1) CN112151005B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145719A (zh) * 2019-12-31 2020-05-12 北京太极华保科技股份有限公司 将中英混合及语气标签化的数据标注方法及装置
CN112802448A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和系统
CN112802450A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其系统
CN113362805A (zh) * 2021-06-18 2021-09-07 四川启睿克科技有限公司 一种音色、口音可控的中英文语音合成方法及装置
CN113380221A (zh) * 2021-06-21 2021-09-10 携程科技(上海)有限公司 中英文混合的语音合成方法、装置、电子设备和存储介质
CN113453072A (zh) * 2021-06-29 2021-09-28 王瑶 按级别拼合和播放多语言影音文件的方法、系统和介质
CN114387947A (zh) * 2022-03-23 2022-04-22 北京中科深智科技有限公司 一种适用于电商直播中虚拟主播的自动语音合成方法
WO2022141678A1 (zh) * 2020-12-31 2022-07-07 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111818A1 (en) * 2014-01-21 2015-07-30 Lg Electronics Inc. Emotional-speech synthesizing device, method of operating the same and mobile terminal including the same
CN109036377A (zh) * 2018-07-26 2018-12-18 中国银联股份有限公司 一种语音合成方法及装置
CN109285535A (zh) * 2018-10-11 2019-01-29 四川长虹电器股份有限公司 基于前端设计的语音合成方法
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
CN110675854A (zh) * 2019-08-22 2020-01-10 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111462727A (zh) * 2020-03-31 2020-07-28 北京字节跳动网络技术有限公司 用于生成语音的方法、装置、电子设备和计算机可读介质
CN111489734A (zh) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111818A1 (en) * 2014-01-21 2015-07-30 Lg Electronics Inc. Emotional-speech synthesizing device, method of operating the same and mobile terminal including the same
CN109036377A (zh) * 2018-07-26 2018-12-18 中国银联股份有限公司 一种语音合成方法及装置
CN109285535A (zh) * 2018-10-11 2019-01-29 四川长虹电器股份有限公司 基于前端设计的语音合成方法
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
CN110675854A (zh) * 2019-08-22 2020-01-10 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111462727A (zh) * 2020-03-31 2020-07-28 北京字节跳动网络技术有限公司 用于生成语音的方法、装置、电子设备和计算机可读介质
CN111489734A (zh) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MOHAMMADI ZAKI: ""Effectiveness of multiscale fractal dimension-based phonetic segmentation in speech synthesis for low resource language"", 《IEEE》 *
NIRMESH J SHAH: ""Effectiveness of PLP-based phonetic segmentation for speech synthesis"", 《IEEE》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145719B (zh) * 2019-12-31 2022-04-05 北京太极华保科技股份有限公司 将中英混合及语气标签化的数据标注方法及装置
CN111145719A (zh) * 2019-12-31 2020-05-12 北京太极华保科技股份有限公司 将中英混合及语气标签化的数据标注方法及装置
WO2022141678A1 (zh) * 2020-12-31 2022-07-07 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN112802450A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其系统
CN112802448A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和系统
CN112802448B (zh) * 2021-01-05 2022-10-11 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和系统
CN112802450B (zh) * 2021-01-05 2022-11-18 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其系统
CN113362805A (zh) * 2021-06-18 2021-09-07 四川启睿克科技有限公司 一种音色、口音可控的中英文语音合成方法及装置
CN113362805B (zh) * 2021-06-18 2022-06-21 四川启睿克科技有限公司 一种音色、口音可控的中英文语音合成方法及装置
CN113380221A (zh) * 2021-06-21 2021-09-10 携程科技(上海)有限公司 中英文混合的语音合成方法、装置、电子设备和存储介质
CN113453072A (zh) * 2021-06-29 2021-09-28 王瑶 按级别拼合和播放多语言影音文件的方法、系统和介质
CN114387947A (zh) * 2022-03-23 2022-04-22 北京中科深智科技有限公司 一种适用于电商直播中虚拟主播的自动语音合成方法
CN114387947B (zh) * 2022-03-23 2022-08-02 北京中科深智科技有限公司 一种适用于电商直播中虚拟主播的自动语音合成方法

Also Published As

Publication number Publication date
CN112151005B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN112151005B (zh) 一种中英文混合的语音合成方法及装置
CN108899009B (zh) 一种基于音素的中文语音合成系统
CN111292720A (zh) 语音合成方法、装置、计算机可读介质及电子设备
US7966173B2 (en) System and method for diacritization of text
CN112002308A (zh) 一种语音识别方法及装置
EP1463031A1 (en) Front-end architecture for a multi-lingual text-to-speech system
KR20060049290A (ko) 혼성-언어 텍스트의 음성 변환 방법
Lu et al. Implementing prosodic phrasing in chinese end-to-end speech synthesis
CN113380222A (zh) 语音合成方法、装置、电子设备及存储介质
CN112786018A (zh) 语音转换及相关模型的训练方法、电子设备和存储装置
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
Kayte et al. A Marathi Hidden-Markov Model Based Speech Synthesis System
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
Abujar et al. A comprehensive text analysis for Bengali TTS using unicode
CN115762471A (zh) 一种语音合成方法、装置、设备及存储介质
Peng et al. Decoupled pronunciation and prosody modeling in meta-learning-based multilingual speech synthesis
CN112927677B (zh) 语音合成方法和装置
Reddy et al. Transcription of Telugu TV news using ASR
Louw et al. The Speect text-to-speech entry for the Blizzard Challenge 2016
KR20120042381A (ko) 음성인식 문장의 문형식별 장치 및 방법
Samsudin et al. A Simple Malay speech synthesizer using syllable concatenation approach
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
Zhang et al. Chinese speech synthesis system based on end to end

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant