CN112435650B - 一种多说话人、多语言的语音合成方法及系统 - Google Patents

一种多说话人、多语言的语音合成方法及系统 Download PDF

Info

Publication number
CN112435650B
CN112435650B CN202011256113.XA CN202011256113A CN112435650B CN 112435650 B CN112435650 B CN 112435650B CN 202011256113 A CN202011256113 A CN 202011256113A CN 112435650 B CN112435650 B CN 112435650B
Authority
CN
China
Prior art keywords
language
speaker
text
texts
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011256113.XA
Other languages
English (en)
Other versions
CN112435650A (zh
Inventor
朱海
王昆
周琳珉
刘书君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011256113.XA priority Critical patent/CN112435650B/zh
Publication of CN112435650A publication Critical patent/CN112435650A/zh
Application granted granted Critical
Publication of CN112435650B publication Critical patent/CN112435650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种多说话人、多语言的语音合成方法,包括提取语音声学特征;将不同语言的文本处理为统一的表征方式,并将音频和文本对齐,获取时长信息;构建说话人空间和语言空间,生成说话人id和语言id,提取说话人向量和语言向量加入到初始语音合成模型,采用对齐后的文本、时长信息和语音声学特征对初始语音合成模型进行训练,得到语音合成模型;对待合成文本处理后生成说话人id和语言id;将说话人id、文本以及语言id,输入到语音合成模型,输出语音声学特征并转换为音频。还公开了一种系统。本发明实现了对说话人的特征以及语言特征的“解纠缠”,并且只需要变换id就可以实现说话人或语言的转换。

Description

一种多说话人、多语言的语音合成方法及系统
技术领域
本发明涉及语音合成技术领域,具体的说,是一种多说话人、多语言的语音合成方法及系统。
背景技术
语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音,涉及到声学、语言学和计算机科学等多门学科。然而如何在保持说话人一致性的条件下,用单语语音数据库建立多说话人、多语言的语音合成系统一直是个难题。传统的多语言语音合成系统依赖多语语音数据库,然而多语数据库在实际中难以得到(很难找到精通多国语言的说话人来录制语音数据),并且不能随意对说话人音色、语言发音等进行转换。
发明内容
本发明的目的在于提供一种多说话人、多语言的语音合成方法及系统,用于解决现有技术中尚不能满足在说话人一致的条件下,用单语语音数据库实现多说话人、多语言的语音合成的问题。
本发明通过下述技术方案解决上述问题:
一种多说话人、多语言的语音合成方法,包括:
步骤S100:训练语音合成模型,具体包括:
步骤S110:获取多说话人、单语言的语音训练数据库,提取语音声学特征;
步骤S120:将语音训练数据库不同语言的文本处理为统一的表征方式,并将音频和文本进行对齐,获取文本对应的时长信息;
步骤S130:构建说话人空间和语言空间,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id,并从说话人空间提取说话人id对应的说话人向量,从语言空间提取语言id对应的语言向量;
步骤S140:将说话人向量和语言向量加入到初始语音合成模型的各个部分,采用所述对齐后的文本、时长信息和语音声学特征对说话人空间、语言空间和初始语音合成模型进行训练,得到训练好的语音合成模型;
步骤S200:将待合成文本转换为音频,具体包括:
步骤S210:对待合成文本进行规范化处理,并按文本语言分类;
步骤S220:将分类后的文本处理成统一的表征方式,并将音频和文本进行对齐,由预测器预测文本对应的时长信息,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id;
步骤S230:指定说话人id,将说话人id、经S220处理后的文本以及对应字符的语言id,输入到训练好的语音合成模型,输出语音声学特征;
步骤S240:将语音声学特征转换为音频。
所述语音声学特征包括梅尔频谱特征、频谱能量特征和基频特征。
所述步骤S120具体包括:
将语音训练数据库不同语言的文本处理为统一的音素表达方式,可以是拼音音素或CMU音素,或将不同语言的文本处理为统一的Unicode编码表达方式;
采用MFA算法将不同语言的文本及音频进行对齐,获得对齐后的文本及文本对应的时长;
将时长转化为帧数,时长帧数的总和与梅尔频谱特征的帧数之和相等。
所述步骤S130具体为:
设置每一条语音训练数据的语言id的长度与对齐后的文本的时长相等;设置每一条语音训练数据的说话人id的长度为1,对不同的说话人、不同的语言分别取不同的id值;
根据语音训练数据中的说话人数量、语言数量构建说话人空间与语言空间,并进行初始化,将说话人id、语言id转换为one-hot向量,并提取说话人向量和语言向量。
所述步骤S240采用Multi-band MelGAN声码器将语音声学特征转换为音频。
一种多说话人、多语言的语音合成系统,包括文本处理模块、信息标记模块、信息编码模块、声学特征输出模块和声码器模块,其中:
文本处理模块,用于对文本进行规范化处理,将文本按对语言分类并且将不同语言的文本处理为统一的表达方式;
可选的,将语音数据库不同语言的文本处理为统一的音素表达方式,或将不同语言的文本处理为统一的Unicode编码表达方式;若是用于训练,则采用MFA算法将不同语言的文本及音频进行对齐,获得对齐后的文本及文本对应的时长,将时长转化为帧数,时长帧数的总和与提取的梅尔频谱特征的帧数之和相等;
信息标记模块,用于对文本的每个字符生成对应的语言id,同时根据用户需要,生成说话人id;
语言id的长度与经文本处理模块处理后的文本长度相等,说话人id的长度为1,对不同的说话人、不同的语言取不同的id值;
信息编码模块,用于构建说话人空间和语言空间,根据语言id、说话人id在语言空间、说话人空间中提取对应的语言向量、说话人向量;说话人空间与语言空间需要根据训练数据中的说话人数量、语言数量来进行构建;
声学特征输出模块,用于训练阶段将输入经过处理的文本、语言向量、说话人向量,输入到语音合成模型进行模型训练得到训练好的语音合成模型;并在推理阶段将经过处理的文本、语言向量、说话人向量输入训练好的语音合成模型,转换成语音的声学特征并输出;
在说话人空间提取的说话人向量,直接加入到语音合成模型的编码器、可变信息适配器、解码器;在语言空间提取的语言向量,在加入解码器之前,需要经过语言调节器对说语言向量的长度调节,得到每一帧频谱对应的语言向量;
声码器模块,用于根据输入语音的声学特征输出音频。优选地,声码器模块可以采用Multi-band MelGAN声码器。
本发明与现有技术相比,具有以下优点及有益效果:
本发明构建了说话人空间、语言空间,并且通过说话人id、语言id提取说话人向量、语言向量,并加入到语音合成模型的各个部分,实现了对说话人的特征以及语言特征的“解纠缠”,并且只需要变换id就可以实现说话人或语言的转换(如实现外国人说中文的风格);本发明只需要使用多说话人的单语数据,并且语音合成速度极快,合成的语音音质高,稳定性好,能在保持说话人音色一致性的条件下实现不同语言间的流利转换。
附图说明
图1为本发明的流程图;
图2为语音合成模块的模型结构示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种多说话人、多语言的语音合成方法,包括:
训练阶段:
步骤S11:获取多说话人、单语言的语音训练数据库,提取语音声学特征,多说话人、单语言的语音训练数据包括至少两种以上不同语言的多说话人语音数据以及对应的文本;所述语音声学特征包括梅尔频谱特征、频谱能量特征和基频特征;可选地,选取中文、英文语音数据库作为训练数据库,中文数据集可以使用标贝的公开女声数据库以及我们自己录制的的涵盖20多个人的语音数据库;英文语音数据库可以使用LJSpeech、VCTK等公开数据库;
步骤S12:将语音训练数据库不同语言的文本处理为统一的表征方式,即处理为统一的音素表达方式,或将不同语言的文本处理为统一的Unicode编码表达方式,并采用MFA(Montreal Forced Aligner)算法将音频和文本进行对齐,获取对齐后的文本及文本对应的时长信息;将时长转化为帧数,时长帧数的总和与梅尔频谱特征的帧数之和相等;
举例说明,英文文本为“who met him at the door.”,将英文文本转换为音素表达方式,得到“h u1 m ai1 t h i1 m a1 t s i a0 d uo1 r pp4”;中文文本为“我是中国人,我爱中国”,处理为统一的音素表达,得到“uo3 sh iii4 pp1 zh ong1 g uo2r en2 pp3uo3 ai4 zh ong1 g uo2 pp4”。采用MFA算法获得对齐后的文本(会多出sil,sp等字符)以及文本中每个字符对应的时长,并将时长转换为帧数,保证时长帧数的总和与所提取的梅尔频谱特征的帧数之和相等。
步骤S13:构建说话人空间、语言空间,对将步骤S12处理后的文本生成对应的说话人id,对每个字符生成对应的语言id,用生成的id在说话人空间、语言空间分别提取说话人向量、语言向量;即:设置每一条语音训练数据的语言id的长度与对齐后的文本的时长相等;设置每一条语音训练数据的说话人id的长度为1,对不同的说话人、不同的语言分别取不同的id值;
根据语音训练数据中的说话人数量、语言数量构建说话人空间与语言空间,并进行初始化,将说话人id、语言id转换为one-hot向量,并提取说话人向量和语言向量。
举例说明,经S12处理后的英文文本为“sil h u1 m ai1 t h i1 m a1 t s i a0d uo1r pp4”,语音对应的说话人id为[20],对应的语言id为[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1],经S12处理的中文文本为“sil uo3 sh iii4 pp1 zh ong1 g uo2 r en2pp3 sp uo3 ai4 zh ong1 g uo2 pp4”,语音对应的说话人id为[7],对应的语言id为[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],将语言id、说话人id转换为one-hot向量后,在空间中提取出说话人向量、语言向量。
步骤S14:将步骤S130得到的说话人向量和语言向量加入到初始语音合成模型的各个部分,具体,结合附图2所示,带韵律的音素序列经过嵌入层变为音素嵌入向量,并在音素嵌入向量中加入位置编码(将不同音素的位置直接带入正弦函数得到的绝对位置编码),目的是加入音素之间的位置信息;在经过可变信息适配器后,由于经过长度调节器的扩帧操作,为了保证位置信息不丢失,需要再次加入位置编码信息;其中可变信息适配器中的韵律时长预测器主要预测音素序列的停顿时长,用于控制合成语音的韵律;将在说话人空间提取的说话人向量,直接加入到语音合成模型的编码器、可变信息适配器、解码器;在语言空间提取的语言向量,在加入解码器之前,需要经过长度调节器对说语言向量的长度调节;此处的长度调节器主要作用是根据时长预测结果,对语言向量进行扩帧操作,将以便于加入到解码器。
采用所述对齐后的文本、时长信息和语音声学特征对说话人空间、语言空间和初始语音合成模型进行训练,得到训练好的语音合成模型。
推理阶段:
步骤S21:对待合成文本进行规范化处理,并按文本语言分类;
步骤S22:将分类后的文本处理成统一的表征方式,并将音频和文本进行对齐,由预测器预测文本对应的时长信息,生成文本每个字符对应的语言id;
步骤S23:指定说话人id,将说话人id、经S22处理后的文本以及对应字符的语言id,输入到训练好的语音合成模型,输出语音声学特征;
步骤S24:采用Multi-band MelGAN声码器将语音声学特征转换为音频。
实施例2:
一种多说话人、多语言的语音合成系统,包括文本处理模块、信息标记模块、信息编码模块、声学特征输出模块和声码器模块,其中:
文本处理模块,用于对文本进行规范化处理,将文本按对语言分类并且将不同语言的文本处理为统一的表达方式;
可选的,将语音数据库不同语言的文本处理为统一的音素表达方式,或将不同语言的文本处理为统一的Unicode编码表达方式;若是用于训练,则采用MFA算法将不同语言的文本及音频进行对齐,获得对齐后的文本及文本对应的时长,将时长转化为帧数,时长帧数的总和与提取的梅尔频谱特征的帧数之和相等;
信息标记模块,用于对文本的每个字符生成对应的语言id,同时根据用户需要,生成说话人id;
语言id的长度与经文本处理模块处理后的文本长度相等,说话人id的长度为1,对不同的说话人、不同的语言取不同的id值;
信息编码模块,用于构建说话人空间和语言空间,根据语言id、说话人id在语言空间、说话人空间中提取对应的语言向量、说话人向量;说话人空间与语言空间需要根据训练数据中的说话人数量、语言数量来进行构建;
声学特征输出模块,用于训练阶段将输入经过处理的文本、语言向量、说话人向量,输入到语音合成模型进行模型训练得到训练好的语音合成模型;并在推理阶段将经过处理的文本、语言向量、说话人向量输入训练好的语音合成模型,转换成语音的声学特征并输出;
在说话人空间提取的说话人向量,直接加入到语音合成模型的编码器、可变信息适配器、解码器;在语言空间提取的语言向量,在加入解码器之前,需要经过语言调节器对说语言向量的长度调节,得到每一帧频谱对应的语言向量;
声码器模块,用于根据输入语音的声学特征输出音频。优选地,声码器模块可以采用Multi-band MelGAN声码器。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (6)

1.一种多说话人、多语言的语音合成方法,其特征在于,包括:
步骤S100:训练语音合成模型,具体包括:
步骤S110:获取多说话人、单语言的语音训练数据库,提取语音声学特征;
步骤S120:将语音训练数据库不同语言的文本处理为统一的表征方式,并将音频和文本进行对齐,获取文本对应的时长信息;
步骤S130:构建说话人空间和语言空间,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id,并从说话人空间提取说话人id对应的说话人向量,从语言空间提取语言id对应的语言向量;
步骤S140:将说话人向量和语言向量加入到初始语音合成模型的各个部分,采用所述对齐后的文本、时长信息和语音声学特征对说话人空间、语言空间和初始语音合成模型进行训练,得到训练好的语音合成模型;
步骤S200:将待合成文本转换为音频,具体包括:
步骤S210:对待合成文本进行规范化处理,并按文本语言分类;
步骤S220:将分类后的文本处理成统一的表征方式,并将音频和文本进行对齐,由预测器预测文本对应的时长信息,生成对齐后的文本对应的说话人id以及对齐后的文本中每个字符对应的语言id;
步骤S230:指定说话人id,将说话人id、经S220处理后的文本以及对应字符的语言id,输入到训练好的语音合成模型,输出语音声学特征;
步骤S240:将语音声学特征转换为音频。
2.根据权利要求1所述的一种多说话人、多语言的语音合成方法,其特征在于,所述语音声学特征包括梅尔频谱特征、频谱能量特征和基频特征。
3.根据权利要求2所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S120具体包括:
将语音训练数据库不同语言的文本处理为统一的音素表达方式,或将不同语言的文本处理为统一的Unicode编码表达方式;
采用MFA算法将不同语言的文本及音频进行对齐,获得对齐后的文本及文本对应的时长;
将时长转化为帧数,时长帧数的总和与梅尔频谱特征的帧数之和相等。
4.根据权利要求3所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S130具体为:
设置每一条语音训练数据的语言id的长度与对齐后的文本的时长相等;设置每一条语音训练数据的说话人id的长度为1,对不同的说话人、不同的语言分别取不同的id值;
根据语音训练数据中的说话人数量、语言数量构建说话人空间与语言空间,并进行初始化,将说话人id、语言id转换为one-hot向量,并提取说话人向量和语言向量。
5.根据权利要求3所述的一种多说话人、多语言的语音合成方法,其特征在于,所述步骤S240采用Multi-band MelGAN声码器将语音声学特征转换为音频。
6.一种多说话人、多语言的语音合成系统,其特征在于,包括文本处理模块、信息标记模块、信息编码模块、声学特征输出模块和声码器模块,其中:
文本处理模块,用于对文本进行规范化处理,将文本按对语言分类并且将不同语言的文本处理为统一的表达方式,并将音频和文本进行对齐,获取文本对应的时长信息;
信息标记模块,用于对文本的每个字符生成对应的语言id,同时根据用户需要,生成说话人id;
信息编码模块,用于构建说话人空间和语言空间,根据语言id、说话人id在语言空间、说话人空间中提取对应的语言向量、说话人向量;
声学特征输出模块,用于训练阶段将输入经过处理的文本、语言向量、说话人向量,输入到语音合成模型进行模型训练得到训练好的语音合成模型;并在推理阶段将经过处理的文本、语言向量、说话人向量输入训练好的语音合成模型,转换成语音的声学特征并输出;
声码器模块,用于根据输入语音的声学特征输出音频。
CN202011256113.XA 2020-11-11 2020-11-11 一种多说话人、多语言的语音合成方法及系统 Active CN112435650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011256113.XA CN112435650B (zh) 2020-11-11 2020-11-11 一种多说话人、多语言的语音合成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011256113.XA CN112435650B (zh) 2020-11-11 2020-11-11 一种多说话人、多语言的语音合成方法及系统

Publications (2)

Publication Number Publication Date
CN112435650A CN112435650A (zh) 2021-03-02
CN112435650B true CN112435650B (zh) 2022-04-15

Family

ID=74699806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011256113.XA Active CN112435650B (zh) 2020-11-11 2020-11-11 一种多说话人、多语言的语音合成方法及系统

Country Status (1)

Country Link
CN (1) CN112435650B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053353B (zh) * 2021-03-10 2022-10-04 度小满科技(北京)有限公司 一种语音合成模型的训练方法及装置
CN113066511B (zh) * 2021-03-16 2023-01-24 云知声智能科技股份有限公司 一种语音转换方法、装置、电子设备和存储介质
CN113096625A (zh) * 2021-03-24 2021-07-09 平安科技(深圳)有限公司 多人佛乐生成方法、装置、设备及存储介质
CN112992162B (zh) * 2021-04-16 2021-08-20 杭州一知智能科技有限公司 一种音色克隆方法、系统、装置及计算机可读存储介质
CN115294955B (zh) * 2021-04-19 2024-08-16 北京猎户星空科技有限公司 一种模型训练和语音合成方法、装置、设备及介质
CN113327627B (zh) * 2021-05-24 2024-04-05 清华大学深圳国际研究生院 一种基于特征解耦的多因素可控的语音转换方法及系统
CN113345412A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质
CN113838448B (zh) * 2021-06-16 2024-03-15 腾讯科技(深圳)有限公司 一种语音合成方法、装置、设备及计算机可读存储介质
CN113362805B (zh) * 2021-06-18 2022-06-21 四川启睿克科技有限公司 一种音色、口音可控的中英文语音合成方法及装置
CN113488022B (zh) * 2021-07-07 2024-05-10 北京搜狗科技发展有限公司 一种语音合成方法和装置
CN113539232B (zh) * 2021-07-10 2024-05-14 东南大学 一种基于慕课语音数据集的语音合成方法
CN114724541A (zh) * 2022-04-20 2022-07-08 杭州倒映有声科技有限公司 一种声音克隆的方法
CN115240630B (zh) * 2022-07-22 2024-07-30 山东大学 一种中文文本到个性化语音转换方法及系统
CN115862635B (zh) * 2023-02-28 2023-06-30 北京海天瑞声科技股份有限公司 一种数据处理方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481713A (zh) * 2017-07-17 2017-12-15 清华大学 一种混合语言语音合成方法及装置
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
CN110970014A (zh) * 2019-10-31 2020-04-07 阿里巴巴集团控股有限公司 语音转换、文件生成、播音、语音处理方法、设备及介质
CN111276120A (zh) * 2020-01-21 2020-06-12 华为技术有限公司 语音合成方法、装置和计算机可读存储介质
CN111667812A (zh) * 2020-05-29 2020-09-15 北京声智科技有限公司 一种语音合成方法、装置、设备及存储介质
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及系统
CN111785258A (zh) * 2020-07-13 2020-10-16 四川长虹电器股份有限公司 一种基于说话人特征的个性化语音翻译方法和装置
CN111798832A (zh) * 2019-04-03 2020-10-20 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7142333B2 (ja) * 2018-01-11 2022-09-27 ネオサピエンス株式会社 多言語テキスト音声合成方法
CN112185337B (zh) * 2019-07-02 2024-04-26 微软技术许可有限责任公司 多语言神经文本到语音合成

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481713A (zh) * 2017-07-17 2017-12-15 清华大学 一种混合语言语音合成方法及装置
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
CN111798832A (zh) * 2019-04-03 2020-10-20 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
CN110970014A (zh) * 2019-10-31 2020-04-07 阿里巴巴集团控股有限公司 语音转换、文件生成、播音、语音处理方法、设备及介质
CN111276120A (zh) * 2020-01-21 2020-06-12 华为技术有限公司 语音合成方法、装置和计算机可读存储介质
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及系统
CN111667812A (zh) * 2020-05-29 2020-09-15 北京声智科技有限公司 一种语音合成方法、装置、设备及存储介质
CN111785258A (zh) * 2020-07-13 2020-10-16 四川长虹电器股份有限公司 一种基于说话人特征的个性化语音翻译方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"END-TO-END CODE-SWITCHING TTS WITH CROSS-LINGUAL LANGUAGE MODEL";Xuehao Zhou等;《IEEE ICASSP 2020》;20200514;第7615-7616页,图1、3 *
"FastSpeech 2: Fast and High-Quality End-to-End Text-to-Speech";Yi Ren等;《arXiv:2006.04558v1 [eess.AS》;20200608;第3-4页,图1 *
"Fastspeech:Fast, robust and controllable text to speech";Yi Ren等;《arXiv:1905.09263v1 [cs.CL]》;20190522;全文 *
"Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech";Geng Yang等;《arXiv:2005.05106v1 [cs.SD]》;20200511;摘要 *
Xuehao Zhou等."END-TO-END CODE-SWITCHING TTS WITH CROSS-LINGUAL LANGUAGE MODEL".《IEEE ICASSP 2020》.2020, *

Also Published As

Publication number Publication date
CN112435650A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN112435650B (zh) 一种多说话人、多语言的语音合成方法及系统
CN108899009B (zh) 一种基于音素的中文语音合成系统
JP2022527970A (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
CN112151005B (zh) 一种中英文混合的语音合成方法及装置
JP7228998B2 (ja) 音声合成装置及びプログラム
WO2010025460A1 (en) System and method for speech-to-speech translation
KR20090061920A (ko) 음성 합성 방법 및 장치
CN115547293A (zh) 一种基于分层韵律预测的多语言语音合成方法及系统
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Raghavendra et al. A multilingual screen reader in Indian languages
CN113763924B (zh) 声学深度学习模型训练方法、语音生成方法及设备
Sridhar et al. Exploiting acoustic and syntactic features for prosody labeling in a maximum entropy framework
Chen et al. A statistical model based fundamental frequency synthesizer for Mandarin speech
JP7406418B2 (ja) 声質変換システムおよび声質変換方法
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
CN113362805B (zh) 一种音色、口音可控的中英文语音合成方法及装置
JP2001117921A (ja) 翻訳装置および翻訳方法、並びに記録媒体
Nair et al. Indian text to speech systems: A short survey
Chao-angthong et al. Northern Thai dialect text to speech
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
Narendra et al. Development of Bengali screen reader using Festival speech synthesizer
Zhang et al. Chinese speech synthesis system based on end to end
JP7012935B1 (ja) プログラム、情報処理装置、方法
Sudhakar et al. Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil
Rangarajan et al. Acoustic-syntactic maximum entropy model for automatic prosody labeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant