CN111192566A - 英文语音合成方法及装置 - Google Patents

英文语音合成方法及装置 Download PDF

Info

Publication number
CN111192566A
CN111192566A CN202010141017.4A CN202010141017A CN111192566A CN 111192566 A CN111192566 A CN 111192566A CN 202010141017 A CN202010141017 A CN 202010141017A CN 111192566 A CN111192566 A CN 111192566A
Authority
CN
China
Prior art keywords
english
synthesis model
prediction result
target
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010141017.4A
Other languages
English (en)
Other versions
CN111192566B (zh
Inventor
孙见青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010141017.4A priority Critical patent/CN111192566B/zh
Publication of CN111192566A publication Critical patent/CN111192566A/zh
Application granted granted Critical
Publication of CN111192566B publication Critical patent/CN111192566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Abstract

本发明是关于英文语音合成方法及装置。该方法包括:获取发音标准的英文音库;根据所述发音标准的英文音库,构建预设英文合成模型;获取非专业人员录制的目标英文音库;根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。通过本发明的技术方案,可获得合成自然度较高的目标英文合成模型,从而便于之后能够获得自然度较高(即语速正常、语调正常、音色一致)的英文语音,甚至在中英文混合的场景下也能准确进行英文语音合成,确保中文和英文合成音色的一致性。

Description

英文语音合成方法及装置
技术领域
本发明涉及语音合成技术领域,尤其涉及英文语音合成方法及装置。
背景技术
目前,在构建英文合成模型时,一般都需要请专业的英文发音人员进行音库录制,从而利用发音标准的音库构建英文合成模型,但请专业的英文发音人员录制音库成本很高,而且,由此构建的英文合成模型比较呆板,无法准确地进行语音合成,例如,在一些需要中英文混合合成的场景下,利用基于发音标准的音库构建的英文合成模型很难保证中文和英文合成音色的一致。
发明内容
本发明实施例提供了英文语音合成方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种英文语音合成方法,包括:
获取发音标准的英文音库;
根据所述发音标准的英文音库,构建预设英文合成模型;
获取非专业人员录制的目标英文音库;
根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
在一个实施例中,所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型,包括:
根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致,即预设英文合成模型中的时长合成模型与目标英文合成模型中的时长合成模型一致,预设英文合成模型中的基频合成模型与目标英文合成模型中的基频合成模型也一致。
在一个实施例中,所述利用所述目标英文合成模型,将待合成的英文文本合成为英文语音,包括:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
在一个实施例中,所述获取将待合成的英文文本的第一时长预测结果,包括:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
在一个实施例中,根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音,包括:
将所述第二基频预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
根据本发明实施例的第二方面,提供一种英文语音合成装置,包括:
第一获取模块,用于获取发音标准的英文音库;
构建模块,用于根据所述发音标准的英文音库,构建预设英文合成模型;
第二获取模块,用于获取非专业人员录制的目标英文音库;
调整模块,用于根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
合成模块,用于利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
在一个实施例中,所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述调整模块包括:
训练子模块,用于根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。
在一个实施例中,
所述合成模块具体用于:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
在一个实施例中,所述合成模块具体还用于:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
在一个实施例中,所述合成子模块具体用于:
将所述第二预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
本发明的实施例提供的技术方案可以包括以下有益效果:
在利用发音标准的英文音库构建好预设英文合成模型之后,可利用非专业人员录制的目标英文音库对预设英文合成模型进行自动调整,以获得合成自然度较高的目标英文合成模型,从而便于之后能够获得自然度较高的英文语音,甚至在中英文混合的场景下也能准确进行英文语音合成,确保中文和英文合成音色的一致性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种英文语音合成方法的流程图。
图2是根据一示例性实施例示出的一种英文语音合成装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种英文语音合成方法,该方法可用于英文语音合成程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S105:
在步骤S101中,获取发音标准的英文音库;
在步骤S102中,根据所述发音标准的英文音库,构建预设英文合成模型;
在步骤S103中,获取非专业人员录制的目标英文音库;该目标英文音库为发音不标准的英文音库。
在步骤S104中,根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
在构建和调整预设英文合成模型时,利用的是英文音库中的文本和语音。
在步骤S105中,利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
在利用发音标准的英文音库构建好预设英文合成模型之后,可利用非专业人员录制的目标英文音库对预设英文合成模型进行自动调整,以获得合成自然度较高的目标英文合成模型,从而便于之后能够获得自然度较高(即语速正常、语调正常、音色一致)的英文语音,,甚至在中英文混合的场景下也能准确进行英文语音合成,确保中文和英文合成音色的一致性。
在一个实施例中,所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
谱参数合成模型用于预测文本的谱参数,如MCEP(mel cepstrum,mel倒谱)参数、LSP(linear spectrum pair,线谱对)参数,可用于表征音色、发音内容。
时长合成模型用于预测文本的音素的时长;基频合成模型用于预测文本的基频。
当然,预设英文合成模型在训练阶段使用的训练数据包括英文音库中的英文文本以及英文语音,而在应用训练后得到的目标英文合成模型时,只需向目标英文合成模型输入英文文本。
所述根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型,包括:
根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型与所述预设英文合成模型中的与韵律相关的时长合成模型、基频合成模型保持一致,而目标英文合成模型中的谱参数合成模型是重训练后的谱参数合成模型,显然与预设英文合成模型中的谱参数合成模型不同。
如果使用目标英文音库直接训练预设英文合成模型,或者使用目标英文音库对上面的时长合成模型model_dur1、基频合成模型model_f01和谱参数合成模型model_sp1均进行重训练,那么得到的模型合成语音自然度并不高,因而,这里保持韵律相关的时长合成模型model_dur1和基频合成模型model_f01不变,仅根据英文发音不标准的人员录制的目标英文音库,对谱参数合成模型进行重新训练,以得到合成自然度较高的目标英文合成模型。
在一个实施例中,所述利用所述目标英文合成模型,将待合成的英文文本合成为英文语音,包括:获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型(中的基频合成模型),得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型(中的谱参数合成模型),得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
由于如果直接使用时长合成模型model_dur1和基频合成模型model_f01的第一预测结果,则会出现语速和语调的问题,因而,在将待合成的英文文本分别输入至时长合成模型可获得第一时长预测结果,然后对第一时长预测结果进行调整,以得到准确的第二时长预测结果,另外,利用第二时长预测结果和所述目标英文合成模型,可得到所述待合成的英文文本的第一基频预测结果,进而得到更为准确的第二基频预测结果,同样地,可得到准确的谱参数,并利用第二基频预测结果和所述谱参数将待合成的英文文本合成为自然度较高的英文语音,也避免出现语速和语调的问题。
在一个实施例中,将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
在一个实施例中,
计算所述发音标准的英文音库中的英文数据的第一时长均值、第一基频均值以及第一基频标准差;
计算所述目标英文音库中的英文数据的第二时长均值、第二基频均值以及第二基频标准差;
对所述第一时长预测结果进行调整,得到第二时长预测结果,包括:
根据所述第一时长均值和所述第二时长均值,对所述第一时长预测结果进行调整,获得第二时长预测结果;
对所述第一基频预测结果进行调整,得到第二基频预测结果,包括:
根据所述第一基频均值、所述第一基频标准差、所述第二基频均值以及所述第二基频标准差,对所述第一基频预测结果进行调整,获得第二基频预测结果。
通过发音标准的英文音库的第一时长均值和目标英文音库的第二时长均值,可对第一时长预测结果进行调整,以获得第二时长预测结果。而具体的时长调整公式如下:
Figure BDA0002399086550000071
其中,第二时长预测结果为dur2,第一时长预测结果为dur1,第一时长均值为
Figure BDA0002399086550000072
第二时长均值为
Figure BDA0002399086550000073
而谱参数调整公式如下:
Figure BDA0002399086550000081
第二基频预测结果为f02,第一基频预测结果为f01,第一基频均值为
Figure BDA0002399086550000082
第二基频均值为
Figure BDA0002399086550000083
第一基频标准差为sf01,第二基频标准差为sf02
在一个实施例中,根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音,包括:
将所述第二基频预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
通过将第二基频预测结果和谱参数输入至声码器后,可利用该声码器构建待合成的英文文本的英文语音,从而提高英文语音的自然度并且可以保留中文合成音库对应的发音人的音色特征。
当然,输入至声码器的还包括重训练后的谱参数合成模型预测出的与音色、发音内容相关的谱参数。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述英文语音合成方法,本发明实施例还提供一种英文语音合成装置,如图2所示,该装置包括:
第一获取模块201,用于获取发音标准的英文音库;
构建模块202,用于根据所述发音标准的英文音库,构建预设英文合成模型;
第二获取模块203,用于获取非专业人员录制的目标英文音库;
调整模块204,用于根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
合成模块205,用于利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
在一个实施例中,所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述调整模块包括:
训练子模块,用于根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。
在一个实施例中,所述合成模块具体用于:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
在一个实施例中,所述合成模块具体还用于:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
在一个实施例中,所述合成子模块具体用于:
将所述第二预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种英文语音合成方法,其特征在于,包括:
获取发音标准的英文音库;
根据所述发音标准的英文音库,构建预设英文合成模型;
获取非专业人员录制的目标英文音库;
根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
2.根据权利要求1所述的方法,其特征在于,
所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型,包括:
根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。
3.根据权利要求2所述的方法,其特征在于,
所述利用所述目标英文合成模型,将待合成的英文文本合成为英文语音,包括:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
4.根据权利要求3所述的方法,其特征在于,
所述获取将待合成的英文文本的第一时长预测结果,包括:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
5.根据权利要求3所述的方法,其特征在于,
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音,包括:
将所述第二基频预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
6.一种英文语音合成装置,其特征在于,包括:
第一获取模块,用于获取发音标准的英文音库;
构建模块,用于根据所述发音标准的英文音库,构建预设英文合成模型;
第二获取模块,用于获取非专业人员录制的目标英文音库;
调整模块,用于根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
合成模块,用于利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
7.根据权利要求6所述的装置,其特征在于,
所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述调整模块包括:
训练子模块,用于根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。
8.根据权利要求7所述的装置,其特征在于,
所述合成模块具体用于:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
9.根据权利要求8所述的装置,其特征在于,
所述合成模块具体还用于:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
10.根据权利要求8所述的装置,其特征在于,
所述合成模块具体还用于:
将所述第二预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
CN202010141017.4A 2020-03-03 2020-03-03 英文语音合成方法及装置 Active CN111192566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010141017.4A CN111192566B (zh) 2020-03-03 2020-03-03 英文语音合成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010141017.4A CN111192566B (zh) 2020-03-03 2020-03-03 英文语音合成方法及装置

Publications (2)

Publication Number Publication Date
CN111192566A true CN111192566A (zh) 2020-05-22
CN111192566B CN111192566B (zh) 2022-06-24

Family

ID=70710860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010141017.4A Active CN111192566B (zh) 2020-03-03 2020-03-03 英文语音合成方法及装置

Country Status (1)

Country Link
CN (1) CN111192566B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581933A (zh) * 2020-11-18 2021-03-30 北京百度网讯科技有限公司 语音合成模型获取方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN1835074A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
US20100042410A1 (en) * 2008-08-12 2010-02-18 Stephens Jr James H Training And Applying Prosody Models
CN105261355A (zh) * 2015-09-02 2016-01-20 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
US20170263237A1 (en) * 2014-09-16 2017-09-14 The University Of Hull Speech synthesis from detected speech articulator movement
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN108766413A (zh) * 2018-05-25 2018-11-06 北京云知声信息技术有限公司 语音合成方法及系统
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置
US20190164535A1 (en) * 2017-11-27 2019-05-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for speech synthesis

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN1835074A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
US20100042410A1 (en) * 2008-08-12 2010-02-18 Stephens Jr James H Training And Applying Prosody Models
US20170263237A1 (en) * 2014-09-16 2017-09-14 The University Of Hull Speech synthesis from detected speech articulator movement
CN105261355A (zh) * 2015-09-02 2016-01-20 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
US20190164535A1 (en) * 2017-11-27 2019-05-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for speech synthesis
CN108766413A (zh) * 2018-05-25 2018-11-06 北京云知声信息技术有限公司 语音合成方法及系统
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANCY ANTO: "Text to speech synthesis system for English to Malayalam translation", 《2016 INTERNATIONAL CONFERENCE ON EMERGING TECHNOLOGICAL TRENDS (ICETT)》, 9 March 2017 (2017-03-09) *
宝阿力塔: "蒙古语语音合成系统的设计与实现", 《中国优秀硕士学位论文全文数据库》, no. 2, 15 February 2017 (2017-02-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581933A (zh) * 2020-11-18 2021-03-30 北京百度网讯科技有限公司 语音合成模型获取方法、装置、电子设备及存储介质
CN112581933B (zh) * 2020-11-18 2022-05-03 北京百度网讯科技有限公司 语音合成模型获取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111192566B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN106898340B (zh) 一种歌曲的合成方法及终端
Airaksinen et al. A comparison between straight, glottal, and sinusoidal vocoding in statistical parametric speech synthesis
Tabet et al. Speech synthesis techniques. A survey
US8140326B2 (en) Systems and methods for reducing speech intelligibility while preserving environmental sounds
US8594993B2 (en) Frame mapping approach for cross-lingual voice transformation
US20190130894A1 (en) Text-based insertion and replacement in audio narration
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
US20040073427A1 (en) Speech synthesis apparatus and method
Wouters et al. Control of spectral dynamics in concatenative speech synthesis
EP0970466A2 (en) Voice conversion system and methodology
CN108053814B (zh) 一种模拟用户歌声的语音合成系统及方法
JPWO2011004579A1 (ja) 声質変換装置、音高変換装置および声質変換方法
CN111429877B (zh) 歌曲处理方法及装置
CN111192566B (zh) 英文语音合成方法及装置
CN112992162B (zh) 一种音色克隆方法、系统、装置及计算机可读存储介质
Raitio et al. Phase perception of the glottal excitation and its relevance in statistical parametric speech synthesis
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2904279B2 (ja) 音声合成方法および装置
Huang et al. An automatic voice conversion evaluation strategy based on perceptual background noise distortion and speaker similarity
CN112037757B (zh) 一种歌声合成方法、设备及计算机可读存储介质
CN114724539A (zh) 一种生成个性化音色的歌唱合成方法、装置及存储介质
Raitio et al. Phase perception of the glottal excitation of vocoded speech
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
WO2022141126A1 (zh) 个性化语音转换训练方法、计算机设备及存储介质
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant