CN111192566A - 英文语音合成方法及装置 - Google Patents
英文语音合成方法及装置 Download PDFInfo
- Publication number
- CN111192566A CN111192566A CN202010141017.4A CN202010141017A CN111192566A CN 111192566 A CN111192566 A CN 111192566A CN 202010141017 A CN202010141017 A CN 202010141017A CN 111192566 A CN111192566 A CN 111192566A
- Authority
- CN
- China
- Prior art keywords
- english
- synthesis model
- prediction result
- target
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 10
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 202
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 201
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 38
- 230000033764 rhythmic process Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 description 10
- OSXPVFSMSBQPBU-UHFFFAOYSA-N 2-(2-carboxyethoxycarbonyl)benzoic acid Chemical compound OC(=O)CCOC(=O)C1=CC=CC=C1C(O)=O OSXPVFSMSBQPBU-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明是关于英文语音合成方法及装置。该方法包括:获取发音标准的英文音库;根据所述发音标准的英文音库,构建预设英文合成模型;获取非专业人员录制的目标英文音库;根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。通过本发明的技术方案,可获得合成自然度较高的目标英文合成模型,从而便于之后能够获得自然度较高(即语速正常、语调正常、音色一致)的英文语音,甚至在中英文混合的场景下也能准确进行英文语音合成,确保中文和英文合成音色的一致性。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及英文语音合成方法及装置。
背景技术
目前,在构建英文合成模型时,一般都需要请专业的英文发音人员进行音库录制,从而利用发音标准的音库构建英文合成模型,但请专业的英文发音人员录制音库成本很高,而且,由此构建的英文合成模型比较呆板,无法准确地进行语音合成,例如,在一些需要中英文混合合成的场景下,利用基于发音标准的音库构建的英文合成模型很难保证中文和英文合成音色的一致。
发明内容
本发明实施例提供了英文语音合成方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种英文语音合成方法,包括:
获取发音标准的英文音库;
根据所述发音标准的英文音库,构建预设英文合成模型;
获取非专业人员录制的目标英文音库;
根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
在一个实施例中,所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型,包括:
根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致,即预设英文合成模型中的时长合成模型与目标英文合成模型中的时长合成模型一致,预设英文合成模型中的基频合成模型与目标英文合成模型中的基频合成模型也一致。
在一个实施例中,所述利用所述目标英文合成模型,将待合成的英文文本合成为英文语音,包括:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
在一个实施例中,所述获取将待合成的英文文本的第一时长预测结果,包括:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
在一个实施例中,根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音,包括:
将所述第二基频预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
根据本发明实施例的第二方面,提供一种英文语音合成装置,包括:
第一获取模块,用于获取发音标准的英文音库;
构建模块,用于根据所述发音标准的英文音库,构建预设英文合成模型;
第二获取模块,用于获取非专业人员录制的目标英文音库;
调整模块,用于根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
合成模块,用于利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
在一个实施例中,所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述调整模块包括:
训练子模块,用于根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。
在一个实施例中,
所述合成模块具体用于:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
在一个实施例中,所述合成模块具体还用于:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
在一个实施例中,所述合成子模块具体用于:
将所述第二预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
本发明的实施例提供的技术方案可以包括以下有益效果:
在利用发音标准的英文音库构建好预设英文合成模型之后,可利用非专业人员录制的目标英文音库对预设英文合成模型进行自动调整,以获得合成自然度较高的目标英文合成模型,从而便于之后能够获得自然度较高的英文语音,甚至在中英文混合的场景下也能准确进行英文语音合成,确保中文和英文合成音色的一致性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种英文语音合成方法的流程图。
图2是根据一示例性实施例示出的一种英文语音合成装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种英文语音合成方法,该方法可用于英文语音合成程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S105:
在步骤S101中,获取发音标准的英文音库;
在步骤S102中,根据所述发音标准的英文音库,构建预设英文合成模型;
在步骤S103中,获取非专业人员录制的目标英文音库;该目标英文音库为发音不标准的英文音库。
在步骤S104中,根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
在构建和调整预设英文合成模型时,利用的是英文音库中的文本和语音。
在步骤S105中,利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
在利用发音标准的英文音库构建好预设英文合成模型之后,可利用非专业人员录制的目标英文音库对预设英文合成模型进行自动调整,以获得合成自然度较高的目标英文合成模型,从而便于之后能够获得自然度较高(即语速正常、语调正常、音色一致)的英文语音,,甚至在中英文混合的场景下也能准确进行英文语音合成,确保中文和英文合成音色的一致性。
在一个实施例中,所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
谱参数合成模型用于预测文本的谱参数,如MCEP(mel cepstrum,mel倒谱)参数、LSP(linear spectrum pair,线谱对)参数,可用于表征音色、发音内容。
时长合成模型用于预测文本的音素的时长;基频合成模型用于预测文本的基频。
当然,预设英文合成模型在训练阶段使用的训练数据包括英文音库中的英文文本以及英文语音,而在应用训练后得到的目标英文合成模型时,只需向目标英文合成模型输入英文文本。
所述根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型,包括:
根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型与所述预设英文合成模型中的与韵律相关的时长合成模型、基频合成模型保持一致,而目标英文合成模型中的谱参数合成模型是重训练后的谱参数合成模型,显然与预设英文合成模型中的谱参数合成模型不同。
如果使用目标英文音库直接训练预设英文合成模型,或者使用目标英文音库对上面的时长合成模型model_dur1、基频合成模型model_f01和谱参数合成模型model_sp1均进行重训练,那么得到的模型合成语音自然度并不高,因而,这里保持韵律相关的时长合成模型model_dur1和基频合成模型model_f01不变,仅根据英文发音不标准的人员录制的目标英文音库,对谱参数合成模型进行重新训练,以得到合成自然度较高的目标英文合成模型。
在一个实施例中,所述利用所述目标英文合成模型,将待合成的英文文本合成为英文语音,包括:获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型(中的基频合成模型),得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型(中的谱参数合成模型),得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
由于如果直接使用时长合成模型model_dur1和基频合成模型model_f01的第一预测结果,则会出现语速和语调的问题,因而,在将待合成的英文文本分别输入至时长合成模型可获得第一时长预测结果,然后对第一时长预测结果进行调整,以得到准确的第二时长预测结果,另外,利用第二时长预测结果和所述目标英文合成模型,可得到所述待合成的英文文本的第一基频预测结果,进而得到更为准确的第二基频预测结果,同样地,可得到准确的谱参数,并利用第二基频预测结果和所述谱参数将待合成的英文文本合成为自然度较高的英文语音,也避免出现语速和语调的问题。
在一个实施例中,将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
在一个实施例中,
计算所述发音标准的英文音库中的英文数据的第一时长均值、第一基频均值以及第一基频标准差;
计算所述目标英文音库中的英文数据的第二时长均值、第二基频均值以及第二基频标准差;
对所述第一时长预测结果进行调整,得到第二时长预测结果,包括:
根据所述第一时长均值和所述第二时长均值,对所述第一时长预测结果进行调整,获得第二时长预测结果;
对所述第一基频预测结果进行调整,得到第二基频预测结果,包括:
根据所述第一基频均值、所述第一基频标准差、所述第二基频均值以及所述第二基频标准差,对所述第一基频预测结果进行调整,获得第二基频预测结果。
通过发音标准的英文音库的第一时长均值和目标英文音库的第二时长均值,可对第一时长预测结果进行调整,以获得第二时长预测结果。而具体的时长调整公式如下:
而谱参数调整公式如下:
在一个实施例中,根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音,包括:
将所述第二基频预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
通过将第二基频预测结果和谱参数输入至声码器后,可利用该声码器构建待合成的英文文本的英文语音,从而提高英文语音的自然度并且可以保留中文合成音库对应的发音人的音色特征。
当然,输入至声码器的还包括重训练后的谱参数合成模型预测出的与音色、发音内容相关的谱参数。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述英文语音合成方法,本发明实施例还提供一种英文语音合成装置,如图2所示,该装置包括:
第一获取模块201,用于获取发音标准的英文音库;
构建模块202,用于根据所述发音标准的英文音库,构建预设英文合成模型;
第二获取模块203,用于获取非专业人员录制的目标英文音库;
调整模块204,用于根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
合成模块205,用于利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
在一个实施例中,所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述调整模块包括:
训练子模块,用于根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。
在一个实施例中,所述合成模块具体用于:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
在一个实施例中,所述合成模块具体还用于:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
在一个实施例中,所述合成子模块具体用于:
将所述第二预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种英文语音合成方法,其特征在于,包括:
获取发音标准的英文音库;
根据所述发音标准的英文音库,构建预设英文合成模型;
获取非专业人员录制的目标英文音库;
根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
2.根据权利要求1所述的方法,其特征在于,
所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型,包括:
根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。
3.根据权利要求2所述的方法,其特征在于,
所述利用所述目标英文合成模型,将待合成的英文文本合成为英文语音,包括:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
4.根据权利要求3所述的方法,其特征在于,
所述获取将待合成的英文文本的第一时长预测结果,包括:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
5.根据权利要求3所述的方法,其特征在于,
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音,包括:
将所述第二基频预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
6.一种英文语音合成装置,其特征在于,包括:
第一获取模块,用于获取发音标准的英文音库;
构建模块,用于根据所述发音标准的英文音库,构建预设英文合成模型;
第二获取模块,用于获取非专业人员录制的目标英文音库;
调整模块,用于根据所述目标英文音库,对所述预设英文合成模型进行调整,获得目标英文合成模型;
合成模块,用于利用所述目标英文合成模型,将待合成的英文文本合成为英文语音。
7.根据权利要求6所述的装置,其特征在于,
所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型;
所述调整模块包括:
训练子模块,用于根据所述目标英文音库,对所述谱参数合成模型进行重训练,以得到所述目标英文合成模型,其中,所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。
8.根据权利要求7所述的装置,其特征在于,
所述合成模块具体用于:
获取将待合成的英文文本的第一时长预测结果,对所述第一时长预测结果进行调整,得到第二时长预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的第一基频预测结果,对所述第一基频预测结果进行调整,得到第二基频预测结果;
根据所述第二时长预测结果和所述目标英文合成模型,得到所述待合成的英文文本的谱参数;
根据所述第二基频预测结果和所述谱参数,将所述待合成的英文文本合成为所述英文语音。
9.根据权利要求8所述的装置,其特征在于,
所述合成模块具体还用于:
将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中,以得到所述第一时长预测结果。
10.根据权利要求8所述的装置,其特征在于,
所述合成模块具体还用于:
将所述第二预测结果和所述谱参数输入至声码器,以通过所述声码器重构所述待合成的英文文本的所述英文语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010141017.4A CN111192566B (zh) | 2020-03-03 | 2020-03-03 | 英文语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010141017.4A CN111192566B (zh) | 2020-03-03 | 2020-03-03 | 英文语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111192566A true CN111192566A (zh) | 2020-05-22 |
CN111192566B CN111192566B (zh) | 2022-06-24 |
Family
ID=70710860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010141017.4A Active CN111192566B (zh) | 2020-03-03 | 2020-03-03 | 英文语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192566B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581933A (zh) * | 2020-11-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 语音合成模型获取方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379391A (zh) * | 2001-04-06 | 2002-11-13 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
CN1835074A (zh) * | 2006-04-07 | 2006-09-20 | 安徽中科大讯飞信息科技有限公司 | 一种结合高层描述信息和模型自适应的说话人转换方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
US20100042410A1 (en) * | 2008-08-12 | 2010-02-18 | Stephens Jr James H | Training And Applying Prosody Models |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
US20170263237A1 (en) * | 2014-09-16 | 2017-09-14 | The University Of Hull | Speech synthesis from detected speech articulator movement |
CN107705783A (zh) * | 2017-11-27 | 2018-02-16 | 北京搜狗科技发展有限公司 | 一种语音合成方法及装置 |
CN108766413A (zh) * | 2018-05-25 | 2018-11-06 | 北京云知声信息技术有限公司 | 语音合成方法及系统 |
CN108806665A (zh) * | 2018-09-12 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
US20190164535A1 (en) * | 2017-11-27 | 2019-05-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for speech synthesis |
-
2020
- 2020-03-03 CN CN202010141017.4A patent/CN111192566B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379391A (zh) * | 2001-04-06 | 2002-11-13 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
CN1835074A (zh) * | 2006-04-07 | 2006-09-20 | 安徽中科大讯飞信息科技有限公司 | 一种结合高层描述信息和模型自适应的说话人转换方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
US20100042410A1 (en) * | 2008-08-12 | 2010-02-18 | Stephens Jr James H | Training And Applying Prosody Models |
US20170263237A1 (en) * | 2014-09-16 | 2017-09-14 | The University Of Hull | Speech synthesis from detected speech articulator movement |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN107705783A (zh) * | 2017-11-27 | 2018-02-16 | 北京搜狗科技发展有限公司 | 一种语音合成方法及装置 |
US20190164535A1 (en) * | 2017-11-27 | 2019-05-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for speech synthesis |
CN108766413A (zh) * | 2018-05-25 | 2018-11-06 | 北京云知声信息技术有限公司 | 语音合成方法及系统 |
CN108806665A (zh) * | 2018-09-12 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
Non-Patent Citations (2)
Title |
---|
ANCY ANTO: "Text to speech synthesis system for English to Malayalam translation", 《2016 INTERNATIONAL CONFERENCE ON EMERGING TECHNOLOGICAL TRENDS (ICETT)》, 9 March 2017 (2017-03-09) * |
宝阿力塔: "蒙古语语音合成系统的设计与实现", 《中国优秀硕士学位论文全文数据库》, no. 2, 15 February 2017 (2017-02-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581933A (zh) * | 2020-11-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 语音合成模型获取方法、装置、电子设备及存储介质 |
CN112581933B (zh) * | 2020-11-18 | 2022-05-03 | 北京百度网讯科技有限公司 | 语音合成模型获取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111192566B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
CN111429877B (zh) | 歌曲处理方法及装置 | |
Airaksinen et al. | A comparison between straight, glottal, and sinusoidal vocoding in statistical parametric speech synthesis | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
US6615174B1 (en) | Voice conversion system and methodology | |
Tabet et al. | Speech synthesis techniques. A survey | |
US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
JP5143569B2 (ja) | 音響的特徴の同期化された修正のための方法及び装置 | |
US20190130894A1 (en) | Text-based insertion and replacement in audio narration | |
US20040073427A1 (en) | Speech synthesis apparatus and method | |
Wouters et al. | Control of spectral dynamics in concatenative speech synthesis | |
CN101111884B (zh) | 用于声学特征的同步修改的方法和装置 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112992162B (zh) | 一种音色克隆方法、系统、装置及计算机可读存储介质 | |
CN111192566B (zh) | 英文语音合成方法及装置 | |
Raitio et al. | Phase perception of the glottal excitation and its relevance in statistical parametric speech synthesis | |
CN112037757A (zh) | 一种歌声合成方法、设备及计算机可读存储介质 | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 | |
WO2022141126A1 (zh) | 个性化语音转换训练方法、计算机设备及存储介质 | |
CN117115318B (zh) | 口型动画合成方法及装置和电子设备 | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
JPH07261798A (ja) | 音声分析合成装置 | |
Klabbers et al. | Evaluation of speaker mimic technology for personalizing SGD voices. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |