CN111192566A

CN111192566A - 英文语音合成方法及装置

Info

Publication number: CN111192566A
Application number: CN202010141017.4A
Authority: CN
Inventors: 孙见青
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-05-22
Anticipated expiration: 2040-03-03
Also published as: CN111192566B

Abstract

本发明是关于英文语音合成方法及装置。该方法包括：获取发音标准的英文音库；根据所述发音标准的英文音库，构建预设英文合成模型；获取非专业人员录制的目标英文音库；根据所述目标英文音库，对所述预设英文合成模型进行调整，获得目标英文合成模型；利用所述目标英文合成模型，将待合成的英文文本合成为英文语音。通过本发明的技术方案，可获得合成自然度较高的目标英文合成模型，从而便于之后能够获得自然度较高(即语速正常、语调正常、音色一致)的英文语音，甚至在中英文混合的场景下也能准确进行英文语音合成，确保中文和英文合成音色的一致性。

Description

英文语音合成方法及装置

技术领域

本发明涉及语音合成技术领域，尤其涉及英文语音合成方法及装置。

背景技术

目前，在构建英文合成模型时，一般都需要请专业的英文发音人员进行音库录制，从而利用发音标准的音库构建英文合成模型，但请专业的英文发音人员录制音库成本很高，而且，由此构建的英文合成模型比较呆板，无法准确地进行语音合成，例如，在一些需要中英文混合合成的场景下，利用基于发音标准的音库构建的英文合成模型很难保证中文和英文合成音色的一致。

发明内容

本发明实施例提供了英文语音合成方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供一种英文语音合成方法，包括：

获取发音标准的英文音库；

根据所述发音标准的英文音库，构建预设英文合成模型；

获取非专业人员录制的目标英文音库；

根据所述目标英文音库，对所述预设英文合成模型进行调整，获得目标英文合成模型；

利用所述目标英文合成模型，将待合成的英文文本合成为英文语音。

在一个实施例中，所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型；

所述根据所述目标英文音库，对所述预设英文合成模型进行调整，获得目标英文合成模型，包括：

根据所述目标英文音库，对所述谱参数合成模型进行重训练，以得到所述目标英文合成模型，其中，所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致，即预设英文合成模型中的时长合成模型与目标英文合成模型中的时长合成模型一致，预设英文合成模型中的基频合成模型与目标英文合成模型中的基频合成模型也一致。

在一个实施例中，所述利用所述目标英文合成模型，将待合成的英文文本合成为英文语音，包括：

获取将待合成的英文文本的第一时长预测结果，对所述第一时长预测结果进行调整，得到第二时长预测结果；

根据所述第二时长预测结果和所述目标英文合成模型，得到所述待合成的英文文本的第一基频预测结果，对所述第一基频预测结果进行调整，得到第二基频预测结果；

根据所述第二时长预测结果和所述目标英文合成模型，得到所述待合成的英文文本的谱参数；

根据所述第二基频预测结果和所述谱参数，将所述待合成的英文文本合成为所述英文语音。

在一个实施例中，所述获取将待合成的英文文本的第一时长预测结果，包括：

将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中，以得到所述第一时长预测结果。

在一个实施例中，根据所述第二基频预测结果和所述谱参数，将所述待合成的英文文本合成为所述英文语音，包括：

将所述第二基频预测结果和所述谱参数输入至声码器，以通过所述声码器重构所述待合成的英文文本的所述英文语音。

根据本发明实施例的第二方面，提供一种英文语音合成装置，包括：

第一获取模块，用于获取发音标准的英文音库；

构建模块，用于根据所述发音标准的英文音库，构建预设英文合成模型；

第二获取模块，用于获取非专业人员录制的目标英文音库；

调整模块，用于根据所述目标英文音库，对所述预设英文合成模型进行调整，获得目标英文合成模型；

合成模块，用于利用所述目标英文合成模型，将待合成的英文文本合成为英文语音。

所述调整模块包括：

训练子模块，用于根据所述目标英文音库，对所述谱参数合成模型进行重训练，以得到所述目标英文合成模型，其中，所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。

在一个实施例中，

所述合成模块具体用于：

在一个实施例中，所述合成模块具体还用于：

在一个实施例中，所述合成子模块具体用于：

将所述第二预测结果和所述谱参数输入至声码器，以通过所述声码器重构所述待合成的英文文本的所述英文语音。

本发明的实施例提供的技术方案可以包括以下有益效果：

在利用发音标准的英文音库构建好预设英文合成模型之后，可利用非专业人员录制的目标英文音库对预设英文合成模型进行自动调整，以获得合成自然度较高的目标英文合成模型，从而便于之后能够获得自然度较高的英文语音，甚至在中英文混合的场景下也能准确进行英文语音合成，确保中文和英文合成音色的一致性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种英文语音合成方法的流程图。

图2是根据一示例性实施例示出的一种英文语音合成装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了解决上述技术问题，本发明实施例提供了一种英文语音合成方法，该方法可用于英文语音合成程序、系统或装置中，且该方法对应的执行主体可以是终端或服务器，如图1所示，该方法包括步骤S101至步骤S105：

在步骤S101中，获取发音标准的英文音库；

在步骤S102中，根据所述发音标准的英文音库，构建预设英文合成模型；

在步骤S103中，获取非专业人员录制的目标英文音库；该目标英文音库为发音不标准的英文音库。

在步骤S104中，根据所述目标英文音库，对所述预设英文合成模型进行调整，获得目标英文合成模型；

在构建和调整预设英文合成模型时，利用的是英文音库中的文本和语音。

在步骤S105中，利用所述目标英文合成模型，将待合成的英文文本合成为英文语音。

在利用发音标准的英文音库构建好预设英文合成模型之后，可利用非专业人员录制的目标英文音库对预设英文合成模型进行自动调整，以获得合成自然度较高的目标英文合成模型，从而便于之后能够获得自然度较高(即语速正常、语调正常、音色一致)的英文语音，，甚至在中英文混合的场景下也能准确进行英文语音合成，确保中文和英文合成音色的一致性。

谱参数合成模型用于预测文本的谱参数，如MCEP(mel cepstrum，mel倒谱)参数、LSP(linear spectrum pair，线谱对)参数，可用于表征音色、发音内容。

时长合成模型用于预测文本的音素的时长；基频合成模型用于预测文本的基频。

当然，预设英文合成模型在训练阶段使用的训练数据包括英文音库中的英文文本以及英文语音，而在应用训练后得到的目标英文合成模型时，只需向目标英文合成模型输入英文文本。

根据所述目标英文音库，对所述谱参数合成模型进行重训练，以得到所述目标英文合成模型，其中，所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型与所述预设英文合成模型中的与韵律相关的时长合成模型、基频合成模型保持一致，而目标英文合成模型中的谱参数合成模型是重训练后的谱参数合成模型，显然与预设英文合成模型中的谱参数合成模型不同。

如果使用目标英文音库直接训练预设英文合成模型，或者使用目标英文音库对上面的时长合成模型model_dur1、基频合成模型model_f01和谱参数合成模型model_sp1均进行重训练，那么得到的模型合成语音自然度并不高，因而，这里保持韵律相关的时长合成模型model_dur1和基频合成模型model_f01不变，仅根据英文发音不标准的人员录制的目标英文音库，对谱参数合成模型进行重新训练，以得到合成自然度较高的目标英文合成模型。

在一个实施例中，所述利用所述目标英文合成模型，将待合成的英文文本合成为英文语音，包括：获取将待合成的英文文本的第一时长预测结果，对所述第一时长预测结果进行调整，得到第二时长预测结果；

根据所述第二时长预测结果和所述目标英文合成模型(中的基频合成模型)，得到所述待合成的英文文本的第一基频预测结果，对所述第一基频预测结果进行调整，得到第二基频预测结果；

根据所述第二时长预测结果和所述目标英文合成模型(中的谱参数合成模型)，得到所述待合成的英文文本的谱参数；

由于如果直接使用时长合成模型model_dur1和基频合成模型model_f01的第一预测结果，则会出现语速和语调的问题，因而，在将待合成的英文文本分别输入至时长合成模型可获得第一时长预测结果，然后对第一时长预测结果进行调整，以得到准确的第二时长预测结果，另外，利用第二时长预测结果和所述目标英文合成模型，可得到所述待合成的英文文本的第一基频预测结果，进而得到更为准确的第二基频预测结果，同样地，可得到准确的谱参数，并利用第二基频预测结果和所述谱参数将待合成的英文文本合成为自然度较高的英文语音，也避免出现语速和语调的问题。

在一个实施例中，将所述待合成的英文文本输入至所述预设英文合成模型中的时长合成模型中，以得到所述第一时长预测结果。

在一个实施例中，

计算所述发音标准的英文音库中的英文数据的第一时长均值、第一基频均值以及第一基频标准差；

计算所述目标英文音库中的英文数据的第二时长均值、第二基频均值以及第二基频标准差；

对所述第一时长预测结果进行调整，得到第二时长预测结果，包括：

根据所述第一时长均值和所述第二时长均值，对所述第一时长预测结果进行调整，获得第二时长预测结果；

对所述第一基频预测结果进行调整，得到第二基频预测结果，包括：

根据所述第一基频均值、所述第一基频标准差、所述第二基频均值以及所述第二基频标准差，对所述第一基频预测结果进行调整，获得第二基频预测结果。

通过发音标准的英文音库的第一时长均值和目标英文音库的第二时长均值，可对第一时长预测结果进行调整，以获得第二时长预测结果。而具体的时长调整公式如下：

其中，第二时长预测结果为dur₂，第一时长预测结果为dur₁，第一时长均值为

第二时长均值为

而谱参数调整公式如下：

第二基频预测结果为f0₂，第一基频预测结果为f0₁，第一基频均值为

第二基频均值为

第一基频标准差为s_f01，第二基频标准差为s_f02。

通过将第二基频预测结果和谱参数输入至声码器后，可利用该声码器构建待合成的英文文本的英文语音，从而提高英文语音的自然度并且可以保留中文合成音库对应的发音人的音色特征。

当然，输入至声码器的还包括重训练后的谱参数合成模型预测出的与音色、发音内容相关的谱参数。

最后，需要明确的是：本领域技术人员可根据实际需求，将上述多个实施例进行自由组合。

对应本发明实施例提供的上述英文语音合成方法，本发明实施例还提供一种英文语音合成装置，如图2所示，该装置包括：

第一获取模块201，用于获取发音标准的英文音库；

构建模块202，用于根据所述发音标准的英文音库，构建预设英文合成模型；

第二获取模块203，用于获取非专业人员录制的目标英文音库；

调整模块204，用于根据所述目标英文音库，对所述预设英文合成模型进行调整，获得目标英文合成模型；

合成模块205，用于利用所述目标英文合成模型，将待合成的英文文本合成为英文语音。

所述调整模块包括：

在一个实施例中，所述合成模块具体用于：

在一个实施例中，所述合成模块具体还用于：

在一个实施例中，所述合成子模块具体用于：

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种英文语音合成方法，其特征在于，包括：

获取发音标准的英文音库；

根据所述发音标准的英文音库，构建预设英文合成模型；

获取非专业人员录制的目标英文音库；

2.根据权利要求1所述的方法，其特征在于，

所述预设英文合成模型包括与韵律相关的时长合成模型、基频合成模型、与音色和发音内容相关的谱参数合成模型；

根据所述目标英文音库，对所述谱参数合成模型进行重训练，以得到所述目标英文合成模型，其中，所述目标英文合成模型中的与韵律相关的时长合成模型和基频合成模型分别与所述预设英文合成模型中的与韵律相关的时长合成模型和基频合成模型保持一致。

3.根据权利要求2所述的方法，其特征在于，

所述利用所述目标英文合成模型，将待合成的英文文本合成为英文语音，包括：

4.根据权利要求3所述的方法，其特征在于，

所述获取将待合成的英文文本的第一时长预测结果，包括：

5.根据权利要求3所述的方法，其特征在于，

根据所述第二基频预测结果和所述谱参数，将所述待合成的英文文本合成为所述英文语音，包括：

6.一种英文语音合成装置，其特征在于，包括：

第一获取模块，用于获取发音标准的英文音库；

第二获取模块，用于获取非专业人员录制的目标英文音库；

7.根据权利要求6所述的装置，其特征在于，

所述调整模块包括：

8.根据权利要求7所述的装置，其特征在于，

所述合成模块具体用于：

9.根据权利要求8所述的装置，其特征在于，

所述合成模块具体还用于：

10.根据权利要求8所述的装置，其特征在于，

所述合成模块具体还用于：