CN117423329B

CN117423329B - 模型训练及语音生成方法、装置、设备及存储介质

Info

Publication number: CN117423329B
Application number: CN202311746255.8A
Authority: CN
Inventors: 游世学; 郭锐; 徐峰; 乔亚飞
Original assignee: Beijing Zhongke Huilian Technology Co ltd
Current assignee: Beijing Zhongke Huilian Technology Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-02-23
Anticipated expiration: 2043-12-19
Also published as: CN117423329A

Abstract

本公开实施例公开了一种模型训练及语音生成方法、装置、设备及存储介质。该方法包括：获取初始生成模型，初始生成模型为经过预训练的条件扩散模型；获取用户数据，用户数据包括用于反映目标人物特性的文本语音对数据；将初始生成模型作为待训练模型，并基于用户数据，调整待训练模型的激活函数，得到目标模型，目标模型用于语音生成。

Description

模型训练及语音生成方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种语音生成方法、装置、设备及存储介质。

背景技术

随着人工智能技术的不断发展，虚拟数字人应运而生。虚拟数字人，可针对不同场景，使所展示的虚拟影像配合着音频输出内容，呈现出与音频输出内容相呼应的且较为真实的人物姿态。

目前，为了加强虚拟数字人的应用推广，逐步将个人的独特风格融入到虚拟数字人技术中，即在保留原始语音信息内容的条件下，将虚拟数字人对应的音频输出内容赋予个人特性，从而针对不同用户需求构建符合相应人物特点的虚拟数字人。

但在实现过程中，往往需要庞大的数据样本才能完成生成模型的训练，且训练结果也未能尽如人意。因此，亟需一种语音生成方案，以解决上述技术问题。

发明内容

有鉴于此，本公开实施例提供了一种语音生成方法、装置、设备及存储介质，能够解决通过大量数据样本才能耗时耗力完成生成模型训练的技术问题。

第一方面，本公开实施例提供了一种模型训练方法，采用如下技术方案：

获取初始生成模型，所述初始生成模型为经过预训练的条件扩散模型；获取用户数据，所述用户数据包括用于反映目标人物特性的文本语音对数据；将所述初始生成模型作为待训练模型，并基于所述用户数据，调整所述待训练模型的激活函数，得到目标模型，所述目标模型用于语音生成。

第二方面，本公开实施例提供了一种语音生成方法，采用如下技术方案：

获取待转换文本；通过第一方面中的所述目标模型，得到与所述待转换文本对应的频谱图；将所述频谱图转换为语音信号。

第三方面，本公开实施例提供了一种模型训练装置，采用如下技术方案：

第一获取单元，用于获取初始生成模型，所述初始生成模型为经过预训练的条件扩散模型；所述第一获取单元，还用于获取用户数据，所述用户数据包括用于反映目标人物特性的文本语音对数据；调整单元，用于将所述初始生成模型作为待训练模型，并基于所述用户数据，调整所述待训练模型的激活函数，得到目标模型，所述目标模型用于语音生成。

第四方面，本公开实施例提供了一种语音生成装置，采用如下技术方案：

第二获取单元，用于获取待转换文本；输出单元，用于通过第一方面中的所述目标模型，得到与所述待转换文本对应的频谱图；转换单元，用于将所述频谱图转换为语音信号。

第五方面，本公开实施例还提供了一种电子设备，采用如下技术方案：

所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上第一方面或第二方面的方法。

第六方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行以上第一方面或第二方面的方法。

本公开实施例提供的技术方案，可以有效省略海量数据的获取及利用海量数据进行模型训练的过程。在得到用于生成符合用户预期的语音的目标模型的情况下，节省数据收集及模型训练所耗费的人力物力。相比较于传统的seq2seq模型而言，本公开提供的技术方案，能有效提升训练精度，更有针对性的完成模型个性化部分的训练。此外，相比较于基于更深度的transformer等结构而言，仅利用有限的数据样本，便可以得到符合用户预期的语音。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种模型训练方法流程图；

图2为本公开实施例提供的另一种模型训练方法流程图；

图3为本公开实施例提供的一种目标模型结构示意图；

图4为本公开实施例提供的一种模型训练装置结构示意图；

图5为本公开实施例提供的一种语音生成装置结构示意图；

图6为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

应当明确，以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目各方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

考虑到用户数据在获取时的局限性，为解决现有技术中存在的技术问题，本公开提出了一种模型训练方法，以在不具备庞大数据样本的情况下，得到符合用户需求的目标模型，从而使用户借助该目标模型生成符合用户预期的语音。

如图1所示，上述模型训练方法，包括步骤S101至S103。

步骤S101、获取初始生成模型。

初始生成模型指的是经过预训练的条件扩散模型。需要说明的是，扩散模型属于无监督模型，其意义在于通过不断添加噪声来得到有意义的图像。而条件扩散模型，则是在扩散模型的基础上，为其增加一定信号，从而达到对模型进行控制的作用，以得到满足用户预期的输出内容。

在本公开中，所获取的条件扩散模型，可以是开源模型，或是经过了训练完善的其他产出模型。在实际应用中，由于后续会借助不炸偶S102中获取的用户数据对初始生成模型进一步训练，因此对于步骤S101中初始生成模型的选择未进行过多限定。示例性的，在初始生成模型的选择过程中，可结合承载模型的设备运算能力等参数进行出生成模型的选择。上述提及的初始生成模型，也可称为diffusion模型，具体可以是stable diffusion、DALL-E等，在此不予限定。

步骤S102、获取用户数据。

用户数据指的是能够反映目标人物特性的文本语音对数据。目标人物可以是调用模型训练过程的用户自身，也可以是用户感兴趣的某个真实存在的人物，或是构建出的虚拟人物等。通常人物的特性，可通过语音风格来体现，具体的可以包括语气、语调等，或是音高、音强、音长、音色等，情感、口音等，又或是其他能够用于区分不同人物特色的参数，在此不予限定。

在本公开中，用户数据体现为文本语音对数据，即文本和语音匹配的数据对。通常文本可以字符的形式体现，而语音可以一段音频数据的形式体现，在模型应用文本语音对数据时，可先将文本转换为文本表征，即文本向量，经过多重处理后，得到频谱图，再将频谱图转换成语音信号，从而得到最终的语音信息，即音频数据。

步骤S103、将初始生成模型作为待训练模型，并基于用户数据，调整待训练模型的激活函数，得到目标模型。

在一种可行的实现方式中，可以将初始生成模型直接作为待训练模型，并利用步骤S102获取到的用户数据作为数据样本，以对初始生成模型进行针对性的训练，即只对该模型的激活函数部分进行训练，从而得到目标模型，并最终借助目标模型实现语音生成。

采用上述实现方式，可以有效省略海量数据的获取及利用海量数据进行模型训练的过程。在得到用于生成符合用户预期的语音的目标模型的情况下，节省数据收集及模型训练所耗费的人力物力。相比较于传统的seq2seq模型而言，本公开提供的技术方案，能有效提升训练精度，更有针对性的完成模型个性化部分的训练。此外，相比较于基于更深度的transformer等结构而言，仅利用有限的数据样本，便可以得到符合用户预期的语音。

考虑到在模型训练过程中，激活函数起着至关重要的影响作用，为进一步节省模型训练所耗费的资源，在本公开中，更是针对待训练的激活函数提出了有针对性的训练方式。

本公开所提供的待训练模型中包括上采样模块，上采样模块包括L个上采样卷积层。步骤S103中，基于用户数据，调整待训练模型的激活函数，得到目标模型，可以实现为：

针对L个上采样卷积层中的每一上采样卷积层，利用有理函数逼近上采样卷积层的激活函数/>，并替代激活函数/>，而后基于用户数据，调整激活函数对应的系数生成模块的/>和/>，以实现对待训练模型的激活函数的调整，得到目标模型。

其中，激活函数具有多样性，可以包括但不限于Relu函数、Silu函数，在此以Silu函数为例，/>。上述提及的/>、/>均为正整数。在本公开中，/>的取值通常为4或5，而/>的取值通常为3或4，但考虑到激活函数的复杂程度，往往与会影响/>、/>的取值，因此，在实际部署过程中，也可以结合激活函数的复杂程度来配置参数。L个上采样卷积层中的第层的有理函数系数/>、/>均记为/>，上采样模块的参数数量记为s，相应的第层样本的当前特征记为/>，激活函数对应的系数生成模块表示为/>。上述的/>初始化值为0，将/>维度变换为s，/>初始化值为/>。

通过将获取到的用户数据进行针对激活函数系数生成模块的拟合学习，使得最终得到的目标模型能够快速适配用户预期的个人风格。由于上述训练过程仅微调激活函数系数生成模块，也就是和参数，这样在训练过程中需要优化的参数量较少，也更适合针对少量样本数据所实现的个性化适配。

考虑到步骤S102提及的用户数据要充分体现用户需求，那么在实际应用中，可以采取多种方式来获取到反映目标人物特色的文本语音对数据，即步骤S102获取用户数据可以实现为步骤S1021和步骤S1022中的至少一项。

步骤S1021、获取目标人物的历史用户数据。

历史用户数据为文本语音对数据，可以是曾经采集过的用于反映目标人物特性的文本语音对数据，或是在目标人物允许的前提下，从其他软件对应的存储内容中调取的该目标人物的文本语音对数据。比如，目标人物在其他软件中用于验证身份或是鉴别权限时录制并生成的文本语音对数据。在用户授权、许可的情况下，可以直接调取并应用，从而省略目标人物额外录制的过程，提升用户体验。

步骤S1022、采集目标人物阅读至少部分文本片段的音频数据，并基于音频数据和至少部分文本片段，生成文本语音对数据。

以目标人物使用诸如手机等终端为例，可通过终端的显示屏或投影等方式，展示需要用户阅读的文章，用户可根据指引完成指定区域或是自选区域的阅读，阅读范围可以为该文章的部分片段，或是完整的文档，从而使终端采集到目标人物的音频数据。并使终端基于文章内容与音频数据的匹配关系，自主生成文本语音对数据，用于模型的个性化训练。

在实际操作过程中，为了确保采集到的内容能够助力模型训练过程，可采集10至100段的阅读内容及相应的音频数据，且为了达到更好的训练效果，终端提供的阅读内容可与用户期望生成的语音内容属于同一领域或是相关领域，从而更有针对性的完成模型训练。

在一种可能的实现方式中，上述步骤S1021和步骤S1022可择一选择，或是同时采用，以达到多方位数据采集的效果。当然，具体可基于用户需求或是设备存储能力、计算能力等多方面综合考虑，不予限定。

考虑到初始生成模型的与训练过程可能尚不完备，或是初始生成模型所适配的应用场景与用户需求存在较大差异，本公开在获取初始生成模型之后，还可以对初始模型进行进一步的训练，并将训练得到的模型作为上述步骤S103提及的待训练模型，完成有针对性的个性化训练。如图2所示，本公开提供的模型训练方法，还可以实现为步骤S201至步骤S205。其中，步骤S201可参考步骤S101，步骤S204可参考步骤S202，步骤S205可参考步骤S103，相同或相似内容，在此不予赘述。

步骤S201、获取初始生成模型。

步骤S202、获取训练数据。

训练数据为文本语音对数据。此处获取的训练数据，用于训练步骤S201获取的初始生成模型（可称为扩散模型M），训练数据可理解为用大量文本语音对构成的数据集_large。但数据集_large的数据量要远小于重新训练一个针对文本语音生成的与训练扩散模型所需的数据量。

步骤S203、基于训练数据，调整初始生成模型的全参数，并将经调整得到的中间生成模型作为待训练模型。

训练数据往往是已有的文本语音对数据；和/或是基于已有的文本，通过语音合成模型生成无风格语音数据，并根据文本和无风格语音数据，得到的文本语音对数据。这是因为，对于作为初始生成模型的扩散模型M的训练，往往不需要赋予风格，可以利用已有的文本语音对数据，或者利用现有的语音合成模型，将诸多文本转化为无风格语音数据，从而构建出训练数据。

在实际应用中，对于n个文本语音对中的每一个文本语音对（T_n，V_n），需要将语音数据V_n转化为频谱图，比如梅尔频谱图P_n。借助于现有的diffusion模型的训练技术，可采用10w至100w样本量，完成对扩散模型M的全参数微调训练，得到待训练模型，即扩散模型M₁。

步骤S204、获取用户数据。

用户数据同样可理解为能够反映目标人物特性的文本语音对数据，所构成的数据集D_personal。

步骤S205、基于用户数据，调整待训练模型的激活函数，得到目标模型。

由于增加了上述步骤S203的训练过程，那么原有步骤S103的训练过程，即成为了这里步骤S205提及的更进一步的微调训练，此时将扩散模型M₁经激活函数的微调，得到个性化语音风格生成模型，也就是作为目标模型的扩散模型M₂。

如图3所示，为一种示例性的目标模型结构示意图，体现了基于文本得到最终语音信号的实现过程。

将待转换文本作为目标模型的文本输入，即作为经过训练得到的符合用户预期的扩散模型M2的文本输入。由目标模型的诸多上采样卷积层对待转换文本进行转换，以得到与待转换文本对应的频谱图。示例性的，可通过CLIP（Contrastive Language-Image Pre-Training，文本图像与训练）模型中对文本进行表征的部分，实现上述操作。在本公开中，CLIP模型指的是BERT模型经CLIP预训练得到的。在目标模型中，实现文本转换的模型本身取决于最初的初始模型雏形。之后目标模型通过多层的上采样卷积层对该文本表征进行处理，得到目标模型的输出内容，即频谱图，比如可以是梅尔频谱图。而后可借助现有技术手段，将频谱图转换为语音信号。

得到的语音信号，可作为虚拟数字人的音频，配合着虚拟数字人的姿态进行输出。当然，也可用于影视作品配音、具有朗读功能的文本阅读工具等，在此对于得到的语音信号后续应用不予限定。

如图4所示，为本公开提供的一种模型训练装置40的结构示意图。

第一获取单元401，用于获取初始生成模型，初始生成模型为经过预训练的条件扩散模型；还用于获取用户数据，用户数据包括用于反映目标人物特性的文本语音对数据。

调整单元402，用于将初始生成模型作为待训练模型，并基于用户数据，调整待训练模型的激活函数，得到目标模型，目标模型用于语音生成。

在一种可能的实现方式中，待训练模型包括上采样模块，上采样模块包括L个上采样卷积层。调整单元402，还用于：

针对每一上采样卷积层，利用有理函数逼近上采样卷积层的激活函数/>，并替代激活函数/>，其中，/>、/>均为正整数，第/>层的有理函数系数/>、均记为/>，上采样模块的参数数量记为s，第/>层样本的当前特征记为/>，激活函数对应的系数生成模块表示为/>，其中，/>初始化值为0，将/>维度变换为s，/>初始化值为/>；

基于用户数据，调整激活函数对应的系数生成模块的和/>，以实现对待训练模型的激活函数的调整，得到目标模型。

在一种可能的实现方式中，第一获取单元401，还用于实现如下至少一项：

获取目标人物的历史用户数据，历史用户数据为文本语音对数据；

采集目标人物阅读至少部分文本片段的音频数据，并基于音频数据和至少部分文本片段，生成文本语音对数据。

在一种可能的实现方式中，在获取初始生成模型之后，第一获取单元401，还用于获取训练数据，训练数据为文本语音对数据。

调整单元402，还用于基于训练数据，调整初始生成模型的全参数，并将经调整得到的中间生成模型作为待训练模型。

在一种可能的实现方式中，训练数据包括如下至少一项：

已有的文本语音对数据；

基于已有的文本，通过语音合成模型生成无风格语音数据，并根据文本和无风格语音数据，得到的文本语音对数据。

如图5所示，为本公开提供的一种语音生成装置50的结构示意图。

第二获取单元501，用于获取待转换文本。

输出单元502，用于通过模型训练装置40得到的所述目标模型，得到与所述待转换文本对应的频谱图。

转换单元503，用于将所述频谱图转换为语音信号。

本公开实施例提供的技术方案，利用训练得到的目标模型，完成待转换文本到语音信号之间的转换。上述目标模型在训练过程中，可以有效省略海量数据的获取及利用海量数据进行模型训练的过程。在得到用于生成符合用户预期的语音的目标模型的情况下，节省数据收集及模型训练所耗费的人力物力。并且，由于该模型通过了基于用户数据的个性化训练，因此，最终得到的语音信号既能在较短优化时间内满足用户的个性化需求，且同样保证了输出结果的精度。

根据本公开实施例的电子设备包括存储器和处理器。该存储器用于存储非暂时性计算机可读指令。具体地，存储器可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。该非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。

该处理器可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中，该处理器用于运行该存储器中存储的该计算机可读指令，使得该电子设备执行前述的本公开各实施例提供的模型训练方法或语音生成方法全部或部分步骤。

本领域技术人员应能理解，为了解决如何获得良好用户体验效果的技术问题，本实施例中也可以包括诸如通信总线、接口等公知的结构，这些公知的结构也应包含在本公开的保护范围之内。

如图6所示，为本公开实施例提供的一种电子设备的结构示意图。其示出了适于用来实现本公开实施例中的电子设备的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备可以包括处理器（例如中央处理器、图形处理器等），其可以根据存储在只读存储器（ROM）中的程序或者从存储装置加载到随机访问存储器（RAM）中的程序而执行各种适当的动作和处理。在RAM中，还存储有电子设备操作所需的各种程序和数据。处理器、ROM以及RAM通过总线彼此相连。输入/输出（I/O）接口也连接至总线。

通常，以下装置可以连接至I/O接口：包括例如传感器或者视觉信息采集设备等的输入装置；包括例如显示屏等的输出装置；包括例如磁带、硬盘等的存储装置；以及通信装置。通信装置可以允许电子设备与其他设备（比如边缘计算设备）进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储装置被安装，或者从ROM被安装。在该计算机程序被处理器执行时，执行本公开实施例提供的模型训练方法或语音生成方法的全部或部分步骤。

有关本实施例的详细说明可以参考前述各实施例中的相应说明，在此不再赘述。

根据本公开实施例的计算机可读存储介质，其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时，执行前述的本公开各实施例提供的模型训练方法或语音生成方法的全部或部分步骤。

上述计算机可读存储介质包括但不限于：光存储介质（例如：CD－ROM和DVD）、磁光存储介质（例如：MO）、磁存储介质（例如：磁带或移动硬盘）、具有内置的可重写非易失性存储器的媒体（例如：存储卡）和具有内置ROM的媒体（例如：ROM盒）。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC（即A和B和C）。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取初始生成模型，所述初始生成模型为经过预训练的条件扩散模型；

获取用户数据，所述用户数据包括用于反映目标人物特性的文本语音对数据；

将所述初始生成模型作为待训练模型，并基于所述用户数据，调整所述待训练模型的激活函数，得到目标模型，所述目标模型用于语音生成；

所述待训练模型包括上采样模块，所述上采样模块包括L个上采样卷积层；

所述基于所述用户数据，调整所述待训练模型的激活函数，得到目标模型，包括：

针对每一上采样卷积层，利用有理函数逼近所述上采样卷积层的激活函数/>，并替代所述激活函数/>，其中，/>、/>均为正整数，第/>层的有理函数系数/>、均记为/>，上采样模块的参数数量记为s，第/>层样本的当前特征记为/>，所述激活函数对应的系数生成模块表示为/>，其中，/>初始化值为0，将/>维度变换为s，/>初始化值为/>；基于所述用户数据，调整所述激活函数对应的系数生成模块的和，以实现对所述待训练模型的激活函数的调整，得到所述目标模型。

2.根据权利要求1所述的方法，其特征在于，所述获取用户数据包括如下至少一项：

获取所述目标人物的历史用户数据，所述历史用户数据为文本语音对数据；

采集所述目标人物阅读至少部分文本片段的音频数据，并基于所述音频数据和所述至少部分文本片段，生成文本语音对数据。

3.根据权利要求1所述的方法，其特征在于，在所述获取初始生成模型之后，所述方法还包括：

获取训练数据，所述训练数据为文本语音对数据；

基于所述训练数据，调整所述初始生成模型的全参数，并将经调整得到的中间生成模型作为所述待训练模型。

4.根据权利要求3所述的方法，其特征在于，所述训练数据包括如下至少一项：

已有的文本语音对数据；

基于已有的文本，通过语音合成模型生成无风格语音数据，并根据所述文本和所述无风格语音数据，得到的文本语音对数据。

5.一种语音生成方法，其特征在于，所述方法包括：

获取待转换文本；

通过所述权利要求1至4中任意一项的所述目标模型，得到与所述待转换文本对应的频谱图；

将所述频谱图转换为语音信号。

6.一种模型训练装置，其特征在于，所述装置包括：

第一获取单元，用于获取初始生成模型，所述初始生成模型为经过预训练的条件扩散模型；

所述第一获取单元，还用于获取用户数据，所述用户数据包括用于反映目标人物特性的文本语音对数据；

调整单元，用于将所述初始生成模型作为待训练模型，并基于所述用户数据，调整所述待训练模型的激活函数，得到目标模型，所述目标模型用于语音生成；

7.一种语音生成装置，其特征在于，所述装置包括：

第二获取单元，用于获取待转换文本；

输出单元，用于通过所述权利要求1至4中任意一项的所述目标模型，得到与所述待转换文本对应的频谱图；

转换单元，用于将所述频谱图转换为语音信号。

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至4中任一项所述的模型训练方法，或权利要求5所述的语音生成方法。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行权利要求1至4中任一项所述的模型训练方法，或权利要求5所述的语音生成方法。