CN117351931A

CN117351931A - 一种音频合成方法、音频装置、设备及存储介质

Info

Publication number: CN117351931A
Application number: CN202311344299.8A
Authority: CN
Inventors: 张维
Original assignee: Aijiwei Consulting Xiamen Co ltd
Current assignee: Aijiwei Consulting Xiamen Co ltd
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-01-05

Abstract

本申请公开一种音频合成方法、音频装置、设备及存储介质，本申请的音频合成方法通过配置软件并在软件上训练模型以获取音频处理模型和音频合成输出模型，以便于后续对音频和文本进行解析和语音的合成；通过对输入音频进行预处理以获取模型输入特征以使其能顺利进入音频处理模型；通过音频处理模型对模型输入特征进行转换操作以获取第一语音特征，并对第一语音特征进行编码调整操作以获取第二语音特征，编码调整操作可以调整合成语音过程中的语音特征，即可调整合成语音的音色、音调或音波中的一种或多种，从而提高了语音合成方法合成语音的适用性，即可以合成多种音色、音调和音波的语音，合成语音局限性小，适用性广。

Description

一种音频合成方法、音频装置、设备及存储介质

技术领域

本申请涉及技术领域，具体涉及一种音频合成方法、音频装置、设备及存储介质。

背景技术

现有技术中，通过语音合成软件来实现人工智能(Artificial Intelligence，AI)合成语音。语音合成软件合成语音的步骤包括：将需要输出语音的文本输入语音合成软件，通过语音合成软件内配置的文本解析方式进行文本的解析以获取解析内容，并通过语音合成软件内配置的语音音色以获取音色，最后对解析内容和音色进行合成以获取语音合成结果，并对语音合成结果进行输出。

现有技术中的语音合成软件合成语音的缺点如下：

(1)每个语音合成软件内配置的语音音色为固定的，因此在最终生成语音合成结果时，只能选择该语音合成软件所指定的音色来生成语音，局限性较大；

(2)由于配置的文本解析方式和语音音色均在语音合成之前配置完成，因此在语音合成过程中无法干涉其生成结果，因此只能合成指定的语音，适用性较小。因此，如何解决现有的语音合成软件的缺点是目前亟待解决的问题。

发明内容

鉴于此，本申请提供一种音频合成方法、音频装置、设备及存储介质，以解决现有的语音合成软件只能合成指定的语音、局限性较大、适用性较小的问题。

本申请提供一种音频合成方法，包括步骤：

配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型；

对输入音频进行预处理以获取模型输入特征，并将所述模型输入特征输入所述音频处理模型；

所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征，对所述第一语音特征进行编码调整操作以获取第二语音特征，并将所述第二语音特征输入所述音频合成输出模型；

所述音频合成输出模型对所述第二语音特征进行合成输出操作以获取音频波形。

可选地，所述音频处理模型包括Tacotron 2模型，所述音频合成输出模型包括WaveGlow模型。

可选地，对输入音频进行预处理以获取模型输入特征的步骤包括：

设置前处理函数，所述前处理函数对所述输入音频依次进行文本解析操作和语义解析操作以获取所述模型输入特征。

可选地，所述第一语音特征包括音色、音调和音波。

可选地，对所述第一语音特征进行编码调整操作以获取第二语音特征的步骤包括：

对所述第一语音特征进行编码操作以获取第一编码，对所述第一编码进行调整操作以获取第二编码，对所述第二编码进行解码操作以获取所述第二语音特征，其中，所述第二语音特征包括梅尔频谱特征。

本申请还提供一种音频装置，包括：

建立模型模块，用于配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型；

预处理模块，用于对输入音频进行预处理以获取模型输入特征，并将所述模型输入特征输入所述音频处理模型；

编码调整模块，用于控制所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征，并对所述第一语音特征进行编码调整操作以获取第二语音特征，并将所述第二语音特征输入所述音频合成输出模型；

音频合成模块，用于控制所述音频合成输出模型对所述第二语音特征进行合成输出操作以获取音频波形。

可选地，所述编码调整模块包括：

编码单元，用于对所述第一语音特征进行编码操作以获取第一编码；

调整单元，用于对所述第一编码进行调整操作以获取第二编码；

解码单元，用于对所述第二编码进行解码操作以获取所述第二语音特征，其中，所述第二语音特征包括梅尔频谱特征。

可选地，所述音频装置还包括存储模块，用于存储所述音频波形。

本申请还提供一种设备，包括存储器和处理器，所述存储器内存储有程序，当所述程序被所述处理器执行时实现所述音频合成方法。

本申请还提供一种存储介质，所述存储介质中存储有程序，当所述程序被处理器执行时实现所述音频合成方法。

本申请的音频合成方法、音频装置、设备及存储介质的有益效果在于：

通过配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型，以便于后续对文本进行解析和语音的合成；通过对输入音频进行预处理以获取模型输入特征以使其能顺利进入音频处理模型；通过所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征，并对所述第一语音特征进行编码调整操作以获取第二语音特征，并将所述第二语音特征输入所述音频合成输出模型，编码调整操作可以调整合成语音过程中的语音特征，即可调整合成语音的音色、音调或音波中的一种或多种，从而提高了语音合成方法合成语音的适用性，即可以合成多种音色、音调和音波的语音，合成语音局限性小，适用性广；解决了现有的语音合成软件只能合成指定的语音、局限性较大、适用性较小的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的音频合成方法的流程图；

图2是本申请实施例的对第一语音特征进行编码调整操作以获取第二语音特征的流程图；

图3是本申请实施例的音频装置的结构示意图；

图4是是本申请实施例另一种实施方式中音频装置的结构示意图；

图5是本申请实施例的编码调整模块的结构示意图。

具体实施方式

下面结合附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，下述各个实施例及其技术特征可以相互组合。

通过下面对实施例的描述，将更加有助于公众理解本发明，但不能也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制，任何对部件或技术特征的定义。

参照图1，本申请提供一种音频合成方法，包括步骤：

S0：配置软件并在软件上训练模型以获取音频处理模型和音频合成输出模型；

S1：对输入音频进行预处理以获取模型输入特征，并将模型输入特征输入音频处理模型；

S2：音频处理模型对模型输入特征进行转换操作以获取第一语音特征，对第一语音特征进行编码调整操作以获取第二语音特征，并将第二语音特征输入音频合成输出模型；

S3：音频合成输出模型对第二语音特征进行合成输出操作以获取音频波形。

一些实施例中，步骤S0具体包括：

配置软件：安装Python和PyTorch软件，并设置好Python开发环境，确保Tacotron2模型和WaveGlow模型能准确且顺利地运行；

在PyTorch Hub中下载Tacotron 2和WaveGlow的预训练模型，使用torch.hub.load函数加载这些模型，确保下载的acotron 2和WaveGlow的预训练模型与PyTorch的版本兼容；

在软件上训练模型：设置训练参数，并通过训练参数对Tacotron 2和WaveGlow的预训练模型进行模型训练操作，以获取本申请所需要的Tacotron 2模型和WaveGlow模型。

作为本申请一种可选的实施方式，音频处理模型包括Tacotron 2模型，音频合成输出模型包括WaveGlow模型。Tacotron 2模型和WaveGlow模型均为可通过修改参数和训练等操作来达到本申请对合成语音的音色、音波和音调等进行调节的目的。

作为本申请一种可选的实施方式，步骤S1中，对输入音频进行预处理以获取模型输入特征的步骤包括：

设置前处理函数，前处理函数对输入音频依次进行文本解析操作和语义解析操作以获取模型输入特征。

一些实施例中，前处理函数可以参照Tacotron 2的文档和示例中的前处理函数来设置，由于是现有技术人员的常规技术，在此不再赘述。

一些实施例中，前处理函数设置于音频处理模型的输入端的前端，将输入音频输入音频处理模型后，前处理函数对输入音频依次进行文本解析操作和语义解析操作以获取模型输入特征，该模型输入特征可通过音频处理模型的输入通道进入音频处理模型内部，并可以被音频处理模型进行后续的转换操作。

作为本申请一种可选的实施方式，步骤S1中，第一语音特征包括音色、音调和音波。

一些实施例中，第一语音特征还可以包括音素、音节、音位和语速中的一种和多种，根据需要可自行设置。

作为本申请一种可选的实施方式，参照图2，步骤S2中，对第一语音特征进行编码调整操作以获取第二语音特征的步骤包括：

S21：对第一语音特征进行编码操作以获取第一编码；

S22：对第一编码进行调整操作以获取第二编码；

S23：对第二编码进行解码操作以获取第二语音特征，其中，第二语音特征包括梅尔频谱特征。

一些实施例中，步骤S2中，通过编码程序对第一语音特征进行编码操作以获取第一编码，通过调整程序对第一编码进行调整操作以获取第二编码，这里的调整程序可以为一段代码或函数，通过修改调整程序中的参数便可调整第一编码以获取需要的第二编码，后续对第二编码进行解码便可获取用户需要修改或调整后的音色、音波或音调，从而达到自动控制和改变最终获取的合成语音的音色、音波和音调的目的；通过解码程序或解码器对第二编码进行解码操作以获取包含梅尔频谱(mel-spectrogram)特征的第二语音特征，使得包含mel-spectrogram特征的第二语音特征能被WaveGlow模型接收并进行相应的合成输出操作，即使得WaveGlow模型可以对mel-spectrogram特征进行处理并输出音频波形。

本申请还提供一种音频装置，参照图3，音频装置包括：

建立模型模块1，用于配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型；

一些实施例中，音频处理模型包括Tacotron 2模型，音频合成输出模型包括WaveGlow模型。Tacotron 2模型和WaveGlow模型均为可通过修改参数和训练等操作来达到本申请对合成语音的音色、音波和音调等进行调节的目的。

预处理模块2，用于对输入音频进行预处理以获取模型输入特征，并将模型输入特征输入音频处理模型；

编码调整模块3，用于控制音频处理模型对模型输入特征进行转换操作以获取第一语音特征，并对第一语音特征进行编码调整操作以获取第二语音特征，并将第二语音特征输入音频合成输出模型；

一些实施例中，第一语音特征包括音色、音调和音波。

音频合成模块4，用于控制音频合成输出模型对第二语音特征进行合成输出操作以获取音频波形。

一些实施例中，音频音频合成模块4通过发送生产合成语音指令至音频合成输出模型，音频合成输出模型接收到该生产合成语音指令后，对第二语音特征进行合成操作以得到音频合成结果，并输出音频合成结果即输出音频波形。

参照图4，在本申请实施例的另一种实施方式中，音频装置还包括存储模块5，用于存储音频波形。用于将音频波形以指定格式(如WAV格式)存储于存储模块5中，便于后续播放和验证。也可以选择不同的音频格式进行保存，便于不同的播放设备进行音频的播放。

一些实施例中，存储模块5可以包括易失性存储器，例如随机存取存储器；也可以包括非易失性存储器，例如只读存储器、快闪存储器。

一些实施例中，建立模型模块1、预处理模块2、编码调整模块3、音频合成模块4可以为一个或多个电路元件或单片机组成。

一些实施例中，预处理模块2对输入音频进行预处理以获取模型输入特征的步骤包括：

作为本申请一种可选的实施方式，参照图5，编码调整模块3包括：

编码单元31，用于对第一语音特征进行编码操作以获取第一编码；

调整单元32，用于对第一编码进行调整操作以获取第二编码；

解码单元33，用于对第二编码进行解码操作以获取第二语音特征，其中，第二语音特征包括梅尔频谱特征。

一些实施例中，通过编码单元31对第一语音特征进行编码操作以获取第一编码；

通过调整单元32对第一编码进行调整操作以获取第二编码，调整单元可以通过修改或编辑调整函数或调整代码中的参数便可调整第一编码一以获取所需要的第二编码，可以获取用户想要修改的音色、音波或音调，从而达到自动控制和改变最终获取的合成语音的音色、音波和音调的目的；

通过解码单元33对第二编码进行解码操作以获取包含梅尔频谱(mel-spectrogram)特征的第二语音特征，使得包含mel-spectrogram特征的第二语音特征能被WaveGlow模型接收并进行相应的合成输出操作，即使得WaveGlow模型可以对mel-spectrogram特征进行处理并输出音频波形。

本申请还提供一种设备，包括存储器和处理器，存储器内存储有程序，当程序被处理器执行时实现上述的音频合成方法。

本申请还提供一种存储介质，存储介质中存储有程序，当程序被处理器执行时实现上述的音频合成方法。其中，存储介质中存储的程序为一段或多段，处理器也可为一个或多个，可根据实际需求可自行设置。

本申请涉及的处理器可以为中央处理单元(Central Processing Unit，CPU)，也可以是一种集成电路芯片，还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请使用的存储介质或存储器可以包括易失性存储器，例如随机存取存储器；也可以包括非易失性存储器，例如只读存储器、快闪存储器、机械硬盘或固态硬盘；还可以包括U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，还可以包括上述种类的存储器的组合。

综上本申请的音频合成方法、音频装置、设备及存储介质的优点为：

通过配置并训练模型以获取音频处理模型和音频合成输出模型，以便于后续对文本进行解析和语音的合成；通过对输入音频进行预处理以获取模型输入特征以使文本能顺利进入音频处理模型；通过音频处理模型对模型输入特征进行转换操作以获取第一语音特征，并对第一语音特征进行编码调整操作以获取第二语音特征，并将第二语音特征输入音频合成输出模型，编码调整操作可以调整合成语音过程中的语音特征，即可调整合成语音的音色、音调或音波中的一种或多种，从而提高了语音合成方法合成语音的适用性，即可以合成多种音色、音调和音波的语音，合成语音局限性小，适用性广；解决了现有的语音合成软件只能合成指定的语音、局限性较大、适用性较小的问题。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，例如各实施例之间技术特征的相互结合，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种音频合成方法，其特征在于，包括步骤：

2.如权利要求1所述的音频合成方法，其特征在于，所述音频处理模型包括Tacotron 2模型，所述音频合成输出模型包括WaveGlow模型。

3.如权利要求2所述的音频合成方法，其特征在于，对输入音频进行预处理以获取模型输入特征的步骤包括：

4.如权利要求1所述的音频合成方法，其特征在于，所述第一语音特征包括音色、音调和音波。

5.如权利要求2所述的音频合成方法，其特征在于，对所述第一语音特征进行编码调整操作以获取第二语音特征的步骤包括：

6.一种音频装置，其特征在于，包括：

7.如权利要求6所述的音频装置，其特征在于，所述编码调整模块包括：

8.如权利要求6所述的音频装置，其特征在于，还包括存储模块，用于存储所述音频波形。

9.一种设备，其特征在于，包括存储器和处理器，所述存储器内存储有程序，当所述程序被所述处理器执行时实现如权利要求1至5任意一项所述的音频合成方法。

10.一种存储介质，其特征在于，所述存储介质中存储有程序，当所述程序被处理器执行时实现如权利要求1至5任意一项所述的音频合成方法。