CN113724683B

CN113724683B - 音频生成方法、计算机设备及计算机可读存储介质

Info

Publication number: CN113724683B
Application number: CN202110839695.2A
Authority: CN
Inventors: 胡大盟
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2024-03-22
Anticipated expiration: 2041-07-23
Also published as: CN113724683A

Abstract

本发明公开了一种音频生成方法、计算机设备及计算机可读存储介质。其中，该方法包括：接收待生成语音的文本；获取文本对应的声音的声学特征；将声学特征输入生成网络模型的上采样模块，得到上采样特征，其中，上采样模块在时间维度上经过扩展因子进行了扩展；基于生成网络模型的生成模块，采用上采样特征生成语音数据对应的音频数据。本发明解决了相关技术中进行音频合成时，存在的合成音频效果差的技术问题。

Description

音频生成方法、计算机设备及计算机可读存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频生成方法、计算机设备及计算机可读存储介质。

背景技术

目前，在合成高品质音频方面，相关技术中有两种解决方案，一种是各公司的线上语音合成模型，但是该语音合成模型仅仅支持16k的语音合成，且大部分声学解码器(vocoder)还是基于自回归模型(例如，LPCNet，Linearpredict coefficient Network)。该模型的合成音频音质已到极限，在兼顾速度条件下，自回归模型合成速度慢，并没有多少提升空间。且在48k高采样模型上的音质更是无法进行提升。另一种是利用多种基于GAN(Generative Adversarial Network，生成对抗网络)的vocoder合成模型(例如，melgan，parallel wavegan，multiband-melgan，等等)，该类模型通过生成器直接将声学特征上采样成音频格式(例如，WAV)，再加上判别模型。但是采用上述方案时，会出现在高采样音频(例如，48k)上验证效果较差，无法合成的高质量的音频、且训练的稳定性较差、训练效果差的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频生成方法、计算机设备及计算机可读存储介质，以至少解决相关技术中进行音频合成时，存在的合成音频效果差的技术问题。

根据本发明实施例的一个方面，提供了一种音频生成方法，包括：接收待生成语音的文本；获取所述文本对应的声音的声学特征；将所述声学特征输入生成网络模型的上采样模块，得到上采样特征，其中，所述上采样模块在时间维度上经过扩展因子进行了扩展；基于所述生成网络模型的生成模块，采用所述上采样特征生成所述语音数据对应的音频数据。

可选地，所述将所述声学特征输入生成网络模型的上采样模块，得到上采样特征，包括：采用所述上采样模块中的因果转置卷积单元，对所述声学特征执行转置卷积操作，得到转置卷积后的特征；采用所述上采样模块中的插值因果卷积单元，对转置卷积后的特征执行线性插值操作和因果卷积操作，得到插值卷积后的特征；采用所述上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到所述上采样特征。

可选地，所述采用所述上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到所述上采样特征，包括：采用所述残差单元中的空洞卷积子单元，对所述插值卷积后的特征执行操作，得到第一残差结果；采用所述残差单元中的不带空洞卷积子单元，对所述插值卷积后的特征执行操作，得到第二残差结果，其中，所述不带空洞卷积子单元为所述空洞卷积子单元插入空洞之前的单元；基于所述第一残差结果和所述第二残差结果，得到所述上采样特征。

可选地，所述将所述声学特征输入生成网络模型的上采样模块，得到上采样特征，包括：在所述上采样模块进行卷积操作的过程中，采用先入先出队列对卷积操作的过程数据进行缓存处理。

可选地，在将所述声学特征输入生成网络模型的上采样模块，得到上采样特征之前，还包括：采用生成式对抗网络的模型训练方式，对所述生成网络模型的初始模型进行训练，得到所述生成网络模型。

可选地，所述生成式对抗网络包括多尺度判别器和多周期判别器，其中，不同尺度对应不同感受野。

可选地，所述上采样模块为多个，所述多个上采样模块分别对应多个不同的扩展因子。

根据本发明实施例的另一方面，提供了一种音频生成方法，包括：通过显示界面上的上传控件，接收待生成语音的文本；接收音频生成指令；响应所述音频生成指令，基于生成网络模型的生成模块，采用上采样特征生成所述文本对应的音频数据，其中，所述上采样特征通过将声学特征输入所述生成网络模型的上采样模块得到，所述声学特征为所述文本对应的声音的特征，所述上采样模块在时间维度上经过扩展因子进行了扩展；播放所述音频数据。

根据本发明实施例的另一方面，提供了一种音频生成方法，包括：接收作为视频字幕的文本；接收声音选择指令；响应所述声音选择指令，播放为所述文本选择的声音；接收配音生成指令；响应所述配音生成指令，生成并播放与所述视频字幕对应的视频配音，其中，所述视频配音基于生成网络模型的生成模块，采用上采样特征生成，所述上采样特征通过将所述声音的声学特征输入所述生成网络模型的上采样模块得到，所述上采样模块在时间维度上经过扩展因子进行了扩展。

根据本发明实施例的另一方面，提供了一种音频生成方法，包括：载入小说文本；接收声音选择指令；响应所述声音选择指令，播放为所述小说文本选择的声音；接收小说播放指令；响应所述小说播放指令，生成并播放与所述小说文本对应的有声小说，其中，所述有声小说基于生成网络模型的生成模块，采用上采样特征生成，所述上采样特征通过将所述声音的声学特征输入所述生成网络模型的上采样模块得到，所述上采样模块在时间维度上经过扩展因子进行了扩展。

根据本发明实施例的另一方面，提供了一种音频生成装置，包括：第一接收模块，用于接收待生成语音的文本；第一获取模块，用于获取所述文本对应的声音的声学特征；上采样模块，位于生成网络模型中，用于基于所述声学特征得到上采样特征，其中，所述上采样模块在时间维度上经过扩展因子进行了扩展；第一生成模块，位于所述生成网络模型中，用于采用所述上采样特征生成所述语音数据对应的音频数据。

根据本发明实施例的另一方面，提供了一种音频生成装置，包括：第二接收模块，用于通过显示界面上的上传控件，接收待生成语音的文本；第三接收模块，用于接收音频生成指令；第二生成模块，用于响应所述音频生成指令，基于生成网络模型的生成模块，采用上采样特征生成所述文本对应的音频数据，其中，所述上采样特征通过将所述语音数据的声学特征输入所述生成网络模型的上采样模块得到，所述声学特征为所述文本对应的声音的特征，所述上采样模块在时间维度上经过扩展因子进行了扩展；第一播放模块，用于播放所述音频数据。

根据本发明实施例的另一方面，提供了一种音频生成装置，包括：第四接收模块，用于接收作为视频字幕的文本；第五接收模块，用于接收声音选择指令；第二播放模块，用于响应所述声音选择指令，播放为所述文本选择的声音；第六接收模块，用于接收配音生成指令；第三生成模块，用于响应所述配音生成指令，生成并播放与所述视频字幕对应的视频配音，其中，所述视频配音基于生成网络模型的生成模块，采用上采样特征生成，所述上采样特征通过将所述声音的声学特征输入所述生成网络模型的上采样模块得到，所述上采样模块在时间维度上经过扩展因子进行了扩展。

根据本发明实施例的另一方面，提供了一种音频生成装置，包括：载入模块，用于载入小说文本；第七接收模块，用于接收声音选择指令；第三播放模块，用于响应所述声音选择指令，播放为所述小说文本选择的声音；第八接收模块，用于接收小说播放指令；第四播放模块，用于响应所述小说播放指令，生成并播放与所述小说文本对应的有声小说，其中，所述有声小说基于生成网络模型的生成模块，采用上采样特征生成，所述上采样特征通过将所述声音的声学特征输入所述生成网络模型的上采样模块得到，所述上采样模块在时间维度上经过扩展因子进行了扩展。

根据本发明实施例的另一方面，提供了一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行任意一项所述的音频生成方法。

根据本发明实施例的另一方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行任一项所述的音频生成方法。

根据本发明实施例的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现任一项所述的音频生成方法。

在本发明实施例中，采用将语音数据中的声学特征输入至生成网络模型的方式，在生成网络模型中的上采样模块得到上采样特征，再依据该上采样特征在生成模块中生成对应的音频数据，达到了依据语音数据生成对应的音频数据的目的，由于该上采样椟在时间维度上经过扩展因子进行了扩展，因而能够高质量地合成音频，进而解决了相关技术中进行音频合成时，存在的合成音频效果差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现音频生成方法的计算机终端的硬件结构框图；

图2是根据本发明实施例1的音频生成方法一的流程图；

图3是根据本发明实施例1的音频生成方法二的流程图；

图4是根据本发明实施例1的音频生成方法三的流程图；

图5是根据本发明实施例1的音频生成方法四的流程图；

图6是根据本发明可选实施方式提供的生成网络采用因果卷积加插值方式的流程图；

图7是根据本发明可选实施方式提供的生成网络模型中判别器的示意图；

图8是根据本发明实施例提供的音频生成装置一的结构框图；

图9是根据本发明实施例提供的音频生成装置二的结构框图；

图10是根据本发明实施例提供的音频生成装置三的结构框图；

图11是根据本发明实施例提供的音频生成装置四的结构框图；

图12是根据本发明实施例的一种终端的装置框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

GAN:Generative Adversarial Networks，生成式对抗网络，一种深度学习模型，模型包含2个模块：生成网络G，判别网络D。通过这2个网络的互相博弈学习产生较好的输出。

音素：比字词更小一级的建模单元。

流式：合成一句文本时，不需要等待所有音素都合成完毕，而是可以一个音素甚至一帧合成音频，例如一帧就相当于可以用户200ms就能够听到合成音。如果非流式，对长文本用户可能要等待好几秒才能听到合成音。

首包：第一帧(12.5ms)音频。

RTF：real time factor，实时率。

实时：指RTF<1。

vocoder：声学解码器，声学特征转成音频的网络模型。

声学特征：指表示语音声学特性的物理量，也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。

采样：是将时间上、幅值上都连续的信号，在采样脉冲的作用下，转换成时间、幅值上离散的信号。所以采样又称为波形的离散化过程。

上采样：采集模拟信号的样本。

残差:在数理统计中是指实际观察值与估计值(拟合值)之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话，可以将残差看作误差的观测值。

感受野：卷积神经网络的每一层输出的特征图(feature map)上的像素点在原图像上映射的区域大小。

空洞卷积，或者称为膨胀卷积：(Dilated/Atrous Convolution，或者是Convolution with holes)，从字面上就很好理解，是在标准的convolution map里注入空洞，以此来增加reception field。相比原来的正常convolution，dilated convolution多了一个hyper-parameter称之为dilation rate指的是kernel的间隔数量(e.g.正常的convolution是dilatation rate 1)。

实施例1

根据本发明实施例，还提供了一种音频生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现音频生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的音频生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的音频生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的音频生成方法。图2是根据本发明实施例1的音频生成方法一的流程图，如图2所示，该方法包括如下步骤：

步骤S202，接收待生成语音的文本；

步骤S204，获取文本对应的声音的声学特征；

步骤S206，将声学特征输入生成网络模型的上采样模块，得到上采样特征，其中，上采样模块在时间维度上经过扩展因子进行了扩展；

步骤S208，基于生成网络模型的生成模块，采用上采样特征生成文本对应的音频数据。

通过上述步骤，采用在时间维度上经过扩展因子进行了扩展的上采样模块，对文本对应的声音的声学特征进行上采样，得到上采样特征，再依据该上采样特征采用生成模块生成该文本对应的音频数据，达到了生成文本对应的音频数据的目的，而且，由于该上采样模块在时间维度上经过扩展因子进行了扩展，将声学特征进行了维度上的扩展，因而能够实现高采样率，即能够实现高质量地合成音频，进而解决了相关技术中进行音频合成时，存在的合成音频效果差的技术问题。

作为一种可选的实施例，在接收待生成语音的文本，可以选择该文本对应的声音。选择声音即选择用于生成语音的声源，基于该声源生成语音。声音可以有多种，多种不同的声音采用声学特征进行区分。声学特征是描述声音的声学特性的物理量，是声音诸要素声学表现。具体地，比如，音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率，等等。

作为一种可选的实施例，将声学特征输入生成网络模型的上采样模块，得到上采样特征，其中，上采样模块在时间维度上经过扩展因子进行了扩展。其中，上采样模块可以为多个，生成网络模型中多个上采样模块可以对应于生成网络模型的多层，每层可以对应多个扩展因子，每层对应的多个扩展因子可以是相同的。采用多个上采样模块对应的多个不同扩展因子对声学特征进行扩展，得到扩展后的上采样特征。需要说明的是，采样是将时间上、幅值上都连续的信号，在采样脉冲的作用下，转换成时间、幅值上离散的信号。可以将复杂的分布简化成离散的样本点，可以对样本集进行调整以更好地适应后期的模型学习，同时也可以帮助快速、直观地了解数据结构和特性。

作为一种可选的实施例，将声学特征输入生成网络模型的上采样模块，得到上采样特征，可以采用如下方式，采用上采样模块中的因果转置卷积单元，对声学特征执行转置卷积操作，得到转置卷积后的特征。其中，因果转置卷积单元可以是只需要依赖历史信息，而不依赖未来信息的，具体地可以设置因果转置卷积单元的步长分别为10，5，3，2，2，卷积核大小为步长的2倍。再采用上采样模块中的插值因果卷积单元，对转置卷积后的特征执行线性插值操作和因果卷积操作，得到插值卷积后的特征，其中，插值因果卷积单元可以设置为由一层线性插值与一层因果卷积组成，具体地，线性插值层的因子也分别设置为与上述因果转置卷积单元的步长相同的值，即10，5，3，3，2。最后再通过采用上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到上采样特征，其中，残差单元可以设置为由两个残差因果卷积组成的单元，以得到更好的上采样特征。通过在生成网络中增加插值网络和增大了残差部分的感受野大小以及调整上采样因子，解决了合成音频的过程中存在的共振峰断裂的噪音问题。

作为一种可选的实施例，在采用上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到上采样特征中，可以采用如下方式，采用残差单元中的空洞卷积子单元，对插值卷积后的特征执行操作，得到第一残差结果，其中，空洞卷积子单元可以执行一个感受野更大的空洞卷积；再采用残差单元中的不带空洞卷积子单元，对插值卷积后的特征执行操作，得到第二残差结果，其中，不带空洞卷积子单元为空洞卷积子单元插入空洞之前的单元；基于第一残差结果和第二残差结果，得到上采样特征。可选地，可以将第一残差结果和第二残差结果做加权求和获得上采样特征。

作为一种可选的实施例，声学特征输入生成网络模型的上采样模块，得到上采样特征，包括：在上采样模块进行卷积操作的过程中，采用先入先出队列对卷积操作的过程数据进行缓存处理。通过先入先出队列对卷积操作的过程数据进行缓存处理，通过上述缓存机制，可以实现一帧一帧的流式合成音频。具体实现该缓存机制的方式可以有多种，例如，可以在生成网络中所有的基本卷积模块，都采用因果卷积。即可以采用了因果卷积与缓存方式实现了流式合成具体地，在每一层卷积中构造一个大小为[1,d,t]的3维先进先出队列fifo，值初始化为0，其中d为该层卷积的输入特征的维度，t＝(kernel_size-1)*dilatiaon_rate。dilatiaon_rate是空洞率。在推断合成过程中，每次只送一帧mel特征。在时间维度将fifo拼接到该特征前，构成一个[1,d,t+1]大小的tensor，然后再送入标准卷积层中进行运算，获得该层卷积的输出；接着对fifo队列进行头部出队尾部进队操作，大小为t-mel.shape[-1]。对其他模块的中因果卷积，也按照上述操作，实现了先入先出队列对卷积操作的过程数据进行的缓存处理操作。需要说明的是，上述因果卷积只依赖历史信息，不依赖未来信息，从而能够实现流式合成。在生成网络模型上实现流式结构，从而降低音频合成包返回时间，提高用户体验。

作为一种可选的实施例，在将声学特征输入生成网络模型的上采样模块，得到上采样特征之前，还包括：采用生成式对抗网络的模型训练方式，对生成网络模型的初始模型进行训练，得到生成网络模型。采用生成式对抗网络的训练方式，采用生成模块和判别模块的博弈，训练得到生成网络模型，增加了模型训练的稳定性和加快了模型收敛速度，因而能够有效地提升了模型的训练效率，从而提升了特征提取的效率。

作为一种可选的实施例，上述生成网络模型采用的生成式对抗网络的训练方式中，生成式对抗网络包括生成模块和判别模块，其中的判别模块包括：多尺度判别器和多周期判别器，其中，不同尺度对应不同感受野。在多尺度判别器和多周期判别器中，可以实现多种功能，举例说明，多尺度判别器能够判别音频在时序维度上的连续性和长感受野的依赖性；多周期判别器能够判别音频的周期性。通过设计判别能力更强的多周期判别器，大大增加了生成网络模型训练的稳定性和加快了生成网络模型收敛速度。多尺度判别器和多周期判别器使得生成网络训练更加稳定，而且增加了鲁棒性。

作为一种可选的实施例，上述上采样模块可以为多个，该多个上采样模块分别对应多个不同的扩展因子，其中，该多个上采样模块分别对应的多个不同扩展因子可以对应相同。

作为一种可选的实施例，基于生成网络模型的生成模块，采用上采样特征生成文本对应的音频数据。最终合成更高采样率的高品质音频，实现了高保真、高采样率。能够使得合成的高品质音频，接近真人原声，较大的提升了听感的悦耳程度。

图3是根据本发明实施例1的音频生成方法二的流程图，如图3所示，该方法包括如下步骤：

步骤S302，通过显示界面上的上传控件，接收待生成语音的文本；

步骤S304，接收音频生成指令；

步骤S306，响应音频生成指令，基于生成网络模型的生成模块，采用上采样特征生成文本对应的音频数据，其中，上采样特征通过将声学特征输入生成网络模型的上采样模块得到，声学特征为文本对应的声音的特征，上采样模块在时间维度上经过扩展因子进行了扩展；

步骤S308，播放音频数据。

通过上述步骤，通过接受并响应音频生成指令，采用在时间维度上经过扩展因子进行了扩展的上采样模块，对文本对应的声音的声学特征进行上采样，得到上采样特征，再依据该上采样特征采用生成模块中生成该文本对应的音频数据，并播放该语音数据，达到了生成文本对应的音频数据的目的，而且，由于该上采样模块在时间维度上经过扩展因子进行了扩展，因而能够高采样率，即能够实现高质量地合成音频，进而解决了相关技术中进行音频合成时，存在的合成音频效果差的技术问题。

图4是根据本发明实施例1的音频生成方法三的流程图，如图4所示，该方法包括如下步骤：

步骤S402，接收作为视频字幕的文本；

步骤S404，接收声音选择指令；

步骤S406，响应声音选择指令，播放为文本选择的声音；

步骤S408，接收配音生成指令；

步骤S410，响应配音生成指令，生成并播放与视频字幕对应的视频配音，其中，视频配音基于生成网络模型的生成模块，采用上采样特征生成，上采样特征通过将声音的声学特征输入生成网络模型的上采样模块得到，上采样模块在时间维度上经过扩展因子进行了扩展。

通过上述步骤，在视频配音的应用场景中，接收并响应声音选择指令、配音生成指令，生成并播放与视频字幕对应的视频配音，其中，视频配音采用在时间维度上经过扩展因子进行了扩展的上采样模块，对视频字幕的文本对应的声音的声学特征进行上采样，得到上采样特征，再依据该上采样特征采用生成模块生成该视频字幕的文本对应的音频数据，达到了生成视频字幕的文本对应的音频数据的目的，而且，由于该上采样模块在时间维度上经过扩展因子进行了扩展，将声学特征进行了维度上的扩展，因而能够实现高采样率，即能够实现高质量地合成音频，进而解决了相关技术中进行音频合成时，存在的合成音频效果差的技术问题。

图5是根据本发明实施例1的音频生成方法四的流程图，如图5所示，该方法包括如下步骤：

步骤S502，载入小说文本；

步骤S504，接收声音选择指令；

步骤S506，响应声音选择指令，播放为小说文本选择的声音；

步骤S508，接收小说播放指令；

步骤S510，响应小说播放指令，生成并播放与小说文本对应的有声小说，其中，有声小说基于生成网络模型的生成模块，采用上采样特征生成，上采样特征通过将声音的声学特征输入生成网络模型的上采样模块得到，上采样模块在时间维度上经过扩展因子进行了扩展。

通过上述步骤，在播放有声小说的应用场景中，接收并响应声音选择指令、小说播放指令，生成并播放与小说文本对应的有声小说，其中，有声小说采用在时间维度上经过扩展因子进行了扩展的上采样模块，对文本对应的声音的声学特征进行上采样，得到上采样特征，再依据该上采样特征采用生成模块生成该文本对应的音频数据，达到了生成文本对应的音频数据的目的，而且，由于该上采样模块在时间维度上经过扩展因子进行了扩展，将声学特征进行了维度上的扩展，因而能够实现高采样率，即能够实现高质量地合成音频，进而解决了相关技术中进行音频合成时，存在的合成音频效果差的技术问题。

基于上述实施例及可选实施例，提供一种可选实施方式，下面具体说明。

目前，在合成高品质音频方面，HIFI 48k音频与低采样率如16k音频，听感差异较大，低采样率音频，在长文本应用场景，如小说合成，容易造成听感疲劳。48k音频可以应用于多个对声音品质要求较高的场合，如听书，视频配音，歌声合成等。合成更高品质的音频是目前亟待解决的问题。

相关技术中有两种解决方案，一种是线上语音合成模型，但是该语音合成模型仅仅支持16k的语音合成，且大部分声学解码器(vocoder)还是基于自回归模型(例如，LPCNet)。该模型的合成音频音质已到极限，在兼顾速度条件下，并没有多少提升空间。且在48k高采样模型上的音质更是无法进行提升。另一种是利用多种基于GAN的vocoder合成模型(例如，melgan，parallel wavegan，multiband-melga，等等)，该类模型通过生成器直接将声学特征上采样成wav，再加上判别模型，用于解决机械音的问题。但是采用上述方案解决问题时，该方案在48k高采样音频上验证效果较差，无法合成的高质量的48k音频。而且即使在16k数据上也存在合成音频带有共振峰断裂噪声的badcase。另外，上述方案训练的稳定性较差，需要更多的迭代次数才能获得较好的合成效果。且还存在无法流式合成的缺点。

基于此，在本发明可选实施方式中，提供了一种基于生成式对抗网络的高品质说话人流式语音合成方法，下面对本发明可选实施方式进行说明。

图6是根据本发明可选实施方式提供的生成网络采用因果卷积加插值方式的流程图，如图6所示，下面进行详细说明：

1、提取语音数据的声学特征mel，在本发明可选实施例中，采用128维的mel特征以获得更高频带的声学信息，便于高采样率音频的建模。

需要说明的是，为了实现流式，整个网络首次将因果卷积应用到语音合成的网络中，shape->[1,128,T]，T表示时间维度有多少帧；

2、声学特征先经过一层kernel_size＝7的casual卷积，输出512维的更高维度的特征pre_feature，其中，shape为[1,512,T]；

3、pre_feature通过不同因子(10，5，3，2，2)的5个上采样模块，将时间维度T扩展到600T，即600＝10*5*3*2*2，输出up_featur，其中，shape为[1,16,600T]；

4、up_feature再经过一层kernel_size＝7的因果卷积，输出post_feature，维度为1dim，shape＝[1,1,600T]；

5、post_feature经过tanh激活函数，将值的范围约束在(-1,1)之间，最后输出音频波形点。

需要说明的是，上述生成网络为一个非自回归的网络，即不需要严格依赖上一次的运算结果。

图7是根据本发明可选实施方式提供的生成网络模型中判别器的示意图，如图7所示，判别网络采用2个判别器，即生成式对抗网络包括多尺度判别器和多周期判别器：多尺度判别器Multi-Scale Discriminator(MSD)和多周期判别器Multi-PeriodDiscriminator(MPD)。其中，MSD能够判别音频在时序维度上的连续性和长感受野的依赖性；MPD能够判别音频的周期性。这2种判别器使得生成网络训练更加稳定，推断更加鲁棒。下面进行详细介绍：

1、生成网络输出的wav，标记为y_hat，真实wav，标记为y。MSD和MPD的输入均为y和y_hat；

2、MSD：包含3种尺度的子模块：原始波形，2倍下采样，4倍下采样。每个模块均由8层的一维卷积串联实现；y和y_hat通过平均池化层进行下采样；

3、MPD：包含6种周期的子模块：2，3，5，7，11，17周期；每个模块由6层的二维卷积串联实现；y和y_hat通过reshape层变为多周期的2D特征；

4、2个判别器的loss均采用最小二乘损失函数：

D_loss＝mean((D(y)-1)^2+D(y_hat)^2)

G_loss＝mean((1-D(y_hat))^2)

在本发明可选实施方式中，核心在于生成网络中的上采样模块upsample module和支持流式合成，下面对上采样模块upsample module和支持流式合成分别进行详细介绍：

一、upsample module：

上采样模块，包含3个部分：转置卷积，插值因果卷积，残差块。

1，转置卷积采用的是因果转置卷积，即只需要依赖历史信息，不依赖未来信息，5个模块中的步长分别为10，5，3，2，2，卷积核大小为步长的2倍；

2，插值因果卷积由一层线性插值加一层因果卷积组成，线性插值层的因子也分别为10，5，3，3，2。

3，残差块，由2个残差因果卷积组成，一个残差是感受野更大的空洞卷积，另一个不带空洞卷积，最后将2个残差的结果做加法获得该block的输出；

需要说明的是，前一层的输出x进入上采样模块之前，先经过sin激活函数，再与x做加法，即x＝x+sin(x)。

二、支持流式合成：

在生成网络中所有的基本卷积模块，均采用了因果卷积，这种卷积只依赖历史信息，不依赖未来信息。从而能够实现流式合成。下面描述如何通过在卷积中增加缓存方式实现流式：

1，在每一层卷积中构造一个大小为[1,d,t]的3维队列fifo，值初始化为0，其中d为该层卷积的输入特征的维度，t＝(kernel_size-1)*dilatiaon_rate。dilatiaon_rate是空洞率。

2.，在推断合成过程中，每次只送一帧mel特征。在时间维度将fifo拼接到该特征前，构成一个[1,d,t+1]大小的tensor，然后再送入标准卷积层中进行运算，获得该层卷积的输出；接着对fifo队列进行头部出队尾部进队操作，大小为t-mel.shape[-1]。

3，对其他模块的中因果卷积，也按照上述的1和2操作。

最终通过上述缓存机制，实现一帧一帧的流式合成音频。

经验证，通过本发明可选实施方式中的方法，可实现如下数据所示的有效效果：

spk	cmos(HIFI VS线上)	测评耳机
			F74	0.42	HIFI
aichu	0.19	HIFI
			aide	0.085	普通
ainan	0.085	普通
			aijia	0.14	普通
aiqian	0.085	普通
			airu	0.085	普通
aixiang	0.03	普通

需要说明的是，上述值正的越大越好。可见hifi的系统在这些发音上，效果均优于线上。

通过上述可选实施方式，可以达到以下有益效果：

(1)结构采用非自回归网络，具有更大的建模能力，可以输出更高的音质，且无需进行模型的稀疏化即可达到实时的效果；

(2)通过在生成网络中增加了插值网络和增大了残差部分的感受野大小以及调整上采样因子，解决了共振峰断裂的噪音问题；

(3)通过设计判别能力更强的多周期判别器，大大增加了模型训练的稳定性和加快了模型收敛速度；

(4)在生成网络中，采用了因果卷积+缓存方式实现了流式合成。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的音频生成方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述音频生成方法的装置一，图8是根据本发明实施例2提供的音频生成装置一的结构框图，如图8所示，该装置包括：第一接收模块802，第一获取模块804，上采样模块804和第一生成模块808，下面对该装置进行说明。

第一接收模块802，用于接收待生成语音的文本；第一获取模块804，连接于上述第一接收模块802，用于获取文本对应的声音的声学特征；上采样模块806，连接于上述第一获取模块804，位于生成网络模型中，用于基于声学特征得到上采样特征，其中，上采样模块在时间维度上经过扩展因子进行了扩展；第一生成模块808，连接于上述上采样模块806，位于生成网络模型中，用于采用上采样特征生成语音数据对应的音频数据。

此处需要说明的是，上述第一接收模块802，第一获取模块804，上采样模块804和第一生成模块808，对应于实施例1中的步骤S202至步骤S208，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例3

根据本发明实施例，还提供了一种用于实施上述音频生成方法的装置二，图9是根据本发明实施例3提供的音频生成装置二的结构框图，如图9所示，该装置包括：第二接收模块902，第三接收模块904，第二生成模块906和第一播放模块908，下面对该装置进行说明。

第二接收模块902，用于通过显示界面上的上传控件，接收待生成语音的文本；第三接收模块904，连接于上述第二接收模块902，用于接收音频生成指令；第二生成模块906，连接于上述第三接收模块904，用于响应音频生成指令，基于生成网络模型的生成模块，采用上采样特征生成文本对应的音频数据，其中，上采样特征通过将语音数据的声学特征输入生成网络模型的上采样模块得到，声学特征为文本对应的声音的特征，上采样模块在时间维度上经过扩展因子进行了扩展；第一播放模块908，连接于上述第二生成模块906，用于播放音频数据。

此处需要说明的是，上述第二接收模块902，第三接收模块904，第二生成模块906和第一播放模块908，对应于实施例1中的步骤S302至步骤S308，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例4

根据本发明实施例，还提供了一种用于实施上述音频生成方法的装置三，图10是根据本发明实施例4提供的音频生成装置三的结构框图，如图10所示，该装置包括：第四接收模块1002，第五接收模块1004，第二播放模块1006，第六接收模块1008和第三生成模块1010，下面对该装置进行说明。

第四接收模块1002，用于接收作为视频字幕的文本；第五接收模块1004，连接于上述第四接收模块1002，用于接收声音选择指令；第二播放模块1006，连接于上述第五接收模块1004，用于响应声音选择指令，播放为文本选择的声音；第六接收模块1008，连接于上述第二播放模块1006，用于接收配音生成指令；第三生成模块1010，连接于上述第六接收模块1008，用于响应配音生成指令，生成并播放与视频字幕对应的视频配音，其中，视频配音基于生成网络模型的生成模块，采用上采样特征生成，上采样特征通过将声音的声学特征输入生成网络模型的上采样模块得到，上采样模块在时间维度上经过扩展因子进行了扩展。

此处需要说明的是，上述第四接收模块1002，第五接收模块1004，第二播放模块1006，第六接收模块1008和第三生成模块1010，对应于实施例1中的步骤S402至步骤S410，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例5

根据本发明实施例，还提供了一种用于实施上述音频生成方法的装置四，图11是根据本发明实施例5提供的音频生成装置四的结构框图，如图11所示，该装置包括：载入模块1102，第七接收模块1104，第三播放模块1106，第八接收模块1108和第四播放模块1110，下面对该装置进行说明。

载入模块1102，用于载入小说文本；第七接收模块1104，连接于上述载入模块1102，用于接收声音选择指令；第三播放模块1106，连接于上述第七接收模块1104，用于响应声音选择指令，播放为小说文本选择的声音；第八接收模块1108，连接于上述第三播放模块1106，用于接收小说播放指令；第四播放模块1110，连接于上述第八接收模块1108，用于响应小说播放指令，生成并播放与小说文本对应的有声小说，其中，有声小说基于生成网络模型的生成模块，采用上采样特征生成，上采样特征通过将声音的声学特征输入生成网络模型的上采样模块得到，上采样模块在时间维度上经过扩展因子进行了扩展。

此处需要说明的是，上述载入模块1102，第七接收模块1104，第三播放模块1106，第八接收模块1108和第四播放模块1110，对应于实施例1中的步骤S502至步骤S510，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例6

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的音频生成方法中以下步骤的程序代码：接收待生成语音的文本；获取文本对应的声音的声学特征；将声学特征输入生成网络模型的上采样模块，得到上采样特征，其中，上采样模块在时间维度上经过扩展因子进行了扩展；基于生成网络模型的生成模块，采用上采样特征生成语音数据对应的音频数据。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的音频生成检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频生成方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收待生成语音的文本；获取文本对应的声音的声学特征；将声学特征输入生成网络模型的上采样模块，得到上采样特征，其中，上采样模块在时间维度上经过扩展因子进行了扩展；基于生成网络模型的生成模块，采用上采样特征生成语音数据对应的音频数据。

可选的，上述处理器还可以执行如下步骤的程序代码：将声学特征输入生成网络模型的上采样模块，得到上采样特征，包括：采用上采样模块中的因果转置卷积单元，对声学特征执行转置卷积操作，得到转置卷积后的特征；采用上采样模块中的插值因果卷积单元，对转置卷积后的特征执行线性插值操作和因果卷积操作，得到插值卷积后的特征；采用上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到上采样特征。

可选的，上述处理器还可以执行如下步骤的程序代码：采用上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到上采样特征，包括：采用残差单元中的空洞卷积子单元，对插值卷积后的特征执行操作，得到第一残差结果；采用残差单元中的不带空洞卷积子单元，对插值卷积后的特征执行操作，得到第二残差结果，其中，不带空洞卷积子单元为空洞卷积子单元插入空洞之前的单元；基于第一残差结果和第二残差结果，得到上采样特征。

可选的，上述处理器还可以执行如下步骤的程序代码：将声学特征输入生成网络模型的上采样模块，得到上采样特征，包括：在上采样模块进行卷积操作的过程中，采用先入先出队列对卷积操作的过程数据进行缓存处理。

可选的，上述处理器还可以执行如下步骤的程序代码：在将声学特征输入生成网络模型的上采样模块，得到上采样特征之前，还包括：采用生成式对抗网络的模型训练方式，对生成网络模型的初始模型进行训练，得到生成网络模型。

可选的，上述处理器还可以执行如下步骤的程序代码：生成式对抗网络包括多尺度判别器和多周期判别器，其中，不同尺度对应不同感受野。

可选的，上述处理器还可以执行如下步骤的程序代码：上采样模块为多个，多个上采样模块分别对应多个不同的扩展因子。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过显示界面上的上传控件，接收待生成语音的文本；接收音频生成指令；响应音频生成指令，基于生成网络模型的生成模块，采用上采样特征生成文本对应的音频数据，其中，上采样特征通过将声学特征输入生成网络模型的上采样模块得到，声学特征为文本对应的声音的特征，上采样模块在时间维度上经过扩展因子进行了扩展；播放音频数据。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收作为视频字幕的文本；接收声音选择指令；响应声音选择指令，播放为文本选择的声音；接收配音生成指令；响应配音生成指令，生成并播放与视频字幕对应的视频配音，其中，视频配音基于生成网络模型的生成模块，采用上采样特征生成，上采样特征通过将声音的声学特征输入生成网络模型的上采样模块得到，上采样模块在时间维度上经过扩展因子进行了扩展。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：载入小说文本；接收声音选择指令；响应声音选择指令，播放为小说文本选择的声音；接收小说播放指令；响应小说播放指令，生成并播放与小说文本对应的有声小说，其中，有声小说基于生成网络模型的生成模块，采用上采样特征生成，上采样特征通过将声音的声学特征输入生成网络模型的上采样模块得到，上采样模块在时间维度上经过扩展因子进行了扩展。

本领域普通技术人员可以理解，图中所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的音频生成方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收待生成语音的文本；获取文本对应的声音的声学特征；将声学特征输入生成网络模型的上采样模块，得到上采样特征，其中，上采样模块在时间维度上经过扩展因子进行了扩展；基于生成网络模型的生成模块，采用上采样特征生成语音数据对应的音频数据。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将声学特征输入生成网络模型的上采样模块，得到上采样特征，包括：采用上采样模块中的因果转置卷积单元，对声学特征执行转置卷积操作，得到转置卷积后的特征；采用上采样模块中的插值因果卷积单元，对转置卷积后的特征执行线性插值操作和因果卷积操作，得到插值卷积后的特征；采用上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到上采样特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到上采样特征，包括：采用残差单元中的空洞卷积子单元，对插值卷积后的特征执行操作，得到第一残差结果；采用残差单元中的不带空洞卷积子单元，对插值卷积后的特征执行操作，得到第二残差结果，其中，不带空洞卷积子单元为空洞卷积子单元插入空洞之前的单元；基于第一残差结果和第二残差结果，得到上采样特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将声学特征输入生成网络模型的上采样模块，得到上采样特征，包括：在上采样模块进行卷积操作的过程中，采用先入先出队列对卷积操作的过程数据进行缓存处理。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在将声学特征输入生成网络模型的上采样模块，得到上采样特征之前，还包括：采用生成式对抗网络的模型训练方式，对生成网络模型的初始模型进行训练，得到生成网络模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：生成式对抗网络包括多尺度判别器和多周期判别器，其中，不同尺度对应不同感受野。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：上采样模块为多个，多个上采样模块分别对应多个不同的扩展因子。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过显示界面上的上传控件，接收待生成语音的文本；接收音频生成指令；响应音频生成指令，基于生成网络模型的生成模块，采用上采样特征生成文本对应的音频数据，其中，上采样特征通过将声学特征输入生成网络模型的上采样模块得到，声学特征为文本对应的声音的特征，上采样模块在时间维度上经过扩展因子进行了扩展；播放音频数据。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收作为视频字幕的文本；接收声音选择指令；响应声音选择指令，播放为文本选择的声音；接收配音生成指令；响应配音生成指令，生成并播放与视频字幕对应的视频配音，其中，视频配音基于生成网络模型的生成模块，采用上采样特征生成，上采样特征通过将声音的声学特征输入生成网络模型的上采样模块得到，上采样模块在时间维度上经过扩展因子进行了扩展。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：载入小说文本；接收声音选择指令；响应声音选择指令，播放为小说文本选择的声音；接收小说播放指令；响应小说播放指令，生成并播放与小说文本对应的有声小说，其中，有声小说基于生成网络模型的生成模块，采用上采样特征生成，上采样特征通过将声音的声学特征输入生成网络模型的上采样模块得到，上采样模块在时间维度上经过扩展因子进行了扩展。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频生成方法，其特征在于，包括：

接收待生成语音的文本；

获取所述文本对应的声音的声学特征；

将所述声学特征输入生成网络模型的上采样模块，得到上采样特征，其中，所述上采样模块在时间维度上经过扩展因子进行了扩展；

基于所述生成网络模型的生成模块，采用所述上采样特征生成所述文本对应的音频数据；

其中，在所述上采样模块进行卷积操作的过程中，采用先入先出队列对卷积操作的过程数据进行缓存处理；

所述将所述声学特征输入生成网络模型的上采样模块，得到上采样特征，包括：采用所述上采样模块中的因果转置卷积单元，对所述声学特征执行转置卷积操作，得到转置卷积后的特征；采用所述上采样模块中的插值因果卷积单元，对转置卷积后的特征执行线性插值操作和因果卷积操作，得到插值卷积后的特征；采用所述上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到所述上采样特征。

2.根据权利要求1所述的方法，其特征在于，所述采用所述上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到所述上采样特征，包括：

采用所述残差单元中的空洞卷积子单元，对所述插值卷积后的特征执行操作，得到第一残差结果；

采用所述残差单元中的不带空洞卷积子单元，对所述插值卷积后的特征执行操作，得到第二残差结果，其中，所述不带空洞卷积子单元为所述空洞卷积子单元插入空洞之前的单元；

基于所述第一残差结果和所述第二残差结果，得到所述上采样特征。

3.根据权利要求1所述的方法，其特征在于，在将所述声学特征输入生成网络模型的上采样模块，得到上采样特征之前，还包括：

采用生成式对抗网络的模型训练方式，对所述生成网络模型的初始模型进行训练，得到所述生成网络模型。

4.根据权利要求3所述的方法，其特征在于，所述生成式对抗网络包括多尺度判别器和多周期判别器，其中，不同尺度对应不同感受野。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述上采样模块为多个，所述多个上采样模块分别对应多个不同的扩展因子。

6.一种音频生成方法，其特征在于，包括：

通过显示界面上的上传控件，接收待生成语音的文本；

接收音频生成指令；

响应所述音频生成指令，基于生成网络模型的生成模块，采用上采样特征生成所述文本对应的音频数据，其中，所述上采样特征通过将声学特征输入所述生成网络模型的上采样模块得到，所述声学特征为所述文本对应的声音的特征，所述上采样模块在时间维度上经过扩展因子进行了扩展；

播放所述音频数据；

所述上采样特征通过将声学特征输入所述生成网络模型的上采样模块得到，包括：采用所述上采样模块中的因果转置卷积单元，对所述声学特征执行转置卷积操作，得到转置卷积后的特征；采用所述上采样模块中的插值因果卷积单元，对转置卷积后的特征执行线性插值操作和因果卷积操作，得到插值卷积后的特征；采用所述上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到所述上采样特征。

7.一种音频生成方法，其特征在于，包括：

接收作为视频字幕的文本；

接收声音选择指令；

响应所述声音选择指令，播放为所述文本选择的声音；

接收配音生成指令；

响应所述配音生成指令，生成并播放与所述视频字幕对应的视频配音，其中，所述视频配音基于生成网络模型的生成模块，采用上采样特征生成，所述上采样特征通过将所述声音的声学特征输入所述生成网络模型的上采样模块得到，所述上采样模块在时间维度上经过扩展因子进行了扩展；

所述上采样特征通过将所述声音的声学特征输入所述生成网络模型的上采样模块得到，包括：采用所述上采样模块中的因果转置卷积单元，对所述声学特征执行转置卷积操作，得到转置卷积后的特征；采用所述上采样模块中的插值因果卷积单元，对转置卷积后的特征执行线性插值操作和因果卷积操作，得到插值卷积后的特征；采用所述上采样模块中的残差单元，对插值卷积后的特征执行残差因果卷积操作，得到所述上采样特征。

8.一种音频生成方法，其特征在于，包括：

载入小说文本；

接收声音选择指令；

响应所述声音选择指令，播放为所述小说文本选择的声音；

接收小说播放指令；

响应所述小说播放指令，生成并播放与所述小说文本对应的有声小说，其中，所述有声小说基于生成网络模型的生成模块，采用上采样特征生成，所述上采样特征通过将所述声音的声学特征输入所述生成网络模型的上采样模块得到，所述上采样模块在时间维度上经过扩展因子进行了扩展；

9.一种计算机设备，其特征在于，包括：存储器和处理器，

所述存储器存储有计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行权利要求1至6中任意一项所述的音频生成方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行如权利要求1至6中任一项所述的音频生成方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的音频生成方法。