CN112133319A

CN112133319A - 音频生成的方法、装置、设备及存储介质

Info

Publication number: CN112133319A
Application number: CN202010901040.9A
Authority: CN
Inventors: 张斌
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-25

Abstract

本申请公开了一种音频生成的方法、装置、设备及存储介质，属于计算机技术领域。所述方法包括：基于预设时长对目标音频进行切分，得到多个音频段；基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵；基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵；对于每个音频段，基于所述音频段的第一中间结果矩阵与第二中间结果矩阵，确定包含高频数据的音频段；对每个包含高频数据的音频段进行组合，得到包含高频数据的目标音频。通过本申请可以增强用户听歌体验。

Description

音频生成的方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种音频生成的方法、装置、设备及存储介质。

背景技术

音频数据库中需要存储的音频的数量非常庞大，需要的存储空间也非常庞大。为了满足这种存储需求，音频数据库的运营方经常会将音频中的高频数据去除，这样在对音频编码时可以提高压缩率降低数据量，从而可以降低存储空间的占用。这样处理后的音频，其中的声音还是能够正常被人耳听到的。

不过，对音频去除高频数据后，对音频的音质会有比较大的影响。

发明内容

本申请实施例提供了一种音频生成的方法、装置、设备及存储介质,能够解决用户听歌体验差的问题。所述技术方案如下：

一方面，提供了一种音频生成的方法，所述方法包括：

基于预设时长对目标音频进行切分，得到多个音频段，其中，所述预设时长是所述目标音频的帧间隔时长的N倍，N为大于1的整数；

基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵；

基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵；

对于每个音频段，基于所述音频段的第一中间结果矩阵与第二中间结果矩阵，确定包含高频数据的音频段；

对每个包含高频数据的音频段进行组合，得到包含高频数据的目标音频。

可选的，所述基于预设时长对目标音频进行切分之前，还包括：

获取原始音频，对所述原始音频进行解码处理以及短时傅里叶变换处理，得到目标音频。

可选的，所述基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵，包括：

将每个音频段的幅度矩阵依次基于第一频域扩展模块的输入层、长短时记忆层、输出层进行处理，得到每个音频段对应的第一中间结果矩阵；

所述基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵，包括：

将每个音频段的幅度矩阵的转置矩阵依次基于第二频域扩展模块的输入层、长短时记忆层、输出层进行处理，得到每个音频段对应的第二中间结果矩阵。

可选的，所述基于所述第一中间结果矩阵与所述第二中间结果矩阵，确定包含高频数据的音频段，包括：

对所述第二中间结果矩阵进行转置，得到所述第二中间结果矩阵的转置矩阵；

基于所述第一中间结果矩阵与所述第二中间结果矩阵的转置，确定包含高频数据的音频段的幅度矩阵；

基于所述音频段中每个时间点和每个频点对应的相位数据，以及所述包含高频数据的音频段的幅度矩阵中每个时间点和每个频点对应的幅度数据，生成包含高频数据的音频段。

可选的，所述基于所述第一中间结果矩阵与所述第二中间结果矩阵的转置矩阵，确定包含高频数据的音频段的幅度矩阵，包括：

将所述第一中间结果矩阵与所述第二中间结果矩阵的转置矩阵相加，得到包含高频数据的音频段的幅度矩阵。

另一方面，提供了一种频域扩展模型训练的方法，其特征在于，所述方法包括：

获取样本音频段；

对所述样本音频段进行高频数据去除处理，得到不包含有高频数据的样本音频段；

将所述不包含有高频数据的样本音频段输入初始频域扩展模型，得到输出音频段；

基于所述不包含有高频数据的样本音频段与所述样本音频段的映射关系、所述不包含有高频数据的样本音频段与所述输出音频段的映射关系输入初始判别模型进行识别；

基于所述识别结果对所述初始频域扩展模型进行训练，得到目标频域扩展模型。

可选的，所述基于所述不包含有高频数据的样本音频段与所述样本音频段的映射关系、所述不包含有高频数据的样本音频段与所述输出音频段的映射关系输入初始判别模型进行识别，包括：

获取所述不包含有高频数据的样本音频段与所述样本音频段的映射关系，并将所述不包含有高频数据的样本音频段与所述样本音频段的映射关系，输入初始判别模型，得到第一判别结果；

获取所述不包含有高频数据的样本音频段与所述输出音频段的映射关系，并将所述不包含有高频数据的样本音频段与所述输出音频段的映射关系，输入初始判别模型，得到第二判别结果；

其中，所述初始判别模型用于判别输入的一个音频段是否为在输入的另一个音频段中正确添加高频数据后所得；

所述基于所述识别结果对所述初始频域扩展模型进行训练，得到目标频域扩展模型，包括：

基于所述第一判别结果、所述包含有高频数据的样本音频段和所述输出音频段，对所述初始频域扩展模型进行参数更新，得到频域扩展模型。

可选的，所述将所述不包含有高频数据的样本音频段与所述输出音频段，输入初始判别模型，得到第一判别结果，并将所述不包含有高频数据的样本音频段与所述包含有高频数据的样本音频段，输入初始判别模型，得到第二判别结果之后，还包括：

基于所述第一判别结果和所述第二判别结果，对所述初始判别模型进行参数更新，得到判别模型。

另一方面，提供了一种音频生成的装置，所述装置包括：

切分模块，用于基于预设时长对目标音频进行切分，得到多个音频段，其中，所述预设时长是所述目标音频的帧间隔时长的N倍，N为大于1的整数；

处理模块，用于基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵；

处理模块，还用于基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵；

确定模块，用于对于每个音频段，基于所述音频段的第一中间结果矩阵与第二中间结果矩阵，确定包含高频数据的音频段；

组合模块，用于对每个包含高频数据的音频段进行组合，得到包含高频数据的目标音频。

可选的，所述处理模块，还用于：

可选的，所述处理模块，用于：

可选的，所述确定模块，用于：

另一方面，提供了一种频域扩展模型训练的装置，其特征在于，所述装置包括：

获取模块，用于获取样本音频段；

处理模块，用于对所述样本音频段进行高频数据去除处理，得到不包含有高频数据的样本音频段；

输入模块，还用于将所述不包含有高频数据的样本音频段输入初始频域扩展模型，得到输出音频段；

识别模块，用于基于所述不包含有高频数据的样本音频段与所述样本音频段的映射关系、所述不包含有高频数据的样本音频段与所述输出音频段的映射关系输入初始判别模型进行识别；

训练模块，用于基于所述识别结果对所述初始频域扩展模型进行训练，得到目标频域扩展模型。

可选的，所述识别模块，用于：

所述训练模型，用于：

可选的，所述装置还包括更新模块，所述更新模块，用于：

再一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有指令，所述处理器执行所述指令使得所述计算机设备实现所述音频生成的方法。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有指令，计算机设备执行所述指令使得所述计算机设备实现所述音频生成的方法。

本申请实施例提供的技术方案带来的有益效果是：

本方案通过频域扩展模型对一个目标音频的音频段添加高频数据，进而得到多个添加高频数据后的音频段，然后将多个添加高频数据后的音频段进行组合得到添加高频数据后的目标音频。这样，通过上述处理就可以在不包含高频数据的目标音频中添加高频数据，音频生成，提升了目标音频的音质。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频生成的方法流程图；

图2是本申请实施例提供的一种音频生成的方法的示意图；

图3是本申请实施例提供的一种频域扩展模型训练的方法的流程图；

图4是本申请实施例提供的一种音频生成的装置结构示意图；

图5是本申请实施例提供的一种频域扩展模型训练的装置的结构示意图；

图6是本申请实施例提供的终端结构示意图；

图7是本申请实施例提供的服务器结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种音频生成的方法，该方法可以由终端或者服务器实现，该终端可以是手机、台式电脑、平板电脑、笔记本电脑、智能穿戴设备等，该终端可以具有音频播放部件以及音频处理部件。该终端可以具有显示播放音频的功能、处理音频的功能，该终端可以安装有音频播放应用程序。该服务器可以是上述音频播放应用程序的后台服务器，该服务器可以是一个单独的服务器也可以是一个服务器组，如果是单独的服务器，该服务器可以负责下述方案中的所有需要由服务器进行的处理，如果是服务器组，服务器组中的不同服务器分别可以负责下述方案中的不同处理，具体的处理分配情况可以由技术人员根据实际需求任意设置，此处不再赘述。

由于的之前技术限制，用户在向音频播放应用程序的后台服务器上传音频时，都只能上传一些缺少高频数据的音频，也就使得在音频播放应用程序的后台服务器中存储有很多缺少高频数据的音频，而缺少高频数据的音频的播放效果很差，为提升用户的听觉感受，开发人员可以通过电子设备为缺少高频数据的音频添加高频数据，得到添加高频数据后的音频。进而，来提升用户的听觉感受。

图1是本申请实施例提供的一种音频生成的方法的流程图。参见图1，该流程包括：

步骤101、基于预设时长对目标音频进行切分，得到多个音频段。

其中，预设时长是目标音频的帧间隔时长的N倍，N为大于1的整数。

在实施中，首先，电子设备可以获取缺少高频数据的音频(即原始音频)，该原始音频是一个时域数据，进而电子设备可以对原始音频进行解码，得到裸数据，然后，对上述裸数据进行短时傅里叶变换，得到目标音频，该目标音频是一个频域数据。

在此需要说明的是，高频数据是指频率在采样率的四分之一到采样率的二分之一之间的音频数据，相应的，低频数据是指频率在采样率的四分之一以下的音频数据。

例如，如图2所示，该电子设备可以是终端，则终端可以接收服务器发送的原始音频x_t，f，并对原始音频x_t，f进行解码，得到原始音频x_t，f的裸数据，进而对裸数据进行短时傅里叶变换，得到目标音频X_t，f。

例如，该电子设备可以是服务器，服务器可以获取内部存储的原始音频x_t，f，并对原始音频x_t，f进行解码，得到原始音频x_t，f的裸数据，进而对裸数据进行短时傅里叶变换，得到目标音频X_t，f。

其次，电子设备可以基于预设时长对目标音频进行切分，得到多个音频段。

例如，预设时长为32帧，则电子设备可以将目标音频切分为长度为32帧的音频段，如果存在切分后的帧数小于32帧的情况，电子设备可以进行补0，进而可以生成一个包含32个音频帧的音频段。

可选的，电子设备可以先基于预设时长对目标音频进行切分，得到多个音频段，该多个音频段都是时域数据，进而电子设备可以对音频段进行解码，得到裸数据，然后，对上述裸数据进行短时傅里叶变换，得到频域数据的音频段。

在此需要说明的是，在上述音频段中，高频率的幅度为0。

步骤102、基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵。

在实施中，在得到多个音频段后，首先，电子设备可以获取音频段中每个时间点和每个频点对应的幅度数据，得到音频段的幅度矩阵。

例如，目标音频的一个音频段为

其中，X_t，f为幅度数据，

为相位数据，t代表时间，f代表频率，则电子设备获取每个时间点和每个频点对应的幅度数据，进而将得到的幅度数据按时间以及频率两个维度进行排列，并进行取对数运算，得到音频段的幅度矩阵X_log，即该幅度矩阵X_log包含有时间轴以及频率轴。

然后，将音频段的幅度矩阵，输入第一频域扩展模块，得到第一中间结果矩阵。

例如，如图2所示，在得到音频段的幅度矩阵X_log后，该音频段的幅度矩阵X_log的形式为[Batch，T，N]，电子设备可以将该音频段的幅度矩阵(即时间轴为横轴，频率轴为纵轴的矩阵)输入到Time-LSTM(即包括长短时记忆层的第一频域扩展模块)，经计算得到第一中间结果矩阵。

步骤103、基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵。

在实施中，对音频段的幅度矩阵进行转置，得到转置矩阵，并将其输入第二频域扩展模块，得到第二中间结果矩阵。

例如，在得到音频段的幅度矩阵X_log后，对音频段的幅度矩阵进行转置，得到音频段的幅度矩阵的转置矩阵(即频率轴为横轴，时间轴为纵轴的矩阵)，其形式为[Batch，T，N]^T，然后，将音频段的幅度矩阵的转置矩阵，输入到Frequency-LSTM(即包括长短时记忆层的第二频域扩展模块)，经计算得到第二中间结果矩阵。

可选的，上述第一频域扩展模块以及第二频域扩展模块可以包含有输入层、长短时记忆层、输出层。相应的，上述步骤102和步骤103的处理可以是，将每个音频段的幅度矩阵依次基于第一频域扩展模块的输入层、长短时记忆层、输出层进行处理，得到每个音频段对应的第一中间结果矩阵，以及将每个音频段的幅度矩阵的转置矩阵依次基于第二频域扩展模块的输入层、长短时记忆层、输出层进行处理，得到每个音频段对应的第二中间结果矩阵。

例如，如图2所示，在得到音频段的幅度矩阵X_log后，该音频段的幅度矩阵X_log的形式为[Batch，T，N]，电子设备可以将该音频段的幅度矩阵(即时间轴为横轴，频率轴为纵轴的矩阵)输入到Time-LSTM(即包括输入层、长短时记忆层、输出层的第一频域扩展模块)，经计算得到第一中间结果矩阵。

且在得到音频段的幅度矩阵X_log后，对音频段的幅度矩阵进行转置，得到音频段的幅度矩阵的转置(即频率轴为横轴，时间轴为纵轴的矩阵)，其形式为[Batch，T，N]^T，然后，将音频段的幅度矩阵的转置，输入到Frequency-LSTM(即包括输入层、长短时记忆层、输出层的第二频域扩展模块)，经计算得到第二中间结果矩阵。

步骤104、对于每个音频段，基于音频段的第一中间结果矩阵与第二中间结果矩阵，确定包含高频数据的音频段。

在实施中，对每个音频段，将每个音频段的第一中间结果矩阵与第二中间结果矩阵相加，得到包含高频数据的音频段的幅度矩阵。

例如，在得到第一中间结果矩阵与第二中间结果矩阵后，电子设备可以将得到的第一中间结果矩阵与第二中间结果矩阵进行对位相加，得到包含高频数据的音频段的幅度矩阵Y’_log。然后，通过非线性单元输出上述包含高频数据的音频段的幅度矩阵Y’_log。

然后，基于音频段中每个时间点和每个频点对应的相位数据，以及包含高频数据的音频段的幅度矩阵中每个时间点和每个频点对应的幅度数据，生成包含高频数据的音频段。

例如，如图2所示，在得到包含高频数据的音频段的幅度矩阵Y’_log后，电子设备可以基于音频段中每个时间点和每个频点对应的相位数据，以及包含高频数据的音频段的幅度矩阵Y’_log中每个时间点和每个频点对应的幅度数据，生成包含高频数据的音频段。

在此需要说明的是，在经过上述频域扩展模型处理后，在上述音频段中，高频率的幅度不为0。

步骤105、对每个包含高频数据后的音频段进行组合，得到包含高频数据的目标音频。

在实施中，持续进行上述步骤102和步骤103直至目标音频对应的所有音频段都处理完成得到多个包含高频数据的音频段。进而，电子设备可以根据每个包含高频数据的音频段的标识进行排序并组合，电子设备还可以根据每个包含高频数据的音频段的时间信息进行排序并组合。进而，如图2所示，在将每个包含高频数据的音频段组合完成后，电子设备可以对包含高频数据的目标音频进行短时傅里叶逆变换，将频域数据转化为时域数据，得到包含高频数据的目标音频。

可选的，在得到包含高频数据的目标音频后，如果上述电子设备是终端，则可以直接播放包含高频数据的目标音频，如果上述电子设备是服务器，则可以对包含高频数据的目标音频进行编码，例如，将其编码为mp3格式，进而存储该mp3格式的包含高频数据的目标音频。

如图3所示，在进行图1中的处理之前，本申请实施例还提供的一种频域扩展模型训练的方法的流程图。参见图3，该流程包括：

步骤301、获取样本音频段。

在实施中，电子设备可以获取数据库中存储的包含有高频数据的样本音频，该包含有高频数据的样本音频是频域数据，该包含有高频数据的样本音频可以被切分为多个音频段，进而得到包含有高频数据的样本音频段。

例如，用Y_t，f表示包含有高频数据的样本音频段。

步骤302、对样本音频段进行高频数据去除处理，得到不包含有高频数据的样本音频段。

在实施中，在获取到包含有高频数据的样本音频段后，电子设备可以调用高频数据去除函数对包含有高频数据的样本音频段进行加噪处理，进而得到不包含有高频数据的样本音频段。

例如，用X_t，f表示不包含有高频数据的样本音频段。

步骤303、将不包含有高频数据的样本音频段输入初始频域扩展模型，得到输出音频段。

在实施中，首先，获取不包含有高频数据的样本音频段每个时间点和每个频点对应的幅度数据，得到音频段的幅度矩阵。然后，将该幅度矩阵输入到初始频域扩展模型中，该初始频域扩展模型中包含第一初始频域扩展模块以及第二初始频域扩展模块。然后，将音频段的幅度矩阵输入第一初始频域扩展模块中，将音频段的幅度矩阵的转置输入第二初始频域扩展模块中。进而得到第一训练中间结果矩阵以及第二训练中间结果矩阵，然后，将第一训练中间结果矩阵与第二训练中间结果矩阵相加，得到输出音频段。

例如，不包含有高频数据的样本音频段为

则获取相位数据|X_t，f|，并对相位数据|X_t，f|进行对数运算，得到样本音频段的幅度矩阵X_log，然后将样本音频段的幅度矩阵X_log输入到初始频域扩展模型中，该初始频域扩展模型包含有Time-LSTM(即第一初始频域扩展模块)以及Frequency-LSTM(即第二初始频域扩展模块)。然后将格式为[Batch，T，N]的X_log输入Time-LSTM，将格式为[Batch，T，N]^T的X_log的转置输入Frequency-LSTM中。进而得到第一训练中间结果矩阵以及第二训练中间结果矩阵，然后，将第一训练中间结果矩阵与第二训练中间结果矩阵相加，得到训练幅度矩阵Y’_log(即输出音频段)。

步骤304、基于不包含有高频数据的样本音频段与样本音频段的映射关系、不包含有高频数据的样本音频段与输出音频段的映射关系输入初始判别模型进行识别。

在实施中，电子设备可以获取不包含有高频数据的样本音频段与样本音频段的映射关系，并将不包含有高频数据的样本音频段与样本音频段的映射关系，输入初始判别模型，得到第一判别结果，同时获取不包含有高频数据的样本音频段与输出音频段的映射关系，并将不包含有高频数据的样本音频段与输出音频段的映射关系，输入初始判别模型，得到第二判别结果。

其中，初始判别模型用于判别输入的一个音频段是否为在输入的另一个音频段中正确添加高频数据后所得。

在此需要说明的是，上述初始判别模型是一个双通道模型，即可以同时输入两组映射关系，分别对两组映射关系进行处理，同时得到两个判别结果。

例如，上述初始判别器模型可以是一个VGG(Visual Geometry Group，目视图像生成器)-like二分类模型，输入为两通道，其格式为[Batch，T，N，2]，进而，将[X_log，Y_log]和[X_log，Y’_log]两个组合输入初始判别器模型进行处理，可以得到分别对应上述两个映射关系的0和1，其中1为上述第一判别结果，0为上述第二判别结果。

可选的，在进行完上述处理之后，电子设备可以基于第一判别结果和第二判别结果，对初始判别模型进行参数更新，得到判别模型。

在实施中，在得到第一判别结果和第二判别结果后，可以基于损失函数：

对初始判别模型进行参数更新，得到判别模型。

其中，D(X_log，Y’_log)为第二判别结果，

为参数。

步骤305、基于识别结果对初始频域扩展模型进行训练，得到目标频域扩展模型。

在实施中，在得到第一判别结果和第二判别结果后，电子设备可以基于第一判别结果、包含有高频数据的样本音频段和输出音频段，对初始频域扩展模型进行参数更新，得到频域扩展模型。

例如，在得到第一判别结果和第二判别结果后，电子设备基于初始频域扩展模型对应的损失函数：

对初始频域扩展模型的参数进行更新。

其中，D(X_log，Y’_log)为第二判别结果，D(X_log，Y_log)为第一判别结果。

在此需要说明的是，上述对初始频域扩展模型与初始判别模型的训练是依次进行的，即在训练初始频域扩展模型时不训练初始判别模型，在训练初始判别模型时，不训练初始频域扩展模型。

在此需要说明的是，上述处理获取频域扩展模型的方案是基于生成式对抗网络构建的，同时训练初始频域扩展模型以及判别模型，进而最大限度的提升训练效果，使得最终输出的频域扩展模型可以在增加低频数据的同时增加较为准确的补齐高频数据。

在此需要说明的是，在上述获取频域扩展模型的处理中，电子设备可以是服务器，在服务器获取到频域扩展模型后可以将频域扩展模型存储在服务器中，还可以将频域扩展模型发送给终端，并进行图1中的处理。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请实施例提供一种音频生成的装置，该装置可以是上述实施例中的电子设备，如图4所示，所述装置包括：

切分模块410，用于基于预设时长对目标音频进行切分，得到多个音频段，其中，所述预设时长是所述目标音频的帧间隔时长的N倍，N为大于1的整数；

处理模块420，用于基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵；

处理模块420，还用于基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵；

确定模块430，用于对于每个音频段，基于所述音频段的第一中间结果矩阵与第二中间结果矩阵，确定包含高频数据的音频段；

组合模块440，用于对每个包含高频数据的音频段进行组合，得到包含高频数据的目标音频。

可选的，所述处理模块420，还用于：

可选的，所述处理模块420，用于：

可选的，所述确定模块430，用于：

需要说明的是：上述实施例提供的音频生成的装置在音频生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频生成的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供一种频域扩展模型训练的装置，该装置可以是上述实施例中的电子设备，如图5所示，所述装置包括：

获取模块510，用于获取样本音频段；

处理模块520，用于对所述样本音频段进行高频数据去除处理，得到不包含有高频数据的样本音频段；

输入模块530，还用于将所述不包含有高频数据的样本音频段输入初始频域扩展模型，得到输出音频段；

识别模块540，用于基于所述不包含有高频数据的样本音频段与所述样本音频段的映射关系、所述不包含有高频数据的样本音频段与所述输出音频段的映射关系输入初始判别模型进行识别；

训练模块550，用于基于所述识别结果对所述初始频域扩展模型进行训练，得到目标频域扩展模型。

可选的，所述识别模块540，用于：

所述训练模型550，用于：

可选的，所述装置还包括更新模块，所述更新模块，用于：

图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的音频生成方法方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本申请实施例提供的一种服务器的结构示意图，该服务器可以是上述实施例中的电子设备，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中音频生成的方法。例如，所述计算机可读存储介质可以是只读存储器(Read-only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设时长对目标音频进行切分之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一中间结果矩阵与所述第二中间结果矩阵，确定包含高频数据的音频段，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一中间结果矩阵与所述第二中间结果矩阵的转置矩阵，确定包含高频数据的音频段的幅度矩阵，包括：

6.一种频域扩展模型训练的方法，其特征在于，所述方法包括：

获取样本音频段；

7.根据权利要求6所述的方法，其特征在于，所述基于所述不包含有高频数据的样本音频段与所述样本音频段的映射关系、所述不包含有高频数据的样本音频段与所述输出音频段的映射关系输入初始判别模型进行识别，包括：

8.根据权利要求6所述的方法，其特征在于，所述将所述不包含有高频数据的样本音频段与所述输出音频段，输入初始判别模型，得到第一判别结果，并将所述不包含有高频数据的样本音频段与所述包含有高频数据的样本音频段，输入初始判别模型，得到第二判别结果之后，还包括：

9.一种音频生成的装置，其特征在于，所述装置包括：

所述处理模块还用于基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵；

10.根据权利要求9所述的装置，其特征在于，所述处理模块，还用于：

11.根据权利要求9所述的装置，其特征在于，所述处理模块，用于：

12.根据权利要求9所述的装置，其特征在于，所述确定模块，用于：

13.根据权利要求12所述的装置，其特征在于，所述确定模块，用于：

14.一种频域扩展模型训练的装置，其特征在于，所述装置包括：

获取模块，用于获取样本音频段；

15.根据权利要求14所述的装置，其特征在于，所述识别模块，用于：

所述训练模型，用于：

16.根据权利要求14所述的装置，其特征在于，所述装置还包括更新模块，所述更新模块，用于：

17.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频生成的方法所执行的操作。

18.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频生成的方法所执行的操作。