CN112948331B

CN112948331B - 音频文件的生成方法、解析方法、生成器及解析器

Info

Publication number: CN112948331B
Application number: CN202110224386.4A
Authority: CN
Inventors: 丁屹; 智勇
Original assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Current assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2023-02-03
Anticipated expiration: 2041-03-01
Also published as: CN112948331A

Abstract

本申请提供了音频文件的生成方法、解析方法、生成器及解析器，其中，方法包括：获取待生成音频文件的音频数据；从音频数据的波形中提取参数值；参数值包括：波形的时长、振幅均值，以及极值点的振幅和时刻取值；至少将参数值生成音频文件；将音频文件发送给解析器。解析器获取音频文件中的提取参数值，依据提取参数值，生成波形的实际参数值；依据实际参数值进行插值计算，还原出音频文件指示的音频数据。本申请在保证解析器解析出音频数据的前提下，降低了音频文件占用的存储空间。

Description

音频文件的生成方法、解析方法、生成器及解析器

技术领域

本申请涉及音频处理领域，尤其涉及音频文件的生成方法、解析方法、生成器及解析器。

背景技术

目前的音频格式主要有mp3、ogg、wma、wav和cda等。其中，每种音频格式的音频数据保存在音频文件中。其中，对于每种音频格式的音频文件可以通过对应的解析器进行播放。

但是，生成的音频文件占用的存储空间较大。

发明内容

本申请提供了音频文件的生成方法、解析方法、生成器及解析器，目的在于解决生成的音频文件占用的存储空间较大的问题。

为了实现上述目的，本申请提供了以下技术方案：

本申请提供了一种音频文件的生成方法，应用于生成器，包括：

获取待生成音频文件的音频数据；

从所述音频数据的波形中提取参数值；所述参数值包括：所述波形的时长、振幅均值，以及极值点的振幅和时刻取值；

至少将所述参数值生成音频文件；

将所述音频文件发送给解析器。

可选的，从所述音频数据的波形中提取极值点的振幅和时刻取值，包括：

从所述音频数据的波形中，每隔预设时长进行采样，得到多个采样点数据；

在相邻两个采样点数据满足预设的极值点条件的情况下，将所述波形上所述相邻采样点的中间点的振幅和时刻取值，作为极值点的振幅和时刻取值。

可选的，所述至少将所述参数值生成音频文件，包括：

将所述参数值以及音质信息，生成音频文件；所述音质信息为混响参数、用于3D空间混响的听众与声源的3D空间位置和待模拟音效类型中的至少一种。

本申请还提供了一种音频文件的解析方法，应用于解析器，包括：

在接收到生成器发送的音频文件后，获取所述音频文件中的信息；所述信息包括提取参数值；所述提取参数值为从所述音频文件指示的波形中提取的时长、振幅均值、以及极值点的振幅和时刻取值；

依据所述提取参数值，生成所述波形的实际参数值；

依据所述实际参数值进行插值计算，还原出所述音频文件指示的音频数据。

可选的，所述依据所述提取参数值，生成所述波形的实际参数值，包括：

获取第一生成函数；所述第一生成函数用于将波形的提取参数值转换为实际参数值；

将所述提取参数值作为所述第一生成函数的输入，经过所述第一生成函数的计算结果为所述波形的实际参数值。

可选的，所述第一生成函数的生成方式，包括：

获取训练样本；所述训练样本包括：事先获取的音频数据的波形的提取参数值和对应的实际参数值；

采用所述训练样本，通过深度学习方式对预设的神经网络模型进行训练，直至达到预设的收敛条件；

将训练后的神经网络模型的计算过程，作为所述第一生成函数。

可选的，所述信息还包括：混响参数；

在所述依据所述实际参数值进行插值计算，还原出所述音频文件指示的音频数据之后，还包括：

将还原出的音频数据从时域转换为频域，得到频域音频数据；

依据所述混响参数，对所述频域音频数据进行混响计算，得到频域混响音频数据；

将所述频域混响音频数据转换为时域，得到混响音频数据。

可选的，所述信息还包括：用于3D混响的听众和音源的3D空间位置信息；

在所述混响音频数据为多声道混响音频数据的情况下，对所述混响音频数据进行3D空间混响计算，得到3D空间混响音频数据。

可选的，所述信息还包括：待模拟音效类型；所述方法还包括：

依据所述提取参数值，生成目标音频数据的波形的实际参数值；所述目标音频数据指：将所述音频文件指示的音频数据转换为具有所述待模拟音效类型的音频数据；

依据所述目标音频数据的波形的实际参数值进行插值计算，还原出所述目标音频数据。

本申请还提供了一种生成器，包括：

第一获取模块，用于获取待生成音频文件的音频数据；

提取模块，用于从所述音频数据的波形中提取参数值；所述参数值包括：所述波形的时长、振幅均值，以及极值点的振幅和时刻取值；

第一生成模块，用于至少将所述参数值生成音频文件；

发送模块，用于将所述音频文件发送给解析器。

本申请还提供了一种解析器，包括：

第二获取模块，用于在接收到生成器发送的音频文件后，获取所述音频文件中的信息；所述信息包括提取参数值；所述提取参数值为从所述音频文件指示的波形中提取的时长、振幅均值、以及极值点的振幅和时刻取值；

第二生成模块，用于依据所述提取参数值，生成所述波形的实际参数值；

还原模块，用于依据所述实际参数值进行插值计算，还原出所述音频文件指示的音频数据。

本申请所述的音频文件的生成方法、解析方法、生成器及解析器，获取待生成音频文件的音频数据；从音频数据的波形中提取参数值；参数值包括：波形的时长、振幅均值、极值点的振幅和时刻取值；至少将参数值生成音频文件；将音频文件发送给解析器。解析器至少依据音频文件中的提取参数值，生成波形的实际参数值；依据实际参数值进行插值计算，还原出音频文件指示的音频数据。

可以看出，在本申请中，生成的音频文件中存储的内容是提取参数值，而不是音频数据。由于存储提取参数值占用的存储空间小于存储音频数据占用的存储空间，因此，相对于现有技术，本申请的音频文件占用的存储空间减小。

并且，在本申请中，解析器通过对提取参数值进行处理，还原出音频文件指示的音频数据。因此，本申请在保证解析器解析出音频数据的前提下，降低了音频文件占用的存储空间。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种音频文件的生成方法的流程图；

图2为本申请实施例公开的一种波形的示意图；

图3为本申请实施例公开的一种音频文件的解析方法的流程图；

图4为本申请实施例公开的一种生成器的结构示意图；

图5为本申请实施例公开的一种解析器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，生成的音频文件可以为PCM格式的音频文件。

图1为本申请实施例提供的一种音频文件的生成方法，执行主体为生成器，可以包括以下步骤：

S101、获取待生成音频文件的音频数据。

在本步骤中，获取待生成音频文件的音频数据的具体实现方式为现有技术，这里不再赘述。

S102、从音频数据的波形中提取参数值。

在本实施例中，参数值可以包括：波形的时长、振幅均值，以及极值点的振幅和时刻取值。其中，极值点既包括波形指示的函数中的全局极值点，也包括波形指示的函数中的局部极值点。

以图2作为波形的示例，在图2中，横坐标轴表示时间，纵坐标轴表示振幅。图2中光滑的曲线表示模拟信号，锯齿状的线段构成的图形表示数字信号。在图2中，在波形线上的波峰和波谷处的点表示极值点。每个极值点分别对应有横纵坐标值，其中，横坐标值表示时刻，纵坐标值表示振幅。

在本步骤中，从音频数据的波形中确定时长和振幅均值的具体实现方式为现有技术，这里不再赘述。

可选的，在本实施例中，从音频数据的波形中提取极值点的振幅和时刻取值的过程可以包括以下步骤A1～步骤A2：

A1、从音频数据的波形中，每隔预设时长进行采样，得到多个采样点数据。

在本实施例中，一个采样点数据包括该采样点的横纵坐标值，即对应的时刻与振幅。

在实际中，音频数据的波形中，相邻两个极值点的横坐标取值间具有较大的差值。因此，在步骤中，每隔预设时长进行采样中的预设时长的取值可以根据实际情况确定，只要相邻两个采样点的横坐标值间的差值不是特别小即可。从而，可以提高采样效率。

A2、在相邻两个采样点数据满足预设的极值点条件的情况下，将波形上该相邻采样点的中间点对应的振幅和时刻取值，作为极值点的振幅和时刻取值。

在本实施例中，极值点条件可以包括：相邻两个采样点分别对应的斜率符号相反。

在本步骤中，如果相邻两个采样点数据满足斜率符号相反，则将该两个相邻采样点的中间点，作为极值点。其中，中间点指：该两个相邻采样点的横坐标的均值在波形上对应的点。因此，中间点的振幅和时刻取值，就是极值点的振幅和时刻取值。

S103、至少将参数值生成音频文件。

在本实施例中，至少将参数值保存在音频文件中。

在本实施例中，为了使得解析器在接收到音频文件后，对音频文件进行处理得到的音频数据具有更好的音效。在本步骤中，除了将参数值保存在音频文件外，还将音质信息保存在音频文件中。其中，音质信息为混响参数、用于3D空间混响的听众与声源的3D空间位置和待模拟音效类型中的至少一种。

S104、将音频文件发送给解析器。

图3为本申请实施例提供的一种音频文件的解析方法，执行主体可以为解析器，可以包括以下步骤：

S301、在接收到生成器发送的音频文件后，获取音频文件中的信息。

在本步骤中，获取的信息可以包括提取参数值。其中，提取参数值为从音频文件指示的波形中提取的时长、振幅均值、以及极值点的振幅和时刻取值。在本实施例中，提取参数值中的各参数值与实际取值相比，可能存在误差。

在本实施例中，信息还可以包括音质信息。其中，音质信息可以包括：混响参数、用于3D混响的听众和音源的3D空间位置信息和待模拟音效类型中的一种或多种。

S302、依据提取参数值，生成波形的实际参数值。

在本实施例中，实际参数值指音频文件指示的波形的实际参数值。其中，实际参数值可以包括：波形的时长、振幅均值，以及极值点的振幅和时刻取值。

在本步骤中，依据提取参数值生成波形的实际参数值，其中，具体的实现方式可以包括以下步骤B1～步骤B2：

B1、获取第一生成函数。

在本步骤中，第一生成函数用于将波形的提取参数值转换为实际参数值。

在本实施例中，第一函数可以通过深度学习的方式训练神经网络得到，其中，第一生成函数的生成过程可以包括以下步骤C1～步骤C3：

C1、获取训练样本。

在本步骤中，训练样本可以包括：事先获取的音频数据的波形的提取参数值和实际参数值。其中，事先获取的音频数据可以是从大数据中提取的音频数据。当然，在实际中，事先获取的音频数据的获取方式除了为从大数据获取之外，还可以为其他获取方式，本实施例不对具体的获取方式作限定。

在本步骤中，训练样本中的实际参数值可以通过人工进行确定，当然，在实际中，训练样本中的实际参数值还可以通过其他方式获取，本实施例不对具体的获取方式作限定。

C2、采用训练样本，通过深度学习方式对预设的神经网络模型进行训练，直至达到预设的收敛条件。

在本实施例中，预设的神经网络模型的结构可以为ANN全连接层结构，当然，在实际中，还可以为其他结构，本实施例不对神经网络模型的结构做限定。

在本步骤中，预设的收敛条件可以为提取参数值经过神经网络模型的前向计算，得到的前向计算结果与实际参数值间的差值，无限逼近1。当然，在实际中，收敛条件的内容还可以为其他形式，本实施例不对收敛条件的具体内容作限定。

在本步骤中，训练的具体实现方式为现有技术，这里不再赘述。

C3、将训练后的神经网络模型的计算过程，作为第一生成函数。

在本实施例中，将训练后的神经网络模型的计算过程，作为第一生成函数。即输入第一生成函数的参数，经过第一生成函数的计算结果，就是经过训练后的神经网络模型的前向计算的结果。

B2、将提取参数值作为第一生成函数的输入，经过第一生成函数的计算结果为波形的实际参数值。

在本步骤中，将提取参数值作为第一生成函数的输入，经过第一生成函数的计算结果为波形的实际参数值。

S303、依据实际参数值进行插值计算，还原出音频文件指示的音频数据。

在本实施例中，得到的实际参数值包括：波形时长、振幅均值，以及各个极值点的振幅和时刻取值。其中，振幅均值表示波形的振幅的均值，因此，通过极值点的振幅值与振幅均值进行比较，即可得到每个极值点是极大值点还是极小值点。具体的，如果极值点的振幅值大于振幅均值，则该极值点为极大值点，否则，该极值点为极小值点。

在本步骤中，依据实际参数值中的波形时长、振幅均值，以及各个极值点的振幅和时刻取值，以及基于振幅均值确定出的各极值点是极大值点还是极小值点，可以确定出波形的形状。在本步骤中，通过插值算法对确定出的波形进行插值，得到插值后的波形。该插值后的波形就是音频文件指示的音频数据。

在本实施例中，为了使得播放的音频数据具有更好的音效，在本实施例中，解析器从音频文件获取的信息还可以包括音质信息。其中，音质信息可以包括：混响参数、用于3D混响的听众和音源的3D空间位置信息和待模拟音效类型中的一种或多种。

在音质信息包括混响参数的情况下，在S303还原出音频文件指示的音频数据后，还可以对还原得到的音频数据进行混响处理，使得混响处理后得到的音频数据具有混响效果。其中，对还原出的音频数据进行混响处理的过程可以包括以下S304～S305。

S304、将还原出的音频数据从时域转换为频域，得到频域音频数据。

在本步骤中，将还原出的音频数据从时域转换为频域的具体实现过程为现有技术，这里不再赘述。为了描述方便，将转换的结果称为频域音频数据。

S305、依据混响参数，对频域音频数据进行混响计算，得到频域混响音频数据。

在本实施例中，混响参数可以包括：反射次数和干湿度信息。在本步骤中，依据反射次数和干湿度信息，对频域音频数据进行混响计算的具体实现过程为现有技术，这里不再赘述。

在本步骤中，为了描述方便，将混响计算的结果称为频域混响音频数据。

S306、将频域混响音频数据转换为时域，得到混响音频数据。

在本步骤中，将频域混响音频数据转换为时域，其中，转换的具体实现方式为现有技术，这里不再赘述。在本步骤中，为了描述方便，将转换为时域得到的结果，称为混响音频数据。

在本实施例中，对混响音频数据进行播放，具有混响播放效果。

在本实施例中，为了使得对混响音频数据进行播放，还具有3D空间混响的效果，在得到混响音频数据后，还需要执行S307的操作。

S307、在混响音频数据为多声道混响音频数据的情况下，对混响音频数据进行3D空间混响计算，得到3D空间混响音频数据。

在本实施例中，对混响音频数据进行3D空间混响计算，需要混响音频数据为多声道混响音频数据。在混响音频数据为多声道的情况下，在本步骤中，依据听众和声源的3D空间位置，对混响音频数据进行3D空间混响计算，其中，3D空间混响计算的具体实现过程为现有技术，这里不再赘述。

在本步骤中，为了描述方便，将3D空间混响计算得到的结果称为3D空间混响音频数据。

在本实施例中，播放3D空间混响音频数据，具有3D空间混响效果。

在本实施例中，解析器不仅可以依据音频文件中的信息，还原出音频文件指示的音频数据，还具有将音频文件指示的音频数据转换为指定的模拟音效的音频数据。其中，指定的模拟音效信息保存在音频文件中。例如，指定的模拟音效可以为指定的乐器或物体发出的音色。其中，具体的实现过程可以包括以下S308～S309：

S308、依据提取参数值，生成目标音频数据的波形的实际参数值。

在本步骤中，目标音频数据指：将音频文件指示的音频数据转换为具有指定模拟音效类型的音频数据。

可选的，在本步骤中，生成过程可以采用第二生成函数进行实现。具体的，将提取参数值作为第二生成函数的输入，经过第二生成函数的计算，得到目标音频数据的波形的实际参数值。

可选的，第二生成函数的获取方式可以包括：通过深度学习的方式对神经网络模型进行训练。其中，训练样本为事先获取的音频数据的波形的提取参数值，以及该音频数据对应的具有指定模拟音效的波形的实际参数值。其中，具体的训练过程为现有技术，这里不再赘述。

S309、依据目标音频数据的波形的实际参数值进行插值计算，还原出目标音频数据。

在本步骤中，依据目标音频数据的波形的实际参数值进行插值，还原出目标音频数据的原理，可以参考S303，这里不再赘述。

需要说明的是，上述S304～S309都是可选步骤。

图4为本申请实施例提供的一种生成器，可以包括：第一获取模块401、提取模块402、第一生成模块403和发送模块404，其中，

第一获取模块401，用于获取待生成音频文件的音频数据；

提取模块402，用于从所述音频数据的波形中提取参数值；所述参数值包括：所述波形的时长、振幅均值，以及极值点的振幅和时刻取值；

第一生成模块403，用于至少将所述参数值生成音频文件；

发送模块404，用于将所述音频文件发送给解析器。

可选的，提取模块402，用于从所述音频数据的波形中提取极值点的振幅和时刻取值，包括：

提取模块402，具体用于从所述音频数据的波形中，每隔预设时长进行采样，得到多个采样点数据；在相邻两个采样点数据满足预设的极值点条件的情况下，将所述波形上所述相邻采样点的中间点的振幅和时刻取值，作为极值点的振幅和时刻取值。

可选的，所述第一生成模块403，用于至少将所述参数值生成音频文件，包括：

第一生成模块403，具体用于将所述参数值以及音质信息，生成音频文件；所述音质信息为混响参数、用于3D空间混响的听众与声源的3D空间位置和待模拟音效类型中的至少一种。

图5为本申请实施例提供的一种解析器，可以包括：第二获取模块501、第二生成模块502和还原模块503，其中，

第二获取模块501，用于在接收到生成器发送的音频文件后，获取所述音频文件中的信息；所述信息包括提取参数值；所述提取参数值为从所述音频文件指示的波形中提取的时长、振幅均值、以及极值点的振幅和时刻取值；

第二生成模块502，用于依据所述提取参数值，生成所述波形的实际参数值；

还原模块503，用于依据所述实际参数值进行插值计算，还原出所述音频文件指示的音频数据。

可选的，所述第二生成模块502，用于依据所述提取参数值，生成所述波形的实际参数值，包括：

第二生成模块502，具体用于获取第一生成函数；所述第一生成函数用于将波形的提取参数值转换为实际参数值；将所述提取参数值作为所述第一生成函数的输入，经过所述第一生成函数的计算结果为所述波形的实际参数值。

可选的，解析器还可以包括第三生成模块，用于生成第一生成函数；

所述第三生成模块，用于生成所述第一生成函数，包括：

所述第三生成模块，具体用于获取训练样本；所述训练样本包括：事先获取的音频数据的波形的提取参数值和对应的实际参数值；采用所述训练样本，通过深度学习方式对预设的神经网络模型进行训练，直至达到预设的收敛条件；将训练后的神经网络模型的计算过程，作为所述第一生成函数。

可选的，所述信息还包括：混响参数；

该解析器还包括：

混响处理模块，用于在所述还原模块503依据所述实际参数值进行插值计算，还原出所述音频文件指示的音频数据之后，将还原出的音频数据从时域转换为频域，得到频域音频数据；依据所述混响参数，对所述频域音频数据进行混响计算，得到频域混响音频数据；将所述频域混响音频数据转换为时域，得到混响音频数据。

可选的，所述信息还包括：用于3D混响的听众和音源的3D空间位置信息；该解析器还可以包括：3D空间混响处理模块，用于在所述混响音频数据为多声道混响音频数据的情况下，对所述混响音频数据进行3D空间混响计算，得到3D空间混响音频数据。

可选的，所述信息还包括：待模拟音效类型；该解析器还可以包括：

模拟音效转换模块，用于依据所述提取参数值，生成目标音频数据的波形的实际参数值；所述目标音频数据指：将所述音频文件指示的音频数据转换为具有所述待模拟音效类型的音频数据；依据所述目标音频数据的波形的实际参数值进行插值计算，还原出所述目标音频数据。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，本说明书中各实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本申请。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频文件的生成方法，其特征在于，应用于生成器，包括：

获取待生成音频文件的音频数据；

至少将所述参数值生成音频文件；

将所述音频文件发送给解析器；

从所述音频数据的波形中提取极值点的振幅和时刻取值，包括：

2.根据权利要求1所述的方法，其特征在于，所述至少将所述参数值生成音频文件，包括：

3.一种音频文件的解析方法，其特征在于，应用于解析器，包括：

在接收到生成器发送的音频文件后，获取所述音频文件中的信息；所述信息包括提取参数值；所述提取参数值为从所述音频文件指示的音频数据的波形中提取的时长、振幅均值、以及极值点的振幅和时刻取值；

从所述音频文件指示的音频数据的波形中提取极值点的振幅和时刻取值，包括：

在相邻两个采样点数据满足预设的极值点条件的情况下，将所述波形上所述相邻采样点的中间点的振幅和时刻取值，作为极值点的振幅和时刻取值；

依据所述提取参数值，生成所述波形的实际参数值；

4.根据权利要求3所述的方法，其特征在于，所述依据所述提取参数值，生成所述波形的实际参数值，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一生成函数的生成方式，包括：

6.根据权利要求3所述的方法，其特征在于，所述信息还包括：混响参数；

将所述频域混响音频数据转换为时域，得到混响音频数据。

7.根据权利要求6所述的方法，其特征在于，所述信息还包括：用于3D混响的听众和音源的3D空间位置信息；

8.根据权利要求3所述的方法，其特征在于，所述信息还包括：待模拟音效类型；所述方法还包括：

9.一种生成器，其特征在于，包括：

第一获取模块，用于获取待生成音频文件的音频数据；

第一生成模块，用于至少将所述参数值生成音频文件；

发送模块，用于将所述音频文件发送给解析器；

所述提取模块，具体用于从所述音频数据的波形中，每隔预设时长进行采样，得到多个采样点数据；在相邻两个采样点数据满足预设的极值点条件的情况下，将所述波形上所述相邻采样点的中间点的振幅和时刻取值，作为极值点的振幅和时刻取值。

10.一种解析器，其特征在于，包括：

第二获取模块，用于在接收到生成器发送的音频文件后，获取所述音频文件中的信息；所述信息包括提取参数值；所述提取参数值为从所述音频文件指示的音频数据的波形中提取的时长、振幅均值、以及极值点的振幅和时刻取值；