CN118136030A - 音频处理方法、装置、存储介质和电子设备 - Google Patents
音频处理方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN118136030A CN118136030A CN202410438079.XA CN202410438079A CN118136030A CN 118136030 A CN118136030 A CN 118136030A CN 202410438079 A CN202410438079 A CN 202410438079A CN 118136030 A CN118136030 A CN 118136030A
- Authority
- CN
- China
- Prior art keywords
- waveform
- spectrum
- decoding
- frequency spectrum
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 165
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 230000006835 compression Effects 0.000 claims abstract description 16
- 238000007906 compression Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 27
- 238000013139 quantization Methods 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 14
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 4
- 230000006837 decompression Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 14
- 230000006854 communication Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种音频处理方法、装置、存储介质和电子设备,该方法为:对第一波形进行改进离散余弦变换,以获得第一频谱,第一波形为目标音频压缩前的原始波形;通过将第一频谱输入至预先训练所得的编解码模型,得到编解码模型输出的第二频谱;对第二频谱进行逆改进离散余弦变换,以获得第二波形,第二波形为目标音频解压缩后的重建波形。该方法基于编解码模型将第一频谱作为编码、量化和解码的对象,以获得第二频谱,最后通过对第二频谱进行逆改进离散余弦变换,得到目标音频解压缩后的重建波形,能够在高采样率和低比特率场景下实现高质量的音频编解码,并且编解码模型具有模型参数小、训练速度快、生成速度快的特点。
Description
技术领域
本申请涉及音频处理领域,尤其涉及一种音频处理方法、装置、存储介质和电子设备。
背景技术
音频编解码器是数字音频处理的重要研究内容,旨在于对音频进行压缩以减少表示音频所需的数据大小,同时保证可接受的解码音频质量。音频编解码器可以广泛应用于音频通信、音频压缩和一些下游任务,如语音合成等。近年来,人们越来越关注高采样率的编解码器,这对高质量的通信或语音合成非常重要。然而,采样率的增加不可避免地会导致更高的比特率,并对压缩效率和传输成本产生负面影响。
目前,端到端的神经网络波形音频编解码器成为主流,虽然它们的解码音频质量较高,但受限于对音频波形的直接编码和解码,低比特率压缩仍然是一个难以突破的瓶颈,并且模型复杂度仍然较高、生成效率仍然较低。
发明内容
本申请提供了一种音频处理方法、装置、存储介质和电子设备,目的在于实现高质量的音频编解码。
为了实现上述目的,本申请提供了以下技术方案:
一种音频处理方法,包括:
对第一波形进行改进离散余弦变换,以获得第一频谱;所述第一波形为目标音频压缩前的原始波形;
通过将所述第一频谱输入至预先训练所得的编解码模型,得到所述编解码模型输出的第二频谱;
对所述第二频谱进行逆改进离散余弦变换,以获得第二波形;所述第二波形为所述目标音频解压缩后的重建波形;
其中,所述编解码模型包括:
编码器,用于对所述第一频谱进行编码,得到连续码;
量化器,用于对所述连续码进行离散化,得到离散特征,以及根据预设的码本,生成与所述离散特征对应的量化码;
解码器,用于对所述量化码进行解码,得到所述第二频谱;所述第二频谱与所述第一频谱之间的相似度符合指定条件。
可选的,所述编码器包括:
输入卷积层、归一化层、特征处理结构、线性层、下采样卷积层以及输出卷积层;其中,所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
可选的,所述量化器包括:
多个残差向量量化器。
可选的,所述解码器包括:
输入卷积层、归一化层、特征处理结构、线性层、上采样卷积层以及输出卷积层;其中,所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
可选的,所述编解码模型基于生成对抗网络训练得到,其中,所述生成对抗网络包括生成器以及判别器,所述生成器包括所述编解码模型;
基于所述生成对抗网络,训练得到所述编解码模型的过程,包括:
对样本波形进行改进离散余弦变换,得到频谱样本;所述样本波形包括样本音频压缩前的原始波形;
将所述频谱样本作为所述生成器的输入,得到所述生成器输出的解码频谱;
对所述解码频谱进行逆改进离散余弦变换,得到解码波形;
将所述样本波形以及所述解码波形输入至所述判别器中,得到所述判别器输出的判别值;
基于所述判别值定义对抗损失,对所述生成器和所述判别器进行对抗训练,以获得所述编解码模型。
可选的,所述判别器包括多个子判别器,每个所述子判别器以基于所述样本波形所确定的第三频谱,以及基于所述解码波形所确定的第四频谱作为输入,且每个所述子判别器各自所得的第三频谱的分辨率不相同,各自所得的第四频谱的分辨率不相同。
可选的,基于所述判别值定义对抗损失,对所述生成器和所述判别器进行对抗训练,以获得所述编解码模型,包括:
基于所述判别值定义对抗损失,结合谱级损失、量化损失以及预设的特征匹配损失,对所述生成器和所述判别器进行对抗训练,以获得所述编解码模型;
其中,所述谱级损失基于所述频谱样本与所述解码频谱之间的差异,以及所述样本波形与所述解码波形之间的梅尔谱差异所确定;所述量化损失基于所述量化器的输入与输出之间的均方误差,以及所述量化器中各个残差向量量化器的输入与输出之间的均方误差所确定。
一种音频处理装置,包括:
波形变换单元,用于对第一波形进行改进离散余弦变换,以获得第一频谱;所述第一波形为目标音频压缩前的原始波形;
编解码单元,用于通过将所述第一频谱输入至预先训练所得的编解码模型,得到所述编解码模型输出的第二频谱;其中,所述编解码模型包括:编码器,用于对所述第一频谱进行编码,得到连续码;量化器,用于对所述连续码进行离散化,得到离散特征,以及根据预设的码本,生成与所述离散特征对应的量化码;解码器,用于对所述量化码进行解码,得到所述第二频谱;所述第二频谱与所述第一频谱之间的相似度符合指定条件;
频谱变换单元,用于对所述第二频谱进行逆改进离散余弦变换,以获得第二波形;所述第二波形为所述目标音频解压缩后的重建波形。
可选的,所述编码器包括:
输入卷积层、归一化层、特征处理结构、线性层、下采样卷积层以及输出卷积层;其中,所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
可选的,所述量化器包括:
多个残差向量量化器。
可选的,所述解码器包括:
输入卷积层、归一化层、特征处理结构、线性层、上采样卷积层以及输出卷积层;其中,所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
可选的,所述编解码单元具体用于:
所述编解码模型基于生成对抗网络训练得到,其中,所述生成对抗网络包括生成器以及判别器,所述生成器包括所述编解码模型;
基于所述生成对抗网络,训练得到所述编解码模型的过程,包括:
对样本波形进行改进离散余弦变换,得到频谱样本;所述样本波形包括样本音频压缩前的原始波形;
将所述频谱样本作为所述生成器的输入,得到所述生成器输出的解码频谱;
对所述解码频谱进行逆改进离散余弦变换,得到解码波形;
将所述样本波形以及所述解码波形输入至所述判别器中,得到所述判别器输出的判别值;
基于所述判别值定义对抗损失,对所述生成器和所述判别器进行对抗训练,以获得所述编解码模型。
可选的,所述判别器包括多个子判别器,每个所述子判别器以基于所述样本波形所确定的第三频谱,以及基于所述解码波形所确定的第四频谱作为输入,且每个所述子判别器各自所得的第三频谱的分辨率不相同,各自所得的第四频谱的分辨率不相同。
可选的,所述编解码单元具体用于:
基于所述判别值定义对抗损失,结合谱级损失、量化损失以及预设的特征匹配损失,对所述生成器和所述判别器进行对抗训练,以获得所述编解码模型;
其中,所述谱级损失基于所述频谱样本与所述解码频谱之间的差异,以及所述样本波形与所述解码波形之间的梅尔谱差异所确定;所述量化损失基于所述量化器的输入与输出之间的均方误差,以及所述量化器中各个残差向量量化器的输入与输出之间的均方误差所确定。
一种存储介质,所述存储介质包括存储的程序,其中,所述程序被处理器运行时执行所述的音频处理方法。
一种电子设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序被处理器运行时执行所述的音频处理方法。
本申请提供的技术方案,对第一波形进行改进离散余弦变换,以获得第一频谱,第一波形为目标音频压缩前的原始波形。通过将第一频谱输入至预先训练所得的编解码模型,得到编解码模型输出的第二频谱。对第二频谱进行逆改进离散余弦变换,以获得第二波形,第二波形为目标音频解压缩后的重建波形。本申请基于编解码模型将第一频谱作为编码、量化和解码的对象,以获得第二频谱,最后通过对第二频谱进行逆改进离散余弦变换,得到目标音频解压缩后的重建波形,能够在高采样率和低比特率场景下实现高质量的音频编解码。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种音频处理方法的流程示意图;
图2为本申请实施例提供的一种生成对抗网络训练过程的示意图;
图3为本申请实施例提供的一种音频处理装置的架构示意图;
图4为本申请实施例提供的一种编解码模型的架构示意图;
图5为本申请实施例提供的一种编码器的架构示意图;
图6为本申请实施例提供的一种量化器的架构示意图;
图7为本申请实施例提供的一种解码器的架构示意图;
图8为本申请实施例提供的一种网络架构示意图;
图9为本申请实施例提供的另一种网络架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
实施例一
如图1所示,为本申请实施例提供的一种音频处理方法的流程示意图,包括如下所示步骤。
S101:对第一波形进行改进离散余弦变换,以获得第一频谱。
其中,第一波形为目标音频压缩前的原始波形。
需要说明的是,音频(Audio)是带有语音、音乐和音效的有规律的声波的频率、幅度变化的信息载体。根据声波的特征,可以把音频信息分类为规则音频和不规则声音,规则音频可视为一种连续变化的模拟信号,并使用一条连续的曲线(即声波)来表示。一般来讲,音频所涉及的参数包括通道数(声道数)、采样率、位深、帧数、以及波形图(振幅图)。
所谓的声道数是在采集(录制)声音时引入的概念,即用几个通道去录制声音。一般来说,单声道和双声道的音频文件较为常见。例如在声源的不同位置放置通道去录制,则可以获得多通道的音频数据。
所谓的采样率是指每秒钟内采集的样本个数,每个通道分别采集。音频文件的采样率通常较高,例如44100Hz、32000Hz等。
所谓的位深又称之为量化精度、位宽,表示一个样本值采用多少bit来表示,用的bit越多则越接近样本的原值。例如若用3个bit表示,则只有2的3次方,也就是8个不同的值,而若用16bit、24bit或更多的bit去量化样本值,则表示的不同指就越多,从而音频听起来就更逼真。
所谓的帧数也就是样本个数,可以是一个通道(声道)的总帧数,也可以是所有通道的总帧数,计算公式为:样本个数=文件的大小/位深精度/通道数。
所谓的波形图是音频的振幅(或能量)这个维度的图形表达。波形图的横坐标一般为时间,纵坐标一般为dB(即分贝)来表示;有的时候只关心振幅的趋势,那就对振幅进行归一化为[-1,1]范围内。
可以理解的是,在对目标音频进行压缩前,可通过解析目标音频得到第一波形。
需要说明的是,改进离散余弦变换(Modified Discrete Cosine Transform,MDCT),是一种线性正交叠变,MDCT使用了一种时域混叠抵消技术,包含50%的时域交叠窗,在不降低编码性能的情况下有效地克服加窗离散余弦变换(Discrete Cosine Transform,DCT)块处理运算中的边缘效应,从而有效地去除由边缘效应产生的周期化噪声,在相同编码率的情况下,MDCT广泛应用于语音、宽带音频和图像信号的变换编码中。
S102:通过将第一频谱输入至预先训练所得的编解码模型,得到编解码模型输出的第二频谱。
其中,编解码模型包括:编码器,用于对第一频谱进行编码,得到连续码;量化器,用于对连续码进行离散化,得到离散特征,以及根据预设的码本,生成与离散特征对应的量化码;解码器,用于对量化码进行解码,得到第二频谱;第二频谱与第一频谱之间的相似度符合指定条件。
如图4所示,为本申请实施例提供的一种编解码模型的结构示意图,按照图4所示的结构,编解码模型对第一频谱的处理流程为:编码器将第一频谱编码为对应的连续码;量化器采用指定的残差向量量化策略,将连续码离散化,生成对应的离散特征,以及通过查询码本的方式,生成与离散特征对应的量化码;解码器以量化码为输入,解码出第二频谱。
在一些示例中,第二频谱与第一频谱之间的相似度符合指定条件,该指定条件可以为相似度大于指定阈值(例如99%)。一般来讲,第二频谱与第一频谱之间的相似度符合指定条件,则可确定第一频谱经由编解码器压缩重建后所得的第二频谱,能够完整还原第一频谱的所有特征。
可选的,参见图5所示,编码器包括输入卷积层、归一化层、特征处理结构、线性层、下采样卷积层以及输出卷积层;其中,特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
按照图5所示的结构,在编码器中,输入的第一频谱首先通过输入卷积层和归一化层,经由输入卷积层进行特征提取,以及归一化层进行归一化处理,得到对应的频谱特征,然后通过特征处理结构对频谱特征进行深度处理,得到第一残差连接特征,第一残差连接特征依次通过归一化层和线性层后,输入至下采样卷积层,经由下采样卷积层对第一残差连接特征进行下采样,以降低第一残差连接特征的时间分辨率,最后,下采样后的第一残差连接特征通过输出卷积层进行维度降低,以输出连续码。
在一些示例中,假设第一波形x∈RT的采样率为fs,通过对第一波形x进行MDCT所得的第一频谱的帧移为ws,第一频谱的采样率为fs/ws,且T=N·ws成立,T代表第一波形的波形长度,N代表第一频谱的帧数。
在可能的实施方式中,经由图5所示的结构对第一频谱进行编码,所得到的连续码为C∈R(N/D)×K',其中K'<K,K代表第一频谱的频率点数。减小连续码C的维度可以减小后续量化过程中码本的维度,有利于码本的存储和传输。此外,连续码C的采样率为fs/ws/D,D为下采样卷积层的下采样倍数。
需要说明的是,特征处理结构可采用ConvNeXtv2网络,ConvNeXtv2网络包括多个级联的改进的ConvNeXtv2块,在每个改进的ConvNeXtv2块中,频谱特征依次通过深度(depth-wise)卷积层、前馈层、高斯误差线性单元(Gaussian errorlinearunit,GELU)以及残差连接结构,以获得第一残差连接特征。
在一些示例中,前馈层可视为一个实现将频谱特征映射到更高维度的线性层,残差连接结构可视为一个实现将频谱特征映射到原始低维度的线性层。
可选的,参见图6所示,量化器包括多个残差向量量化器,残差向量量化器包括采用残差向量化策略的向量量化器。
按照图6所示的结构,在量化器中,量化器将连续码为C∈R(N/D)×K'离散化,并根据可训练的码本生成量化码量化器由基于采用残差向量量化(ResidualVector Quantization,RVQ)策略的Q个向量量化器(Vector Quantization,VQ)所组成,每个残差向量量化器都有一个可训练的码本B∈RK'×M,其中,M代表向量个数。
在一些示例中,连续码的量化过程可以为:对于第一残差向量量化器,其输入是连续码C,令L1=C,以L1的第i帧为例,首先计算/>与码本B1中的每一个向量之间的欧几里得距离,然后选择最小欧几里得距离对应的B1中的向量作为量化码/>并且存储该向量在B1中的索引记为/>为此对于所有帧,量化码可以表示为/>相应的索引向量可以表示为最后计算量化残差/>作为下一个残差向量量化器的输入,以此类推,重复上述过程直到最后一个残差向量量化器的运算结束,量化器最终生成的量化码为每个残差向量量化器的输出总和,即/>
需要强调的是,索引向量m1,m2,...,mQ可视为离散特征,该离散特征可根据二进制形式在端与端之间进行传输,并且,基于该离散特征作为压缩数据进行传输存储的编码比特率可记为公式(1)所示。
可选的,参见图7所示,解码器包括输入卷积层、归一化层、特征处理结构、线性层、上采样卷积层以及输出卷积层,其中,特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
按照图7所示的结构,在解码器中,输入的量化码首先通过输入卷积层和归一化层,经由输入卷积层进行维度恢复,以及归一化层进行归一化处理,得到对应的量化特征,然后通过特征处理结构对量化特征进行深度处理,得到第二残差连接特征,第二残差连接特征依次通过归一化层和线性层后,输入至上采样卷积层,经由上采样卷积层对第二残差连接特征进行上采样,以提高第二残差连接特征的时间分辨率,最后上采样后的第二残差连接特征通过输出卷积层进行维度降低,以输出第二频谱。
需要注意的是,编码器中的下采样卷积层可用于扩大第一残差连接特征的帧移,从而降低时间分辨率以减小编码比特率,解码器中的上采样卷积层则对应地恢复时间分辨率。
在一些示例中,解码器和编码器各自的结构可以视为镜像的,编码器所实现的编码流,以及解码器所实现的解码流,可参见图8所示。
可以理解的是,对于编解码器模型而言,把第一频谱视为参数特征并用于编码、量化和解码,而不是直接对第一波形进行编码、量化和解码,可有效降低上采样操作复杂度以及下采样操作复杂度,从而降低编解码器模型的建模难度。
可选的,编解码模型基于生成对抗网络训练得到,其中,生成对抗网络包括生成器以及判别器,生成器包括编解码模型,相应的,基于生成对抗网络,训练得到编解码模型的过程,可以参见图2所示步骤以及步骤的解释说明。
S103:对第二频谱进行逆改进离散余弦变换,以获得第二波形。
其中,第二波形为目标音频解压缩后的重建波形。利用第二波形可以还原得出高质量的目标音频,在数字音频处理领域中,能够有效满足高采样率和低比特率的场景。
在一些示例中,针对语音通信场景,S101-S103所示流程在语音通信中的实现过程,可以概括为:发送端首先对语音信号的原始波形进行改进离散余弦变换,以获得第一频谱,并将第一频谱输入至编码器,以生成连续码,然后利用量化器对连续码进行离散化,以得到离散特征,最后以二进制形式将离散特征发送至接收端;接收端在获得离散特征后,利用量化器生成离散特征所对应的量化码,并将量化码输入至解码器,以生成第二频谱,最后再对第二频谱进行逆改进离散余弦变换,以获得语音信号解压缩后的重建波形,实现完整的语音通信过程。
上述S101-S103所示流程,基于编解码模型将第一频谱作为编码、量化和解码的对象,以获得第二频谱,最后通过对第二频谱进行逆改进离散余弦变换,得到目标音频解压缩后的重建波形,能够在高采样率和低比特率场景下实现高质量的音频编解码,并且编解码模型具有模型参数小、训练速度快、生成速度快的特点,能够提高音频的编解码效率。
实施例二
如图2所示,为本申请实施例提供的一种生成对抗网络训练过程的示意图,包括如下所示步骤。
S201:对样本波形进行改进离散余弦变换,得到频谱样本。
其中,样本波形包括样本音频压缩前的原始波形。
S202:将频谱样本作为生成器的输入,得到生成器输出的解码频谱。
其中,将频谱样本作为生成器的输入,实质就是向未训练的编解码模型输入频谱样本,以获得编解码模型输出的解码频谱。
S203:对解码频谱进行逆改进离散余弦变换,得到解码波形。
其中,解码波形可以视为样本音频解压缩后的重建波形的预估。
S204:将样本波形以及解码波形输入至判别器中,得到判别器输出的判别值。
可选的,判别器包括多个子判别器,每个子判别器以基于样本波形所确定的第三频谱,以及基于解码波形所确定的第四频谱作为输入,且每个子判别器各自所得的第三频谱的分辨率不相同,各自所得的第四频谱的分辨率不相同。
在一些示例中,判别器包括3个子判别器,分别记为Di(i=1,2,3),每个子判别器都从样本波形以及解码波形中提取对应的频谱作为输入,且每个子判别器提取频谱时的配置不同,使得每个子判别器所得频谱的分辨率不同,从而使得判别器能够对多种分辨率的频谱进行判别。
在可能的实施方式中,参见图9所示,每个子判别器的输入首先由5个级联的块进行处理,每个块由二维卷积层和LeakyReLU激活函数组成,经由5个级联的块进行处理后所得的判别结果,经由单通道的二维卷积层输出。
可以理解的是,基于判别器输出的判别值,可以判定样本波形与解码波形之间的相似度,从而基于样本波形与解码波形之间的相似度,调整生成对抗网络的网络参数。
S205:基于判别值定义对抗损失,对生成器和判别器进行对抗训练,以获得编解码模型。
其中,生成对抗网络可采用Hinge形式的对抗损失,对于生成器和判别器,生成器所对应的生成对抗损失如公式(2)所示,判别器所对应的判别对抗损失如公式(3)所示。
在公式(2)和(3)中,x、均代表判别器的输入。
需要说明的是,为了提高对抗训练的鲁棒性,以使得编解码模型的训练结果更加准确,可以结合其他损失,对生成器和判别器进行对抗训练。
可选的,可以基于判别值定义对抗损失,结合谱级损失、量化损失以及预设的特征匹配损失,对生成对抗网络进行对抗训练,以获得编解码模型,其中,谱级损失基于频谱样本与解码频谱之间的差异,以及样本波形与基于解码波形之间的梅尔谱差异所确定,量化损失基于量化器的输入与输出之间的均方误差,以及量化器中各个残差向量量化器的输入与输出之间的均方误差所确定。
在一些示例中,频谱样本与解码频谱之间的差异可以视为MDCT谱损失,样本波形与解码波形之间的梅尔谱差异可视为梅尔谱损失,量化器的输入与输出之间的均方误差可视为承诺损失,量化器中各个残差向量量化器的输入与输出之间的均方误差可视为码本损失。一般来讲,承诺损失可用于调整编码器的参数,码本损失可用于调整量化器的参数。
在可能的实施方式中,对抗损失结合谱级损失、量化损失以及预设的特征匹配损失的总和,可充当生成器所对应的对抗损失LG,详情可以参见公式(4)所示。
LG=Ladv-G+LFM+λMDCTLMDCT+λMelLMel+λcbLcb+λcomLcom (4)
在公式(4)中,Ladv-G代表生成对抗损失,LFM代表特征匹配损失,LMDCT代表MDCT谱损失,LMel代表梅尔谱损失,Lcb代表码本损失,Lcom代表承诺损失,λMDCT、λMel、λcom、λcb代表超参数。在生成对抗网络的对抗训练过程中,使用LG和Ladv-D交替训练生成器和判别器。
上述S201-S205所示流程,利用生成对抗网络训练得到编解码模型,以使得编解码模型可基于频谱作为输入,避免直接对音频波形进行编解码,以实现在低比特率下的高质量高效率的编解码。
实施例三
与上述本申请提供的音频处理方法相对应,本申请实施例还提供了一种音频处理装置。
如图3所示,为本申请实施例提供的一种音频处理装置的架构示意图,包括如下所示单元。
波形变换单元100,用于对第一波形进行改进离散余弦变换,以获得第一频谱;第一波形为目标音频压缩前的原始波形。
编解码单元200,用于通过将第一频谱输入至预先训练所得的编解码模型,得到编解码模型输出的第二频谱;其中,编解码模型包括:编码器,用于对第一频谱进行编码,得到连续码;量化器,用于对连续码进行离散化,得到离散特征,以及根据预设的码本,生成与离散特征对应的量化码;解码器,用于对量化码进行解码,得到第二频谱;第二频谱与第一频谱之间的相似度符合指定条件。
可选的,编码器包括:输入卷积层、归一化层、特征处理结构、线性层、下采样卷积层以及输出卷积层;其中,特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
可选的,量化器包括:多个残差向量量化器。
可选的,解码器包括:输入卷积层、归一化层、特征处理结构、线性层、上采样卷积层以及输出卷积层;其中,特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
可选的,编解码单元200具体用于:编解码模型基于生成对抗网络训练得到,其中,生成对抗网络包括生成器以及判别器,生成器包括编解码模型;基于生成对抗网络,训练得到编解码模型的过程,包括:对样本波形进行改进离散余弦变换,得到频谱样本;样本波形包括样本音频压缩前的原始波形;将频谱样本作为生成器的输入,得到生成器输出的解码频谱;对解码频谱进行逆改进离散余弦变换,得到解码波形;将样本波形以及解码波形输入至判别器中,得到判别器输出的判别值;基于判别值定义对抗损失,对生成器和判别器进行对抗训练,以获得编解码模型。
可选的,判别器包括多个子判别器,每个子判别器以基于样本波形所确定的第三频谱,以及基于解码波形所确定的第四频谱作为输入,且每个子判别器各自所得的第三频谱的分辨率不相同,各自所得的第四频谱的分辨率不相同。
可选的,编解码单元200具体用于:基于判别值定义对抗损失,结合谱级损失、量化损失以及预设的特征匹配损失,对生成器和判别器进行对抗训练,以获得编解码模型;其中,谱级损失基于频谱样本与解码频谱之间的差异,以及样本波形与解码波形之间的梅尔谱差异所确定;量化损失基于量化器的输入与输出之间的均方误差,以及量化器中各个残差向量量化器的输入与输出之间的均方误差所确定。
频谱变换单元300,用于对第二频谱进行逆改进离散余弦变换,以获得第二波形;第二波形为目标音频解压缩后的重建波形。
上述所示各个单元,基于编解码模型将第一频谱作为编码、量化和解码的对象,以获得第二频谱,最后通过对第二频谱进行逆改进离散余弦变换,得到目标音频解压缩后的重建波形,能够在高采样率和低比特率场景下实现高质量的音频编解码,并且编解码模型具有模型参数小、训练速度快、生成速度快的特点,能够提高音频的编解码效率。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本申请提供的音频处理方法。
本申请还提供了一种电子设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本申请提供的音频处理方法。
此外,本申请实施例中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种音频处理方法,其特征在于,包括:
对第一波形进行改进离散余弦变换,以获得第一频谱;所述第一波形为目标音频压缩前的原始波形;
通过将所述第一频谱输入至预先训练所得的编解码模型,得到所述编解码模型输出的第二频谱;
对所述第二频谱进行逆改进离散余弦变换,以获得第二波形;所述第二波形为所述目标音频解压缩后的重建波形;
其中,所述编解码模型包括:
编码器,用于对所述第一频谱进行编码,得到连续码;
量化器,用于对所述连续码进行离散化,得到离散特征,以及根据预设的码本,生成与所述离散特征对应的量化码;
解码器,用于对所述量化码进行解码,得到所述第二频谱;所述第二频谱与所述第一频谱之间的相似度符合指定条件。
2.根据权利要求1所述的方法,其特征在于,所述编码器包括:
输入卷积层、归一化层、特征处理结构、线性层、下采样卷积层以及输出卷积层;其中,所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
3.根据权利要求1所述的方法,其特征在于,所述量化器包括:
多个残差向量量化器。
4.根据权利要求1所述的方法,其特征在于,所述解码器包括:
输入卷积层、归一化层、特征处理结构、线性层、上采样卷积层以及输出卷积层;其中,所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。
5.根据权利要求1-4中任一所述的方法,其特征在于,所述编解码模型基于生成对抗网络训练得到,其中,所述生成对抗网络包括生成器以及判别器,所述生成器包括所述编解码模型;
基于所述生成对抗网络,训练得到所述编解码模型的过程,包括:
对样本波形进行改进离散余弦变换,得到频谱样本;所述样本波形包括样本音频压缩前的原始波形;
将所述频谱样本作为所述生成器的输入,得到所述生成器输出的解码频谱;
对所述解码频谱进行逆改进离散余弦变换,得到解码波形;
将所述样本波形以及所述解码波形输入至所述判别器中,得到所述判别器输出的判别值;
基于所述判别值定义对抗损失,对所述生成器和所述判别器进行对抗训练,以获得所述编解码模型。
6.根据权利要求5所述的方法,其特征在于,所述判别器包括多个子判别器,每个所述子判别器以基于所述样本波形所确定的第三频谱,以及基于所述解码波形所确定的第四频谱作为输入,且每个所述子判别器各自所得的第三频谱的分辨率不相同,各自所得的第四频谱的分辨率不相同。
7.根据权利要求5所述的方法,其特征在于,基于所述判别值定义对抗损失,对所述生成器和所述判别器进行对抗训练,以获得所述编解码模型,包括:
基于所述判别值定义对抗损失,结合谱级损失、量化损失以及预设的特征匹配损失,对所述生成器和所述判别器进行对抗训练,以获得所述编解码模型;
其中,所述谱级损失基于所述频谱样本与所述解码频谱之间的差异,以及所述样本波形与所述解码波形之间的梅尔谱差异所确定;所述量化损失基于所述量化器的输入与输出之间的均方误差,以及所述量化器中各个残差向量量化器的输入与输出之间的均方误差所确定。
8.一种音频处理装置,其特征在于,包括:
波形变换单元,用于对第一波形进行改进离散余弦变换,以获得第一频谱;所述第一波形为目标音频压缩前的原始波形;
编解码单元,用于通过将所述第一频谱输入至预先训练所得的编解码模型,得到所述编解码模型输出的第二频谱;其中,所述编解码模型包括:编码器,用于对所述第一频谱进行编码,得到连续码;量化器,用于对所述连续码进行离散化,得到离散特征,以及根据预设的码本,生成与所述离散特征对应的量化码;解码器,用于对所述量化码进行解码,得到所述第二频谱;所述第二频谱与所述第一频谱之间的相似度符合指定条件;
频谱变换单元,用于对所述第二频谱进行逆改进离散余弦变换,以获得第二波形;所述第二波形为所述目标音频解压缩后的重建波形。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序被处理器运行时执行权利要求1-7任一所述的音频处理方法。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序被处理器运行时执行权利要求1-7任一所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410438079.XA CN118136030A (zh) | 2024-04-11 | 2024-04-11 | 音频处理方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410438079.XA CN118136030A (zh) | 2024-04-11 | 2024-04-11 | 音频处理方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118136030A true CN118136030A (zh) | 2024-06-04 |
Family
ID=91239083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410438079.XA Pending CN118136030A (zh) | 2024-04-11 | 2024-04-11 | 音频处理方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118136030A (zh) |
-
2024
- 2024-04-11 CN CN202410438079.XA patent/CN118136030A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101213840B1 (ko) | 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치 | |
CN112767954B (zh) | 音频编解码方法、装置、介质及电子设备 | |
RU2530926C2 (ru) | Изменение формы шума округления для основанных на целочисленном преобразовании кодирования и декодирования аудио и видеосигнала | |
EP2254110B1 (en) | Stereo signal encoding device, stereo signal decoding device and methods for them | |
WO1998000837A1 (fr) | Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio | |
RU2505921C2 (ru) | Способ и устройство кодирования и декодирования аудиосигналов (варианты) | |
CN115050378B (zh) | 音频编解码方法及相关产品 | |
US20240127832A1 (en) | Decoder | |
JP3344944B2 (ja) | オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法 | |
JP2009253706A (ja) | 符号化装置、復号装置、符号化方法、復号方法及びプログラム | |
Kinsner | Compression and its metrics for multimedia | |
US7426462B2 (en) | Fast codebook selection method in audio encoding | |
JPH09106299A (ja) | 音響信号変換符号化方法および復号化方法 | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
Joseph et al. | Wavelet energy based voice activity detection and adaptive thresholding for efficient speech coding | |
CN116153320A (zh) | 语音信号联合降噪压缩方法和系统 | |
EP3248190B1 (en) | Method of encoding, method of decoding, encoder, and decoder of an audio signal | |
CN118136030A (zh) | 音频处理方法、装置、存储介质和电子设备 | |
Raj et al. | Audio signal quality enhancement using multi-layered convolutional neural network based auto encoder–decoder | |
RU2409874C9 (ru) | Сжатие звуковых сигналов | |
JP3348759B2 (ja) | 変換符号化方法および変換復号化方法 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
Abduljabbar et al. | A Survey paper on Lossy Audio Compression Methods | |
Akilan et al. | Research on the effectiveness of noise reduction when encoding a lossless speech signal | |
Yan | Audio compression via nonlinear transform coding and stochastic binary activation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |