CN117520828B

CN117520828B - 音频处理方法、装置、设备及存储介质

Info

Publication number: CN117520828B
Application number: CN202410017989.0A
Authority: CN
Inventors: 焦其金; 张洋; 张羽
Original assignee: Shenzhen Ruili Acoustics Technology Co ltd
Current assignee: Shenzhen Ruili Acoustics Technology Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-04-02
Anticipated expiration: 2044-01-05
Also published as: CN117520828A

Abstract

本发明提供了一种音频处理方法、装置、设备及存储介质，该方法包括：获取音频处理请求，并根据音频处理请求获取目标音频信号；对目标音频信号的当前播放场景进行音频采集，得到当前播放场景的场景音频信号，并对场景音频信号进行环境分析，得到当前播放场景的环境条件；对目标音频信号进行特征提取，得到对应的目标音频特征，并将目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；控制限幅器基于动态限制参数和环境条件对目标音频信号进行限制处理。本方法根据目标音频特征和环境条件预测出动态限制参数，使得限幅器能够根据实时情况进行自适应的限制处理。能够更加准确地控制音频信号的输出，提高处理质量。

Description

音频处理方法、装置、设备及存储介质

技术领域

本发明涉及音频处理领域，尤其涉及一种音频处理方法、装置、设备及存储介质。

背景技术

在音频制作和音乐产业中，音频限制处理是一个常见的技术，旨在确保音频信号在播放时具有适当的音量和平衡。随着音频产业的发展，音乐和广播领域对于更高音量的需求不断增加，这促使了对音频动态范围的限制处理的需求。在音频限制处理中，通常会使用到限幅器，限幅器是一种动态范围处理器，用于限制音频信号的幅度，将其限制在预设的范围内。它通过监测音频信号的振幅，并根据设定的阈值进行调整，使得超过阈值的部分被削减，从而控制音频信号的最大幅度，然而，由于限幅器是一种静态处理器，它会简单地削减超过阈值的信号部分。这可能导致整个音频信号的动态范围被压缩，使得音频听起来较为平坦，缺乏细节和冲击力。

发明内容

本发明的主要目的在于解决现有的使用限幅器进行音频处理容易导致音频缺乏细节和冲击力的技术问题。

本发明第一方面提供了一种音频处理方法，所述音频处理方法包括：

获取音频处理请求，并根据所述音频处理请求获取目标音频信号；

对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行环境分析，得到所述当前播放场景的环境条件；

对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；

控制所述限幅器基于所述动态限制参数和所述环境条件对所述目标音频信号进行限制处理，并在所述当前播放场景输出限制处理后的目标音频信号。

可选的，在本发明第一方面的第一种实现方式中，所述对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行环境分析，得到所述当前播放场景的环境条件包括：

对当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行特征提取，得到多种场景目标音频特征，其中，所述场景目标音频特征包括数值特征和图像特征；

将所述数值特征和图像特征输入预设的环境分类模型中，通过所述环境分类模型的注意力机制层分别计算所述数值特征和所述图像特征的注意力权重向量；

通过所述环境分类模型中的特征融合层根据所述权重向量对所述数值特征和所述图像特征进行加权融合，得到融合特征向量；

通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件。

可选的，在本发明第一方面的第二种实现方式中，所述通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件包括：

通过所述分类层将所述融合特征向量线性变换映射至高维特征空间，得到线性变换结果；

通过预设的激活函数对所述线性变换结果进行非线性变换，得到非线性变换结果；

通过所述分类层中的全连接层根据所述非线性变换结果计算所述场景音频信号的对应不同场景类别的概率；

将概率最高的场景类别作为所述场景音频信号的场景分类，得到所述当前播放场景的环境条件。

可选的，在本发明第一方面的第三种实现方式中，所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数包括：

对所述目标音频信号进行特征提取，得到所述目标音频信号的时频图谱特征；

将所述时频图谱特征输入所述限制参数预测模型中，其中所述限制参数预测模型包括循环层、注意力机制层和输出层；

通过所述循环层将所述时频图谱特征进行时间步划分，并生成所述时频图谱特征对应的第一隐藏状态和各时间步对应的第二隐藏状态；

根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力权重，并根据所述注意力权重对第一隐藏状态和所述第二隐藏状态进行加权求和，得到第三隐藏状态；

将所述第三隐藏状态输入至所述输出层，得到限幅器对应的动态限制参数。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力权重，并根据所述注意力权重对第一隐藏状态和所述第二隐藏状态进行加权求和，得到第三隐藏状态包括：

分别计算各时间步对应的第二隐藏状态与所述第一隐藏状态之间的相似度；

将所述相似度进行归一化处理，得到各时间步对应的注意力权重；

根据所述注意力权重对所述第二隐藏状态进行加权求和，得到注意力向量；

将所述注意力向量与所述第一隐藏状态进行融合处理，得到第三隐藏状态。

可选的，在本发明第一方面的第五种实现方式中，在所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数之前，还包括：

对获取历史音频信号以及所述历史音频信号对应的历史动态参数，并对所述历史音频信号进行数据预处理和特征提取，得到历史音频特征；

将所述历史音频特征输入预设的初始模型中，通过所述初始模型中的循环层、注意力机制层和输出层，得到限制参数预测结果；

根据所述限制参数预测结果和所述历史动态参数计算预设的损失函数值，并判断所述损失函数值是否小于预设损失阈值；

若否，则根据所述损失函数值对所述初始模型进行参数调整，并返回至将所述历史音频特征输入预设的初始模型中的步骤，直至所述损失函数值小于预设损失阈值；

若是，则将所述初始模型作为所述限制参数预测模型。

可选的，在本发明第一方面的第六种实现方式中，所述动态限制参数包括振幅阈值、压缩比、攻击时间、释放时间和输出增益；

所述控制所述限幅器基于所述动态限制参数和所述环境条件对所述目标音频信号进行限制处理，并在所述当前播放场景输出限制处理后的目标音频信号包括：

实时检测所述目标音频信号的动态范围是否大于所述动态限制参数中的振幅阈值；

若是，则根据所述环境条件确定所述目标音频信号的处理模式，并控制所述限幅器根据所述压缩比、攻击时间、释放时间和所述处理模式对所述目标音频信号进行压缩处理；

控制所述限幅器根据所述输出增益对所述压缩处理后的信号进行增益处理，并在所述当前播放场景输出增益处理后的目标音频信号。

本发明第二方面提供了一种音频处理装置，所述音频处理装置包括：

获取模块，用于获取音频处理请求，并根据所述音频处理请求获取目标音频信号；

环境分析模块，用于对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行环境分析，得到所述当前播放场景的环境条件；

参数预测模块，用于对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；

限制模块，用于控制所述限幅器基于所述动态限制参数和所述环境条件对所述目标音频信号进行限制处理，并在所述当前播放场景输出限制处理后的目标音频信号。

本发明第三方面提供了一种音频处理装置，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述音频处理设备执行上述的音频处理方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的音频处理方法的步骤。

上述音频处理方法、装置、设备及存储介质，通过获取音频处理请求，并根据音频处理请求获取目标音频信号；对目标音频信号的当前播放场景进行音频采集，得到当前播放场景的场景音频信号，并对场景音频信号进行环境分析，得到当前播放场景的环境条件；对目标音频信号进行特征提取，得到对应的目标音频特征，并将目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；控制限幅器基于动态限制参数和环境条件对目标音频信号进行限制处理。本方法根据目标音频特征和环境条件预测出动态限制参数，使得限幅器能够根据实时情况进行自适应的限制处理。能够更加准确地控制音频信号的输出，提高处理质量。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例中音频处理方法的一个实施例示意图；

图2为本发明实施例中音频处理装置的一个实施例示意图；

图3为本发明实施例中音频处理设备的一个实施例示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种音频处理方法进行详细介绍。如图1所示，该音频处理的方法，本方法包括如下步骤：

101、获取音频处理请求，并根据音频处理请求获取目标音频信号；

在本发明的一个实施例中，音频处理请求是用户或系统对音频进行处理的需求或指令。在实际应用中这些请求可能包括对音频的特定效果处理（如混响、失真、压缩等）、音量调整、频谱平衡、去除杂音、剪辑和分割等。而在本实施例中，音频处理请求主要是用于请求对目标音频信号进行限制处理，音频处理请求可以来自于用户或音频处理系统的自动化流程。一旦获取了音频处理请求，接下来就是根据请求来获取目标音频信号，如果用户提供了原始音频文件，则直接使用该文件作为目标音频信号，如果用户提出了特定的音频处理需求，可以根据这些需求在已有的音频库中寻找相应的音频素材，如果用户需要实时处理，可以通过麦克风或其他音频输入设备获取目标音频信号，在自动化音频处理系统中，可以根据系统预设的规则、算法或机器学习模型来从大规模的音频数据集中挑选符合要求的目标音频信号。

102、对目标音频信号的当前播放场景进行音频采集，得到当前播放场景的场景音频信号，并对场景音频信号进行环境分析，得到当前播放场景的环境条件；

在本发明的一个实施例中，所述对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行环境分析，得到所述当前播放场景的环境条件包括：对当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行特征提取，得到多种场景目标音频特征，其中，所述场景目标音频特征包括数值特征和图像特征；将所述数值特征和图像特征输入预设的环境分类模型中，通过所述环境分类模型的注意力机制层分别计算所述数值特征和所述图像特征的注意力权重向量；通过所述环境分类模型中的特征融合层根据所述权重向量对所述数值特征和所述图像特征进行加权融合，得到融合特征向量；通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件。

具体的，音频采集是指使用专门的设备或软件工具收集环境中的声音并将其转换为数字音频信号的过程。常见的音频采集设备包括麦克风、录音设备、音频接口等。音频采集可以通过直接连接到音频源设备（如混音台、音频接口等）或使用麦克风捕捉环境声音来进行。在本实施例中，目标音频信号是特定需要处理的音频信号，可以是用户提供的原始音频文件、系统从音频库中选择的音频素材或实时通过麦克风采集的音频信号。目标音频信号是需要进行音频处理的对象。而场景音频信号是指某个特定的播放场景中的所有音频信号，包括环境声音、背景音乐、人声等。场景音频信号是对整个播放场景中的声音进行采集和记录的结果。

具体的，在本实施例中，进行特征提取后，提取到的数值特征包括振幅、频谱特征、时域特征和持续时间等，图像特征可以包括梅尔频谱图、声波图像和瀑布图等，其中，对于梅尔频谱图，通过对目标音频信号分帧和加窗处理，得到一帧一帧的短时音频信号。然后，对每一帧进行傅立叶变换，得到短时傅立叶频谱，包括幅度和相位两种特征。通过对短时傅里叶谱的复数值取绝对值或平方值，可以消除相位信息，得到幅度谱。接下来，将幅度谱通过梅尔滤波器进行处理，得到梅尔谱。最后，对梅尔谱进行对数运算，得到对数梅尔谱。

具体的，在实际应用中，因为振幅、频谱特征、时域特征和持续时间等数据都是数值数据，而关梅尔频谱图、声波图像和瀑布图是图像数据，因此可以使用融合多种类型特征的神经网络模型对数值数据和梅尔频谱图、声波图像和瀑布图进行处理，融合多种类型特征的神经网络模型可以使用多输入模型、深度融合模型或注意力融合模型，其中，多输入模型可以将数值数据和图像数据分别作为不同的输入层，并通过连接层将它们合并为一个模型。这种方法可以使用常见的卷积神经网络，如ResNet、EfficientNet等，或视觉Transformer来处理图像数据，并使用全连接层来处理数值数据。深度融合模型可以将数值数据和图像数据分别送入各自的神经网络中进行特征提取和分类预测，并将它们的输出连接到全连接层中进行综合学习和分类预测。这种方法可以使用多个神经网络模型，例如一个卷积神经网络和一个全连接神经网络，以处理不同类型的特征。而本实施例主要使用注意力融合模型，其使用注意力机制来加权融合不同类型的特征。这种方法可以对数值数据和图像数据分别进行特征提取。

具体的，通过所述输入层对数值数据进行数据预处理以及数值特征提取，得到数值特征，并对梅尔频谱图、声波图像和瀑布图等图像数据进行图像特征提取，得到图像特征，其中，对于数值数据，将数值数据作为输入层的神经元，通过一些全连接层进行特征提取和转换，得到了一个维度为d的数值特征向量，图像特征提取可以使用视觉Transformer（如ViT）来处理图像数据，提取图像特征。假设得到了一个维度为d的图像特征向量，然后在注意力机制层使用注意力机制来加权融合数值特征和图像特征。可以使用自注意力机制（self-attention）来计算每个特征的重要性权重，得到了数值特征和图像特征的注意力权重向量，然后将数值特征向量和图像特征向量按照注意力权重进行加权融合，得到最终的融合特征向量，最后将融合特征向量输入到全连接层进行分类预测。这个层可以包括多个全连接层、激活函数和损失函数，用于模型的训练和优化。

进一步的，所述通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件包括：通过所述分类层将所述融合特征向量线性变换映射至高维特征空间，得到线性变换结果；通过预设的激活函数对所述线性变换结果进行非线性变换，得到非线性变换结果；通过所述分类层中的全连接层根据所述非线性变换结果计算所述场景音频信号的对应不同场景类别的概率；将概率最高的场景类别作为所述场景音频信号的场景分类，得到所述当前播放场景的环境条件。

具体的，将得到的融合特征向量作为全连接层的输入，将融合特征向量通过线性变换映射到一个更高维度的特征空间。这个线性变换通常是一个全连接层，其中包含多个神经元（节点），每个神经元与融合特征向量的每个元素相连。对线性变换的结果进行非线性变换，引入非线性关系以增加模型的表达能力。常用的激活函数包括ReLU、sigmoid、tanh等。激活函数的选择取决于具体的任务和模型设计。根据任务的不同，输出层的设计也会有所差异。例如，对于二分类任务，可以使用一个神经元并应用sigmoid激活函数来输出一个0到1之间的概率值；对于多分类任务，可以使用多个神经元，并应用softmax激活函数来输出每个类别的概率分布。根据输出层的结果，得到所述场景音频信号的场景分类。

103、对目标音频信号进行特征提取，得到对应的目标音频特征，并将目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；

在本发明的一个实施例中，所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数包括：对所述目标音频信号进行特征提取，得到所述目标音频信号的时频图谱特征；将所述时频图谱特征输入所述限制参数预测模型中，其中所述限制参数预测模型包括循环层、注意力机制层和输出层；通过所述循环层将所述时频图谱特征进行时间步划分，并生成所述时频图谱特征对应的第一隐藏状态和各时间步对应的第二隐藏状态；根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力权重，并根据所述注意力权重对第一隐藏状态和所述第二隐藏状态进行加权求和，得到第三隐藏状态；将所述第三隐藏状态输入至所述输出层，得到限幅器对应的动态限制参数。

具体的，时频图谱特征是对音频信号进行频谱分析和时间窗口划分后得到的特征表示。通常，可以通过短时傅立叶变换（STFT）或梅尔频率倒谱系数（MFCC）等方法，将音频信号转换为时频图谱特征。所述时频图谱特征被用作输入，传递给包括循环层、注意力机制层和输出层在内的限制参数预测模型。这些层将对所提取的时频图谱特征进行进一步处理和学习，以实现对音频信号的限制参数预测任务。循环层通常是循环神经网络（RNN）或长短时记忆网络（LSTM）等结构，用于处理具有时间顺序关系的数据。在本文中，循环层将时频图谱特征进行时间步划分，以便逐步处理整个序列数据。循环层在处理时频图谱特征时，会生成对应的隐藏状态。隐藏状态可以看作是模型对输入数据所学到的表示，它包含了数据的抽象信息和上下文关系。该隐藏状态可以反映出输入数据在模型中的表征情况。循环层在处理完整个序列后，会生成各个时间步对应的第二隐藏状态。这些隐藏状态包含了整个序列中每个时间步的信息，为后续的注意力机制和输出层提供了丰富的上下文信息。在循环层中，循环层将时频图谱特征进行时间步划分，以便逐步处理整个序列数据。对于RNN或LSTM，通过在每个时间步上迭代运算，来处理序列中的每个时间步，在循环层的第一个时间步中，会生成一个初始的隐藏状态，通常记为h0。这个隐藏状态是根据初始输入和模型参数计算得到的。在循环层处理完第一个时间步后，会生成第一个时间步对应的隐藏状态，通常记为h1。然后，在第二个时间步中，利用第一个时间步的隐藏状态h1和当前时间步的输入，计算得到第二个时间步对应的隐藏状态h2。以此类推，在每个时间步上都会生成对应的隐藏状态。在循环层处理完第一个时间步后，会生成第一个时间步对应的隐藏状态，通常记为h1。然后，在第二个时间步中，利用第一个时间步的隐藏状态h1和当前时间步的输入，计算得到第二个时间步对应的隐藏状态h2。以此类推，在每个时间步上都会生成对应的隐藏状态。

进一步的，所述根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力权重，并根据所述注意力权重对第一隐藏状态和所述第二隐藏状态进行加权求和，得到第三隐藏状态包括：分别计算各时间步对应的第二隐藏状态与所述第一隐藏状态之间的相似度；将所述相似度进行归一化处理，得到各时间步对应的注意力权重；根据所述注意力权重对所述第二隐藏状态进行加权求和，得到注意力向量；将所述注意力向量与所述第一隐藏状态进行融合处理，得到第三隐藏状态。

具体的，可以使用点积或其他相似性度量方法（如余弦相似度）计算第一隐藏状态和每个时间步对应的第二隐藏状态之间的相似度。点积是一种简单的相似性度量方法，它是将两个向量对应元素相乘，然后将结果相加得到的标量值。通过将相似度输入到softmax函数中，可以得到各时间步对应的注意力权重。softmax函数可以将任意实数序列映射为一个概率分布，使得所有输出值都在0到1之间且总和为1。将注意力权重作为权重系数，对各时间步对应的第二隐藏状态进行加权求和，从而得到注意力向量。注意力向量可以看作是对输入序列中每个时间步的加权表示，其中权重系数反映了该时间步对于输出的重要程度。最后，可以将注意力向量和第一隐藏状态进行拼接，然后通过一个全连接层或其他方法进行融合处理，从而得到第三隐藏状态。第三隐藏状态是对输入序列的加权表示和第一隐藏状态的结合，可以提供更丰富的信息用于后续处理和预测。

进一步的，在所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数之前，还包括：对获取历史音频信号以及所述历史音频信号对应的历史动态参数，并对所述历史音频信号进行数据预处理和特征提取，得到历史音频特征；将所述历史音频特征输入预设的初始模型中，通过所述初始模型中的循环层、注意力机制层和输出层，得到限制参数预测结果；根据所述限制参数预测结果和所述历史动态参数计算预设的损失函数值，并判断所述损失函数值是否小于预设损失阈值；若否，则根据所述损失函数值对所述初始模型进行参数调整，并返回至将所述历史音频特征输入预设的初始模型中的步骤，直至所述损失函数值小于预设损失阈值；若是，则将所述初始模型作为所述限制参数预测模型。

104、控制限幅器基于动态限制参数和环境条件对目标音频信号进行限制处理，并在当前播放场景输出限制处理后的目标音频信号。

在本发明的一个实施例中，所述动态限制参数包括振幅阈值、压缩比、攻击时间、释放时间和输出增益；所述控制所述限幅器基于所述动态限制参数和所述环境条件对所述目标音频信号进行限制处理，并在所述当前播放场景输出限制处理后的目标音频信号包括：实时检测所述目标音频信号的动态范围是否大于所述动态限制参数中的振幅阈值；若是，则根据所述环境条件确定所述目标音频信号的处理模式，并控制所述限幅器根据所述压缩比、攻击时间、释放时间和所述处理模式对所述目标音频信号进行压缩处理；控制所述限幅器根据所述输出增益对所述压缩处理后的信号进行增益处理，并在所述当前播放场景输出增益处理后的目标音频信号。

具体的，当动态限制参数不止一个时，可以选择使用多头神经网络，多头神经网络是一种具有多个输出层的神经网络模型，每个输出层对应其中一个输出。在这种模型中，每个输出层都可以设置不同的损失函数和优化目标，以实现针对每个输出的独立训练和优化。进而可以得到包括振幅阈值、压缩比、攻击时间、释放时间和输出增益的动态限制参数。

具体的，实时检测目标音频信号的动态范围是否大于所述动态限制参数中的振幅阈值。这个振幅阈值可以根据所需动态范围大小设置，一般情况下为限幅器所能接受的最大输入电平，如果检测到目标音频信号的动态范围超过了振幅阈值，则需要根据环境条件确定目标音频信号的处理模式。处理模式包括硬限幅、软限幅和智能限幅等。压缩比表示输出信号相对于输入信号的减小比例。较高的压缩比会使输出信号更加稳定，但可能会引入较多的失真。根据需求和音频特性，设置合适的压缩比。攻击时间是指限幅器从检测到超出动态范围的输入信号后开始压缩的时间。较短的攻击时间可以更快地响应音频动态变化，但可能会引入较突兀的压缩效果。根据音频特性和预期效果，设置合适的攻击时间。释放时间是指限幅器从检测到动态范围恢复正常后停止压缩的时间。较短的释放时间可以更快地恢复信号的动态范围，但可能会引入较明显的波动效果。根据音频特性和预期效果，设置合适的释放时间。最后，根据所选处理模式和设置的参数，将目标音频信号输入到限幅器中，并控制限幅器根据压缩比、攻击时间和释放时间对信号进行压缩处理。限幅器会自动调整输出信号的增益，以使其在设定的范围内。

在本实施例中，通过获取音频处理请求，并根据音频处理请求获取目标音频信号；对目标音频信号的当前播放场景进行音频采集，得到当前播放场景的场景音频信号，并对场景音频信号进行环境分析，得到当前播放场景的环境条件；对目标音频信号进行特征提取，得到对应的目标音频特征，并将目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；控制限幅器基于动态限制参数和环境条件对目标音频信号进行限制处理。本方法根据目标音频特征和环境条件预测出动态限制参数，使得限幅器能够根据实时情况进行自适应的限制处理。能够更加准确地控制音频信号的输出，提高处理质量。

上面对本发明实施例中音频处理方法进行了描述，下面对本发明实施例中音频处理装置进行描述，请参阅图2，本发明实施例中音频处理装置一个实施例包括：

获取模块201，用于获取音频处理请求，并根据所述音频处理请求获取目标音频信号；

环境分析模块202，用于对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行环境分析，得到所述当前播放场景的环境条件；

参数预测模块203，用于对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；

限制模块204，用于控制所述限幅器基于所述动态限制参数和所述环境条件对所述目标音频信号进行限制处理，并在所述当前播放场景输出限制处理后的目标音频信号。

本发明实施例中，所述音频处理装置运行上述音频处理方法，所述音频处理装置通过获取音频处理请求，并根据音频处理请求获取目标音频信号；对目标音频信号的当前播放场景进行音频采集，得到当前播放场景的场景音频信号，并对场景音频信号进行环境分析，得到当前播放场景的环境条件；对目标音频信号进行特征提取，得到对应的目标音频特征，并将目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；控制限幅器基于动态限制参数和环境条件对目标音频信号进行限制处理。本方法根据目标音频特征和环境条件预测出动态限制参数，使得限幅器能够根据实时情况进行自适应的限制处理。能够更加准确地控制音频信号的输出，提高处理质量。

上面图2从模块化功能实体的角度对本发明实施例中的中音频处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中音频处理设备进行详细描述。

图3是本发明实施例提供的一种音频处理设备的结构示意图，该音频处理设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）310（例如，一个或一个以上处理器）和存储器320，一个或一个以上存储应用程序333或数据332的存储介质330（例如一个或一个以上海量存储设备）。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对音频处理设备300中的一系列指令操作。更进一步地，处理器310可以设置为与存储介质330通信，在音频处理设备300上执行存储介质330中的一系列指令操作，以实现上述音频处理方法的步骤。

音频处理设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统331，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图3示出的音频处理设备结构并不构成对本发明提供的音频处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述音频处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，其特征在于，所述音频处理方法包括：

对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行特征提取，得到多种场景目标音频特征，其中，所述场景目标音频特征包括数值特征和图像特征；将所述数值特征和图像特征输入预设的环境分类模型中，通过所述环境分类模型的注意力机制层分别计算所述数值特征和所述图像特征的注意力权重向量；通过所述环境分类模型中的特征融合层根据所述权重向量对所述数值特征和所述图像特征进行加权融合，得到融合特征向量；通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件；

2.根据权利要求1所述的音频处理方法，其特征在于，所述通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件包括：

3.根据权利要求1所述的音频处理方法，其特征在于，所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数包括：

4.根据权利要求3所述的音频处理方法，其特征在于，所述根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力权重，并根据所述注意力权重对第一隐藏状态和所述第二隐藏状态进行加权求和，得到第三隐藏状态包括：

5.根据权利要求4所述的音频处理方法，其特征在于，在所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数之前，还包括：

获取历史音频信号以及所述历史音频信号对应的历史动态参数，并对所述历史音频信号进行数据预处理和特征提取，得到历史音频特征；

若是，则将所述初始模型作为所述限制参数预测模型。

6.根据权利要求1所述的音频处理方法，其特征在于，所述动态限制参数包括振幅阈值、压缩比、攻击时间、释放时间和输出增益；

7.一种音频处理装置，其特征在于，所述音频处理装置包括：

环境分析模块，用于对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行特征提取，得到多种场景目标音频特征，其中，所述场景目标音频特征包括数值特征和图像特征；将所述数值特征和图像特征输入预设的环境分类模型中，通过所述环境分类模型的注意力机制层分别计算所述数值特征和所述图像特征的注意力权重向量；通过所述环境分类模型中的特征融合层根据所述权重向量对所述数值特征和所述图像特征进行加权融合，得到融合特征向量；通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件；

8.一种音频处理设备，其特征在于，所述音频处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述音频处理设备执行如权利要求1-6中任意一项所述的音频处理方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任意一项所述音频处理方法的步骤。