CN117939360B

CN117939360B - 一种用于蓝牙音箱的音频增益控制方法及系统

Info

Publication number: CN117939360B
Application number: CN202410330846.5A
Authority: CN
Inventors: 刘红伟; 黎晴
Original assignee: Guangzhou Wesdar Electronic Technology Co ltd
Current assignee: Guangzhou Wesdar Electronic Technology Co ltd
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-06-07
Anticipated expiration: 2044-03-22
Also published as: CN117939360A

Abstract

本发明涉及音频数据处理技术领域，提供了一种用于蓝牙音箱的音频增益控制方法及系统，所述方法包括：从音频源获取输入的音频信号，通过汉明窗对音频信号进行加窗处理，通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度；根据各个频谱分量的幅度确定原始音量等级，以及，获取用户设定的用户音量等级以及环境噪音水平；根据原始音量等级、环境噪音水平、用户音量等级和基础增益因子计算得到调整增益因子；根据调整增益因子动态调整输入的音频信号，得到输出的音频信号，驱动蓝牙音箱播放输出的音频信号。本发明根据调整增益因子动态调整音频信号，改善了音量突变以及音量幅度调整的连续性，增加了输出音频的平滑性。

Description

一种用于蓝牙音箱的音频增益控制方法及系统

技术领域

本发明涉及音频数据处理技术领域，具体涉及一种用于蓝牙音箱的音频增益控制方法及系统。

背景技术

音频信号的处理和播放已经广泛应用于各种情景，例如，通过如蓝牙音响等终端设备播放。但是，在音频信号的处理过程中，由于音频源的不同，导致不同音频信号的音量强度不一样，用户播放不同音频信号时需要频繁通过手动控制音量大小。

现有的增益控制方法，多是通过实时检测音频信号各采样点的音量，与设定门限值进行比对，并根据与门限值之间的关系，确定放大或缩小的调整增益，将音量进行增益调整后再播放音频信号，但是，当与设定门限值进行比对而调整增益时，会出现音量突变的情况，使得用户收听到的音频信号音量幅度不连续，效果不佳；或者，以数据帧为分析基础，计算当前帧中各个采样点振幅值绝对值的平均幅值，将当前帧中的目标幅值除以平均幅值后得到当前帧的增益值，然后基于该增益值调整当前帧音频信号的输出幅值，从而实现音量的调整；或者，以数据帧为分析基础，分别计算音频信号前后两帧的增益值，并将各帧的增益值平均分配到各采样点中，为了实现前后两帧增益的平滑过渡，通常将前一帧最后一个采样点的增益值作为当前帧第一个采样点的增益值，基于确定的帧增益值调整各帧音频信号的幅值，但会使音频信号产生失真现象，例如，音频信号会出现“消顶”失真现象，即当音频信号的幅值经增益放大时，为了防止超出允许的最大音量，会将超出设定幅值的音频信号强制调整幅值为设定值，使其不会继续增长，所以会出现消顶失真现象。此外，还会使得增益调整后的斜率发生了改变，进而使得音频信号发生失真现象。

因此，调整增益时音量突变以及音量幅度不连续的问题亟需解决。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述全部或至少一部分问题的用于蓝牙音箱的音频增益控制方法及系统。

根据本发明的一个方面，提供了一种用于蓝牙音箱的音频增益控制方法，包括：

从音频源获取输入的音频信号，通过汉明窗对所述音频信号进行加窗处理，通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度；

根据所述各个频谱分量的幅度确定原始音量等级，以及，获取用户设定的用户音量等级以及环境噪音水平；

根据所述原始音量等级和所述环境噪音水平计算得到基础增益因子，根据所述用户音量等级和所述基础增益因子计算得到调整增益因子；

根据所述调整增益因子动态调整所述输入的音频信号，得到输出的音频信号，驱动蓝牙音箱播放所述输出的音频信号。

更进一步地，所述汉明窗的阶数的计算公式为：

其中，W为汉明窗阶数，maxFreq为最高频率，NessPix为对音频信号进行频谱分析时所需的频率分辨率，L为汉明窗的长度，, a、K为常数，，为正数。

更进一步地，所述通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度之后，所述方法还包括：

通过汉明窗函数和对应的自适应权重系数对所述各个频谱分量的幅度进行加权叠加得到重构的音频信号，以接近原始音频信号；

所述自适应权重系数的计算公式为：

其中，表示重构音频信号在时刻t的样本值，表示时刻t的自适应权重系数，表示汉明窗函数，是正的调整因子，表示频谱分量的幅度在时刻t的样本值。

更进一步地，所述原始音量等级的计算公式为：

其中，为大于1的常数，为各个时刻t的频谱分量的幅度之和。

更进一步地，所述基础增益因子的计算公式为：

其中，为原始音量等级，为环境噪音水平，为最大可接受噪音水平。

更进一步地，所述调整增益因子的计算公式为：

其中，为动态增益因子，为用户音量等级，为基础增益因子，为动态范围，为动态时间规划函数。

更进一步地，所述根据所述调整增益因子动态调整所述输入的音频信号，得到输出的音频信号进一步包括：

将所述调整增益因子动态乘以所述输入的音频信号，得到输出的音频信号。

更进一步地，得到输出的音频信号之后，所述方法还包括：

根据音质指标对所述输出的音频信号进行音效增强转换，其中，所述音质指标包括清晰度增强因子、音量增强因子、音色增强因子以及立体感增强因子。

更进一步地，所述清晰度增强因子根据音频信号的频率成分和频谱分析结果计算得到；

所述音量增强因子根据用户期望的音量等级和输出的音频信号的音量大小计算得到；

所述音色增强因子根据音频信号的音色特征和用户偏好计算得到；

所述立体感增强因子根据音频信号的空间特征和环境信息计算得到。

根据本发明的另一方面，提供了一种用于蓝牙音箱的音频增益控制系统，包括：

音频处理模块，用于从音频源获取输入的音频信号，通过汉明窗对所述音频信号进行加窗处理，通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度；

音量等级计算模块，用于根据所述各个频谱分量的幅度确定原始音量等级，以及，获取用户设定的用户音量等级以及环境噪音水平；

调整因子计算模块，用于根据所述原始音量等级和所述环境噪音水平计算得到基础增益因子，根据所述用户音量等级和所述基础增益因子计算得到调整增益因子；

音频调整模块，用于根据所述调整增益因子动态调整所述输入的音频信号，得到输出的音频信号，驱动蓝牙音箱播放所述输出的音频信号。

根据本发明提供的方案，从音频源获取输入的音频信号，通过汉明窗对所述音频信号进行加窗处理，通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度；根据所述各个频谱分量的幅度确定原始音量等级，以及，获取用户设定的用户音量等级以及环境噪音水平；根据所述原始音量等级和所述环境噪音水平计算得到基础增益因子，根据所述用户音量等级和所述基础增益因子计算得到调整增益因子；根据所述调整增益因子动态调整所述输入的音频信号，得到输出的音频信号，驱动蓝牙音箱播放所述输出的音频信号。本发明根据目标音量调整音频信号的数字音频增益，从而实现对待输出的音频信号音量的自动增益控制，有效改善了音量突变以及音量幅度调整的连续性，增加了输出音频的平滑性，进而提升了用户体验。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例的用于蓝牙音箱的音频增益控制方法的流程示意图；

图2示出了本发明实施例的用于蓝牙音箱的音频增益控制系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例的用于蓝牙音箱的音频增益控制方法的流程示意图。本发明根据调整增益因子动态调整音频信号，有效改善了音量突变以及音量幅度调整的连续性，增加了输出音频的平滑性。具体地，包括以下步骤：

步骤S101，从音频源获取输入的音频信号，通过汉明窗对所述音频信号进行加窗处理，通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度。

具体地，首先确保音频源（如麦克风、音频文件等）与处理设备（如计算机）正确连接。可以通过物理连接（如音频线）或无线连接（如蓝牙）实现。使用音频捕获软件或硬件接口，从音频源中捕获原始的音频信号。如果音频源输出的信号格式与后续处理所需的格式不匹配，需要进行格式转换。根据实际需求和音频信号的特性，选择合适的窗口长度。窗口长度决定了加窗处理的效果和精度。对于每个时间段的音频信号应用汉明窗函数。其中，汉明窗是一种常用的窗函数，具有较好的频谱特性。例如，汉明窗函数w(n) = 0.5*(1 - cos(2πn/N))，其中n为窗口内的样本索引，N为窗口长度。将汉明窗函数应用于每个时间段的音频信号样本上以形成加窗处理后的音频数据。

然后，通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度。可以选择如FFTW、KissFFT等快速傅里叶变换（FFT）库，根据所需的频谱分辨率、信号长度以及合适的FFT点数执行快速傅里叶变换。例如，对每段加窗处理后的音频信号执行快速傅里叶变换，将时域信号转换为频域信号，得到各个频谱分量的幅度。

更进一步地，所述汉明窗的阶数的计算公式为：

其中，W为汉明窗阶数，maxFreq为最高频率，NessPix为对音频信号进行频谱分析时所需的频率分辨率，L为汉明窗的长度，, a、K为常数，，为接近零的正数。汉明窗阶数W决定窗函数的平滑程度和旁瓣抑制能力，阶数越高，窗函数的平滑程度越好。最高频率maxFreq表示音频信号中的最高频率成分，用于确定分析的频率范围。频率分辨率NessPix决定频谱分析的精度，所需的频率分辨率越高，频谱分析的结果越精确。汉明窗的长度L决定窗函数覆盖的信号长度，长度越长，窗函数覆盖的信号越多，频谱分析的精度越高。a是一个介于0.5和1之间的常数，用于调整汉明窗函数的形状，a值的选择会影响窗函数的平滑程度和旁瓣抑制能力。K是一个位于(0,0.5]之间的常数，用于进一步调整窗函数的特性，K值的选择影响窗函数的旁瓣抑制能力和主瓣宽度。是一个接近零的正数（为满足0<<ϵ的正数，其中ϵ是一个很小的正数，例如，为满足0<<0.001的正数），用于调整窗函数的边缘特性，较小的值会使窗函数的边缘更加陡峭，而较大的值会使边缘更加平滑。

所述自适应权重系数的计算公式为：

其中，表示重构音频信号在时刻t的样本值，表示时刻t的自适应权重系数，表示汉明窗函数，是正的调整因子，表示频谱分量的幅度在时刻t 的样本值。是在时刻t的重构音频信号的样本值，也就是说，是音频信号在特定时间点的值。表示在时刻t的自适应权重系数，用于调整信号的幅度位。是汉明窗函数，汉明窗用于控制信号的频谱特性，例如旁瓣水平。表示频谱分量的幅度在时刻t的样本值，是未经过处理或重构的音频信号在特定时间点的值，用于比较重构信号与原始信号的相似度或误差。

步骤S102，根据所述各个频谱分量的幅度确定原始音量等级，以及，获取用户设定的用户音量等级以及环境噪音水平。

更进一步地，所述原始音量等级的计算公式为：

其中，μ为大于1的常数，为各个时刻t的频谱分量的幅度之和。代表原始音量等级，用于描述音频信号的响度或强度。μ是一个大于1的常数，作用是调整公式中的尺度或比例，μ的值越大，计算出的音量等级就越大。是各个时刻t的频谱分量的幅度之和，表示在所有时间点上频谱分量的总幅度,通过求和可以得到整个音频信号的总体强度或能量。本实施例中，原始音量等级的计算公式通过将频谱分量的总幅度进行对数变换并乘以一个常数μ来计算原始的音量等级，有助于获取音频信号的整体响度或强度信息。

步骤S103，根据所述原始音量等级和所述环境噪音水平计算得到基础增益因子，根据所述用户音量等级和所述基础增益因子计算得到调整增益因子。

更进一步地，所述基础增益因子的计算公式为：

其中，为原始音量等级，为环境噪音水平，为最大可接受噪音水平。代表基础增益因子，用于调整信号的幅度或强度，可以用于控制音频信号的音量或抑制背景噪音。是原始音量等级，表示音频信号的整体响度或强度。代表环境噪音水平，是指在特定环境下，例如在室内或室外不需要的、干扰性的声音，环境噪音水平是衡量这些不需要的声音的强度或响度的指标。是最大可接受噪音水平，是预设的标准或阈值，表示用户可以容忍的最高噪音水平，如果环境噪音超过这个阈值，可能会影响音频信号的清晰度或用户的听觉体验。本实施例中，通过将原始音量等级与环境噪音水平和最大可接受噪音水平进行比较来计算增益因子，以调整音频信号的幅度，可以更好地适应不同的环境噪音水平，从而提供更好的听觉体验。例如，如果环境噪音较高，增益因子可能会增加，以补偿背景噪音并提高音频信号的清晰度；如果环境噪音较低，增益因子可能会减小，以避免放大背景噪音。

更进一步地，所述调整增益因子的计算公式为：

其中，为动态增益因子，为用户音量等级，为基础增益因子，为动态范围，为动态时间规划函数。代表动态增益因子，与基础增益因子不同，动态增益因子是根据用户音量等级、基础增益因子以及其他因素动态计算出来的，用于进一步调整音频信号的幅度。是用户音量等级，反映了用户对音频信号的期望音量或响度。代表基础增益因子，是用于调整音频信号的基础幅度。是动态范围，表示音频信号中的最大和最小幅度之间的差异或变化范围，用于控制音频信号的动态特性，确保音频信号中的不同强度和音量的变化得到适当的呈现。是动态时间规划函数，动态时间规划函数（Dynamic Time Warping, DTW）是一种用于衡量两个时间序列或离散序列相似度的算法。在语音识别时间序列分析中，DTW用于解决两个序列之间的时间对齐问题，能够衡量两个序列的相似度，可以根据音频信号的时序特性进行自适应调整，以优化音频处理的效果。具体来说，可以用于调整音频信号在不同时间点的增益因子，以实现更好的音质或满足特定的应用需求。上述调整增益因子的计算公式通过综合考虑用户音量等级、基础增益因子、动态范围和动态时间规划函数来计算动态增益因子，有助于进一步优化音频信号的幅度调整，以满足用户的期望和提供更好的听觉体验。

步骤S104，根据所述调整增益因子动态调整所述输入的音频信号，得到输出的音频信号，驱动蓝牙音箱播放所述输出的音频信号。

具体地，确保输入的音频信号和动态增益因子在时间上是同步的，可以通过对齐信号的时间点或通过应用适当的延迟来实现。在时间域上，将动态增益因子逐点地乘以输入的音频信号的相应样本值，对于每个时间点，将动态增益因子与输入的音频信号在时间点的样本值相乘。经过逐点乘法和平滑处理后，得到输出的音频信号，有助于根据用户的需求和偏好调整音频信号的幅度，实现个性化的音频处理效果。

更进一步地，得到输出的音频信号之后，所述方法还包括：

具体地，根据所需的音质效果，选择合适的音质指标，如清晰度增强因子、音量增强因子、音色增强因子以及立体感增强因子，这些指标用于评估和优化音频信号的音质。根据目标音质效果和用户的偏好，为每个音质指标设定适当的增强因子值。对于输出的音频信号中的每个样本或帧，根据设定的增强因子值对音频信号进行增强转换。其中，清晰度增强因子用于改善音频信号的清晰度。音量增强因子用于控制音频信号的总体响度。音色增强因子用于改变音频信号的音色或色调。立体感增强因子用于增加音频信号的立体感或空间感。完成音效增强转换和后处理后，输出最终的音频信号，能够提供更好的听觉体验，满足不同用户的需求和偏好。

具体地，对音频信号进行频谱分析，以确定其频率成分的分布，可以通过快速傅里叶变换（FFT）实现。基于分析得到的频率成分计算清晰度增强因子。根据用户期望的音量等级和当前音量大小，计算音量增强因子，如果当前音量低于期望值，可以增加增强因子的值以放大音频；如果当前音量高于期望值，可以减小增强因子的值以降低音频。从音频信号中提取音色特征，例如音调、音色、谐波成分等，可以通过音频处理算法实现，如短时傅里叶变换（STFT）或声学特征提取。基于提取的音色特征和用户偏好，计算音色增强因子。例如，如果用户更喜欢暖色调的音色，可以增加相应频带的幅度；如果用户更喜欢冷色调的音色，可以减小相应频带的幅度。从音频信号中提取空间特征，如声源的位置、混响、回声等，可以通过音频处理算法实现，如立体声处理、波束形成或环境模拟。通过传感器、输入设备等方法获取环境信息，例如房间的大小、墙壁的反射系数等。基于提取的空间特征和环境信息，计算立体感增强因子。例如，在宽阔的开放空间中，可以增加混响和回声效果；在封闭的小空间中，可以减小混响和回声效果。

图2示出了本发明实施例的用于蓝牙音箱的音频增益控制系统的结构示意图。具体地，本发明提供了一种用于蓝牙音箱的音频增益控制系统，包括：

音频处理模块210，用于从音频源获取输入的音频信号，通过汉明窗对所述音频信号进行加窗处理，通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度；

音量等级计算模块220，用于根据所述各个频谱分量的幅度确定原始音量等级，以及，获取用户设定的用户音量等级以及环境噪音水平；

调整因子计算模块230，用于根据所述原始音量等级和所述环境噪音水平计算得到基础增益因子，根据所述用户音量等级和所述基础增益因子计算得到调整增益因子；

音频调整模块240，用于根据所述调整增益因子动态调整所述输入的音频信号，得到输出的音频信号，驱动蓝牙音箱播放所述输出的音频信号。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种用于蓝牙音箱的音频增益控制方法，其特征在于，包括：

根据所述各个频谱分量的幅度确定原始音量等级，以及，获取用户设定的用户音量等级以及环境噪音水平；其中，所述原始音量等级V_O的计算公式为：

其中，μ为大于1的常数，Σy_true(t)为各个时刻t的频谱分量的幅度之和；

根据所述原始音量等级和所述环境噪音水平计算得到基础增益因子，根据所述用户音量等级和所述基础增益因子计算得到调整增益因子；其中，所述基础增益因子G_base的计算公式为：

其中，V_O为原始音量等级，S_environment为环境噪音水平，S_max为最大可接受噪音水平；

所述调整增益因子的计算公式为：

其中，G_adjust为调整增益因子，V_U为用户音量等级，G_base为基础增益因子，R_dynamic为动态范围，DTW(t)为动态时间规划函数；

2.根据权利要求1所述的用于蓝牙音箱的音频增益控制方法，其特征在于，所述汉明窗的阶数的计算公式为：

其中，W为汉明窗阶数，maxFreq为最高频率，NessPix为对音频信号进行频谱分析时所需的频率分辨率，L为汉明窗的长度，a、K为常数，a∈[0.5,1]，K∈(0,0.5]，ε为正数。

3.根据权利要求1所述的用于蓝牙音箱的音频增益控制方法，其特征在于，所述通过快速傅里叶变换对加窗处理后的音频信号进行频谱分析得到各个频谱分量的幅度之后，所述方法还包括：

所述自适应权重系数的计算公式为：

其中，y_pred(t)表示重构音频信号在时刻t的样本值，w_adapt(t)表示时刻t的自适应权重系数，w(t)表示汉明窗函数，β是正的调整因子，y_true(t)表示频谱分量的幅度在时刻t的样本值。

4.根据权利要求1所述的用于蓝牙音箱的音频增益控制方法，其特征在于，所述根据所述调整增益因子动态调整所述输入的音频信号，得到输出的音频信号进一步包括：

5.根据权利要求1所述的用于蓝牙音箱的音频增益控制方法，其特征在于，得到输出的音频信号之后，所述方法还包括：

6.根据权利要求5所述的用于蓝牙音箱的音频增益控制方法，其特征在于，所述清晰度增强因子根据音频信号的频率成分和频谱分析结果计算得到；

7.一种用于蓝牙音箱的音频增益控制系统，该系统基于如权利要求1-6任一项所述的用于蓝牙音箱的音频增益控制方法，其特征在于，包括：

音量等级计算模块，用于根据所述各个频谱分量的幅度确定原始音量等级，以及，获取用户设定的用户音量等级以及环境噪音水平；其中，所述原始音量等级V_O的计算公式为：

调整因子计算模块，用于根据所述原始音量等级和所述环境噪音水平计算得到基础增益因子，根据所述用户音量等级和所述基础增益因子计算得到调整增益因子；其中，所述基础增益因子G_base的计算公式为：

所述调整增益因子的计算公式为：