CN117153192B

CN117153192B - 音频增强方法、装置、电子设备和存储介质

Info

Publication number: CN117153192B
Application number: CN202311413048.0A
Authority: CN
Inventors: 赵力; 马峰; 高建清; 朱志鹏
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-20
Anticipated expiration: 2043-10-30
Also published as: CN117153192A

Abstract

本发明提供一种音频增强方法、装置、电子设备和存储介质，涉及音频处理技术领域。其中方法包括：对待增强音频信号进行相干声提取，得到相干声信号和环境声信号；在相干声信号与环境声信号的互相关系数小于预设相关系数阈值的情况下，基于环境声信号确定目标音频增强阈值；在相干声信号与环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值；基于至少一个音频增强参数和目标音频增强阈值，对待增强音频信号进行增强处理，得到增强音频信号。本发明根据待增强音频信号的变化实时动态更新目标音频增强阈值，从而可以更好地控制音频源各个成分的增强效果，进而提高用户听感，最终提高用户体验感。

Description

音频增强方法、装置、电子设备和存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频增强方法、装置、电子设备和存储介质。

背景技术

随着影音以及数据传输技术的快速发展，人们对于音频的要求越来越高。提高音频的用户体验感可以还原音源本身的发声效果，也可以通过对原始的音频源进行增强处理，例如增强低音、扩展高音等等，以使音频输出效果更多样。

目前，通过固定的音频控制参数，对一个完整音频进行增强处理；例如，音乐平台具有清澈人声、超重低音等音效设置方式，即使用一种或者多种固定的EQ（equalizer，均衡器），对输入的音频源进行音效的控制。然而，通过固定的音频控制参数进行增强处理，由于音频数据是不断变化的，固定的音频控制参数并无法准确地增强音频数据，从而影响用户听感，即影响用户的体验感。

发明内容

本发明提供一种音频增强方法、装置、电子设备和存储介质，用以解决现有技术中音频增强准确性低的缺陷，实现实时高准确的音频增强处理。

本发明提供一种音频增强方法，包括：

对待增强音频信号进行相干声提取，得到相干声信号和环境声信号；

在所述相干声信号与所述环境声信号的互相关系数小于预设相关系数阈值的情况下，基于所述环境声信号确定初始音频增强阈值，并将所述初始音频增强阈值确定为目标音频增强阈值；

在所述相干声信号与所述环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，所述预设音频增强阈值的绝对值小于或等于所述初始音频增强阈值的绝对值；

基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号；

其中，所述目标音频增强阈值用于从所述待增强音频信号中确定出部分音频信号，所述部分音频信号为所述至少一个音频增强参数中至少一个增强参数对应的所需增强的信号。

根据本发明提供的一种音频增强方法，所述待增强音频信号是基于如下步骤确定：

对待增强音频数据进行共振峰检测得到多个共振峰，并确定所述多个共振峰对应的频率点集合，所述频率点集合包括多个所述共振峰对应的频率点；

基于所述频率点集合中功率最大的第一目标频率点，从所述频率点集合中确定出第二目标频率点，所述第二目标频率点为第一目标频率点集合中与所述第一目标频率点的频率差值最小的频率点，所述第一目标频率点集合包括所述频率点集合中与所述第一目标频率点的功率差值大于预设功率差值的频率点；

基于所述第一目标频率点与所述第二目标频率点的频率间隔，确定当前区间的频率范围，并基于所述第一目标频率点确定当前区间的区间中点；

基于所述频率间隔和所述区间中点，从所述频率点集合中确定出所述当前区间对应的第二目标频率点集合；

去除所述频率点集合中所述第二目标频率点集合内的频率点，并返回所述基于所述频率点集合中功率最大的第一目标频率点，从所述频率点集合中确定出第二目标频率点的步骤，直至满足预设条件，所述预设条件包括所述频率点集合中不存在频率点，或者，当前区间个数达到预设区间个数；

基于各区间的所述区间中点以及各区间的所述频率范围，对所述待增强音频数据进行分频，得到多个子带序列集合，并将所述多个子带序列集合中任一子带序列集合确定为所述待增强音频信号，以分别确定各所述子带序列集合对应的所述目标音频增强阈值，并基于各所述子带序列集合对应的所述目标音频增强阈值分别对各所述子带序列集合进行增强处理。

根据本发明提供的一种音频增强方法，所述基于所述第一目标频率点确定当前区间的区间中点，包括：

基于所述第一目标频率点与所述频率间隔的差值，确定所述当前区间的第一区间端点，并基于所述第一目标频率点与所述频率间隔的和值，确定所述当前区间的第二区间端点；

将上一区间的第二区间端点和所述当前区间的第一区间端点中频率最大的端点作为所述当前区间的第三区间端点，其中，所述上一区间为确定所述当前区间之前所确定的区间，若所述当前区间为第一个确定的区间则所述上一区间的第二区间端点为0；

基于所述当前区间的第三区间端点与所述当前区间的第二区间端点的平均值，确定所述当前区间的区间中点。

根据本发明提供的一种音频增强方法，所述基于所述频率点集合中功率最大的第一目标频率点，从所述频率点集合中确定出第二目标频率点，之前还包括：

去除所述频率点集合中功率小于预设功率的频率点。

根据本发明提供的一种音频增强方法，所述基于所述环境声信号确定初始音频增强阈值，包括：

对所述环境声信号的绝对值进行对数计算，得到对数值；

基于所述对数值与预设值的乘积，确定所述初始音频增强阈值。

根据本发明提供的一种音频增强方法，所述待增强音频信号包括多帧音频信号，所述相干声信号包括多帧所述音频信号对应的相干声，所述环境声信号包括多帧所述音频信号对应的环境声，所述目标音频增强阈值包括多帧所述音频信号对应的增强阈值；

所述基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号，包括：

对多帧所述增强阈值进行平滑处理，得到处理后的多帧增强阈值；

基于至少一个音频增强参数和所述处理后的多帧增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号；

其中，处理后的任一帧增强阈值是基于如下步骤确定：

将处理后的任一帧增强阈值作为当前帧对应的处理后的增强阈值，基于上一帧对应的第一权重和所述当前帧对应的第二权重，对所述上一帧对应的处理后的增强阈值和所述当前帧对应的处理前的增强阈值进行加权聚合处理，得到所述当前帧对应的处理后的增强阈值，所述第一权重与所述第二权重的和为1。

根据本发明提供的一种音频增强方法，所述基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号，之后还包括：

基于预设音频控制参数，对所述增强音频信号进行处理，得到处理后的增强音频信号。

本发明还提供一种音频增强装置，包括：

音频提取模块，用于对待增强音频信号进行相干声提取，得到相干声信号和环境声信号；

第一确定模块，用于在所述相干声信号与所述环境声信号的互相关系数小于预设相关系数阈值的情况下，基于所述环境声信号确定初始音频增强阈值，并将所述初始音频增强阈值确定为目标音频增强阈值；

第二确定模块，用于在所述相干声信号与所述环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，所述预设音频增强阈值的绝对值小于或等于所述初始音频增强阈值的绝对值；

音频增强模块，用于基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述音频增强方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述音频增强方法。

本发明提供的音频增强方法、装置、电子设备和存储介质，对待增强音频信号进行相干声提取，得到相干声信号和环境声信号，在相干声信号与环境声信号的互相关系数小于预设相关系数阈值的情况下，基于环境声信号确定目标音频增强阈值，在相干声信号与环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，从而通过相干声提取的方式，确定相干声与环境声的差别程度，以基于二者的差别程度实时动态设定音频动态范围控制所需的目标音频增强阈值，且在相干声信号与环境声信号的互相关系数小于预设相关系数阈值的情况下是基于环境声信号确定目标音频增强阈值的，以使目标音频增强阈值随着待增强音频信号的变化而变化，相比通过固定的音频控制参数对一个完整音频进行增强处理而言，本发明实施例可以实时根据待增强音频信号变化而更新对应的音频增强参数，从而基于至少一个音频增强参数和目标音频增强阈值，更加准确对待增强音频信号进行增强处理，得到更为准确的增强音频信号，即提高音频增强的准确性，且目标音频增强阈值用于从待增强音频信号中确定出部分音频信号，部分音频信号为至少一个音频增强参数中至少一个增强参数对应的所需增强的信号，从而根据待增强音频信号的变化实时动态更新目标音频增强阈值，从而可以更好地控制音频源各个成分的增强效果，以达到更优的渲染效果，进而提高用户听感，最终提高用户体验感。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的音频增强方法的流程示意图之一；

图2为本发明提供的音频增强方法的流程示意图之二；

图3为本发明提供的音频增强方法的流程示意图之三；

图4为本发明提供的音频增强装置的结构示意图；

图5为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着影音以及数据传输技术的快速发展，人们对于音频的要求及音频感受的要求越来越高，对音视频的关注度也越来越高，如高品质的家庭影院、车内的环绕立体声、智能耳机等等，以达到自我的精神愉悦。提高音频的用户体验感可以还原音源本身的发声效果，也可以对原始的音频源进行增强处理，例如增强低音、扩展高音等等，以使音频输出效果更多样，从而带来更多的可玩性，以使用户更加沉浸于音源所呈现的氛围中。

目前，通过固定的音频控制参数，对一个完整音频进行增强处理；例如，音乐平台具有清澈人声、超重低音等音效设置方式，即使用一种或者多种固定的EQ（equalizer，均衡器），对输入的音频源进行音效的控制，从而可以调整歌曲中人声或者乐器的表现，能达到一定的效果。然而，通过固定的音频控制参数进行增强处理，由于音频数据是不断变化的，固定的音频控制参数并无法准确地增强音频数据，从而影响用户听感，即影响用户的体验感。

此外，音乐平台还具有场景模式，可切换为演唱会、剧院、现场等等，该方式只是渲染了音乐的空间感，将空间调整为更宽广的空间，但其并未对音频进行更全面的音效控制。

此外，还可以基于深度学习进行音频增强处理；例如，通过对输入音频进行分段，然后进入训练好的分类网络进行分类，大致分为语音、音乐、噪声等，然后分别对这三类进行增强，使用的也是训练好的增强网络，最后合并为输出；又例如，根据输入音频通过推理模型得到均衡特征序列与混响特征序列，再结合预设的音效信息对音频进行处理输出。然而，利用大数据驱动的模型方式，它的性能效果与样本数据十分相关，但前期的数据准备是非常大的工程，其中还会涉及到版权的问题；其次对应模型的算力与存储也是一个需要考虑的因素，模型的效果一般有一个最低参数数量的限制，这会导致其在低算力平台的效果表现会不尽如人意。

此外，考虑到在实际场景中，例如车内的音源播放时，一般是将从各大音乐平台获取到的立体声音频流，通过车内高、中、低频等各类扬声器进行播放，扬声器的频响特性在整车生产时已经固定，所以其音乐的表现或者渲染效果固定，其听音效果不一定为最优，因此需要对音频源进行增强处理，以提升听音效果。

针对上述问题，本发明提出以下各实施例。图1为本发明提供的音频增强方法的流程示意图之一，如图1所示，该音频增强方法包括：

步骤110，对待增强音频信号进行相干声提取，得到相干声信号和环境声信号。

此处，待增强音频信号为待增强处理的音频信号。在一些实施例中，待增强音频信号包括多帧音频信号，即待增强音频信号为一个序列；相应的，相干声信号包括多帧音频信号对应的相干声，环境声信号包括多帧音频信号对应的环境声。

此处，相干声提取的算法可以包括但不限于：LS（least squares，最小二乘法）、PCA（principal component analysis，主成分分析）、APES（ambient phase estimationwith a sparsity constraint，环境声相位估计法）、MWF（multichannel wiener filter，多通道维纳滤波）等等。基于此，本发明实施例可以按需选择相干声提取算法，从而可以根据平台算力不同选择不同算法，即具有一定的通用性，以达到对应平台最佳的听音效果，从而提高音频增强的准确性，进而提高音频的听音效果，即提高用户体验感。

可以理解的是，空间声主要包括两种性质不同的成分，其一是具有方向性的声成分，称为相干声；其二是具有扩散性、无法辨别方向的声成分，称为环境声。

在一些实施例中，考虑到待增强音频数据中不同区间所需的增强方式不一样，基于此，对待增强音频数据进行分频，得到多个子带序列集合，并将多个子带序列集合中任一子带序列集合确定为该待增强音频信号。换言之，多个子带序列集合中每一子带序列集合均需要进行增强处理，相应的，在得到各子带序列集合对应的增强音频信号后，将各增强音频信号叠加，得到待增强音频数据对应的增强音频数据。

在一实施例中，待增强音频数据可以为完整的音频源数据，以对完整的音频源数据进行分频处理，从而分别确定音频源各个成分对应的音频增强参数，从而可以更好地调整音频源各个成分的增强效果，以提高用户听感，最终提高用户体验感。

在一实施例中，待增强音频数据为立体声音，即立体音频源数据。该待增强音频数据可以从音乐平台或设备中获取得到。

步骤120，在所述相干声信号与所述环境声信号的互相关系数小于预设相关系数阈值的情况下，基于所述环境声信号确定初始音频增强阈值，并将所述初始音频增强阈值确定为目标音频增强阈值。

具体地，对环境声信号进行数学运算处理，得到初始音频增强阈值。在一些实施例中，对环境声信号的绝对值进行对数计算，得到对数值；基于对数值确定初始音频增强阈值。

在一些实施例中，在相干声信号包括多帧音频信号对应的相干声，环境声信号包括多帧音频信号对应的环境声的情况下，针对任一帧音频信号，在该帧音频信号对应的相干声与该帧音频信号对应的环境声的互相关系数小于预设相关系数阈值的情况下，基于该帧音频信号对应的环境声确定该帧音频信号对应的初始音频增强阈值。此时，初始音频增强阈值包括多帧音频信号对应的增强阈值。

示例性的，相干声与环境声的互相关系数的计算公式如下所示：

；

式中，表示帧数，/>表示第/>帧音频信号对应的相干声，/>表示第/>帧音频信号对应的环境声，/>表示相干声/>与环境声/>的互相关系数，/>表示数学期望。

此处，预设相关系数阈值可以根据实际需要进行设定，例如0.25，本发明实施例对此不作具体限定。

步骤130，在所述相干声信号与所述环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，所述预设音频增强阈值的绝对值小于或等于所述初始音频增强阈值的绝对值。

具体地，可以直接将预设音频增强阈值确定为目标音频增强阈值，也可以对预设音频增强阈值进一步数据处理得到目标音频增强阈值。

在一些实施例中，在相干声信号包括多帧音频信号对应的相干声，环境声信号包括多帧音频信号对应的环境声的情况下，针对任一帧音频信号，在该帧音频信号对应的相干声与该帧音频信号对应的环境声的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定该帧音频信号对应的目标音频增强阈值。此时，目标音频增强阈值包括多帧音频信号对应的增强阈值。

可以理解的是，在相干声与环境声的互相关系数较大时，对应的目标音频增强阈值的绝对值应小于相干声与环境声的互相关系数较小时所确定的目标音频增强阈值（初始音频增强阈值）的绝对值。在一实施例中，预设音频增强阈值可以为0，从而可以确保预设音频增强阈值的绝对值小于或等于任何基于环境声信号确定的初始音频增强阈值的绝对值。

步骤140，基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号。

具体地，基于至少一个音频增强参数和目标音频增强阈值，对待增强音频信号进行动态范围控制，得到增强音频信号。

考虑到实时确定的目标音频增强阈值只是限定音频增强参数的作用范围，因此，还需要获取至少一个音频增强参数。该音频增强参数用于对待增强音频信号进行增强处理，即用于对待增强音频信号进行参数控制处理，例如音效参数控制等等。该至少一个音频增强参数可以包括但不限于以下至少一种：增益（Gain）、压缩/扩展比率（Ratio）、建立时间（Attack Time）、释放时间（Release Time）、保持时间（Hold Time）等等。示例性的，至少一个音频增强参数包括压缩/扩展比率，则基于该压缩/扩展比率，可以对待增强音频信号进行压缩（Compressor）/扩展（Expander）操作。

示例性的，根据目标音频增强阈值可以对待增强音频信号中的相干声或者环境声进行控制，例如，进行压缩或者扩展，以达到不同的听音效果。例如，至少一个音频增强参数包括压缩/扩展比率和增益，在高频段（如6kHz附近），将待增强音频信号中高于目标音频增强阈值的部分音频信号进行压缩，待增强音频信号中不高于目标音频增强阈值的其他部分音频信号不进行压缩，同时因为增益的存在，导致实际效果为高于目标音频增强阈值的部分音频信号增益小，低于目标音频增强阈值的其他部分音频信号增益大，从而会显得音乐伴奏与人声更加融合，进而提高听音效果，最终提高用户体验感。应理解，目标音频增强阈值只是限定压缩/扩展比率的作用范围，并不限定增益的作用范围，即部分音频信号为至少一个音频增强参数中压缩/扩展比率对应的所需增强的信号。

可以理解的是，基于目标音频增强阈值可以从待增强音频信号中确定出部分音频信号，从而限定至少一个音频增强参数中个别增强参数的作用范围为部分音频信号，即部分音频信号为至少一个音频增强参数中至少一个增强参数对应的所需增强的信号，换言之，基于至少一个增强参数，对部分音频信号进行增强处理，并基于至少一个音频增强参数中除了至少一个增强参数之外的其他增强参数，对待增强音频信号进行增强处理。

在一些实施例中，若目标音频增强阈值包括多帧音频信号对应的增强阈值，对多帧增强阈值进行平滑处理，得到处理后的多帧增强阈值；基于至少一个音频增强参数和处理后的多帧增强阈值，对待增强音频信号进行增强处理，得到增强音频信号。基于此，通过平滑处理可以提高增强阈值的确定准确性，进而提高音频增强的准确性，最终提高听音效果，以提高用户体验感。

在一些实施例中，获取参数调整指令，基于参数调整指令确定至少一个音频增强参数。更为具体地，在参数调整指令指示的音频增强参数只有至少一个音频增强参数的部分参数时，将至少一个音频增强参数中除部分参数之外的其他参数确定为预设的参数值。基于此，用户可以自行选择设定音频增强参数，即用户可以根据自己的实际需要调整音频增强参数，以提高听音效果，并提高音频增强的个性化水平，最终提高用户体验感。进一步地，至少一个音频增强参数可以全部提供给用户进行选择，也可以选取部分增强参数供用户进行选择即可。

可以理解的是，本发明实施例通过相干声提取的方式，确定相干声与环境声的差别程度，以基于二者的差别程度实时动态设定音频动态范围控制所需的目标音频增强阈值，相比音乐平台常用的清澈人声、超重低音等模式而言，本发明实施例可以实时根据待增强音频信号变化而更新对应的音频增强参数，从而可以更好地调整音频源各个成分的增强效果，以提高用户听感，最终提高用户体验感。同时，本发明实施例无需基于深度学习进行音频增强处理，从而无需进行大量数据集处理，且在各个平台尤其是低算力平台上，也可以达到较好的音频增强效果，以提高用户听感，最终提高用户体验感。

本发明实施例提供的音频增强方法，对待增强音频信号进行相干声提取，得到相干声信号和环境声信号，在相干声信号与环境声信号的互相关系数小于预设相关系数阈值的情况下，基于环境声信号确定目标音频增强阈值，在相干声信号与环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，从而通过相干声提取的方式，确定相干声与环境声的差别程度，以基于二者的差别程度实时动态设定音频动态范围控制所需的目标音频增强阈值，且在相干声信号与环境声信号的互相关系数小于预设相关系数阈值的情况下是基于环境声信号确定目标音频增强阈值的，以使目标音频增强阈值随着待增强音频信号的变化而变化，相比通过固定的音频控制参数对一个完整音频进行增强处理而言，本发明实施例可以实时根据待增强音频信号变化而更新对应的音频增强参数，从而基于至少一个音频增强参数和目标音频增强阈值，更加准确对待增强音频信号进行增强处理，得到更为准确的增强音频信号，即提高音频增强的准确性，且目标音频增强阈值用于从待增强音频信号中确定出部分音频信号，部分音频信号为至少一个音频增强参数中至少一个增强参数对应的所需增强的信号，从而根据待增强音频信号的变化实时动态更新目标音频增强阈值，从而可以更好地控制音频源各个成分的增强效果，以达到更优的渲染效果，进而提高用户听感，最终提高用户体验感。

基于上述任一实施例，图2为本发明提供的音频增强方法的流程示意图之二，如图2所示，所述待增强音频信号是基于如下步骤确定：

步骤210，对待增强音频数据进行共振峰检测得到多个共振峰，并确定所述多个共振峰对应的频率点集合，所述频率点集合包括多个所述共振峰对应的频率点。

在一实施例中，待增强音频数据可以为完整的音频源数据，以对完整的音频源数据进行分频处理，从而分别确定音频源各个成分对应的音频增强参数。

此处，共振峰检测的算法可以包括但不限于：倒谱法、LPC（Linear PredictiveCoding，线性预测编码）法、Hilbert-Huang变换法等等。基于此，考虑到各类算法的处理时延与内存消耗各有不同，本发明实施例可以按需选择共振峰检测算法，从而可以根据平台算力不同选择不同算法，即具有一定的通用性，以达到对应平台最佳的听音效果，从而提高音频增强的准确性，进而提高音频的听音效果，即提高用户体验感。

可以理解的是，待增强音频数据通常为时域数据，多个共振峰为待增强音频数据的频谱包络线的各极大值。

在一具体实施例中，确定多个共振峰对应的下标，基于多个下标确定对应的多个频率点，以得到频率点集合。进一步地，该下标可以为待增强音频数据的帧数。

步骤220，基于所述频率点集合中功率最大的第一目标频率点，从所述频率点集合中确定出第二目标频率点，所述第二目标频率点为第一目标频率点集合中与所述第一目标频率点的频率差值最小的频率点，所述第一目标频率点集合包括所述频率点集合中与所述第一目标频率点的功率差值大于预设功率差值的频率点。

为便于理解，此处频率点的功率的单位可以设为dB。

此处，预设功率差值可以根据实际需要进行设定，例如6dB。示例性的，将频率点集合中功率最大的频率点记为第一目标频率点，将频率点集合中第一目标频率点附近功率低于第一目标频率点的功率6dB的频率点，且与第一目标频率点的频率距离最近的频率点记为第二目标频率点。

步骤230，基于所述第一目标频率点与所述第二目标频率点的频率间隔，确定当前区间的频率范围，并基于所述第一目标频率点确定当前区间的区间中点。

此处，频率间隔是基于第一目标频率点的频率与第二目标频率点的频率的差值确定。示例性的，频率间隔=|第二目标频率点的频率-第一目标频率点的频率|。

具体地，可以将频率间隔乘于2得到当前区间的频率范围，也可以直接将该频率间隔确定为当前区间的频率范围，后续只需得知该频率范围为当前区间的一半频率范围即可。

具体地，可以直接将该第一目标频率点确定为当前区间的区间中点，也可以对该第一目标频率点做进一步的调整得到当前区间的区间中点。

步骤240，基于所述频率间隔和所述区间中点，从所述频率点集合中确定出所述当前区间对应的第二目标频率点集合。

可以理解的是，基于当前区间的区间中点，以及当前区间的频率间隔，可以确定当前区间的频率范围。例如，区间中点为F，频率间隔为Q，当前区间的频率范围为[F-Q，F+Q]。进而基于当前区间的频率范围，从频率点集合中确定出当前区间对应的第二目标频率点集合，即第二目标频率点集合中各频率点的频率在当前区间的频率范围内。

步骤250，去除所述频率点集合中所述第二目标频率点集合内的频率点，并返回所述基于所述频率点集合中功率最大的第一目标频率点，从所述频率点集合中确定出第二目标频率点的步骤，直至满足预设条件，所述预设条件包括所述频率点集合中不存在频率点，或者，当前区间个数达到预设区间个数。

具体地，去除频率点集合中第二目标频率点集合内的频率点，即将频率点集合中当前区间的频率范围内的频率点去除，换言之，保留频率点集合中当前区间之外的其他频率点。

可以理解的是，返回上述步骤220，即重复执行步骤220-步骤250，以确定下一区间的区间中点和频率范围。应理解返回步骤220时，频率点集合为最新更新的集合，即为去除后的频率点集合。

步骤220-步骤250的循环中止条件为预设条件。该预设条件为频率点集合中不存在频率点，即最终去除后的频率点集合中不存在频率点，换言之，频率点集合中所有频率点都被检测；或者，该预设条件为当前区间个数达到预设区间个数，每执行一次步骤220-步骤250得到一个区间，即步骤220-步骤250的循环次数（执行次数）达到预设区间个数。

步骤260，基于各区间的所述区间中点以及各区间的所述频率范围，对所述待增强音频数据进行分频，得到多个子带序列集合，并将所述多个子带序列集合中任一子带序列集合确定为所述待增强音频信号，以分别确定各所述子带序列集合对应的所述目标音频增强阈值，并基于各所述子带序列集合对应的所述目标音频增强阈值分别对各所述子带序列集合进行增强处理。

可以理解的是，每执行一次步骤220-步骤250，得到一个区间的区间中点和频率范围。

在一具体实施例中，将所有区间的区间中点记为频率点集合，将所有区间的频率范围记为频率范围集合，将频率点集合和频率范围集合作为分频器的输入参数，通过分频器对待增强音频数据进行分频，得到多个子带序列集合。其中，区间个数与子带序列集合个数相同，即每一子带序列集合的频率中心点为对应区间的区间中点，每一子带序列集合的频率范围是基于对应区间的频率范围确定的。该分频器可以根据实际需要进行设定，例如，通过Linkwitz-Riley交叉滤波器实现分频器。

需要说明的是，多个子带序列集合中每一子带序列集合均需要进行增强处理，相应的，在得到各子带序列集合对应的增强音频信号后，将各增强音频信号叠加，得到待增强音频数据对应的增强音频数据。

本发明实施例提供的音频增强方法，考虑到待增强音频数据中不同区间所需的增强方式不一样，基于此，需要对待增强音频数据进行分频。通过上述方式，通过共振峰检测方法，以及上述峰值判断方法，即确定各区间的区间中点和频率范围的方法，可以实时获取需要分频的频率点（区间中点）与频率范围，从而提高分频的准确性，换言之，以使分频所需的频率点与频率范围随着待增强音频数据的变化而变化，相比通过固定的分频参数进行分频而言，本发明实施例可以提高分频的准确性，即确保多个子带序列集合的划分准确性，进而提高音频增强的准确性，从而可以更好地控制音频源各个成分的增强效果，以达到更优的渲染效果，进而提高用户听感，最终提高用户体验感。

基于上述任一实施例，该方法中，上述步骤230中，基于所述第一目标频率点确定当前区间的区间中点，包括：

具体地，可以将第一目标频率点与频率间隔的差值直接确定为当前区间的第一区间端点，将第一目标频率点与频率间隔的和值直接确定为当前区间的第二区间端点；也可以对该差值做进一步处理得到第一区间端点，对该和值做进一步处理得到第二区间端点。

为避免划分的各区间存在重叠区域，即为避免分频的多个子带序列集合存在重叠区域，需要检测是否存在重叠区域，以对当前区间的第一区间端点进行更新。应理解，若上一区间的第二区间端点和当前区间的第一区间端点中频率最大的端点为当前区间的第一区间端点，则表示不存在重叠区域，相应的，当前区间的区间中点即为第一目标频率点；若上一区间的第二区间端点和当前区间的第一区间端点中频率最大的端点为上一区间的第二区间端点，则表示存在重叠区域，相应的，当前区间的区间中点是由更新后的第三区间端点与第二区间端点确定。

需要说明的是，每执行一次步骤220-步骤250得到一个区间，基于此，上一区间为上一执行步骤220-步骤250所得到的区间。若当前区间为第一个确定的区间，即当前第一次执行步骤220-步骤250，则不存在上一区间，此时，将上一区间的第二区间端点设定为0，以防止当前区间的端点小于0，确保当前区间的划分准确性，进而提高音频数据的分频准确性。

具体地，可以直接将当前区间的第三区间端点与当前区间的第二区间端点的平均值确定为当前区间的区间中点，也可以对该平均值做进一步的调整得到当前区间的区间中点。

为便于理解上述各实施例，此处以一具体实施例进行说明。具体步骤如下：

步骤一，将频率点集合中功率最大的频率点记为，将频率点集合中/>附近功率低于/>处6dB的频率点、频率距离最近的频率点记为/>，计算/>与/>的频率间隔，记为；

步骤二，将频率点集合中包含在区间内的频率点去除，且当/>不是当前区间的区间中点时，/>；

步骤三，在去除后的频率点集合中，找到功率最大的频率点记为，将频率点集合中/>附近功率低于/>处6dB的频率点、频率距离最近的频率点记为/>，计算/>与/>频率间隔，记为/>；

步骤四，将去除后的频率点集合中包含在区间内的频率点去除，且当/>不是区间中点时，/>；

步骤五，重复执行步骤三和步骤四，直至频率点集合中不存在频率点，或者，当前区间个数达到预设区间个数。

本发明实施例提供的音频增强方法，考虑到各区间可能存在重叠区域，基于此，需要重新调整各区间的端点，并重新确定各区间的区间中点。通过上述方式，将上一区间的第二区间端点和当前区间的第一区间端点中频率最大的端点作为当前区间的第三区间端点，可以准确地调整区间的端点，进而基于当前区间的第三区间端点与当前区间的第二区间端点的平均值，可以准确确定当前区间的区间中点，从而避免划分的各区间存在重叠区域，进而避免分频的多个子带序列集合存在重叠区域，确保多个子带序列集合的划分准确性，进而提高音频增强的准确性，从而可以更好地控制音频源各个成分的增强效果，以达到更优的渲染效果，进而提高用户听感，最终提高用户体验感。

基于上述任一实施例，在上述步骤220之前，该方法还包括：

去除所述频率点集合中功率小于预设功率的频率点。

此处，预设功率可以根据实际需要进行设定，例如，-60dB。

需要说明的是，只需在第一次执行步骤220之前去除频率点集合中功率小于预设功率的频率点即可。

本发明实施例提供的音频增强方法，去除频率点集合中功率小于预设功率的频率点，从而去除声音较小所对应的频率点，从而减少所需检测的频率点数量，减少上述步骤220-步骤250的执行次数，进而提高分频效率，最终提高音频增强效率。

基于上述任一实施例，该方法中，上述步骤120包括：

对所述环境声信号的绝对值进行对数计算，得到对数值；

此处，对数计算可以为以10为底的对数计算，也可以为其他底数的对数计算。

此处，预设值可以根据实际需要进行设定，例如20。可以直接将对数值与预设值的乘积确定为初始音频增强阈值，也可以对该乘积做进一步数据处理得到初始音频增强阈值。

在一些实施例中，在相干声信号包括多帧音频信号对应的相干声，环境声信号包括多帧音频信号对应的环境声的情况下，针对任一帧音频信号，对该帧音频信号对应的环境声的绝对值进行对数计算，得到该帧音频信号对应的对数值，基于该对数值与预设值的乘积，确定该帧音频信号对应的初始音频增强阈值。此时，初始音频增强阈值包括多帧音频信号对应的增强阈值。

示例性的，该初始音频增强阈值的计算公式如下：

；

式中，表示第/>帧音频信号对应的初始音频增强阈值，/>表示第/>帧音频信号对应的环境声。

本发明实施例提供的音频增强方法，为初始音频增强阈值的确定提供支持，且上述方式是基于环境声信号确定初始音频增强阈值的，以使初始音频增强阈值随着待增强音频信号的变化而变化，相比通过固定的音频控制参数对一个完整音频进行增强处理而言，本发明实施例可以实时根据待增强音频信号变化而更新对应的音频增强参数，从而基于至少一个音频增强参数和目标音频增强阈值，更加准确对待增强音频信号进行增强处理，得到更为准确的增强音频信号，即提高音频增强的准确性。

基于上述任一实施例中，所述待增强音频信号包括多帧音频信号，所述相干声信号包括多帧所述音频信号对应的相干声，所述环境声信号包括多帧所述音频信号对应的环境声，所述目标音频增强阈值包括多帧所述音频信号对应的增强阈值。相应的，上述步骤140包括：

基于至少一个音频增强参数和所述处理后的多帧增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号。

其中，处理后的任一帧增强阈值是基于如下步骤确定：

可以理解的是，通过上述步骤110-步骤130，依次确定各帧音频信号对应的增强阈值，从而可以基于上一帧对应的第一权重和当前帧对应的第二权重，对上一帧对应的处理后的增强阈值和当前帧对应的处理前的增强阈值进行加权聚合处理。

此处，第一权重和第二权重可以预先根据实际需要设定得到，例如第一权重为0.9，第二权重为0.1。

示例性的，当前帧对应的处理后的增强阈值的计算公式如下所示：

；

式中，表示当前帧对应的处理后的增强阈值，/>表示第一权重，/>表示第二权重，/>表示上一帧对应的处理后的增强阈值，/>表示当前帧对应的处理前的增强阈值。

本发明实施例提供的音频增强方法，通过上述方式，可以对多帧增强阈值进行平滑处理，从而可以提高增强阈值的确定准确性，进而提高音频增强的准确性，最终提高听音效果，以提高用户体验感。

基于上述任一实施例，在上述步骤140之后，该方法还包括：

此处，预设音频控制参数用于对增强音频信号进行参数控制处理，以防止增强后的增强音频信号超出所需的增强范围。该预设音频控制参数为预先根据实际需要设定的参数。

例如，预设音频控制参数包括幅度控制参数，以防止增强音频信号出现截幅的情况，即确保处理后的增强音频信号不会出现截幅的情况。在一具体实施例中，将幅度控制参数作为压缩器或限制器的输入参数，通过压缩器或限制器，对增强音频信号进行处理，以防止出现截幅的情况。

此外，预设音频控制参数还可以参考至少一个音频增强参数进行设置，此处不再一一赘述。

本发明实施例提供的音频增强方法，基于预设音频控制参数，对增强音频信号进行处理，得到处理后的增强音频信号，以防止之前进行增强处理后的增强音频信号为不正常的音频信号，即防止增强处理后的增强音频信号的音频参数不处于正常的音频参数范围内，进而确保音频增强的准确性和可靠性。

为便于理解以上各实施例，此处以一具体实施例进行说明。如图3所示，首先，对输入的立体声音频（待增强音频数据）进行共振峰检测以及峰值判断，得到频率点集合和频率范围集合，其次，将频率点集合和频率范围集合作为分频器的输入参数，通过分频器对输入的立体声音频进行分频处理，得到多个子带序列集合，之后，分别对多个子带序列集合进行相干声提取得到相干声和环境声，之后，基于相干声和环境声进行阈值确定得到各子带序列集合的目标音频增强阈值，之后，基于各目标音频增强阈值和音频增强参数，分别对多个子带序列集合进行增强处理，之后，将预设音频控制参数作为压缩器/限制器的输入参数，通过压缩器/限制器，对增强处理后的序列集合进行压缩/限制，之后，将各子带对应的压缩/限制后的数据进行叠加处理得到输出的立体声音频（增强音频数据）。

下面对本发明提供的音频增强装置进行描述，下文描述的音频增强装置与上文描述的音频增强方法可相互对应参照。

图4为本发明提供的音频增强装置的结构示意图，如图4所示，该音频增强装置，包括：

音频提取模块410，用于对待增强音频信号进行相干声提取，得到相干声信号和环境声信号；

第一确定模块420，用于在所述相干声信号与所述环境声信号的互相关系数小于预设相关系数阈值的情况下，基于所述环境声信号确定初始音频增强阈值，并将所述初始音频增强阈值确定为目标音频增强阈值；

第二确定模块430，用于在所述相干声信号与所述环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，所述预设音频增强阈值的绝对值小于或等于所述初始音频增强阈值的绝对值；

音频增强模块440，用于基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号；

本发明实施例提供的音频增强装置，对待增强音频信号进行相干声提取，得到相干声信号和环境声信号，在相干声信号与环境声信号的互相关系数小于预设相关系数阈值的情况下，基于环境声信号确定目标音频增强阈值，在相干声信号与环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，从而通过相干声提取的方式，确定相干声与环境声的差别程度，以基于二者的差别程度实时动态设定音频动态范围控制所需的目标音频增强阈值，且在相干声信号与环境声信号的互相关系数小于预设相关系数阈值的情况下是基于环境声信号确定目标音频增强阈值的，以使目标音频增强阈值随着待增强音频信号的变化而变化，相比通过固定的音频控制参数对一个完整音频进行增强处理而言，本发明实施例可以实时根据待增强音频信号变化而更新对应的音频增强参数，从而基于至少一个音频增强参数和目标音频增强阈值，更加准确对待增强音频信号进行增强处理，得到更为准确的增强音频信号，即提高音频增强的准确性，且目标音频增强阈值用于从待增强音频信号中确定出部分音频信号，部分音频信号为至少一个音频增强参数中至少一个增强参数对应的所需增强的信号，从而根据待增强音频信号的变化实时动态更新目标音频增强阈值，从而可以更好地控制音频源各个成分的增强效果，以达到更优的渲染效果，进而提高用户听感，最终提高用户体验感。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行音频增强方法，该方法包括：对待增强音频信号进行相干声提取，得到相干声信号和环境声信号；在所述相干声信号与所述环境声信号的互相关系数小于预设相关系数阈值的情况下，基于所述环境声信号确定初始音频增强阈值，并将所述初始音频增强阈值确定为目标音频增强阈值；在所述相干声信号与所述环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，所述预设音频增强阈值的绝对值小于或等于所述初始音频增强阈值的绝对值；基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号；其中，所述目标音频增强阈值用于从所述待增强音频信号中确定出部分音频信号，所述部分音频信号为所述至少一个音频增强参数中至少一个增强参数对应的所需增强的信号。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的音频增强方法，该方法包括：对待增强音频信号进行相干声提取，得到相干声信号和环境声信号；在所述相干声信号与所述环境声信号的互相关系数小于预设相关系数阈值的情况下，基于所述环境声信号确定初始音频增强阈值，并将所述初始音频增强阈值确定为目标音频增强阈值；在所述相干声信号与所述环境声信号的互相关系数大于或等于预设相关系数阈值的情况下，基于预设音频增强阈值确定目标音频增强阈值，所述预设音频增强阈值的绝对值小于或等于所述初始音频增强阈值的绝对值；基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号；其中，所述目标音频增强阈值用于从所述待增强音频信号中确定出部分音频信号，所述部分音频信号为所述至少一个音频增强参数中至少一个增强参数对应的所需增强的信号。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频增强方法，其特征在于，包括：

2.根据权利要求1所述的音频增强方法，其特征在于，所述待增强音频信号是基于如下步骤确定：

3.根据权利要求2所述的音频增强方法，其特征在于，所述基于所述第一目标频率点确定当前区间的区间中点，包括：

4.根据权利要求2所述的音频增强方法，其特征在于，所述基于所述频率点集合中功率最大的第一目标频率点，从所述频率点集合中确定出第二目标频率点，之前还包括：

去除所述频率点集合中功率小于预设功率的频率点。

5.根据权利要求1所述的音频增强方法，其特征在于，所述基于所述环境声信号确定初始音频增强阈值，包括：

对所述环境声信号的绝对值进行对数计算，得到对数值；

6.根据权利要求1所述的音频增强方法，其特征在于，所述待增强音频信号包括多帧音频信号，所述相干声信号包括多帧所述音频信号对应的相干声，所述环境声信号包括多帧所述音频信号对应的环境声，所述目标音频增强阈值包括多帧所述音频信号对应的增强阈值；

其中，处理后的任一帧增强阈值是基于如下步骤确定：

7.根据权利要求1至6中任一项所述的音频增强方法，其特征在于，所述基于至少一个音频增强参数和所述目标音频增强阈值，对所述待增强音频信号进行增强处理，得到增强音频信号，之后还包括：

8.一种音频增强装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述音频增强方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述音频增强方法。