CN113542983A

CN113542983A - 一种音频信号处理方法、装置、设备及存储介质

Info

Publication number: CN113542983A
Application number: CN202110779713.2A
Authority: CN
Inventors: 巴万琴
Original assignee: Shanghai Lingxin Technology Co ltd; Anhui Lingsi Intelligent Technology Co ltd
Current assignee: Shanghai Lingxin Technology Co ltd; Anhui Lingsi Intelligent Technology Co ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-22
Anticipated expiration: 2041-07-09
Also published as: CN113542983B

Abstract

本申请提出一种音频信号处理方法、装置、设备及存储介质，该方法包括：获取录音设备采集的音频信号的频响数据；从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据；其中，所述音频信号理想频响数据集，由通过各个预设采样率获取的音频信号的理想频响数据构成；以所述录音设备采集的音频信号的频响数据趋近于所述标准频响数据为目标，对所述录音设备采集的音频信号的频响数据进行处理。该方案实现了对录音设备采集的音频信号频响的自动调整，能够在任意录音设备上、任意声学环境下获取更优质的音频信号。

Description

一种音频信号处理方法、装置、设备及存储介质

技术领域

本申请涉及音频信号处理技术领域，尤其涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术

随着录音设备的智能化和不断普及，人们对录音音频的音质要求也越来越高。

录音设备的电气性能会影响录音质量，本领域技术人员通常通过调整录音设备的频响特性，来保证录音音频的频响接近理想频响曲线，从而保证录音质量。但是，用户实际录音环境是可变的，因此录音设备的频响特征可能并不能适配所有的录音环境，而且，完全依靠技术人员手动调整录音设备频响来提升录音质量的效率较低。

发明内容

基于上述技术现状，本申请提出一种音频信号处理方法、装置、设备及存储介质，能够自动、实时地调整录音设备采集的音频信号的频响，从而可以在任意录音环境下提高录音质量。

为了实现上述目的，本申请提出的技术方案具体如下：

一种音频信号处理方法，包括：

获取录音设备采集的音频信号的频响数据；

从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据；其中，所述音频信号理想频响数据集，由通过各个预设采样率获取的音频信号的理想频响数据构成；

以所述录音设备采集的音频信号的频响数据趋近于所述标准频响数据为目标，对所述录音设备采集的音频信号的频响数据进行处理。

可选的，所述从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据，包括：

确定所述录音设备采集的音频信号的采样率，作为目标采样率；

从预设的音频信号理想频响数据集中，获取通过所述目标采样率获取的音频信号的理想频响数据，作为标准频响数据。

将所述录音设备采集的音频信号的频响数据，分别与预设的音频信号理想频响数据集中的、通过各个预设采样率获取的音频信号的理想频响数据进行对比，从中获取与所述录音设备采集的音频信号的频响数据相似度最高的音频信号的理想频响数据，作为标准频响数据。

可选的，所述音频信号理想频响数据集，由通过各个预设采样率获取的预设频率范围内的音频信号的理想频响数据构成；

所述获取录音设备采集的音频信号的频响数据，包括：

获取录音设备采集的音频信号中的预设频率范围内的音频信号的频响数据。

可选的，所述获取录音设备采集的音频信号中的预设频率范围内的音频信号的频响数据，包括：

获取录音设备采集的音频信号；

从所述音频信号中筛选所述预设频率范围内的音频信号；

获取所述预设频率范围内的音频信号的频响数据。

从录音设备采集的音频信号中的预设频率范围内的音频信号中，分离得到人声信号和非人声信号；

分别获取所述人声信号的频响数据，以及所述非人声信号的频响数据；

相应的，所述从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号的频响数据对应的音频信号理想频响数据，作为标准频响数据，包括：

从预设的音频信号理想频响数据集中，获取与所述人声信号的频响数据对应的音频信号理想频响数据，作为与所述人声信号对应的标准频响数据；

以及，

从预设的音频信号理想频响数据集中，获取与所述非人声信号的频响数据对应的音频信号理想频响数据，作为与所述非人声信号对应的标准频响数据；

所述以所述录音设备采集的音频信号的频响数据趋近于所述标准频响数据为目标，对所述录音设备采集的音频信号的频响数据进行处理，包括：

以所述人声信号的频响数据趋近于与所述人声信号对应的标准频响数据，对所述人声信号的频响数据进行处理，以及，以所述非人声信号的频响数据趋近于与所述非人声信号对应的标准频响数据为目标，对所述非人声信号的频响数据进行处理。

可选的，所述以所述录音设备采集的音频信号的频响数据趋近于所述标准频响数据为目标，对所述录音设备采集的音频信号的频响数据进行处理，包括：

以所述录音设备采集的音频信号的频响数据在各频点的幅值，与所述标准频响数据中的相应频点的幅值的差值不超过预设阈值为目标，对所述录音设备采集的音频信号的频响数据进行处理。

可选的，所述以所述录音设备采集的音频信号的频响数据在各频点的幅值，与所述标准频响数据中的相应频点的幅值的差值不超过预设阈值为目标，对所述录音设备采集的音频信号的频响数据进行处理，包括：

将所述录音设备采集的音频信号的频响数据与所述标准频响数据中的、对应相同频点的幅值数据进行对比，确定幅值差值超过设定阈值的频点，作为待调整频点；

对所述录音设备采集的音频信号的频响数据中的、对应所述待调整频点的幅值进行调整，使所述录音设备采集的音频信号的频响数据与所述标准频响数据中的、对应所述待调整频点的幅值数据的差值不超过所述设定阈值。

可选的，所述方法还包括：

对所述录音设备采集的音频信号的处理后的频响数据进行转换得到时域音频信号；

和/或，

对所述录音设备采集的音频信号的处理后的频响数据进行转换得到时域音频信号，以及对转换得到的时域音频信号进行播放。

一种音频信号处理装置，包括：

第一数据获取单元，用于获取录音设备采集的音频信号的频响数据；

第二数据获取单元，用于从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据；其中，所述音频信号理想频响数据集，由通过各个预设采样率获取的音频信号的理想频响数据构成；

数据处理单元，用于以所述录音设备采集的音频信号的频响数据趋近于所述标准频响数据为目标，对所述录音设备采集的音频信号的频响数据进行处理。

一种音频信号处理设备，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器用于通过运行所述存储器中的程序，实现上述的音频信号处理方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的音频信号处理方法。

本申请提出的音频信号处理方法，能够以通过各个预设采样率获取的音频信号的理想频响数据为参考，对录音设备采集的音频信号的频响数据进行调整，将录音设备采集的音频信号的频响数据调整为趋近理想频响数据，从而可以提高录音设备采集的音频信号的音质，即提高录音设备录音质量。

进一步的，该方案实现了对录音设备采集的音频信号频响的自动调整，在录音设备设计或应用中，可以实时地通过执行本申请实施例技术方案，提高录音设备采集的音频质量，因此能够在任意录音设备上、任意声学环境下获取更优质的音频信号。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的录音系统结构示意图；

图2是本申请实施例提供的一种音频信号处理方法的流程示意图；

图3是本申请实施例提供的另一种音频信号处理方法的流程示意图；

图4是本申请实施例提供的一种音频信号处理装置的结构示意图；

图5是本申请实施例提供的一种音频信号处理设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于音频录制应用场景，采用本申请实施例技术方案，能够自动调整录音音频的频响，从而提高录音设备录制的音频数据的音质。

具体的，本申请实施例技术方案可应用于录音设备，该录音设备可以是智能语音产品，如智能录音笔、智能麦克风等，或者可以是智能音频录制系统。或者，本申请实施例技术方案还可以应用于处理设备，例如录音设备的处理器，或者独立的音频信号处理设备等。优选的，本申请实施例以应用于智能语音产品为例，介绍本申请实施例技术方案的处理过程，通过本申请实施例技术方案的应用，可以使智能语音产品采集的音频信号的音质更好，从而为提高智能语音产品基于录音音频的其他音频处理的效果打下基础和提供帮助。可以理解，当本申请实施例技术方案应用于其他音频录制设备或系统时，可以参照本申请实施例介绍实时本申请实施例技术方案，并取得相应的技术效果。

常规的录音质量提升方案通常是调整录音设备的频响曲线，使其频响曲线接近理想频响曲线。但是，该调整方案需要在产品出厂之前由技术人员手动完成，当产品投入使用后，用户可能在任意场景、任意环境中应用录音产品，这就会导致产品频响发生变化，从而无法保证录音质量，此时如果想要获得高质量的录音，只能重新调整产品频响，这显然是不现实的，而且由技术人员手动调整频响的方式本身存在效率低下的问题。

为了解决上述问题，提高录音产品的录音质量，本申请实施例提出一种音频信号处理方法，该方法通过对录音设备采集的音频信号进行处理，达到自动、高效调整录音频响的目的，实现对音频信号质量的自动调整。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对智能语音产品的录音系统结构进行简要介绍。

参见图1所示，智能语音产品的录音系统主要由麦克风和主板SOC(System onChip，系统级芯片)芯片构成，其中，SOC芯片搭载codec(coder-decoder，编译码器)，用于对麦克风采集的音频信号进行处理。麦克风与SOC芯片codec之间通过数字PDM(PulseDensity Modulation，脉冲密度调制)接口或模拟ADC(Analog-to-digital converter，模拟数字转换器)连接。

当麦克风采集音频信号之后，发送给SOC芯片codec进行必要的处理，比如转采样、降噪、音效算法处理等。经codec处理后的音频信号用作后续应用，比如录音播放，或录音存储、语音识别等。

显然，从智能语音产品的主板SOC芯片的codec上能够获取该产品采集的音频信号，也就是获取录音音频，进而可以进行处理。因此，本申请实施例从智能语音产品的主板SOC芯片的codec上获取音频信号，并对其实施本申请实施例提出的录音信号处理方法。

参见图2所示，本申请实施例提出的音频信号处理方法，包括：

S201、获取录音设备采集的音频信号的频响数据；

具体的，该录音设备，即应用本申请实施例技术方案以期提高其录音质量的设备，如上述的智能语音产品。作为可选的实现方式，本申请实施例从录音设备的主板SOC芯片的codec上获取该录音设备采集的音频信号。

需要说明的是，codec主要用于对采集的音频信号进行处理，比如转采样、降噪、音效调整等。但是，codec对音频信号的处理会直接影响音频信号的频响，即影响音频信号质量。而对音频信号的降噪、音效调整等，在很多情况下又是不得不做的，比如用户开启了降噪功能或者用户设置了音效。所以，本申请实施例不对codec处理后的音频信号进行处理，而是对codec进行转采样、音效调整等处理之前的音频信号，也就是对录音设备在关闭音效、转采样等功能时采集的原始音频信号进行处理。即，本申请实施例获取的音频信号，是codec接收到但并未进行处理的音频信号。通过执行本申请实施例技术方案，提高录音设备采集的原始音频信号的音质，从而为后续信号处理提供优质音频信号，也就能够整体上提高录音设备录音质量。

另外，codec也可以对音频信号进行一些必要的处理，比如基本的降噪处理等。此时，本申请实施例获取的音频信号，也可以是codec进行基本处理后的音频信号。

在获取到录音设备采集的音频信号后，对该音频信号进行快速傅里叶变换FFT处理，得到该音频信号的幅频响应数据，例如得到幅频响应曲线，即得到了该音频信号的频响数据。作为优选的实现方式，本申请实施例将录音设备采集的音频信号截成一小段一小段处理，也就是分帧，再加窗处理防止频谱泄露，然后再做短时傅里叶变换，得到每一帧的幅频值。最后按照实现排序得到的各个音频帧的幅频值，得到完整音频信号的频谱，即频响数据。

在该频响数据中，体现了录音设备采集的音频信号在各个信号频率下的响应幅值，即体现了音频信号的幅频特性。

S202、从预设的音频信号理想频响数据集中，获取与上述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据。

其中，上述的音频信号理想频响数据集，是由通过各个预设采样率采集获取的音频信号的理想频响数据构成的，具体是通过各个采样率采集获取的正弦波基频周期信号的理想频响数据。该正弦波基频周期信号的理想频响数据，可以是正弦波基频周期信号的频响曲线。

按照录音技术领域的常规设置，上述的正弦波基频周期信号的基频是1Khz的频率。即，上述的音频信号理想频响数据集中存储的，是通过各个采样率采集获取的以1Khz为基频的正弦波周期信号的理想频响曲线。相应的，基于录音技术领域对录音音频基频的常规设置，上述的录音设备采集的音频信号也是以1Khz为基频的音频信号。

可以理解，上述的正弦波基频周期信号的基频，和/或上述录音设备采集的音频信号的基频，也可以根据实际情况而灵活设置，并不限定于一定是1Khz的基频，但优选为相同频率的基频。

录音设备对模拟音频信号进行采集得到录音音频，实际上是以一定的采样率对模拟音频信号进行采样，从而得到数字形式的音频信号。所以，在录音场景中，录音设备采集音频信号都是基于一定采样率而实现的音频信号采集。也就是说，录音设备采集的音频信号，均是通过某一采样率采集得到的音频信号，通过不同采样率采集的音频信号的音质也不同。

为了使本申请实施例技术方案能够适用于对各种采样率采样的音频信号进行处理，本申请实施例预先存储通过各个预设采样率获取的音频信号的理想频响数据，构成音频信号理想频响数据集。

上述的各个预设采样率，具体可以根据录音设备可支持的采样率而设置，或者根据录音技术要求、规范等进行设置。例如，假设录音设备为智能语音录音产品，在智能语音录音领域，经典的采样率范围为8khz-48khz，具体为8khz、11.025khz、16khz、22.05khz、32khz、48khz，则相应的，在音频信号理想频响数据集中，分别存储通过8khz、11.025khz、16khz、22.05khz、32khz、48khz采样率采集的正弦波基频周期信号的理想频响曲线。

可以理解，当本申请实施例技术方案的应用场景或执行主体(即执行该方案的产品、设备或系统等)发生变化时，可以根据实际情况，对上述的各个预设采样率进行选取或设置。例如当录音设备只执行基于某一种采样率的音频信号采集时，在音频信号理想频响数据集中，可以只存储通过该采样率获取的音频信号的理想频响数据。

另外，通过不同采样率而采集的音频的频响曲线是不同的。比如，通过8khz采样率采集的音频信号的频谱，与通过48khz采样率采集的音频信号的频谱是完全不同的，两者之间不具有可比性。如果希望通过8khz采样率采集的音频信号的频谱与通过48khz采样率采集的音频信号的频谱相同或趋近，基本上是无法通过调整音频信号的频谱实现的，如果可以的话，也就不用设计8khz采样率和48khz采样率了。所以，只有相同采样率下的音频信号的频谱才具有可比性。为了便于后期对任意采样率下获取的音频信号进行频响调整，本申请实施例在音频信号理想频响数据集中，存储通过各个采样率获取的音频信号的理想频响数据，并且将各个理想频响数据按照其对应的音频信号的采样率而区别存储。

基于上述的音频信号理想频响数据集，当获取录音设备采集的音频信号的频响数据后，从该音频信号理想频响数据集中，获取与该录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据。

因为基于相同采样率而获取的音频信号之间具有相似性和可比性，因此，本申请实施例从预先存储的音频信号理想频响数据集中，选择与录音设备采集的音频信号相同采样率的音频信号的理想频响数据，将其用于与录音设备采集的音频信号的频响数据进行对比，进而对录音设备采集的音频信号进行处理，为便于描述，本申请实施例将从音频信号理想频响数据集中选出的音频信号的理想频响数据，称为标准频响数据。

S203、以上述录音设备采集的音频信号的频响数据趋近于所述标准频响数据为目标，对所述录音设备采集的音频信号的频响数据进行处理。

可以理解，上述的标准频响数据为理想频响数据，如果录音设备采集的音频信号的频响数据能够趋近该标准频响数据，或者是与该标准频响数据相吻合，则可以说明该录音设备采集的音频信号较理想，也就是该录音设备采集的音频信号音质较好。

因此，本申请实施例以上述的标准频响数据为基准，对录音设备采集的音频信号的频响数据进行调整，使其趋近该标准频响数据，理想状态下是使其与该标准频响数据相一致。例如，上述的频响数据均为频响曲线，则对录音设备采集的音频信号的频响曲线进行调整，使其趋近于标准频响曲线。

则，经过上述调整后的录音设备采集的音频信号的频响更加接近理想频响，即该录音设备采集的音频信号的音质接近理想音质，因此能够提高录音设备采集的音频信号的音质。

通过上述介绍可见，本申请实施例提出的音频信号处理方法，能够以通过各个预设采样率获取的音频信号的理想频响数据为参考，对录音设备采集的音频信号的频响数据进行调整，具体是根据与录音设备采集的音频信号相同采样率的音频信号的理想频响数据，对录音设备采集的音频信号的频响数据进行调整，将录音设备采集的音频信号的频响数据调整为趋近理想频响数据，从而可以提高录音设备采集的音频信号的音质，即提高录音设备录音质量。

而且，本申请实施例是以与录音设备采集的音频信号相同采样率的音频信号的理想频响数据为参考，对录音设备采集的音频信号的频响数据进行调整。该方案可以保证利用科学、合理的理想频响数据，对录音设备采集的音频信号的频响进行调整，从而提高频响调整效果。当录音设备的采样率改变时，通过实施本申请实施例技术方案，依然可以选择科学、合理的理想频响数据作为对录音设备采集的音频信号的频响进行调整的基础，从而达到科学、高效地提高录音音质的目的。

即，本申请实施例的实施，能够在录音场景中，提高音频质量。与常规的音频播放时调整音频频响的方案不同，本申请实施例本质上是从声源环节调整音频音质，也就是在录音环节就对录音音频的频响进行优化，在这一音质优化基础上，配合后期的调声、音效等处理，可以更进一步提高音频播放音质。

需要说明的是，在音频播放时调整播放音频的频响，与本申请实施例提出的在录音场景中调整音频信号的频响，是不同的。在音频播放时调整频响，实际上是调整音频信号在空气中传播时的频响，例如通过调整使得空气中传播的音频信号的频响符合某种特定的频响曲线。而本申请实施例在录音场景下对音频信号进行频响调整，实际上是对音频信号本身进行频响调整，这其中不涉及音频信号传播到空气中时的频响如何的问题，只是从数据源头上，对原始的音频数据本身进行频响调整，使音频数据的频响更理想，也就是使音频数据质量更好，这样当该音频数据传输到空气中时，其频响自然可以更加理想。

因此，相对于常规的在音频播放时调整音频频响的技术方案，本申请能够从根源上提高音频信号质量，而并非只是让音频信号播放时的频响更理想。通过本申请实施例采集的音频信号应用于语音识别、音频优化等后续处理中时，能够更加容易地得到理想结果。

作为优选的实现方式，上述的预设的音频信号理想频响数据集，以及录音设备采集的音频信号，均存储于录音设备的高速缓存区。当需要对采集的音频信号进行处理时，从高速缓存区读取数据，可以保证高速的数据读写速度，从而提高处理效率。

另外，录音设备还对本申请实施例技术方案的执行过程进行记录，尤其是记录被处理的音频信号的特征，以及处理内容。当录音设备当前采集的音频信号与历史处理过程中处理的某一音频信号相同时，直接对当前采集的音频信号执行与该历史音频信号相同的处理内容即可，例如直接对调整过的频点进行相同的幅值调整即可，不必再将重新选择标准频响数据，并且将当前采集的音频信号的频响数据与选择的标准频响数据进行对比和处理，由此可以提高处理效率。

下面通过不同实施例，分别对本申请提出的音频信号处理方法的具体处理过程进行详细介绍。

作为一种可选的实现方式，本实施例公开了，上述的从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据，可以通过执行如下步骤A1-A2实现：

A1、确定所述录音设备采集的音频信号的采样率，作为目标采样率。

示例性的，录音设备采集的音频信号的采样率，可以通过录音设备的标定采样率而确定，例如，假设录音设备仅支持8khz采样率录音，则其采集的音频信号的采样率为8khz。或者，也可以根据用户设置的采样率而确定，比如用户设置录音设备按照16khz采样率采集音频信号，则录音设备采集的音频信号的采样率就是16khz。还可以通过对音频信号进行信号分析，确定其采样率。例如在音频信号属性信息中可以记载该音频信号的采样率信息，通过解析该音频信号的属性信息，确定其采样率。上述的确定录音设备采集的音频信号的采样率的具体实现方式，可以是任意一种可行的实现方式，本申请实施例不做限定。

A2、从预设的音频信号理想频响数据集中，获取通过所述目标采样率获取的音频信号的理想频响数据，作为标准频响数据。

具体的，在确定了录音设备采集的音频信号的采样率后，即得到上述的目标采样率后，从预设的音频信号理想频响数据集中，获取通过该目标采样率获取的音频信号的理想频响数据，作为标准频响数据。

例如，假设确定了录音设备采集的音频信号的采样率为8khz，则从已损坏的音频信号理想频响数据集中，选择通过8khz的采样率获取的音频信号的理想频响数据，作为标准频响数据。

作为另一种可选的实现方式，上述的从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据，还可以通过如下实现：

将录音设备采集的音频信号的频响数据，分别与预设的音频信号理想频响数据集中的、通过各个预设采样率获取的音频信号的理想频响数据进行对比，从中获取与录音设备采集的音频信号的频响数据相似度最高的音频信号的理想频响数据，作为标准频响数据。

具体的，通过相同采样率采集的音频信号的频响具有相似性，甚至理想状况下是相同的。基于该规律，在该实现方式中，通过将录音设备采集的音频信号的频响数据，与音频信号理想频响数据集中的各个音频信号的理想频响数据进行遍历对比，从中选出与录音设备采集的音频信号的频响数据相似度最高的音频信号的理想频响数据，即为与录音设备采集的音频信号相同采样率的音频信号的理想频响数据，该理想频响数据即可作为标准频响数据。

例如，假设音频信号理想频响数据集中，分别存储着通过8khz、11.025khz、16khz、22.05khz、32khz、48khz采样率采集的正弦波基频周期信号的理想频响曲线，将录音设备采集的音频信号的频响曲线，与该音频信号理想频响数据集中的各个理想频响曲线进行对比。假设录音设备采集的音频信号的频响曲线与通过32khz采样率采集的正弦波基频周期信号的理想频响曲线的相似度最高，则将通过32khz采样率采集的正弦波基频周期信号的理想频响曲线，作为标准频响曲线。

通常情况下，人耳能够感知的声音信号频率只是特定频率范围内的声音信号，通常是20hz-20khz范围内的声音信号可以被人耳感知，其他频带的声音信号已经无法被人耳感知，因此对其进行处理也没有意义。为了进一步提高数据处理效率，本申请实施例设定，只对预设频率范围内的音频信号进行处理，该预设频率范围，至少包括上述人耳能够感知的声音信号频率范围，优选的，本申请实施例对上述20hz-20khz范围内的音频信号进行处理。

则，在音频信号理想频响数据集中，存储通过各个预设采样率获取的预设频率范围内的音频信号的理想频响数据，即存储通过各个预设采样率获取的20hz-20khz范围内的音频信号的理想频响数据。

相应的，在获取录音设备采集的音频信号的频响数据时，也是获取录音设备采集的音频信号中的上述预设频率范围内的音频信号的频响数据，即获取录音设备采集的音频信号中的20hz-20khz范围内的音频信号的频响数据。

具体的，可通过执行如下步骤B1-B3获取录音设备采集的音频信号的频响数据：

B1、获取录音设备采集的音频信号。

示例性的，可以从录音设备的SOC芯片上述的codec上直接读取录音设备的麦克风采集的音频信号，或者，可以从录音设备的高速缓存区读取录音设备采集的音频信号。

B2、从所述音频信号中筛选所述预设频率范围内的音频信号。

具体的，获取到录音设备采集的音频信号后，将该音频信号中的在上述预设频率范围之外的信号成分滤除，即可筛选得到上述预设频率范围内的音频信号。

例如，可以设计20hz-20khz的滤波器，对获取的音频信号进行滤波处理，得到预设频率范围20hz-20khz的音频信号。

B3、获取所述预设频率范围内的音频信号的频响数据。

具体的，对获取的上述预设频率范围内的音频信号进行FFT处理，得到该音频信号的频域信号，即频响数据。可选的，可以将该预设频率范围内的音频信号分帧，然后针对每一帧分别进行短时傅里叶变换处理，得到每一帧的幅频值。然后按照时间先后顺序对得到的幅频值进行排序，得到完整音频信号的频谱，即得到上述预设频率范围内的音频信号的频响数据。

更进一步的，在语音录音场景下，录音设备可能通过不同的采样率分别采集人声信号和非人声信号(例如音乐、背景音等)，此时，录音设备采集的音频信号为复合音频信号，该复合音频信号中包含通过不同采样率采集信号成分，例如通过不同采样率采集的人声信号和非人声信号。

为了对录音设备采集的复合音频信号进行更精准的处理，本申请实施例还提出，对录音设备采集的音频信号进行分离后分别应用本申请提出的音频信号处理方法进行处理。具体方案如图3所示，其具体处理过程如下：

S301、从录音设备采集的音频信号中的预设频率范围内的音频信号中，分离得到人声信号和非人声信号。

具体的，采用常规的人声分离方案，可以从录音设备采集的音频信号中的预设频率范围内(20hz-20khz)的音频信号中分离得到人声信号，剩余的信号成分，即为非人声信号。

上述的录音设备采集的音频信号中的预设频率范围内的音频信号，可以通过执行上述步骤B1-B3而得到。

S302、分别获取上述人声信号的频响数据，以及上述非人声信号的频响数据。

具体的，分别对上述获取的人声信号和非人声信号进行傅里叶变换处理，得到人声信号的频响数据，以及非人声信号的频响数据。

S303、从预设的音频信号理想频响数据集中，获取与所述人声信号的频响数据对应的音频信号理想频响数据，作为与所述人声信号对应的标准频响数据。

具体的，可以先确定人声信号的采样率，然后从音频信号理想频响数据集中，找出通过该采样率获取的音频信号的理想频响数据，作为与该人声信号对应的标准频响数据。

或者，将人声信号的频响数据，与音频信号理想频响数据集中的每组频响数据进行对比，找到相似度最高的理想频响数据，作为与该人声信号对应的标准频响数据。

S304、从预设的音频信号理想频响数据集中，获取与所述非人声信号的频响数据对应的音频信号理想频响数据，作为与所述非人声信号对应的标准频响数据。

具体的，可以先确定该非人声信号的采样率，然后从音频信号理想频响数据集中，找出通过该采样率获取的音频信号的理想频响数据，作为与该非人声信号对应的标准频响数据。

或者，将该非人声信号的频响数据，与音频信号理想频响数据集中的每组频响数据进行对比，找到相似度最高的理想频响数据，作为与该非人声信号对应的标准频响数据。

S305、以所述人声信号的频响数据趋近于与所述人声信号对应的标准频响数据，对所述人声信号的频响数据进行处理。

S306、以所述非人声信号的频响数据趋近于与所述非人声信号对应的标准频响数据为目标，对所述非人声信号的频响数据进行处理。

本申请实施例以上述的与人声信号对应的标准频响数据为基准，对录音设备采集的音频信号中的人声信号的频响数据进行调整，使其趋近与该人声信号对应的标准频响数据，理想状态下是使其与该人声信号对应的标准频响数据相一致。例如，上述的频响数据均为频响曲线，则对录音设备采集的音频信号中的人声信号的频响曲线进行调整，使其趋近于与该人声信号对应的标准频响曲线。

对上述的非人声信号的频响数据进行相同的处理，使得该非人声信号的频响数据趋近于该非人声信号对应的标准频响数据，理想状态下是使其与该非人声信号对应的标准频响数据相一致，从而提高该非人声信号的音质。

则，经过上述调整后的录音设备采集的音频信号的人声信号和非人声信号的频响均更加接近理想频响，即该录音设备采集的音频信号的音质接近理想音质，因此能够提高录音设备采集的音频信号的音质。

需要注意的是，上述的步骤S303和S304的执行顺序不限定，可以任意一个先执行，另一个后执行，也可以同时执行。同样，上述的步骤S305和S306的执行顺序也不限定，可以任意一个先执行，另一个后执行，也可以同时执行。

需要说明的是，上述实施例以人声信号和非人声信号为例，示例性地介绍了本申请实施例针对录音设备采集的复合音频信号中的通过不同采样率采集的音频信号分别进行处理的技术方案和思想。应当理解，在实际应用本申请实施例技术方案时，并不限定只能从录音设备采集的音频信号中分离出人声信号和非人声信号进行处理，事实上，可以按照信号采样率的不同，从中分离出任意类型的、基于不同采样率采集的音频信号进行处理，其具体处理过程可以参照上述实施例介绍而执行。

本申请实施例还公开了对录音设备采集的音频信号的频响数据进行处理的具体处理内容。

本申请以录音设备采集的音频信号的频响数据趋近于标准频响数据为目标，对录音设备采集的音频信号的频响数据进行处理，具体是：

以录音设备采集的音频信号的频响数据在各频点的幅值，与标准频响数据中的相应频点的幅值的差值不超过预设阈值为目标，对录音设备采集的音频信号的频响数据进行处理。

即，通过本申请实施例的处理，使得录音设备采集的音频信号的频响数据，与上述的标准频响数据中的、对应相同频点的幅值的差值均不超过预设阈值。在本实施例中，该预设阈值可示例性的取值为±3db。

例如，对录音设备采集的音频信号在20hz处的频响幅值进行调整，使其幅值与上述的标准频响数据中的对应20hz处的频响幅值的差值小于±3db；对录音设备采集的音频信号在21hz处频响幅值进行调整，使其幅值与上述的标准频响数据中的对应21hz处的频响幅值的差值小于±3db；以此类推，完成对录音设备采集的音频信号的频响数据的调整处理。

具体的，上述的调整处理，可以通过执行如下步骤C1-C2实现：

C1、将所述录音设备采集的音频信号的频响数据与所述标准频响数据中的、对应相同频点的幅值数据进行对比，确定幅值差值超过设定阈值的频点，作为待调整频点。

具体的，将录音设备采集的音频信号的频响数据，与上述标准频响数据，以相同频点为基准，进行幅值数据比对，计算相同频点上的幅值差值，从而确定幅值差值超过设定阈值的频点，作为待调整频点。

例如，将录音设备采集的音频信号的频响曲线，与标准频响曲线的相同频点上的曲线幅值进行对比，即可计算得到两个频响曲线在相同频点的幅值差值，进而可以找出幅值差值超过±3db的频点，作为待调整频点。

C2、对所述录音设备采集的音频信号的频响数据中的、对应所述待调整频点的幅值进行调整，使所述录音设备采集的音频信号的频响数据与所述标准频响数据中的、对应所述待调整频点的幅值数据的差值不超过所述设定阈值。

具体的，对录音设备采集的音频信号的频响数据中的，对应待调整频点的幅值进行“多去少补”的处理，使其幅值与上述标准频响数据的对应该待调整频点的幅值的差值不超过设定阈值，即不超过±3db。

则经过上述处理，录音设备采集的音频信号的频响数据与标准频响数据，在各个频点的幅值差值，均在设定阈值范围内，即可以理解录音设备采集的音频信号的频响数据与标准频响数据足够接近，甚至认为是相一致的。

其中，上述非预设阈值的具体取值，可以在实际应用中根据实际情况而设定。

本申请上述各实施例是在频域对录音设备采集的音频信号的频响数据进行处理，使录音设备采集的音频信号的频响数据趋近相应采样率下的音频信号的理想频响数据。可以理解，上述方案是在频域对录音设备采集的音频信号进行了音质优化。完成上述处理后，本申请实施例再对录音设备采集的处理后的音频信号频响数据进行转换，得到时域音频信号。

或者，对录音设备采集的音频信号的处理后的频响数据进行转换得到时域音频信号，以及对转换得到的时域音频信号进行播放，实现录音回放功能，达到播放更高音质的录音信号的效果。

例如，对录音设备采集的音频信号的频响数据进行快速傅里叶逆变换IFFT处理，将处理后的音频信号从频域转换到时域，即得到录音设备采集的、音质优化后的时域音频信号。

当对录音设备采集的音频信号的处理是从中提取人声信号和非人声信号分别进行处理时，将处理后的人声信号和处理后的非人声信号的频响数据分别从频域转换到时域，得到音质优化后的时域人声信号和时域非人声信号。

通过执行本申请实施例提出的音频信号处理方法，可以使录音设备采集的音频信号的频响接近理想频响，从而提高录音设备采集的音频信号的音质。经过上述处理后，录音设备采集的音频信号可以供录音回放，也可以进行后续的音效调整、语音识别、存储等处理。

由于录音设备采集的音频信号的音质得到了提升，因此在录音回放时可以给用户带来更优质的视听感受。当录音设备采集的音频信号用于音效调整或语音识别等后续处理时，更优质的音频信号可以带来更出色的音效调整效果和语音识别效果。

本申请另一实施例还提出一种音频信号处理装置，参见图4所示，该装置包括：

第一数据获取单元100，用于获取录音设备采集的音频信号的频响数据；

第二数据获取单元110，用于从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据；其中，所述音频信号理想频响数据集，由通过各个预设采样率获取的音频信号的理想频响数据构成；

数据处理单元120，用于以所述录音设备采集的音频信号的频响数据趋近于所述标准频响数据为目标，对所述录音设备采集的音频信号的频响数据进行处理。

本申请实施例提出的音频信号处理装置，能够以通过各个预设采样率获取的音频信号的理想频响数据为参考，对录音设备采集的音频信号的频响数据进行调整，将录音设备采集的音频信号的频响数据调整为趋近理想频响数据，从而可以提高录音设备采集的音频信号的音质，即提高录音设备录音质量。

进一步的，该装置实现了对录音设备采集的音频信号频响的自动调整，在录音设备设计或应用中，可以实时地通过执行本申请实施例技术方案，提高录音设备采集的音频质量，因此能够在任意录音设备上、任意声学环境下获取更优质的音频信号。

所述获取录音设备采集的音频信号的频响数据，包括：

获取录音设备采集的音频信号；

从所述音频信号中筛选所述预设频率范围内的音频信号；

获取所述预设频率范围内的音频信号的频响数据。

以及，

可选的，所述数据处理单元还用于：

和/或，

具体的，上述的音频信号处理装置的各个单元的具体工作内容，请参见上述方法实施例中的相应步骤的具体处理内容，此处不再重复。

本申请另一实施例还提出一种音频信号处理设备，参见图5所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的音频信号处理方法。

具体的，上述音频信号处理设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccess memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的音频信号处理方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的音频信号处理方法的各个步骤。

具体的，上述的音频信号处理设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的音频信号处理方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频信号处理方法，其特征在于，包括：

获取录音设备采集的音频信号的频响数据；

2.根据权利要求1所述的方法，其特征在于，所述从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述从预设的音频信号理想频响数据集中，获取与所述录音设备采集的音频信号相同采样率的音频信号的理想频响数据，作为标准频响数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述音频信号理想频响数据集，由通过各个预设采样率获取的预设频率范围内的音频信号的理想频响数据构成；

所述获取录音设备采集的音频信号的频响数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取录音设备采集的音频信号中的预设频率范围内的音频信号的频响数据，包括：

获取录音设备采集的音频信号；

从所述音频信号中筛选所述预设频率范围内的音频信号；

获取所述预设频率范围内的音频信号的频响数据。

6.根据权利要求4所述的方法，其特征在于，所述获取录音设备采集的音频信号中的预设频率范围内的音频信号的频响数据，包括：

以及，

7.根据权利要求1所述的方法，其特征在于，所述以所述录音设备采集的音频信号的频响数据趋近于所述标准频响数据为目标，对所述录音设备采集的音频信号的频响数据进行处理，包括：

8.根据权利要求7所述的方法，其特征在于，所述以所述录音设备采集的音频信号的频响数据在各频点的幅值，与所述标准频响数据中的相应频点的幅值的差值不超过预设阈值为目标，对所述录音设备采集的音频信号的频响数据进行处理，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

和/或，

10.一种音频信号处理装置，其特征在于，包括：

11.一种音频信号处理设备，其特征在于，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器用于通过运行所述存储器中的程序，实现如权利要求1至9中任意一项所述的音频信号处理方法。

12.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至9中任意一项所述的音频信号处理方法。