CN112153547A

CN112153547A - 音频信号的校正方法、装置、存储介质及电子装置

Info

Publication number: CN112153547A
Application number: CN202010918025.5A
Authority: CN
Inventors: 赵欣; 马路; 赵培; 苏腾荣
Original assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-29

Abstract

本发明实施例提供了一种音频信号的校正方法、装置、存储介质及电子装置，其中,该方法包括：确定基准拾音设备对目标音频信号进行采集所得到的第一音频信号，以及，确定待校正拾音设备对所述目标音频信号进行采集所得到的第二音频信号；基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值；基于所述目标校正值对所述待校正拾音设备后续采集到的其他音频信号进行校正。通过本发明，解决了相关技术中存在的音频信号校正不准确的问题，提高了音频信号校正的准确率。

Description

音频信号的校正方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种音频信号的校正方法、装置、存储介质及电子装置。

背景技术

当前麦克风阵列广泛用于智能家电，为实现人机交互首先要进行麦克风信号处理。其中，声源定位和波束形成需要麦克风各通道之间具有正确的振幅相位关系，很多时候麦克风结构和硬件不一致等问题，会造成基于采集信号的声源定位不准确，也无法通过波束形成消除方向性干扰，因此，麦克风信号校正很有必要。

在相关技术中，常规的麦克风校正主要手段是在麦克风中心法线方向一定距离处放置声源播放音频，用标准传声器和待校正传声器采集声音信号，得到两段不同的时域信号，对采集到的两段时域信号进行FFT变换分别得到幅值和相位特征，幅值相除、相位相减得到校正值，对待补偿信号进行修正，具体流程可参见附图1。然而，在麦克风校正方法方面，麦克风中心法线方向上放置声源具有一定局限性，很多音箱或智能家电的喇叭和麦克风不能满足这种条件，达不到真机实时校正的效果。在具体实施方面，麦克风采集的信号受环境等影响，有些部分可能存在较大偏差，使得信号各帧通道间频域幅值比相位差特征不同，因此，整体将信号变换到频域得到的校正系数不够准确。

由此可知，相关技术中存在音频信号校正不准确的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频信号的校正方法、装置、存储介质及电子装置，以至少解决相关技术中存在的音频信号校正不准确的问题。

根据本发明的一个实施例，提供了一种音频信号的校正方法，包括：确定基准拾音设备对目标音频信号进行采集所得到的第一音频信号，以及，确定待校正拾音设备对所述目标音频信号进行采集所得到的第二音频信号；基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值；基于所述目标校正值对所述待校正拾音设备后续采集到的其他音频信号进行校正。

根据本发明的另一个实施例，提供了一种音频信号的校正装置，包括：第一确定模块，用于确定基准拾音设备对目标音频信号进行采集所得到的第一音频信号，以及，确定待校正拾音设备对所述目标音频信号进行采集所得到的第二音频信号；第二确定模块，用于基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值；校正模块，用于基于所述目标校正值对所述待校正拾音设备后续采集到的其他音频信号进行校正。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，确定基准拾音设备对目标音频信号进行采集所得到的第一音频信息，确定待矫正拾音设备对所述目标音频信号进行采集所得到的第二音频信号，根据第一音频信息、第二音频信息、目标音频信号的播放源距离基准拾音设备的第一距离以及播放源距离待校正拾音设备的第二距离确定目标校正值，根据得到的目标校正值对待校正拾音设备后续采集到的其他音频信息进行校正。由于利用第一音频信息、第二音频信息、目标音频信号的播放源距离基准拾音设备的第一距离以及播放源距离待校正拾音设备的第二距离可以准确的确定出目标校正值，因此，可以解决相关技术中存在的音频信号校正不准确的问题，提高了音频信号校正的准确率。

附图说明

图1是相关技术中音频的校正方法的流程图；

图2是本发明实施例的一种音频信号的校正方法的移动终端的硬件结构框图；

图3是根据本发明实施例的音频信号的校正方法的流程图；

图4是根据本发明示例性实施例的基准拾音设备与待校正拾音设备的位置示意图；

图5是根据本发明示例性实施例的基于音频信号的时域相关性校正音频信号流程图；

图6是根据本发明示例性实施例的基于频域分帧kmeans聚类校正音频信号流程图；

图7是根据本发明具体实施例的信号的校正方法流程图；

图8是根据本发明实施例的音频信号的校正装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图2是本发明实施例的一种音频信号的校正方法的移动终端的硬件结构框图。如图2所示，移动终端可以包括一个或多个(图2中仅示出一个)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器204，其中，上述移动终端还可以包括用于通信功能的传输设备206以及输入输出设备208。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

存储器204可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的音频信号的校正方法对应的计算机程序，处理器202通过运行存储在存储器204内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器204可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器204可进一步包括相对于处理器202远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置206包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置206可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种音频信号的校正方法，图3是根据本发明实施例的音频信号的校正方法的流程图，如图3所示，该流程包括如下步骤：

步骤S302，确定基准拾音设备对目标音频信号进行采集所得到的第一音频信号，以及，确定待校正拾音设备对所述目标音频信号进行采集所得到的第二音频信号；

步骤S304，基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值；

步骤S306，基于所述目标校正值对所述待校正拾音设备后续采集到的其他音频信号进行校正。

在上述实施例中，基准拾音设备和待校正拾音设备可以是独立的两个设备，例如，基准拾音设备和待校正拾音设备可以是设置在同一区域的两个设备，二者能够接收到同一播放源播放的音频信号。基准拾音设备和待校正拾音设备还可以是集成在同一设备中的两个设备，例如，基准拾音设备和待校正拾音设备可以是集成在计算机等终端中的两个设备。其中，基准拾音设备和待校正拾音设备可以为麦克风等设备。

在上述实施例中，播放源可以为音频播放器，当基准拾音设备和待校正拾音设备是独立的两个设备时，播放源可以是设置在基准拾音设备和待校正拾音设备所在区域的音箱、音乐播放器、可以播放音乐的终端等。当基准拾音设备和待校正拾音设备为集成在同一设备中的两个设备时，播放源可以是集成在该设备中的音乐播放设备等，例如，计算机等终端中的喇叭等。在计算机等终端设备开机时，播放一段音频作为初始化过程，根据基准拾音设备和待校正拾音设备接收的音频信号以及播放源(如喇叭等)与基准拾音设备和待校正拾音设备之间的距离，确定目标校正值，并将该目标校正值自动应用到之后待校正拾音设备采集的信号中。即，在确定目标校正值后，在以后的操作中，无需再次确定目标校正值，可以将初始化过程中得到的目标校正值应用到以后的操作中，实现自动对待校正拾音设备的校正。需要说明的是，为了保证音频信号校正的准确性，可以设置一个预定时间，在确定目标校正值的时间超过预定时间后，再次确定目标校正值，以防止由于基准拾音设备、待校正拾音设备或者播放源的位置变化而导致目标校正值不准确的情况发生，或者，由于基准拾音设备、待校正拾音设备的硬件改变而导致目标校正值不准确的情况发生。其中，预定时间可以是用户自定义的时间。

示例性的，上述步骤的执行主体可以是后台处理器，或者具有类似处理能力的处理设备，还可以是至少集成有音频获取模块、音频播放模块以及数据处理模块的设备，其中，音频获取模块可以为麦克风等设备，音频播放模块可以为喇叭等设备，数据处理模块可以为计算机、手机等终端设备。

在一个示例性实施例中，基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值包括：基于所述第一音频信号的第一振幅信息以及所述第二音频信号的第二振幅信息确定第一振幅校正系数；基于所述第一距离以及所述第二距离确定第一相位校正值；其中，所述目标校正值包括所述第一振幅校正系数和所述第一相位校正值。在本实施例中，可以根据基准拾音设备接收到的第一音频信号的第一振幅信息与待校正拾音设备接收到的第二音频信号的第二振幅信息确定第一振幅校正系数，其中，第一振幅信息和第二振幅信息可以为第一音频信号和第二音频信号的振幅大小。还可以根据播放源与基准拾音设备之间的第一距离以及播放源与待校正拾音设备之间的第二距离确定第一相位校正值。

在一个示例性实施例中，基于所述第一音频信号的第一振幅信息以及所述第二音频信号的第二振幅信息确定第一振幅校正系数包括：将所述第一振幅信息与第二振幅信息的比值确定为所述第一振幅校正系数；和/或，基于所述第一距离以及所述第二距离确定第一相位校正值包括：将所述第一距离和所述第二距离的差值确定为距离差；将所述距离差与声速的比值确定为时间差；将所述时间差与预设的采样率的乘积确定为时延校正点数；将所时延校正点数与预定系数的乘积确定为所述第一相位校正值。在本实施例中，可以将第一音频信号的振幅与第二音频信号的振幅的比值确定为第一振幅校正系数。在确认第一相位校正值时，可以首先确定第一距离与第二距离的差值，即首先确定距离差，将距离差与声速的比值确定为基准拾音设备与待校正拾音设备接收目标音频的时间差，将时间差与预设的采样率确定为时延校正点数，将时延校正点数与预定系数的乘积确定为第一相位校正值。其中，预定系数可以为2π。基准拾音设备与待校正拾音设备的位置示意图可参见附图4，如图4所示，喇叭(对应于上述播放源)到基准通道(对应于上述基准拾音设备)的距离为d0，到待校正通道(对应于上述待校正拾音设备)的距离为d1，根据振幅随距离的衰减关系，

振幅校正系数为

根据时延和距离的关系，如图3所示，可知距离差为Δd＝d1-d0，时间差为

则时延校正点数为f_sΔt，相位校正值为2πf_sΔt，其中，f_s为采样率。需要说明的是，根据第一振幅校正系数与第一相位校正值对待校正拾音设备的校正属于结构不一致性校正，即，校正的是由于待校正拾音设备与基准拾音设备的结构不一致性导致的差异。例如，当待校正拾音设备农与基准拾音设备与播放源之间的距离不同时，在结构方面，二者接收到的音频信号就会存在差异，因此，可以通过第一振幅校正系数及第一相位校正值对待校正拾音设备进行校正。当然，当待校正拾音设备农与基准拾音设备与播放源之间的距离相同时，在结构方面，二者接收到的音频信号相同，因此，可以省略结构不一致性校正。

在一个示例性实施例中，基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值还包括：基于所述第一音频信号及所述第二音频信号确定第一函数，其中，所述第一函数用于指示所述第一音频信号的时域信号与所述第二音频信号的时域信号的互相关值；基于所述第二音频信号确定第二函数，其中，所述第二函数用于指示所述第二音频信号的时域信号的自相关值；基于所述第一函数及所述第二函数确定第二振幅校正系数和偏移点校正值；其中，所述目标校正值包括所述第二振幅校正系数和所述偏移点校正值。在本实施例中，可以对待校正拾音设备接收到的音频信号进行时域相关性校正，以克服由于基准拾音设备与待校正拾音设备不一致性导致的差异。即，利用第一音频信号和第二音频信号的时域信号确定二者的第一函数，如互相关函数，得到第一音频信号和第二音频信号的互相关值，再利用第二音频信号的时域信号确定第二音频信号的第二函数，如自相关函数，确定自相关值。其中，互相关值可以包括振幅互相关值和偏移点互相关值，自相关值可以包括振幅自相关值和偏移点自相关值。

在一个示例性实施例中，基于所述第一函数及所述第二函数确定第二振幅校正系数和偏移点校正值包括：确定所述第一函数中的第一峰值，以及所述第一峰值对应的第一位置索引；确定所述第二函数中的第二峰值，以及所述第二峰值对应的第二位置索引；将所述第一峰值与所述第二峰值的比值确定为所述第二振幅校正系数；将所述第一位置索引与所述第二位置索引的差值确定为所述偏移点校正值。在本实施例中，可以在第一函数中确定第一峰值以及第一峰值对应的第一位置索引，在第二函数中确定第二峰值以及第二峰值对应的位置索引，将第一峰值与第二峰值的比值确定为第二振幅校正值，将第一峰值对应的位置索引与第二峰值对应的位置索引的差值确定为偏移点校正值。然后，可以将待校正拾音设备接收到的音频信号的振幅乘以第二振幅校正系数，将待校正拾音设备接收到的音频信号与偏移点校正值相加，即将待校正拾音设备接收到的音频信号整体向左或右移动偏移点数校正值，完成音频信号的校正。

在本实施例中，基于音频信号的时域相关性校正音频信号流程图可参见附图5，如图5所示，该流程包括：

步骤S502，相关性计算。基准麦克风(对应于上述基准拾音设备)和待校正麦克风(对应于上述待校正拾音设备)互相关函数计算，待校正麦克风自相关函数计算。

步骤S504，找峰值。分别从互相关和自相关所有值中找到峰值以及峰值对应位置索引。

步骤S506，计算校正值。互相关和自相关峰值相除作为振幅校正系数(对应于上述第二振幅校正系数)，位置索引相减作为偏移点数校正值(对应于上述偏移点校正值)。

步骤S508，校正。待校正信号乘以振幅校正系数，整体向左或右移动偏移点数校正值，完成待校正麦克风信号校正。

在上述实施例中，音频信号的时域相关性校正可以对信号的振幅和偏移进行校正，能够实现校正麦克风采集信号的振幅，并解决整体偏移问题。

在一个示例性实施例中，基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值还包括：对所述第一音频信号的时域信号进行第一变换，以得到第一频域信号，其中，所述第一频域信号中包括多个第一频域信号帧；对所述第二音频信号的时域信号进行第二变换，以得到第二频域信号，其中，所述第二频域信号中包括多个第二频域信号帧；基于所述多个第一频域信号帧以及所述多个第二频域信号帧确定第三振幅校正系数和第二相位校正值；其中，所述目标校正值包括所述第三振幅校正系数和所述第二相位校正值。在本实施例中，还可以对待校正拾音设备接收到的音频信号进行频域分帧校正，以克服由于基准拾音设备与待校正拾音设备不一致性导致的差异。即，将第一音频信号和第二音频信号进行分帧加窗处理消除帧边界的频谱不连续，将分帧加窗后的第一音频信号进行第一变换得到多个第一频域信号帧，将分帧加窗后的第二音频信号进行第二变换得到多个第二频域信号帧。再根据多个第一频域信号帧和多个第二频域信号帧确定出第三振幅校正系数和第二相位校正系数。其中，可以将第一音频信号和第二音频信号分为1024帧(该分帧数仅是一种示例性说明，还可以将第一音频信号和第二音频信号分为512帧，2018帧等，即可以将第一音频信号和第二音频信号分为2ⁿ帧)。第一变换、第二变换均可以为短时傅里叶变换，当将第一音频信号和第二音频信号分为1024帧时，经过短时傅里叶变换可以得到513个采样点。

在一个示例性实施例中，基于所述多个第一频域信号帧以及所述多个第二频域信号帧确定第三振幅校正系数和第二相位校正值包括：将多个所述第一频域信号帧的振幅与多个所述第二频域信号帧的振幅对应相除，以得到多个幅值比；将多个所述第一频域信号帧的相位与多个所述第二频域信号帧的相位对应相减，以得到多个相位差；对所述多个幅值比进行聚类，以确定所述第三振幅校正系数；对所述多个相位差进行聚类，以确定所述第二相位校正值。在本实施例中，将多个第一频域信号帧的振幅与第二频域信号帧的振幅对应相除，以得到多个幅值比，例如，可以将第一采样点在第一音频信号帧中对应的振幅与第二音频信号帧中对应的振幅相除，得到一个幅值比，将第二采样点在第一音频信号帧中对应的振幅与第二音频信号帧中对应的振幅相除，得到另一个幅值比，直到将所有的采样点在第一音频信号帧中对应的振幅与第二音频信号帧中对应的振幅均相除为止，得到多个幅值比。同理，将所有的采样点在第一音频信号帧中对应的相位与第二音频信号帧中对应的相位均相减为止，得到多个相位差。将多个幅值比进行聚类，确定出第三振幅校正系数，将多个相位差进行聚类，确定出第二相位校正值。

在一个示例性实施例中，对所述多个幅值比进行聚类，以确定所述第三振幅校正系数包括：对所述多个幅值比进行第一kmeans聚类，以得到第一数量的幅值比类别，将所述第一数量的幅值比类别的中间值确定为所述第三振幅校正系数；和/或，对所述多个相位差进行聚类，以确定所述第二相位校正值包括：对所述多个相位差进行第二kmeans聚类，以得到第二数量的相位差类别，将所述第二数量的相位差类别的中间值确定为所述第二相位校正值。在本实施例中，可以对多个幅值比进行kmeans聚类，以得到第一数量的幅值比类别，对多个相位差进行kmeans聚类，以得到第二数量的相位差类别，将第一数量的幅值比类别的中间值确定为第三振幅校正系数，将第二数量的相位差类别的中间值确定为第二相位校正值。其中，第一数量、第二数量可以为奇数，例如，可以将幅值比按照大小聚成三类，将三类中的中间值作为第三振幅校正系数，可以将相位差按照大小聚成三类，将三类中的中间值作为第二相位校正值。其中，聚成三类仅是一种示例性说明，本发明对第一数量和第二数量不做限制，例如，还可以聚成五类，七类等。此外，第一数量可以相同，也可以不同。

在一个示例性实施例中，对所述多个幅值比进行kmeans聚类，以确定所述第三振幅校正系数包括：将小于第一阈值的所述幅值比划分到第一幅值比类别中；将大于第二阈值的所述幅值比划分到第二幅值比类别中；将所述幅值比中包括的除所述第一幅值比类别、第二幅值比类别中包括的所述幅值比之外的所述幅值比划分到目标幅值比类别中，将所述目标幅值比类别的聚类中心确定为所述第三振幅校正系数；和/或，对所述多个相位差进行kmeans聚类，以确定所述第二相位校正值包括：将小于第三阈值的所述相位差划分到第一相位差类别中；将大于第四阈值的所述相位差划分到第二相位差类别中；将所述相位差中包括的除所述第一相位差类别、所述第二相位差类别中包括的所述相位差之外的所述相位差划分到目标相位差类别中，将所述目标相位差类别的聚类中心确定为所述第二相位校正值。

在一个示例性实施例中，在基于所述多个第一频域信号帧以及所述多个第二频域信号帧确定第三振幅校正系数和第二相位校正值之后，所述方法还包括：分别将所述多个第二频域信号帧的振幅与所述第三振幅校正系数相乘，分别将所述多个第二频域信号帧的相位与所述第二相位校正值相加，以得到多个第二频域校正信号帧；对所述多个第二频域校正信号帧进行第三变换，以得到第二音频时域校正信号。在本实施例中，可以在频域对多个第二频域信号帧进行校正，再将校正后的信号经过第三变换，例如，短时傅里叶逆变换，得到校正后的音频时域信号。

在本实施例中，基于频域分帧kmeans聚类校正音频信号流程图可参见附图6，如图6所示，该流程包括：

步骤S602，分帧加窗。基准信号(对应于上述第一音频信号)和待校正信号(对应于上述第二音频信号)经过分帧加窗处理消除帧边界的频谱不连续。

步骤S604，短时傅里叶变换。将每帧基准信号和待校正信号变换到频域。

步骤S606，计算各频点校正值。计算基准频域信号和待校正信号幅值比和相位差。

步骤S608，kmeans聚类。在各频点对所有帧的幅值比和相位差进行kmeans聚类，分为三类，选择三者中间值作为校正值。

步骤S610，校正。对待补偿信号各频点乘以聚类后的幅值比，补偿聚类后的相位差，变换回时域，完成麦克风信号校正。

在上述实施例中，通过对基准信号和待校正信号进行分帧变换到频域，在各频点对所有帧进行kmeans聚类取中值，对信号的振幅和相位进行校正，可以更好的剔除偏离信号，更准确地对麦克风采集信号进行校正。

下面结合具体实施方式对音频的信号的校正方法进行说明：

图7是根据本发明具体实施例的信号的校正方法流程图，如图7所示，该流程包括：

步骤S702，采集信号。开机时让喇叭(对应于上述播放源)播放一段音频(对应于上述目标音频信号)，麦克风采集信号。

步骤S704，选择基准通道。指定一个通道为基准通道(对应于上述基准拾音设备)，另一个通道待校正通道(对应于上述待校正拾音设备)。

步骤S706，结构不一致性校正。已知喇叭到基准通道的距离为d0，到待校正通道的距离为d1，根据振幅随距离的衰减关系，

确定第一振幅校正系数为

根据时延和距离的关系，确定距离差为Δd＝d1-d0，时间差为

则时延校正点数为f_sΔt，第一相位校正值为2πf_sΔt。

步骤S708，进行麦克风不一致性校正，包括时域相关性校正和频域分帧校正。

需要说明的是，当播放源与基准拾音设备之间的距离和与待校正拾音设备的距离相等时，结构不一致性校正可以省略。对麦克风不一致性校正，即，对拾音设备不一致性校正，可以选择时域相关性校正和频域分帧校正中的一种或多种。再即选择了结构不一致性校正又选择了拾音设备不一致性校正时，可以根据结构不一致性校正得到的第一振幅校正系数和第一相位校正值对目标音频进行一次校正，将经过一次校正的音频信号再次进行拾音设备不一致性校正。还可以先确定出每次校正的目标校正系数，但不对音频进行校正，在所有的校正值均确定后，再对音频信号进行校正。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种音频信号的校正装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本发明实施例的音频信号的校正装置的结构框图，如图8所示，该装置包括：

第一确定模块82，用于确定基准拾音设备对目标音频信号进行采集所得到的第一音频信号，以及，确定待校正拾音设备对所述目标音频信号进行采集所得到的第二音频信号；

第二确定模块84，用于基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值；

校正模块86，用于基于所述目标校正值对所述待校正拾音设备后续采集到的其他音频信号进行校正。

在一个示例性实施例中，所述第二确定模块84可以通过如下方式实现基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值：基于所述第一音频信号的第一振幅信息以及所述第二音频信号的第二振幅信息确定第一振幅校正系数；基于所述第一距离以及所述第二距离确定第一相位校正值；其中，所述目标校正值包括所述第一振幅校正系数和所述第一相位校正值。

在一个示例性实施例中，所述第二确定模块84可以通过如下方式实现基于所述第一音频信号的第一振幅信息以及所述第二音频信号的第二振幅信息确定第一振幅校正系数：将所述第一振幅信息与第二振幅信息的比值确定为所述第一振幅校正系数；和/或，所述第二确定模块84可以通过如下方式实现基于所述第一距离以及所述第二距离确定第一相位校正值：将所述第一距离和所述第二距离的差值确定为距离差；将所述距离差与声速的比值确定为时间差；将所述时间差与预设的采样率确定为时延校正点数；将所时延校正点数与预定系数的乘积确定为所述第一相位校正值。

在一个示例性实施例中，所述第二确定模块84还可以通过如下方式实现基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值：基于所述第一音频信号及所述第二音频信号确定第一函数，其中，所述第一函数用于指示所述第一音频信号的时域信号与所述第二音频信号的时域信号的互相关值；基于所述第二音频信号确定第二函数，其中，所述第二函数用于指示所述第二音频信号的时域信号的自相关值；基于所述第一函数及所述第二函数确定第二振幅校正系数和偏移点校正值；其中，所述目标校正值包括所述第二振幅校正系数和所述偏移点校正值。

在一个示例性实施例中，所述第二确定模块84可以通过如下方式实现基于所述第一函数及所述第二函数确定第二振幅校正系数和偏移点校正值：确定所述第一函数中的第一峰值，以及所述第一峰值对应的第一位置索引；确定所述第二函数中的第二峰值，以及所述第二峰值对应的第二位置索引；将所述第一峰值与所述第二峰值的比值确定为所述第二振幅校正系数；将所述第一位置索引与所述第二位置索引的差值确定为所述偏移点校正值。

在一个示例性实施例中，所述第二确定模块84还可以通过如下方式实现基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值：对所述第一音频信号的时域信号进行第一变换，以得到第一频域信号，其中，所述第一频域信号中包括多个第一频域信号帧；对所述第二音频信号的时域信号进行第二变换，以得到第二频域信号，其中，所述第二频域信号中包括多个第二频域信号帧；基于所述多个第一频域信号帧以及所述多个第二频域信号帧确定第三振幅校正系数和第二相位校正值；其中，所述目标校正值包括所述第三振幅校正系数和所述第二相位校正值。

在一个示例性实施例中，所述第二确定模块84可以通过如下方式实现基于所述多个第一频域信号帧以及所述多个第二频域信号帧确定第三振幅校正系数和第二相位校正值：将多个所述第一频域信号帧的振幅与多个所述第二频域信号帧对应相除，以得到多个幅值比；将多个所述第一频域信号帧的相位与多个所述第二频域信号帧的相位对应相减，以得到多个相位差；对所述多个幅值比进行聚类，以确定所述第三振幅校正系数；对所述多个相位差进行聚类，以确定所述第二相位校正值。

在一个示例性实施例中，所述第二确定模块84可以通过如下方式实现对所述多个幅值比进行聚类，以确定所述第三振幅校正系数：对所述多个幅值比进行第一kmeans聚类，以得到第一数量的幅值比类别，将所述第一数量的幅值比类别的中间值确定为所述第三振幅校正系数；和/或，所述第二确定模块84可以通过如下方式实现对所述多个相位差进行聚类，以确定所述第二相位校正值：对所述多个相位差进行第二kmeans聚类，以得到第二数量的相位差类别，将所述第二数量的相位差类别的中间值确定为所述第二相位校正值。

在一个示例性实施例中，所述第二确定模块84可以通过如下方式实现对所述多个幅值比进行kmeans聚类，以确定所述第三振幅校正系数：将小于第一阈值的所述幅值比划分到第一幅值比类别中；将大于第二阈值的所述幅值比划分到第二幅值比类别中；将所述幅值比中包括的除所述第一幅值比类别、第二幅值比类别中包括的所述幅值比之外的所述幅值比划分到目标幅值比类别中，将所述目标幅值比类别的聚类中心确定为所述第三振幅校正系数；和/或，所述第二确定模块84可以通过如下方式实现对所述多个相位差进行kmeans聚类，以确定所述第二相位校正值：将小于第三阈值的所述相位差划分到第一相位差类别中；将大于第四阈值的所述相位差划分到第二相位差类别中；将所述相位差中包括的除所述第一相位差类别、所述第二相位差类别中包括的所述相位差之外的所述相位差划分到目标相位差类别中，将所述目标相位差类别的聚类中心确定为所述第二相位校正值。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号的校正方法，其特征在于，包括：

确定基准拾音设备对目标音频信号进行采集所得到的第一音频信号，以及，确定待校正拾音设备对所述目标音频信号进行采集所得到的第二音频信号；

基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值；

基于所述目标校正值对所述待校正拾音设备后续采集到的其他音频信号进行校正。

2.根据权利要求1所述的方法，其特征在于，基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值包括：

基于所述第一音频信号的第一振幅信息以及所述第二音频信号的第二振幅信息确定第一振幅校正系数；

基于所述第一距离以及所述第二距离确定第一相位校正值；

其中，所述目标校正值包括所述第一振幅校正系数和所述第一相位校正值。

3.根据权利要求2所述的方法，其特征在于，

基于所述第一音频信号的第一振幅信息以及所述第二音频信号的第二振幅信息确定第一振幅校正系数包括：将所述第一振幅信息与第二振幅信息的比值确定为所述第一振幅校正系数；

和/或，

基于所述第一距离以及所述第二距离确定第一相位校正值包括：

将所述第一距离和所述第二距离的差值确定为距离差；

将所述距离差与声速的比值确定为时间差；

将所述时间差与预设的采样率的乘积确定为时延校正点数；

将所时延校正点数与预定系数的乘积确定为所述第一相位校正值。

4.根据权利要求1至3中任一项所述的方法，其特征在于，基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值还包括：

基于所述第一音频信号及所述第二音频信号确定第一函数，其中，所述第一函数用于指示所述第一音频信号的时域信号与所述第二音频信号的时域信号的互相关值；

基于所述第二音频信号确定第二函数，其中，所述第二函数用于指示所述第二音频信号的时域信号的自相关值；

基于所述第一函数及所述第二函数确定第二振幅校正系数和偏移点校正值；

其中，所述目标校正值包括所述第二振幅校正系数和所述偏移点校正值。

5.根据权利要求4所述的方法，其特征在于，基于所述第一函数及所述第二函数确定第二振幅校正系数和偏移点校正值包括：

确定所述第一函数中的第一峰值，以及所述第一峰值对应的第一位置索引；

确定所述第二函数中的第二峰值，以及所述第二峰值对应的第二位置索引；

将所述第一峰值与所述第二峰值的比值确定为所述第二振幅校正系数；

将所述第一位置索引与所述第二位置索引的差值确定为所述偏移点校正值。

6.根据权利要求1至5中任一项所述的方法，其特征在于，基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值还包括：

对所述第一音频信号的时域信号进行第一变换，以得到第一频域信号，其中，所述第一频域信号中包括多个第一频域信号帧；

对所述第二音频信号的时域信号进行第二变换，以得到第二频域信号，其中，所述第二频域信号中包括多个第二频域信号帧；

基于所述多个第一频域信号帧以及所述多个第二频域信号帧确定第三振幅校正系数和第二相位校正值；

其中，所述目标校正值包括所述第三振幅校正系数和所述第二相位校正值。

7.根据权利要求6所述的方法，其特征在于，基于所述多个第一频域信号帧以及所述多个第二频域信号帧确定第三振幅校正系数和第二相位校正值包括：

将多个所述第一频域信号帧的振幅与多个所述第二频域信号帧对应相除，以得到多个幅值比；

将多个所述第一频域信号帧的相位与多个所述第二频域信号帧的相位对应相减，以得到多个相位差；

对所述多个幅值比进行聚类，以确定所述第三振幅校正系数；

对所述多个相位差进行聚类，以确定所述第二相位校正值。

8.根据权利要求7所述的方法，其特征在于，

对所述多个幅值比进行聚类，以确定所述第三振幅校正系数包括：对所述多个幅值比进行第一kmeans聚类，以得到第一数量的幅值比类别，将所述第一数量的幅值比类别的中间值确定为所述第三振幅校正系数；

和/或，

对所述多个相位差进行聚类，以确定所述第二相位校正值包括：对所述多个相位差进行第二kmeans聚类，以得到第二数量的相位差类别，将所述第二数量的相位差类别的中间值确定为所述第二相位校正值。

9.一种音频信号的校正装置，其特征在于，包括：

第一确定模块，用于确定基准拾音设备对目标音频信号进行采集所得到的第一音频信号，以及，确定待校正拾音设备对所述目标音频信号进行采集所得到的第二音频信号；

第二确定模块，用于基于所述第一音频信号、所述第二音频信号、所述目标音频信号的播放源距离所述基准拾音设备的第一距离、以及所述播放源距离所述待校正拾音设备的第二距离确定目标校正值；

校正模块，用于基于所述目标校正值对所述待校正拾音设备后续采集到的其他音频信号进行校正。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。