CN111916094A

CN111916094A - 音频信号处理方法、装置、设备及可读介质

Info

Publication number: CN111916094A
Application number: CN202010663763.XA
Authority: CN
Inventors: 张金宇
Original assignee: Science and Education City Branch of AAC New Energy Development Changzhou Co Ltd
Current assignee: Science and Education City Branch of AAC New Energy Development Changzhou Co Ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-11-10
Anticipated expiration: 2040-07-10
Also published as: CN111916094B; WO2022007030A1

Abstract

本发明实施例公开了一种音频信号处理方法、装置、设备以及可读介质，所述方法基于一目标设备，所述目标设备包括麦克风阵列，所述麦克风阵列包括设置于不同位置的多个麦克风装置，所述方法包括：分别获取各个麦克风装置采集的分音频信号；获取目标音频调节参数；按照预设的波束成型算法和所述分音频信号、所述目标调节参数确定目标组合音频信号。本发明提高了录取的音频的质量。

Description

音频信号处理方法、装置、设备及可读介质

技术领域

本发明涉及计算机数据处理领域，尤其涉及一种音频信号处理方法、装置、设备及可读介质。

背景技术

随着智能设备和移动终端的日益普及，越来越多的设备所具备的录像功能成为被用户广泛使用的功能之一。录像功能主要用于同时获取目标对象所对应的图像信息和音频信息，这主要是通过设备中设置的摄像头和麦克风装置实现的。

由于可变焦光学摄像头的出现和相关光学处理技术的发展，大部分设备的摄像头已实现很大程度上的变焦，即既可以拍摄近物(焦距较小)，也可以拍摄远处物体(焦距较大)。

但与此同时，在现有技术中，设备中的麦克风装置一般为多为全指向即不可变焦，这样就导致在进行录像时，变焦摄像头通过变焦对准了目标物体，但是麦克风的信号采集范围仍然较大，这样就造成音频和图像的展示范围不一致，影响了用户的录像体验。

发明内容

基于此，有必要针对上述问题，提出一种音频信号处理方法、装置、计算机设备及可读介质。

一种音频信号处理方法，所述方法基于一目标设备，所述目标设备包括麦克风阵列，所述麦克风阵列包括设置于不同位置的多个麦克风装置；

所述方法包括：

分别获取各个麦克风装置采集的分音频信号；

获取目标音频调节参数，根据所述目标音频调节参数获取目标音频调节值；

按照预设的波束成型算法和所述分音频信号、所述目标调节参数确定目标组合音频信号。

其中，更进一步地，所述目标设备还包括可变焦摄像头装置；

所述音频信号处理方法还包括：

根据所述可变焦摄像头装置的焦距参数调节所述目标音频调节参数。

更进一步地，所述目标音频调节参数包括所述麦克风阵列中每个麦克风位置对应的相位补偿值和空间相位差；

所述获取目标音频调节参数，包括：

分别根据各个所述麦克风装置之间的间距和声速信息确定各个所述麦克风装置的信号延迟时间；

根据所述各个麦克风装置的信号延迟时间分别确定各个所述麦克风装置对应的所述相位补偿值和所述空间相位差。

更进一步地，所述目标参数还包括补偿系数，所述补偿系数的大小与所述可变焦摄像头装置的焦距参数成正比。

更进一步地，所述根据所述可变焦摄像头装置的焦距参数调节所述目标音频调节参数，包括：

在所述焦距参数大于预设阈值时，所述补偿系数取值为1；

在所述焦距参数小于或等于所述预设阈值时，所述补偿系数的取值小于1。

一种目标终端，所述目标终端包括本体和附件模组，所述附件模组与所述本体可旋转连接，所述附件模组包括可变焦摄像头装置和麦克风阵列；

所述可变焦摄像头和所述麦克风阵列位于所述附件模组相邻的两面，所述可变焦摄像头的感光方向与所述麦克风阵列的收音方向相同。

更进一步地，所述麦克风阵列为线性阵列，包括多个麦克风装置，所述多个麦克风装置的连线与所述可变焦摄像头的感光面垂直。

一种音频信号处理装置，所述装置包括：

获取单元：用于获取各个麦克风装置采集的分音频信号；

确定单元：用于获取目标音频调节参数，根据所述目标音频调节参数获取目标音频调节值；

组合单元：用于按照预设的波束成型算法和所述分音频信号、所述目标调节参数确定目标组合音频信号。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上所述的步骤

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上所述的步骤。

在本发明实施例中，首先分别获取各个麦克风装置采集的分音频信号；然后确定目标音频调节参数，最后按照预设的波束成型算法和前述分音频信号、目标调节参数确定目标组合音频信号，本发明可以针对不同的音源应用场景获取合适的目标调节参数，提升目标设备音频信号的声音质量，满足用户不同的使用需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1示出了一个实施例中音频信号处理方法的流程图；

图2示出了一个实施例中麦克风阵列对应音源所需要的接收波束角；

图3示出了另一个实施例中麦克风阵列对应音源所需要的接收波束角；

图4示出了又一个实施例中麦克风阵列对应音源所需要的接收波束角；

图5示出了一个实施例中确定各个麦克风装置对应的相位补偿值和空间相位差的流程图；

图6示出了一个实施例中目标终端的正视结构示意图；

图7示出了一个实施例中目标终端的背视结构示意图；

图8示出了又一个实施例中音频信号处理方法的流程图；

图9示出了一个实施例中音频信号处理装置的结构框图；

图10示出了一个实施例中计算机设备的内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种音频信号处理方法，在一个实施例中，本发明可以基于一目标设备，其中该目标设备包括麦克风阵列该麦克风阵列中包括设置于不同位置的多个麦克风装置。在一个可选的实施例中，目标设备可以是如手机、平板电脑等，也可以是一个拍摄辅助工具，用于与手机等其他设备进行连接。

参考图1，本发明实施例提供了一种音频信号处理方法。

图1示出了一个实施例中音频信号处理方法的流程图。本发明中所述的音频信号处理方法可以包括如图1所示的步骤S1022-S1026，详细介绍如下：

在步骤S1022中，分别获取各个麦克风装置采集的分音频信号。

在进行详细的音频信号的处理方法的介绍之前，首先对用于采集音频信号的麦克风阵列进行介绍。

麦克风阵列指的是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列，是对空间传播声音信号进行空间采样的一种装置，其采集到的信号包含了空间中传播的声音信号的空间位置信息。根据声源和麦克风阵列之间距离的远近，可将麦克风阵列分为近场模型和远场模型。根据麦克风阵列的拓扑结构，则可分为线性阵列、平面阵列、体阵列等。

场模型将声波看成球面波，它考虑麦克风阵元接收信号间的幅度差；远场模型则将声波看成平面波，它忽略各阵元接收信号间的幅度差，近似认为各接收信号之间是简单的时延关系。显然远场模型是对实际模型的简化，极大地简化了处理难度。一般语音增强方法就是基于远场模型。

因此容易理解的是，为了获得不同的拾音效果，不同类型和用途的设备中包含的麦克风阵列的设计方式(拓扑结构)存在较大不同，即麦克风阵列中的麦克风数量、每个麦克风装置之间的距离也存在区别。

通常的麦克风阵列结构可以存在如一维麦克风阵列，即线性麦克风阵列，其阵元中心位于同一条直线上。根据相邻阵元间距是否相同，又可分为均匀线性阵列(UniformLinear Array，ULA)和嵌套线性阵列，线性阵列只能得到信号的水平方向角信息。

或者，二维麦克风阵列，即平面麦克风阵列，其阵元中心分布在一个平面上。根据阵列的几何形状可分为等边三角形阵、T型阵、均匀圆阵、均匀方阵、同轴圆阵、圆形或矩形面阵等。平面阵列可以得到信号的水平方位角和垂直方位角信息。

关于麦克风阵列中各个阵元之间的间距设置，举例说明，在线性四麦阵列构型中，4个麦克风装置为等距设置，每个麦克风装置之间的间距为20～60mm，而在环形六麦阵列呈圆形布局，6个麦克风顺时针均匀分布在圆周，半径范围一般为20～60mm。

在本实施场景中，麦克风阵列为线性阵列，各个麦克风装置与目标声源的距离存在差异，从而接收到的声波信息的空间和时序信息存在不同，先获取各个麦克风装置采集的分音频信号，将线性阵列中的各个麦克风的分音频信号进行组合得到一个对应于目标音源对象的音频数据。

在步骤1024中，获取目标音频调节参数，根据目标音频调节参数获取目标音频调节值。

在本实施场景中，目标音频调节参数包括空间相位差。考虑到麦克风阵列的中各个麦克风装置的设置位置的区别，在获取了上述的分音频信号之后还需要计算出每个麦克风装置对应的空间相位差从而对每个麦克风装置采集的分音频进行相位补偿。

因此在获取分别获取各个麦克风装置采集的分音频信号的过程之后还可以包括图5示出的步骤S1032-S1034。图5示出了一个实施例中确定各个麦克风装置对应的相位补偿值和空间相位差的流程图。

在步骤S1032中，根据各个所述麦克风装置之间的预设的间距信息和声速确定各个麦克风装置的信号延迟时间。

在1个标准大气压和15℃的条件下，标准声速约为340m/s，但在不同的实时采集环境(受到风速、气压、温度等因素的影响)中不同的采集设备所采集的声速存在变化，因此需要实时获取当前声速信息，从而结合当前声速和每个麦克风装置之间的间距计算出各个麦克风装置的信号延迟时间。

具体的信号延迟时间可以是根据间距信息与当前声速的比值得到。

另外，此处的各个麦克风装置之间的预设的间距信息可以是存储在设备内存之中，获取即可。

在步骤S1034中，根据所述各个麦克风装置的信号延迟时间分别确定各个所述麦克风装置对应的相位补偿值和空间相位差。

首先，目标声源所产生的声波到达麦克风阵列中的位于不同位置的各个麦克风装置的时间存在差别，即此处的信号延迟时间，而对应的不同的信号达到时间代表了各个麦克风装置所采集到的声波信号的相位差异(如在同一时刻声波的波峰和波谷到达不同的位置，被不同的麦克风装置所采集)，因此可以根据每个麦克风装置的信号延迟时间确定对应的相位补偿值。

麦克风阵列中的至少两个麦克风之间的延迟差可以通过相位差函数在频域中描述，所述相位差函数通常称为差分相位，其取介于-180度与+180度之间的值。通过麦克风阵列中相邻两个麦克风装置之间的间距和声速可以计算出空间相位差。

具体地说，目标音频调节值为每个麦克风装置的相位补偿值和空间相位差的乘积。例如，麦克风1的目标音频调节值为相位补偿1*空间相位差φ，麦克风2的目标音频调节值为相位补偿2*空间相位差φ，等等，以此类推。

在步骤S1026中，按照预设的波束成型算法和所述分音频信号、所述目标调节值确定目标组合音频信号。

首先针对波束成型原理进行介绍：波束成型，是指对麦克风阵列中各阵元的输出进行时延或相位补偿、幅度加权处理，从而以形成指向特定方向的波束。而区别于全指向的麦克风，这一特定方向的波束就代表了信号采集时的指向，从而可以更有针对性地采集到特定方向上的信号数据。

预设的波束成型算法可以是固定权重的波束成型，也可以是根据信号特性进行自适应波束成型，如先确定一个预设的准则函数，可以依据的准则有信噪比(snr)最大准则、均方误差最小准则(MSE)、线性约束最小方差准则(LCMV)、最大似然准则(ML)等，再对准则函数进行求解，得到目标波束成型的信号组合，如图2-如4所示，为麦克风对应不同的接受波束角的收音范围示意图。

而具体的，可以首先根据上一步中确定出的各个麦克风装置的目标音频调节参数和各个麦克风具体的分音频信号按照波束成型算法组合成具有最小波束角的有指向的目标组合音频信号。根据上述描述可知，本实施场景中最小波束角与麦克风装置的数量和相邻两个麦克风装置的间距相关。

请结合参考图6和图7，图6是一个实施例中的目标终端的正视结构示意图，图7是一个实施例中的目标终端的背视结构示意图。目标终端10包括本体11和附件模组12，附件模组12与本体11可旋转连接，例如，通过旋转轴连接，本实施场景中，旋转轴连接附件模组12和本体11的中心位置，在其他实施场景中，旋转轴还可以连接附件模组12和本体11的边缘位置。附件模组12包括可变焦摄像头装置121和麦克风阵列122，可变焦摄像头装置121和麦克风阵列122位于附件模块12的相邻的两面，例如麦克风阵列122位于靠近用户的一面，可变焦摄像头装置位于附件模组12的面积最小的侧面。可变焦摄像头装置121的拍摄方向与麦克风阵列122的收音方向相同。例如，麦克风阵列121为线性阵列，包括多个麦克风装置，该多个麦克风装置的排列方向与可变焦摄像头121的感光面垂直，使得可变焦摄像头装置121和麦克风阵列122指向相同，更好的保证收音的对象与拍摄的对象一致。

如图6和图7中所示的，附件模组12为一长方体，麦克风阵列122位于该长方体的长边和宽边所构成的长方形面上，多个麦克风装置的排列方向与长方体的长边平行。可变焦摄像头装置121位于该长方体的宽边和高边所构成的长方形面上，可变焦摄像头装置121的感光面平行于该长方形面。因此，多个麦克风装置的排列方向与可变焦摄像头装置121的感光面垂直。多个麦克风装置的排列方向为麦克风阵列122的收音方向，则麦克风阵列122的收音方向与可变焦摄像头的感光方向相同。

请结合参考图8，图8示出了一个实施例中音频信号处理方法的流程图。本发明中所述的音频信号处理方法可以包括如图7所示的步骤S2022-S2026，详细介绍如下：

在步骤S2022中，分别获取各个麦克风装置采集的分音频信号。

本步骤与图1所示的一个实施例中音频信号处理方法的步骤S1022基本一致，此处不再进行赘述。

在步骤S2024中，根据可变焦摄像头装置的焦距参数获取目标音频调节参数，根据所述目标音频调节参数获取目标音频调节值。

首先此处获取焦距参数的原因在于，在使用可变焦摄像头进行录像时，焦距参数即反映了在录像时对于目标对象的图像数据的采集范围，随着摄像头的焦距参数的调整，所获取到图像范围也会随着调整，如根据摄影常识，在焦距在24mm以下的镜头称为“超广角镜头”，这种镜头视角大，获取的图像范围较大，而在焦距为100mm以及以上时，一般都是微距镜头，获取的图像范围较小，一般进行微距摄影以及非常近距离的特写。

可以根据焦距参数进行推断，当使用的焦距参数越小，则证明需要拍摄的范围越大，则此时声源的范围也越大，而焦距参数越大时，需要拍摄的范围越小，则此时声源的范围也越小，因此可以根据焦距参数调节目标音频调节参数，从而使得接收到的目标设备音频信号质量更高。

在一个具体的实施场景中，目标音频调节参数还包括补偿系数，补偿系数的大小与所述可变焦摄像头装置的焦距参数成正比。具体的说，在所述焦距参数大于预设阈值时，所述补偿系数取值为1；在所述焦距参数小于或等于所述预设阈值时，所述补偿系数的取值小于1。

举例进行说明，如进行长焦-超长焦拍摄时(如焦距参数为100mm时)，此处的补偿系数可以取1，即不针对各个麦克风装置进行空间相位差的调节，这样在不调节的情况下就类似于全指向的固定波束角远场拾音，从而对应地只采集画面内主体的声音，避免了周围环境的干扰。在进行广角拍摄多人对话、主体与环境的互动等场景时(如焦距参数为24mm时)，可以取较小的补偿系数(如0.5)，从而采集更大范围内的声音，避免丢失必要的声音信息。

当补偿系数k取值为0时，无相位补偿，即退化为全指向拾音，即“超广角”的极限。当k在[0，1]之前取值，波束角将在[θ，2π]之间变化。

在本实施场景中，目标音频调节值等于补偿系数与每个麦克风位置对应相位补偿值以及空间相位差的乘积。例如，例如麦克风1的目标音频调节值为相位补偿1*补偿系数k*空间相位差φ，麦克风2的目标音频调节值为相位补偿2*补偿系数k*空间相位差φ，等等，以此类推。

在可选的实施例中，为了进一步地提升用户的音频体验，考虑到由于采集设备的硬件的限制，类似于在近焦进行图像获取时，可能出现图像较为模糊或者失焦的情况导致用户录像体验不佳，在进行目标组合音频信号的组合之前还可以按照预设的预处理算法对所述分音频信号进行去噪处理。

同样的，考虑到在实际应用中，用户在录像时可能对音效有自己的偏好，如故意收录环境音或者环境音收录的范围并不是完全与画面所展现的范围一致的，如应用一些特殊的拍摄手法，因此在可选的实施例中，在按照预设的波束成型算法、根据各个所述麦克风装置空间相位差、所述分音频信号和所述目标调节参数确定目标组合音频信号之后，还包括：

获取通过预设的界面或装置输入的调节参数，根据所述调节参数确定所述目标调节参数。

举例说明，此处的调节参数可以是用户所选择的预设的录音模式如“演唱会模式”、“室内模式”、“运动模式”等，然后根据被选择的预设录音模式参数与目标调节参数进行确定，如在“演唱会模式”为输入的调节参数时，用于音频变焦的目标调节参数可以适当缩小，如从根据焦距参数确定出的0.6调整为0.4。

在步骤S2026中，按照预设的波束成型算法和所述分音频信号、所述目标调节值确定目标组合音频信号。

本步骤与图1所示的一个实施例中音频信号处理方法的步骤S1026基本一致，此处不再进行赘述。

图9示出了一个实施例中音频信号处理装置的结构框图。

参考图9所示，根据本发明的一个实施例的音频信号处理装置1060，包括：获取单元1062、确定单元1064、组合单元1066。

其中，获取单元1062：用于分别获取各个麦克风装置采集的分音频信号；

确定单元1064：用于通过所述可变焦摄像头装置获取焦距参数，根据所述焦距参数确定目标音频调节参数；

组合单元1066：用于按照预设的波束成型算法和所述分音频信号、所述目标调节参数确定目标组合音频信号。

其中，更进一步地，所述目标设备还包括可变焦摄像头装置，确定单元1064还用于：

所述目标音频调节参数包括所述麦克风阵列中每个麦克风位置对应的相位补偿值和空间相位差。

确定单元1064还用于：

更进一步地，在所述焦距参数大于预设阈值时，所述补偿系数取值为1；在所述焦距参数小于或等于所述预设阈值时，所述补偿系数的取值小于1。

其中，目标终端包括本体和附件模组，所述附件模组与所述本体可旋转连接，所述附件模组包括可变焦摄像头装置和所述麦克风阵列，所述麦克风阵列与所述可变焦摄像头装置位于所述附件模组的同一面且指向相同。

其中，所述麦克风阵列为线性阵列。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器和输出模块、获取模块、处理模块。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现本音频信号处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行本音频信号处理方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如图1、图5和图8所示的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频信号处理方法，其特征在于，所述方法基于一目标设备，所述目标设备包括麦克风阵列，所述麦克风阵列包括设置于不同位置的多个麦克风装置；

所述方法包括：

分别获取各个麦克风装置采集的分音频信号；

获取目标音频调节参数，根据所述目标音频调节值获取目标音频调节值；

按照预设的波束成型算法和所述分音频信号、所述目标调节值确定目标设备音频信号。

2.根据权利要求1所述的音频信号处理方法，其特征在于，所述目标设备还包括可变焦摄像头装置；

所述音频信号处理方法还包括：

根据所述可变焦摄像头装置的焦距参数获取所述目标音频调节参数。

3.根据权利要求2所述的音频信号处理方法，其特征在于，所述目标音频调节参数包括所述麦克风阵列中每个麦克风位置对应的相位补偿值和空间相位差；

所述获取目标音频调节参数，包括：

4.根据权利要求2所述的音频信号处理方法，其特征在于，所述目标参数还包括补偿系数，所述补偿系数的大小与所述可变焦摄像头装置的焦距参数成正比。

5.根据权利要求4所述的音频信号处理方法，其特征在于，

所述根据所述可变焦摄像头装置的焦距参数获取所述目标音频调节参数，包括：

在所述焦距参数大于预设阈值时，所述补偿系数取值为1；

6.一种目标终端，其特征在于，所述目标终端包括本体和附件模组，所述附件模组与所述本体可旋转连接，所述附件模组包括可变焦摄像头装置和麦克风阵列；

7.根据权利要求6所述的目标终端，其特征在于，所述麦克风阵列为线性阵列，包括多个麦克风装置，所述多个麦克风装置的连线与所述可变焦摄像头的感光面垂直。

8.一种音频信号处理装置，其特征在于，所述装置包括：

获取单元：用于分别获取各个麦克风装置采集的分音频信号；

9.一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。