CN111798860A

CN111798860A - 音频信号处理方法、装置、设备及存储介质

Info

Publication number: CN111798860A
Application number: CN202010693891.9A
Authority: CN
Inventors: 陈日林; 姜开宇; 黎韦伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-20
Anticipated expiration: 2040-07-17
Also published as: WO2022012206A1; JP7326627B2; EP4092672A4; JP2023508063A; CN111798860B; EP4092672A1; US20220270631A1

Abstract

本公开揭示了一种音频信号处理方法、装置、设备及存储介质，属于语音处理领域。方法包括：获取麦克风阵列中不同麦克风采集的至少两个音频信号；通过第一滤波器对至少两个音频信号进行滤波得到第一目标波束；通过第二滤波器对至少两个音频信号进行滤波得到第一干扰波束；通过第三滤波器获取第一干扰波束的第二干扰波束；将第一目标波束与第二干扰波束之差确定为第一音频处理输出；自适应更新第二滤波器和第三滤波器中的至少一个，在更新完成后根据第二滤波器和第三滤波器更新第一滤波器。该方法可以在干扰移动情形下减小干扰泄露。

Description

音频信号处理方法、装置、设备及存储介质

技术领域

本公开涉及语音处理领域，特别涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术

在语音通信中，麦克风采集到的语音信号总会受到外界环境噪声的干扰。语音增强技术是语音信号处理的一个重要分支，它广泛应用于嘈杂环境下的噪声抑制，语音压缩编码和语音识别等领域中，在解决语音噪声污染问题、改进语音通信质量、提高语音可懂度和语音识别率等方面发挥着越来越重要的作用。

在相关技术中，采用广义旁瓣抵消器(Generalized Sidelobe Canceller，GSC)算法进行语音增强。GSC采用凸优化的方式预先设计好滤波器，从而获得更好地波束性能。

相关技术中的方法，使用预先设计好的滤波器，没有考虑到干扰声源移动对处理结果的影响，导致最终得到的声源分离效果不佳。

发明内容

本公开提供一种音频信号处理方法、装置、设备及存储介质，可以在干扰移动情形下减小干扰泄露。所述技术方案如下：

根据本公开实施例的一个方面，提供了一种音频信号处理方法，所述方法包括：

获取麦克风阵列中不同麦克风采集的至少两个音频信号；

通过第一滤波器对所述至少两个音频信号进行滤波得到第一目标波束，所述第一滤波器用于抑制干扰语音且增强目标语音；

通过第二滤波器对所述至少两个音频信号进行滤波得到第一干扰波束，所述第二滤波器用于抑制所述目标语音且增强所述干扰语音；

通过第三滤波器获取所述第一干扰波束的第二干扰波束，所述第三滤波器用于加权调整所述第一干扰波束；

将所述第一目标波束与所述第二干扰波束之差确定为第一音频处理输出；

自适应更新所述第二滤波器和所述第三滤波器中的至少一个，在更新完成后根据所述第二滤波器和所述第三滤波器更新所述第一滤波器。

根据本公开实施例的另一个方面，提供了一种音频信号处理方法，所述方法包括：

获取麦克风阵列中不同麦克风采集的至少两个音频信号，所述麦克风阵列包括n个目标方向，n个所述目标方向分别对应n个滤波器组，所述滤波器组采用上述的方法处理所述音频信号；

分别使用n个所述滤波器组对所述至少两个音频信号进行滤波得到n个所述目标方向对应的n个第一音频处理输出；

根据除第i个所述第一音频处理输出之外的n-1个所述第一音频处理输出对第i个所述第一音频处理输出进行滤波，得到第i个所述目标方向对应的第i个第二音频处理输出，所述i大于0小于所述n；重复该步骤得到n个所述目标方向分别对应的n个所述第二音频处理输出。

根据本公开实施例的另一个方面，提供了一种音频信号处理装置，所述装置包括：

第一获取模块，用于获取麦克风阵列中不同麦克风采集的至少两个音频信号；

第一滤波模块，用于通过第一滤波器对所述至少两个音频信号进行滤波得到第一目标波束，所述第一滤波器用于抑制干扰语音且增强目标语音；

第二滤波模块，用于通过第二滤波器对所述至少两个音频信号进行滤波得到第一干扰波束，所述第二滤波器用于抑制所述目标语音且增强所述干扰语音；

第三滤波模块，用于通过第三滤波器获取所述第一干扰波束的第二干扰波束，所述第三滤波器用于加权调整所述第一干扰波束；

第一确定模块，用于将所述第一目标波束与所述第二干扰波束之差确定为第一音频处理输出；

第一更新模块，用于自适应更新所述第二滤波器和所述第三滤波器中的至少一个，在更新完成后根据所述第二滤波器和所述第三滤波器更新所述第一滤波器。

第二获取模块，用于获取麦克风阵列中不同麦克风采集的至少两个音频信号，所述麦克风阵列包括n个目标方向，n个所述目标方向分别对应n个滤波器组，所述滤波器组采用上述第一种音频信号处理方法处理所述音频信号；

滤波器组模块，用于分别使用n个所述滤波器组对所述至少两个音频信号进行滤波得到n个所述目标方向对应的n个第一音频处理输出；

第四滤波模块，用于根据除第i个所述第一音频处理输出之外的n-1个所述第一音频处理输出对第i个所述第一音频处理输出进行滤波，得到第i个所述目标方向对应的第i个第二音频处理输出，所述i大于0小于所述n；重复该步骤得到n个所述目标方向分别对应的n个所述第二音频处理输出。

根据本公开实施例的另一个方面，提供一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的任一可选方案所述的音频信号处理方法。

根据本公开实施例的另一个方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的任一可选方案所述的音频信号处理方法。

根据本公开实施例的另一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的音频信号处理方法。

本公开提供的技术方案可以包括以下有益效果：

通过根据第二滤波器和第三滤波器，更新第一滤波器，使第一滤波器、第二滤波器和第三滤波器可以实时跟踪目标声源的导向矢量变化，及时更新滤波器，使用实时更新的滤波器来处理下一次麦克风采集到的音频信号，使滤波器根据场景的变化来输出音频处理输出，保证在干扰移动情形下的滤波器的跟踪性能，减小干扰泄露问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的音频信号处理系统的示意图；

图2示出了本公开另一个示例性实施例提供的麦克风分布的示意图；

图3示出了本公开另一个示例性实施例提供的麦克风分布的示意图；

图4示出了本公开另一个示例性实施例提供的一种音频信号处理方法的流程图；

图5示出了本公开另一个示例性实施例提供的滤波器组成的示意图；

图6示出了本公开另一个示例性实施例提供的滤波器组成的示意图；

图7示出了本公开另一个示例性实施例提供的一种音频信号处理方法的流程图；

图8示出了本公开另一个示例性实施例提供的滤波器组成的示意图；

图9示出了本公开另一个示例性实施例提供的滤波器组成的示意图；

图10示出了本公开另一个示例性实施例提供的滤波器组成的示意图；

图11示出了本公开另一个示例性实施例提供的滤波器组成的示意图；

图12示出了本公开另一个示例性实施例提供的双通道语谱图；

图13示出了本公开另一个示例性实施例提供的双通道语谱图；

图14示出了本公开另一个示例性实施例提供的一种音频信号处理装置的框图；

图15示出了本公开另一个示例性实施例提供的一种音频信号处理装置的框图；

图16是根据一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本公开涉及智能家居技术领域，特别涉及一种音频信号处理方法。

首先，对本公开涉及的一些名词进行解释。

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)语音技术(Speech Technology)

语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

3)传声器

传声器俗称话筒、麦克风，是电声设备中的第一个环节。传声器是把电能转变为机械能，然后再把机械能变为电能的换能器。目前，人们利用各种换能原理制成了各种各样的传声器，录音中常用的有电容、动圈、铝带传声器等。

图1是根据一示例性实施例示出的音频信号处理系统的示意图。如图1所示，音频信号处理系统100包括麦克风阵列101和音频信号处理设备102。

其中，麦克风阵列101包括设置在至少两个不同位置的至少两个麦克风。麦克风阵列101用于对声场的空间特性进行采样并处理，从而利用麦克风阵列101接收到的音频信号来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪以及后续的语音定向拾取。示例性的，麦克风阵列101是设置在车载场景中的。当麦克风阵列包括两个麦克风时，两个麦克风分别设置在主驾驶位置附近和副驾驶位置附近，根据麦克风在空间中的位置分布可以将麦克风阵列分为紧凑型和分布型，例如，如图2中的(1)所示，给出了一种紧凑型的麦克风阵列，两个麦克风分别设置在主驾驶位201和副驾驶位202的内侧；再如，如图2中的(2)所示，给出了一种分布型的麦克风阵列，两个麦克风分别设置在主驾驶位201和副驾驶位202的外侧。当麦克风阵列包括四个麦克风时，四个麦克风分别设置在主驾驶位附近、副驾驶位附近以及两个乘客位附近，例如，如图3中的(1)所示，给出了一种紧凑型的麦克风阵列，四个麦克风分别设置在主驾驶位201、副驾驶位202以及两个乘客位203的内侧，再如，如图3中的(2)所示，给出了一种分布型的麦克风阵列，四个麦克风分别设置在主驾驶位201、副驾驶位202以及两个乘客位203的外侧，再如，如图3中的(3)所示，给出了另一种分布型的麦克风阵列，四个麦克风分别设置在主驾驶位201、副驾驶位202以及两个乘客位203的上方。

音频信号处理设备102与麦克风阵列101相连，用于处理麦克风阵列采集到的音频信号。在一个示意性的例子中，音频信号处理设备包含处理器103和存储器104，存储器104中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器103加载并执行音频信号处理方法。示例性的，音频信号处理设备可以实现为车载语音识别系统中的一部分。在一个示意性的例子中，音频信号处理设备还用于在对麦克风采集的音频信号进行音频信号处理得到音频处理输出后，对音频处理输出进行语音识别，得到语音识别结果，或对语音识别结果做出相应。示例性的，音频信号处理设备还可以包括主板、外部输出/输入设备、存储器、外部接口、触控系统以及电源。

其中，主板中集成有处理器和控制器等处理元件，该处理器可以是音频处理芯片。

外部输出/输入设备可以包括显示组件(比如显示屏)、声音播放组件(比如扬声器)、声音采集组件(比如麦克风)以及各类按键等，该声音采集组件可以是麦克风阵列。

存储器中存储有程序代码和数据。

外部接口可以包括耳机接口、充电接口以及数据接口等。

触控系统可以集成在外部输出/输入设备的显示组件或者按键中，触控系统用于检测用户在显示组件或者按键上执行的触控操作。

电源用于对终端中的其它各个部件进行供电。

在本公开实施例中，主板中的处理器可以通过执行或者调用储存器中储存的程序代码和数据来得到音频处理输出，对音频处理输出进行语音识别得到语音识别结果，将生成的语音识别结果通过外部输出/输入设备进行播放，或，根据语音识别结果响应语音识别结果中的用户指令。在音频内容播放的过程中，可以通过触控系统检测用户与触控系统交互时执行的按键或者其它操作等等。

由于在现实中，由于声源的位置是不断变化的，对于麦克风收音会造成影响，因此，在本申请实施例中，为提高语音交互设备的收音效果，该语音交互设备的声音采集组件可以是由一定数目的声学传感器(一般是麦克风)组成的麦克风阵列，用于对声场的空间特性进行采样并处理，从而利用麦克风阵列接收到的音频信号来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪以及后续的语音定向拾取。

本实施例提供了一种对采集到的音频信号进行处理，来抑制音频信号中的干扰信号得到更准确地目标信号的方法，下面以该方法应用于对车载麦克风阵列采集到的音频信号进行处理进行说明。

请参考图3，其示出了本公开一个示例性实施例提供的一种音频信号处理方法的流程图，该方法可以应用于图1所示的音频信号处理系统中，该方法由音频信号处理设备执行。如图4所示，该方法可以包括以下步骤：

步骤301，获取麦克风阵列中不同麦克风采集的至少两个音频信号。

示例性的，至少两个音频信号是多通道的声源信号，其中，通道的数量可以对应于麦克风阵列中所包含的麦克风的个数，比如，若该麦克风组阵列包含的麦克风的个数为4个，那么麦克风阵列采集到的四个音频信号。示例性的，该音频信号包括发布语音命令的对象所发出的目标语音和环境噪声的干扰语音。

示例性的，每个音频信号所记录的声源内容都是一致的，比如，对于某一采样点的音频信号，在该麦克风阵列包含四个麦克风的情况下，有4个与之对应的音频信号，每个音频信号都记录了该采样点声源信号的内容，只是由于麦克风阵列中，每个麦克风与声源之间的方位和/或距离不同，从而导致了各个麦克风所接收到的声源信号的频率、强度等存在差异，从而使得音频信号存在差异。

步骤302，通过第一滤波器对至少两个音频信号进行滤波得到第一目标波束，第一滤波器用于抑制干扰语音且增强目标语音。

示例性的，第一滤波器用于对音频信号进行滤波，增强音频信号中的目标语音、抑制音频信号中的干扰语音。示例性的，第一滤波器对应有第一权重矩阵，第一权重矩阵的初始值可以由技术人员根据经验设置，或，任意设置。示例性的，第一滤波器是实时更新的滤波器，第一滤波器会随着第二滤波器和第三滤波器的自适应更新而更新，根据第二滤波器、第三滤波器的权重矩阵对干扰语音的增强和对目标语音的抑制，来确定第一滤波器对干扰语音的抑制和对目标语音的增强。

示例性的，目标语音是在目标方向上接收的音频信号，干扰语音是在除目标方向外的其他方向上接收到的音频信号。示例性的，目标语音是发布语音命令的对象所发出的语音信号。

例如，如图5所示，至少两个音频信号组成音频信号矩阵X_W，第一滤波器401对应的第一权重矩阵为W₂，则至少两个音频信号经过第一滤波器401滤波得到的第一目标波束为X_WW₂。

示例性的，在第一滤波器前还可以设置预滤波器，则步骤302还包括步骤3021至步骤3022。

步骤3021，通过预滤波器对至少两个音频信号进行第一滤波得到预目标波束，预滤波器是使用训练数据计算得到的滤波器，预滤波器用于抑制干扰语音且增强目标语音。

步骤3022，通过第一滤波器对预目标波束进行第二滤波，得到第一目标波束。

示例性的，预滤波器是利用训练数据计算得到的滤波器。预滤波器也用于增强音频信号中的目标语音并抑制干扰语音。示例性的，预滤波器是根据线性约束最小方差(Linearly Constrained Minimum-Variance，LCMV)准则计算得到的滤波器，预滤波器在计算得到后即为固定值，不会迭代更新。

例如，如图6所示，至少两个音频信号组成音频信号矩阵X_W，预滤波器402对应的预权重矩阵为W，第一滤波器401对应的第一权重矩阵为W₂，则至少两个音频信号经过预滤波器402得到的预目标波束为X_WW，预目标波束经过第一滤波器401滤波得到的第一目标波束为X_WWW₂。

示例性的，给出一种计算预滤波器的方法。获取麦克风阵列在应用环境中采集的训练数据，应用环境是麦克风阵列被放置使用的空间范围，训练数据包括麦克风阵列中不同麦克风采集的至少两个样本音频信号；根据线性约束最小方差LCMV准则计算训练数据得到预滤波器。

示例性的，预滤波器是根据在实际的音频信号采集场景中采集到的实际数据计算得到的。示例性的，训练数据对应有目标方向，使用某个目标方向上的训练数据来训练该目标方向对应的预滤波器，使训练得到的预滤波器能够增强该目标方向上的目标语音，抑制其他方向上的干扰语音。

示例性的，以麦克风阵列包括四个麦克风为例，麦克风采集到的时域信号分别为mic₁、mic₂、mic₃、mic₄，将麦克风信号变换到频域得到频域信号X_W1、X_W2、X_W3、X_W4，将任意一个麦克风作为参考麦克风，可以得到其他麦克风的相对传递函数StrV_j，j为整数，若麦克风数量为k，则0<j≤k-1。以参考麦克风是第一麦克风为例，其他麦克风的相对传递函数StrV_j为：

StrV_j＝X_Wj/X_W1。

然后根据LCMV准则射击得到当前真实环境下的最优滤波器(预滤波器)。其中，LCMV准则的计算式为：

minimize J(W)＝1/2(W^HR_xxW)

subject to C^HW＝f

其中，W为预滤波器的权重矩阵；R_xx＝E[XX^H]，X＝[X_W1，X_W2，X_W3，X_W4]^T；C为导向矢量；f＝[1，ξ₁，ξ₂，ξ_3]为限定条件，在期望方向上ξ为1，在其他干扰零点方向上ξ设置为ξ_n(ξ_n＝0或ξ_n<<1)。干扰零点的设置可以根据需要进行设置，保证对干扰的抑制能力即可。

步骤303，通过第二滤波器对至少两个音频信号进行滤波得到第一干扰波束，第二滤波器用于抑制目标语音且增强干扰语音。

第二滤波器用于一直音频信号中的目标语音并增强干扰语音，尽量清晰地得到干扰语音的波束。示例性的，第二滤波器对应有第二权重矩阵，第二权重矩阵的初始值可以根据技术人员的经验设置。

例如，如图5所示，至少两个音频信号组成音频信号矩阵X_W，第二滤波器403对应的第二权重矩阵为W_b，则至少两个音频信号经过第二滤波器403滤波得到的第一干扰波束为X_WW_b。

步骤304，通过第三滤波器获取第一干扰波束的第二干扰波束，第三滤波器用于加权调整第一干扰波束。

第三滤波器用于对第二滤波器的输出进行二次滤波。示例性的，第三滤波器用于调整第一干扰波束中目标语音和干扰语音的权重，以便在步骤305中用目标波束减去干扰波束，从而去除目标波束中的干扰波束，得到准确的音频输出结果。

例如，如图5所示，至少两个音频信号组成音频信号矩阵X_W，第二滤波器403对应的第二权重矩阵为W_b，第三滤波器404对应的第三权重矩阵为W_anc，则至少两个音频信号经过第二滤波器403滤波得到的第一干扰波束为X_WW_b，第一干扰波束经过第三滤波器404滤波得到的第二干扰波束为X_WW_bW_anc。

步骤305，将第一目标波束与第二干扰波束之差确定为第一音频处理输出。

音频处理输出是经过滤波后得到的目标语音的波束。

例如，如图5所示，至少两个音频信号组成音频信号矩阵X_W，用第一滤波器输出的第一目标波束X_WW₂减去第三滤波器输出的第二干扰波束X_WW_bW_anc，得到第一音频处理输出Y₁＝X_WW₂-X_WW_bW_anc。

再如，如图6所示，至少两个音频信号组成音频信号矩阵X_W，用第一滤波器输出的第一目标波束X_WWW₂减去第三滤波器输出的第二干扰波束X_WW_bW_anc，得到第一音频处理输出Y₁＝X_WWW₂-X_WW_bW_anc。

示例性的，由于图6所示的滤波器组合使用了预滤波器进行初次滤波，在初始阶段滤波准确度较高，因此，分布型或紧密型的麦克风阵列都可以采用这种方式进行滤波。示例性的，图5所示的滤波器组合没有使用预滤波器，不需要预先使用实际运行环境中采集的训练数据获得预滤波器，从而降低了滤波器组合对实际运行环境的依赖。

步骤306，自适应更新第二滤波器和第三滤波器中的至少一个，在更新完成后根据第二滤波器和第三滤波器更新第一滤波器。

示例性的，根据滤波后得到的波束对第二滤波器和第三滤波器进行调整。示例性的，根据第一目标波束更新第二滤波器，根据第一音频处理输出更新第三滤波器；或，根据第一音频处理输出更新第二滤波器和第三滤波器；或，根据第一目标波束更新第二滤波器；或，根据第一音频处理输出更新第二滤波器；或，根据第一音频处理输出更新第三滤波器。

示例性的，采用最小均方自适应滤波器(LMS，Least Mean Square)或归一化最小均方自适应滤波器(NLMS，Normalized Least Mean Square)的方法来自适应更新第二滤波器或第三滤波器。

示例性的，采用LMS算法对滤波器进行自适应更新的过程为：

1)给定w(0)；

2)计算输出值：y(k)＝w(k)^Tx(k)；

3)计算估计误差：e(k)＝d(k)-y(k)；

4)权重更新：w(k+1)＝w(k)+μe(k)x(k)。

其中，w(0)是滤波器的初始权重矩阵，μ为更新步长，y(k)为估计噪声，w(k)为滤波器更新前的权重矩阵，w(k+1)为滤波器更新后的权重矩阵，x(k)为输入值，e(k)为降噪后语音，d(k)为带噪语音，k为迭代的次数。

以由至少两个音频信号组成的音频信号矩阵为X_W，第一滤波器的第一权重矩阵为W₂，第二滤波器的第二权重矩阵为W_b，第三滤波器的第三权重矩阵为W_anc为例，使用第一音频处理输出Y1＝X_W W₂-X_WW_bW_anc，采用LMS算法对第三滤波器进行自适应更新得到更新后的权重矩阵为(W_b+μY₁X_W)。

示例性的，在第二滤波器和第三滤波器的更新完成后，根据更新后的第二滤波器和第三滤波器更新第一滤波器。示例性的，根据第一滤波器、第二滤波器和第三滤波器间的相对关系，来计算得到第一滤波器。

示例性的，第一滤波器对应有第一权重矩阵，第二滤波器对应有第二权重矩阵，第三滤波器对应有第三权重矩阵；在更新完成后，根据第二权重矩阵和第三权重矩阵，计算得到第一权重矩阵；根据第一权重矩阵更新第一滤波器。示例性的，滤波器用权重矩阵来处理输入的音频信号。滤波器将输入的音频信号乘以滤波器对应的权重矩阵，得到滤波后输出的音频信号。

示例性的，在更新完成后，将单位矩阵与目标矩阵之差确定为第一权重矩阵，目标矩阵是第二权重矩阵与第三权重矩阵之积。

例如，第一权重矩阵为W₂，第二权重矩阵为W_b，第三权重矩阵为W_anc，则W₂＝(1-W_bW_anc)。

例如，如图5所示，使用第一滤波器401输出的第一目标波束自适应更新第二滤波器403，使用第一音频处理输出自适应更新第三滤波器404。然后使用更新后的第二滤波器403和第三滤波器404更新第一滤波器401。

综上所述，本公开提供的音频信号处理方法，通过根据第二滤波器和第三滤波器，更新第一滤波器，使第一滤波器、第二滤波器和第三滤波器可以实时跟踪目标声源的导向矢量变化，及时更新滤波器，使用实时更新的滤波器来处理下一次麦克风采集到的音频信号，使滤波器根据场景的变化来输出音频处理输出，保证在干扰移动情形下的滤波器的跟踪性能，减小干扰泄露问题。

本公开提供的音频信号处理方法，通过在第一滤波器之前设置预先计算好的预滤波器，使预滤波器先对音频信号进行处理，提高目标语音分离的准确度，提高初始阶段滤波器对音频信号的处理能力。

本公开提供的音频信号处理方法，通过使用在应用环境中采集到的实际音频数据，来训练得到预滤波器，使预滤波器可以贴近实际应用场景，提高预滤波器与应用场景的贴合度，提高预滤波器对干扰的抑制效果。

本公开提供的音频信号处理方法，通过使用根据目标方向上采集到的训练数据来训练得到预滤波器，使预滤波器可以更好地识别目标方向上的音频信号，提高预滤波器对其他方向的音频信号的抑制能力。

本公开提供的音频信号处理方法，通过使用第一目标波束或第一音频处理输出来更新第二滤波器，使用第一音频处理输出来更新第三滤波器，使第二滤波器能够得到更准确地干扰波束，更准确地抑制目标波束，使第三滤波器能够更准确地对第一干扰波束进行加权，进而提高音频处理输出的准确度。

本公开提供的音频信号处理方法，通过使用每一次处理后的数据对第一滤波器、第二滤波器、第三滤波器进行实时更新，使滤波器能够实时根据目标声源的导向矢量变化而变化，使滤波器可以适用于干扰噪声不断变化的场景，保证在干扰移动情形下的滤波器的跟踪性能，减小干扰泄露问题。

请参考图7，其示出了本公开一个示例性实施例提供的一种音频信号处理方法的流程图，该方法可以应用于图1所示的音频信号处理系统中，该方法由音频信号处理设备执行。如图4所示，该方法可以包括以下步骤：

步骤501，获取麦克风阵列中不同麦克风采集的至少两个音频信号，麦克风阵列包括n个目标方向，n个目标方向分别对应n个滤波器组，滤波器组采用上述任一的方法处理音频信号，n是大于1的正整数。

示例性的，麦克风矩阵可以设置多个目标方向，目标方向的个数可以是任意的。示例性的，根据每个目标方向分别训练得到一个滤波器组，该滤波器采用图4所示的方法处理音频信号。示例性的，该滤波器组可以是图5或图6中所示出的滤波器组中的任意一种。示例性的，不同目标方向对应的滤波器组不同。示例性的，将目标方向上的音频信号作为目标语音训练得到该目标方向对应的滤波器组。

例如，如图8所示，该麦克风阵列设置了四个目标方向，四个目标方向分别对应有四个滤波器组：GSC₁、GSC₂、GSC₃、GSC₄。

示例性的，滤波器组包括：第一滤波器、第二滤波器、第三滤波器；或，预滤波器、第一滤波器、第二滤波器、第三滤波器。当第i个滤波器组包括预滤波器时，预滤波器是使用麦克风阵列采集到的第i个目标方向上的训练数据训练得到的。

步骤502，分别使用n个滤波器组对至少两个音频信号进行滤波得到n个目标方向对应的n个第一音频处理输出。

例如，如图8所示，以四个目标方向为例，将至少两个音频信号组成的音频信号矩阵X_W分别输入四个滤波器组得到四个目标方向分别对应的第一音频处理输出Y₁、Y₂、Y₃、Y₄。示例性的，每个滤波器组在得到滤波结果后，会根据滤波结果对滤波器组中的第一滤波器、第二滤波器、第三滤波器进行实时更新。

步骤503，根据除第i个第一音频处理输出之外的n-1个第一音频处理输出对第i个第一音频处理输出进行滤波，得到第i个目标方向对应的第i个第二音频处理输出，i大于0小于n；重复该步骤得到n个目标方向分别对应的n个第二音频处理输出。

示例性的，对于第i个目标方向，第i个第一音频输出是目标语音，其他目标方向上的第一音频输出是干扰语音。示例性的，当第i个目标方向上的音频信号是目标语音时，其他目标方向的音频信号即为干扰信号，将第i个目标方向对应的第i个第一音频处理输出作为目标波束，将其他目标方向对应的n-1个第一音频处理输出作为干扰波束，将n-1个第一音频处理输出经过第i个第四滤波器进行滤波得到第三干扰波束，用第三干扰波束对第i个第一音频处理输出进行滤波，来提高输出的第i个目标方向的音频处理结果的准确度。

示例性的，将除第i个第一音频处理输出之外的n-1个第一音频处理输出确定为第i个干扰组，i大于0小于n；通过第i个目标方向对应的第i个第四滤波器对干扰组进行滤波得到第i个第三干扰波束，第四滤波器用于加权调整干扰组；将第i个第一音频处理输出与第i个第三干扰波束之差确定为第i个第二音频处理输出；根据第i个第二音频处理输出自适应更新第i个第四滤波器。

示例性的，第i个第四滤波器与第i个目标方向相对应。

例如，如图8所示，以四个目标方向为例，将第1目标方向作为目标语音的方向，则将第2目标方向、第3目标方向、第4目标方向的第一语音处理输出Y₂、Y₃、Y₄作为第1个干扰组，输入第1个第四滤波器601得到第1个第三干扰波束，用第1个第一音频处理输出Y₁减去第1个第三干扰波束得到第1个第二音频处理输出Z₁。利用第1个第二音频处理输出Z₁自适应更新第1个第四滤波器601。

例如，如图9所示，以四个目标方向为例，将第2目标方向作为目标语音的方向，则将第1目标方向、第3目标方向、第4目标方向的第一语音处理输出Y₁、Y₃、Y₄作为第2个干扰组，输入第2个第四滤波器602得到第2个第三干扰波束，用第2个第一音频处理输出Y₂减去第2个第三干扰波束得到第2个第二音频处理输出Z₂。利用第2个第二音频处理输出Z₂自适应更新第2个第四滤波器602。

例如，如图10所示，以四个目标方向为例，将第3目标方向作为目标语音的方向，则将第1目标方向、第2目标方向、第4目标方向的第一语音处理输出Y₁、Y₂、Y₄作为第3个干扰组，输入第3个第四滤波器603得到第3个第三干扰波束，用第3个第一音频处理输出Y₃减去第3个第三干扰波束得到第3个第二音频处理输出Z₃。利用第3个第二音频处理输出Z₃自适应更新第3个第四滤波器603。

例如，如图11所示，以四个目标方向为例，将第4目标方向作为目标语音的方向，则将第1目标方向、第2目标方向、第3目标方向的第一语音处理输出Y₁、Y₂、Y₃作为第4个干扰组，输入第4个第四滤波器604得到第4个第三干扰波束，用第4个第一音频处理输出Y₄减去第4个第三干扰波束得到第4个第二音频处理输出Z₄。利用第4个第二音频处理输出Z₄自适应更新第4个第四滤波器604。

综上所述，本公开提供的音频信号处理方法，通过对采集到的音频信号在多个目标方向上进行音频处理得到多个目标方向分别对应的多个音频处理输出，使用其他方向的音频处理输出来去除本方向的音频处理输出中的干扰，提高本方向音频处理输出的精准度。

示例性的，给出一种将上述音频信号处理方法应用在车载语音识别场景中的示例性实施例。

在车载语音识别场景中，在车辆的主驾驶位、副驾驶位、两个乘客位分别设置有麦克风，组成麦克风阵列，用于采集驾驶员或乘客发出的语音交互指令。当麦克风阵列采集到音频信号后，采用图4或图7的方法对音频信号进行滤波，得到第一音频处理输出或第二音频处理输出，并使用语音识别算法对第一音频处理输出或第二音频处理输出进行语音识别或语义识别，从而识别驾驶员或乘客发出的语音交互指令，从而使车载计算机系统根据语音交互指令进行响应。

示例性的，根据主驾驶位、副驾驶位、两个乘客位在车辆内的位置分布，确定四个目标方向，四个目标方向分别用于接收主驾驶位上的驾驶员的语音交互指令，以及分别坐在副驾驶位、乘客位的乘客的语音交互指令。在麦克风阵列采集到音频信号后，采用图4或图7的方法对音频信号进行滤波，分别以不同目标方向作为目标语音进行滤波得到四个目标方向分别对应的音频处理输出，音频处理输出强化了选定的目标方向上的音频信号，抑制了其他目标方向的干扰，从而提高音频处理输出的准确度，便于语音识别算法识别信号中的语音指令。

示例性的，如图12中的(1)所示，是将麦克风分别设置在主驾驶位和副驾驶位采集到的双通道语谱，其中上方为主驾驶位的语谱，下方为副驾驶位的语谱。如图12中的(2)所示，是使用本申请提供的预滤波器对采集到的音频信号进行滤波得到的双通道语谱，(1)和(2)对比可以清晰的看出经过数据训练的预滤波器处理实现对语音的空间滤波作用，两个通道的干扰都有很大程度的降低。图12中的(3)是对音频信号采用数据预滤波器结合传统GSC处理得到的双通道语谱图，与(2)相比(3)的干扰泄露更好。如图13中的(1)所示，是采用图7所示的音频信号处理方法(全盲GSC结构)处理音频信号得到的双通道语谱图，相比图12中的(3)进一步减小了语音泄露，这是因为实验中分离声源中左声道是移动声源，图12中的(3)显示传统GSC结构不能很好的跟踪移动声源的变化，图13中的(1)虽然没有采用数据相关的预滤波器，但能够很好的跟踪移动声源的变化，因此具有更好的对干扰语音的抑制能力。图13中的(2)是采用图4所示的音频信号处理方法处理音频信号得到的双通道语谱图，采用预滤波器结合全盲的GSC结构对音频信号进行滤波，同时结合了数据相关的预滤波器和移动干扰声源的跟踪能力，具有最佳效果。

请参考图14，其示出了本公开一个示例性实施例提供的一种音频信号处理装置的方框图，该装置用以执行上述图4所示实施例的方法的全部或部分步骤，如图14所示，该装置可以包括：

第一获取模块701，用于获取麦克风阵列中不同麦克风采集的至少两个音频信号；

第一滤波模块702，用于通过第一滤波器对所述至少两个音频信号进行滤波得到第一目标波束，所述第一滤波器用于抑制干扰语音且增强目标语音；

第二滤波模块703，用于通过第二滤波器对所述至少两个音频信号进行滤波得到第一干扰波束，所述第二滤波器用于抑制所述目标语音且增强所述干扰语音；

第三滤波模块704，用于通过第三滤波器获取所述第一干扰波束的第二干扰波束，所述第三滤波器用于加权调整所述第一干扰波束；

第一确定模块705，用于将所述第一目标波束与所述第二干扰波束之差确定为第一音频处理输出；

第一更新模块706，用于自适应更新所述第二滤波器和所述第三滤波器中的至少一个，在更新完成后根据所述第二滤波器和所述第三滤波器更新所述第一滤波器。

在一种可能的实现方式中，所述第一滤波器对应有第一权重矩阵，所述第二滤波器对应有第二权重矩阵，所述第三滤波器对应有第三权重矩阵；

所述第一更新模块706，还用于在更新完成后，根据所述第二权重矩阵和所述第三权重矩阵，计算得到所述第一权重矩阵；

所述第一更新模块706，还用于根据所述第一权重矩阵更新所述第一滤波器。

在一种可能的实现方式中，所述第一更新模块706，还用于在更新完成后，将单位矩阵与目标矩阵之差确定为所述第一权重矩阵，所述目标矩阵是所述第二权重矩阵与所述第三权重矩阵之积。

在一种可能的实现方式中，所述第一更新模块706，还用于：

根据所述第一目标波束更新所述第二滤波器，根据所述第一音频处理输出更新所述第三滤波器；

或，

根据所述第一音频处理输出更新所述第二滤波器和所述第三滤波器；

或，

根据所述第一目标波束更新所述第二滤波器；

或，

根据所述第一音频处理输出更新所述第二滤波器；

或，

根据所述第一音频处理输出更新所述第三滤波器。

在一种可能的实现方式中，所述装置还包括：

预滤波模块707，用于通过预滤波器对所述至少两个音频信号进行第一滤波得到预目标波束，所述预滤波器是使用训练数据计算得到的滤波器，所述预滤波器用于抑制所述干扰语音且增强所述目标语音；

所述第一滤波模块702，还用于通过所述第一滤波器对所述预目标波束进行第二滤波，得到所述第一目标波束。

在一种可能的实现方式中，所述装置还包括：

所述第一获取模块701，还用于获取所述麦克风阵列在应用环境中采集的训练数据，所述应用环境是所述麦克风阵列被放置使用的空间范围，所述训练数据包括所述麦克风阵列中不同麦克风采集的至少两个样本音频信号；

计算模块708，用于根据线性约束最小方差LCMV准则计算所述训练数据得到所述预滤波器。

请参考图15，其示出了本公开一个示例性实施例提供的一种音频信号处理装置的方框图，该装置用以执行上述图7所示实施例的方法的全部或部分步骤，如图15所示，该装置可以包括：

第二获取模块801，用于获取麦克风阵列中不同麦克风采集的至少两个音频信号，所述麦克风阵列包括n个目标方向，n个所述目标方向分别对应n个滤波器组，所述滤波器组采用如权利要求1至7任一所述的方法处理所述音频信号，所述n是大于1的正整数；

滤波器组模块802，用于分别使用n个所述滤波器组对所述至少两个音频信号进行滤波得到n个所述目标方向对应的n个第一音频处理输出；

第四滤波模块803，用于根据除第i个所述第一音频处理输出之外的n-1个所述第一音频处理输出对第i个所述第一音频处理输出进行滤波，得到第i个所述目标方向对应的第i个第二音频处理输出，所述i大于0小于所述n；重复该步骤得到n个所述目标方向分别对应的n个所述第二音频处理输出。

在一种可能的实现方式中，所述装置还包括：

所述第四滤波模块803，还用于将除第i个所述第一音频处理输出之外的n-1个所述第一音频处理输出确定为第i个干扰组，所述i大于0小于所述n，所述n是大于1的正整数；

所述第四滤波模块803，还用于通过第i个所述目标方向对应的第i个第四滤波器对第i个所述干扰组进行滤波得到第i个第三干扰波束，所述第四滤波器用于加权调整所述干扰组；

第二确定模块804，用于将第i个所述第一音频处理输出与第i个所述第三干扰波束之差确定为第i个所述第二音频处理输出；

第二更新模块805，用于根据第i个所述第二音频处理输出自适应更新第i个所述第四滤波器。

在一种可能的实现方式中，所述第i个滤波器组包括预滤波器，所述预滤波器是使用所述麦克风阵列采集到的第i个所述目标方向上的训练数据训练得到的。

图16是根据一示例性实施例示出的计算机设备的结构框图。该计算机设备可以实现为本公开上述方案中的音频信号处理设备。所述计算机设备900包括中央处理单元(Central Processing Unit，CPU)901、包括随机存取存储器(Random Access Memory，RAM)902和只读存储器(Read-Only Memory，ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本公开的各种实施例，所述计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器901通过执行该一个或一个以上程序来实现图4或图7所示的方法中的全部或者部分步骤。

本公开实施例还提供了一种计算机可读存储介质，用于储存为上述计算机设备所用的计算机软件指令，其包含用于执行上述音频信号处理方法所设计的程序。例如，该计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上文介绍的音频信号处理方法的全部或者部分步骤。

本公开实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的音频信号处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

获取麦克风阵列中不同麦克风采集的至少两个音频信号；

2.根据权利要求1所述的方法，其特征在于，所述第一滤波器对应有第一权重矩阵，所述第二滤波器对应有第二权重矩阵，所述第三滤波器对应有第三权重矩阵；

所述在更新完成后根据所述第二滤波器和所述第三滤波器更新所述第一滤波器，包括：

在更新完成后，根据所述第二权重矩阵和所述第三权重矩阵，计算得到所述第一权重矩阵；

根据所述第一权重矩阵更新所述第一滤波器。

3.根据权利要求2所述的方法，其特征在于，所述在更新完成后，根据所述第二权重矩阵和所述第三权重矩阵，计算得到所述第一权重矩阵，包括：

在更新完成后，将单位矩阵与目标矩阵之差确定为所述第一权重矩阵，所述目标矩阵是所述第二权重矩阵与所述第三权重矩阵之积。

4.根据权利要求1至3任一所述的方法，其特征在于，所述自适应更新所述第二滤波器和所述第三滤波器中的至少一个，包括：

或，

根据所述第一目标波束更新所述第二滤波器；

或，

根据所述第一音频处理输出更新所述第二滤波器；

或，

根据所述第一音频处理输出更新所述第三滤波器。

5.根据权利要求1至3任一所述的方法，其特征在于，所述通过第一滤波器对所述至少两个音频信号进行滤波得到第一目标波束，包括：

通过预滤波器对所述至少两个音频信号进行第一滤波得到预目标波束，所述预滤波器是使用训练数据计算得到的滤波器，所述预滤波器用于抑制所述干扰语音且增强所述目标语音；

通过所述第一滤波器对所述预目标波束进行第二滤波，得到所述第一目标波束。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述麦克风阵列在应用环境中采集的训练数据，所述应用环境是所述麦克风阵列被放置使用的空间范围，所述训练数据包括所述麦克风阵列中不同麦克风采集的至少两个样本音频信号；

根据线性约束最小方差LCMV准则计算所述训练数据得到所述预滤波器。

7.一种音频信号处理方法，其特征在于，所述方法包括：

获取麦克风阵列中不同麦克风采集的至少两个音频信号，所述麦克风阵列包括n个目标方向，n个所述目标方向分别对应n个滤波器组，所述滤波器组采用如权利要求1至7任一所述的方法处理所述音频信号，所述n是大于1的正整数；

8.根据权利要求7所述的方法，其特征在于，所述根据除第i个所述第一音频处理输出之外的n-1个所述第一音频处理输出对第i个所述第一音频处理输出进行滤波，得到第i个所述目标方向对应的第i个第二音频处理输出，包括：

将除第i个所述第一音频处理输出之外的n-1个所述第一音频处理输出确定为第i个干扰组，所述i大于0小于所述n，所述n是大于1的正整数；

通过第i个所述目标方向对应的第i个第四滤波器对所述第i个干扰组进行滤波得到第i个第三干扰波束，所述第四滤波器用于加权调整所述干扰组；

将第i个所述第一音频处理输出与第i个所述第三干扰波束之差确定为第i个所述第二音频处理输出；

根据第i个所述第二音频处理输出自适应更新第i个所述第四滤波器。

9.根据权利要求7或8所述的方法，其特征在于，所述第i个滤波器组包括预滤波器，所述预滤波器是使用所述麦克风阵列采集到的第i个所述目标方向上的训练数据训练得到的。

10.一种音频信号处理装置，其特征在于，所述装置包括：

11.一种音频信号处理装置，其特征在于，所述装置包括：

第二获取模块，用于获取麦克风阵列中不同麦克风采集的至少两个音频信号，所述麦克风阵列包括n个目标方向，n个所述目标方向分别对应n个滤波器组，所述滤波器组采用如权利要求1至7任一所述的方法处理所述音频信号；

12.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的音频信号处理方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的音频信号处理方法。