WO2023165565A1

WO2023165565A1 - 音频增强方法和装置、计算机存储介质

Info

Publication number: WO2023165565A1
Application number: PCT/CN2023/079312
Authority: WO
Inventors: 李林锴; 陆丛希; 孙鸿程
Original assignee: 上海又为智能科技有限公司
Priority date: 2022-03-02
Filing date: 2023-03-02
Publication date: 2023-09-07
Also published as: CN114550734A

Abstract

本申请公开了一种音频增强方法和装置、计算机存储介质。所述方法包括：由麦克风阵列生成一组音频采集信号；对该组音频采集信号进行延迟求和处理，以生成延迟求和信号；对该组音频采集信号进行阻塞矩阵处理，以生成阻塞矩阵信号；利用自适应滤波矩阵对所述阻塞矩阵信号进行滤波处理，并将经滤波的阻塞矩阵信号从所述延迟求和信号中移除，以得到经增强的音频输出信号。所述自适应滤波矩阵是基于至少一个衰减函数，并且所述至少一个衰减函数中的每一个以对应的预定更新间隔T更新。

Description

音频增强方法和装置、计算机存储介质

技术领域

本申请涉及一种波束形成技术，更具体地，涉及一种音频增强方法和装置、计算机存储介质。

背景技术

波束形成算法常常应用于耳机、助听器和音箱等音频设备，其基本原理是通过两个或多个麦克风拾取声音，并计算同一个声音到达不同麦克风的时间，以此来确定声音的来源。在后续过程中可以通过算法来保留或者消除某个方向来的声音。例如，带有环境降噪功能的蓝牙无线耳机可以将两个麦克风配置成上下摆放，使得人的嘴巴大致处于两个麦克风连接的直线上。以这种方式来拾取佩戴者说话的声音可以有利于消除环境噪音，从而提高通话时的音质。目前市面上的助听器上一般配有两个麦克风，两个麦克风可以前后摆放，从而可以通过波束形成算法实现对于前方声音(相对于佩戴者的朝向而言，下同)的提取和对于后方声音的消除，这样佩戴者在谈话中能够更好地专注于前面的声音。

但是典型的波束形成算法仅能对于设置的某一个方向的声音进行保留，对于其他方向的声音会全部削减。这对于诸如在助听器上想要通过两个或多个麦克风模拟人耳的收声效果之类的应用场景是不合适的。因此，有必要提供一种改进的波束形成算法。

发明内容

本申请的一个目的在于提供一种音频增强方法和装置、计算机存储介质，以解决波束形成算法对于非目标方向上的声音过抑制的问题。

在本申请的一个方面，提供了一种音频增强方法，所述方法包括：由麦克风阵列生成一组音频采集信号，其中该组音频采集信号中的每个音频采集信号是由所述麦克风阵列中的一个麦克风生成的，并且所述麦克风阵列中的每个麦克风相互间隔开；对该组音频采集信号进行延迟求和处理，以生成延迟求和信号Y_DSB(k，l)，其中k表示频率窗口(frequency bin)，而l表示帧指数；对该组音频采集信号进行阻塞矩阵处理，以生成阻塞矩阵信号Y_BM(k，l)；利用自适应滤波矩阵W_ANC对所述阻塞矩阵信号Y_BM(k，l)进行滤波处理，并将经滤波的阻塞矩阵信号从所述延迟求和信号Y_DSB(k，l)中移除，以得到经增强的音频输出信号Y_OUT(k，l)；其中，所述自适应滤波矩阵W_ANC是基于至少一个衰减函数μ(t)，随所述音频输出信号Y_OUT(k，l)和所述阻塞矩阵信号Y_BM(k，l)变化的权重系数矩阵，并且所述至少一个衰减函数μ(t)中的每一个以对应的预定更新间隔T更新。

在一些实施例中，可选地，所述麦克风阵列包括位于同一音频处理装置上的至少两个麦克风。

在一些实施例中，可选地，所述音频处理装置适于佩戴于人耳廓内。

在一些实施例中，可选地，所述至少两个麦克风中的一个被定向为朝向耳廓，而所述至少两个麦克风中的另一个被定向为远离耳廓。

在一些实施例中，可选地，所述音频输出信号由下述等式确定：并且，所述自适应滤波矩阵W_ANC由下述等式确定：其中，P_est(k,l)由下述等式确定：其中，α是遗忘因子，M为麦克风阵列中麦克风的数量。

在一些实施例中，可选地，所述至少一个衰减函数包括第一衰减函数和第二衰减函数，所述第一衰减函数以第一预定更新间隔更新，所述第二衰减函数以第二预定更新间隔更新；其中，所述第一衰减函数对应于大于或者等于预定频率阈值的高频信号；而所述第二衰减函数对应于小于预定频率阈值的低频信号，并且所述第一预定更新间隔短于所述第二预定更新间隔。

在一些实施例中，可选地，所述衰减函数μ(t)中的每一个在当前更新间隔内基于其于第一个更新间隔内取值进行更新。

在一些实施例中，可选地，所述衰减函数μ(t)中的每一个在所述当前更新间隔内的各点是基于其于第一个更新间隔内相应的一点的取值赋予0～1之间的变化权重而进行更新的。

在一些实施例中，可选地，所述权重在所述当前更新间隔内是关于时间的线性函数。

在一些实施例中，可选地，所述权重在所述当前更新间隔内是关于时间的线性递增函数。

在一些实施例中，可选地，所述权重在所述当前更新间隔内是关于时间的非线性函数。

在一些实施例中，可选地，所述衰减函数μ(t)中的每一个在所述当前更新间隔内还基于其于上一个更新间隔末的取值进行更新。

在一些实施例中，可选地，所述衰减函数μ(t)中的每一个在当前更新间隔(NT，(N+1)T]内满足如下等式：其中N取正整数。

在本申请的另一方面，还提供了一种音频增强装置，所述装置包括非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行如上文所述的任意一种音频增强方法。

在一些实施例中，可选地，所述音频增强装置可以为助听器设备。

在本申请的又一方面，还提供了一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行如上文所述的任意一种音频增强方法。

以上为本申请的概述，可能有简化、概括和省略细节的情况，因此本领域的技术人员应该认识到，该部分仅是示例说明性的，而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征，也非旨在用作为确定所要求保护主题的范围的辅助手段。

附图说明

通过下面说明书和所附的权利要求书并与附图结合，将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解，这些附图仅描绘了本申请内容的若干实施方式，因此不应认为是对本申请内容范围的限定。通过采用附图，本申请内容将会得到更加明确和详细地说明。

图1示出了根据一个示例的波束形成算法的示意图；

图2示出了根据一个示例的波束形成算法的示意图；

图3示出了根据本申请的一个实施例的波束形成算法的示意图；

图4示出了根据本申请的一个实施例的音频增强方法；

图5示出了根据本申请的一个实施例的波束形成算法的示意图；

图6示出了根据本申请的一个实施例的波束形成算法的示意图；

图7示出了根据本申请的一个实施例的波束形成算法的效果的示意图；

图8示出了根据本申请的一个实施例的波束形成算法的效果的示意图；

图9示出了根据本申请的一个实施例的波束形成算法的效果的示意图。

在详细解释本发明的任何实施例之前，应该理解，本发明的应用不限于在下面的描述中阐述的或在以下附图中示出的构造的细节和部件的布置。本发明能够具有其他实施例并且能够以各种方式实践或实施。而且，应该理解，这里使用的措辞和术语是为了描述的目的，不应被认为是限制性的。

具体实施方式

在下面的详细描述中，参考了构成其一部分的附图。在附图中，类似的符号通常表示类似的组成部分，除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下，可以采用其他实施方式，并且可以做出其他变化。可以理解，可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合、设计，而所有这些都明确地构成本申请内容的一部分。

图1和图2示出了根据一些示例的波束形成算法。如图1所示，声源101发出的声音可以为诸如助听器的麦克风102-1和麦克风102-2所拾取。麦克风102-1和麦克风102-2可以设置在助听器的佩戴者103的左右两侧(例如，设置在两侧耳廓内)，二者之间的距离可以为定值d。例如，距离d可以取决于佩戴者103的两耳间距离。佩戴者103以图示的角度0°面向图1中的上方(即佩戴者的前方)。声源101位于佩戴者103左前方，与佩戴者103视野的中线成角度θ。由于声源101与佩戴者103(及其两耳)的距离远超过两耳之间的距离，因而可以认为声源101相对于麦克风102-1和麦克风102-2而言都近似成图示的角度θ。由几何关系可知，假设声音在空气中传播的速度为v，麦克风102-1接收到的信号为y₁(t)，那么麦克风102-2接收到的信号y₂(t)＝y₁(t-τ)，其中τ＝(d*sin(θ))/v。

分别为麦克风102-1和麦克风102-2接收到的声音信号进行短时傅里叶变换，假设y₁(t)的变换结果为Y₁(k，l)，y₂(t)的变换结果为Y₂(k，l)，其中k表示频率窗口(frequency bin)，l表示帧指数(frame index)，那么Y₁(k，l)与Y₂(k，l)满足如下关系：Y₂(k，l)＝Y₁(k，l)*e^-jωτ。

转至图2，其中延迟波束形成器201和阻塞矩阵202分别接收来自麦克风102-1和麦克风102-2的信号并对其进行处理。在一些方案中，经延迟波束形成器201处理得到的信号Y_DSB例如可以满足经阻塞矩阵202处理得到的信号Y_BM例如可以满足Y_BM＝Y₁(k，l)-Y₂(k，l)e^jωτ。参数可调的最小均方自适应滤波器(LMS滤波器)203将对Y_BM作进一步处理，并将处理后的结果发送到求和单元204，从求和单元204输出的信号Y_GSC(k，l)满足其中W_ANC(k，l)是LMS滤波器203的迭代系数，^*表示共轭。

进一步地，W_ANC(k，l)满足下面的关系：

P_est(k，l)＝αP_est(k，l-1)+(1-α)(|Y_BM(k，l)|²+|Y_GSC(k，l)|²) (2)

若助听器包括M个麦克风用于采集声音信号，则等式(2)可以表示为：

在上述等式(2)和(2’)中，α为遗忘因子。如所理解的，遗忘因子α的引入可以强调新数据提供的信息量并且逐渐削减较早数据的影响，防止数据饱和。

但是，正如前述，上述的波束形成算法仅能对于预先设置的某一个方向的声音进行保留，对于其他方向的声音则会全部削减。例如，返回图1，如果设定的保留方向是90°，那么这种算法对于90°方向的声音将几乎全部保留，但是对于0°方向的信号几乎全部消除了，并且0°方向至90°方向之间的声音也会视角度不同而有所衰减。对于诸如在助听器上要通过两个或多个麦克风来模拟人耳的收声效果之类的应用场景，这种仅定向保留的信号处理方式可能是不理想的。在实际生活中，人耳的耳廓构造有辅助收声的效果，使人对于前方的收声比后方收声更好，且对于不同频率的声音有不同的效果。因此，如果在助听器上实现模拟人耳耳廓的效果，需要一种可以对不同方向的声音进行定制化调节的波束形成方法。此外更期待地，该方法也可以对于不同频率的声音进行针对性地调节。

本申请中提出了一种可以在低功耗的情况下控制衰减程度和/或控制不同频率信号的衰减程度的算法，以使得基于该算法的应用更符合人耳的听觉感受。

图3示出了根据本申请的一个实施例的波束形成算法的示意图。区别于以上关于图1和图2所描述的方案，根据本申请一些示例的波束形成算法中关于LMS滤波器303的迭代系数的配置方案将有所变化：上式(1)中将系数μ设为定值，而根据本申请一些示例的波束形成算法中将系数μ设置为可随时间变化的函数μ(t)，并且在一些示例中还可以针对不同的频率(或频段)设置不同的函数μ₁(t)、μ₂(t)、……关于该系数的设置，将在下文中详细说明。

如图3所示，相比于图2所示的方案，图3中增加了一个延迟单元305。延迟单元305可以将一系列系数U延迟一段时间(在本申请的上下文中称为更新间隔，记为T)，再将其用于计算针对LMS滤波器303的衰减函数μ(t)，从而实现对LMS滤波器303的参数更新。如在下文将描述的，该系数U可以是衰减函数μ(t)在第一个更新间隔内的取值，并且延迟单元305可以针对该部分系数U多次延迟并输出。该部分系数U在本申请的上下文中也被称为削减系数U。

根据本申请的一些示例，每经过一段更新间隔，波束形成的削减系数U就会被重新迭代以用于形成随时间变化的衰减函数μ(t)。以此方式，可以控制声音信号衰减的强度，从而防止对于非目标方向上的声音的过度抑制。图5示出了根据本申请的一个实施例的波束形成算法的示意图。如图5所示，曲线A、B和C分别表示在时间段#1、#2和#3中更新的削减系数U。图5中示出的曲线A、B和C具有相同的形态，这说明削减系数U在时间段#1、#2和#3中是相同的。具体而言，示出的曲线A所代表的削减系数U是衰减函数μ(t)的起始部分，并且可以通过诸如图3中所示的延迟单元305对曲线A以更新间隔T为周期不断更新复制，得到如图所示的曲线B、C以及后续的各条曲线(未示出)。这个更新复制的过程相当于对曲线A进行了多次延迟并输出。

另一方面，为了保持音频衰减函数μ(t)的连续，更新的该部分削减系数U不会马上被应用，其会经过一个更新间隔T的延迟之后才被逐渐应用到衰减函数μ(t)中。如图5所示，上一个更新复制的衰减系数U会被应用于下一个更新间隔段内。具体而言，在时间段#1、#2和#3中生成更新的曲线A、B和C将分别应用于时间段#2、#3和#4，以形成对应的曲线A’、B’和C’。曲线A’、B’和C’将作为衰减函数μ(t)的相应部分。

衰减函数μ(t)在当前更新间隔内的各点的取值可以是基于衰减系数U中相应的一点的取值进行更新的，例如，可以对衰减系数U中相应的一点的取值赋予一个介于0到1之间的权重。如此，在当前更新间隔内的更新的各点取值将被限制在一个可控范围内。需要说明的是，在本申请的上下文中，当前更新间隔内的各点与其处于衰减系数U中相应的一点是按时间顺序一一对应而指定的。在一些示例中，被赋予的权重在当前更新间隔内可以是关于时间的线性函数。在其他一些示例中，被赋予的权重在当前更新间隔内也可以是关于时间的非线性函数。

如上文所述，在一些示例中，衰减函数μ(t)中被赋予的权重可以为关于时间的线性函数，也可以为关于时间的非线性函数。例如，在权重为关于时间的线性函数(线性递增函数)的情况下，关于时间的衰减函数μ(t)可以用等式(3)表示为：

其中，N表示离当前时间点最近的一次更新的次数。例如，在时间段#3(2T到3T)内，衰减函数μ(t)可以用等式(4)表示为：

从上式(3)和(4)可知，将权重设置为关于时间的线性递增函数可以在一定程度上抵消μ(t-N*T)的“过收敛”特性，从而提供了一种补偿机制。

在一些示例中，衰减函数μ(t)中被赋予的权重可以为关于时间的非线性函数。例如，关于时间的衰减函数μ(t)可以表示为：

其中，N表示离当前时间点最近的一次更新的次数。

以上关于衰减函数μ(t)的数学描述将有助于理解衰减函数μ(t)的产生机制，但是衰减函数μ(t)在现实世界的产生方法仍然可以借助于图3中示出的延迟单元305。由上式(4)可知，μ(t)在(2T，3T]这一范围内的取值与μ(t)在(0，T]的取值和μ(t)在上个更新间隔的末尾的取值μ(2T)相关。因而μ(t)在(2T，3T]这一范围内的取值(或者说，曲线B’的形态)是与μ(t)在(0，T]的取值(或者说，曲线A的形态)相关的。由于图5中的曲线A、B和C是分别在时间段#1、#2和#3内更新的，因而曲线B的形态是与曲线A的形态是一致的，换言之，曲线B’的形态是与曲线B的形态相关的。曲线B是曲线A 在时间段2#内的更新复制，因而在时间段2T～3T内可以利用更新的系数实现了针对LMS滤波器303的调节。上述在更新间隔T内对曲线的持续复制更新将导致衰减函数μ(t)按更新间隔T产生并更新，从而避免滤波器的过收敛造成对于非目标方向上的声音的过度抑制。另一方面，由于μ(t)在(2T，3T]这一范围内的取值与μ(t)在上个更新间隔的末尾的取值μ(2T)相关，因而μ(t)在时刻2T前后不会出现剧烈跳变。μ(t)的平滑可以使得诸如助听器的佩戴者免于音量非预期起伏带来的困扰。

上文介绍了曲线B和C是对曲线A的复制，因而在每个预定更新间隔起始点处，衰减系数可以具有相同的值(曲线B和C的起点值)。在其他一些示例中，曲线B和C也可以针对曲线A作微调，此时在每个预定更新间隔起始点处，衰减系数可以具有不同的值(曲线B和C的起点值)。

此外，由于人耳耳廓等因素导致人耳对不同方向上的不同频率的声音响应不一样，因而也期待波束形成算法能够对不同频率的声音进行不同的响应。在本申请的一些示例中，通过对不同频率的声音信号设定不同的更新间隔，可以实现前述的响应调整。例如，可以通过分别设定低频和高频声音的更新间隔，来分别控制低频和高频声音的衰减程度，从而可以模拟人耳耳廓的频率响应。

图6示出了根据本申请的一个实施例的波束形成算法的示意图。如图6所示，可以为低频声音(例如，频率小于4000Hz)配置更新间隔T₁＝5T₀，而为高频声音(例如，频率大于等于4000Hz)配置更新间隔T₂＝T₀。其中，低频声音的更新间隔T₁大于高频声音的更新间隔T₂，以使得衰减函数μ(t)体现为对低频声音更强的抑制。之所以这样处理，是因为低频声音相对于高频声音具有更好的衍射能力，而目标方向之外的声源中发出的低频声音相比高频声音更易于传播到麦克风处。此外，这种配置方式也能更好地抑制非目标方向上的低频噪音。

在其他示例中，区分低频声音和高频声音的阈值还可以为不同于4000Hz的其他频率，或者还可以根据例如不同的助听器佩戴者配置定制化的阈值，以此可以更好地适配佩戴者的生理特征。这些定制化阈值可以通过例如实际测试来确定，或者也可以通过统计数据来确定。在其他示例中，还可以通过其他方案来区分低频和高频声音，并且区分的方案也不限于将可闻频率划分为两个区间。相应地，衰减函数的数量也不限为2。例如，可以以阈值2000Hz和6000Hz将音频划分为低频声音(例如，频率小于2000Hz)、中频声音(例如，介于2000Hz与6000Hz之间)和高频声音(例如，频率大于等于6000Hz)这三个区间。并且可以各个区间的音频配置不同的更新区间。例如，为低频声音配置更新间隔T₃＝5T₀，为中频声音配置更新间隔T₄＝3T₀，以及为高频声音配置更新间隔T₅＝T₀。

在本申请的一些示例中，助听器设备适于佩戴于人耳廓内，例如，助听器中一个麦克风可以被定向为朝向耳廓，而另一个麦克风可以被定向为远离耳廓。

图4示出了根据本申请的一个实施例的音频增强方法40，音频增强方法40包括图示的步骤S402、S404、S406和S408。应当指出，尽管图4中以示意的顺序示出了一种可行的顺序，但是步骤S402、S404、S406和S408的执行不限于此，还可以以其他可行的顺序执行步骤S402、S404、S406和S408。下面将重点介绍图4中音频增强方法40的步骤S402、S404、S406和S408的工作原理，上文中连同其他附图描述的对应示例一并引用于此，限于篇幅在此不再赘述。

如图4所示，音频增强方法40在步骤S402中生成音频采集信号。在一些示例中，如上文所描述的，诸如声源101发出的声音可以为诸如助听器的麦克风102-1和麦克风102-2所拾取。麦克风102-1和麦克风102-2可以设置在助听器的佩戴者103的左右两侧，二者之间的距离可以为定值d。例如，距离d可以取决于佩戴者103的两耳间距离。佩戴者103以图示的角度0°面向图1中的上方。声源101位于佩戴者103左前方，与佩戴者103的视野中线成角度θ。由于声源101与佩戴者103(及其两耳)的距离远超过两耳之间的距离，因而可以认为声源101相对于麦克风102-1和麦克风102-2而言都成图示的角度θ。由几何关系可知，假设声音在空气中传播的速度为v，麦克风102-1接收到的信号为y₁(t)，那么麦克风102-2接收到的信号y₂(t)＝y₁(t-τ)，其中τ＝(d*sin(θ))/v。

分别为麦克风102-1和麦克风102-2接收到的信号进行短时傅里叶变换，设y₁(t)的变换结果为Y₁(k，l)，y₂(t)的变换结果为Y₂(k，l)，其中k表示频率窗口(frequency bin)，l表示帧指数。生成的音频采集信号Y₁(k，l)和Y₂(k，l)将满足如下关系：Y₂(k，l)＝Y₁(k，l)e^-jωτ。

音频增强方法40在步骤S404中对音频采集信号进行延迟求和处理。转至图3，如上文所描述的，延迟波束形成器201可以接收来自麦克风102-1和麦克风102-2的信号并进行处理。在一些方案中，经延迟波束形成器201处理得到的信号Y_DSB例如可以满足

音频增强方法40在步骤S406中对音频采集信号进行阻塞矩阵处理。继续参考图3，如上文所描述的，阻塞矩阵202可以接收来自麦克风102-1和麦克风102-2的信号并进行处理。在一些方案中，经阻塞矩阵202处理得到的信号Y_BM例如可以满足Y_BM＝Y₁(k，l)-Y₂(k，l)e^jωτ。

音频增强方法40在步骤S408中对阻塞矩阵信号Y_BM(k，l)进行滤波处理。继续参考图3，如上文所描述的，参数可调的LMS滤波器303将对Y_BM作进一步处理，并将处理后的结果发送到求和单元204，从求和单元204输出的信号Y_GSC(k，l)满足其中W_ANC(k，l)是LMS滤波器303的迭代系数，^*表示共轭。

进一步地，W_ANC(k，l)满足下面的等式(5)和(6)定义的关系：

P_est(k，l)＝αP_est(k，l-1)+(1-α)(|Y_BM(k，l)|²+|Y_GSC(k，l)|²) (6)

其中，衰减函数μ(t)满足如等式(3)所定义的关系。如上文所描述的，延迟单元305实现了使得μ(t)按预定更新间隔T更新，在此不再赘述。

图7、图8和图9分别示出了在图1所示的90°、0°和-90°这三个方向上来测试根据本申请的一些示例的波束形成算法的效果。从图中可知，根据本申请的一些示例的波束形成算法可以根据麦克风阵列中的麦克风1和麦克风2的频率响应曲线得到如图所示的波束形成的频率响应曲线，并且得到的频率响应曲线与真实人耳的频率响应曲线较为吻合。从仿真的结果可以看出，波束形成算法得到的频率响应曲线没有对特定方向过抑制，因而根据本申请的一些示例的波束形成算法对需要模拟人耳响应特性的应用有着较好的适配性。根据本申请的一些示例的波束形成算法在对噪声起到良好的抑制效果的基础上，还兼顾了人耳响应特性，因而尤其适应于诸如助听器等要求对物理世界如实反映的应用场景。

本申请的另一方面还提出了一种音频增强装置，所述装置包括非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行如上文所述的任意一种音频增强方法。在一些示例中，这种音频增强装置可以为助听器设备。

本申请的另一方面还提出了一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行如上文所述的任意一种音频增强方法。

本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当注意，尽管在上文详细描述中提及了音频增强方法、装置和存储介质的若干步骤或模块，但是这种划分仅仅是示例性的而非强制性的。实际上，根据本申请的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本技术领域的一般技术人员可以通过研究说明书、公开的内容及附图和所附的权利要求书，理解和实施对披露的实施方式的其他改变。在权利要求中，措词“包括”不排除其他的元素和步骤，并且措辞“一”、“一个”不排除复数。在本申请的实际应用中，一个零件可能执行权利要求中所引用的多个技术特征的功能。权利要求中的任何附图标记不应理解为对范围的限制。

Claims

一种音频增强方法，其特征在于，所述方法包括：

由麦克风阵列生成一组音频采集信号，其中该组音频采集信号中的每个音频采集信号是由所述麦克风阵列中的一个麦克风生成的，并且所述麦克风阵列中的每个麦克风相互间隔开；

对该组音频采集信号进行延迟求和处理，以生成延迟求和信号Y_DSB(k，l)，其中k表示频率窗口，而l表示帧指数；

对该组音频采集信号进行阻塞矩阵处理，以生成阻塞矩阵信号Y_BM(k，l)；

利用自适应滤波矩阵W_ANC对所述阻塞矩阵信号Y_BM(k，l)进行滤波处理，并将经滤波的阻塞矩阵信号从所述延迟求和信号Y_DSB(k，l)中移除，以得到经增强的音频输出信号Y_OUT(k，l)；

其中，所述自适应滤波矩阵W_ANC是基于至少一个衰减函数μ(t)，随所述音频输出信号Y_OUT(k，l)和所述阻塞矩阵信号Y_BM(k，l)变化的权重系数矩阵，并且所述至少一个衰减函数μ(t)中的每一个以对应的预定更新间隔T更新。
根据权利要求1所述的方法，其特征在于，所述麦克风阵列包括位于同一音频处理装置上的至少两个麦克风。
根据权利要求2所述的方法，其特征在于，所述音频处理装置适于佩戴于人耳廓内。
根据权利要求3所述的方法，其特征在于，所述至少两个麦克风中的一个被定向为朝向耳廓，而所述至少两个麦克风中的另一个被定向为远离耳廓。
根据权利要求1所述的方法，其特征在于，所述音频输出信号由下述等式确定：

并且，所述自适应滤波矩阵W_ANC由下述等式确定：

其中，P_est(k,l)由下述等式确定：

其中，α是遗忘因子，M为麦克风阵列中麦克风的数量。
根据权利要求1所述的方法，其特征在于，所述至少一个衰减函数包括第一衰减函数和第二衰减函数，所述第一衰减函数以第一预定更新间隔更新，所述第二衰减函数以第二预定更新间隔更新；其中，所述第一衰减函数对应于大于或者等于预定频率阈值的高频信号；而所述第二衰减函数对应于小于预定频率阈值的低频信号，并且所述第一预定更新间隔短于所述第二预定更新间隔。
根据权利要求1所述的方法，其特征在于，所述衰减函数μ(t)中的每一个在当前更新间隔内基于其于第一个更新间隔内取值进行更新。
根据权利要求7所述的方法，其特征在于，所述衰减函数μ(t)中的每一个在所述当前更新间隔内的各点是基于其于第一个更新间隔内相应的一点的取值赋予0～1之间的变化权重而进行更新的。
根据权利要求8所述的方法，其特征在于，所述权重在所述当前更新间隔内是关于时间的线性函数。
根据权利要求9所述的方法，其特征在于，所述权重在所述当前更新间隔内是关于时间的线性递增函数。
根据权利要求8所述的方法，其特征在于，所述权重在所述当前更新间隔内是关于时间的非线性函数。
根据权利要求9或10所述的方法，其特征在于，所述衰减函数μ(t)中的每一个在所述当前更新间隔内还基于其于上一个更新间隔末的取值进行更新。
根据权利要求12所述的方法，其特征在于，所述衰减函数μ(t)中的每一个在当前更新间隔(NT，(N+1)T]内满足如下等式：

其中N取正整数。
一种音频增强装置，其特征在于，所述装置包括非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行下述步骤：

由麦克风阵列生成一组音频采集信号，其中该组音频采集信号中的每个音频采集信号是由所述麦克风阵列中的一个麦克风生成的，并且所述麦克风阵列中的每个麦克风相互间隔开；

对该组音频采集信号进行延迟求和处理，以生成延迟求和信号Y_DSB(k，l)，其中k表示频率窗口，而l表示帧指数；

对该组音频采集信号进行阻塞矩阵处理，以生成阻塞矩阵信号Y_BM(k，l)；

利用自适应滤波矩阵W_ANC对所述阻塞矩阵信号Y_BM(k，l)进行滤波处理，并将经滤波的阻塞矩阵信号从所述延迟求和信号Y_DSB(k，l)中移除，以得到经增强的音频输出信号Y_OUT(k，l)；

其中，所述自适应滤波矩阵W_ANC是基于至少一个衰减函数μ(t)，随所述音频输出信号Y_OUT(k，l)和所述阻塞矩阵信号Y_BM(k，l)变化的权重系数矩阵，并且所述至少一个衰减函数μ(t)中的每一个以对应的预定更新间隔T更新。
根据权利要求14所述的装置，其特征在于，所述装置为助听器。
一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行一种音频增强方法，所述方法包括下述步骤：

由麦克风阵列生成一组音频采集信号，其中该组音频采集信号中的每个音频采集信号是由所述麦克风阵列中的一个麦克风生成的，并且所述麦克风阵列中的每个麦克风相互间隔开；

对该组音频采集信号进行延迟求和处理，以生成延迟求和信号Y_DSB(k，l)，其中k表示频率窗口，而l表示帧指数；

对该组音频采集信号进行阻塞矩阵处理，以生成阻塞矩阵信号Y_BM(k，l)；

利用自适应滤波矩阵W_ANC对所述阻塞矩阵信号Y_BM(k，l)进行滤波处理，并将经滤波的阻塞矩阵信号从所述延迟求和信号Y_DSB(k，l)中移除，以得到经增强的音频输出信号Y_OUT(k，l)；

其中，所述自适应滤波矩阵W_ANC是基于至少一个衰减函数μ(t)，随所述音频输出信号Y_OUT(k，l)和所述阻塞矩阵信号Y_BM(k，l)变化的权重系数矩阵，并且所述至少一个衰减函数μ(t)中的每一个以对应的预定更新间隔T更新。