CN109859769A

CN109859769A - 一种掩码估计方法及装置

Info

Publication number: CN109859769A
Application number: CN201910092059.0A
Authority: CN
Inventors: 张健; 曹圣红; 王海坤
Original assignee: iFlytek Co Ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co., Ltd.
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-07
Anticipated expiration: 2039-01-30
Also published as: CN109859769B

Abstract

本申请公开了一种掩码估计方法及装置，该方法包括：生成能量表征信息，该能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息，该N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束；然后，根据生成的能量表征信息估计得到N个掩码值，该N个掩码值用于表征方向性信号分别来自N个波束所指向的空间区域时的概率。可见，本申请在进行掩码估计时，考虑了能量差异信息，该能量差异信息不受环境噪声的影响，可以保证掩码估计结果的有效性。

Description

一种掩码估计方法及装置

技术领域

本申请涉及信号处理技术领域，尤其涉及一种掩码估计方法及装置。

背景技术

实际中，远距离拾音的应用需求非常广泛。例如，学生上课时想把老师们的授课内容录下来，供以后重听、复习；在一些会议场合，秘书希望能够录下领导们的发言，甚至将录音用语音识别软件直接转写为文字，便于整理会议纪要。远距离拾音相比近距离拾音的优势在于：

1)灵活便利：不需要在每个发言人面前都摆放一个拾音设备，布置更加便利，避免了更换发言人时还需要移动拾音设备的麻烦。而且，有时候用户自带的拾音设备也不方便放置在发言人面前。

2)隐蔽：远距离拾音技术降低了拾音设备的存在感，提高了讲话者的舒适度，也使拾音场所的室内布置更加简洁。甚至有些应用场景需要秘密拾音，对远距离拾音的需求更加强烈。

虽然远距离拾音在应用上更有优势，但当前的远距离拾音技术还无法达到近距离拾音的效果。其原因在于输入信号的信噪比极低，即，由于拾音设备距离说话人较远，意味着录到的说话人语音的音量较低，尽管拾音场所的环境噪声本来不大，但实际录到的信号的信噪比也很低，在这种情况下，环境噪声的影响非常显著，使得现有的掩码估计方法会失效，从而导致语音无法增强，进而无法保证远距离的拾音效果。

发明内容

本申请实施例的主要目的在于提供一种掩码估计方法及装置，能够保证掩码估计结果的有效性。

本申请实施例提供了一种掩码估计方法的流程示意图，包括：

生成能量表征信息，所述能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息，所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2；

根据所述能量表征信息估计得到N个掩码值，所述N个掩码值用于表征所述方向性信号分别来自所述N个波束所指向的空间区域时的概率。

可选的，所述生成能量表征信息，包括：

生成所述N个波束中的每一波束对应的夹角差异信息，作为能量表征信息；

其中，所述夹角差异信息包括：对应波束与所述N个波束中的每一波束之间的夹角。

可选的，所述生成能量表征信息，包括：

生成所述N个波束中的每一波束对应的延迟差异信息，作为能量表征信息；

其中，所述延迟差异信息包括：当所述方向性信号位于对应波束指向的空间区域时，所述方向性信号从所述麦克风阵列中的每一麦克风到所述麦克风阵列的中心位置之间的时间延迟。

可选的，所述根据所述能量表征信息估计得到N个掩码值，包括：

根据所述能量表征信息，为所述N个波束分别构建一个掩码计算模型；

利用构建的N个掩码计算模型，估计得到N个掩码值。

可选的，所述利用构建的N个掩码计算模型，估计得到N个掩码值，包括：

生成所述方向性信号在所述N个波束上输出的能量值；

根据生成的N个能量值以及构建的N个掩码计算模型，估计得到N个掩码估计值。

可选的，所述方向性信号包括方向性噪声，所述方法还包括：

对于预设时长内的各个单位时间，确定所述麦克风阵列在各个时间单位的接收信号在N个波束的输出能量值；

根据各个时间单位的接收信号在N个波束的输出能量值，确定所述方向性噪声所属的空间区域。

可选的，所述根据各个时间单位的接收信号在N个波束的输出能量值，确定所述方向性噪声所属的空间区域，包括：

对于所述N个波束中的每一波束，选择各个时间单位的接收信号在该波束的输出能量值中的最小值，得到N个最小值；

将所述N个最小值由大到小进行排序，选择排序在前的K个最小值对应的K个波束指向的空间区域，作为方向性噪声所属的空间区域，N>K≥1。

可选的，所述方向性信号还包括方向性语音，则所述方法还包括：

从N-K个最小值中选择一个最大值，所述N-K个最小值为从所述N个最小值中去除所述K个最小值后的各个最小值；

将所述最大值对应的波束所指向的空间区域，作为所述方向性语音所属的空间区域。

本申请实施例还提供了一种掩码估计装置，包括：

信息生成单元，用于生成能量表征信息，所述能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息，所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2；

掩码估计单元，用于根据所述能量表征信息估计得到N个掩码值，所述N个掩码值用于表征所述方向性信号分别来自所述N个波束所指向的空间区域时的概率。

可选的，所述信息生成单元，具体用于生成所述N个波束中的每一波束对应的夹角差异信息，作为能量表征信息；其中，所述夹角差异信息包括：对应波束与所述N个波束中的每一波束之间的夹角；

或者，所述信息生成单元，具体用于生成所述N个波束中的每一波束对应的延迟差异信息，作为能量表征信息；其中，所述延迟差异信息包括：当所述方向性信号位于对应波束指向的空间区域时，所述方向性信号从所述麦克风阵列中的每一麦克风到所述麦克风阵列的中心位置之间的时间延迟。

可选的，所述掩码估计单元包括：

模型构建子单元，用于根据所述能量表征信息，为所述N个波束分别构建一个掩码计算模型；

掩码估计子单元，用于利用构建的N个掩码计算模型，估计得到N个掩码值。

可选的，所述掩码估计子单元包括：

能量值生成子单元，用于生成所述方向性信号在所述N个波束上输出的能量值；

掩码值估计子单元，用于根据生成的N个能量值以及构建的N个掩码计算模型，估计得到N个掩码估计值。

可选的，所述方向性信号包括方向性噪声，所述装置还包括：

波束能量确定单元，用于对于预设时长内的各个单位时间，确定所述麦克风阵列在各个时间单位的接收信号在N个波束的输出能量值；

声源区域确定单元，用于根据各个时间单位的接收信号在N个波束的输出能量值，确定所述方向性噪声所属的空间区域。

可选的，所述声源区域确定单元包括：

最小值选择子单元，用于对于所述N个波束中的每一波束，选择各个时间单位的接收信号在该波束的输出能量值中的最小值，得到N个最小值；

噪声区域确定子单元，用于将所述N个最小值由大到小进行排序，选择排序在前的K个最小值对应的K个波束指向的空间区域，作为方向性噪声所属的空间区域，N>K≥1。

可选的，所述方向性信号还包括方向性语音，则所述声源区域确定单元还包括：

最大值选择子单元，用于从N-K个最小值中选择一个最大值，所述N-K个最小值为从所述N个最小值中去除所述K个最小值后的各个最小值；

语音区域确定子单元，用于将所述最大值对应的波束所指向的空间区域，作为所述方向性语音所属的空间区域。

本申请实施例还提供了一种掩码估计设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述掩码估计方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述掩码估计方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述掩码估计方法中的任意一种实现方式。

综上，本实施例提供的掩码估计方法及装置，首先生成能量表征信息，该能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息，该N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束；然后，根据生成的能量表征信息估计得到N个掩码值，该N个掩码值用于表征方向性信号分别来自N个波束所指向的空间区域时的概率。可见，本实施例在进行掩码估计时，考虑了能量差异信息，该能量差异信息不受环境噪声的影响，因此，相比对现有的掩码估计方法，可以保证掩码估计结果的有效性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的远距离录音结果示意图；

图2为本申请实施例提供的掩码估计方法的流程示意图；

图3为本申请实施例提供的空间划分示意图；

图4为本申请实施例提供的一种具体的掩码估计方法的流程示意图；

图5为本申请实施例提供的方向性噪声所在区域的搜索方法的流程示意图；

图6为本申请实施例提供的局部跟踪示意图；

图7为本申请实施例提供的掩码估计装置的组成示意图。

具体实施方式

目前，在基于麦克风阵列的语音增强技术中，利用空间相关矩阵(SpatialCorrelation Matrix)估计频域掩码(Mask)的方法取得了较好的语音增强效果。其基本原理如下：

假设麦克风设备的麦克风阵列由M个麦克风组成，对第k(k＝1，2，…，M)个麦克风输入信号(即第k个麦克风接收的信号)进行分帧、加窗和短时傅里叶变换处理后得到频域信号，可以用x_k(f，l)表示，其中，f表示频率，l表示输入信号的帧序号。由于对每帧信号的处理方式相同，为了简洁，以下省略帧号l。则，将M个麦克风接收的频点为f的信号拼起来组成一个向量，表示为：

x(f)＝[x₁(f)，x₂(f)，…，x_M(f)]^T (1)

其中，上标T表示转置。

空间相关矩阵定义为：

R(f)＝E[x(f)x^H(f)] (2)

其中，上标H表示共轭转置，E表示求期望。

可见，每个频点f都会对应得到了一个M×M大小的空间相关矩阵R(f)。

假设语音与噪声不相关，则向量x(f)可以表示为：

x(f)＝α(f)s(f)+n(f) (3)

其中，s表示目标语音向量，n表示噪声向量，a表示语音从说话人到麦克风的传递函数。

则，空间相关矩阵R(f)可以分解为：

其中，A(f)＝a(f)a^H(f)、N(f)＝E[n(f)n^H(f)]。

如果将空间预先进行划分，则在每个划分的空间区域内，传递函数a可以近似估计，进而估计每个区域的目标语音空间相关矩阵A(f)。再假设噪声相对语音较小，将其忽略可近似得到目标语音的功率

其中，tr表示求矩阵的迹。假设有N个区域，则有N个A(f)，即可以得到N个组成的向量，表示为：

只有当估计的目标语音空间相关矩阵A(f)和实际的目标语音空间相关矩阵最匹配时，才会取得最大值。然而，虽然估计得到的并不准确，但可以表征不同区域的目标语音空间相关矩阵的相对大小，进而估计目标声音来自不同区域方向的概率，即，估计得到所需的掩码向量p(f)：

其中，sum表示求和函数。

然后，可以通过掩码向量估计目标语音所在的空间区域，之后就可以利用很多传统的自适应波束形成技术来实现噪声的抑制了。例如，在经典的广义旁瓣对消(Generalized Sidelobe Canceler,GSC)算法中，最关键部分为判断语音存在时更新阻塞矩阵系数，在语音不存在时更新自适应噪声消除模块系数，但语音是否存在是未知的、且难以估计，而掩码向量表征了目标语音在各个空间区域出现的概率，可以非常可靠的控制这两个模块的系数更新。

在上述方案中，其局限性在于只适用于噪声相对比较小的场景，例如在近距离录音应用中能够达到很好的效果。但当拾音距离较远、甚至目标语音是一些悄悄话的时候，目标语音的信噪比会比较低，如图1所示的远距离录音结果示意图，图1上部分为波形图、下部分为频谱图，不管从波形还是频谱上，都可以看到语音几乎被噪声完全淹没了。由于上述方案忽略了噪声的影响，而当拾音距离较远、甚至目标语音是一些悄悄话的时候，噪声的影响非常显著，采用上述掩码估计方法会失效，从而导致目标语音无法增强，这是因为，上述方案在估计A(f)时，用到了信号的相位信息，即用到了目标语音与麦克风之间的距离差异，而信号的相位信息比较脆弱，容易遭到噪声的破坏。

为解决上述缺陷，本申请实施例提供了一种掩码估计方法，其采用了更加鲁棒的方法来估计目标语音的掩码，利用该掩码，可以在信噪比极低的条件下也能有效的增强目标语音。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图2，为本实施例提供的掩码估计方法的流程示意图，该方法包括以下步骤：

S201：生成能量表征信息，所述能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息，所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2。

在本实施例中，对于麦克风设备的麦克风阵列，该麦克风阵列由M个麦克风组成，M≥2，该麦克风阵列可以是任何拓扑结构的阵列，比如线阵、环形阵、平面阵、球面阵等。可以基于麦克风阵列进行空间区域的划分，现以平面阵为例进行说明，假设该平面阵的麦克风数目M＝8，以m₁至m₈表示，是由7个麦克风构成的圆环加上1个中心麦克风组成。

如图3所示的空间划分示意图，可以将360°空间等分为N个扇形区域(图中虚线)，比如N＝8，每个区域夹角为θ。需要说明的是，麦克风阵列中的麦克风个数M可以与扇形区域N的个数相同或不同。

接着，为每个区域设计一个指向为d_i的固定波束，该固定波束在第i个区域中时与该区域边界的夹角为θ/2，其中，i＝1,2,…,N。固定波束的作用在于能够增强其所在空间区域内的方向性信号(比如目标语音)，而抑制其他信号，固定波束形成算法可采用传统的线性约束最小方差算法。对于第i个固定波束，约束条件为中心方向d_i响应为1，边界方向d_i-θ/2和d_i+θ/2的响应大于1-δ，其中，δ为小于1的正实数。在采用固定波束形成算法时，可以得到麦克风阵列的第i个波束在频点f时的系数向量W_i(f)：

其中，分别对应于M个麦克风。

在进行阵列拾音处理时，可以将W_i(f)中的M个波束系数与M个麦克风的接收信号在频域相乘，从而得到第i个波束的输出能量，具体的阵列拾音，将在后续内容中介绍。

需要说明的是，对于频点为f的方向性信号，假如其来源于指向d_i对应的空间区域，则经过波束系数W_i(f)相乘后，指向d_i对应的波束系数相乘结果(即能量)会大于其它方向的波束系数相乘结果。而且，能量的大小与波束指向d_i的距离关系为：该方向性信号距离d_i所在的空间区域越近，指向d_i对应的能量越大，反之则越小。因此，对于一个频点为f的方向性信号，其在不同波束的输出能量的相对关系，能够表征该方向性所在的方位，基于此，可以以这个规律，为频点f下的每个波束方向分别估计一个掩码值，该掩码值用于表征该方向性信号来自对应波束所指向的空间区域时的概率，而为了估计每一波束对应的掩码值，需要生成能量表征信息，该能量表征信息表征了该方向性信号在N个波束上输出的能量差异信息。

在本实施例中，可以采用以下两种方式之一生成所述能量表征信息。

在所述能量表征信息的第一种生成方式中，可以生成N个波束中的每一波束对应的夹角差异信息，作为能量表征信息，其中，每一波束对应的夹角差异信息包括：对应波束与N个波束中的每一波束之间的夹角。

在本生成方式中，当有N个波束方向时，设波束方向d_i(i＝1,2,…,N)与包括其自身在内的N个波束方向之间的夹角为：

其中，表示波束方向d_i与波束方向d₁之间的夹角、表示波束方向d_i与波束方向d₂之间的夹角，……，表示波束方向d_i与波束方向d_N之间的夹角；特殊地，波束方向d_i与波束方向d_i之间的夹角为0°。

需要说明的是，对于除波束方向d_i以外的每一波束方向，该波束方向在顺时针方向上与波束方向d_i之间存在一个夹角、且在逆时针方向上与波束方向d_i之间存在一个夹角，在这两个夹角中，选择较小夹角作为该波束方向与波束方向d_i之间的夹角。

这样，公式(9)即为第i个波束对应的夹角差异信息，采用上述方式，可以得到N个波束分别对应的夹角差异信息，即，N个夹角向量。

在所述能量表征信息的第二种生成方式中，可以生成N个波束中的每一波束对应的频率差异信息，作为能量表征信息，其中，每一波束对应的频率差异信息包括：当方向性信号位于对应波束指向的空间区域时，该方向性信号从麦克风阵列中的每一麦克风到麦克风阵列的中心位置之间的时间延迟。

在本生成方式中，由于实际中不同频率信号在不同波束方向上的衰减情况不同，因此，在生成能量表征信息时，即，在生成频点为f的方向性信号在N个波束上输出的能量差异信息时，可以考虑频点f的大小。具体地，设麦克风阵列的中心为原点，则第i个波束(i＝1,2,…,N)的导向向量为：

其中，ω为频点f对应的角频率，ω＝2πf；表示方向性信号位于波束方向d_i时，该方向性信号从第1个麦克风到阵列原点的时间延迟，表示方向性信号位于波束方向d_i时，该方向性信号从第2个麦克风到阵列原点的时间延迟，……，表示方向性信号位于波束方向d_i时，该方向性信号从第M个麦克风到阵列原点的时间延迟。

这样，公式(10)即为第i个波束对应的延迟差异信息，采用上述方式，可以得到N个波束分别对应的延迟差异信息，即，N个延迟向量。

在本实施例中，可以将上述每一波束对应的夹角差异信息或延迟差异信息，作为本步骤中的能量表征信息。

S202：根据所述能量表征信息估计得到N个掩码值，所述N个掩码值用于表征所述方向性信号分别来自所述N个波束所指向的空间区域时的概率。

在本实施例中，当通过步骤S201生成了能量表征信息(即频点为f的方向性信号在N个波束上输出的能量差异信息)后，便可以根据该能量表征信息估计得到N个掩码值。

需要说明的是，在本实施例提供的掩码估计方法中，其优势在于利用了波束间输出的能量差异信息，而不是现有技术中脆弱的相位信息。在远距离拾音应用中，实际录制到的方向性信号(如语音)的信噪比非常低，这是因为每路麦克风输入信号含有大量的底噪，因此，采用现有技术已经很难估计准确的掩码了。但在本实施例中，由于大部分的噪声是非方向性的，经过固定波束形成处理后，每个波束叠加有几乎等量的噪声，即不会改变方向性信号(如语音)在波束间输出的能量对比关系，故而，采用本实施例生成的N个掩码值不会失效，比如，采用这些掩码值可以准确的判断方向性信号(如语音)的方位，从而有效增强方向性信号，进而保证远距离的拾音效果。

在本实施例的一种实现方式中，参见图4，本步骤S202可以包括步骤S401-S402：

S401：根据能量表征信息，为N个波束分别构建一个掩码计算模型。

在本实现方式中，可以根据能量表征信息，为频点f下的N个波束分别构建一个掩码计算模型，每一掩码计算模型用于计算其对应波束的掩码，该掩码表征了频点为f的方向性信号在对应波束所在空间区域内出现的概率。

具体地，可以采用下面两种建模方式之一，构建每一波束的掩码计算模型。

在第一种建模方式中，可以基于上述步骤S201中介绍的采用第一种生成方式生成的能量表征信息，即公式(9)，为第i个(i＝1,2,…,N)波束构建一个掩码计算模型。

对于公式(9)中涉及的N个夹角信息，可以利用每一夹角的余弦值表征该夹角对应的波束方向与波束方向d_i的相邻程度。但考虑到余弦值可以为负，为了方便计算，可以将公式(9)中的α_i归一化到0和1之间，为此，可以计算N个夹角中的每一夹角的余弦值，从而得到N个余弦值，然后计算第i(i＝1,2,…,N)个波束方向对应的临时变量c_i：

c_i＝cos(α_i)-min(cos(α_i)) (11)

其中，cos(α_i)表示由N个夹角的余弦值组成的向量；min表示求最小值函数，min(cos(α_i))为N个余弦值中的最小值；c_i表示由N个余弦值分别与该最小值的差值组合的向量，c_i中的每一差值均不小于0。

接下来，可以对c_i进行归一化处理，得到频点为f时波束方向d_i的掩码计算模型M_i(f)：

其中，sum(c_i)表示对c_i中的各个值求和。

这样，公式(12)即为第i个波束的掩码计算模型，采用上述方式，可以得到N个波束各自的掩码计算模型。

在第二种建模方式中，可以基于上述步骤S201中介绍的采用第二种生成方式生成的能量表征信息，即公式(10)，为第i个(i＝1,2,…,N)波束构建一个掩码计算模型。

对于公式(10)中涉及的M个元素信息，可以利用其计算第i个波束的响应B_i(f)，B_i(f)为一个M(这里M＝N)维的向量：

B_i(f)＝W_i(f).*p_i(f) (13)

其中，W_i(f)为公式(8)所示的第i个波束在频点f时的系数向量；.*表示向量点乘；p_i(f)为公式(10)所示的第i个波束在频点f时的导向向量。

然后，可以将B_i(f)进行归一化处理，得到第i个波束在频点f时的掩码计算模型M_i(f)：

其中，abs(B_i(f)表示对B_i(f)中的各个值求绝对值，sum表示对abs(B_i(f)中的各个绝对值求和。

这样，公式(14)即为第i个波束的掩码计算模型，采用上述方式，可以得到N个波束各自的掩码计算模型。

需要说明的是，对于每个频点f，有多少个波束就有多少个掩码计算模型，实际应用中，可以选择全部的掩码计算模型用于计算掩码、也可以选择其中的几个掩码计算模型用于计算掩码。

S402：利用构建的N个掩码计算模型，估计得到N个掩码值。

在本实现方式中，可以利用每一掩码计算模型，对应估计一个掩码值。

在一种具体实现方式中，本步骤A2可以包括：生成方向性信号在N个波束上输出的能量值；根据生成的N个能量值以及构建的N个掩码计算模型，估计得到N个掩码估计值。

具体来讲，可以先利用麦克风阵列的M个麦克风进行拾音，并对第m(m＝1，2，…，M)个麦克风拾取的输入信号(即第m个麦克风接收的信号)进行分帧、加窗和短时傅里叶变换处理后的频域信号，可以用X_m(f，l)表示，其中，f表示频率，l表示语音信号的帧序号。由于对每帧信号的处理方式相同，为了简洁，以下省略帧号l。

首先，将频点f的M路信号组合为一个向量：

X(f)＝[X₁(f)，X₂(f)，…，X_M(f)] (15)

将信号X(f)进行波束形成处理后，则第i个波束的输出为：

Y_i(f)＝sum(W_i(f).*X(f)) (16)

其中，W_i(f)为公式(8)所示的第i个波束在频点f时的系数向量。

该波束形成具有初步的噪声抑制效果，能够增强目标区域内的方向性信号，抑制其他非目标区域内的噪声和非方向性的房间底噪，但波束形成并不能确定方向性信号在哪个波束所在的空间区域内，为此，需要计算各个波束各自对应的掩码值。

为了计算掩码值，先将N个波束在频点f的能量组成一个向量Y(f)：

Y(f)＝[Y₁(f)，Y₂(f)，…，Y_N(f)] (17)

然后，计算波束输出向量Y(f)与第i个波束对应的掩码计算模型M_i(f)的点积之和：

q_i(f)＝sum(M_i(f).*abs(Y(f))) (18)

从公式(18)可以看出，第i个波束对应的掩码计算模型M_i(f)本质上是Y(f)的权重，即，距离第i个波束越近的波束，该波束的输出能量的权重值越大。

则，由于存在N个波束，可以采用公式(18)计算得到N个点积之和，这N个点积之和可以组成一个向量，该临时变量以q(f)表示：

q(f)＝[q₁(f)，q₂(f)，…，q_N(f)] (19)

然后，将q(f)进行归一化后可得N个波束对应的N个掩码值，可以采用以下两种归一化方式之一。

在第一种方式中，归一化后得到的N个波束对应的N个掩码值为：

其中，sum(q(f))表示对q(f)中的各个值求和。

在第二种方式中，归一化后得到的N个波束对应的N个掩码值为：

其中，max(q(f))表示q(f)中的最大值。

在本实施例中，当估计得到N个掩码值后，可以利用这些掩码值实现不同的应用，例如，判断方向性信号(如语音)所在的空间区域，或者，将掩码估计值用于控制自适应波束的更新步长参数，等等。

综上，在本实施例提供的掩码估计方法中，首先生成能量表征信息，该能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息，该N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束；然后，根据生成的能量表征信息估计得到N个掩码值，该N个掩码值用于表征方向性信号分别来自N个波束所指向的空间区域时的概率。可见，本实施例在进行掩码估计时，考虑了能量差异信息，该能量差异信息不受环境噪声的影响，因此，相比对现有的掩码估计方法，可以保证掩码估计结果的有效性。

第二实施例

需要说明的是，当利用第一实施例估计的掩码值判断方向性声源(即方向性信号)所在的空间区域时，这种方式对非方向性的房间底噪非常的鲁棒，能找出N个空间区域内的方向性声源，但并不能判断该方向性声源是目标说话人的声音、还是一些方向性噪声源，例如空调、风扇或者排气扇等发出的噪声。实际中，在利用麦克风阵列进行近距离拾音时，一般情况下，目标说话人的语音音量显著大于方向性噪声，这种情况下，可以根据不同区域内的波束输出能量的大小来判断目标语音所在的区域，但进行远距离拾音时，往往无法采用这种方式判断目标语音所在的波束区域，这是因为，方向性噪声所在区域的波束输出能量，很可能大于目标语音所在区域的波束输出能量，导致无法分辨哪个区域才是目标语音所在的区域。

可见，在利用麦克风阵列进行远距离拾音时，拾取的目标语音一般音量较小，容易受方向性噪声的影响，因此，需要先从N个区域内确定出方向性噪声所在的区域，从而去除方向性噪声的影响，进而确定目标语音所在的区域。

实际中，方向性噪声所在区域的特点是，该区域的波束输出能量会一直比较大，例如换气扇发出的持续性噪声，而目标语音所在区域的波束输出能量在目标说话人不说话的时候会小很多。基于此，可以统计一段时间内的各个波束输出能量的最小值，将这些最小值进行排序就可以估计这类稳态噪声源所在的区域位置。

参见图5，为本实施例提供的方向性噪声所在区域的搜索方法的流程示意图，该方法包括以下步骤：

S501：对于预设时长内的各个单位时间，确定麦克风阵列在各个时间单位的接收信号在N个波束的输出能量值。

在本实施例中，在预设时长T内，如T＝200帧，可以将每一帧定义为单位时间、或者将短于或长于每一帧的时间定义为单位时间。

对于麦克风阵列在每一单位时间的接收信号中，包括不同的频点信号，对于每一频点f，为了排除非方向性的房间底噪的干扰，首先计算频点f的波束输出向量Y(f)经过掩码相乘后的输出结果r(f)：

r(f)＝p(f).*abs(Y(f))＝[r₁(f)，r₂(f)，…，r_N(f)] (22)

其中，p(f)是公式(20)或(21)计算得到的N个掩码值组成的掩码向量；Y(f)是公式(17)所示的N个波束在频点f的输出能量组成一个向量；r(f)表示频点f的方向性信号在N个波束输出的能量大小。

对于预设时长内的各个单位时间，可以计算该单位时间内的接收信号在各个波束的输出能量大小，即，可以将该单位时间接收信号中的所有频点的对应于第i个波束的输出能量大小进行相加：

R_i＝sum(r_i(:)) (23)

从而得到一个N维的向量，用以表征该单位时间内的接收信号在N个波束的输出能量大小：

R＝[R₁,R₂,…，R_N] (24)

接下来，可以对R进行归一化处理：

其中，向量Z是一个N维的向量，表征了N个波束输出能量的相对大小。

这样，公式(24)中的N个值即为某时间单位的接收信号在N个波束的输出能量值，采用上述方式，可以得到预设时长内的T个时间单位的接收信号分别在N个波束的输出能量值。

S502：根据各个时间单位的接收信号在N个波束的输出能量值，确定方向性噪声所属的空间区域。

在本实施例中，当有T个时间单位时，则每一波束将对应T个能量值，可以通过比较这些能量值，确定方向性噪声所属的空间区域。

在本实施例的一种实现方式中，本步骤S502可以包括步骤B1-B2：

步骤B1：对于N个波束中的每一波束，选择各个时间单位的接收信号在该波束的输出能量值中的最小值，得到N个最小值。

在本实现方式中，当有T个时间单位时，则每一波束将对应T个能量值，可以从这T个能量值中选择一个最小值Z_min，这样，N个波束各自将对应一个最小值Z_min。

步骤B2：将N个最小值由大到小进行排序，选择排序在前的K个最小值对应的K个波束指向的空间区域，作为方向性噪声所属的空间区域，N>K≥1。

在本实施例中，可以从N个最小值中选择K个较大的最小值，并将这K个最小值的波束区域，作为方向性噪声所属的空间区域，比如K＝1。

需要说明的是，在T个时间单位内，如果有人在说话，由于说话人的语音通常是间断的，即有时说话有时不说话(比如断句的时候)，那么，当T的时间够长时，对于说话人所在区域的波束对应的最小值Z_min，在该最小值Z_min对应的时间单位内，说话人必然没有说话，即该最小值Z_min较小。然而，对于方向性噪声所在区域的波束对应的最小值Z_min，由于方向性噪声通常持续较大，故而，该最小值Z_min通常也比较大，因此，排序在前的K个值对应的波束区域即为方向性噪声源所在的区域。

在本实施例中，可以采用现有的局部最小值跟踪方法，对方向性噪声进行持续跟踪，如图6所示的局部跟踪示意图，可以以每一单位时间为变量，不断变换时间窗口T，以不断对方向性噪声进行跟踪，以此可以确定出方向性噪声是否消失，通常情况下，当方向性噪声消失时，上述N个最小值z_min的大小基本相同。

进一步地，在本实施例中，将上述说话人的语音定义为方向性语音，当确定了方向性噪声所属的空间区域后，当确定存在方向性噪声后，可以将方向性噪声对应的K个波束区域排除，在剩下的N-K个波束区域内确定方向性语音所属的空间区域，具体地，可以从N-K个最小值中选择一个最大值，该N-K个最小值为从上述N个最小值中去除上述K个最小值后的各个最小值，并将该最大值对应的波束所指向的空间区域，作为方向性语音所属的空间区域。

另外，当通过上述局部最小值跟踪方法，跟踪确定某段时间T内不存在方向性噪声时，在该段时间T对应的N最小值中，可以从中选择一个最大值，并将该最大值对应的波束所指向的空间区域，作为方向性语音所属的空间区域。

在本实施例中，当确定了方向性语音所属的空间区域后，可以将该空间区域的波束输出结果作为降噪后的方向性语音。需要说明的是，在根据估计的掩实现语音降噪时，本实施例不限制采用的降噪算法，比如广义旁瓣相消器(Generalized Sidelobe Canceller，GSC)算法。

需要说明的是，在进行远距离拾音时，由于远距离拾音得到的方向性语音的音量较小，容易被方向性噪声淹没，因此，对方向性语音进行降噪时，需要去除方向性噪声。本实施例还可以用于近距离拾音，在进行近距离拾音时，由于近距离拾音得到的方向性语音的音量较大，因此，对方向性语音进行降噪时，可以不必去除方向性噪声。

第三实施例

本实施例将对一种掩码估计装置进行介绍，相关内容请参见上述方法实施例。

参见图7，为本实施例提供的一种掩码估计装置的组成示意图，该装置700包括：

信息生成单元701，用于生成能量表征信息，所述能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息，所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2；

掩码估计单元702，用于根据所述能量表征信息估计得到N个掩码值，所述N个掩码值用于表征所述方向性信号分别来自所述N个波束所指向的空间区域时的概率。

在本实施例的一种实现方式中，所述信息生成单元701，具体用于生成所述N个波束中的每一波束对应的夹角差异信息，作为能量表征信息；其中，所述夹角差异信息包括：对应波束与所述N个波束中的每一波束之间的夹角；

或者，所述信息生成单元701，具体用于生成所述N个波束中的每一波束对应的延迟差异信息，作为能量表征信息；其中，所述延迟差异信息包括：当所述方向性信号位于对应波束指向的空间区域时，所述方向性信号从所述麦克风阵列中的每一麦克风到所述麦克风阵列的中心位置之间的时间延迟。

在本实施例的一种实现方式中，所述掩码估计单元702包括：

在本实施例的一种实现方式中，所述掩码估计子单元包括：

在本实施例的一种实现方式中，所述方向性信号包括方向性噪声，所述装置700还包括：

在本实施例的一种实现方式中，所述声源区域确定单元包括：

在本实施例的一种实现方式中，所述方向性信号还包括方向性语音，则所述声源区域确定单元还包括：

进一步地，本申请实施例还提供了一种掩码估计设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述掩码估计方法中的任意一种实现方式。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述掩码估计方法中的任意一种实现方式。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种掩码估计方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述生成能量表征信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述生成能量表征信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述能量表征信息估计得到N个掩码值，包括：

利用构建的N个掩码计算模型，估计得到N个掩码值。

5.根据权利要求4所述的方法，其特征在于，所述利用构建的N个掩码计算模型，估计得到N个掩码值，包括：

生成所述方向性信号在所述N个波束上输出的能量值；

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方向性信号包括方向性噪声，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据各个时间单位的接收信号在N个波束的输出能量值，确定所述方向性噪声所属的空间区域，包括：

8.根据权利要求7所述的方法，其特征在于，所述方向性信号还包括方向性语音，则所述方法还包括：

9.一种掩码估计装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述信息生成单元，具体用于生成所述N个波束中的每一波束对应的夹角差异信息，作为能量表征信息；其中，所述夹角差异信息包括：对应波束与所述N个波束中的每一波束之间的夹角；

11.根据权利要求9所述的装置，其特征在于，所述掩码估计单元包括：

12.根据权利要求9至11任一项所述的装置，其特征在于，所述方向性信号包括方向性噪声，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述声源区域确定单元包括：

14.根据权利要求13所述的装置，其特征在于，所述方向性信号还包括方向性语音，则所述声源区域确定单元还包括：

15.一种掩码估计设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。