CN117121104A

CN117121104A - 估计用于处理所获取的声音数据的优化掩模

Info

Publication number: CN117121104A
Application number: CN202280026623.9A
Authority: CN
Inventors: A·格林; H·托马兹-阿莫林
Original assignee: Ao Lanzhi
Current assignee: Ao Lanzhi
Priority date: 2021-04-01
Filing date: 2022-03-18
Publication date: 2023-11-24
Also published as: EP4315328A1; WO2022207994A1; FR3121542A1

Abstract

本说明书涉及处理由多个麦克风(MIC)获取的声音数据，其中：‑基于由多个麦克风获取的信号，确定源自至少一个感兴趣声源的声音的到达方向(S4)，‑根据声音的到达方向对声音数据应用空间滤波(S5)，‑在时频域中估计一方面的经滤波的声音数据与另一方面的所获取的声音数据之间的表示信号幅度的量的比率(S6)，‑根据所估计的比率，产生要在时频域中应用于所获取的声音数据的权重掩模(S7)，以便构造表示源自感兴趣源的声音但相对于环境噪声增强的声学信号(S10；S9‑S10)。

Description

估计用于处理所获取的声音数据的优化掩模

技术领域

本说明书涉及声音数据的处理，特别是在远场声音捕获的上下文中。

例如，当说话人远离声音捕获设备时，发生远场声音捕获。然而，它提供了用户与用户当前正在使用的服务“免提(hands-free)”交互的真正的人体工程学舒适性所证明的优点：进行电话呼叫、经由智能扬声器设备(谷歌家居(Google Home)亚马逊回声(Amazon Echo)/>等)发出语音命令。

另一方面，远场声音捕获引入某些伪像：混响和周围噪声由于与用户的距离而显得放大。这些伪像降低了说话者语音的可懂度，并因此削弱了服务的操作。显然，无论是与人还是与语音识别引擎的通信都更加困难。

此外，免提终端(诸如智能扬声器或会议电话)通常配备有麦克风天线，该麦克风天线通过减少这些中断来增强期望的信号。基于天线的增强利用在多通道记录期间编码的并且特定于每个源的空间信息，将感兴趣信号与其他噪声源区分开。

存在许多天线处理技术，诸如“延迟和求和(Delay and Sum)”滤波器，其通过仅知道来自感兴趣源或来自其他源的到达方向来执行纯空间滤波，或者“MVDR”滤波器(代表“最小方差无失真响应”)，其由于除了知道来自感兴趣源的到达方向之外，还知道噪声的空间分布而被示出为稍微更有效。其他甚至更有效的滤波器(诸如多通道维纳滤波器)也要求感兴趣源的空间分布是可用的。

实际上，这些空间分布的知识来自时间-频率图的知识，该时间-频率图指示该图中由语音主导的点和由噪声主导的点。该图的估计(也称为掩模)通常由先前训练的神经网络推断。

此后，包含语音和噪声的混合的信号在时频域中被表示为x(t，f)＝s(t，f)+n(t，f)，其中s(t，f)是语音并且n(t，f)是噪声。

掩模(表示为(相应地，/>))被定义为通常在区间[0；1]内的实数，使得通过该掩模与观测x(t，f)的简单乘法来获得感兴趣信号(相应地，噪声n(t，f))的估计即：

因此，我们寻求掩模和/>的估计，这可以导致导出有效的分离或增强滤波器。

背景技术

深度神经网络的使用(在利用人工智能的方法中)已经用于源分离。这种实施方式的描述例如在文献[@umbachChallenge]中给出，其参考文献在下面的附录中给出。已经研究了诸如最简单的“前馈”(FF)类型的架构，并且与通常基于模型(如参考文献[@heymannNNmask]中所述)的信号处理方法相比，已经显示出它们的有效性。被称为“LSTM”(如[@laurelineLSTM]中所描述的长短期记忆)或“Bi-LSTM”(如[@heymannNNmask]中所描述)的类型的“循环”架构(其使得可能更好地利用信号的时间依赖性)显示出更好的性能，但计算成本非常高。为了降低这种计算成本，无论是用于训练还是推理，已经成功地提出了称为“CNN”(卷积神经网络)的卷积架构([@amelie Unet]，[@janssonUnetSinger])，除了并行执行计算的可能性之外，还改善了性能并降低了计算成本。虽然用于分离的人工智能方法通常利用时频域中的特性，但是也已经成功地采用了纯时间架构([@stollerWaveUnet])。

所有这些用于增强和分离的人工智能方法为噪声是问题的任务(转录、识别、检测)提供了真正的附加值。然而，这些架构在存储和计算能力方面都具有共同的高成本。深度神经网络模型由数十个层和数十万或甚至数百万个参数组成。此外，它们的学习需要在现实条件下注释和记录的大型详尽数据库，以确保它们泛化到所有使用条件。

发明内容

本说明书改善了这种情况。

提出了一种用于处理由多个麦克风获取的声音数据的方法，其中：

-基于由多个麦克风获取的声音数据，确定源自至少一个感兴趣声源的声音的到达方向，

-根据声音的到达方向对声音数据应用空间滤波，

-在时频域中估计一方面的经滤波的声音数据与另一方面的所获取的声音数据之间的表示信号幅度的幅度的比率，

-根据所估计的比率，产生权重掩模以在时频域中应用于所获取的声音数据，以便构造表示源自感兴趣源的声音并相对于环境噪声增强的声学信号。

这里，术语“表示信号幅度的量”意为信号的幅度，但也意为其能量或其功率等。因此，可以通过将由经滤波的声音数据表示的信号的幅度(或能量或功率等)除以由获取的(因此原始的)声音数据表示的信号的幅度(或能量或功率等)来估计上述比率。

由此获得的权重掩模然后在时频域的每个时频点处表示感兴趣声源相对于环境噪声的主导程度。

可以估计权重掩模，以便直接构造表示源自感兴趣源的声音并且相对于环境噪声增强的声学信号，或者计算第二空间滤波器，该第二空间滤波器可以比上述直接构造的情况更有效地更强烈地减少噪声。

通常，然后可以在不使用神经网络的情况下获得时频掩模，唯一的先验知识是来自相关源的到达方向。然后，该掩模使得可能实现有效的分离滤波器，诸如MVDR滤波器(“最小方差无失真响应”)或来自多通道维纳滤波器族的滤波器。该掩模的实时估计使得可能导出低等待时间滤波器。此外，即使在感兴趣信号淹没在周围噪声中的不利条件下，其估计也保持有效。

在一个实施例中，上述第一空间滤波(应用于在估计比率之前获取的数据)可以是“延迟和求和”类型。

实际上，在这种情况下，例如，连续延迟可以应用于由沿着天线布置的麦克风捕获的信号。由于麦克风之间的距离以及因此这些捕获信号之间的这些距离固有的相移是已知的，因此可以对所有这些信号进行定相，然后可以进行求和。

在立体混响声(ambisonic)域中获取的信号的变换的情况下，信号的幅度表示麦克风之间的距离固有的这些相移。这里再次，可以对这些幅度进行加权，以便实现可以被描述为“延迟和求和”的处理。

在一个变型中，该第一空间滤波可以属于MPDR类型(代表“最小功率无失真响应”)。这具有在保持相关信号完整的同时更好地减少周围噪声的优点，并且除了到达方向之外不需要任何信息。这种类型的过程例如在文献[@gannotResume]中被描述，其内容在下面详细描述，并且在附录中给出完整引用。

然而，这里，MPDR类型的空间滤波(表示为w_MPDR)在一个特定实施例中可以由下式给出：

其中a_s表示定义声音的到达方向的向量(或“导向向量(steering vector)”)，并且是R_x通过以下类型的关系式在每个时频点(t，f)处估计的空间协方差矩阵：

其中：

-Ω(t，f)是时频点(t，f)的邻域，

-card是“基数(cardinal)”算子，

-x(t₁，f₁)是表示在时频域中获取的声音数据，并且x(t₁，f₁)^H是其厄米共轭。

此外，如上所述，该方法可以可选地包括细化权重掩模以便对其估计进行降噪的后续步骤。

为了执行该后续步骤，可以通过平滑(例如通过应用启发式定义的局部均值)来对估计进行降噪。

替代地，可以通过定义初始掩模分布模型来对该估计进行降噪。

第一方法保持低复杂度，而基于模型的第二方法以增加的复杂度为代价获得更好的性能。

因此，在第一实施例中，可以通过应用在所考虑的时频点(t，f)的时间-频率邻域上计算的局部统计算子，通过在每个时频点处进行平滑来进一步细化所产生的权重掩模。该算子可以采用平均值、高斯滤波器、中值滤波器或其他的形式。

在第二实施例中，为了执行上述第二方法，可以通过应用概率方法在每个时频点处进行平滑来进一步细化所产生的权重掩模，该概率方法包括：

-将权重掩模视为随机变量，

-定义随机变量的模型的概率估计量，

-搜索概率估计量的最优，以便改善权重掩模。

通常，掩模可以被视为区间[0，1]内的均匀随机变量。

掩模Ms(t，f)的概率估计量可以例如表示在变量对的多个观测上的最大似然，/>分别表示：：

-声学信号通过将权重掩模应用于所获取的声音数据而产生，以及

-所获取的声音数据x_i，

所述观测在所考虑的时频点(t，f)的邻域内选择。

因此，这两个实施例旨在在掩模估计之后细化掩模。如上所述，所获得的(可选地细化的)掩模可以直接应用于所获取的数据(原始的、由麦克风捕获的)，或者可以用于构建要应用于这些获取的数据的第二空间滤波器。

因此，在该第二情况下，表示源自感兴趣源的声音并且相对于环境噪声增强的声学信号的构造可以涉及应用从权重掩模获得的第二空间滤波。

该第二空间滤波可以属于MVDR类型(代表“最小方差无失真响应”)，并且在这种情况下，针对环境噪声估计至少一个空间协方差矩阵R_n，MVDR类型的空间滤波由下式给出其中：

其中：

-Ω(t，f)是时频点(t，f)的邻域，

-card是“基数”算子，

-x(t₁,f₁)是表示在时频域中获取的声音数据的向量，并且x(t₁，f₁)^H是其厄米共轭，以及

-M_s(t₁，f₁)是时频域中权重掩模的表达式。

替代地，第二空间滤波可以属于MWF类型(代表“多通道维纳滤波器”)，并且在这种情况下，空间协方差矩阵R_s和R_n分别针对表示源自感兴趣源和源自环境噪声的声音的声学信号来估计的，

MWF类型的空间滤波由下式给出：

w_MWF(t，f)＝(R_s(t，f)+R_n(t，f))^-1R_s(t，f)e₁，其中e₁＝[1 0...0]^T，

其中：

-Ω(t，f)是时频点(t，f)的邻域，

-card是“基数”算子，

-x(t₁，f₁)是表示在时频域中获取的声音数据的向量，并且x(t₁，f₁)^H是其厄米共轭，以及

-M_s(t₁，f₁)是时频域中权重掩模的表达式。

上述空间协方差R_n矩阵表示“环境噪声”。该噪声实际上可以包括来自尚未被保留为感兴趣声源的声源的发出。可以对已经检测到(例如动态地)到达方向的每个源执行单独的处理，并且在对给定源的处理中，来自其他源的发出被视为噪声的一部分。

应当理解，在该实施例中，可以如何根据针对最有利的时频点估计的掩模来导出所执行的空间滤波，例如MWF，因为感兴趣声源在这些时频点主导。还应当注意，可以执行两个联合优化：一个是声学信号的协方差R_s，其调用(calling upon)期望的时频掩模M_s，并且另一个是环境噪声的协方差R_n，其调用与噪声相关联的掩模M_n(通过选择仅噪声主导的时频点)。

因此，上述解决方案通常使得可能仅基于关于来自感兴趣源的到达方向的信息，而没有来自神经网络的贡献(用于将掩模直接应用于所获取的数据，或者用于构造要应用于所获取的数据的第二空间滤波)，在感兴趣源主导的时频点处在时间-频率域中估计最佳掩模。

本说明书还提出了一种计算机程序，该计算机程序包括用于在程序由处理器执行时实现如本文所定义的方法的全部或部分的指令。根据另一方面，提供了一种其上存储有这样的程序的非暂时性计算机可读存储介质。

本说明书还提出了一种设备，包括(如图3所示)用于接收由多个麦克风(MIC)获取的声音数据的至少一个接口(IN)和处理电路(PROC，MEM)，该处理电路(PROC，MEM)被配置用于：

-根据声音的到达方向对声音数据应用空间滤波，

因此，设备还可以包括用于传递该声学信号的输出接口(在图3中表示为OUT)。该接口OUT可以连接到语音识别模块，例如以便不管环境噪声如何都正确地解释来自用户的命令，因此已经根据上述方法处理了所传递的声学信号。

附图说明

通过阅读下面的详细描述并通过分析附图，其他特征、细节和优点将变得显而易见，其中：

图1

[图1]示意性地示出了利用上述方法的可能上下文。

图2

[图2]图示了根据一个特定实施例的可以包括在本说明书含义内的方法中的一系列步骤。

图3

[图3]示意性地示出了根据一个实施例的用于处理声音数据的设备的示例。

具体实施方式

这里再次参考图3，上面呈现的设备DIS的处理电路通常可以包括能够存储上述计算机程序的指令的存储器MEM、以及能够与存储器MEM协作以便执行计算机程序的处理器PROC。

通常，输出接口OUT可以提供个人助理的语音识别模块MOD，其能够在上述声学信号中标识来自用户UT的语音命令，如图1所示，用户UT可以说出由麦克风天线MIC捕获的语音命令，特别是在存在由例如用户UT所在的房间的墙壁和/或隔断生成的环境噪声和/或声音混响REV的情况下这样做。然而，在本说明书和下面详述的含义内，处理所获取的声音数据使得可能克服这些困难。

图2中示出了本说明书含义内的一般方法的一个示例。该方法开始于获取由麦克风捕获的声音数据的第一步骤S1。接下来，在步骤S2中执行加窗之后，在步骤S3中执行所获取的信号的时间-频率变换。然后可以在步骤S4中估计源自感兴趣源的声音的到达方向(DoA)，特别是给出该到达方向的向量a_s(f)(或“导向向量”)。接下来，在步骤S5中，例如在时频空间中，并且根据到达方向DoA，将第一空间滤波应用于由麦克风捕获的声音数据。第一空间滤波可以是延迟和求和或MPDR类型，并且它以DoA为“中心”。在滤波器属于MPDR类型的情况下，除了DoA之外，还使用在时频域中表示的所获取的数据来构建滤波器(为此目的用虚线示出的箭头)。然后，在步骤S6中，估计经滤波的采集数据与原始采集数据(在时频域中表示为x(t，f))之间的幅度(或能量或功率)比。时频域中的比率的这种估计使得可能在步骤S7中构造权重掩模的第一近似形式，这已经有利于DoA，因为上述比率主要在到达方向DoA上是高水平的。接下来，可以提供稍后的可选步骤S8，其包括平滑该第一掩模以便对其进行细化。然后，在步骤S9(也是可选的)中，还可以根据该细化的掩模生成第二空间滤波。然后可以在时频域中将该第二滤波应用于所获取的声音数据，以便在步骤S10中生成声学信号，该声学信号基本上没有噪声，并且然后可以由语音识别模块或其他模块适当地解释。下面详细描述该方法的每个步骤。

由N个信道组成的天线信号在下面被表示为x(t)，在步骤S1中以列向量的形式组织：

该向量被称为“观测”或“混合”向量。

信号x_i，0≤i＜N可以是由天线的麦克风直接捕获的信号，或者是这些麦克风信号的组合，如在天线根据环绕声格式(也称为“立体混响声”)的表示收集信号的情况下。

在下文中，在步骤S3中，各种量(信号、协方差矩阵、掩模、滤波器)在时频域中表示如下：

其中，是例如大小为L的短时傅里叶变换：

在上述关系式中，是可能在步骤S2中通过窗口w(k)加窗并补零的变量x(t)的版本：

其中M≤L，并且其中w(k)是汉宁窗(Hann)或其他类型的加窗窗口。

可以根据可用信息定义几个增强滤波器。然后，它们可以用于推导时频域中的掩模。

对于给定位置的源s，指向该源的方向(声音的到达方向)的列向量被标记a_s，该向量被称为“导向向量”。在由N个传感器组成的均匀线性天线的情况下，其中每个传感器与其相邻传感器间隔开距离d，在步骤S4中通过以下在频域中定义平面波相对于天线的入射θ的导向矢量：

其中c是声音在空气中的速度。

第一通道在此对应于声波遇到的最后一个传感器。然后，该导向向量给出声音的到达方向或“DOA”。

在通常按照SID/N3D格式的一阶3D立体混响天线的情况下，导向向量也可以由以下关系式给出：

其中(θ，φ)对对应于源相对于天线的方位角和俯仰角。

仅知道来自声源的到达方向(或DOA)，在步骤S5中，可以定义延迟和求和(DS)类型的滤波器，其指向该源的方向，如下：

w_DS＝(a_s ^Ha_s)^-1a_s，其中(.)^H是矩阵或向量的共轭转置算子。

还可以使用稍微更复杂但也更强大的滤波器，诸如MPDR滤波器(代表“最小功率无失真响应”)。除了由源发出的声音的到达方向之外，该滤波器还需要通过其空间协方差矩阵R_x的混合x的空间分布：

其中由天线捕获的多维信号x的空间协方差由以下关系式给出：

这种实施方式的细节特别地在附录中指定的参考文献[@gannotResume]中描述。

最后，如果用于感兴趣信号s和噪声n的空间协方差矩阵R_s和R_n可用，则可以使用一族更有效的滤波器来应用所述第二空间滤波(下面参考图2的步骤S9描述)。我们在此通过示例的方式简单地指示，可以使用MWF类型(代表“多通道维纳滤波器”)的空间滤波进行第二滤波，由以下等式给出：

w_MWF＝(R_s+R_n)^-1R_se₁，其中e₁＝[1 0...0]^T，

以及调用空间协方差矩阵，该空间协方差矩阵表示由感兴趣源R_s或由环境噪声R_n发出并在所述声学环境中传播的声能的空间分布。在实践中，声波遇到的封闭表面(墙壁、天花板、地板、窗户等)的材料的声学特性(反射、衍射、扩散)根据相关频带而变化很大。此后，能量的这种空间分布也取决于频带。此外，在移动源的情况下，该空间协方差可以随时间变化。

估计混合x的空间协方差的一种方式是执行局部时频积分：

其中Ω(t，f)是时频点(t，f)周围的或多或少宽的邻域，并且card是“基数”算子。

由此，已经可以估计可以在步骤S5中应用的第一滤波w_MPDR。

对于矩阵R_s和R_n，情况是不同的，因为它们不能从观测中直接获得，并且必须被估计。在实践中，使用掩模M_s(t，f)(相应地，M_n(t，f))，其允许“选择”相关源(相应地噪声)主导的时频点，然后允许通过经典积分计算其协方差矩阵，用以下类型的适当掩模进行加权：

噪声掩模M_n(t，f)可以通过以下公式直接从感兴趣的掩模M_s(t，f)(即，与感兴趣源相关联)导出：M_n(t，f)＝1-M_s(t，f)。在这种情况下，噪声的空间协方差矩阵可以以与相关信号相同的方式计算，并且更具体地以以下形式计算：

这里的目的是估计这些时频掩模M_s(t，f)和M_n(t，f)。

在时间t处源自相关源s的声音的到达方向(或“DOA”，在步骤S4中获得)(表示为doa_s(t))被视为已知的。该DOA可以通过诸如“SRP-phat”([@diBiaseSRPPhat])的定位算法来估计，并且通过诸如卡尔曼滤波器的跟踪算法来跟踪。例如，在线性天线的情况下，它可以由单个组件组成，或者在立体混响类型的球形天线的情况下，它可以由方位角和仰角组件(θ，φ)组成。

因此，仅知道相关源s的DOA，我们寻求在步骤S7中估计这些掩模。时频域中的相关信号的增强版本是可用的。通过在步骤S5中应用指向相关源的方向的空间滤波器w_s来获得该增强版本。该滤波器可以属于延迟和求和类型，或者如下所示，属于由下式表示的w_MPDR类型：

根据该滤波器，通过在步骤S5中应用滤波器来增强感兴趣信号s：

该增强的信号使得可能在步骤S7中计算由来自步骤S6的比率给出的初步掩模

其中x_ref是源自捕获的参考通道，并且γ是正实数。γ通常取整数值(例如，幅度为1或能量为2)。应当注意，当→∞，掩模趋向于二元掩模，其指示源超过噪声的主导。

例如，对于立体混响天线，可以使用作为全向信道的第一信道。在线性天线的情况下，它可以是对应于任何传感器的信号。

在信号被滤波器w_s完美地增强并且γ＝1的理想情况下，该掩模对应于表达式：该表达式定义了具有期望行为的掩模，即当信号s主导时接近于1，并且当噪声主导时接近于0。实际上，由于在测量来自源的DOA时的声学和缺陷的影响，增强的信号尽管已经处于比获取的原始信号更好的状态，但是仍然可以包含噪声，并且可以通过处理来改善掩模的估计(步骤S8)。

下面描述掩模细化步骤S8。尽管该步骤是有利的，但是它决不是必要的，并且可以可选地执行，例如如果在步骤S7中为滤波估计的掩模被证明是超过所选阈值的噪声。

为了限制掩模中的噪声，在步骤S8中应用平滑函数soft(.)。该平滑函数的应用可以相当于估计每个时频点处的局部平均值，例如如下：

其中Ω₁(t，f)定义了所考虑的时频点(t，f)的邻域。

替代地，可以选择例如由高斯核加权的平均值，或者对于异常值更鲁棒的中值算子。

该平滑函数可以应用于观测或滤波器/>如下：

为了改进估计，可以应用第一饱和步骤，这确保掩模确实在区间[0,1]内：

实际上，上述方法有时导致低估掩模。可能感兴趣的是通过应用以下类型的饱和函数sat(.)来“校正”先前的估计：

其中u_th是根据期望水平设置的阈值。

基于原始观测估计掩模的另一方式包括，不是执行平均运算，而是通过设置R为由以下定义的随机变量来采用概率方法：

其中：

-对应于增强信号(即，由MPDR或DS增强滤波器滤波)，

-x对应于混合的特定通道，以及

-M_s对应于先前估计的相关源的掩模：这可以是或/>的不同变型。

这些变量可以被视为时间和频率相关的。

变量R|M_s遵循正态分布，具有零均值和取决于M_s的方差，如下：

其中V(.)是方差算子。

还可以假设M_s的初始分布。由于它是掩模，值在0和1之间，因此可以假设掩模遵循区间[0,1]内均匀的定律：

在一个变型中，可以定义有利于掩模简约性的另一分布，例如指数定律。

基于对所描述的变量施加的模型，可以使用概率估计量来计算掩模。这里，我们在最大似然的意义上描述掩模M_s(t，f)的估计量。

假设我们对于变量对具有一定数量I的观测我们可以通过在我们估计M_s(t，f)的点(t，f)周围选择时间-频率框来选择例如一组观测：

掩模的似然函数写作：

最大似然估计量直接由表达式给出，其中：

其中/>和/>是变量/>和x_i的方差。

再次，为了避免区间[0，1]之外的值，我们可以应用以下类型的饱和运算：

概率方法过程比使用局部平均的过程噪声小。它呈现较低的方差，其代价是由于需要计算局部统计量而导致较高的复杂度。这使得例如可以在没有有用信号的情况下正确地估计掩模。

该方法可以在步骤S9中继续，通过基于权重掩模产生第二空间滤波，特别是产生矩阵M_s(以及特定于噪声M_n＝1-M_s的矩阵)，以便通过估计空间协方差矩阵R_s和R_n分别特定于感兴趣源和噪声来构建例如MwF类型的第二滤波器，并且由下式给出：

其中：

-Ω(t，f)是时频点(t，f)的邻域，

-card是“基数”算子，

-M_s(t₁，f₁)是时频域中权重掩模的表达式。

然后，MWF类型的空间滤波由下式给出：

w_MWF(t，f)＝(R_s(t，f)+R_n(t，f))^-1R_s(t，f)e₁，其中e₁＝[1 0...0]^T。

作为变型，应当注意，如果保留的第二滤波是MVDR类型，则第二滤波由下式给出，其中：

其中Ω(t，f)和card如上所定义。

一旦将该第二空间滤波应用于所获取的数据x(t，f)，就可以应用逆变换(从时间-频率空间到直接空间)并且在步骤S10中获得表示源自感兴趣源的声音并且相对于环境噪声增强的声学信号(通常由图3所示的设备的输出接口OUT传递)。

工业应用

这些技术解决方案特别适用于经由复杂滤波器的语音增强，例如MWF类型滤波器([@laurelineLSTM]，[@amelieUnet])，这确保了良好的收听质量和高速率的自动语音识别，而不需要神经网络。该方法可以用于检测关键字或“唤醒词”，或者甚至用于语音信号的转录。

引用文献列表

为方便起见，引用了以下非专利参考文献：

[@amelieUnet]：Amélie Bosca等人，“Dilated U-net based approach formultichannel speech enhancement from First-Order Ambisonics recordings”，Computer Speech&Language(2020)，第37-51页

[@laurelineLSTM]：L.Perotin等人，“Multichannel speech separation withrecurrent neural networks from high-order Ambisonics recordings”，Proc.ofICASSP.ICASSP 2018-IEEE International Conference on Acoustics，Speech andSignal Processing，2018年，第36-40页。

[@umbachChallenge]：Reinhold Heab-Umbach等人，“Far-Field AutomaticSpeech Recognition”，arXiv：2009.09395v1。

[@heymannNNmask]：J.Heymann、L.Drude和R.Haeb-Umbach，“Neural networkbased spectral mask estimation for acoustic beamforming”，Proc.of ICASSP，2016年，第196-200页。

[@janssonUnetSinger]：A.Jansson、E.Humphrey、N.Montecchio、R.Bittner、A.Kumar和T.Weyde，“Singing voice separation with deep U-net convolutionalnetworks”，Proc.of Int.Soc.for Music Inf.Retrieval，2017年，第745-751页。

[@stollerWaveUnet]：D.Stoller、S.Ewert和S.Dixon，“Wave-U-Net a multi-scale neural network for end-to-end audio source separation”，Proc.ofInt.Soc.for Music Inf.Retrieval，2018年，第334-340页。

[@gannotResume]：Sharon Gannot等人，“A Consolidated Perspective onMultimicrophone Speech Enhancement and Source Separation”，IEEE/ACM Transac-tions on Audio，Speech，and Language Processing 25.4(2017年4月)，第692-70页，issn：2329-9304.doi：10.1109/TASLP.2016.2647702。

[@diBiaseSRPPhat]：J.Dibiase、H.Silverman和M.Brandstein，“Robustlocalization in reverberant rooms”，Microphone Arrays：Signal ProcessingTechniques and Applications.Springer，2001年，第157-180页。

Claims

1.一种用于处理由多个麦克风(MIC)获取的声音数据的方法，其中：

-根据声音的到达方向对声音数据应用空间滤波，

2.根据前述权利要求中任一项所述的方法，其中，所述空间滤波属于“延迟和求和”类型。

3.根据权利要求1所述的方法，其中，所述空间滤波在时频域中应用，并且属于MPDR类型，代表“最小功率无失真响应”。

4.根据权利要求3所述的方法，其中，所述MPDR类型的空间滤波表示为w_MPDR，由下式给出其中，a_s表示定义所述声音的到达方向的向量，并且R_x(t，f)是在每个时频点(t，f)处通过以下类型的关系式估计的空间协方差矩阵：

其中：

-Ω(t，f)是所述时频点(t，f)的邻域，

-card是“基数”算子，

-x(t₁，f₁)是表示在时频域中获取的声音数据的向量，并且x(t₁，f₁)^H是其厄米共轭。

5.根据前述权利要求中任一项所述的方法，其中，通过应用在所考虑的时频点(t，f)的时间-频率邻域上计算的局部统计算子，通过在每个时频点处进行平滑来进一步细化所产生的权重掩模。

6.根据权利要求1至4中任一项所述的方法，其中，通过在每个时频点处进行平滑来进一步细化所产生的权重掩模，并且其中，应用概率方法，所述概率方法包括：

-将权重掩模视为随机变量，

-定义所述随机变量的模型的概率估计量，

-搜索所述概率估计量的最优，以便改善所述权重掩模。

7.根据权利要求6所述的方法，其中，所述掩模被视为区间[0，1]内的均匀随机变量。

8.根据权利要求6和7中任一项所述的方法，其中，所述掩模M_s(t，f)的概率估计量表示在变量对的多个观测上的最大似然，/>分别表示：

-声学信号通过将所述权重掩模应用于所获取的声音数据而产生，以及

-所获取的声音数据x_i，

所述观测在所考虑的时频点(t，f)的邻域内选择。

9.根据前述权利要求所述的方法，其中，表示源自感兴趣源的声音并且相对于环境噪声增强的声学信号的构造包括应用从所产生的权重掩模获得的第二空间滤波。

10.根据权利要求9所述的方法，其中，所述第二空间滤波属于MVDR类型，代表“最小方差无失真响应”，并且估计所述环境噪声的至少一个空间协方差矩阵R_n(t，f)，所述MVDR类型的空间滤波由下式给出其中：

其中：

-Ω(t，f)是所述时频点(t，f)的邻域，

-card是“基数”算子，

-M_s(t₁，f₁)是时频域中权重掩模的表达式。

11.根据权利要求9所述的方法，其中，所述第二空间滤波属于MWF类型(代表“多通道维纳滤波器”)，并且空间协方差矩阵R_s和R_n是分别针对表示源自所述感兴趣源和源自所述环境噪声的声音的声学信号来估计的，所述MWF类型的空间滤波由下式给出w_MWF(t，f)＝(R_s(t，f)+R_n(t，f))^-1R_s(t，f)e₁，其中e₁＝[1 0 ... 0]^T，其中：

其中：

-Ω(t，f)是时频点(t，f)的邻域，

-card是“基数”算子，

-M_s(t₁，f₁)是时频域中权重掩模的表达式。

12.一种计算机程序，包括指令，当该程序由处理器执行时，所述指令用于实现根据前述权利要求中任一项所述的方法。

13.一种设备，包括用于接收由多个麦克风(MIC)获取的声音数据的至少一个接口(IN)和处理电路(PROC，MEM)，所述处理电路(PROC，MEM)被配置用于：

-根据声音的到达方向对声音数据应用空间滤波，