CN110226101B

CN110226101B - 用于估计到达方向的设备和方法

Info

Publication number: CN110226101B
Application number: CN201780084900.0A
Authority: CN
Inventors: 陈凯南; 尤尔根·盖格; 穆罕默德·塔吉扎德; 彼得·格罗舍
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2021-09-14
Anticipated expiration: 2037-04-25
Also published as: CN110226101A; US11567162B2; WO2018196952A1; US20200057132A1; EP3610279A1

Abstract

本发明提供了一种用于估计来自Q≥1个声源(202)的声音的到达方向(Direction of Arrival，DOA)的设备(100)。所述设备(100)用于获取包含测量出的相位差值的相位差矩阵，所述测量出的相位差值中的每一个是两个麦克风单元(203)之间针对所述声音的频率范围中的一个频率点的相位差测量值。所述设备(100)还用于：通过将所述测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵；针对所述复制相位差矩阵中的每个相位差值计算DOA值；以及将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定为Q个DOA结果。

Description

用于估计到达方向的设备和方法

技术领域

本发明涉及一种用于估计从Q≥1个声源而来的到达方向(Direction ofArrival，DOA)的设备、对应方法和装置。具体而言，该设备和方法对从声音接收器等获得的相位差矩阵执行后处理，其中该声音接收器用于从声源接收声音。

背景技术

大部分多通道声源DOA估计算法都存在空间混叠问题。空间混叠的结果是，通道间相位差被包裹在空间混叠频率之外。解决这一问题的常见方案是调整接收由声源产生的声音的麦克风或麦克风阵列之间的距离，以便获得适当的最小混叠频率以及随后只采用低于该最小混叠频率的频带来定位声源。

传统的使用麦克风定位声源的方法是估计从各声源到麦克风的到达时间差(TimeDifference of Arrival，TDOA，Δt)。对于窄带定位算法，可以根据每个频带中的通道间相位差μ_i来估计TDOA。这些相位差与TDOA之间的关系如下：

μ_i＝2πf_iΔt (1)

其中f_i表示窄带频率。对于远场假设，还可以根据TDOA估计DOA。以下方程式(2)示出了相位差μ_i与DOA之间的关系，用声源到麦克风的角θ来表示。在该方程式中，c表示录音环境中的声速，Δd表示麦克风之间的距离。

传统的算法通过估计相位差

来估计窄带DOA。然而，当μ_i＞2π时，

将包裹在[-π，π]中，这可以在针对较高频率的图13(左侧)中看出。在图13中，正确的频率相关相位差通过粗直线表示，而不正确的、包裹的频率相关相位差沿着锯齿状线示出。因此，估计的DOA将是错误的，这同样可以在图13(右侧)中看出。这里，正确的(频率无关)DOA通过横粗线表示，而错误的(频率相关)DOA沿锯齿状线表示。图示的问题就是所谓的空间混叠间题。

空间混叠问题的边界处的频率称为混叠频率f_a。从以下方程式(3)中可以看出，f_a与角θ有关，但是角θ是未知的，因此，对于高于f_a的频率，包裹的相位差矩阵

无法直接解包裹。

某一场景的最小混叠频率定义为

其中

通常，当声源的频带较宽时，使用离散傅立叶变换(Discrete Fouriertransform，DFT)。然后在每个频率上重复窄带定位算法。因此，针对单声源场景获得“原始”相位差向量，针对多源场景获得“原始”相位差矩阵，定义为μ₀。该相位差矩阵仅包括

时的正确相位差值。

因此，在定位时通常仅考虑声音的较低频带

以避免空间混叠问题。这是传统算法的一个明显缺点。

发明内容

鉴于上述问题和缺点，本发明旨在改进基于传统定位算法操作的设备和方法，即，用于估计DOA的设备和方法。本发明的目的是还使用声音的较高频带

来估计DOA，尤其是针对多通道声源。因此，本发明旨在提供一种能够更稳健、准确地估计DOA并定位声源的设备和方法。具体地，当麦克风或麦克风阵列之间的距离较大时，本发明旨在改进传统设备和方法。

本发明的目的通过所附独立权利要求中提供的方案实现。本发明的有利实施方式在从属权利要求中进一步定义。

具体而言，本发明的理念是使用相位差矩阵μ₀中的相位差值的复制，以便减少空间混叠问题对单声源以及多声源定位的影响，以及在嘈杂场景等中进行能够使技术更稳健的进一步后处理。具体而言，本发明涉及使用较高频带

依据相位差矩阵μ₀的相位差值之间的特定关系来重构相位差矩阵μ₀，以实现更稳健的定位。

本发明的第一方面提供了一种用于估计来自Q≥1个声源的声音的DOA的设备，所述设备用于：获取包含测量出的相位差值的相位差矩阵，所述测量出的相位差值中的每一个是两个麦克风单元之间针对所述声音的频率范围中的一个频率点的相位差测量值；通过将所述测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵；针对所述复制相位差矩阵中的每个相位差值计算DOA值；以及将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定为Q个DOA结果。

通过生成复制相位差矩阵，不仅可以基于宽带声源的低频率进行定位，还可以基于宽带声源的高频率进行定位，从而获得更高的稳健性和准确性，即，改进的DOA估计。具体地，还使用较高频带

值得注意的是，如果仅有一个声源，即，如果Q＝1，则声差矩阵本质上是一个相位差向量(单列矩阵)。基本上，在相位差复制步骤中，某一频率或频带的测量出的相位差被解包裹到包含一个或多个其它可能相位差值的候选集中，每个可能相位差值与测量出的相位差值相差2π(或360°)的整数倍(即，这些可能相位差值位于其它正弦周期中)。因此，复制相位差矩阵将包括所有正确解包裹的相位差(每个测量出的相位差有一个正确解包裹的相位差)以及一组不正确地解包裹的相位差。然而，正确解包裹的相位差在直方图中会更突出，从而可以被识别。

此外，基于直方图中最突出的峰选择DOA结果既有效又准确，并且支持进一步后处理步骤，这些后处理步骤可以进一步改进DOA估计。

频率点可以是声音的频率范围的子范围，也可以是声音的频率范围中的单个频率。

在所述第一方面的一种实施形式中，所述设备用于通过基于下式定义的最小混叠频率复制所述测量出的相位差值来生成所述复制相位差矩阵：

其中，Δd表示所述两个麦克风单元之间的距离，c是声速。

由此，涵盖了所有潜在混叠频率用于复制。在最小混叠频率f_a0之下相位差无法包裹，在f_a0之上才能包裹。

在所述第一方面的另一实施形式中，将所述相位差矩阵中的所述测量出的相位差值包裹在[-π，π]中，并且所述设备用于根据下式生成所述复制相位差矩阵：

C_s＝(-C，-C+1，...，0，...，C)

μ(i，j)＝μ₀(i)+2πC_s(j)

i＝1，...N；j＝1，...(2C+1)

其中，μ₀表示所述相位差矩阵，μ表示所述复制相位差矩阵，i是与频率f_i相对应的频率点索引，j是复制索引，

表示上限函数。

这样，可以有效地生成复制相位差矩阵，其涵盖通道间相位差的所有可能正确的正弦周期。

在所述第一方面的另一实施形式中，所述设备用于基于以下公式计算所述DOA值：

其中，θ(i，j)表示频率点索引i和复制索引j的所述DOA值，μ表示所述复制相位差矩阵，Δd表示所述两个麦克风单元之间的距离。

如上所述，复制相位差矩阵针对每个频率点包含该频率点的正确相位差的一个或多个候选值的集合。将复制相位差矩阵中的每个元素转变为一个DOA值产生了一个DOA矩阵，该DOA矩阵针对每个频率点包含该频率点的正确DOA的一个或多个候选值的集合，包括实际的正确DOA值。

在所述第一方面的另一实施形式中，所述设备用于根据所述计算出的DOA值生成第一直方图，以及将所述第一直方图中的Q个最突出的峰值确定为所述Q个DOA结果。

如果声源提供宽带信号和/或如果场景很干净，即，如果场景中的噪音较低，那么这种实施形式特别有利。从第一直方图中选择峰是获得DOA结果的一种快速、简单的方法，比仅使用低频率得到的结果更稳健、准确。

在所述第一方面的另一实施形式中，所述设备用于：根据所述计算出的DOA值生成第一直方图；选择所述第一直方图中的Q+q个最突出的峰值作为Q+q个DOA候选项，其中优选地q＝2；基于所选定的Q+q个DOA候选项生成第二直方图；以及将所述第二直方图中的Q个最突出的峰值确定为所述Q个DOA结果。

如果场景比较嘈杂和/或如果一些声源较弱，那么这种实施形式特别有利。在这种情况下，这些较弱声源可以为第一直方图提供峰，而这些峰可能没有空间混叠所产生的峰那么突出。因此，从第一直方图中选择q个额外峰作为候选项使得DOA估计更稳健、准确。

在所述第一方面的另一实施形式中，所述设备用于在生成所述第一直方图之前删除计算出的复杂DOA值。

因此，DOA估计变得不那么复杂，并且具有较高的准确性。只有当通道间相位差位于错误的正弦周期时，DOA值才是复杂的。

在所述第一方面的另一实施形式中，为了生成所述第二直方图，所述设备用于：根据所述计算出的DOA值为每个选定的DOA候选项确定其相关DOA值；根据每个选定的DOA候选项及其相关DOA值生成第三直方图；以及通过合并所有选定的DOA候选项的所述第三直方图来生成所述第二直方图。

通过为每个候选项选择相关DOA值并且分别分析第三直方图，减少了源之间的干扰。因此，进一步提高了DOA估计的准确性。

在所述第一方面的另一实施形式中，所述设备用于合并所有选定的DOA候选项的所述第三直方图以通过以下方式生成所述第二直方图：针对每个直方图索引，使用所有所述第三直方图中的最大值作为所述第二直方图中针对这个直方图索引的值。

合并之后，正确的峰比第二直方图更清晰。因此，这种合并直方图的实施方式产生了准确、稳健的DOA估计的期望结果。使用平均值而不是最大值进行合并会导致不同直方图之间的错误累积。基于最大值的合并规则就没有这个问题。

在所述第一方面的另一实施形式中，所述设备用于通过以下方式确定DOA候选项的所述相关DOA值：将所述复制相位差矩阵中的位于假定正确的正弦周期中的所述相位差值确定为其相关相位差值，并且根据其相关相位差值计算其相关DOA值。

因此，删除了与不正确的正弦周期对应的值。假定正确的正弦周期是这样一种正弦周期：其是基于混叠频率进行的解包裹的结果，其中该混叠频率是基于候选峰的DOA确定的。通过这种确定方式，如果峰是正确的，那么峰高将保留在第三直方图中。

在所述第一方面的另一实施形式中，所述设备用于在将所述第三直方图合并为所述第二直方图之前对每个所述第三直方图中的所述峰值应用软掩码，其中所述软掩码被设计为峰值滤波器，其在DOA为0°时的宽度较小，在DOA为±90°时的宽度较大。

峰值的软掩码提高了从第三直方图中选择作为DOA结果的峰的准确性。理论上，混叠峰的宽度较大，而正确峰的宽度在0°时较小，并且宽度随着峰接近±90°而增大。因此，以这种方式使用软掩码有助于更可靠地检测正确的峰。

在所述第一方面的另一实施形式中，所述设备用于在确定所述Q个DOA结果之前对所述第二直方图应用低通滤波器，优选为具有根据下式的标准偏差σ的高斯滤波器：

其中f_s表示采样率。

通过使用这种高斯滤波器，可以平衡宽、窄峰的高度，从而得到更好的估计结果。该滤波器有助于将较宽的正确峰削尖到接近±90°，将较窄的尖峰展平到0°左右。

在所述第一方面的另一实施形式中，每个麦克风单元包括含一个或多个麦克风的阵列，并且已根据所述麦克风单元中的一个的所述一个或多个麦克风与所述麦克风单元中的另一个的所述一个或多个麦克风之间的测量出的相位差获得了所述相位差矩阵中的所述一个或多个测量出的相位差值。

本发明的第二方面提供了一种用于确定来自Q≥1个声源的声音的DOA的装置，所述装置包括：根据如上所述第一方面或其任意实施形式的设备；以及包括两个麦克风单元的声音接收器，用于接收所述声音，生成相位差矩阵，并将所述相位差矩阵提供给所述设备。

第二方面的装置分别实现了第一方面及其实施形式的设备的所有优点和效果。

本发明的第三方面提供了一种用于估计来自Q≥1个声源的声音的DOA的方法，所述方法包括：获取包含测量出的相位差值的相位差矩阵，所述测量出的相位差值中的每一个是两个麦克风单元之间针对所述声音的频率范围中的一个频率点的相位差测量值；通过将所述测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵；针对所述复制相位差矩阵中的每个相位差值计算DOA值；以及将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定为Q个DOA结果。

可以为第三方面的方法提供添加其它方法步骤的实施形式，这些方法步骤对应于根据第一方面的实施形式的设备所采取的动作。

因此，第三方面的方法分别实现了第一方面及其实施形式的设备的所有优点和效果。

须注意，本申请中描述的所有设备、元件、单元和构件都可以以软件或硬件元件或其任何类型的组合来实现。本申请中描述的各种实体执行的所有步骤和所描述的将由各种实体执行的功能旨在表明各个实体适于或用于执行各自的步骤和功能。

虽然在以下具体实施例的描述中，由外部实体执行的特定功能或步骤没有在执行特定步骤或功能的该实体的具体元件的描述中反映，但是技术人员应该清楚的是这些方法和功能可以在各自的硬件或软件元件或其任意组合中实现。

附图说明

结合所附附图，下面具体实施例的描述将阐述上述本发明的各方面及其实现形式，其中：

图1示出了根据本发明实施例的设备和方法。

图2示出了根据本发明实施例的设备和装置。

图3示出了根据本发明一实施例的设备。

图4示出了根据本发明的设备的技术细节。

图5示出了根据本发明的设备的技术细节。

图6示出了根据本发明的设备所生成的直方图与传统直方图之间的比较。

图7示出了根据本发明的设备的技术细节。

图8示出了根据本发明的设备的技术细节。

图9示出了根据本发明的设备的技术细节。

图10示出了根据本发明的设备的技术细节。

图11示出了根据本发明的设备与传统设备所生成的DOA直方图之间的比较。

图12示出了根据本发明的设备与传统设备所生成的DOA直方图之间的比较。

图13示出了空间混叠问题。

具体实施方式

图1示出了根据本发明一实施例的设备100，其用于估计来自Q≥1个声源202的声音的DOA。图2示出了可使用设备100的特定场景。也就是说，设备100可以是根据本发明另一实施例的用于确定DOA的装置200的一部分。如图所示，该装置200还可包括声音接收器201，用于接收来自声源202(这里示出了一个声源202，即，Q＝1)的声音。值得注意的是，设备100也可与声音接收器201分离，并且例如连接到声音接收器201。声音接收器201可包括麦克风或麦克风阵列203，还可包括预处理单元204。

图1的设备100用于获取包含测量出的相位差值的相位差矩阵μ₀。测量出的相位差值中的每一个是两个麦克风单元203之间针对声音的频率范围中的一个频率点的相位差测量值。例如，设备100可从声音接收器201，具体是从预处理单元204获取相位差矩阵，其中预处理单元204将麦克风203记录的声音转变为相位差矩阵μ₀。

设备100还用于通过将所获取的相位差矩阵μ₀中的测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵μ。

然后，设备100用于为复制相位差矩阵μ中的每个相位差值计算DOA值，即，计算DOA矩阵θ。最后，设备100用于将基于计算出的DOA值θ生成的直方图中的Q个最突出的峰值确定为Q个DOA结果。

因此，设备100用于执行根据本发明一实施例的方法。如图1所示，该方法包括如下步骤：获取(111)包含测量出的相位差值的相位差矩阵μ₀，测量出的相位差值中的每一个是两个麦克风单元203之间针对声音的频率范围中的一个频率点的相位差测量值。然后，该方法包括如下步骤：通过将测量出的相位差值复制到其它可能的正弦周期来生成(112)复制相位差矩阵μ；为复制相位差矩阵μ中的每个相位差值计算(113)DOA值；最后将基于计算出的DOA值θ生成的直方图中的Q个最突出的峰值确定(114)为Q个DOA结果。

设备100在声源定位中的位置在图2中示出。设备100将μ₀作为输入，并输出至少一个估计的DOAθ。在图2中，设备100是装置200的一部分，在装置200中，声音接收器201包括两个麦克风单元203并用于：接收声音，生成相位差矩阵μ₀，并将相位差矩阵μ₀提供给设备100。

图3示出了根据本发明一实施例的设备100的更详细概览，该设备100基于图1中的设备100的实施例。设备100的不同功能结合方框301至309示出，并且通常可以归类为用于进行相位差矩阵复制和细化的后处理。

在方框301中，获取相位差矩阵μ₀，并通过将测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵μ。在方框302中，根据复制相位差矩阵μ计算DOA值θ。也就是说，为复制相位差矩阵μ中的每个相位差值计算DOA值θ。

在方框303中，根据计算出的DOA值θ生成DOA直方图h(表示为第一直方图)。在设备100的一种简单实施形式中，此时可能已经将第一直方图h中的Q个最突出的峰值选择作为Q个DOA结果。在设备100的一种实施形式中，为了提高稳健性，在方框304中检测直方图h中的更多峰。具体而言，这里可检测第一直方图h中的Q+q个最突出的峰值作为DOA候选项。q优选为2。

在方框305中，可使用二进制掩码，其中该二进制掩码将在方框304中检测到的Q+q个峰和在方框302中计算出的DOA值θ作为输入。因此，在方框305中，确定并输出特别相关的DOA值0₁，θ₂...θ_i。在方框306中，根据每个选定的DOA候选项及其相关DOA值来生成其它直方图(表示为第三直方图)，并将这些直方图输出为h₁，h₂...h_i。在方框307中，对这些直方图使用软掩码以输出软掩码直方图H₁，H₂...H_i。也就是说，在每个第三直方图中使用峰值的软掩码。在方框308中，则将这些直方图H₁，H₂...H_i合并为一个直方图H(表示为第二直方图)。具体来说，合并第三直方图以通过以下方式生成第二直方图：针对每个直方图索引，使用所有第三直方图中的最大值作为第二直方图中针对这个直方图索引的值(表示为“最大值”)。

在方框309中，对直方图H进行可选的低通滤波。具体地，可使用高斯滤波器。然后，在方框309中，将第二直方图中的Q个最突出的峰值确定为Q个估计的DOA结果θ，并且输出这些峰值。

图4更详细地示出了从相位差矩阵μ₀生成复制相位差矩阵μ，如图3中设备100的方框301所示。

该步骤的目的是在所有可能的正弦周期中获得一个(复制)相位差矩阵μ。低于

的频带处于正确的正弦周期中，因此，对于这些频率，不会将μ₀复制到其它正弦周期。

中的频带在区间[-π，π]外可以有最多1个正弦周期。将这个规则应用于较高频带可以描述为：

C_s＝(-C，-C+1，...，0，...，C)

μ(i，j)＝μ₀(i)+2πC_s(j)

i＝1，...N；j＝1，...(2C+1)；

其中，

表示向下取整流程，μ是复制矩阵。目前，μ包含正确的正弦周期中的μ₀，还包含由该步骤引入的一些错误。

图4在左侧具体示出了复制相位差矩阵μ中的依赖于频率的相位差值。图中的粗线表示相位差矩阵μ₀中已经包含的相位差值。图中的所有其它值都是复制到其它正弦周期的值。

图5更详细地示出了方框302中的根据复制相位差矩阵μ来计算DOA值θ的矩阵。

复制相位差矩阵μ中的每个相位差值有一个对应的DOAθ。如下将μ转变为包括这些θ的DOAθ：

θ(i，j)表示频率点索引i和复制索引j的DOA值，Δd表示两个麦克风单元203之间的距离。

图5在左侧具体示出了依赖于频率的DOA值。沿着粗线的DOA值对应于相位差矩阵μ₀中的相位差值，而其它值是由复制步骤产生的。

现在，

可定义正确的正弦周期中的相位差，DOA的对应转变值可定义为

众所周知，理论上，

在干净(噪音低)的场景中是恒定的。这一属性可以表示为

通过简化以上方程式(6)，不同频率之间的

的关系可以确定为

当相位差出于错误的正弦周期中时，

(n≠0，n∈Z)。错误估计的DOA定义为

当满足如下条件时，

为复数：

因此，优选地从θ中删除所有复值。

图6更详细地示出了随后如何收集剩余值并在方框303中将这些值转变为[-90，90]度内的直方图h，其中h的长度表示为N_h。

通过上述方程式(6)和所提及的简化，获得不同频率之间的

差关系，如下：

p≠q (9)

这证明

是沿频率轴的单调变量。再加上

的恒定性，当θ被转变为直方图h时，正确峰的幅度比源于

的峰要高。

图6具体比较了源自“原始”相位差矩阵μ₀的DOA值的直方图(左侧)与从μ获得的直方图h(这里Q＝1)。本发明的有利作用是显而易见的，即，正确峰(这里DOA为-54.9°)的突出非常明显。

如果声源202是宽带信号并且场景很干净，则可以通过Q突出度最高的峰的位置来估计DOA结果。如果场景较嘈杂和/或一些声源202较弱，则对应峰的突出度可能比源于

的峰的突出度小。

为了使设备100执行的估计更稳健，在这种情况下，可从直方图h中选取Q’＝Q+q个峰作为DOA候选项(实际上q为2，但是其也可以是其它整数值，例如3或更大的值)。

这在图7中示出，图7更详细地示出了在方框304中检测直方图h中的峰。图7在左侧具体示出了在这种情况下检测到-54.9°的(正确)峰以及分别为-36.4°和-21.9°的两个其它峰(其中Q＝1，q＝2)。然后，可应用进一步后处理(具体是一个或多个掩码步骤)以保留正确的峰并减弱来源于

的峰。

图8具体更详细地示出了在方框305中执行的二进制掩码。图9更详细地示出了在方框307中执行的软掩码。

为了评估所选定的峰(DOA候选项)是否与实际声源202相对应并且非混叠峰，对每个峰进行单独处理。第k个峰的位置表示为pk，根据方程式(3)，对应的混叠频率可以确定为

通过使用这些频率索引，可以应用二进制掩码以针对源于θ的对应峰选择假定正确的正弦周期中的相位的DOA值。针对一个峰值选择相关DOA值的过程可描述为：

i＝1，...，N (10)

其中θ_k包括第k个峰及其相关DOA值。

图8示出了这种二进制掩码的结果。具体而言，图8(在顶部)通过图表展示了针对每个选定峰的频率相关DOA值(这里选择了-54.9°、-36.4°和-21.9°的三个峰，参见图7)。沿粗线的DOA值是各个峰(DOA候选项)的相关DOA值。

然后，将每个峰的θ_k转变为直方图h_k。也就是说，针对第k个选定DOA候选项及其相关DOA值生成直方图h_k，如图9(在其顶部)所示。具体而言，图9针对每个选定DOA候选项示出了三个直方图，即，与各个选定峰及其对应DOA值相对应的直方图。如图8所示，对于-54.9°的第一个峰，仅横线上的DOA值是相关的。因此，仅有一个直方图尖峰。

现在可对与第k个峰相关的直方图h_k应用软掩码M_k，以便突出正确的峰。每个峰的掩码可以相同，也可以不同。图9针对这一方面(在其底部)示出了在方框307中应用的软掩码的更多细节。软掩码可选择性地与低通滤波相结合。对图9顶部的各直方图h₁，h₂...h_i应用软掩码后得到底部所示的直方图H₁，H₂...H_i。可以看出，在软掩码直方图中，与选定DOA候选项相对应的峰得到增强。

理论上，混叠峰的宽度较大。相比之下，正确峰p_k的宽度在0°时较小，随着峰接近±90°而增大。通过这一属性，可将软掩码设计为峰值滤波器，其在0°时的宽度较小，在±90°时的宽度较大。关于第k个选定DOA候选项，实际的软掩码可以优选地设计为：

i＝1，...，N_h (11)

其中f_nh表示所考虑的最高频率。

优选地根据下式通过Schur积(°)来应用软掩码：

H_k＝h_k°M_k (12)

图10和图11更详细地示出了方框308中的将三个直方图H₁，H₂...H_i合并为第二直方图H，以及最后在方框309中的对直方图H应用低通滤波并估计DOA结果。

根据下式按“最大值”将源自峰候选项的掩码直方图合并为H：

H(i)＝max(H₁(i)，...，H_k(i)，...H_Q′(i)) (13)

图10示出了合并的DOA直方图H。

进一步对该直方图H优选地应用低通滤波器，更优选地应用高斯滤波器。更优选地，建议应用标准偏差σ等于麦克风设置中的最低定位分辨率的高斯滤波器。设置这个偏差是为了平衡峰高使其更接近0°或90°。理论上，混叠峰的宽度较大，而正确峰的宽度在0°时较小，并且正确峰的宽度随着峰接近±90°而增大。因此，以这种方式使用软掩码有助于更可靠地检测正确的峰。用于求最低分辨率的简化方程式如下：

其中f_s表示采样率。

最后，按峰的突出度从(可选地，低通滤波后的)直方图H中选择Q个峰。这些峰的位置是设备100输出的DOA结果。

图11和图12针对这一方面比较了设备100的直方图H与传统设备生成的直方图。图11具体在左侧示出了传统设备的针对约-55°的一个声源DOA(Q＝1)的直方图，在右侧示出了设备100生成的对应直方图H。图12进一步在左侧示出了传统设备的针对约-55°、-15°和30°的多个声源DOA(Q＝3)的直方图，在右侧示出了设备100的对应直方图H。可以看出，在设备100生成的直方图H中，正确DOA处的峰更干净、更明显。因此，将可以更准确、更稳健地估计θ，尤其是在嘈杂环境中。

因此，本发明的设备100提高了使用麦克风或麦克风阵列的声源定位的稳健性和准确性，尤其是当麦克风之间的距离较大时。这种设备100或装置200可能应用在远程语音接收设备中、平板电脑中、手机中或电话会议设备中，等等。在每种应用中，本发明确切地减少或消除了负面的空间混叠效应。

已经结合作为实例的不同实施例以及实施方案描述了本发明。但本领域技术人员通过实践所请发明，研究附图、本公开以及独立权项，能够理解并获得其它变体。在权利要求以及描述中，术语“包括”不排除其它元件或步骤，且“一个”并不排除复数可能。单个元件或其它单元可满足权利要求书中所叙述的若干实体或项目的功能。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能在有利的实现方式中使用。

Claims

1.一种用于估计来自Q≥1个声源(202)的声音的到达方向(Direction of Arrival，DOA)的设备(100)，其特征在于，所述设备(100)用于：

获取包含测量出的相位差值的相位差矩阵，所述测量出的相位差值中的每一个是两个麦克风单元(203)之间针对所述声音的频率范围中的一个频率点的相位差测量值；

通过将所述测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵；

针对所述复制相位差矩阵中的每个相位差值计算DOA值；以及

将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定为Q个DOA结果；

其中，通过基于下式定义的最小混叠频率复制所述测量出的相位差值来生成所述复制相位差矩阵：

其中，Δd表示所述两个麦克风单元(203)之间的距离，c是声速；

将所述相位差矩阵中的所述测量出的相位差值包裹在[–π,π]中；以及

所述设备(100)用于根据下式生成所述复制相位差矩阵：

C_s＝(-C,-C+1,…,0,…,C)

μ(i,j)＝μ₀(i)+2πC_s(j)

i＝1,…N；j＝1,…(2C+1)

表示上限函数。

2.根据权利要求1所述的设备(100)，其特征在于，用于：

基于以下公式计算所述DOA值：

其中，θ(i,j)表示频率点索引i和复制索引j的所述DOA值，μ表示所述复制相位差矩阵，Δd表示所述两个麦克风单元(203)之间的距离。

3.根据权利要求1所述的设备(100)，其特征在于，用于：

根据所述计算出的DOA值生成第一直方图；以及

将所述第一直方图中的Q个最突出的峰值确定为所述Q个DOA结果。

4.根据权利要求1所述的设备(100)，其特征在于，用于：

根据所述计算出的DOA值生成第一直方图；

选择所述第一直方图中的Q+q个最突出的峰值作为Q+q个DOA候选项，其中q＝2；

基于所选定的Q+q个DOA候选项生成第二直方图；以及

将所述第二直方图中的Q个最突出的峰值确定为所述Q个DOA结果。

5.根据权利要求3或4所述的设备(100)，其特征在于，用于：

在生成所述第一直方图之前，删除计算出的复杂DOA值。

6.根据权利要求4所述的设备(100)，其特征在于，为了生成所述第二直方图，所述设备(100)用于：

根据所述计算出的DOA值为每个选定的DOA候选项确定其相关DOA值；

根据每个选定的DOA候选项及其相关DOA值生成第三直方图；以及

通过合并所有选定的DOA候选项的所述第三直方图来生成所述第二直方图。

7.根据权利要求6所述的设备(100)，其特征在于，用于：

合并所有选定的DOA候选项的所述第三直方图以通过以下方式生成所述第二直方图：

针对每个直方图索引，使用所有所述第三直方图中的最大值作为所述第二直方图中针对这个直方图索引的值。

8.根据权利要求6所述的设备(100)，其特征在于，用于：

通过以下方式确定DOA候选项的所述相关DOA值：

将所述复制相位差矩阵中的位于假定正确的正弦周期中的所述相位差值确定为其相关相位差值；以及

根据其相关相位差值计算其相关DOA值。

9.根据权利要求6所述的设备(100)，其特征在于，用于：

在将所述第三直方图合并为所述第二直方图之前，对每个所述第三直方图中的所述峰值应用软掩码，

其中所述软掩码被设计为峰值滤波器，其在DOA为0°时的宽度较小，在DOA为±90°时的宽度较大。

10.根据权利要求9所述的设备(100)，其特征在于，用于：

在确定所述Q个DOA结果之前，对所述第二直方图应用低通滤波器，其中为具有根据下式的标准偏差σ的高斯滤波器：

其中f_s表示采样率。

11.根据权利要求1所述的设备(100)，其特征在于：

每个麦克风单元(203)包括含一个或多个麦克风的阵列；以及

已根据所述麦克风单元(203)中的一个的所述一个或多个麦克风与所述麦克风单元(203)中的另一个的所述一个或多个麦克风之间的测量出的相位差获得了所述相位差矩阵中的所述一个或多个测量出的相位差值。

12.一种用于确定来自Q≥1个声源(202)的声音的到达方向(Direction of Arrival，DOA)的装置(200)，其特征在于，所述装置(200)包括：

根据权利要求1至11之一所述的设备(100)；以及

包括两个麦克风单元(203)的声音接收器(201)，用于接收所述声音，生成相位差矩阵，并将所述相位差矩阵提供给所述设备(100)。

13.一种用于估计来自Q≥1个声源(202)的声音的到达方向(Direction of Arrival，DOA)的方法，其特征在于，所述方法包括：

获取(111)包含测量出的相位差值的相位差矩阵，所述测量出的相位差值中的每一个是两个麦克风单元(203)之间针对所述声音的频率范围中的一个频率点的相位差测量值；

通过将所述测量出的相位差值复制到其它可能的正弦周期来生成(112)复制相位差矩阵；

针对所述复制相位差矩阵中的每个相位差值计算(113)DOA值；以及

将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定(114)为Q个DOA结果；

根据下式生成所述复制相位差矩阵：

C_s＝(-C,-C+1,…,0,…,C)

μ(i,j)＝μ₀(i)+2πC_s(j)

i＝1,…N；j＝1,…(2C+1)

表示上限函数。