CN112652320A

CN112652320A - 声源定位方法和装置、计算机可读存储介质、电子设备

Info

Publication number: CN112652320A
Application number: CN202011399188.3A
Authority: CN
Inventors: 赵明宇; 朱长宝
Original assignee: Shenzhen Horizon Robotics Science and Technology Co Ltd
Current assignee: Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-04-13
Anticipated expiration: 2040-12-04
Also published as: CN112652320B

Abstract

本公开实施例公开了一种声源定位方法和装置、计算机可读存储介质、电子设备，其中，方法包括：通过声音采集设备获得在当前时间点之前的预设时间段内的多帧语音信号；分别针对所述多帧语音信号中的每一帧语音信号确定一个声源定向结果，得到与每一帧语音信号对应的声源定向结果；基于所述与每一帧语音信号对应的声源定向结果确定声源集合和噪声集合；基于所述声源集合和所述噪声集合，确定所述有效时间段内声源对应的综合定向结果。本公开实施例使用噪声集合的定向分布对声源集合的声源定向结果进行加权，进一步减少噪声干扰对语音定向的影响，得到最终的唤醒段的综合声源定向结果，具有更高的抗干扰性能。

Description

声源定位方法和装置、计算机可读存储介质、电子设备

技术领域

本公开涉及声源定向技术领域，尤其是一种声源定位方法和装置、计算机可读存储介质、电子设备。

背景技术

声音识别和定位技术是一项涵盖声学、电子学、信号处理等诸多学科的新技术，在军事、助听设备、视频会议系统、安全监控以及机器人定位等领域均有着广泛的应用。但是现实中，由于声音信号的特殊性及声场环境的复杂性，对于声音定位技术的理论算法仿真研究较为活跃，但目前的声源定位技术存在声源定向分辨率低，低信噪比时声源定向准确率下降等缺点。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种声源定位方法和装置、计算机可读存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种声源定位方法，包括：

通过声音采集设备获得在当前时间点之前的预设时间段内的多帧语音信号；

分别针对所述多帧语音信号中的每一帧语音信号确定一个声源定向结果，得到与每一帧语音信号对应的声源定向结果；

基于所述与每一帧语音信号对应的声源定向结果确定声源集合和噪声集合；

基于所述声源集合和所述噪声集合，确定所述有效时间段内声源对应的综合定向结果。

根据本公开实施例的另一方面，提供了一种声源定位装置，包括：

语音采集模块，用于通过声音采集设备获得在当前时间点之前的预设时间段内的多帧语音信号；

声源定向模块，用于分别针对所述语音采集模块获得的多帧语音信号中的每一帧语音信号确定一个声源定向结果，得到与每一帧语音信号对应的声源定向结果；

集合分组模块，用于基于所述声源定向模块得到的与每一帧语音信号对应的声源定向结果确定声源集合和噪声集合；

综合定向模块，用于基于所述集合分组模块确定的声源集合和所述噪声集合，确定所述有效时间段内声源对应的综合定向结果。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述实施例所述的声源定位方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述实施例所述的声源定位方法。

基于本公开上述实施例提供的一种声源定位方法和装置、计算机可读存储介质、电子设备，使用噪声集合的定向分布对声源集合的声源定向结果进行加权，进一步减少噪声干扰对语音定向的影响，得到最终的唤醒段的综合声源定向结果，具有更高的抗干扰性能。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的声源定位方法的流程示意图。

图2是本公开另一示例性实施例提供的声源定位方法的流程示意图。

图3是本公开图2所示的实施例中步骤202的一个流程示意图。

图4是本公开图3所示的实施例中步骤2024的一个流程示意图。

图5是本公开图3所示的实施例中步骤2021的一个流程示意图。

图6是本公开又一示例性实施例提供的声源定位方法的流程示意图。

图7是本公开图2所示的实施例中步骤204的一个流程示意图。

图8是本公开一示例性实施例提供的声源定位装置的结构示意图。

图9是本公开另一示例性实施例提供的声源定位装置的结构示意图。

图10是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/ 或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，现有的声源定位方法包括基于时延差的声源定向方法，但是该方法至少存在以下问题：声源定向分辨率低，低信噪比时声源定向准确率下降。

示例性系统

图1是本公开一示例性实施例提供的声源定位方法的流程示意图。该实施例提供的方法包括以下步骤：

第一步，估计语音存在概率，估计出唤醒段第m帧数据的时频域语音存在概率q(m,k)，将语音存在概率在频域进行相加得到时域语音存在概率q(m)。具体可包括以下步骤：

步骤101：声音同步采集，利用由两个或两个以上的麦克风组成的采集模块同步采集当前的环境的声音，获得的声音中可能包括语音以及对应的干扰，其中，干扰可以包括例如，电视机声音、收音机声音等，该采集模块包含但不限于模拟麦克风阵列，还可以包括对应的模拟数字转换器等，其中，模拟数字转换器可用于对采集的模拟信号转换为数字信号。

步骤103：时频域语音存在概率估计。

步骤105：时域语音存在概率计算。

第二步，语音段和噪声段划分，当时域语音存在概率q(m)大于阈值ε时，则该帧为语音并将语音噪声标记flag(m)设置为1，否则是噪声，flag(m)设置为0。具体可包括以下步骤：

步骤107：语音噪声标记计算。

第三步，频域加权声源定向。具体可包括以下步骤：

步骤109：频域加权系数计算。

步骤1011：频域加权声源定向。

第四步，声源定向结果分类，如果第m帧的语音噪声标记flag(m)等于1，则将该帧的声源定向结果放到语音集合A，否则，将声源定向结果放到噪声集合B。具体可包括以下步骤：

步骤1013：确定语音声源定向集合A。

步骤1015：确定噪声声源定向集合B。

第五步，声源定向时域加权，唤醒段的每一帧数据都执行完以上四个步骤后，利用集合B的分布和集合A的分布，得到唤醒段的综合定向结果。

步骤1017：唤醒声源定向结果确定，利用噪声声源定向集合的分布对语音声源定向集合的分布进行加权得到最终的唤醒声源定向结果，

本公开提供的声源定位方法，利用估计的语音存在概率对声源定向的能量分布进行频域加权，提高低信噪比时每一帧数据的声源定向准确率。并且利用估计的语音存在概率对声源定向的结果分类，得到噪声干扰数据和语音数据的声源定向分布，再使用噪声干扰的声源定向分布对语音的声源定向结果进行加权，进一步减少噪声干扰对语音定向的影响，得到最终的唤醒段的综合声源定向结果，具有更高的抗干扰性能。

示例性方法

图2是本公开另一示例性实施例提供的声源定位方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤201，通过声音采集设备获得在当前时间点之前的预设时间段内的多帧语音信号。

可选地，可以如图1所示实施例中的步骤101中获得声音信号的方式获得多帧语音信号，其中，两个或两个以上的麦克风的分布可以是任意分布方式，例如：分布式分布或集中分布，分布式分布是多个麦克风之间间隔距离较大；而集中分布是多个麦克风之间间隔距离较小，例如，集中分布构成麦克风阵列等，例如，利用多个麦克风组成的麦克风阵列获得多帧语音信号，其中，预设时间段可以对应图1实施例中的唤醒段。

步骤202，分别针对多帧语音信号中的每一帧语音信号确定一个声源定向结果，得到与每一帧语音信号对应的声源定向结果。

在一实施例中，可以如图1提供的实施例中第三步所示，计算频域加权系数，然后计算每个频点的能量分布，并使用加权系数对每个频点的能量进行加权求和，根据加权后的能量分布确定该帧的声源定向结果，进而确定每一帧语音信号对应的声源定向结果。

步骤203，基于与每一帧语音信号对应的声源定向结果确定声源集合和噪声集合。

例如，如图1提供的实施例中第二步所示，具体地，首先利用语音存在概率 q(m,k)计算频域加权系数w_m，然后计算每个频点的能量分布，并使用加权系数w_m对每个频点的能量进行加权求和，即语音存在概率高的频带具有较高的加权系数，最后根据加权后的能量分布确定该帧的声源定向结果。

步骤204，基于声源集合和噪声集合，确定有效时间段内声源对应的综合定向结果。

可选地，可参照图1提供的实施例中第五步所示的过程确定综合定向结果，利用声源集合的分布和噪声集合的分布进行加权，确定唤醒段的综合定向结果。

本公开上述实施例提供的一种声源定位方法，使用噪声集合的定向分布对声源集合的声源定向结果进行加权，进一步减少噪声干扰对语音定向的影响，得到最终的唤醒段的综合声源定向结果，具有更高的抗干扰性能。

如图3所示，在上述图2所示实施例的基础上，步骤202可包括如下步骤：

步骤2021，分别对多帧语音信号中的每一帧语音信号进行处理，得到多个语音存在概率值。

其中，每个语音存在概率值为一帧语音信号中的一个频点存在语音的概率。

可选地，对语音信号的处理过程可参照图1提供的实施例中步骤103所示，具体地，首先利用第n(n＝1，2，...，N)个麦克风的接收信号估计出该麦克风的时频域语音存在概率，其中，时频域语音存在概率表示是否存在语音的概率，概率获得方式例如，假设一个高斯信号，验证是否符合高斯函数；然后将N路时频域语音存在概率进行相加求平均得到最终的语音存在概率q(m，k)，m＝1，2，...M，k 1，2，...，K，其中，N代表麦克风数量，M代表唤醒段总帧数，K代表总的频点数，其中，频点数由采样频率决定。

步骤2022，基于多个语音存在概率值确定每一帧语音信号中每个频点对应的加权系数。

本实施例中，可利用图1提供的实施例中步骤109所示，其核心思想就是在语音存在概率高的频点给予更高的加权系数，加权系数的计算公式可以为以下公式(1)所示：

其中，α，β为修正系数(根据经验值设定)，∈为频域加权系数的硬阈值(取值可根据情况预先设定)，均为大于0的常数；基于公式(1)确定每一帧语音信号中每个频点对应的加权系数。

步骤2023，基于多帧语音信号确定每一帧语音信号中每个频点对每个角度的能量分布值。

其中，角度指以麦克风为原点到声源位置的方向角度；可选地，可利用基于波束形成的方法确定能量分布值，例如，如图1提供的实施例步骤1011所示，具体地，使用SRP(Steered Response Power)方法得到每个频率每个角度的能量分布E(θ，k)，其中，θ代表角度(该角度表示以麦克风为中心，语音的方向)，k 代表频点。

步骤2024，基于每一帧语音信号中每个频点对应的加权系数和每一帧语音信号中每个频点对每个角度的能量分布值，确定每一帧语音信号的声源定向结果。

可选地，确定每一帧语音信号的声源定向结果基于上述步骤得到的加权能量分布值确定，以加权能量分布值最大值所对应的角度作为第m帧语音信号的声源定向结果；具体地，用步骤109计算的加权系数对E(θ，k)进行加权求和(在频域进行加权求和)得到加权能量分布值E_w(θ)，加权能量分布值的获得可以基于以下公式(2)确定：

其中，加权能量分布值E_w(θ)最大值所对应的角度就是该帧数据的声源定向结果，本实施例中对每帧数据确定一个角度，本实施例利用估计的语音存在概率对声源定向的能量分布进行频域加权，提高低信噪比时每一帧数据的声源定向准确率。

如图4所示，在上述图3所示实施例的基础上，步骤2024可包括如下步骤：

步骤401，基于每一帧语音信号中每个频点对应的加权系数对每一帧语音信号中每个频点对每个角度的能量分布值进行在频点上的加权求和，确定每个角度对应的能量值。

其中，每个角度的能量值可基于上述实施例中公式(2)计算得到，其中，θ代表角度，k代表频点，然后用步骤109计算的加权系数对E(θ，k)进行加权求和得到加权能量分布值E_w(θ)，通过计算不同角度θ对应的能量分布值，即可得到每个角度对应的能量值。

步骤402，基于每个角度对应的能量值，确定每帧语音信号对应的一个角度作为声源定向结果。

在确定每个角度对应的能量值以后，以这些能量值中的最大值对应的角度作为该帧语音信号的声源定向结果(该帧语音信号对应的声源方向)，例如，如上述实施例中公式(2)确定的能量分布值E_w(θ)最大值，为第m帧语音信号的声源定向结果；本实施例通过以能量值最大的角度作为声源定向结果，由于能量值最大表示该方向发出的音量最大，通过结合能量值确定声音定向结果，提高了对每帧语音信号声源定向的准确性。

如图5所示，在上述图3所示实施例的基础上，声音采集设备包括N个声音采集装置；其中，N为大于或等于2的整数；步骤2021可包括如下步骤：

步骤501，针对多帧语音信号中的每一帧语音信号，分别确定N个声音采集装置中的每个声音采集装置对应的时频域语音存在概率，得到N组时频域语音组。

其中，每组时频域语音组中包括多个对应不同频点的时频域语音存在概率。

本实施例中，每一帧语音信号的时频域语音存在概率表示每个麦克风在每个频点数是否存在语音的概率。

步骤502，基于N组时频域语音组中对应相同频点存在时频域语音的概率值，确定每帧语音信号对应的多个语音存在概率值。

可选地，将N路时频域语音存在概率进行相加求平均得到最终的语音存在概率q(m，k)，其中，由于每帧语音信号对应多个频点，因此，每帧语音信号可得到 K(频点数)个语音存在概率。

步骤503，基于每一帧语音信号对应的多个语音存在概率值，得到多帧语音信号对应的多个语音存在概率值。

本实施例中，为了每一帧语音信号确定了多个语音存在概率，此时多帧语音信号，即对q(m，k)中的m进行取值，得到M个语音信号，例如，当M代表唤醒段总帧数，K代表总的频点数时，M帧语音信号可得到M*K个语音存在概率，本实施例通过对N路麦克风的时频域信号加权平均确定语音存在概率值，由于综合了多路位置不同的麦克风的时频域信号，克服了仅以一个麦克风的时频域信号确定语音存在概率值时，由于一个麦克风的位置不对而导致的声源定向不准确问题，因此大大提高了语音存在概率值的准确性，进而获得更准确的声源定向结果。

图6是本公开又一示例性实施例提供的声源定位方法的流程示意图。如图6 所示，包括如下步骤：

步骤601，通过声音采集设备获得在当前时间点之前的预设时间段内的多帧语音信号。

该步骤的实现以及效果与上述实施例中的步骤201类似，在此不再赘述。

步骤602，分别针对多帧语音信号中的每一帧语音信号确定一个声源定向结果，得到与每一帧语音信号对应的声源定向结果。

该步骤的实现以及效果与上述实施例中的步骤202类似，在此不再赘述。

步骤603，对多个语音存在概率值在频域累加，得到多帧语音信号中每一帧语音信号的语音存在概率值。

可选地，可参照图1提供的实施例中步骤105所示，将步骤103估计的时频域语音存在概率在频域相加(对k的所有取值对应的q进行累加)得到时域语音存在概率q(m)。

步骤604，基于每一帧语音信号对应的语音存在概率值与第一预设阈值之间的关系，确定每一帧语音信号的语音类别。

其中，语音类别包括有效语音和噪声。

可选地，可参照图1提供的实施例中步骤107确定每一帧语音信号的类别，例如，将语音存在概率大于第一设定阈值ε的语音信号确定为有效语音，将语音存在概率小于第一预设阈值ε的语义信号确定为噪声，其中，第一预设阈值ε通常为大于0的常数，其具体取值可根据应用场景预先设定。

步骤605，基于与每一帧语音信号对应的声源定向结果确定声源集合和噪声集合。

可选地，基于每一帧语音信号的语音类别，将语音类别为有效语音的语音信号对应的声源定向结果分类到声源集合，将语音类别为噪声的语音信号对应的声源定向结果分类到噪声集合。

根据语音信号的语音类别确定对应的声源定向结果的声源集合，将所有多帧语音信号分类完成后，即可获得声源集合和噪声集合，可参照图1提供的实施例中的步骤1013和步骤1015，通过步骤1013确定声源集合A，通过步骤1015确定噪声集合B；具体地，对于第m帧数据，如果语音噪声标记flag(m)等于1，则将频域加权声源定向结果放到语音声源定向集合A；对于第m帧数据，如果该帧语音噪声标记flag(m)等于0，则将频域加权声源定向结果放到噪声声源定向集合 B。

步骤606，基于声源集合和噪声集合，确定有效时间段内声源对应的综合定向结果。

该步骤的实现以及效果与上述实施例中的步骤204类似，在此不再赘述。

本实施例利用语音存在概率将声源定向结果分为噪声集合B和声源集合A，利用集合B的分布情况对集合A进行加权，进一步减弱噪声干扰对定向的影响，实现低信噪比情况下的稳健声源定向。

如图7所示，在上述图2所示实施例的基础上，步骤204可包括如下步骤：

步骤2041，确定声源集合包括的多个角度中每一个角度的分布频数和噪声集合包括的多个角度中每一个角度的分布概率。

其中，分布频数为声源集合中每个角度出现的次数，分布概率为噪声集合中每个角度出现的次数与角度总数量的比例，例如，噪声集合包括10个角度，60 度出现两次，该角度的分布概率为20％。

步骤2042，基于多个角度中每一个角度的分布频数以及分布概率，确定一个目标角度作为有效时间段内声源对应的综合定向结果。

本实施例的实现可参照图1提供的实施例中步骤1017所示，利用噪声声源定向集合的分布对语音声源定向集合的分布进行加权得到最终的唤醒声源定向结果，具体地，加权方式可以如下：

1)计算噪声声源集合B的分布概率Pn(θ)(计算方式：频数表示每个角度出现的次数，频数除以总帧数得到分布概率)。

2)计算语音声源集合A的分布频数Cs(θ)(计算方式：频数表示每个角度出现的次数，频数除以总帧数得到分布概率)。

3)计算时域加权后的分布频数Csw(θ)，计算方式通过以下公式(3)实现：

Csw(θ)＝Cs(θ)·(1-Pn(θ))^γ 公式(3)

其中，γ为修正系数(取经验值)，Csw(θ)最大值所对应的角度即为唤醒段的综合定向结果。本实施例结合噪声声源定向集合的分布确定最终的唤醒声源定向结果，进一步减少噪声干扰对语音定向的影响。

可选地，上述实施例中的步骤2042可以包括：

针对多个角度中的每一个角度，基于角度的分布概率确定角度的分布频数的权重值，基于权重值对角度对应的分布频数进行时域加权，得到角度对应的综合分布频数。

本实施例中获得综合分布频数的方式可参照上述实施例中的公式(3)所示，即可获得每个角度对应的综合分布频数。

确定多个角度对应的多个综合分布频数中的最大值，将多个综合分布频数中的最大值对应的角度作为有效时间段内声源对应的综合定向结果。

本实施例中，可以对多个综合分布频数进行排序，例如，从小到大或从大到小进行排序，按序即可获得综合分布频数中的最大值，该最大值对应的角度即为唤醒段的综合定向结果，其中，唤醒段为当前时间点之前的预设时间段；并且由于使用噪声干扰的声源定向分布对语音的声源定向结果进行加权，得到最终的唤醒段的综合声源定向结果，具有更高的抗干扰性能。

在一些可选的实施例中，步骤201包括：

通过声音采集设备采集在当前时间点之前的预设时间段内的声音，得到多帧语音模拟信号。

本实施例中的声音采集设备可以为图1提供的实施例中步骤101中提供的两个或两个以上的麦克风组成的采集模块，麦克风采集的信号为模拟信号，因此，得到多帧语音模拟信号。

通过模拟数字转换器对多帧语音模拟信号分别进行模数转换，得到以数字信号表示的多帧语音信号。

可选地，采集模块还可以包括模拟数字转换器，利用模拟数字转换器对获得的语音模拟信号进行模数转换，由于频率估计等操作无法在模拟信号中实现，本实施例通过模数转换，为后续步骤提供了操作基础。

本公开实施例提供的任一种声源定位方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种声源定位方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种声源定位方法。下文不再赘述。

示例性装置

图8是本公开一示例性实施例提供的声源定位装置的结构示意图。如图8所示，本实施例提供的装置包括：

语音采集模块81，用于通过声音采集设备获得在当前时间点之前的预设时间段内的多帧语音信号。

声源定向模块82，用于分别针对语音采集模块81获得的多帧语音信号中的每一帧语音信号确定一个声源定向结果，得到与每一帧语音信号对应的声源定向结果。

集合分组模块83，用于基于声源定向模块82得到的与每一帧语音信号对应的声源定向结果确定声源集合和噪声集合。

综合定向模块84，用于基于集合分组模块83确定的声源集合和噪声集合，确定有效时间段内声源对应的综合定向结果。

本公开上述实施例提供的一种声源定位装置，使用噪声集合的定向分布对声源集合的声源定向结果进行加权，进一步减少噪声干扰对语音定向的影响，得到最终的唤醒段的综合声源定向结果，具有更高的抗干扰性能。

图9是本公开另一示例性实施例提供的声源定位装置的结构示意图。如图9 所示，本实施例提供的装置包括：

语音采集模块81包括：

信号采集单元811，用于通过声音采集设备采集在当前时间点之前的预设时间段内的声音，得到多帧语音模拟信号。

模数转换单元812，用于通过模拟数字转换器对多帧语音模拟信号分别进行模数转换，得到以数字信号表示的多帧语音信号。

声源定向模块82包括：

信号处理单元821，用于分别对多帧语音信号中的每一帧语音信号进行处理，得到多个语音存在概率值。其中，每个语音存在概率值为一帧语音信号中的一个频点存在语音的概率。

系数确定单元822，用于基于多个语音存在概率值确定每一帧语音信号中每个频点对应的加权系数。

能量分布确定单元823，用于基于多帧语音信号确定每一帧语音信号中每个频点对每个角度的能量分布值。

定向结果确定单元824，用于基于每一帧语音信号中每个频点对应的加权系数和每一帧语音信号中每个频点对每个角度的能量分布值，确定每一帧语音信号的声源定向结果。

可选地，定向结果确定单元824，具体用于基于每一帧语音信号中每个频点对应的加权系数对每一帧语音信号中每个频点对每个角度的能量分布值进行在频点上的加权求和，确定每个角度对应的能量值；基于每个角度对应的能量值，确定每帧语音信号对应的一个角度作为声源定向结果。

可选地，声音采集设备包括N个声音采集装置；其中，N为大于或等于2 的整数；信号处理单元821，具体用于针对多帧语音信号中的每一帧语音信号，分别确定N个声音采集装置中的每个声音采集装置对应的时频域语音存在概率，得到N组时频域语音组；每组时频域语音组中包括多个对应不同频点的时频域语音存在概率；基于N组时频域语音组中对应相同频点存在时频域语音的概率值，确定每帧语音信号对应的多个语音存在概率值；基于每一帧语音信号对应的多个语音存在概率值，得到多帧语音信号对应的多个语音存在概率值。

本实施例中，在声源定向模块82和集合分组模块83之间还包括：

类别确定模块85，用于对多个语音存在概率值在频域累加，得到多帧语音信号中每一帧语音信号的语音存在概率值；基于每一帧语音信号对应的语音存在概率值与第一预设阈值之间的关系，确定每一帧语音信号的语音类别；其中，语音类别包括有效语音和噪声。

集合分组模块83，具体用于基于每一帧语音信号的语音类别，将语音类别为有效语音的语音信号对应的声源定向结果分类到声源集合，将语音类别为噪声的语音信号对应的声源定向结果分类到噪声集合。

综合定向模块84，包括：

角度分布确定单元841，用于确定声源集合包括的多个角度中每一个角度的分布频数和噪声集合包括的多个角度中每一个角度的分布概率。

定向结果确定单元842，用于基于多个角度中每一个角度的分布频数以及分布概率，确定一个目标角度作为有效时间段内声源对应的综合定向结果。

可选地，定向结果确定单元842，具体用于针对多个角度中的每一个角度，基于角度的分布概率确定角度的分布频数的权重值，基于权重值对角度对应的分布频数进行时域加权，得到角度对应的综合分布频数；确定多个角度对应的多个综合分布频数中的最大值，将多个综合分布频数中的最大值对应的角度作为有效时间段内声源对应的综合定向结果。

示例性电子设备

下面，参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图10图示了根据本公开实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器 (cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的声源定位方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声源定位方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声源定位方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种声源定位方法，包括：

2.根据权利要求1所述的方法，其中，所述分别针对所述多帧语音信号中的每一帧语音信号确定一个声源定向结果，得到与每一帧语音信号对应的声源定向结果，包括：

分别对所述多帧语音信号中的每一帧语音信号进行处理，得到多个语音存在概率值；其中，每个所述语音存在概率值为一帧语音信号中的一个频点存在语音的概率；

基于所述多个语音存在概率值确定所述每一帧语音信号中每个频点对应的加权系数；

基于所述多帧语音信号确定所述每一帧语音信号中每个频点对每个角度的能量分布值；

基于所述每一帧语音信号中每个频点对应的加权系数和所述每一帧语音信号中每个频点对每个角度的能量分布值，确定所述每一帧语音信号的所述声源定向结果。

3.根据权利要求2所述的方法，其中，所述基于所述每一帧语音信号中每个频点对应的加权系数和所述每一帧语音信号中每个频点对每个角度的能量分布值，确定所述每帧语音信号的所述声源定向结果，包括：

基于所述每一帧语音信号中每个频点对应的加权系数对所述每一帧语音信号中每个频点对每个角度的能量分布值进行在频点上的加权求和，确定所述每个角度对应的能量值；

基于所述每个角度对应的能量值，确定所述每帧语音信号对应的一个角度作为所述声源定向结果。

4.根据权利要求3所述的方法，其中，所述声音采集设备包括N个声音采集装置；其中，N为大于或等于2的整数；

所述分别对所述多帧语音信号中的每一帧语音信号进行处理，得到多个语音存在概率值，包括：

针对所述多帧语音信号中的每一帧语音信号，分别确定所述N个声音采集装置中的每个声音采集装置对应的时频域语音存在概率，得到N组所述时频域语音组；所述每组时频域语音组中包括多个对应不同频点的时频域语音存在概率；

基于所述N组时频域语音组中对应相同频点存在时频域语音的概率值，确定所述每帧语音信号对应的多个语音存在概率值；

基于所述每一帧语音信号对应的多个语音存在概率值，得到所述多帧语音信号对应的多个语音存在概率值。

5.根据权利要求2-4任一所述的方法，在基于所述与每一帧语音信号对应的声源定向结果确定声源集合和噪声集合之前，还包括：

对所述多个语音存在概率值在频域累加，得到所述多帧语音信号中每一帧语音信号的语音存在概率值；

基于所述每一帧语音信号对应的语音存在概率值与第一预设阈值之间的关系，确定所述每一帧语音信号的语音类别；其中，所述语音类别包括有效语音和噪声。

6.根据权利要求5所述的方法，其中，所述基于所述与每一帧语音信号对应的声源定向结果确定声源集合和噪声集合，包括：

基于所述每一帧语音信号的语音类别，将所述语音类别为有效语音的语音信号对应的所述声源定向结果分类到所述声源集合，将所述语音类别为噪声的语音信号对应的所述声源定向结果分类到所述噪声集合。

7.根据权利要求1所述的方法，其中，所述获得在当前时间点之前的预设时间段内的多帧语音信号，包括：

通过声音采集设备采集在当前时间点之前的预设时间段内的声音，得到多帧语音模拟信号；

通过模拟数字转换器对所述多帧语音模拟信号分别进行模数转换，得到以数字信号表示的所述多帧语音信号。

8.一种声源定位装置，包括：

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的声源定位方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的声源定位方法。