CN107290723A

CN107290723A - 声源定位方法、装置和电子设备

Info

Publication number: CN107290723A
Application number: CN201710483444.9A
Authority: CN
Inventors: 徐荣强
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2017-10-24
Anticipated expiration: 2037-06-22
Also published as: CN107290723B

Abstract

公开了一种声源定位方法、装置和电子设备。所述方法包括：确定分布于两个或更多设备上的至少三个声音采集器件的位置；分别接收至少三个声音采集器件从声源所采集的输入信号；以及根据接收的输入信号的差别确定声源的三维空间位置。因此，可以通过分布于多个设备上的多个声音采集器件组成阵列，实现声源的精准定位。

Description

声源定位方法、装置和电子设备

技术领域

本申请涉及音频技术领域，且更具体地，涉及一种声源定位方法、装置、电子设备、计算机程序产品和计算机可读存储介质。

背景技术

在智能家居应用背景下，现有技术通常在每个设备上安置麦克风阵列进行声源定位，为了实现不同的定位需求，每个设备上一般设置2-4个麦克风。

比如在家庭环境中可能有空调、电视、洗衣机、冰箱、音响等等，如果上述5种设备中的每个设备都需要2-4个麦克风做定位，那么总共将需要10-20个麦克风。这就导致了麦克风资源的复用率低。另外，现有技术中的声源定位方法只能对声源进行定向，而不能实现声源的精确定位。

但是，声源的三维空间定位对智能家居应用的声音控制具有重要意义，而现有的声源定位方法仍然不能满足这种需求。

发明内容

鉴于上述现有技术状况，提出了本申请。本申请的实施例提供了一种声源定位方法、装置、电子设备、计算机程序产品和计算机可读存储介质，其可以通过分布于多个设备上的多个声音采集器件组成阵列，实现声源的精准定位。

根据本申请的一个方面，提供了一种声源定位方法，包括：确定分布于两个或更多设备上的至少三个声音采集器件的位置；分别接收至少三个声音采集器件从声源所采集的输入信号；以及根据接收的输入信号的差别确定声源的三维空间位置。

根据本申请的另一方面，提供了一种声源定位装置，包括：分布位置确定单元，用于确定分布于两个或更多设备上的至少三个声音采集器件的位置；信号接收单元，用于分别接收至少三个声音采集器件从声源所采集的输入信号；以及声源位置确定单元，用于根据接收的输入信号的差别确定声源的三维空间位置。

根据本申请的另一方面，提供了一种电子设备，包括：处理器；存储器；以及存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行上述的声源定位方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的声源定位方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的声源定位方法。

与现有技术相比，采用根据本申请实施例的声源定位方法、装置、电子设备、计算机程序产品和计算机可读存储介质，可以分别接收分布于两个或更多设备上的至少三个声音采集器件从声源所采集的输入信号；以及根据接收的输入信号的差别确定声源的三维空间位置。因此，可以通过分布于多个设备上的多个声音采集器件组成阵列，实现声源的精准定位。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了传统的基于时延估计的声源定位方法。

图2A到2C图示了根据本申请实施例的声源定位操作的应用场景的示意图。

图3图示了根据本申请实施例的声源定位方法的流程图。

图4图示了根据本申请实施例的声音采集器件的位置确定步骤的流程图。

图5图示了根据本申请实施例的确定设备的基准位置的三维坐标的步骤的流程图。

图6图示了根据本申请实施例的确定声源的三维坐标的步骤的流程图。

图7图示了根据本申请另一实施例的确定声源的三维坐标的步骤的流程图。

图8A和图8B分别图示了与图6和图7对应的根据本申请实施例的声源定位的原理图。

图9图示了根据本申请实施例的声源定位装置的框图。

图10图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

在现有技术中，基于单独设备上的麦克风阵列进行声源定位，每个设备都需要2-4个麦克风做定位，在多个设备之间麦克风资源的复用率低。

图1图示了传统的基于时延估计的声源定位方法。如图1所示，在远场模型的情况下，通过两个麦克风接收的信号的延时差，可以对声源进行定向。

具体地，对于无方向性传声器，两个传声器A和B接收到同一声源P的信号的时间先后，反映了声源所在传声器连线的方向，该时间与声音的传播速度有关，也与目标传播距离(声程)有关。图1中目标方向角如下计算：τ_AB＝(PA-PB)/c，其中，L为两个传声器之间的距离，PA-PB为两个传声器之间的声程差，c为声音的传播速度。因此，只要测出传声器A和B之间的时延量τ_AB，即可得到两个传声器之间的声程差，然后可以计算出目标方向角

显然，如图1所示的声源定位方法只能对声源进行定向，而不能实现声源的精确定位。

如上所述，现有的声源定位方法存在缺陷。针对该技术问题，本申请的基本构思是利用空间定位原理，最少只需要3个不在同一直线的麦克风或者4个不在同一平面的麦克风，即可定位声源的空间位置。因此，本申请提出一种声源定位方法、装置、电子设备、计算机程序产品和计算机可读存储介质，其可以将分布于家庭环境中的多个设备上的多个麦克风组成阵列，实现说话用户(声源)的精准定位。

需要说明的是，本申请的上述基本构思不但可以应用于家庭环境中的声音控制应用中，还可以应用于其他系统应用中，只要其中联网的两个或多个设备都具有声音采集器件即可。例如，本申请同样适用于工业环境中的声源定位及其声音控制，其可以充分利用每个设备的麦克风，提高了多个设备之间麦克风资源的复用率。此外，本申请的上述基本构思不但可以应用于语音的声源定位场景中，还可以应用于诸如动物、机器人等其他各种声源的声源定位场景中。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图2A为家庭应用环境的示意图，其中可能具有空调、电视、洗衣机、冰箱、音响等家电设备。该家庭应用环境还具有控制中心，用于对所有设备进行协调控制。在一个示例中，控制中心的功能可以由某个具有足够计算处理能力的、能够与上述家电设备进行通信的单机设备完成。可替代地，该控制中心也可以集成到家庭环境中的上述某个家电设备中，或者，该控制中心也可以分布在多个家电设备之间。由于智能家居声音控制的目的，大部分的家电设备都配备有麦克风(MIC)，如图2B所示的设备100所代表的，空调、电视、洗衣机、冰箱、音响可能配备了一个或多个麦克风。设备100可以是任何类型的电子设备，其还具有位置校准器，用于确定设备100、乃至设备100上的麦克风在预定坐标系中的位置。图2C为声源定位的简化图，其中麦克风MIC 110、MIC 210、…、MIC 310分布于各个设备100上，在本申请的基本构思下，每个设备上可以仅仅配备有一个麦克风，用于采集来自声源105的声音信号。因此，通过将分布于各个设备100上的麦克风MIC 110、MIC 210、…、MIC 310联网，组成麦克风阵列。

上述麦克风，作为声音采集器件，例如可以是全向麦克风和/或指向麦克风。全向麦克风对于来自不同角度的声音，其灵敏度是基本相同的，其头部采用压力感应的原理设计，振膜只接受来自外界的压力。指向麦克风主要采用压力梯度的原理设计，通过头部腔体后面的小孔，振膜接受到正反两面的压力，因此振膜受不同方向的压力并不相同，麦克风具有了指向性。

该声源105可以是任何类型的声源，可以包括发出希望关注的信号源。例如，该声源可以是有生命的声源和无生命的声源。例如，有生命的声源可以包括人和动物等；而无生命的声源可以包括机器人、电视机、音响等。

需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施例不限于此。相反，本申请的实施例可以应用于可能适用的任何场景。例如，在诸如家庭、工业等的任何应用环境中可以包括两个或更多设备，该设备可以包括一个或多个声音采集器件，该声源也可以是一个或多个。

示例性方法

下面结合图2A到2C的应用场景，参考图3来描述根据本申请实施例的声源定位方法。

图3图示了根据本申请实施例的声源定位方法的流程图。

如图3所示，根据本申请实施例的声源定位方法可以包括步骤S100、步骤S200和步骤S300。

在步骤S100中，确定分布于两个或更多设备上的至少三个声音采集器件的位置。

例如，为了对声源105进行定位，需要使用至少三个麦克风采集的输入信号，以用于后续处理。该至少三个麦克风分布于两个或更多设备上，而非安置于同一设备上。最好，该至少三个麦克风中的每个位于不同的设备上，由于家庭应用环境中各个设备的位置通常间隔开一定距离，这样可以带来声源定位计算更精确的好处。

在一个示例中，步骤S100可以由图4的流程图实施。

如图4所示，该步骤S100可以包括：

在步骤S110中，确定每个设备的基准位置在预定坐标系中的三维坐标；以及

在步骤S120中，根据在每个所述设备上所述声音采集器件与所述基准位置之间的预定位置关系，确定所述声音采集器件的三维坐标。

可以通过多种方式实施步骤S110。

在一个示例中，如图5所示，步骤S110可以包括：

在步骤S112中，响应于与所述设备建立初始化连接，向所述设备发送定位触发信号。所述定位触发信号用于触发所述设备上的定位发射器发射定位信号到多个定位信号接收器，所述定位信号接收器在所述预定坐标系中具有已知的三维坐标；

在步骤S114中，从所述多个定位信号接收器接收定位信号；以及

在步骤S116中，根据接收的多个定位信号的延迟信息和所述定位信号接收器的三维坐标，确定所述设备上的定位发射器的三维坐标，作为所述基准位置的三维坐标。

更具体地，所述预定坐标系可以是对家庭环境建立的三维坐标系。例如，设备上可以设有定位发射器，如图2B中所示的位置校准器，而房间的已知位置处可以设有多个(例如，3个)定位接收器(例如，该定位发射器和该定位接收器可以是WIFI、蓝牙、红外等传感器)。当如冰箱的设备布置在室内时，可以通过联网配置将冰箱接入控制中心，在两者之间建立初始化连接。此时，冰箱上的如红外发射装置的定位发射器发射红外信号，房间内的定位接收器(如红外传感器)接收红外信号。根据红外发射和接收的时间以及幅度，通过三角定位原理，可确定出该设备上的定位发射器在房间中的空间坐标，作为该设备的基准位置的三维坐标。

在另一示例中，也可以预先由控制中心对家庭环境系统建立坐标系，并且将坐标系反馈给用户。当设备被布置在家庭环境系统时，如用户将冰箱放在房间的角落，用户可以根据已知的该角落的位置坐标信息和冰箱的维度信息，手动输入冰箱的基准位置(例如，冰箱的底面左前角)的三维坐标，作为该设备的基准位置的三维坐标。

对于步骤S120的具体实施，在一个示例中，如图2B中所示，每个设备还可以在出厂时确定MIC与基准位置(例如，位置校准器的位置或如设备的底面左前角等其它特定基准位置)之间的已知相对位置关系(其例如放置在出厂文件中)，这样即可进一步得到该设备上的MIC在房间中的空间坐标。

在步骤S200中，分别接收至少三个声音采集器件从声源所采集的输入信号。声音采集器件采集声源发出的声音，转换为电信号输入控制中心，其接收声音采集器件从声源所采集的输入信号，进行后续处理。

在一个示例中，设备上的不同声音采集器件可能具有不同的声音转换能力而抵消掉距离不同带来的语音信号差异，因而可以考虑首先对所有声音采集器件进行参数校准。

因此，如图3所示，在步骤S100或者S200之前，根据本申请实施例的声源定位方法还可以包括：

在步骤S105中，预先对声音采集器件进行增益校准，确保所有声音采集器件采集声音的电声转换能力一致。

即，可以调节各声音采集器件的参数，以使得它们保持相同的转换能力。

下面，将在一个具体示例中对该声源定位方法进行说明，其中假设家庭应用环境中至少有3个设备100(例如，电视、洗衣机、冰箱等)，其每个装备有一个麦克风(例如，MIC110/MIC 210/MIC 310)，声源105是用于发出声音控制命令的用户，如图2C所示。当然，如前所述，MIC 110/MIC210/MIC 310也可以分别属于2个设备100。

例如，可以首先对这些设备上的麦克风系统进行参数调校，以使得所有麦克风保持相同的转换能力。其目的在于，对于设备上的所有麦克风的输出保持相同的放大增益和延迟补偿。

例如，如果任何两个麦克风具有不同的放大特性，使得麦克风接收信号后的输出相差超过3dB，那么可以对两者进行增益补偿，以确保两者的放大倍数相同，从而保证后续算法的精度。同样地，对于延迟特性，也可以进行上面的校准操作。

接下来，可以利用校准后的麦克风接收用户发出的语音控制命令(例如，打开电视、调节频道等)。由于麦克风已经校准完毕，所以它们所采集到的输入信号可以精确地反映出其与用户之间的距离差异。

在步骤S300中，根据接收的输入信号的差别确定声源的三维空间位置。

所述输入信号的差别包括相位差和幅度差。相位差反映各声音采集器件接收声音信号的时间差；而幅度差反映声音信号随着不同传播距离的衰减差别。因此，相位差和幅度差都反映着各声音采集器件与声源的距离差。

声波的幅度(或强度)随距离衰减。具体地，在正常情况下，声波与麦克风之间的距离增大一倍，能量衰减6dB，因此，可以根据该能量差确定出声源与麦克风之间的距离之间的倍数。然而，由于衰减的存在，声波的能量差可能难以分辨，往往只有在一定条件下(例如，在麦克风距离声源较近时)才能获得。

如图6所示，该步骤S300可以包括：

在步骤S310中，比较幅度差与一阈值声源；

在步骤S320中，响应于幅度差大于或等于所述阈值，根据所述幅度差来确定所述声源到各声音采集器件的距离之间的倍数关系；以及

在步骤S330中，根据所述相位差来确定所述声源到各声音采集器件的距离差；以及

在步骤S340中，根据所述距离差和所述倍数关系来确定所述声源的三维空间位置。

例如，通过对多个输入信号进行信号分析，确定它们之间的幅度差和相位差；根据所述幅度差来确定所述声源到各声音采集器件之间的距离倍数；根据所述相位差来确定所述声源到各声音采集器件之间的延时差，并且根据所述延时差来计算所述距离差；最后根据距离差和距离倍数来确定所述声源的三维空间位置。

图8A图示了与图6对应的根据本申请实施例的声源定位的原理图。在该实施例中，例如，在声源距离至少一个麦克风比较近的情形，即近场情形，各麦克风采集的信号幅度衰减并非都很大，幅度差可以分辨。因此，在这种情况下，可采用至少三个不在同一直线的麦克风采集的信号，通过幅度差和相位差来确定距离倍数和距离差，具有相对较小的误差。

例如，如图8A所示，可以对来自麦克风MIC A和麦克风MIC B的两个输入信号的语音信号进行广义互相关分析，分析两者之间的相位差，得到延时差Δt_BA。由此，可以知道声源D到麦克风MIC A的距离D_DA和声源到麦克风MIC B的距离D_DB之间的关系为：D_DB-D_DA＝Δt_BA*c，c为声速。类似地，可以知道声源D到麦克风MIC C的距离D_DC和声源到麦克风MIC A的距离D_DA之间的关系为：D_DC-D_DA＝Δt_CA*c。

例如，还可以根据幅度差和距离幅度关系来计算所述倍数关系。具体地，可以对来自麦克风MIC A和麦克风MIC B的两个输入信号中的语音信号进行短时功率谱计算，分析两者之间的幅度衰减，得到幅度差ΔE_BA(或强度差)。由此，根据声波随距离衰减原理，可以确定距离D_DB和D_DA之间的倍数关系。具体地，在正常情况下，声波与麦克风之间的距离增大一倍，能量衰减6dB，因此，可以根据该能量差确定出上述距离之倍数关系。换言之，根据能量差ΔE_BA，可以计算出距离D_DB和D_DA之间的关系为20lg(D_DB/D_DA)＝ΔE_BA。类似地，可以计算出距离D_DC和D_DA之间的关系为20lg(D_DC/D_DA)＝ΔE_CA。

通过求解图8A所示情形的如下方程组，可以计算出声源D的三维坐标(x_D,y_D,z_D)：

D_DA ²＝(x_D-x_A)²+(y_D-y_A)²+(z_D-z_A)²

D_DB ²＝(x_D-x_B)²+(y_D-y_B)²+(z_D-z_B)²

D_DC ²＝(x_D-x_C)²+(y_D-y_C)²+(z_D-z_C)²

D_DB-D_DA＝Δt_BA*c

D_DC-D_DA＝Δt_CA*c

ΔE_BA＝20lg(D_DB/D_DA)

ΔE_CA＝20lg(D_DC/D_DA)

其中，D_DA、D_DB、D_DC分别表示声源D与麦克风A、B、C之间的距离，x、y、z及其下标表示下标点(声源D及麦克风A、B、C)的三维坐标，Δt_BA、Δt_CA分别表示声音信号到达麦克风A和B之间的时间差、声音信号到达麦克风A和C之间的时间差，c为声音的传播速度，ΔE_BA、ΔE_CA分别表示表示声音信号到达麦克风A和B之间的强度差、声音信号到达麦克风A和C之间的强度差。使用7个独立方程求解6个未知数x_D、y_D、z_D、D_DA、D_DB、D_DC，可以求解成功，从而精准确定声源D的三维坐标x_D、y_D、z_D。

在图6所示的实施例中，例如，在近场情形，即声源距离一些麦克风比较近的情形，各麦克风采集的信号幅度衰减差异比较大，幅度差容易分辨(实际上，由于只有6个未知数，而存在7个方程，所以只要能够得到某两个麦克风采集的信号幅度之间的一个幅度差即可)。因此，在这种情况下，可同时利用幅度差和相位差来确定距离差异，可采用至少三个麦克风采集的信号。

相反地，在远场实施例中，难以分辩幅度差，为了避免计算误差太大，可以只利用相位差信息进行后续处理，此时需要来自至少四个声音采集器件的输入信号。例如，如上所述，通过对多个输入信号进行互相关分析，确定它们之间的相位差；根据所述相位差来确定它们之间的延时差；并且根据所述延时差来计算所述距离差。

在实际应用中，例如，可以认为接收的MIC信号的幅度差不超过3dB，则为远场，使用下面的图7所示的实施例；否则为近场，使用上面的图6所示的实施例。

如图7所示，该步骤S300可以包括：

在步骤S310中，比较幅度差与一阈值；

在步骤S332中，响应于幅度差小于所述阈值，根据所述相位差来确定所述声源到至少四个声音采集器件的距离差；以及

在步骤S342中，根据所述距离差来确定所述声源的三维空间位置。

图8B图示了与图7对应的根据本申请另一实施例的声源定位的原理图。在该实施例中，例如，在声源距离所有麦克风比较远的情形，即远场情形，各麦克风采集的信号幅度衰减都很大，幅度差难以分辨，可能给后续计算带来较大误差。因此，在这种情况下，可采用至少四个不在同一平面的麦克风采集的信号，通过相位差来确定距离差，具有相对较小的误差。

例如，如图8B所示，可以对来自麦克风MIC A和麦克风MIC B的两个输入信号的语音信号进行进行广义互相关分析，分析两者之间的相位差，得到延时差Δt_BA。由此，可以知道声源D到麦克风MIC A的距离D_DA和声源到麦克风MIC B的距离D_DB之间的关系为：D_DB-D_DA＝Δt_BA*c，c为声速。类似地，可以知道声源D到麦克风MIC C的距离D_DC和声源到麦克风MIC A的距离D_DA之间的关系为：D_DC-D_DA＝Δt_CA*c；并且可以知道声源D到麦克风MIC E的距离D_DE和声源到麦克风MIC A的距离D_DA之间的关系为：D_DE-D_DA＝Δt_EA*c。

通过求解图8B所示情形的如下方程组，可以计算出声源D的三维坐标(x_D,y_D,z_D)：

D_DA ²＝(x_D-x_A)²+(y_D-y_A)²+(z_D-z_A)²

D_DB ²＝(x_D-x_B)²+(y_D-y_B)²+(z_D-z_B)²

D_DC ²＝(x_D-x_C)²+(y_D-y_C)²+(z_D-z_C)²

D_DE ²＝(x_D-x_E)²+(y_D-y_E)²+(z_D-z_E)²

D_DB-D_DA＝Δt_BA*c

D_DC-D_DA＝Δt_CA*c

D_DE-D_DA＝Δt_EA*c

其中，D_DA、D_DB、D_DC、D_DE分别表示声源D与麦克风A、B、C、E之间的距离，x、y、z及其下标表示下标点(声源D及麦克风A、B、C、E)的三维坐标，Δt_BA、Δt_CA、Δt_EA分别表示声音信号到达麦克风A和B之间的时间差、声音信号到达麦克风A和C之间的时间差、声音信号到达麦克风A和E之间的时间差，c为声音的传播速度。使用7个独立方程求解7个未知数x_D、y_D、z_D、D_DA、D_DB、D_DC、D_DE，可以求解成功，从而精准确定声源D的三维坐标x_D、y_D、z_D。由此可见，图8B所示的声源定位原理没有使用强度差信息，可应用于强度或者强度差难以分辨的情况。

此外，对于如图3所示的步骤S200，可以采用多种方式选择来自多个麦克风的输入信号进行后续处理。例如，在一个示例中，可以根据上述不同实施例的需要，从来自多个麦克风的输入信号中随机选择足够的输入信号(经过幅度差与阈值的比较后)，如3个(对于图6所示的实施例)或者4个(对于图7所示的实施例)。在另一个示例中，可以从来自多个麦克风的输入信号中选择受到噪声干扰小的输入信号。在又一个示例中，可以根据上述不同实施例的需要，选择每3个或4个输入信号作为一组，然后将多组的声源定位结果求平均，以减少噪声样本的影响。

由此可见，采用根据本申请实施例的声源定位方法，可以分别接收分布于两个或更多设备上的至少三个声音采集器件从声源所采集的输入信号；以及根据接收的输入信号的差别确定声源的三维空间位置。因此，可以通过分布于多个设备上的多个声音采集器件组成阵列，实现声源的精准定位。

具体来说，根据本申请实施例的声源定位方法具有以下好处：

1)统一了所有设备的坐标系统，包含设备坐标系统、及设备麦克风及麦克风阵列的空间坐标系统；

2)可以在多个设备上分布麦克风，每个设备只需要一个麦克风即可，利用所有设备麦克风组成麦克风阵列，实现三维定位功能；

3)可以在最大资源利用的前提下实现对声源的精确空间定位。

示例性装置

下面，参考图9来描述根据本申请实施例的声源定位装置。

图9图示了根据本申请实施例的声源定位装置的框图。

如图9所示，根据本申请实施例的所述声源定位装置400可以包括：分布位置确定单元410，用于确定分布于两个或更多设备上的至少三个声音采集器件的位置；信号接收单元420，用于分别接收至少三个声音采集器件从声源所采集的输入信号；以及声源位置确定单元430，用于根据接收的输入信号的差别确定声源的三维空间位置。

在一个示例中，每个所述设备具有一个或多个声音采集器件。

在一个示例中，分布位置确定单元410可以确定每个设备的基准位置在预定坐标系中的三维坐标；以及根据在每个所述设备上所述声音采集器件与所述基准位置之间的预定位置关系，确定所述声音采集器件的三维坐标。

在一个示例中，分布位置确定单元410可以响应于与所述设备建立初始化连接，向所述设备发送定位触发信号，所述定位触发信号用于触发所述设备上的定位发射器发射定位信号到多个定位信号接收器，所述定位信号接收器在所述预定坐标系中具有已知的三维坐标；从所述多个定位信号接收器接收定位信号；以及根据接收的多个定位信号的延迟信息和所述定位信号接收器的三维坐标，确定所述设备上的定位发射器的三维坐标，作为所述基准位置的三维坐标。

在一个示例中，所述定位信号可以包括WIFI、蓝牙或者红外信号，所述定位信号发射器和所述定位信号接收器可以包括对应的WIFI、蓝牙或者红外传感器。

在一个示例中，所述声源定位装置400还可以包括：器件校准单元，用于对所述声音采集器件预先进行增益校准，确保所有声音采集器件采集声音的电声转换能力一致。

在一个示例中，声源位置确定单元430利用的所述输入信号的差别可以包括相位差和幅度差。

在一个示例中，声源位置确定单元430可以比较幅度差与一阈值；响应于幅度差大于或等于所述阈值，根据所述幅度差来确定所述声源到各声音采集器件的距离之间的倍数关系；根据所述相位差来确定所述声源到各声音采集器件的距离差；以及根据所述距离差和所述倍数关系来确定所述声源的三维空间位置。

在一个示例中，声源位置确定单元430可以根据所述声源到各声音采集器件的距离、所述距离差和所述倍数关系，计算所述声源的三维空间位置。

在一个示例中，声源位置确定单元430还可以比较幅度差与一阈值；响应于幅度差小于所述阈值，根据所述相位差来确定所述声源到至少四个声音采集器件的距离差；以及根据所述距离差来确定所述声源的三维空间位置。

在一个示例中，声源位置确定单元430还可以根据所述声源到各声音采集器件的距离和所述距离差，计算所述声源的三维空间位置。

在一个示例中，信号接收单元420可以接收所有声音采集器件从声源所采集的输入信号，并且以如下方式之一选择输入信号：从来自多个声音采集器件的输入信号中随机选择足够数量的输入信号；从来自多个声音采集器件的输入信号中选择受到噪声干扰小的输入信号；或者按照足够数量的输入信号分组选择，然后将根据各组输入信号确定的三维空间位置的多个结果求平均。

上述声源定位装置400中的各个单元和模块的具体功能和操作已经在上面参考图3到图8B描述的声源定位方法中进行了详细介绍，因此，这里将省略其重复描述。

如上所述，根据本申请实施例的声源定位装置400可以实现在声源定位设备中，如图2A所示，该声源定位设备可以是家电设备，也可以是与它们独立的控制中心，也可以分布在两个或多个设备之间。

在一个示例中，根据本申请实施例的声源定位装置400可以作为一个软件模块和/或硬件模块而集成到该声源定位设备中。例如，该声源定位装置400可以是该声源定位设备的操作系统中的一个软件模块，或者可以是针对该声源定位设备所开发的一个应用程序；当然，该声源定位装置400同样可以是该声源定位设备的众多硬件模块之一。

可替代地，在另一示例中，该声源定位装置400与该声源定位设备也可以是分立的设备，并且该声源定位装置400可以通过有线和/或无线网络连接到该声源定位设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图10来描述根据本申请实施例的电子设备。该电子设备可以是图2A中的家电设备、或与其独立的控制中心(单机设备)，该单机设备可以与家电设备进行通信，以从它们接收所采集到的输入信号。可替代地，该电子设备也可以是分布在两个或多个家电设备之间。

图10图示了根据本申请实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的声源定位方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是设备100时，该输入装置13可以是上述的麦克风，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从设备100接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声源定位方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声源定位方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种声源定位方法，包括：

确定分布于两个或更多设备上的至少三个声音采集器件的位置；

分别接收至少三个声音采集器件从声源所采集的输入信号；以及

根据接收的输入信号的差别确定声源的三维空间位置。

2.如权利要求1所述的方法，其中，每个所述设备具有一个或多个声音采集器件。

3.如权利要求1所述的方法，其中，所述确定分布于两个或更多设备上的至少三个声音采集器件的位置包括：

确定每个设备的基准位置在预定坐标系中的三维坐标；以及

根据在每个所述设备上所述声音采集器件与所述基准位置之间的预定位置关系，确定所述声音采集器件的三维坐标。

4.如权利要求3所述的方法，其中，所述确定每个设备的基准位置在预定坐标系中的三维坐标包括：

响应于与所述设备建立初始化连接，向所述设备发送定位触发信号，所述定位触发信号用于触发所述设备上的定位发射器发射定位信号到多个定位信号接收器，所述定位信号接收器在所述预定坐标系中具有已知的三维坐标；

从所述多个定位信号接收器接收定位信号；以及

根据接收的多个定位信号的延迟信息和所述定位信号接收器的三维坐标，确定所述设备上的定位发射器的三维坐标，作为所述基准位置的三维坐标。

5.如权利要求4所述的方法，其中，所述定位信号包括WIFI、蓝牙或者红外信号，所述定位信号发射器和所述定位信号接收器包括对应的WIFI、蓝牙或者红外传感器。

6.如权利要求1所述的方法，其中，所述声音采集器件预先经过增益校准，确保所有声音采集器件采集声音的电声转换能力一致。

7.如权利要求1所述的方法，其中，所述输入信号的差别包括相位差和幅度差。

8.如权利要求7所述的方法，其中，所述根据接收的输入信号的差别确定声源的三维空间位置包括：

比较幅度差与一阈值；

响应于幅度差大于或等于所述阈值，根据所述幅度差来确定所述声源到各声音采集器件的距离之间的倍数关系；

根据所述相位差来确定所述声源到各声音采集器件的距离差；以及

根据所述距离差和所述倍数关系来确定所述声源的三维空间位置。

9.如权利要求8所述的方法，其中，所述根据所述距离差和所述倍数关系来确定所述声源的三维空间位置包括：

根据所述声源到各声音采集器件的距离、所述距离差和所述倍数关系，计算所述声源的三维空间位置。

10.如权利要求7所述的方法，其中，所述根据接收的输入信号的差别确定声源的三维空间位置包括：

比较幅度差与一阈值；

响应于幅度差小于所述阈值，根据所述相位差来确定所述声源到至少四个声音采集器件的距离差；以及

根据所述距离差来确定所述声源的三维空间位置。

11.如权利要求10所述的方法，其中，所述根据所述距离差来确定所述声源的三维空间位置包括：

根据所述声源到各声音采集器件的距离和所述距离差，计算所述声源的三维空间位置。

12.如权利要求1所述的方法，其中，所述分别接收至少三个声音采集器件从声源所采集的输入信号包括：

接收所有声音采集器件从声源所采集的输入信号，并且以如下方式之一选择输入信号：从来自多个声音采集器件的输入信号中随机选择足够数量的输入信号；从来自多个声音采集器件的输入信号中选择受到噪声干扰小的输入信号；或者按照足够数量的输入信号分组选择，然后将根据各组输入信号确定的三维空间位置的多个结果求平均。

13.一种声源定位装置，包括：

分布位置确定单元，用于确定分布于两个或更多设备上的至少三个声音采集器件的位置；

信号接收单元，用于分别接收至少三个声音采集器件从声源所采集的输入信号；以及

声源位置确定单元，用于根据接收的输入信号的差别确定声源的三维空间位置。

14.一种电子设备，包括：

处理器；

存储器；以及

存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-12中任一项所述的方法。