CN116609726A

CN116609726A - 一种声源定位方法及装置

Info

Publication number: CN116609726A
Application number: CN202310531175.4A
Authority: CN
Inventors: 彭博; 黄伟隆; 冯津伟
Original assignee: Dingtalk China Information Technology Co Ltd
Current assignee: Dingtalk China Information Technology Co Ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-18

Abstract

本说明书一个或多个实施例提供一种声源定位方法及装置，所述方法包括：获取目标声源对应的多路波束信号；计算所述多路波束信号所用频点的信噪比，并将信噪比大于预设信噪比阈值的频点作为有效频点；从所述多路波束信号中选取对应的有效频点数量相对更大的预设个数的目标波束信号，并对所述目标波束信号进行声源定位。

Description

一种声源定位方法及装置

技术领域

本说明书一个或多个实施例涉及声源定位领域，尤其涉及一种声源定位方法及装置。

背景技术

声源定位指的是定位声源的位置，最常见的便是人耳的声源定位。相关技术中，通常利用多个麦克风(麦克风阵列)在不同位置点对声源进行测量，而由于波束信号到达不同麦克风的时间有不同程度的延迟(也被称为时延)，利用算法对测量得到的波束信号进行处理，由此获得声源相对于麦克风的到达方向，即方位角。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种声源定位方法及装置，可以解决相关技术中存在的不足。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种声源定位方法，所述方法包括：

获取目标声源对应的多路波束信号；

计算所述多路波束信号所用频点的信噪比，并将信噪比大于预设信噪比阈值的频点作为有效频点；

从所述多路波束信号中选取对应的有效频点数量相对更大的预设个数的目标波束信号，并对所述目标波束信号进行声源定位。

根据本说明书一个或多个实施例的第二方面，提出了一种声源定位装置，所述装置包括：

获取单元：获取目标声源对应的多路波束信号；

计算单元：计算所述多路波束信号所用频点的信噪比，并将信噪比大于预设信噪比阈值的频点作为有效频点；

定位单元：从所述多路波束信号中选取对应的有效频点数量相对更大的预设个数的目标波束信号，并对所述目标波束信号进行声源定位。

根据本说明书一个或多个实施例的第三方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如第一方面所述方法的步骤。

根据本说明书一个或多个实施例的第四方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

根据本说明书一个或多个实施例的第五方面，提出了一种计算机程序，该程序被处理器执行时实现如第一方面所述方法的步骤。

由以上技术方案可见，本说明书一个或多个实施例提供的声源定位方法，一方面，通过从多路波束信号中选取目标波束信号进行声源定位，使得声源定位的对象仅为部分波束信号，减少了声源定位的计算量，提高了声源定位的效率；另一方面，通过将信噪比大于预设信噪比阈值的频点作为有效频点，使得有效频点数量相对更大的预设个数的波束信号被确定为目标波束信号，即将多路波束信号中受噪声影响较小的波束信号确定为目标波束信号，从而避免噪声对声源定位的干扰，增加了声源定位的准确度。

附图说明

图1a是一示例性实施例提供的一种声源定位系统的架构图。

图1b是一示例性实施例提供的另一种声源定位系统的架构图。

图2是一示例性实施例提供的一种声源定位方法的流程图。

图3a是一示例性实施例提供的一种区域划分的示意图。

图3b是一示例性实施例提供的另一种区域划分的示意图。

图4a是一示例性实施例提供的一种时域波束信号的示意图。

图4b是一示例性实施例提供的一种频域波束信号的示意图。

图5是一示例性实施例提供的一种会议场景下的声源标记方法的流程图。

图6a是一示例性实施例提供的一种视频播放界面的示意图。

图6b是一示例性实施例提供的另一种视频播放界面的示意图。

图7是一示例性实施例提供的一种音频设备的测试方法的流程图。

图8是一示例性实施例提供的一种音频设备测试的示意图。

图9是一示例性实施例提供的一种基于音频定位的拍摄控制方法的流程图。

图10是一示例性实施例提供的一种拍摄控制的示意图。

图11是一示例性实施例提供的一种设备的示意结构图。

图12是一示例性实施例提供的一种声源定位装置的框图。

图13是一示例性实施例提供的一种会议场景下的声源标记装置的框图。

图14是一示例性实施例提供的一种音频设备的测试装置的框图。

图15是一示例性实施例提供的一种基于音频定位的拍摄控制装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

为对本说明书一个或多个实施例进行进一步说明，提供下列实施例：

图1a是一示例性实施例提供的一种声源定位系统的架构图，如图1a所示，该架构图包括：麦克风阵列11和声源12。

麦克风阵列11由多个麦克风(麦克风111-116)组成，麦克风111-116置于不同的位置。在实际情况中，麦克风阵列中麦克风的数量可以不限于6个，例如可以为4个或者7个。一般，麦克风阵列所含麦克风数量越多，该麦克风阵列声源定位的精准度越高，成本也越高。

麦克风111-116可以如图1a所示，以线性阵列的形式排列；也可以如图1b所示，以圆形阵列的形式排列，本说明书并不对麦克风阵列的排列形式进行限制。在麦克风阵列11以线性阵列的形式排列的情况下，该麦克风阵列11可以被设置于舞台或者讲座前，便于对线性阵列前方的声源进行声源定位；在麦克风阵列11以圆性阵列的形式排列的情况下，该麦克风阵列11可以被设置于房间中央，便于对四周广阔范围的声源进行声源定位。当然，阵列的排列形式不限于上述两种，例如还可以包括曲线阵列、方形阵列以及椭圆阵列等等，本说明书并不对此进行限制。

麦克风阵列11可以获取声源12发出是波束信号，并对获取到的波束信号进行处理，以对声源12进行声源定位。声源12可以为具备发出声音功能的任何物体。一种情况下，麦克风阵列11自身配置有信号处理模块，该信号处理模块可以对获取到的波束信号进行处理；另一种情况下，麦克风阵列11可以连接有信号处理设备，使得麦克风阵列11可以将获取到的波束信号发送至信号处理设备进行处理。

相关技术中(以图1a为例)，在对声源12进行声源定位时，麦克风阵列11可以获取声源12对应的多路波束信号，包括波束1、波束2和波束L，麦克风阵列11将针对所有波束信号进行声源定位。由于上述方式声源定位的对象包括所有波束信号，因此其计算量较大。并且，麦克风阵列11获取到的波束信号中不仅包括声源12发出的语音信号，还包括噪声信号，若对所有波束信号进行声源定位，则无法避免噪声信号对声源定位的干扰，从而导致声源定位准确度的降低。

为解决相关技术中存在的问题，本说明书提出了一种声源定位方法。

在本说明书提出的声源定位方法中，麦克风阵列11在获取到声源12对应的多路波束信号后，可以计算多路波束信号所用频点的信噪比，并将信噪比大于预设信噪比阈值的频点作为有效频点。通过从多路波束信号中选取对应的有效频点数量相对更大的预设个数的目标波束信号，并对目标波束信号进行声源定位，以得到声源12相对于麦克风阵列11的相对方位。

通过上述方案，一方面，通过从多路波束信号中选取目标波束信号进行声源定位，使得声源定位的对象仅为部分波束信号，减少了声源定位的计算量，提高了声源定位的效率；另一方面，通过将信噪比大于预设信噪比阈值的频点作为有效频点，使得有效频点数量相对更大的预设个数的波束信号被确定为目标波束信号，即将多路波束信号中受噪声影响较小的波束信号确定为目标波束信号，从而避免噪声对声源定位的干扰，增加了声源定位的准确度。

图2是一示例性实施例提供的一种声源定位方法的流程图。如图2所示，该方法可以包括以下步骤：

步骤202，获取目标声源对应的多路波束信号。

声源可以指正在发声的物体，目标声源可以为任一声源。目标声源发出的声音是一种机械波，该机械波可以被麦克风阵列获取，被转化为波束信号。

波束信号本没有路数之分，本说明书可以根据麦克风阵列的角度扫描范围将声源方向分为不同的区域，并将麦克风从不同区域接收到的波束信号分为不同路的波束信号。如图3a所示，圆形麦克风阵列31包含4个麦克风，可以将该麦克风阵列31的角度扫描范围分为四个区域，分别为区域301、区域302、区域303和区域304，其中，区域301对应0-90度，区域302对应90-180度，区域304对应180-270度，区域303对应270-360(0)度。对应于划分的四个区域，麦克风阵列31可以获取到四路波束信号。在该实施例中，通过将麦克风阵列的角度扫描范围划分为不同的区域，使得波束信号可以根据不同的区域被划分为不同路，从而在声源定位时可以从多路波束信号中选取目标波束信号进行声源定位，以减少声源定位的计算量，提高声源定位的效率。

上述划分方式无法界定区域边界处的信号波束属于哪一区域，因此，可以设置相邻区域存在一定的重叠空间。如图3b所示，可以在相邻区域之间设置10度的重叠空间，区域301对应355(-5)-95度，区域302对应85-185度，区域304对应175-275度，区域303对应265-5(370)度。在重叠空间处获取到的波束信号既对应于左相邻区域，也对应于右相邻区域，例如：90度处获取到的波束信号，既属于区域301处获取到的波束信号，又属于区域302处获取到的波束信号。在该实施例中，通过在相邻区域之间设置重叠空间，使得区域边界的不确定问题得到解决。

步骤204，计算所述多路波束信号所用频点的信噪比，并将信噪比大于预设信噪比阈值的频点作为有效频点。

信噪比可以分为先验信噪比和后验信噪比，先验信噪比指的是去除噪声的波束信号与噪声信号的比值，后验信噪比指的是带有噪声的波束信号与噪声信号之间的比值。本说明书既可以根据先验信噪比判断有效频点，也可以根据后验信噪比判断有效频点。信噪比的选取将会对预设信噪比阈值的设置造成影响，例如：在信噪比为先验信噪比的情况下，预设信噪比阈值可以被设置为1；在信噪比为后验信噪比的情况下，预设信噪比可以被设置为2。当然，预设信噪比阈值可以为大于0的任何数字，本说明书并不对此进行限制。

波束信号可以在时间维度上表示，被称为时域波束信号；也可以在频率维度上表示，被称为频域波束信号。频点可以指频域波束信号的某一频率。时域波束信号与频域波束信号之间可以相互转换，时域波束信号与频域波束信号并不是两种波束信号，而是同一波束信号的两种表示形式。

在一实施例中，还包括：对所述多路波束信号进行时频转换处理；所述计算所述多路波束信号所用频点的信噪比，包括：计算时频转换处理后的所述多路波束信号所用频点的信噪比。

由于麦克风阵列获取到的波束信号往往为时域波束信号，因此可以根据特定的算法，如短时傅里叶变换(STFT，short-time Fourier transform)，对波束信号进行时域转换处理，将时频波束信号转换为频域波束信号。接着，计算波束信号对应的不同频点的信噪比，以此判断从多路波束信号中选取目标波束信号。如图4a所示，X(t)为时域波束信号，t为时间。在经过时频转换处理后，得到频域波束信号a(k)，如图4b所示，k为频率。图4b包括“-1”和“1”两个频点。

在该实施例中，通过时频转换处理将麦克风阵列获取的时域波束信号转换为频域波束信号，使得后续可以计算有效频点的数量，从而可以根据有效频点数量确定目标波束信号，减少声源定位的计算量，提升声源定位的效率。

信噪比的计算方式有很多，例如：根据低算力的噪声估计算法对获取到的多路波束信号进行噪声估计，并根据估计出的噪声信号计算所述多路波束信号的信噪比。

考虑到计算量以及声源定位的效率，可以采用低算力的噪声估计算法对波束信号进行噪声估计，如MS算法(Minimum Statistics，最小值统计量算法)、IMCRA算法(ImprovedMinimaControlled Recursive Averaging，改进的最小控制递归平均算法)。在估计出波束信号所含的噪声信号后，可以根据波束信号与估计出的噪声信号的比值确定后验信噪比，也可以根据去除噪声信号的波束信号与噪声信号的比值确定先验信噪比。本说明书可以使用直接判决法(Decision-directed)计算所述多路波束信号的先验信噪比。

步骤206，从所述多路波束信号中选取对应的有效频点数量相对更大的预设个数的目标波束信号，并对所述目标波束信号进行声源定位。

预设个数可以为小于多路波束信号的总路数与零之间的任意数字，例如：若获取到四路波束信号，那么预设个数可以为1、2或者3。假设上述四路波束信号对应的有效频点数量分别为：1、2、3、4，而预设个数为2，那么目标波束信号为有效频点数量为3个的波束信号以及有效频点数量为4个的波束信号。

声源定位指的是定位声源的位置，声源定位可以用于确定声源与麦克风阵列的相对方向(即方位角)，也可以用于确定距离，或者两种兼具。该实施例可以通过特定的声源定位算法对目标波束信号进行声源定位，如SRP-PHAT算法(Steering response power-phasetransform，基于可控功率响应和相位变换的声源定位算法)。

在该实施例中，一方面，通过从多路波束信号中选取目标波束信号进行声源定位，使得声源定位的对象仅为部分波束信号，减少了声源定位的计算量，提高了声源定位的效率；另一方面，通过将信噪比大于预设信噪比阈值的频点作为有效频点，使得有效频点数量相对更大的预设个数的波束信号被确定为目标波束信号，即将多路波束信号中受噪声影响较小的波束信号确定为目标波束信号，从而避免噪声对声源定位的干扰，增加了声源定位的准确度。

在确定目标波束信号后，可以对所述目标波束信号进行降噪处理，并对降噪处理后的目标波束信号进行声源定位。

降噪处理可以指降低噪声信号对目标波束信号的干扰。

在一实施例中，所述对所述目标波束信号进行降噪处理，包括：计算所述目标音频信号中带噪语音信号对应的第一互功率谱密度以及噪声信号对应的第二互功率谱密度，并将所述第一互功率谱密度和所述第二互功率谱密度的差值作为所述目标音频信号的信噪差；所述对降噪处理后的目标波束信号进行声源定位，包括：将所述信噪差作为声源定位算法的输入，并根据所述声源定位算法对所述降噪处理后的目标波束信号进行声源定位。

在物理学中，信号通常是波的形式表示，例如电磁波、随机振动或者声波。当波的功率频谱密度乘以一个适当的系数后将得到每单位频率波携带的功率，这被称为信号的功率谱密度(power spectral density,PSD)。互功率谱密度(cross power spectraldensity，CPSD)是两个频域函数之间的功率谱密度(在本说明书中为时域和频域)。

上述计算带噪语音信号对应的第一互功率谱密度和噪声信号对应的第二互功率谱密度的差值的过程，可以视为去除噪声信号对目标波束信号干扰的过程，即降噪处理的过程。

假设：麦克风阵列获取的多路波束信号在经过时频转换处理后，生成下述波束信号：

F₁(k,n),F₂(k,n),……,F_L(k,n)

其中，k为频域的序号，n为时域序号，L为波束的数量。

若从上述波束信号中选取出的目标波束信号为F₁(k,n)，那么可以计算出该目标波束信号的第一互功率谱密度为：

Y₁(k,n)＝[Y_1,1(k,n),……,Y_m,1(k,n),……,Y_M,1(k,n)]

其中，M为麦克风阵列中麦克风的数量。

噪声信号的确定方式有很多，该实施例可以根据前述信噪比确定噪声信号，将信噪比小于1时的麦克风信号确定为噪声信号，记各麦克风对应于F₁(k,n)的噪声信号的第二互功率谱密度为：

N₁(k,n)＝[N_1,1(k,n),……,N_m,1(k,n),……,N_M,1(k,n)]

那么目标波束信号的信噪差为：

Φ_1st(k,n)＝Y_1st(k,n)-N_1st(k,n)＝[Φ_1,1st(k,n),……,Φ_m,1st(k,n),……,Φ_M,1st(k,n)]

在目标波束信号为F_m(k,n)时，信噪差为：

Φ_m,1st(k,n)＝Y_m,1st(k,n)-N_m,1st(k,n)

其中，m为1至L之间的任意数字，即目标波束信号可以为前述多路信号波束中的任一波束信号。

在确定信噪差后，可以对根据该信噪差对目标波束信号进行声源定位。在声源定位算法为SRP-PHAT算法的情况下，可以将信噪差作为SRP-PHAT算法的输入，以确定该声源相对于麦克风阵列的方向角。若目标波束信号F₁(k,n)对应的区域范围为[θ_1,1,θ_1,2]，那么方位角则为：

其中，θ_l∈[θ_1,1,θ_1,2]，A_m(k,θ_l)为相位匹配系数(根据扫描角度θ_l和常见的波束形成方法生成，常见的波束形成方法可以包括：Delay-and-Sum(延时叠加方法)、DMA(differential microphone array，差分阵列算法)或super-directivity(超指向性)方法，此处不再赘述)，(·)^*为复数共轭操作运算符。

在该实施例中，通过先对目标波束信号进行降噪处理，再对降噪处理后的目标波束信号进行声源定位，避免目标波束信号中噪声信号对声源定位的干扰，提高了声源定位的准确度。

在一实施例中，前述预设个数至少为两个；所述方法还包括：对所述目标波束信号进行语音活动检测，以确定所述目标波束信号中语音活动对应的波束信号；所述对所述目标波束信号进行声源定位，包括：对所述目标波束信号中语音活动对应的信号进行声源定位。

语音活动检测(Voice Activity Detection，VAD)是一种针对波束信号是否为语音活动的帧级别的检测，VAD可以排除非稳态噪声对于目标波束信号的影响。若目标波束信号为语音活动则输出1，若目标波束信号不为语音活动则输出0。

例如：在目标波束信号为F_1st(k,n)、F_2nd(k,n)的情况下，可对上述两路波束信号进行语音活动检测，检测结果分别记为R_1st(n)、R_2nd(n)。若R_1st(n)＝1且R_2nd(n)＝1，则可以选择两路波束信号中的任意一路进行声源定位，或者分别对两路波束信号进行声源定位，再对声源定位的结果进行加权求和；若R_1st(n)＝0且R_2nd(n)＝1或者R_1st(n)＝1且R_2nd(n)＝0，则可以对两路波束信号中检测结果为1的波束信号进行声源定位；若R_1st(n)＝0且R_2nd(n)＝0，则表明两路目标波束信号均不为语音活动对应的信号，可以停止计算声源对应的方向角。

在该实施例中，一方面，通过语音活动检测，确定目标波束信号是否为语音活动对应的信号，从而避免计算语音活动之外的信号对应的声源，节省了网络资源；另一方面，通过语音活动检测排除非稳态噪声对于声源定位的干扰，进一步提高了声源定位的准确度。

在一实施例中，所述方法还包括：在所述目标波束信号均不为语音活动对应的信号的情况下，停止计算。如前所述，在目标波束信号的检测结果均为0的情况下，目标波束信号均不为语音活动对应的信号，可以停止计算声源对应的方向角。在该实施例中，通过在目标波束信号均不为语音活动对应的信号的情况下停止计算，避免计算语音活动之外的信号对应的声源，从而节省网络资源。

在一实施例中，通过将降噪处理以及语音活动检测相结合，来提高声源定位的准确度。假设：确定的目标波束信号为F_1st(k,n)＝0且R_2nd(n)＝0的情况下，停止计算；在R_1st(n)＝1的情况下，F_1st(k,n)为活动语音对应的波束信号，根据信噪差Φ_1st(k,n)作为输入在F_1st(k,n)对应的区域范围[θ_1st,1,θ_1st,2]内进行声源定位；在R_1st(n)＝0且R_2nd(n)＝1，F_1st(k,n)不为活动语音对应的信号，而F_2nd(k,n)为活动语音对应的信号，根据信噪差作为输入在F_2nd(k,n)对应的区域范围[θ_2nd,1,θ_2nd,2]内进行声源定位。在该实施例中，通过将降噪处理以及语音活动检测相结合，使得声源定位的准确度进一步提高。

图5是一示例性实施例提供的一种会议场景下的声源标记方法的流程图。如图5所示，该方法可以包括以下步骤：

步骤502，获取会议过程中由发言用户产生的音频信号。

发言用户可以为参加会议的任一用户。发言用户发出的声音为波束信号，该波束信号即为发言用户产生的音频信号。

步骤504，根据获取到的音频信号进行声源定位，以确定所述发言用户的位置信息。

声音定位的方法有很多，例如可以包括：计算音频信号所用频点的信噪比，并将信噪比大于预设信噪比阈值的频点作为有效频点；从音频信号中选取对应的有效频点数量相对更大的预设个数的目标信号，并对该目标信号进行声源定位。当然，声音定位方法不限于此，本说明书并不对其进行限制。

发言用户的位置信息可以为发言用户与接收音频信号的麦克风阵列的相对位置，包括相对方向角和相对距离。

步骤506，在针对参会现场的视频播放界面中，将所述位置信息对应的用户标记为所述发言用户。

视频播放界面被部署于参会现场。

在一实施例中，视频播放界面用于展示发言用户与参会现场内一些标志性物体(如麦克风阵列)之间的相对位置。如图6a所示，会议现场包括：麦克风阵列61、发言用户62以及视频播放界面63。麦克风阵列61可以获取发言用户62所产生的音频信号，并根据音频信号确定发言用户62的位置信息，麦克风阵列61可以将确定的位置信息发送至视频播放界面63，以使视频播放界面63对麦克风阵列61和发言用户的相对位置进行展示。如图6a所示，发言用户62从位置1移动至位置2，再移动至位置3。在此过程中，麦克风阵列61可以实时获取移动中的发言用户62所产生的音频信号，并以此确定发言用户62相对麦克风阵列的实时位置。视频播放界面63中展示有发言用户62对应的标识64，该标识64从位置4移动至位置5，再移动至位置6，其中，视频播放界面63中的位置4、5、6分别对应会议现场的位置1、2、3。视频播放界面63中还展示有麦克风阵列61对应的标识65，视频播放界面63中标识64与标识65的相对位置，与会议现场发言用户62与麦克风阵列61的相对位置相匹配。

在该实施例中，通过会议过程中发言用户产生的音频信号确定发言用户的位置信息，并在针对参会现场的视频播放界面中，将所述位置信息对应的用户标记为发言用户，使得参加会议的所有用户都可以从视频播放界面中直观地确定发言用户的位置，从而帮助参会用户辨别会议现场的发言用户，有利会议的进行。

在一实施例中，视频播放界面用于展示参会用户中发言用户的位置。如图6b所示，会议现场包括：麦克风阵列71、发言用户72、其余用户73-75以及视频播放界面76。在视频播放界面76中，标识77对应于发言用户72，标识79-81对应于其余用户73-75，标识81对应于麦克风阵列71，标识77-81的相对位置与会议现场各个用户与麦克风阵列71之间的相对位置相匹配。可以看出，标识77被发言标志78所标记，这使得参会用户可以直观地从视频播放界面76中辨别出发言用户的位置。

图7是一示例性实施例提供的一种音频设备的测试方法的流程图。如图7所示，该方法可以包括以下步骤：

步骤702，获取待测试音频设备针对目标声源确定的预测位置信息，所述预测位置信息由所述待测试音频设备根据采集到的所述目标声源对应的音频信号进行声源定位而得到。

待测试音频设备可以为任何具备获取以及处理音频信号的功能的设备。声源可以指正在发声的物体，目标声源可以为任一声源。目标声源发出的声音是一种机械波，该机械波可以被待测试音频设备获取，被转化为音频信号。

步骤704，根据所述目标声源的实际位置信息和所述预测位置信息之间的误差，生成所述待测试音频设备的声源定位功能的测试结果。

判别误差的方式有很多，例如：可以计算实际位置信息和预测位置信息的相对距离，在该相对距离未超过预设阈值(如0.5米)的情况下，待测试音频设备通过测试；或者，可以从方位角和距离两个角度计算，计算方位角偏差度以及距离误差。本说明书并不对此进行限制。进一步的，可以根据测试结果对待测试音频设备的声音定位方法进行优化，以减小实际位置信息和预测位置信息之间的误差。

下面结合图8对该实施例进行说明，如图8所示，目标声源的预测位置803由待测试音频设备801根据音频信号而确定，与目标声源的实际位置802并不重合。一种情况下，可以计算实际位置802和预测位置803之间的距离804；另一种情况下，可以计算实际位置802和预测位置803相对于待测试音频设备801的方位角夹角805。

在该实施例中，待测试音频设备通过目标声音的音频信号计算目标声音的预测位置信息，并根据目标声音的实际位置信息和预测位置信息之间的误差，生成待测试音频设备的声源定位功能的测试结果，从而完成对待测试音频设备的测试。

类似于前述提及的视频播放界面，该实施例也可以设置有测试界面，在测试界面中对预测位置信息和实际位置信息进行显示。具体的，可以在测试界面内以待测试音频设备为原点定义坐标系，以坐标的形式显示预测位置信息和实际位置信息，从而将预测位置与实际位置的误差直观地展示至用户，便于用户对声源定位方法的优化。

上述提交的音频设备的测试方法是对目标声源的实际位置信息和预测位置信息进行比较，从而完成对待测试音频设备的测试，除此之外，也可以通过观察待测试音频设备所采集到的波束来完成测试。例如：在待测试设备为麦克风阵列的情况下，将各个麦克风通道采集到的波束信号进行模拟，并显示于屏幕上以供观察，若发现某一个麦克风通道一直没有采集到波束信号，或者某一麦克风通道采集到的波束信号相对于其他麦克风通道存在断崖式削弱，则表明该麦克风通道可能存在异常。

图9是一示例性实施例提供的一种基于音频定位的拍摄控制方法的流程图。如图9所示，该方法可以包括以下步骤：

步骤902，通过图像采集设备上装配的音频采集模块进行音频采集。

图像采集设备用于采集图像，该图像采集设备上配置有音频采集模块和摄像头。其中，音频采集模块用于采集音频信号，其可以为麦克风阵列。

步骤904，根据采集到的音频信号进行声源定位，以得到目标声源的位置信息。

声源定位指的是定位声源的位置，声源定位可以用于确定声源与麦克风阵列的相对方向(即方位角)，也可以用于确定距离，或者两种兼具。如前所述，声源定位方法可以包括：获取目标声源对应的多路波束信号；计算多路波束信号所用频点的信噪比，并将信噪比大于预设信噪比阈值的频点作为有效频点；从多路波束信号中选取对应的有效频点数量相对更大的预设个数的目标波束信号，并对目标波束信号进行声源定位。当然，声源定位方法不限于此，例如还可以包括SRP-PHAT算法，本说明书并不对此进行限制。

目标声源的位置信息可以包括：目标声源相对于图像采集设备的相对方位角和相对距离。

步骤906，控制摄像头的拍摄角度和/或焦距进行变化，以对所述目标声源进行拍摄。

根据目标声源相对于图像采集设备的相对方位角可以确定目标拍摄角度，根据目标声源相对于图像采集设备的相对距离可以确定目标焦距，图像采集设备可以控制摄像头转动至目标拍摄角度以及调整至目标焦距，从而对目标声源进行拍摄。下面结合图10对该实施例进行说明，如图10所示，图像采集设备包括音频采集模块101和摄像头103。在作为目标声源的发言用户102从位置1移动至位置2时，摄像头103的拍摄角度可以跟随发言用户105的移动而转动，由第一机位1001转动至第二机位1002；在发言用户102从位置2移动至位置3时，摄像头103由第二机位1002转动至第三机位1003。

在该实施例中，通过音频信号确定出的目标声源的位置信息，控制摄像头的拍摄角度和/或焦距进行变化，使得目标声源可以始终处于摄像头的拍摄范围内，从而提升拍摄的效果。

上述拍摄控制方法可以应用于不同的场景中，例如：在会议场景下，图像采集设备可以采集发言用户的音频信号，并基于采集到的音频信号对发言用户进行声源定位，以得到发言用户的位置信息，根据位置信息控制摄像头的拍摄角度和/或焦距，从而实现对发言用户的跟拍；在监控场景下，譬如考试试场内，一旦有考生发出声音，即将该考生视为目标声源，采集该考生产生的音频信号，以确定其位置信息，并控制摄像头对该考生进行跟拍。

图11是一示例性实施例提供的一种设备的示意结构图。请参考图11，在硬件层面，该设备包括处理器1102、内部总线1104、网络接口1106、内存1109以及非易失性存储器1110，当然还可能包括其他功能所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现，比如由处理器1102从非易失性存储器1110中读取对应的计算机程序到内存1108中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。该设备一方面，通过从多路波束信号中选取目标波束信号进行声源定位，使得声源定位的对象仅为部分波束信号，减少了声源定位的计算量，提高了声源定位的效率；另一方面，通过将信噪比大于预设信噪比阈值的频点作为有效频点，使得有效频点数量相对更大的预设个数的波束信号被确定为目标波束信号，即将多路波束信号中受噪声影响较小的波束信号确定为目标波束信号，从而避免噪声对声源定位的干扰，增加了声源定位的准确度。

请参考图12，一种声源定位装置可以应用于如图12所示的设备中，以实现本说明书的技术方案，该装置可以包括：

获取单元1202，用于获取目标声源对应的多路波束信号；

计算单元1204，用于计算所述多路波束信号所用频点的信噪比，并将信噪比大于预设信噪比阈值的频点作为有效频点；

定位单元1206，用于从所述多路波束信号中选取对应的有效频点数量相对更大的预设个数的目标波束信号，并对所述目标波束信号进行声源定位。

可选的，

还包括：转换单元1208，用于对所述多路波束信号进行时频转换处理；

所述计算单元1204具体用于计算时频转换处理后的所述多路波束信号所用频点的信噪比。

可选的，

所述方法还包括：降噪单元1210，用于对所述目标波束信号进行降噪处理；

所述定位单元1206具体用于对降噪处理后的目标波束信号进行声源定位。

可选的，

所述降噪单元1210具体用于：计算所述目标音频信号中带噪语音信号对应的第一互功率谱密度以及噪声信号对应的第二互功率谱密度，并将所述第一互功率谱密度和所述第二互功率谱密度的差值作为所述目标音频信号的信噪差；

所述定位单元1206具体用于：将所述信噪差作为声源定位算法的输入，并根据所述声源定位算法对所述降噪处理后的目标波束信号进行声源定位。

可选的，所述预设个数至少为两个；

所述方法还包括：检测单元1212，用于对所述目标波束信号进行语音活动检测，以确定所述目标波束信号中语音活动对应的波束信号；

所述定位单元1206具体用于：对所述目标波束信号中语音活动对应的信号进行声源定位。

可选的，所述方法还包括：

计算终止单元1214，用于在所述目标波束信号均不为语音活动对应的信号的情况下，停止计算。

在上述实施例中，一方面，通过从多路波束信号中选取目标波束信号进行声源定位，使得声源定位的对象仅为部分波束信号，减少了声源定位的计算量，提高了声源定位的效率；另一方面，通过将信噪比大于预设信噪比阈值的频点作为有效频点，使得有效频点数量相对更大的预设个数的波束信号被确定为目标波束信号，即将多路波束信号中受噪声影响较小的波束信号确定为目标波束信号，从而避免噪声对声源定位的干扰，增加了声源定位的准确度。

请参考图13，一种声源定位装置可以应用于如图13所示的设备中，以实现本说明书的技术方案，该装置可以包括：

获取单元1302，用于获取会议过程中由发言用户产生的音频信号；

定位单元1304，用于根据获取到的音频信号进行声源定位，以确定所述发言用户的位置信息；

标记单元1306，用于在针对参会现场的视频播放界面中，将所述位置信息对应的用户标记为所述发言用户。

请参考图14，一种声源定位装置可以应用于如图14所示的设备中，以实现本说明书的技术方案，该装置可以包括：

获取单元1402，用于获取待测试音频设备针对目标声源确定的预测位置信息，所述预测位置信息由所述待测试音频设备根据采集到的所述目标声源对应的音频信号进行声源定位而得到；

生成单元1404，用于根据所述目标声源的实际位置信息和所述预测位置信息之间的误差，生成所述待测试音频设备的声源定位功能的测试结果。

请参考图15，一种声源定位装置可以应用于如图15所示的设备中，以实现本说明书的技术方案，该装置可以包括：

采集单元1502，用于通过图像采集设备上装配的音频采集模块进行音频采集；

定位单元1504，用于根据采集到的音频信号进行声源定位，以得到目标声源的位置信息；

控制单元1506，用于控制摄像头的拍摄角度和/或焦距进行变化，以对所述目标声源进行拍摄。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

针对如上所述或其他任意形式的计算机可读介质(或称，计算机可读存储介质)，其上可以存储有计算机指令，该指令被处理器执行时实现如上述各个实施例中的一个或多，从而实现本说明书的技术方案。该计算机可读介质一方面，通过从多路波束信号中选取目标波束信号进行声源定位，使得声源定位的对象仅为部分波束信号，减少了声源定位的计算量，提高了声源定位的效率；另一方面，通过将信噪比大于预设信噪比阈值的频点作为有效频点，使得有效频点数量相对更大的预设个数的波束信号被确定为目标波束信号，即将多路波束信号中受噪声影响较小的波束信号确定为目标波束信号，从而避免噪声对声源定位的干扰，增加了声源定位的准确度。

本说明书还提出了一种计算机程序，该程序被处理器执行时实现如上述各人实施例中的一个或多个，从而实现本说明书的技术方案。其中，该计算机程序可以具体记录于如上所述或其他任意形式的计算机可读介质，本说明书并不对此进行限制。该计算机程序一方面，通过从多路波束信号中选取目标波束信号进行声源定位，使得声源定位的对象仅为部分波束信号，减少了声源定位的计算量，提高了声源定位的效率；另一方面，通过将信噪比大于预设信噪比阈值的频点作为有效频点，使得有效频点数量相对更大的预设个数的波束信号被确定为目标波束信号，即将多路波束信号中受噪声影响较小的波束信号确定为目标波束信号，从而避免噪声对声源定位的干扰，增加了声源定位的准确度。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种声源定位方法，其特征在于，所述方法包括：

获取目标声源对应的多路波束信号；

2.根据权利要求1所述的方法，其特征在于，

还包括：对所述多路波束信号进行时频转换处理；

所述计算所述多路波束信号所用频点的信噪比，包括：计算时频转换处理后的所述多路波束信号所用频点的信噪比。

3.根据权利要求1所述的方法，其特征在于，

所述方法还包括：对所述目标波束信号进行降噪处理；

所述对所述目标波束信号进行声源定位，包括：对降噪处理后的目标波束信号进行声源定位。

4.根据权利要求3所述的方法，其特征在于，

所述对所述目标波束信号进行降噪处理，包括：计算所述目标音频信号中带噪语音信号对应的第一互功率谱密度以及噪声信号对应的第二互功率谱密度，并将所述第一互功率谱密度和所述第二互功率谱密度的差值作为所述目标音频信号的信噪差；

所述对降噪处理后的目标波束信号进行声源定位，包括：将所述信噪差作为声源定位算法的输入，并根据所述声源定位算法对所述降噪处理后的目标波束信号进行声源定位。

5.根据权利要求1所述的方法，其特征在于，所述预设个数至少为两个；

所述方法还包括：对所述目标波束信号进行语音活动检测，以确定所述目标波束信号中语音活动对应的波束信号；

所述对所述目标波束信号进行声源定位，包括：对所述目标波束信号中语音活动对应的信号进行声源定位。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述目标波束信号均不为语音活动对应的信号的情况下，停止计算。

7.一种会议场景下的声源标记方法，其特征在于，所述方法包括：

获取会议过程中由发言用户产生的音频信号；

根据获取到的音频信号进行声源定位，以确定所述发言用户的位置信息；

在针对参会现场的视频播放界面中，将所述位置信息对应的用户标记为所述发言用户。

8.一种音频设备的测试方法，其特征在于，所述方法包括：

获取待测试音频设备针对目标声源确定的预测位置信息，所述预测位置信息由所述待测试音频设备根据采集到的所述目标声源对应的音频信号进行声源定位而得到；

根据所述目标声源的实际位置信息和所述预测位置信息之间的误差，生成所述待测试音频设备的声源定位功能的测试结果。

9.一种基于音频定位的拍摄控制方法，其特征在于，所述方法包括：

通过图像采集设备上装配的音频采集模块进行音频采集；

根据采集到的音频信号进行声源定位，以得到目标声源的位置信息；

控制摄像头的拍摄角度和/或焦距进行变化，以对所述目标声源进行拍摄。

10.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-9中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。

12.一种计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。