CN113203988A

CN113203988A - 声源定位方法及装置

Info

Publication number: CN113203988A
Application number: CN202110474150.6A
Authority: CN
Inventors: 吕新亮; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-03
Anticipated expiration: 2041-04-29
Also published as: CN113203988B

Abstract

本公开关于一种声源定位方法及装置。声源定位方法包括：在声源环境具有至少两个麦克风阵列的情况下，获取第一麦克风阵列从声源采集到的第一语音信号和第二麦克风阵列从声源采集到的第二语音信号；根据第一语音信号确定声源相对于第一麦克风阵列的第一声源角度，根据第二语音信号确定声源相对于第二麦克风阵列的第二声源角度；获取第一麦克风阵列和第二麦克风阵列的相对位置信息；根据相对位置信息、第一声源角度和第二声源角度，确定声源的声源位置信息。根据本公开的声源定位方法及装置，使得麦克风阵列可以随意摆放，从而获得灵活的麦克风摆放选择，便于部署维护，充分发挥了多麦克风的优势。

Description

声源定位方法及装置

技术领域

本公开涉及音频技术领域，尤其涉及一种声源定位方法及装置。

背景技术

如今4G移动网络已经普及，Wi-Fi、移动网络相继推出Wi-Fi 6、5G新一代通信标准，VoIP(Voice over Internet Protocol，基于IP的语音传输，又称为网络电话)、视频会议再次迎来蓬勃发展。随着全球疫情影响，线上会议、在线教育等众多业务场景的推动下，人们对会议中通话音质有了更高的需求。相关技术中存在麦克风阵列，由多颗麦克风排列组成，能够利用beamforming(波束形成)算法实现语音增强，针对中小会议可以提升通话音质，满足通话需求，对于中大型会议场景，则往往不能有效覆盖。而通过增加会议场景中布置的麦克风的数量，虽能够提升覆盖范围，但通常仅是对布置的多个麦克风各自采集的信号进行简单选路，没有充分发挥多麦克风的优势。

发明内容

本公开提供一种声源定位方法及装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种声源定位方法，包括：在声源环境具有至少两个麦克风阵列的情况下，获取第一麦克风阵列从声源采集到的第一语音信号和第二麦克风阵列从所述声源采集到的第二语音信号；根据所述第一语音信号确定所述声源相对于所述第一麦克风阵列的第一声源角度，根据所述第二语音信号确定所述声源相对于所述第二麦克风阵列的第二声源角度；获取所述第一麦克风阵列和所述第二麦克风阵列的相对位置信息；根据所述相对位置信息、所述第一声源角度和所述第二声源角度，确定所述声源的声源位置信息。

可选地，所述相对位置信息是通过以下操作得到的：控制所述第一麦克风阵列和所述第二麦克风阵列各自播放测试信号，并相应获取所述第二麦克风阵列和所述第一麦克风阵列采集到的测试信号；根据采集到的测试信号确定所述第二麦克风阵列相对于所述第一麦克风阵列的第一麦克风角度，以及所述第一麦克风阵列相对于所述第二麦克风阵列的第二麦克风角度；根据采集到的测试信号的延时，确定所述第一麦克风阵列与所述第二麦克风阵列的间距，其中，将所述第一麦克风角度、所述第二麦克风角度和所述间距作为所述相对位置信息。

可选地，所述获取第一麦克风阵列从声源采集到的第一语音信号和所述第二麦克风阵列从所述声源采集到的第二语音信号的步骤包括：获取在同一时刻所述第一麦克风阵列从所述声源采集到的所述第一语音信号和所述第二麦克风阵列从所述声源采集到的所述第二语音信号。

可选地，在所述获取第一麦克风阵列从声源采集到的第一语音信号和所述第二麦克风阵列从所述声源采集到的第二语音信号的步骤之后，所述声源定位方法还包括：将所述第一语音信号和所述第二语音信号的格式转化为标准B声场格式。

可选地，所述第一麦克风阵列和所述第二麦克风阵列是通过以下方式选择的：获取所述至少两个麦克风阵列采集的语音信号；从所述至少两个麦克风阵列中选择语音信号的幅度最高的两个麦克风阵列作为所述第一麦克风阵列和所述第二麦克风阵列。

根据本公开实施例的第二方面，提供一种声源定位装置，包括：第一获取单元，被配置为执行在声源环境具有至少两个麦克风阵列的情况下，获取第一麦克风阵列从声源采集到的第一语音信号和第二麦克风阵列从所述声源采集到的第二语音信号；信号处理单元，被配置为执行根据所述第一语音信号确定所述声源相对于所述第一麦克风阵列的第一声源角度，根据所述第二语音信号确定所述声源相对于所述第二麦克风阵列的第二声源角度；第二获取单元，被配置为执行获取所述第一麦克风阵列和所述第二麦克风阵列的相对位置信息；定位单元，被配置为执行根据所述相对位置信息、所述第一声源角度和所述第二声源角度，确定所述声源的声源位置信息。

可选地，所述第一获取单元具体被配置为执行：获取在同一时刻所述第一麦克风阵列从所述声源采集到的所述第一语音信号和所述第二麦克风阵列从所述声源采集到的所述第二语音信号。

可选地，所述声源定位装置还包括：转化单元，被配置为执行将所述第一语音信号和所述第二语音信号的格式转化为标准B声场格式。

根据本公开实施例的第三方面，提供一种会议设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现根据本公开的声源定位方法。

可选地，所述会议设备还包括：至少一个中心设备，所述中心设备包括麦克风阵列、连接接口和扬声器，所述连接接口用于连接扩展麦克风和/或其他的中心设备。

可选地，所述处理器还被配置为执行上述指令，以实现：根据所述声源位置信息对所述会议设备的麦克风阵列采集到的语音信号执行语音增强处理；和/或根据所述声源位置信息控制所述会议设备的摄像头转动。

可选地，所述处理器还被配置为执行上述指令，以实现：对所述会议设备的麦克风阵列采集的语音信号执行语音增强处理；对所述会议设备采集的至少两个语音信号执行选路处理；对选定的语音信号执行深度学习噪声抑制处理和自动增益控制处理；输出处理后的语音信号。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由会议设备的处理器运行时，使得会议设备能够执行根据本公开的声源定位方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现根据本公开的声源定位方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的声源定位方法及装置，能够利用声源环境中的两个麦克风阵列，在二者的位置未知的情况下，根据二者的相对位置信息以及二者从同一声源接收到的语音信号，确定出声源的位置，使得麦克风阵列可以随意摆放，从而获得灵活的麦克风摆放选择，便于部署维护，充分发挥了多麦克风的优势。此外，确定出的声源位置信息还可用于指导麦克风阵列的语音增强，有助于提升最终输出的语音信号的信噪比，提升通话音质。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种声源定位方法的流程图。

图2是根据一示例性实施例示出的一种声源定位方法的原理示意图。

图3是根据一示例性实施例示出的一种声源定位装置框图。

图4是根据一示例性实施例示出的一种会议设备300的框图。

图5是根据一示例性实施例示出的一种会议设备300的中心设备303的结构示意图。

图6是根据一示例性实施例示出的一种会议设备300的信号处理流程图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

目前，会议设备中的麦克风可采集所在声源环境中的语音信号，经过处理后输出，例如经网络发送至其他会议设备，从而实现电话会议、视频会议等线上会议，也可实现在线教育。在会议场景中，则通常按照与会人员的个数，把会议场景分为小(3-8人)、中(8-15人)、大(15人以上)三个场景。小会议场景由于人数少，与会人员彼此距离不远，整体看会议人员是圆形分布。中会议场景是使用最多的场景，与会人员通常坐到长条桌周围，整体看会议人员是长方形分布，会议设备若放在中间，会导致两端会议人员语音信号由于距离麦克风远导致信噪比低。

从硬件结构上看，会议硬件麦克风主要分为中心麦克风阵列、中心麦克风+扩展麦克风和分布式单体麦克风三种类型。

其中，中心麦克风阵列的优点在于便携易携带、易组装。配合内部麦克风阵列Beamforming算法，针对中小会议有不错的表现。同时也存在缺点，在远距离(5m以上)时拾音效果不够理想，不能覆盖某些中大型会议场景。

中心麦克风+扩展麦克风的优点在于，中心麦克风使用指向性麦克风配合结构，可以进行三方向指向性采集。必要时配合扩展麦克风可以覆盖更大的会议场景。缺点在于，由于依靠结构内部使用指向性麦克风，算法只做简单的选路输出，不能更大尺度的发挥多麦克风优势。

分布式单体麦克风的优点在于麦克风与使用者距离较近，单个麦克风采集信号有更高的信噪比，算法处理做选路即可。缺点在于覆盖更大会议场景需要更多的麦克风，在部署维护上存在劣势。

从软件算法上看，会议硬件麦克风主要分为分布式麦克风选路和麦克风阵列做Beamforming两种类型。其中，分布式麦克风选路采用传统的处理流程算法做AEC(AcousticEcho Canceller，回声消除)、选路、ANS(Automatic Noise Suppression，自动噪声抑制)、AGC(Automatic Gain Control，自动增益控制)，输出信号。麦克风阵列做Beamforming，则是在算法方面先做AEC，然后基于信号处理做多麦克风Beamforming，ANS、AGC，最终输出信号。

由此可见，现有的会议硬件麦克风中，麦克风阵列能够较好地应对小会议场景，但不适用于中大型会议场景，存在使用范围的局限性。对于中大型会议场景，现有的中心麦克风+扩展麦克风仅做简单选路，采集的信号信噪比低，不能充分发挥多麦克风优势；现有的分布式单体麦克风采集的信号虽然信噪比较高，但不便于部署维护。换言之，现有的会议硬件麦克风存在使用场景受限，且面对中大型会议场景无法兼顾信噪比和部署维护性能，综合表现欠佳的问题。

本公开实施例针对该问题，提出了一种可灵活组装的会议设备，包括基本的中心麦克风阵列，可适用于小会议场景，设备内部进行AEC、Beamforming、ANS、AGC等算法处理即可以满足输出。在此基础上，中心麦克风阵列可额外连接扩展麦克风或其他麦克风阵列，形成中心麦克风阵列+扩展麦克风、级联麦克风阵列这两种形式的硬件，以适用于中大型会议场景，从而实现了根据会议场景灵活调整硬件配置，提升了会议设备的适用范围。对于中心麦克风阵列+扩展麦克风、级联麦克风阵列应用于中大型会议场景的情况，一方面，麦克风阵列具有全指向性，不必靠近使用者布置，因而能够减少部署数量，便于部署维护。另一方面，麦克风阵列在软件上还采用beamforming和Deep NS(Deep Noise Suppression，深度学习噪声抑制)，因而能够提升最终输出的信号的信噪比。这两方面相结合，使得本公开实施例提供的会议设备在面对中大型会议场景时能够兼顾信噪比和部署维护性能，充分发挥了多麦克风的优势。

具体来说，对于麦克风阵列，其中的每颗麦克风均能采集到语音信号，麦克风阵列处理采集的语音信号的算法主要是，单颗麦克风先执行AEC算法，完成初步的信号处理。然后基于信号处理做beamforming，从麦克风阵列获得的一组信号中找出一个特定方向的信号，而把其他方向的信号忽略掉，实现语音增强。再对语音增强后的信号执行ANS、AGC，进一步完成降噪和增益，提升信噪比，使得最终输出的信号可以满足通话需求。可见，能执行beamforming的麦克风阵列本身就具有一定的声源定位能力，可确定声源相对于麦克风阵列所在的方向。而对于级联麦克风阵列，也就是使用至少两个麦克风阵列的情况，若仅对这些麦克风阵列各自输出的语音信号进行简单选路，选择其中一个作为会议设备最终输出的语音信号，则仍存在收音音质不佳的风险，并且不对这些麦克风阵列所确定的声源所在方向加以利用，仍然未能充分发挥多个麦克风阵列的优势。

下面，将参照图1至图6详细描述根据本公开的声源定位方法及装置。

图1是根据一示例性实施例示出的一种声源定位方法的流程图，如图1所示，声源定位方法用于会议设备中，包括以下步骤。

在步骤S11中，在声源环境具有至少两个麦克风阵列的情况下，获取第一麦克风阵列从声源采集到的第一语音信号和第二麦克风阵列从声源采集到的第二语音信号。

其中，至少两个麦克风阵列以级联的方式连接，从中选择两个即可，分别记为第一麦克风阵列和第二麦克风阵列。

作为一个示例，具体的选择方式可以是：获取全部至少两个麦克风阵列采集的语音信号；从这至少两个麦克风阵列中选择语音信号的幅度最高的两个麦克风阵列作为第一麦克风阵列和第二麦克风阵列。由于信号幅度最高的两个麦克风阵列往往距离声源最近，因此能够保证信号强度，提升最终的声源定位精度。

通过从同一声源分别采集第一语音信号和第二语音信号，可作为基础数据，以供后续分析使用。具体地，步骤S11获取的是同一时刻第一麦克风阵列从声源采集到的第一语音信号和第二麦克风阵列从声源采集到的第二语音信号。也就是说，第一麦克风阵列和第二麦克风阵列采集的是同一时刻的语音信号，此时声源位于同一位置，可保证信息的同步性，提升定位精度。可以理解的是，麦克风能够按帧采集语音信号，此处的同一时刻指的则是同一帧的语音信号。相应地，实际运行时，可以在采集每一帧语音信号时都运行本公开的声源定位方法，以动态获取声源的位置信息，能够适应于声源位置发生变化的情况，例如与会人员在会场中走动，或多个与会人员先后发言的场景。

具体地，在采集到第一语音信号和第二语音信号后，还包括：将第一语音信号和第二语音信号的格式转化为标准B声场格式。标准B声场格式具体为[W，X，Y，Z]，其中W为全向通道，X、Y、Z分别为三个8字形指向通道，可反映不同指向上的语音强弱，因而能够反映声源所在的方位，可作为后续定位的依据。

举例来说，S_LFU、S_RFD、S_LBD、S_RBU为标准A声场格式的麦克风原始信号，转化到标准B声场格式则为：W＝S_LFU+S_RFD+S_LBD+S_RBU，X＝S_LFU+S_RFD-S_LBD-S_RBU，Y＝S_LFU-S_RFD+S_LBD-S_RBU，Z＝S_LFU-S_RFD-S_LBD+S_RBU。

在步骤S12中，根据第一语音信号确定声源相对于第一麦克风阵列的第一声源角度，根据第二语音信号确定声源相对于第二麦克风阵列的第二声源角度。

此处以标准B声场格式的语音信号为例进行说明。第一语音信号经转化后为[Wsa，Xsa，Ysa，Zsa]，则声源相对于第一麦克风阵列的第一声源角度为a1＝tan^-1(Ysa/Xsa)。同理，第二语音信号经转化后为[Wsb，Xsb，Ysb，Zsb]，则声源相对于第二麦克风阵列的第二声源角度为b1＝tan^-1(Ysb/Xsb)。

在步骤S13中，获取第一麦克风阵列和第二麦克风阵列的相对位置信息。

通过获取第一麦克风和第二麦克风的相对位置，能够在麦克风的绝对位置未知的情况下，以两个麦克风阵列互为参考，实现两个麦克风阵列的相对定位，进而以二者的相对位置作为参考，实现声源的定位。此时两个麦克风阵列可以随意摆放，从而获得灵活的麦克风摆放选择，便于部署维护，充分发挥了多麦克风的优势。

作为一个示例，相对位置信息是通过以下操作得到的：控制第一麦克风阵列和第二麦克风阵列各自播放测试信号，并相应获取第二麦克风阵列和第一麦克风阵列采集到的测试信号；根据采集到的测试信号确定第二麦克风阵列相对于第一麦克风阵列的第一麦克风角度，以及第一麦克风阵列相对于第二麦克风阵列的第二麦克风角度；根据采集到的测试信号的延时，确定第一麦克风阵列与第二麦克风阵列的间距，其中，将第一麦克风角度、第二麦克风角度和间距作为相对位置信息。

具体来说，会议设备中，麦克风阵列均配置有扬声器。通过令第一麦克风阵列的扬声器播放测试信号，可将第一麦克风阵列作为测试声源，此时获取第二麦克风阵列相应采集到的测试信号，并转化成标准B声场格式[Wb，Xb，Yb，Zb]，即可采用上述根据第二语音信号确定声源相对于第二麦克风阵列的第二声源角度的操作来处理第二麦克风阵列采集到的测试信号，从而确定出第一麦克风阵列相对于第二麦克风阵列的第二麦克风角度b2＝tan^-1(Yb/Xb)。同理，令第二麦克风阵列播放测试信号，并获取第一麦克风阵列相应采集到的测试信号，转化成标准B声场格式[Wa，Xa，Ya，Za]，即可采用上述根据第一语音信号确定声源相对于第一麦克风阵列的第一声源角度的操作来处理第一麦克风阵列采集到的测试信号，从而确定出第二麦克风阵列相对于第一麦克风阵列的第一麦克风角度a2＝tan^-1(Ya/Xa)。至此，可得到第一麦克风阵列和第二麦克风阵列相对于彼此所在的方位。

除此以外，由于第一麦克风阵列和第二麦克风阵列可以实现时间戳同步，因而可借助第一麦克风阵列或第二麦克风阵列中的任一个播放的测试信号，计算出测试信号从播放到采集的延时td，从而确定第一麦克风阵列和第二麦克风阵列的间距l＝td*u，其中u为声速，常温下空气中的声速约为340m/s。可以理解的是，此处针对的是由第一麦克风阵列播放并由第二麦克风阵列采集到的同一帧测试信号，或由第二麦克风阵列播放并由第一麦克风阵列采集到的同一帧测试信号，不可利用不同帧的测试信号，也不可利用同一麦克风阵列播放和采集到的测试信号。至此，综合第一麦克风角度、第二麦克风角度、第一麦克风阵列与第二麦克风阵列的间距，即可作为第一麦克风阵列与第二麦克风阵列的相对位置信息。

可以理解的是，由于麦克风阵列在摆放完成后通常不会改变位置，因此可在启动会议设备后就执行上述操作，以得到该相对位置信息，此后直接获取该计算结果即可。当然，也可配置相对定位指令，若该相对定位指令被触发，则重新定位该相对位置信息，以便用户在使用过程中随时调整麦克风阵列的位置。相应地，对于具有两个以上麦克风阵列的情况，则可将这些麦克风阵列两两组合，先确定每组麦克风阵列的相对位置信息，在选定第一麦克风阵列和第二麦克风阵列后，再从中获取第一麦克风阵列和第二麦克风阵列的相对位置信息。

在步骤S14中，根据相对位置信息、第一声源角度和第二声源角度，确定声源的声源位置信息。

参照图2，将声源S、第一麦克风阵列A、第二麦克风阵列B视为空间中的三个点，则三者可以围成一个三角形。获取了第一麦克风阵列和第二麦克风阵列的相对位置信息(即第一麦克风角度a2、第二麦克风角度b2和间距l)后，相当于已知了这个三角形的一条边，结合第一声源角度a1和第二声源角度b1，则可计算出这条边所对应的两个内角，以图2所示的情况为例，则两个内角分别为a3＝a2-a1，b3＝b2-b1，也就能够确定出第三个点(即声源)的位置。一种示例性的计算方法如下：

其中，m为声源到第一麦克风阵列和第二麦克风阵列之间的连线的距离。

可以理解的是，也可采用其他合理的数据处理方式来完成声源位置的计算。对于声源环境中存在多个声源的情况，则可重复本公开的声源定位方法，针对每个声源分别进行定位，这同样属于本公开的发明构思，落入本公开的保护范围之内。

图3是根据一示例性实施例示出的一种声源定位装置框图。参照图3，根据本公开的示例性实施例的声源定位装置200包括第一获取单元201，信号处理单元202，第二获取单元203和定位单元204。

该第一获取单元201被配置为执行在声源环境具有至少两个麦克风阵列的情况下，获取第一麦克风阵列从声源采集到的第一语音信号和第二麦克风阵列从声源采集到的第二语音信号。

该信号处理单元202被配置为执行根据第一语音信号确定声源相对于第一麦克风阵列的第一声源角度，根据第二语音信号确定声源相对于第二麦克风阵列的第二声源角度。

该第二获取单元203被配置为执行获取第一麦克风阵列和第二麦克风阵列的相对位置信息。

该定位单元204被配置为执行根据相对位置信息、第一声源角度和第二声源角度，确定声源的声源位置信息。

此外，在另一些实施例中，该装置还包括转化单元，转化单元被配置为执行将第一语音信号和第二语音信号的格式转化为标准B声场格式。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种会议设备300的框图。

参照图4，会议设备300包括存储器301和处理器302，存储器301中存储有计算机可执行指令集合，当计算机可执行指令集合被处理器302运行时，执行根据本公开的示例性实施例的声源定位方法。

作为示例，会议设备300可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，会议设备300并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。会议设备300还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在会议设备300中，处理器302可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器302可运行存储在存储器301中的指令或代码，其中，存储器301还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器301可与处理器302集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器301可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器301和处理器302可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器302能够读取存储在存储器中的文件。

此外，会议设备300还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。会议设备300的所有组件可经由总线和/或网络而彼此连接。

可选地，会议设备300还包括至少一个中心设备303。中心设备303包括麦克风阵列、连接接口和扬声器，连接接口用于连接扩展麦克风和/或其他的中心设备。也就是说，中心设备303搭载有麦克风阵列，在小会议场景下，可单独使用中心设备303，使用麦克风阵列配合软件算法可以满足小会议场景音质体验。连接接口可用于连接扩展麦克风，形成中心麦克风阵列+扩展麦克风的硬件结构。连接接口也可用于连接其他的中心设备，形成级联麦克风阵列的硬件结构。在中会议场景下，可经连接接口接入扩展麦克风或其他中心设备，以根据会议场景灵活调整硬件配置。

具体地，为了保证高频宽，在采集播放都使用48K采样率，让会议人员有更好的音质体验。扬声器可采用12W喇叭。此外，中心设备303还可包括电源接口，以连接电源。中心设备还可包括传输接口，以连接入会电脑等入会终端。

其中，对于中会议场景，作为示例，处理器302还被配置为执行上述指令，以实现：对会议设备300的麦克风阵列采集的语音信号执行语音增强处理；对会议设备300采集的至少两个语音信号执行选路处理；对选定的语音信号执行深度学习噪声抑制处理和自动增益控制处理；输出处理后的语音信号。至此，会议设备可完成从收音到输出语音信号的完整流程。其中，麦克风阵列对采集的语音信号执行语音增强处理，处理器还对选路后的语音信号执行深度学习噪声抑制处理，这都有助于提升信噪比。可以理解的是，对会议设备300采集的至少两个语音信号执行选路处理时，若采用的是中心麦克风阵列+扩展麦克风的硬件结构，则选路所针对的是中心麦克风阵列和扩展麦克风处理后的语音信号，若采用的是级联麦克风阵列的硬件结构，则选路所针对的是不同麦克风阵列处理后的语音信号。作为示例，处理器302还被配置为执行上述指令，以实现：根据声源位置信息对会议设备300的麦克风阵列采集到的语音信号执行语音增强处理。如前所述，麦克风阵列做beamforming，可从麦克风阵列获得的一组信号中找出一个特定方向的信号，而把其他方向的信号忽略掉，实现语音增强。执行声源定位方法后，可确定出较为准确的声源位置信息，据此做beamforming，有助于提升语音增强效果，提高输出语音信号的信噪比，保证通话音质。

作为示例，会议设备300还包括摄像头，处理器302还被配置为执行上述指令，以实现：根据声源位置信息控制会议设备的摄像头转动。当会议设备300配置有摄像头，以实现视频会议时，通过结合所确定的声源位置信息来控制摄像头转动，可以自动将摄像头对准声源，也就是会议中的说话人，实现了摄像头的自动化控制。

可以理解的是，处理器302执行上述指令时，还可结合声源位置信息实现其他控制，在此不一一列举。

接下来结合图5和图6描述一个具体实施例的中心设备303。

参照图5，中心设备303包括麦克风阵列3031、连接接口3032和扬声器3033，麦克风阵列3031由6颗麦克风组成，在小会议场景下，可单独使用中心设备303。连接接口3032用于连接扩展麦克风，具体为RJ11接口，在中会议场景下，可经连接接口3032接入扩展麦克风，形成中心麦克风阵列+扩展麦克风的硬件结构，以根据会议场景灵活调整硬件配置。具体地，由于扩展麦克风通常为单一指向性麦克风，将扩展麦克风放于距离中心设备303远的会议人员附近。此外，中心设备还包括DCIN接口，作为电源接口，以连接电源；还包括USBType-C接口，作为传输接口，以连接入会电脑等入会终端。

参照图6，以中心设备303的两个连接接口3032各连接一个扩展麦克风为例，具体来说，中心设备303上麦克风阵列3031进行多通道AEC，多通道信号做Beamforming对说话人进行语音增强。将分布式扩展麦克风采集的信号AEC处理后与麦克风阵列3031处理后的信号进行选路，从而拿到当前会议说话人的信号，通过Deep NS(Deep Noise Suppression，深度学习噪声抑制)、AGC进行去噪、自动增益获得高信噪比信号。将该信号作为最终信号输出。

可以理解的是，对于中心设备303连接其他中心设备，也就是采用级联的麦克风阵列的情况，则需对每个中心设备的麦克风阵列做多通道AEC和Beamforming，再对各个麦克风阵列处理后的信号进行选路，继而执行Deep NS和AGC。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被会议设备的处理器运行时，促使处理器执行根据本公开的声源定位方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的声源定位方法。

根据本公开的声源定位方法及装置，能够利用声源环境中的两个麦克风阵列，在二者的位置未知的情况下，根据二者的相对位置信息以及二者从同一声源接收到的语音信号，确定出声源的位置，在保证通话音质的情况下，使得麦克风阵列可以随意摆放，从而获得灵活的麦克风摆放选择，便于部署维护，充分发挥了多麦克风的优势。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种声源定位方法，其特征在于，包括：

在声源环境具有至少两个麦克风阵列的情况下，获取第一麦克风阵列从声源采集到的第一语音信号和第二麦克风阵列从所述声源采集到的第二语音信号；

根据所述第一语音信号确定所述声源相对于所述第一麦克风阵列的第一声源角度，根据所述第二语音信号确定所述声源相对于所述第二麦克风阵列的第二声源角度；

获取所述第一麦克风阵列和所述第二麦克风阵列的相对位置信息；

根据所述相对位置信息、所述第一声源角度和所述第二声源角度，确定所述声源的声源位置信息。

2.根据权利要求1所述的声源定位方法，其特征在于，所述相对位置信息是通过以下操作得到的：

控制所述第一麦克风阵列和所述第二麦克风阵列各自播放测试信号，并相应获取所述第二麦克风阵列和所述第一麦克风阵列采集到的测试信号；

根据采集到的测试信号确定所述第二麦克风阵列相对于所述第一麦克风阵列的第一麦克风角度，以及所述第一麦克风阵列相对于所述第二麦克风阵列的第二麦克风角度；

根据采集到的测试信号的延时，确定所述第一麦克风阵列与所述第二麦克风阵列的间距，其中，

将所述第一麦克风角度、所述第二麦克风角度和所述间距作为所述相对位置信息。

3.根据权利要求1所述的声源定位方法，其特征在于，所述获取第一麦克风阵列从声源采集到的第一语音信号和所述第二麦克风阵列从所述声源采集到的第二语音信号的步骤包括：

获取在同一时刻所述第一麦克风阵列从所述声源采集到的所述第一语音信号和所述第二麦克风阵列从所述声源采集到的所述第二语音信号。

4.一种声源定位装置，其特征在于，包括：

第一获取单元，被配置为执行在声源环境具有至少两个麦克风阵列的情况下，获取第一麦克风阵列从声源采集到的第一语音信号和第二麦克风阵列从所述声源采集到的第二语音信号；

信号处理单元，被配置为执行根据所述第一语音信号确定所述声源相对于所述第一麦克风阵列的第一声源角度，根据所述第二语音信号确定所述声源相对于所述第二麦克风阵列的第二声源角度；

第二获取单元，被配置为执行获取所述第一麦克风阵列和所述第二麦克风阵列的相对位置信息；

定位单元，被配置为执行根据所述相对位置信息、所述第一声源角度和所述第二声源角度，确定所述声源的声源位置信息。

5.一种会议设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至3中任一项所述的声源定位方法。

6.根据权利要求5所述的会议设备，其特征在于，所述会议设备还包括：

至少一个中心设备，所述中心设备包括麦克风阵列、连接接口和扬声器，所述连接接口用于连接扩展麦克风和/或其他的中心设备。

7.根据权利要求5所述的会议设备，其特征在于，所述处理器还被配置为执行上述指令，以实现：

根据所述声源位置信息对所述会议设备的麦克风阵列采集到的语音信号执行语音增强处理；和/或

根据所述声源位置信息控制所述会议设备的摄像头转动。

8.根据权利要求5所述的会议设备，其特征在于，所述处理器还被配置为执行上述指令，以实现：

对所述会议设备的麦克风阵列采集的语音信号执行语音增强处理；

对所述会议设备采集的至少两个语音信号执行选路处理；

对选定的语音信号执行深度学习噪声抑制处理和自动增益控制处理；

输出处理后的语音信号。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由会议设备的处理器运行时，使得会议设备能够执行如权利要求1至3中任一项所述的声源定位方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至3中任一项所述的声源定位方法。