CN115811574A

CN115811574A - 一种声音信号处理方法、装置、主设备和分体式会议系统

Info

Publication number: CN115811574A
Application number: CN202310053774.XA
Authority: CN
Inventors: 吴瑞
Original assignee: Hefei Torch Core Intelligent Technology Co ltd
Current assignee: Hefei Torch Core Intelligent Technology Co ltd
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-03-17
Anticipated expiration: 2043-02-03
Also published as: CN115811574B

Abstract

本发明提供一种声音信号处理方法、装置、主设备和分体式会议系统，声音信号处理方法包括主设备从接收到的声音信号中选择主声音信号；主设备将主声音信号分别与每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号；主设备对多个声音相关信号进行波束形成处理，将得到的声音增强信号发送至每个放音设备。由于主设备根据选择的主声音信号和每个声音信号进行互相关运算和波束形成处理，从而达到对声音信号进行精准增强的目的，以满足分体式会议系统对于声音信号的音质和可识别度的需求，改善了分体式会议系统中远程与会者的会议体验。

Description

一种声音信号处理方法、装置、主设备和分体式会议系统

技术领域

本发明涉及无线通信技术领域，特别涉及一种声音信号处理方法、装置、主设备和分体式会议系统。

背景技术

近年来，随着互联网的普及，网络电话会议接入设备的应用日渐广泛，目前常用的电话会议接入设备为单体式设备，其通过有线或无线局域网方式接入网络，每个分会场分别设置一个，以便于开展分体式的会议。

该会议接入设备的拾音方式有单麦克风和麦克风阵列两种，其中，单麦克风的会议接入设备和麦克风阵列的会议接入设备均可以在低噪声、无混响、距离声源很近的情况下拾取清晰的声音。

然而，在远场语音的情况下，由于声源和该会议接入设备的麦克风之间的距离较远，并且声音具有传输衰减的特性，即，随着声源和麦克风之间距离的增加，目标声音信号的声强的衰减逐渐变大，并趋近于背景噪声信号，再者，由于环境噪声、会场回声和混响等的影响，使得目标声音信号的信噪比较低，目标声音信号被识别出的可能性也大大降低，其它分会场的与会者无法听到清晰的声音，从而严重影响会议质量。因此，上述会议接入设备无法满足分体式会议对于声音信号的音质和可识别度的需求。

发明内容

本发明提供一种声音信号处理方法、装置、主设备和分体式会议系统，用以解决现有技术中的会议接入设备无法满足分体式会议对于声音信号的音质和可识别度的需求的问题。

第一方面，本发明实施例提供一种声音信号处理方法，应用于分体式会议系统，所述分体式会议系统包括主设备、多个放音设备和多个分体拾音设备，所述方法包括：

所述主设备从接收到的声音信号中选择主声音信号，其中，所述声音信号是由所述分体拾音设备采集到的，所述主声音信号是由与声源距离最近的分体拾音设备采集到的，或所述主声音信号是根据所述声音信号的信噪比确定的；

所述主设备将所述主声音信号分别与每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号；

所述主设备对多个所述声音相关信号进行波束形成处理，得到声音增强信号，并将所述声音增强信号发送至每个放音设备。

本发明实施例提供一种声音信号处理方法，包括主设备从接收到的声音信号中选择主声音信号；主设备将主声音信号分别与每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号；主设备对多个声音相关信号进行波束形成处理，将得到的声音增强信号发送至每个放音设备。由于主设备根据选择的主声音信号和每个声音信号进行互相关运算和波束形成处理，从而达到对声音信号进行精准增强的目的，以满足分体式会议系统对于声音信号的音质和可识别度的需求，改善了分体式会议系统中远程与会者的会议体验。

在一种可选的实施例中，所述主设备从接收到的声音信号中选择主声音信号，包括：

针对每个所述声音信号，所述主设备计算所述声音信号的信噪比；

所述主设备从计算得到的信噪比中选择大于预设信噪比阈值的目标信噪比；

所述主设备将所述目标信噪比对应的声音信号作为所述主声音信号。

上述方法，主设备计算每个声音信号的信噪比，并将计算得到的信噪比中大于预设信噪比阈值的信噪比对应的声音信号作为主声音信号。通过选择信噪比大于预设信噪比阈值的声音信号作为主声音信号，确定采集该声音信号的分体拾音设备为声源附近的分体拾音设备，提高了主声音信号和声源发出的初始声音信号的相似度，从而实现对该声音信号的精准增强。

在一种可选的实施例中，若包括多个目标信噪比，则所述方法还包括：

所述主设备确定与每个目标信噪比对应的第一分体拾音设备；

所述主设备从所有第一分体拾音设备中，选择分体拾音设备的间距小于预设距离阈值的第二分体拾音设备；

所述主设备若确定所述第二分体拾音设备包括所述所有第一分体拾音设备，则将所述多个目标信噪比中最大的信噪比对应的声音信号，作为所述主声音信号；

所述主设备若确定所述第二分体拾音设备为所述所有第一分体拾音设备中的部分分体拾音设备，则选择与所述第二分体拾音设备对应的目标信噪比，将选择的目标信噪比中最大的信噪比对应的声音信号，以及所述所有第一分体拾音设备中除所述第二分体拾音设备的其他分体拾音设备对应的声音信号，作为主声音信号集合，并将所述主声音信号集合中每个主声音信号作为所述主声音信号。

上述方法，主设备从根据目标信噪比确定的所有第一分体拾音设备中，选择分体拾音设备的间距小于预设距离阈值的第二分体拾音设备；若第二分体拾音设备包括所有第一分体拾音设备，则将多个目标信噪比中最大的信噪比对应的声音信号作为主声音信号；若第二分体拾音设备为所有第一分体拾音中的部分分体拾音设备，则将第二分体拾音设备对应的目标信噪比中的最大信噪比，和所有第一分体拾音设备中除第二分体拾音设备的其他分体拾音设备对应的声音信号作为主声音信号集合，并将主声音信号集合中每个主声音信号作为所述主声音信号。通过分体拾音设备的间距和目标信噪比，剔除多个目标信噪比中间距过近的分体拾音设备对应的目标信噪比，减小主设备的处理工作量，提升系统性能。

在一种可选的实施例中，该方法还包括：

所述主设备确定与每个声音相关信号对应的延时时间；

针对所述主声音信号集合中的每个主声音信号，所述主设备选择与所述主声音信号对应的第一声音相关信号，选择与所述第一声音相关信号对应的第一延时时间；将所述第一延时时间中的任意一个延时时间作为参考延时时间，计算每个第一延时时间与所述参考延时时间的延时差值；

所述主设备根据每个主声音信号对应的每个延时差值，计算每两个主声音信号对应的延时差值的相似度；

针对相似度小于预设相似度阈值的两个主声音信号，所述主设备从所述主声音信号集合中剔除所述两个主声音信号中任意一个主声音信号，得到目标声音信号集合。

上述方法，主设备通过互相关运算得到声音相关信号以及和每个声音相关信号对应的延时时间，并通过对延时时间计算得到的延时差值来确定每两个主声音信号对应的延时差值的相似度，根据相似度对主声音信号进行剔除处理，以实现对相同或相似的音源的缩减，减小主设备的处理工作量，提升系统性能。

在一种可选的实施例中，所述主设备对多个声音相关信号进行波束形成处理，得到声音增强信号，包括：

针对所述目标声音信号集合中的每个主声音信号，所述主设备对与所述主声音信号对应的多个声音相关信号进行波束形成处理，得到声音增强子信号；

所述主设备对每个声音增强子信号进行延时处理；

所述主设备对延时处理后的声音增强子信号进行混音处理，得到所述声音增强信号。

上述方法，针对所述目标声音信号集合中的每个主声音信号，主设备对主声音信号对应的多个声音相关信号进行波束形成处理得到声音增强子信号，再对每个声音增强子信号进行延时处理和混音处理，得到声音增强信号。通过对主声音信号进行波束形成处理、延时处理和混音处理，可以实现对多个声源发出的声音信号的精准增强，并最终将多个声音增强子信号混音为单一的声音增强信号对外输出。

在一种可选的实施例中，所述主设备对每个声音增强子信号进行延时处理，包括：

所述主设备从接收到的声音信号中选择一个声音信号作为参考声音信号；

所述主设备确定与所述参考声音信号对应的声音相关信号组，其中，所述声音相关信号组包括多个声音相关信号，多个所述声音相关信号为所述参考声音信号与所述目标声音信号集合中的每个主声音信号进行互相关运算得到的；

所述主设备确定所述声音相关信号组中每个声音相关信号对应的延时时间；

所述主设备将确定的每个延时时间与所述延时时间中的最小值进行差值运算；

所述主设备确定与每个差值对应的主声音信号，根据所述差值对所述主声音信号对应的声音增强子信号进行延时处理。

上述方法，主设备从接收到的声音信号中选择一个声音信号作为参考声音信号，并确定与参考声音信号对应的声音相关信号组；确定声音相关信号组中每个声音相关信号对应的延时时间，并将确定的每个延时时间与延时时间中的最小值进行差值运算；确定与每个差值对应的主声音信号，根据差值对主声音信号对应的声音增强子信号进行延时处理。通过上述方法使得所有声音增强子信号均处于同一位置，再对所有声音增强子信号进行混音处理，得到发送至每个放音设备的声音增强信号，提高了声音增强信号的可辨识度。

所述主设备接收到发言请求信号后，控制分体拾音设备测量所述分体拾音设备与声源之间的距离；

所述主设备根据接收到的分体拾音设备与所述声源之间的距离，确定目标分体拾音设备；

所述主设备将所述目标分体拾音设备发送的声音信号作为所述主声音信号。

上述方法，主设备接收到发言请求信号后，控制分体拾音设备测量分体拾音设备与声源之间的距离；根据接收到的分体拾音设备与声源之间的距离，确定目标分体拾音设备；将目标分体拾音设备发送的声音信号作为所述主声音信号。通过上述方法，实现了对发送发言请求的声源发送的声音信号的加强，提高了该声音信号的可识别度，改善了分体式会议系统的与会者的会议体验。

在一种可选的实施例中，所述主设备从接收到的声音信号中选择主声音信号之前，还包括：

针对每个所述分体拾音设备，所述主设备对所述分体拾音设备进行授时处理，以使所述分体拾音设备的第一时钟信号和所述主设备的第二时钟信号同步，以及所述主设备对所述分体拾音设备进行测距处理，得到所述主设备与所述分体拾音设备的间距。

上述方法，通过主设备对分体拾音设备进行授时和测距处理，以使分体拾音设备的第一时钟信号和主设备的第二时钟信号同步，进而根据同步的时钟信号进行声音信号的采集，便于声音信号后续的处理；并确定主设备与分体拾音设备的间距，进而实现该分体式会议系统的空间网格分布模型的构建。

第二方面，本发明实施例提供一种声音信号处理装置，应用于分体式会议系统，包括：

信号选择模块，用于从接收到的声音信号中选择主声音信号，其中，所述声音信号是由分体拾音设备采集到的，所述主声音信号是由与声源距离最近的分体拾音设备采集到的，或所述主声音信号是根据所述声音信号的信噪比确定的；

第一信号处理模块，用于将所述主声音信号分别与每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号；

第二信号处理模块，用于对多个所述声音相关信号进行波束形成处理，得到声音增强信号，并将所述声音增强信号发送至每个放音设备。

在一种可选的实施例中，所述信号选择模块具体用于：

针对每个所述声音信号，计算所述声音信号的信噪比；

从计算得到的信噪比中选择大于预设信噪比阈值的目标信噪比；

将所述目标信噪比对应的声音信号作为所述主声音信号。

在一种可选的实施例中，若包括多个目标信噪比，所述信号选择模块还用于：

确定与每个目标信噪比对应的第一分体拾音设备；

从所有第一分体拾音设备中，选择分体拾音设备的间距小于预设距离阈值的第二分体拾音设备；

若确定所述第二分体拾音设备包括所有第一分体拾音设备，则将所述多个目标信噪比中最大的信噪比对应的声音信号，作为所述主声音信号；

若确定所述第二分体拾音设备为所述所有第一分体拾音设备中的部分分体拾音设备，则选择与所述第二分体拾音设备对应的目标信噪比，将选择的目标信噪比中最大的信噪比对应的声音信号，以及所述所有第一分体拾音设备中除所述第二分体拾音设备的其他分体拾音设备对应的声音信号，作为主声音信号集合，并将所述主声音信号集合中每个主声音信号作为所述主声音信号。

在一种可选的实施例中，所述声音信号处理装置还包括信号剔除模块；

所述信号剔除模块具体用于：

确定与每个声音相关信号对应的延时时间；

针对所述主声音信号集合中的每个主声音信号，选择与所述主声音信号对应的第一声音相关信号，选择与所述第一声音相关信号对应的第一延时时间；将所述第一延时时间中的任意一个延时时间作为参考延时时间，计算每个第一延时时间与所述参考延时时间的延时差值；

根据每个主声音信号对应的每个延时差值，计算每两个主声音信号对应的延时差值的相似度；

针对相似度小于预设相似度阈值的两个主声音信号，从所述主声音信号集合中剔除所述两个主声音信号中任意一个主声音信号，得到目标声音信号集合。

在一种可选的实施例中，所述第二信号处理模块具体用于：

针对所述目标声音信号集合中的每个主声音信号，对与所述主声音信号对应的多个声音相关信号进行波束形成处理，得到声音增强子信号；

对每个声音增强子信号进行延时处理；

对延时处理后的声音增强子信号进行混音处理，得到所述声音增强信号。

在一种可选的实施例中，所述第二信号处理模块具体用于：

从接收到的声音信号中选择一个声音信号作为参考声音信号；

确定与所述参考声音信号对应的声音相关信号组，其中，所述声音相关信号组包括多个声音相关信号，多个所述声音相关信号为所述参考声音信号与所述目标声音信号集合中的每个主声音信号进行互相关运算得到的；

确定所述声音相关信号组中每个声音相关信号对应的延时时间；

将确定的每个延时时间与所述延时时间中的最小值进行差值运算；

确定与每个差值对应的主声音信号，根据所述差值对所述主声音信号对应的声音增强子信号进行延时处理。

在一种可选的实施例中，所述信号选择模块还用于：

接收到发言请求信号后，控制分体拾音设备测量所述分体拾音设备与声源之间的距离；

根据接收到的分体拾音设备与所述声源之间的距离，确定目标分体拾音设备；

将所述目标分体拾音设备发送的声音信号作为所述主声音信号。

在一种可选的实施例中，所述声音信号处理装置还包括授时测距模块；

所述授时测距模块，用于针对每个所述分体拾音设备，对所述分体拾音设备进行授时处理，以使所述分体拾音设备的第一时钟信号和所述主设备的第二时钟信号同步，以及对所述分体拾音设备进行测距处理，得到所述主设备与所述分体拾音设备的间距。

第三方面，本发明实施例提供一种主设备，应用于分体式会议系统，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的声音信号处理方法的步骤。

第四方面，本发明实施例提供一种分体式会议系统，包括多个分体拾音设备和如第三方面实施例所述的主设备。

第五方面，本发明实施例提供一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现第一方面任一实施例所述的声音信号处理方法的步骤。

上述第二方面公开的声音信号处理装置、第三方面公开的主设备、第四方面公开的分体式会议系统和第五方面公开的计算机可读存储介质可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种声音信号处理方法的流程示意图；

图2为本发明实施例提供的一种主设备主动授时的交互图；

图3为本发明实施例提供的一种主设备被动授时的交互图；

图4为本发明实施例提供的一种分体式会议系统的空间网格分布模型的结构示意图；

图5a为本发明实施例提供的一种声音信号处理方法的示意图；

图5b为本申请实施例提供的另一种声音信号处理方法的示意图；

图6为本发明实施例提供的一种声音信号处理装置的模块结构示意图；

图7为本发明实施例提供的一种主设备的结构示意图；

图8为本发明实施例提供的一种声音信号处理方法的程序产品的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

相关技术中，在远场语音的情况下，由于声源和会议接入设备的麦克风之间的距离较远，且还存在环境噪声、会场回声和混响等的影响，使得目标声音信号的信噪比较低，目标声音信号被识别出的可能性大大降低，其它分会场的与会者无法听到清晰的声音，从而严重影响会议质量。

为了解决上述问题，本发明的实施例提供一种声音信号处理方法、装置和分体式会议系统，以满足分体式会议系统对于声音信号的音质和可识别度的需求。

实施例

下面通过具体的实施例对本发明提供的一种声音信号处理方法进行说明，该方法应用于分体式会议系统，分体式会议系统包括主设备、多个放音设备和多个分体拾音设备，如图1所示，该方法包括：

步骤101，主设备从接收到的声音信号中选择主声音信号，其中，声音信号是由分体拾音设备采集到的，主声音信号是由与声源距离最近的分体拾音设备采集到的，或主声音信号是根据声音信号的信噪比确定的；

步骤102，主设备将主声音信号分别与每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号；

步骤103，主设备对多个声音相关信号进行波束形成处理，得到声音增强信号，并将声音增强信号发送至每个放音设备。

需要说明的是。本发明实施例中互相关运算可以采用CCF（Cross-CorrelationFunction，互相关函数）法、也可以采用GCCF（Generalized Cross-Correlation Function，广义互相关函数）法、还可以采用GCCF-PHAT（Generalized Cross Correlation-PhaseTransform，相位变换广义互相关函数）法，本发明实施例对此不作任何限制；此外，本发明实施例中波束形成处理可以采用固定波束形成处理的方法，例如，采用Delay-Sum（延迟求和）波束形成算法，或采用差分波束形成算法，还可以采用自适应波束形成处理的方法，例如，采用LCMV（Linearly constrained minimum variance，线性约束最小方差）波束形成算法、或采用MVDR（Minimum Variance Distortionless Response，最小方差无失真响应）波束形成算法，本发明实施例对此不作任何限制。

需要说明的是，本发明实施例提供的一种声音信号处理方法，其应用于分体式会议系统，该分体式会议系统包括主设备、多个放音设备和多个分体拾音设备，其中，多个放音设备和多个分体拾音设备分别放置于会议室的不同位置，主设备、各个放音设备和各个分体拾音设备之间分别通过UWB（Ultra Wide Band，超宽带）高速通道进行声音信号的传输。

在具体实施中，在分体式会议系统开机后，首先，主设备对多个分体拾音设备进行测距和统一授时，以使多个分体拾音设备具有同步的时钟信号，便于多个分体拾音设备根据同步的时钟信号采集声音信号，其中，授时可以分为主动授时和被动授时两种方式：

主动授时：

主设备通过ToF（Time of Flight，飞行时间）测距法测量与多个分体拾音设备之间的距离，然后依次将带有第一时间戳的授时包发给各个分体拾音设备，各个分体拾音设备接收到主设备发送的授时包后，即可实现主设备和各个分体拾音设备的时钟信号的同步。

如图2所示，以主设备对分体拾音设备1进行主动授时为例进行说明，在T1时刻，主设备向分体拾音设备1发送测距请求包，分体拾音设备1在T2时刻接收到该测距请求包，并在T3时刻向主设备发送请求回包，主设备在T4时刻接收到该请求回包，通过上述交互过程和ToF测距法，即可确定主设备与分体拾音设备1之间信号传输的第一时间ToF1，具体的：

。

在T5时刻，主设备向分体拾音设备1发送授时包，其中，该授时包中包含第一时间戳，即包含

的信息，分体拾音设备1在T6时刻接收到该授时包后，根据该授时包携带的第一时间戳同步时钟信号。

采用主动授时的方式，以维持多个分体拾音设备与主设备的时钟信号的统一性，可以在较短时间范围内完成统一授时，提高多个分体拾音设备的同步性。

被动授时：

分体拾音设备向主设备发送授时测距请求包，主设备在接收到授时测距请求包后，将带有第二时间戳的授时测距回包发给该分体拾音设备，该分体拾音设备接收到主设备发送的授时测距回包后，即可实现与主设备的时钟信号的同步。

如图3所示，以主设备对分体拾音设备1进行被动授时为例进行说明，在T1时刻，分体拾音设备1向主设备发送授时测距请求包，主设备在T2时刻接收到该授时测距请求包，并在T3时刻向分体拾音设备1发送授时测距回包，其中，该授时测距回包中包含第二时间戳，即包含T3的信息，分体拾音设备1在T4时刻接收到该授时测距回包后，根据该授时测距回包后携带的第二时间戳同步时钟信号。

通过上述交互过程和ToF测距法，即可确定主设备与分体拾音设备1之间信号传输的第二时间ToF2，具体的：

。

其中，分体拾音设备1接收到该授时测距回包的时刻为：

。

被动授时的方式可以应用在分体拾音设备刚开机的场景中，或者分体拾音设备离开UWB通信距离后又回到UWB通信距离内的类似需要即时授时的场景中。

在具体实施中，在分体拾音设备与主设备完成测距和授时处理后，即建立了稳定的连接，然后，主设备将当前已连接设备列表发送给分体拾音设备，分体拾音设备接收到该已连接设备列表后，向已连接设备列表中包含的所有分体拾音设备发送测距请求，通过ToF测距法测得该分体拾音设备与已连接设备列表中每个分体拾音设备之间的距离，并将该距离汇总给发给主设备。

在确定主设备与多个分体拾音设备之间的距离，以及每两个分体拾音设备之间的距离后，根据上述距离构建该分体式会议系统的空间网格分布模型，具体的，如图4所示，在主设备的当前已连接设备列表中，任意选取两个分体拾音设备，其中，选取的两个分体拾音设备之间的距离大于第一预设距离，且选取的每个分体拾音设备与主设备之间的距离也大于第一预设距离，设选取的为分体拾音设备1和分体拾音设备2，接着，以选取的两个分体拾音设备和主设备组成的平面作为(x,y)坐标平面，以主设备所在的位置作为XYZ三维坐标系的原点，即主设备在该XYZ三维坐标系中的坐标为（0,0,0），然后，根据与主设备的相对位置确定另外两个设备在该XYZ三维坐标系中的坐标，即，确定分体拾音设备1的坐标为（x1,y1,0），分体拾音设备2的坐标为（x2,y2,0），至此，确定了以主设备为原点，以主设备、分体拾音设备1和分体拾音设备2组成的平面为(x,y)平面的三维坐标系。

在确定了上述三维坐标系后，主设备根据其它分体拾音设备与主设备、分体拾音设备1和分体拾音设备2之间的距离，以及主设备、分体拾音设备1和分体拾音设备2的坐标，依次确定其它分体拾音设备在该三维坐标系中的坐标，具体的，若确定分体拾音设备3的坐标，则设定分体拾音设备3的坐标为（x,y,z），又由于分体拾音设备3与主设备的间距为d1，分体拾音设备3与分体拾音设备1的间距为d2，分体拾音设备3与分体拾音设备2的间距为d3，且分体拾音设备1的坐标为（x1,y1,0），分体拾音设备2的坐标为（x2,y2,0），则可以确定下列方程组：

。

根据该方程组可以确定分体拾音设备3的坐标为（x,y,|z|），主设备设定任意一个分体拾音设备的坐标的z为正值，则根据该任意选定的分体拾音设备的坐标，可以确定分体拾音设备3的准确坐标为（x,y,z）。

需要说明的是，本发明实施例中，第一预设距离是一个经验值，且该第一预设距离与会议室面积的大小呈正比例关系，若会议室的面积越大，则相对应的第一预设距离也就越大。

在具体实施中，构建完成分体式会议系统的空间网格分布模型后，主设备会在接收到的声音信号中选择主声音信号，并依次将主声音信号和每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号，和每个声音相关信号相对于主声音信号的延时时间，最后对多个声音相关信号进行波束形成处理，即可得到发送至每个放音设备的单一的声音增强信号。

具体的，每个分体拾音设备将采集到的声音信号经过互相关运算后，得到与每个声音信号对应的声音相关信号，其中，声音相关信号为同一个声音信号到达不同分体拾音设备的去掉延时后对齐的声音信号，例如，如图5a所示，分体式会议系统包括（n+1）个分体拾音设备，每个分体拾音设备均采集到来自声源的声音信号，这些声音信号之间存在不同的延时，示例性的，声音信号1和声音信号2之间存在t1的时间差，声音信号1和声音信号n+1之间存在tn的时间差，若选择声音信号1为主声音信号，根据声音信号1分别对声音信号1~(n+1)进行互相关运算后，得到的声音相关信号均为去掉延时后对齐的声音信号，然后，所有声音相关信号经过波束形成处理后，即可得到声音增强信号，该声音增强信号为对来自声源方向的声音信号进行加权增强后的信号；如图5b所示，每个分体拾音设备还可能会采集到来自非声源方向的声音信号，示例性的，该（n+1）个分体拾音设备采集到来自噪声源的声音信号，同样，根据声音信号1分别对声音信号(n+2)~(2n+2)进行互相关运算后，由于声音信号(n+2)~(2n+2)为来自噪声源的声音信号，而声音信号1为来自声源的声音信号，其相关性较小，因此，不会被认为是与声音信号1对应的声音相关信号，也就不会对声音信号(n+2)~(2n+2)进行增强处理。通过上述方式实现了对单个声源的定位增强和抗多径抗噪目的。

需要说明的是，本发明实施例中，主声音信号与其对应的分体拾音设备采集到的声音信号进行互相关运算后，输出的延时时间为0。

在一种可选的实施例中，主设备从接收到的声音信号中选择主声音信号，包括：

针对每个声音信号，主设备计算声音信号的信噪比；

主设备从计算得到的信噪比中选择大于预设信噪比阈值的目标信噪比；

主设备将目标信噪比对应的声音信号作为主声音信号。

在具体实施中，多个分体拾音设备通过同步时钟信号采集声音信号，并将采集到的声音信号通过UWB高速通道传给主设备，主设备计算接收到的声音信号的信噪比，优选的，可以通过公式：

，计算上述声音信号的最大瞬时功率信噪比，并对计算得到的信噪比和预设信噪比阈值进行比较。

其中，SNR为声音信号的信噪比，Ps为声音信号的有效功率，Pn为噪声信号的有效功率。

若声音信号的信噪比大于预设信噪比阈值，则说明采集到该声音信号的分体拾音设备为距离声源最近的分体拾音设备，该分体拾音设备采集到的声音信号与声源发出的初始声音信号的相似度最高，并将该信噪比作为目标信噪比，将目标信噪比对应的声音信号作为主声音信号，从而实现了对主声音信号的选择。

在一种可选的实施例中，若包括多个目标信噪比，该方法还包括：

主设备确定与每个目标信噪比对应的第一分体拾音设备；

主设备从所有第一分体拾音设备中，选择分体拾音设备的间距小于预设距离阈值的第二分体拾音设备；

主设备若确定第二分体拾音设备包括所有第一分体拾音设备，则将多个目标信噪比中最大的信噪比对应的声音信号，作为主声音信号；

主设备若确定第二分体拾音设备为所有第一分体拾音设备中的部分分体拾音设备，则选择与第二分体拾音设备对应的目标信噪比，将选择的目标信噪比中最大的信噪比对应的声音信号，以及所有第一分体拾音设备中除第二分体拾音设备的其他分体拾音设备对应的声音信号，作为主声音信号集合，并将主声音信号集合中每个主声音信号作为主声音信号。

在具体实施中，若包括多个目标信噪比，也就是说，存在多个声音信号的信噪比大于预设信噪比阈值，则将上述采集到具有目标信噪比的声音信号的分体拾音设备确定为第一分体拾音设备，主设备再对多个分体拾音设备的间距进行判断，选择间距小于预设距离阈值的第一分体拾音设备，作为第二分体拾音设备，并在第二分体拾音设备中保留一个采集到的声音信号的信噪比最大的分体拾音设备，删除第二分体拾音设备中的其他分体拾音设备，以排除由于分体拾音设备间距较小，导致多个分体拾音设备采集到相同声源发出的声音信号的可能性，减小主设备的工作量，提升了系统性能。

例如，若根据多个目标信噪比确定的第一分体拾音设备中包含：分体拾音设备1、分体拾音设备3和分体拾音设备4，其中，分体拾音设备3和分体拾音设备4的间距小于预设距离阈值，所以，第二分体拾音设备中包含：分体拾音设备3和分体拾音设备4，由于分体拾音设备3对应的目标信噪比大于分体拾音设备4对应的目标信噪比，因此，删除分体拾音设备4对应的声音信号，保留分体拾音设备3对应的声音信号和分体拾音设备1对应的声音信号，并将上述两个声音信号组成主声音信号集合。

需要说明的是，本发明实施例中，预设距离阈值是一个经验值，且该预设距离阈值与会议室面积的大小有关。

上述方法，主设备从根据目标信噪比确定的所有第一分体拾音设备中，选择分体拾音设备的间距小于预设距离阈值的第二分体拾音设备；若第二分体拾音设备包括所有第一分体拾音设备，则将多个目标信噪比中最大的信噪比对应的声音信号作为主声音信号；若第二分体拾音设备为所有第一分体拾音中的部分分体拾音设备，则将第二分体拾音设备对应的目标信噪比中的最大信噪比，和所有第一分体拾音设备中除第二分体拾音设备的其他分体拾音设备对应的声音信号作为主声音信号集合，并将主声音信号集合中每个主声音信号作为主声音信号。通过分体拾音设备的间距和目标信噪比，剔除多个目标信噪比中间距过近的分体拾音设备对应的目标信噪比，减小主设备的处理工作量，提升系统性能。

在一种可选的实施例中，该方法还包括：

主设备确定与每个声音相关信号对应的延时时间；

针对主声音信号集合中的每个主声音信号，主设备选择与主声音信号对应的第一声音相关信号，选择与第一声音相关信号对应的第一延时时间；将第一延时时间中的任意一个延时时间作为参考延时时间，计算每个第一延时时间与参考延时时间的延时差值；

主设备根据每个主声音信号对应的每个延时差值，计算每两个主声音信号对应的延时差值的相似度；

针对相似度小于预设相似度阈值的两个主声音信号，主设备从主声音信号集合中剔除两个主声音信号中任意一个主声音信号，得到目标声音信号集合。

在具体实施中，设定主声音信号集合中包括m个声音信号，该分体式会议系统中包含n个分体拾音设备，则主设备将主声音信号集合中的每个声音信号依次作为主声音信号，进行互相关运算后，得到与每个声音相关信号对应的延时时间，上述延时时间可以组成如下的第一延时时间矩阵：

。

其中，该第一延时时间矩阵的行数量为主声音信号集合中声音信号的数量m，即声源的数量，该第一延时时间矩阵的列数量为该分体式会议系统中分体拾音设备的数量n，也就是说，delay11代表主声音信号集合中第一个声音信号（主声音信号1）和分体拾音设备1采集到的声音信号进行互相关运算得到的延时时间。

然后，主设备根据主声音信号集合中的每个主声音信号，确定与该主声音信号对应的第一声音相关信号，以及和第一声音相关信号对应的第一延时时间，并将第一延时时间的中的任意一个延时时间作为参考延时时间，计算每个第一延时时间与参考延时时间的延时差值。例如，将第一延时时间矩阵的第一列作为与每个主声音信号对应的参考延时时间，将该主声音信号对应的每个第一延时时间与参考延时时间作差值运算，可得到延时差值，所有延时差值可以组成如下的延时差值矩阵：

。

其中，该延时差值矩阵的行数量与第一延时时间矩阵的行数量相同，为m，该延时差值矩阵的列数量与第一延时时间矩阵的列数量相同，为n，具体的，

。

主设备根据上述延时差值矩阵，分别计算该延时差值矩阵中每两行的相似度，例如，可以计算延时差值矩阵第一行和第二行对应位置处的延时差值的差值，也可以计算延时差值矩阵第一行中的延时差值和第二行中的延时差值的相关性的大小，本发明实施例对此不作任何限制。

例如，由于延时差值矩阵每一行分别对应一个主声音信号，因此，若计算得到的延时差值矩阵的第一行和延时差值矩阵的第三行的相似度小于预设相似度阈值，则认为延时差值矩阵的第一行对应的主声音信号1，和延时差值矩阵的第三行对应的主声音信号3为相同声源发出的声音信号，其中，预设相似度阈值为一个经验值，本发明实施例对此不作任何限制。由于主声音信号1的信噪比小于主声音信号3的信噪比，则剔除主声音信号1，保留主声音信号3，以达到删减相同声源的目的，进而减小主设备的工作量，提升系统性能。

在剔除掉相同声源后，主声音信号集合中声音信号的个数由m个减小为m’个，且得到的m’个主声音信号组成目标声音信号集合，并针对目标声音信号集合中的主声音信号，确定与其对应的第二延时时间矩阵：

。

其中，该第二延时时间矩阵的行数量为剔除声源后的主声音信号集合中声音信号的数量m’，该第二延时时间矩阵的列数量为该分体式会议系统中分体拾音设备的数量n。

在一种可选的实施例中，主设备对多个声音相关信号进行波束形成处理，得到声音增强信号，包括：

针对目标声音信号集合中的每个主声音信号，主设备对与主声音信号对应的多个声音相关信号进行波束形成处理，得到声音增强子信号；

主设备对每个声音增强子信号进行延时处理；

主设备对延时处理后的声音增强子信号进行混音处理，得到声音增强信号。

在具体实施中，主设备对目标声音信号集合中的每个主声音信号对应的多个声音相关信号进行波束形成处理，得到声音增强子信号，再对声音增强子信号进行延时处理和混音处理，即可得到发送至每个放音设备的单一的声音增强信号，进而使得分体式会议系统可以识别多个声源发出的声音信号，并对不同声源发出的声音信号采用不同的声音增强策略进行增强处理，最终混合为单一的声音增强信号对外输出，提升了声音信号的可识别度。

上述方法，针对目标声音信号集合中的每个主声音信号，主设备对主声音信号对应的多个声音相关信号进行波束形成处理得到声音增强子信号，再对每个声音增强子信号进行延时处理和混音处理，得到声音增强信号。通过对主声音信号进行波束形成处理、延时处理和混音处理，可以实现对多个声源发出的声音信号的精准增强，并最终将多个声音增强子信号混音为单一的声音增强信号对外输出。

在一种可选的实施例中，主设备对每个声音增强子信号进行延时处理，包括：

主设备从接收到的声音信号中选择一个声音信号作为参考声音信号；

主设备确定与参考声音信号对应的声音相关信号组，其中，声音相关信号组包括多个声音相关信号，多个声音相关信号为参考声音信号与目标声音信号集合中的每个主声音信号进行互相关运算得到的；

主设备确定声音相关信号组中每个声音相关信号对应的延时时间；

主设备将确定的每个延时时间与延时时间中的最小值进行差值运算；

主设备确定与每个差值对应的主声音信号，根据差值对主声音信号对应的声音增强子信号进行延时处理。

在具体实施中，主设备在第二延时时间矩阵中随机选择一列延时时间，组成m’个主声音信号到分体拾音设备k的延时时间的数组，例如，选定第二延时时间矩阵中的第一列延时时间，由于选中的延时时间为第一分体拾音设备1对应的延时时间，因此，得到m’个主声音信号到分体拾音设备1的延时时间的数组：[delay11, delay21, ……,delaym’1]，确定该延时时间数组中的最小延时时间，delaym’’1，其中，1<= m’’<= m’，再对延时时间数组中所有延时时间和delaym’’1进行差值运算，得到m’个主声音信号相对与分体拾音设备k的差值数组delay’’：[delay’’11, delay’’21, ……,delay’’m’1]。主设备将主声音信号1对应的声音增强子信号增加延时delay’’11，将主声音信号2对应的声音增强子信号增加延时delay’’21，……，将主声音信号m’对应的声音增强子信号增加延时delay’’m’1，以使延时处理后声音增强子信号的均为到达同一位置时的信号，对所有延时处理后声音增强子信号进行混音处理后，得到最终的声音增强信号。

例如，若最小的延时时间为delaym’’1=delay21，则对延时时间数组[delay11,delay21, ……,delaym’1]进行处理后，得到的差值数组为：[delay11-delay21, 0, ……,delaym’1-delay21]。

需要说明的是，本发明实施例中分体拾音设备k由主设备指定，且为该分体式会议系统的空间网格分布模型中较为居中的分体拾音设备。

主设备接收到发言请求信号后，控制分体拾音设备测量分体拾音设备与声源之间的距离；

主设备根据接收到的分体拾音设备与声源之间的距离，确定目标分体拾音设备；

主设备将目标分体拾音设备发送的声音信号作为主声音信号。

可选的，所有与会者均佩戴UWB空间位置信标，当与会者需要发言时，可按下UWB空间位置信标上的按键，然后再进行发言。

在具体实施中，当与会者按下UWB空间位置信标上的按键后，UWB空间位置信标会向主设备发送发言请求，主设备接收到发言请求信号后，控制分体拾音设备测量分体拾音设备与声源（即请求发言的与会者）之间的距离，有以下两种确定间距的方式：

方式一：

在该分体式会议系统的空间网格分布模型确定该声源在三维坐标系中的坐标，并根据声源的坐标和多个分体拾音设备的坐标，分别计算出该声源与每个分体拾音设备的间距。

方式二：

主设备接收到发言请求后，控制多个分体拾音设向UWB空间位置信标发送测距请求包，并根据ToF测距法，确定声源与每个分体拾音设备的间距。

在确定声源与每个分体拾音设备的间距后，将与声源间距最近的分体拾音设备采集到的声音信号作为主声音信号，从而完成了主声音信号的选择。

可选的，由于声源与每个分体拾音设备的间距已经被确定，根据声音在空气中传播的速度(常温下约为340m/s)，确定声源发出的声音信号传输到每个分体拾音设备需要的时间，得到声源到达所有每个分体拾音设备的声音传输时间数组：[time1, time2,……timen]，在上述声音传输时间数组中确定最小的声音传输时间timen’，（1<=n’<=n），该声音传输时间timen’对应的分体拾音设备n’即为距离声源最近的分体设备。然后，将声音传输时间数组中每个声音传输时间和最小声音传输时间timen’作差值运算，得到相对于分体拾音设备n’的延时时间数组：[delay1, delay2, ……delayn]，其中，delay1=time1-timen’，delay2=time2-timen’，…，delayn=timen-timen’。

主设备根据确定的主声音信号和每个声音信号，进行限定延时时间范围的互相关运算，即，对于分体拾音设备n采集到的声音信号，限制延时输出范围为(delayn-δdelay，delayn+δdelay)，其中，δdelay为UWB测距误差、声音在不同状况空气中传播速度不同导致误差等的综合误差估计值，例如，UWB测距误差通常为20cm，音在不同状况空气中传播速度不同导致误差通常为±0.5cm~±2cm。在互相关运算结束后，得到主声音信号和每个声音信号在限定延时范围内的声音相关信号和与声音相关信号对应的延时时间，即，得到主声音信号到达每个分体拾音设备的延时时间数组delay’：[delay’1, delay’2, ……delay’n]。

在具体实施中，当有多个与会者同时按下UWB空间位置信标上的按键时，说明存在多个声源同时发出声音信号，主设备依次将UWB空间位置信标对应的声源处的声音信号作为主声音信号，进行互相关运算、波束形成处理。延时处理和混音处理，最终输出单一的声音增强信号，以提升多讲情况下的远程会议的体验。

上述方法，主设备接收到发言请求信号后，控制分体拾音设备测量分体拾音设备与声源之间的距离；根据接收到的分体拾音设备与声源之间的距离，确定目标分体拾音设备；将目标分体拾音设备发送的声音信号作为主声音信号。通过上述方法，实现了对发送发言请求的声源发送的声音信号的加强，提高了该声音信号的可识别度，改善了分体式会议系统的与会者的会议体验。

实施例

基于相同的构思，本发明实施例还提供一种声音信号处理装置，应用于分体式会议系统，分体式会议系统包括主设备和多个分体拾音设备，由于该装置即是本发明实施例中的方法中的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图6所示，上述装置包括以下模块：

信号选择模块601，用于从接收到的声音信号中选择主声音信号，其中，声音信号是由分体拾音设备采集到的，主声音信号是由与声源距离最近的分体拾音设备采集到的，或主声音信号是根据声音信号的信噪比确定的；

第一信号处理模块602，用于将主声音信号分别与每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号；

第二信号处理模块603，用于对多个声音相关信号进行波束形成处理，得到声音增强信号，并将声音增强信号发送至每个放音设备。

在一种可选的实施例中，信号选择模块601具体用于：

针对每个声音信号，计算声音信号的信噪比；

将目标信噪比对应的声音信号作为主声音信号。

在一种可选的实施例中，若包括多个目标信噪比，信号选择模块601还用于：

确定与每个目标信噪比对应的第一分体拾音设备；

若确定第二分体拾音设备包括所有第一分体拾音设备，则将多个目标信噪比中最大的信噪比对应的声音信号，作为主声音信号；

若确定第二分体拾音设备为所有第一分体拾音设备中的部分分体拾音设备，则选择与第二分体拾音设备对应的目标信噪比，将选择的目标信噪比中最大的信噪比对应的声音信号，以及所有第一分体拾音设备中除第二分体拾音设备的其他分体拾音设备对应的声音信号，作为主声音信号集合，并将主声音信号集合中每个主声音信号作为主声音信号。

在一种可选的实施例中，声音信号处理装置还包括信号剔除模块；

信号剔除模块具体用于：

确定与每个声音相关信号对应的延时时间；

针对主声音信号集合中的每个主声音信号，选择与主声音信号对应的第一声音相关信号，选择与第一声音相关信号对应的第一延时时间；将第一延时时间中的任意一个延时时间作为参考延时时间，计算每个第一延时时间与参考延时时间的延时差值；

针对相似度小于预设相似度阈值的两个主声音信号，从主声音信号集合中剔除两个主声音信号中任意一个主声音信号，得到目标声音信号集合。

在一种可选的实施例中，第二信号处理模块603具体用于：

针对目标声音信号集合中的每个主声音信号，对与主声音信号对应的多个声音相关信号进行波束形成处理，得到声音增强子信号；

对每个声音增强子信号进行延时处理；

对延时处理后的声音增强子信号进行混音处理，得到声音增强信号。

在一种可选的实施例中，第二信号处理模块603具体用于：

确定与参考声音信号对应的声音相关信号组，其中，声音相关信号组包括多个声音相关信号，多个声音相关信号为参考声音信号与目标声音信号集合中的每个主声音信号进行互相关运算得到的；

确定声音相关信号组中每个声音相关信号对应的延时时间；

将确定的每个延时时间与延时时间中的最小值进行差值运算；

确定与每个差值对应的主声音信号，根据差值对主声音信号对应的声音增强子信号进行延时处理。

在一种可选的实施例中，信号选择模块601还用于：

接收到发言请求信号后，控制分体拾音设备测量分体拾音设备与声源之间的距离；

根据接收到的分体拾音设备与声源之间的距离，确定目标分体拾音设备；

将目标分体拾音设备发送的声音信号作为主声音信号。

在一种可选的实施例中，声音信号处理装置还包括授时测距模块；

授时测距模块具体用于：

针对每个分体拾音设备，对分体拾音设备进行授时处理，以使分体拾音设备的第一时钟信号和主设备的第二时钟信号同步，以及对分体拾音设备进行测距处理，得到主设备与分体拾音设备的间距。

实施例

基于相同的构思，本发明实施例还提供一种主设备，应用于分体式会议系统，由于该主设备即是本发明实施例中的方法中的主设备，并且该主设备解决问题的原理与该方法相似，因此该主设备的实施可以参见方法的实施，重复之处不再赘述。

下面参照图7来描述根据本发明的这种实施方式的主设备70。图7显示的主设备70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，主设备70可以以通用计算设备的形式表现，例如其可以为终端设备。主设备70的组件可以包括但不限于：上述至少一个处理器71、上述至少一个存储有处理器71可执行指令的存储器72、连接不同系统组件（包括存储器72和处理器71）的总线73，处理器71是智能设备的处理器。

处理器71通过运行可执行指令以实现如下步骤：

从接收到的声音信号中选择主声音信号，其中，声音信号是由分体拾音设备采集到的，主声音信号是由与声源距离最近的分体拾音设备采集到的，或主声音信号是根据声音信号的信噪比确定的；

将主声音信号分别与每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号；

对多个声音相关信号进行波束形成处理，得到声音增强信号，并将声音增强信号发送至每个放音设备。

在一种可选的实施例中，处理器71具体用于：

针对每个声音信号，计算声音信号的信噪比；

将目标信噪比对应的声音信号作为主声音信号。

在一种可选的实施例中，若包括多个目标信噪比，处理器71具体用于：

确定与每个目标信噪比对应的第一分体拾音设备；

在一种可选的实施例中，处理器71还用于：

确定与每个声音相关信号对应的延时时间；

在一种可选的实施例中，处理器71具体用于：

对每个声音增强子信号进行延时处理；

在一种可选的实施例中，处理器71具体用于：

确定声音相关信号组中每个声音相关信号对应的延时时间；

在一种可选的实施例中，处理器71具体用于：

将目标分体拾音设备发送的声音信号作为主声音信号。

在一种可选的实施例中，处理器71具体用于：

总线73表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器72可以包括易失性存储器形式的可读介质，例如随机存取存储器（RAM）721和/或高速缓存存储器722，还可以进一步包括只读存储器（ROM）723。

存储器72还可以包括具有一组（至少一个）程序模块724的程序/实用工具725，这样的程序模块724包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

主设备70也可以与一个或多个外部设备74（例如键盘、指向设备、本发明任一实施例中的分体拾音设备等）通信，还可与一个或者多个使得用户能与主设备70交互的设备通信，和/或与使得主设备70能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等）通信。这种通信可以通过输入/输出（I/O）接口75进行。并且，主设备70还可以通过网络适配器76与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器76通过总线73与电子设备70的其它模块通信。应当明白，尽管图中未示出，可以结合主设备70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

实施例

基于相同的构思，本发明实施例提供一种分体式会议系统，包括多个分体拾音设备和如上述实施例提供的主设备。该分体式会议系统解决问题的原理与前述声音信号处理方法相似，因此该分体式会议系统的实施可以参见前述声音信号处理方法的实施，重复之处不再赘述。

实施例

基于相同的构思，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的声音信号处理装置中各模块的步骤，例如，从接收到的声音信号中选择主声音信号，其中，声音信号是由分体拾音设备采集到的，主声音信号是由与声源距离最近的分体拾音设备采集到的，或主声音信号是根据声音信号的信噪比确定的；将主声音信号分别与每个声音信号进行互相关运算，得到与每个声音信号对应的声音相关信号；对多个声音相关信号进行波束形成处理，得到声音增强信号，并将声音增强信号发送至每个放音设备。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图8所示，描述了根据本发明的实施方式的用于声音信号处理方法的程序产品80，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）—连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

应当注意，尽管在上文详细描述中提及了系统的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明系统各模块的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些操作，将多个操作合并为一个操作执行，和/或将一个操作分解为多个操作执行。

以上参照示出根据本申请实施例的方法、装置（系统）和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件（包括固件、驻留软件、微码等）来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声音信号处理方法，其特征在于，应用于分体式会议系统，所述分体式会议系统包括主设备、多个放音设备和多个分体拾音设备，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述主设备从接收到的声音信号中选择主声音信号，包括：

3.如权利要求2所述的方法，其特征在于，若包括多个目标信噪比，则所述方法还包括：

4.如权利要求3所述的方法，其特征在于，该方法还包括：

所述主设备确定与每个声音相关信号对应的延时时间；

5.如权利要求4所述的方法，其特征在于，所述主设备对多个声音相关信号进行波束形成处理，得到声音增强信号，包括：

所述主设备对每个声音增强子信号进行延时处理；

6.如权利要求5所述的方法，其特征在于，所述主设备对每个声音增强子信号进行延时处理，包括：

7.如权利要求1所述的方法，其特征在于，所述主设备从接收到的声音信号中选择主声音信号，包括：

8.如权利要求1~7任一所述的方法，其特征在于，所述主设备从接收到的声音信号中选择主声音信号之前，还包括：

9.一种声音信号处理装置，其特征在于，应用于分体式会议系统，包括：

10.如权利要求9所述的装置，其特征在于，所述信号选择模块用于：

针对每个所述声音信号，计算所述声音信号的信噪比；

将所述目标信噪比对应的声音信号作为所述主声音信号。

11.如权利要求10所述的装置，其特征在于，若包括多个目标信噪比，则所述信号选择模块还用于：

确定与每个目标信噪比对应的第一分体拾音设备；

若确定所述第二分体拾音设备包括所述所有第一分体拾音设备，则将所述多个目标信噪比中最大的信噪比对应的声音信号，作为所述主声音信号；

12.如权利要求11所述的装置，其特征在于，还包括信号剔除模块；

所述信号剔除模块，用于确定与每个声音相关信号对应的延时时间；

13.如权利要求12所述的装置，其特征在于，所述第二信号处理模块用于：

对每个声音增强子信号进行延时处理；

14.如权利要求13所述的装置，其特征在于，所述第二信号处理模块用于：

15.如权利要求9所述的装置，其特征在于，所述信号选择模块用于：

16.如权利要求9~15任一所述的装置，其特征在于，还包括授时测距模块；

17.一种主设备，其特征在于，应用于分体式会议系统，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1~8任一项所述的声音信号处理方法的步骤。

18.一种分体式会议系统，其特征在于，包括多个分体拾音设备和如权利要求17所述的主设备。