CN116417006A

CN116417006A - 声音信号处理方法、装置、设备及存储介质

Info

Publication number: CN116417006A
Application number: CN202111667547.3A
Authority: CN
Inventors: 张磊; 陈健; 刘智辉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-11
Also published as: WO2023125537A1

Abstract

本申请公开了一种声音信号处理方法、装置、设备及存储介质，属于音频处理技术领域。在本申请实施例提供的技术方案中，基于拾音空间中的干扰源位置，从拾音空间内的声音信号中确定参考信号，进而基于参考信号滤除声音信号中干扰源的声音，以增强目标声音信号。通过上述技术方案，根据干扰源位置进行声音信号处理，能够针对性地对干扰源的声音进行屏蔽，以增强目标声音信号，从而提升声音质量。

Description

声音信号处理方法、装置、设备及存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种声音信号处理方法、装置、设备及存储介质。

背景技术

在多人会议的场景下，在发言人讲话时，会场中会不可避免地出现一些干扰声音，例如，与会人之间的私密谈话内容以及突发手机铃声等。在与会人需要进行私密谈话的情况下，可以通过关闭拾音设备，使得该拾音设备不再拾取与会人所在区域内的声音信号，从而避免对发言人的声音产生干扰。

但是，声音信号会不可避免地被邻近的多个拾音设备同时拾取，导致对发言人的声音产生干扰，极大地影响了会议的声音质量。

发明内容

本申请提供了一种声音信号处理方法、装置、设备及存储介质，能够有效提升声音质量。该技术方案如下：

第一方面，提供了一种声音信号处理方法，该方法包括：

通过拾音设备，拾取拾音空间内的声音信号；

确定所述拾音空间内的干扰源位置；

基于所述干扰源位置，从所述声音信号中确定参考信号，所述参考信号用于滤除所述干扰源的声音；

基于所述参考信号，对目标声音信号进行增强。

其中，干扰源是指该拾音空间内存在的多个声源中，被认为会带来干扰的声源，例如，会议中进行私密谈话的与会人。通过获取干扰源在拾音空间中的位置，能够针对该干扰源进行相应的声音信号处理。基于不同系统部署情况，会以不同的方式确定干扰源位置。例如，在部署多个麦克风的情况下，基于干扰源对应的麦克风的编号，来确定干扰源位置；又例如，在部署麦克风阵列的情况下，基于干扰源相对于麦克风阵列的角度，来确定干扰源位置。

其中，该目标声音信号是指：该拾音空间内存在的多个声源中，重点关注的声源对应的声音信号，例如，会议中的发言人对应的声音信号。

其中，对目标声音信号进行增强是指：抑制声音信号中的参考信号，以对目标声音信号增强，例如，通过减小声音信号中参考信号对应部分的占比，以增大声音信号中目标声音信号的占比，进而实现对目标声音信号进行增强的目的。

在本申请实施例提供的技术方案中，基于拾音空间中干扰源位置，从拾音空间内的声音信号中确定参考信号，进而基于参考信号滤除声音信号中干扰源的声音，以增强目标声音信号。通过上述技术方案，根据干扰源位置进行声音信号处理，能够针对性地对干扰源的声音进行屏蔽，以增强目标声音信号，从而提升声音质量。

在一种可能实施方式中，所述确定所述拾音空间内的干扰源位置包括：

接收位置选择指令，将所述位置选择指令所对应的位置，确定为所述拾音空间内的干扰源位置。

通过上述技术方案，基于位置选择指令，提供了多种方式来确定干扰源位置，与会者能够根据需求自行设置，有效提高了声音信号处理方法的实用性。

在一种可能实施方式中，所述位置选择指令基于在控制设备中对所述干扰源所在位置的选择操作触发。

其中，该控制设备用于对干扰源位置进行选择，例如，该控制设备集成于麦克风上，或者，控制设备可以为会议触控平板。

通过上述技术方案，基于会议场景中实际部署的多种控制设备，提供多种方式来确定干扰源位置，在保证定位准确性的同时，进一步提升了声音信号处理方法的实用性。

在一种可能实施方式中，所述位置选择指令由图像采集设备在所采集的图像中检测到第一肢体行为的情况下触发，所述图像采集设备用于针对所述拾音空间进行图像采集，所述第一肢体行为用于指示对所述位置静音。

其中，该第一肢体行为指示对其所在位置静音，例如，与会人将食指竖放靠近唇边。

通过上述技术方案，与会者无需手动选择，基于图像即可自动对干扰源进行定位，在会议场景中实现对干扰源的智能屏蔽，在保证声音质量的同时，提升了会议体验。

进一步地，通过上述技术方案，能够直接从位置选择指令中获取干扰源位置，减少了运算过程中涉及到的数据量，提高了声音信号处理的效率。

对图像采集设备所采集的目标图像进行检测，所述图像采集设备用于针对所述拾音空间进行图像采集；

响应于在所述目标图像中检测到第一肢体行为，将所述第一肢体行为在所述拾音空间中的位置确定为所述干扰源位置，所述第一肢体行为用于指示对所述位置静音。

通过上述技术方案，基于实时图像确定干扰源位置，保证了干扰源位置的准确性，进一步提高声音质量。

在一种可能实施方式中，所述响应于在所述目标图像中检测到第一肢体行为，将所述第一肢体行为在所述拾音空间中的位置确定为所述干扰源位置包括：

响应于在所述目标图像中检测到第一肢体行为，获取所述第一肢体行为在所述目标图像中的位置；

基于所述第一肢体行为在所述目标图像中的位置以及所述图像采集设备在所述拾音空间中的空间位置，将所述第一肢体行为在所述拾音空间中的空间位置，确定为所述干扰源位置。

在一种可能实施方式中，所述方法还包括：

响应于在所述目标图像中检测到第二肢体行为，将所述第二肢体行为在所述拾音空间中的位置确定为所述目标的位置，所述第二肢体行为用于指示对所述目标声音信号进行增强。

其中，该第二肢体行为用于指示对目标声音信号进行增强，例如，与会人将食指横放靠近唇边，指示其需要发言。

通过上述技术方案，基于第二肢体行为来确定目标声音信号对应的位置，从而能够对目标声音信号进行针对性的增强，进而提升声音质量。

在一种可能实施方式中，所述方法还包括：

对所述干扰源位置进行跟踪；

所述基于所述干扰源位置，从所述声音信号中确定参考信号包括：

基于跟踪到的所述干扰源位置发生变化，从所述声音信号中重新确定参考信号。

通过上述技术方案，在确定干扰源之后即可锁定该干扰源，从而基于实时位置变化来确定干扰源位置，通过及时地捕捉到干扰源位置的变化，保证干扰源位置的准确性，进一步地，保证在多变的实际会议场景中，始终能够针对干扰源进行声音信号处理，保证声音质量。

在一种可能实施方式中，所述拾音设备包括多个麦克风，所述基于所述干扰源位置，从所述声音信号中确定参考信号包括：

将来源于所述干扰源位置对应的麦克风的声音信号，确定为参考信号。

通过上述技术方案，在基于多个麦克风进行拾音的场景下，能够基于干扰源对应的麦克风，确定出对于干扰源而言具有代表性的参考信号，使得基于参考信号能够更好地滤除干扰源的声源，有效提高声音质量。

在一种可能实施方式中，所述多个麦克风具有定位功能。

通过上述技术方案，能够根据需求随机摆放多个麦克风，大大减小了设备部署时的场景限制，在提升声音处理系统中设备部署灵活性的同时，通过对麦克风进行实时定位，实现对干扰源的准确定位，从而更加精准地从声音信号中滤除干扰源的声音，有效保证声音质量。

在一种可能实施方式中，所述拾音设备为麦克风阵列，所述基于所述干扰源位置，从所述声音信号中确定参考信号包括：

基于所述干扰源位置的角度信息，确定与所述角度信息匹配的波束角度范围；

基于所述波束角度范围，从所述麦克风阵列拾取的声音信号中，确定参考信号。

其中，干扰源位置的角度信息是指干扰源相对于麦克风阵列的角度。

其中，波束角度范围是指：麦克风阵列形成的波束所覆盖的角度范围。基于指定波束角度范围，能够确定与麦克风阵列呈指定角度的拾音范围内的声音信号。

本申请实施例提供的方法在采用麦克风阵列进行拾音的场景下，能够适配于麦克风阵列的空间排列特性，利用干扰源的角度信息，获取对干扰源而言具有针对性的指定角度范围内的声音信号，保证了参考信号对干扰源的代表性，提升了针对干扰源进行声音信号处理的准确性，有效提升声音质量。

在一种可能实施方式中，所述基于所述干扰源位置，从所述声音信号中确定参考信号之后，所述方法还包括：

基于所述参考信号，确定噪声门限；

基于所述噪声门限和所述参考信号，确定参考信号的信噪比；

将所述信噪比小于目标阈值的参考信号置0。

在本申请实施例中，通过上述技术方案，能够将参考信号中非人声的部分静音，得到包括更纯净的人声的参考信号，提高后续基于参考信号进行声音信号处理的效率，进而提升声音质量。

在一种可能实施方式中，所述基于所述参考信号，对目标声音信号进行增强包括：

基于所述参考信号，从所述拾音空间内的声音信号中，确定第一声音信号，所述第一声音信号的信号能量小于所述参考信号的信号能量，且，所述第一声音信号与所述参考信号之间的相关性大于相关性阈值；

基于所述参考信号，对所述第一声音信号中的目标声音信号进行增强。

其中，信号能量的大小能够在一定程度上表示声音信号中人声的强度。

其中，信号之间的相关性能够体现信号之间互相影响的程度。

通过上述技术方案，能够从多路声音信号中，确定出受干扰源影响较大的第一声音信号，进而针对性地滤除该第一声音信号中干扰源的声音，通过提高滤除的准确性，有效提升了声音质量。考虑到实际会议场景中，出于私密谈话的需求，与会人认为自身即是干扰源，则通过上述技术方案，能够在提升声音质量的基础上，保证会议场景中与会人谈话的私密性，有效提升了用户体验。

在一种可能实施方式中，所述基于所述参考信号，对所述第一声音信号中的目标声音信号进行增强包括：

以所述参考信号为滤波器的一路输入，以所述第一声音信号为所述滤波器的另一路输入，通过所述滤波器，滤除所述第一声音信号中与所述参考信号相关的部分，以增强所述第一声音信号中的所述目标声音信号，输出滤波结果。

通过上述技术方案，基于参考信号对第一声音信号进行滤波处理，能够针对性地减小干扰源的声音对该第一声音信号的影响。

在一种可能实施方式中，所述滤波器包括第一滤波器和第二滤波器，

所述通过所述滤波器，滤除所述第一声音信号中与所述参考信号相关的部分，以增强所述第一声音信号中的所述目标声音信号，输出滤波结果包括：

通过所述第一滤波器，获取所述参考信号的估计信号，所述第一滤波器的参数基于所述第二滤波器的参数确定，所述第二滤波器的参数基于多次滤波结果之间的差异确定；

基于所述估计信号，滤除所述第一声音信号中的所述估计信号，输出滤波结果。

上述技术方案中，自适应滤波器能够在滤波过程中，通过自适应算法来调整滤波器的参数，以获得更好的滤波效果。

在一种可能实施方式中，所述方法还包括：

基于所述第二滤波器的第n次滤波结果和第n-1次滤波结果之间的差异，调整所述第二滤波器的参数，n为大于1的整数；

在调整后的所述第二滤波器的参数满足收敛条件的情况下，将所述调整后的所述第二滤波器的参数配置至所述第一滤波器。

通过上述技术方案，能够有效提升自适应滤波器参数收敛的速度，进而提高滤波的效率。

在一种可能实施方式中，所述方法还包括：

在所述第一声音信号滤波前后的衰减量大于衰减阈值的情况下，对滤波后的所述第一声音信号进行剪切。

通过上述技术方案，在该滤波后的第一声音信号被减弱导致失真的情况下，保证声音信号的质量。

第二方面，提供了一种声音信号处理装置，该装置包括多个功能模块，用于执行如第一方面所提供的声音信号处理方法中的对应步骤。

第三方面，提供了一种声音信号处理设备，该声音信号处理设备包括处理器和存储器，该存储器用于存储至少一段程序代码，该至少一段程序代码由该处理器加载并执行上述的声音信号处理方法。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质用于存储至少一段程序代码，该至少一段程序代码用于执行上述的声音信号处理方法。

第五方面，提供了一种计算机程序产品，当该计算机程序产品在声音信号处理设备上运行时，使得该声音信号处理设备执行上述的声音信号处理方法。

附图说明

图1是本申请实施例提供的一种声音处理系统的架构示意图；

图2是本申请实施例提供的一种声音处理系统的部署示意图；

图3是本申请实施例提供的一种声音处理系统的部署示意图；

图4是本申请实施例提供的一种声音处理系统的部署示意图；

图5是本申请实施例提供的一种声音处理系统的部署示意图；

图6是本申请实施例提供的一种声音信号处理方法的流程图；

图7是本申请实施例提供的一种自适应滤波器的示意图；

图8是本申请实施例提供的一种声音信号处理方法的流程图；

图9是本申请实施例提供的一种声音信号处理方法的流程图；

图10是本申请实施例提供的一种声音信号处理方法的流程图；

图11是本申请实施例提供的一种分布式麦克风定位过程的示意图；

图12是本申请实施例提供的一种声音信号处理装置的结构示意图；

图13是本申请实施例提供的一种声音信号处理设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在介绍本申请实施例提供的技术方案之前，下面先对本申请涉及的关键术语进行说明。

均方根(root mean square，RMS)：通过对信号的所有离散值的平方求和，再对求和的结果取均值，最后对均值开平方，就得到信号的均方根。在物理学中，均方根是信号(例如电流信号和电压信号)的有效值，用于表征信号的能量。

信噪比(signal noise ratio，SNR)：信噪比是指一个电子设备或者电子系统中信号与噪声的比例，例如，信号能量与噪声能量的比值。信号指的是来自设备外部需要通过这台设备进行处理的信号，噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息)，并且该种信号并不随原信号的变化而变化。

子带：子带编码技术是将原始信号由时间域转变为频率域，然后将其分割为若干个子频带，并对其分别进行数字编码的技术。其利用带通滤波器组，将原始信号分割为若干个子带，每个子带对应于指定频带宽度，也即是，每个子带对应指定信号频率。

背景噪声抑制(automatic noise suppression，ANS)技术用于探测出背景固定频率的杂音(例如：风扇声和空调声)并自动滤除，从而呈现出与会者清晰的声音，广泛应用于视频会议、语音会议等场景下的声音信号处理技术中。

互相关(cross correlation，CC)：互相关运算的结果反映了两个信号之间相似性的量度。

自适应滤波器(adaptive filter，ADF)：自适应滤波器能够基于输入信号的特征，根据与期望信号的差异自适应地调整滤波器的参数，来保证滤波效果，因此，自适应滤波器被广泛地应用在信号系统辨识、信号预测以及噪声消除中。

接下来对本申请实施例提供的技术方案进行介绍。

本申请实施例提供的声音信号处理方法应用于声音信号处理设备，例如，在视频会议或语音会议等会议场景中，该声音信号处理设备可以是会议终端或智能音箱等。其中，该声音信号处理设备用于对拾音设备从拾音空间拾取到的声音信号进行处理。例如，在会议场景中，会议终端对会场中的声音信号进行降噪。

拾音设备用于拾取声音信号。拾音设备具有多种形态，例如，拾音设备可以是麦克风或麦克风阵列等。该麦克风可以是固定麦克风，例如，桌面嵌入式的麦克风；该麦克风还可以是可移动的麦克风。其中，麦克风阵列是指将多个麦克风按照某种空间结构进行排列得到的阵列结构，麦克风阵列根据阵列结构的空间特性，能够对多个方向的声音信号进行处理，得到各个角度范围内的声音信号。根据不同的使用场景，能够选择不同形态的拾音设备来拾取声音信号，本申请实施例中对拾音设备的形态不做限定。

拾音空间为预先配置的三维拾音区域。拾音空间可以是封闭空间，即拾音空间的大小有限。例如拾音空间可以呈长方体，则拾音空间的大小可以采用长、宽、高表示。或者，拾音空间也可以是开放空间，例如不限制拾音空间的高度。拾音空间的大小和形状可以根据拾音需求或拾音场景进行设置，本申请实施例对拾音空间的大小和形状都不做限定。

图1是本申请实施例提供的一种声音处理系统的架构示意图。如图1所示，该声音处理系统包括拾音设备、声音信号处理设备以及拾音控制设备。其中，该拾音控制设备用于确定拾音空间中的干扰源位置。在一些实施例中，该拾音控制设备包括控制设备，该控制设备用于对干扰源位置进行选择，例如，该控制设备集成于麦克风上，或者，控制设备可以为会议触控平板。在一些实施例中，该拾音控制设备包括图像采集设备，该图像采集设备用于针对拾音空间进行图像采集，例如，会场中的摄像头。其中，该声音信号处理设备获取拾音设备所拾取的声音信号，并通过拾音控制设备，确定拾音空间内的干扰源位置，进而基于干扰源位置确定参考信号，以通过参考信号滤除声音信号中干扰源的声音，实现增强目标声音信号的目的。可以理解地，图1示出的声音处理系统仅用作示例性说明，并不用作对本申请方案所应用的声音处理系统的限定。

本申请实施例中，由于声音处理系统的构成不同，因此，声音处理系统的部署方式也可以不同，本申请实施例基于图2至图5，对图1对应的声音处理系统架构下的四种声音处理系统的部署方式进行示意说明。下面将以声音信号处理设备为会议终端为例，对本申请的技术方案进行说明。

图2是本申请实施例提供的一种声音处理系统的部署示意图，该声音处理系统应用于会议场景中，拾音空间即为会场。如图2所示，该声音处理系统包括：作为拾音设备的多个麦克风210；作为声音信号处理设备的会议终端220；作为拾音控制设备的会议触控平板230。其中，该会议终端220部署在会场的墙面上，该多个麦克风210部署在会议桌的指定位置。该会议终端220能够获取该多个麦克风210从会场中拾取的声音信号。其中，该多个麦克风210具有物理按键211。响应于对任一麦克风的物理按键211进行的选择操作，该麦克风向会议终端返回针对该麦克风的选择指令，进而将被选择的麦克风确定为干扰源对应的麦克风。在一些实施例中，麦克风对应有指示灯，指示灯用于指示对应麦克风的选择状态，例如，指示灯亮指示该麦克风被选择，则该麦克风被确定为干扰源对应的麦克风。可选地，该会议触控平板230提供选择麦克风的功能。响应于在该会议触控平板上对任一麦克风的选择操作，会议触控平板230向该会议终端220返回针对麦克风的选择指令，该选择指令指示将麦克风确定为干扰源对应的麦克风。在一些实施例中，该会议触控平板230能够控制麦克风对应的指示灯的指示状态，以指示麦克风的选择状态，例如，会议触控平板控制麦克风对应的指示灯亮起，指示该麦克风被选择，则该麦克风被确定为干扰源对应的麦克风。需要说明的是，上述仅为示例性的描述，本申请实施例对会议终端的部署位置不做限定，例如，会议终端可以部署在会场中的可移动支架上。

图3是本申请实施例提供的另一种声音处理系统的部署示意图，该声音处理系统应用于会议场景中，拾音空间即为会场。如图3所示，该声音处理系统包括：作为拾音设备的多个麦克风310；作为声音信号处理设备的会议终端320；作为拾音控制设备的会议触控平板330以及摄像头340。其中，该多个麦克风310具有物理按键311。图3对应的声音处理系统中，除摄像头340以外的声音处理系统构成与图2对应的声音处理系统同理，在此不作赘述。其中，该摄像头340部署在会场的墙面上，用于采集会场中的图像。在一些实施例中，该摄像头是与该会议终端相连的外置摄像头。在另一些实施例中，该摄像头是该会议终端自带的内置摄像头。可选地，该摄像头具有数据处理能力，能够对采集到的图像进行处理，并向会议终端发送针对麦克风的选择指令，指示会议终端对来源于该麦克风的声音信号进行相应的处理。需要说明的是，上述仅为示例性的描述，本申请实施例对摄像头的部署位置不做限定，例如，摄像头还可以悬挂在会场中的天花板上。

图4是本申请实施例提供的又一种声音处理系统的部署示意图，该声音处理系统应用于会议场景中，拾音空间即为会场。如图4所示，该声音处理系统包括：作为拾音设备的麦克风阵列410；作为声音信号处理设备的会议终端420；作为拾音控制设备的桌面物理按键430、会议触控平板440以及摄像头450。在一些实施例中，麦克风阵列与会议终端在物理上集成在一起作为一个设备，也即是，会议终端内置麦克风阵列。在另一些实施例中，麦克风阵列与会议终端在物理上是分开的两个设备。可选地，基于会场实际情况，能够自行选择设备在会场中所部署的位置，使得麦克风阵列的拾音范围能够均匀地覆盖会场，例如，将内置麦克风阵列的会议终端部署在会场墙壁的中间位置。其中，该会议终端420能够从该麦克风阵列410获取会场中各个角度范围的声音信号。其中，该桌面物理按键430用于选择会场中的位置。在一些实施例中，响应于针对任一桌面物理按键430选择操作，该桌面物理按键430向会议终端420返回针对桌面物理按键在拾音空间中所处位置的选择指令。在一些实施例中，该桌面物理按键430对应有指示灯，该指示灯用于指示该桌面物理按键对应位置的选择状态，例如，指示灯亮指示对应的位置被选择，则该位置被确定为干扰源对应的位置。可选地，该会议触控平板440提供选择会场中位置的功能。响应于在该会议触控平板上针对任意位置的选择操作，该会议触控平板440向该会议终端420返回针对会场中任意位置的选择指令。在一些实施例中，该会议触控平板440能够控制该指示灯的指示状态，以指示会场中位置的选择状态，例如，会议触控平板控制指示灯亮起，该指示灯对应的位置被选择，则该位置被确定为干扰源对应的位置。其中，该摄像头450参考上述图3对应的声音处理系统中对摄像头340的描述，在此不作赘述。在一些实施例中，麦克风阵列410、会议终端420以及摄像头450集成在一起作为一个设备，也即是，会议终端内置麦克风阵列以及摄像头。

图5是本申请实施例提供的再一种声音处理系统的部署示意图，该声音处理系统应用于会议场景中，拾音空间即为会场。如图5所示，该声音处理系统包括：作为拾音设备的多个具有定位功能的分布式麦克风510；作为声音信号处理设备的会议终端520；作为拾音控制设备的桌面物理按键530、会议触控平板540以及摄像头550。该分布式麦克风510随机摆放在会议终端前的会议桌上，分布式麦克风的位置能够在会议终端520中实时更新。可选地，该会议触控平板获取分布式麦克风的位置，以提供选择分布式麦克风的功能。响应于在该会议触控平板上对任一分布式麦克风的选择操作，该会议触控平板向该会议终端返回针对该分布式麦克风的选择指令，指示该分布式麦克风被选择，则该分布式麦克风被确定为干扰源对应的分布式麦克风。可选地，该桌面物理按键530用于选择会场中的分布式麦克风。在一些实施例中，响应于针对任一桌面物理按键530选择操作，该桌面物理按键530向会议终端520返回针对桌面物理按键在拾音空间中所处位置的选择指令。会议终端基于桌面物理按键所在的位置以及多个分布式麦克风的位置，选择距离该桌面物理按键最近的分布式麦克风。在一些实施例中，分布式麦克风510对应有指示灯，该指示灯用于指示对应分布式麦克风的选择状态，例如，指示灯亮指示对应的分布式麦克风被选择，则该分布式麦克风被确定为干扰源对应的分布式麦克风。其中，该摄像头550参考上述图3对应的声音处理系统中对摄像头340的描述，在此不作赘述。

需要说明的是，在上述图1至图5的声音处理系统中，各个设备之间可以通过无线通信的方式进行数据传输，也可以通过有线通信的方式进行数据传输，本申请实施例对此不做限定。

在一些实施例中，上述任一种声音处理系统中，声音信号处理设备可以获取拾音空间的大小和形状等信息以及该拾音空间中各个设备的位置信息，例如，拾音空间的长度、宽度和高度，麦克风(或麦克风阵列)、会议终端、摄像头在拾音空间中的位置信息以及多个麦克风的编号等。

在一些实施例中，上述声音处理系统中的会议终端作为本地会议终端，能够向远端会议终端发送处理后的声音信号。远端会议终端是指与本地会议终端参与同一会议且部署在不同区域的会议终端。可选地，本地会议终端与远端会议终端之间通过多媒体控制平台连接。本地会议终端可以将经过增强处理的声音信号发送给多媒体控制平台，多媒体控制平台对接收到的声音信号进行混音、编码后发送给远端会议终端。当然，会议终端也可以集成有多媒体控制平台的部分或全部功能，本地会议终端可以对经过增强处理的声音信号进行混音、编码后直接发送给远端会议终端。

在本申请实施例中，声音信号处理设备基于会议场景的实际需求和设备部署情况，获取拾音空间的大小和形状等信息以及声音处理系统的各个设备在拾音空间中的位置信息，以保证声音处理系统的部署与会议场景适配，使得声音信号处理设备能够基于会议场景的实际情况进行声音信号处理，提高了声音信号处理方法的灵活性与兼容性，为不同会议场景下的声音质量提供保障。

通过上述图1至图5，从系统架构以及系统部署的角度对本申请实施例提供的声音处理系统进行了介绍，下面将基于上述声音处理系统，对本申请实施例提供的声音信号处理方法的流程进行举例说明。

图6是本申请实施例提供的一种声音信号处理方法的流程图。该方法应用于上述图2对应的声音处理系统中，该声音处理系统包括多个麦克风、会议终端以及会议触控平板。该声音信号处理方法由该会议终端执行。如图6所示，该方法包括：

601、会议终端通过多个麦克风，拾取拾音空间内的声音信号。

在本申请实施例中，声音处理系统包括多个麦克风、会议终端以及会议触控平板。在一些实施例中，声音处理系统基于系统控制软件运行，在进行声音信号处理之前，需要基于系统控制软件对声音处理系统进行配置。例如，该会议终端上安装有系统控制软件，会议终端能够通过该系统控制软件，获取声音处理系统的配置信息。例如，获取在系统控制软件的配置界面输入的配置信息。在一些实施例中，该配置信息包括：拾音空间的长度、宽度和高度；该多个麦克风以及会议终端在拾音空间中的位置信息，例如，麦克风在拾音空间对应的空间坐标系中的坐标；该多个麦克风的编号以及每个麦克风对应的拾音范围。当然，可以通过系统控制软件重新对声音处理系统进行配置，例如，拾音空间的范围需要调整，则可以通过系统控制软件调整拾音空间的长度、宽度和高度。会议终端基于该配置信息，即可确定拾音空间内多个麦克风的位置、编号以及拾音范围，从而通过该多个麦克风，获取该拾音空间内的多路声音信号。

在一些实施例中，上述系统控制软件安装在会议触控平板上，相应地，可以通过会议触控平板获取声音处理系统的配置信息。

其中，该会议终端通过该多个麦克风，获取来源于该拾音空间的多路声音信号。在一些实施例中，由于每一路声音信号都包括麦克风所对应的一定拾音范围内的声音，因此，每路声音信号可能由多个声源的声音信号组成，例如，在会议场景中，多个与会人同时发言，则一个麦克风所拾取的一路声音信号可能会包括拾音范围内的多个与会人的声音。而该多个声源的声音信号在一路麦克风拾取的声音信号中的占比，是根据每个声源与麦克风的相对位置来决定，例如，对于一个麦克风，越靠近这个麦克风的与会人，其对应的声音信号在该麦克风拾取到的那一路声音信号中的占比越大，也即是，在该麦克风拾取到的声音信号中该与会人声音的音量越大。

602、会议终端接收位置选择指令，将该位置选择指令所对应的位置，确定为该拾音空间内的干扰源位置。

在本申请实施例中，该拾音空间中存在多个声源，干扰源是指该拾音空间内存在的多个声源中，被认为会带来干扰的声源，例如，会议中进行私密谈话的与会人。会议终端基于接收到的位置选择指令，能够基于位置来确定被认为是干扰源的声源，从而在后续的声音信号处理过程中，针对干扰源的声音进行处理，例如，滤除声音信号中干扰源的声音。

其中，该位置选择指令基于在控制设备上对该干扰源所在位置的选择操作触发。在一些实施例中，选择操作对应的麦克风，被认为是距离干扰源最近的麦克风，因此，将该选择操作对应的麦克风作为干扰源对应的麦克风。在一些实施例中，该选择操作包括对麦克风对应的物理按键的按压操作，基于该按压操作，能够触发针对该麦克风所在位置的位置选择指令，而会议终端根据接收到的位置选择指令，将该麦克风所在的位置，确定为干扰源位置。在另一些实施例中，该选择操作包括在会议触控平板中对麦克风的选择操作，会议触控平板响应于该选择操作，向会议终端发送针对麦克风所在位置的位置选择指令。在一些实施例中，会议终端响应于接收到该位置选择指令，获取该位置选择指令携带的麦克风编号，将该麦克风编号对应的麦克风位置确定为干扰源位置。

在一些实施例中，该麦克风对应有指示灯，在该麦克风被确定为干扰源位置对应的麦克风之后，通过切换该麦克风对应的指示灯的指示状态，以指示该麦克风对应于干扰源。

在另一些实施例中，在确定了干扰源位置对应的麦克风之后，在会议触控平板中显示该麦克风为干扰源对应的麦克风。

需要说明的是，上述切换指示灯状态的步骤与在会议触控平板中显示的步骤之间，可以同步执行，也可以先后执行，本申请实施例对此不作限定。

603、会议终端将来源于该干扰源位置对应的麦克风的声音信号，确定为参考信号。

在本申请实施例中，会议终端在确定了干扰源位置对应的麦克风之后，将该麦克风所拾取的声音信号确定为参考信号。其中，由于参考信号来源于距离干扰源位置最近的麦克风，因此，干扰源的声音信号在参考信号中的占比，要大于干扰源的声音信号在其他麦克风的声音信号中的占比，也即是，参考信号相较于其他麦克风拾取的声音信号，能够更好地代表干扰源的声音信号。基于此，该参考信号在声音信号处理过程中，能够代表该干扰源的声音信号，用于滤除干扰源的声音。

604、会议终端对该参考信号进行去噪。

在本申请实施例中，由于该参考信号来源于拾音空间中的多个声源，在参考信号中存在噪声的情况下，去噪后的参考信号用于滤除干扰源的声音时，能够实现更好的滤除效果。

在本申请实施例中，对参考信号进行去噪的过程包括下述步骤6041至步骤6042：

6041、会议终端基于该参考信号，确定噪声门限。

在一些实施例中，将参考信号划分为指定时间长度(例如30毫秒)的多个信号帧，以信号帧为最小处理单位，对参考信号进行去噪。

在一些实施例中，基于全局幅度谱最小原理，认为信号幅度谱最小的信号帧对应的声音非人声，非人声则被认为是噪声。在一些实施例中，由于信号能量与信号的幅度谱呈正相关，因此，能够基于信号帧的信号能量来比较幅度谱的大小。基于此，从参考信号局部100(或其他值)个信号帧的信号能量中，将最小信号能量确定为会议场景中的噪声门限，基于噪声门限，对参考信号进行去噪。其中，该噪声门限作为判断人声的标准，则信号能量低于该噪声门限的信号帧为噪声，也即是，非人声。其中，计算信号能量的原理参见公式(1)。

公式(1)中，X是信号帧对应的信号幅值集合；N为信号帧X的信号幅值个数，N为正整数；RMS_X是信号帧X的信号能量。

在一些实施例中，会议终端依据实时获取的参考信号，使用递归平均型噪声估计算法，确定会议场景中的长时平稳噪声能量，并用该长时平稳噪声能量持续更新该会议场景中的噪声门限。

在一些实施例中，基于递归平均型噪声估计算法确定长时平稳噪声能量的确定过程参见公式(2)至公式(4)。通过递归平均型噪声估计算法，基于当前信号帧的语音存在概率，确定平滑系数。在当前信号帧的语音存在概率越接近1，则平滑系数越趋向于1，表示倾向于使用前一信号帧的信号能量作为当前信号帧的噪声能量估计；当前信号帧的语音存在概率越接近0，则平滑系数趋向于0，表示倾向于使用当前信号帧的信号能量作为噪声能量估计。

基于公式(2)，能够确定参考信号的第k个信号帧位于

子带处的语音存在概率

α_p(0<α_p<1)为第一平滑常数，其中，在第k个信号帧位于/>

子带处的信号能量大于预设噪声门限的情况下，/>

为1；在第k个信号帧位于/>

子带处的信号能量小于预设噪声门限的情况下，/>

为0。

基于公式(3)，能够计算参考信号的第k个信号帧位于

子带处的(时变)平滑系数

α_d(0<α_d<1)为第二平滑常数。

在确定了信号帧的语音存在概率以及信号帧对应的平滑系数之后，基于公式(4)，即可确定参考信号的第k个信号帧位于

子带处的噪声能量谱/>

其中，该/>

是参考信号的第k个信号帧位于/>

子带处的信号表达式。基于/>

即可更新长时平稳噪声能量。

6042、会议终端基于该噪声门限和该参考信号，确定参考信号的信噪比，将信噪比小于目标阈值的参考信号置0。

基于该噪声门限，会议终端计算每一个信号帧的信号能量与噪声门限的比例，也即是，信号帧的信噪比。在信号帧的信噪比小于目标阈值的情况下，该信号帧大概率是噪声，则将该信号帧的信号幅值置0。其中，计算信噪比的原理参见公式(5)。

公式(5)中，X是信号帧对应的信号幅值集合；SNR_X是信号帧X的信噪比；RMS_X是信号帧X的信号能量；RMS_N是噪声能量(或长时平稳噪声能量)，也即是，噪声门限。其中，该RMS_N可以是基于参考信号的局部多个信号帧确定的噪声能量，也可以是基于参考信号累计确定的长时平稳噪声能量，本申请实施例对此不做限定。

在本申请实施例中，通过上述步骤604，能够将参考信号中非人声的部分静音，得到包括更纯净的人声的参考信号，提高后续基于参考信号进行声音信号处理的效率，进而提升声音质量。

需要说明的是，本步骤604为可选步骤，在一些实施例中，可以直接基于步骤603中确定的参考信号，执行步骤605。

在一些实施例中，在执行完上述步骤604之后，会议终端将该去噪后的参考信号以及来源于该拾音空间的其他多路声音信号，输入ANS模块进行处理，以滤除该参考信号中的背景杂音以及该其他多路声音信号中的背景杂音，从而提高后续进行声音信号处理的效率，进一步提升声音质量。

605、会议终端基于去噪后的该参考信号，从该拾音空间内的声音信号中，确定第一声音信号。

在本申请实施例中，该参考信号用于滤除干扰源的声音，因此，首先需要从拾音空间内的声音信号中，确定出被干扰源影响到的声音信号，然后再基于参考信号，针对性地对干扰源的声音进行滤除。

在一些实施例中，基于信号能量的大小以及与参考信号之间的相关性，确定被干扰源的声音信号影响到的第一声音信号。其中，由于信号能量与信号的幅度谱呈正相关，因此，信号能量的大小能够在一定程度上表示声音信号中人声的强度。若一路声音信号的信号能量大于另一路声音信号的信号能量，则说明该路声音信号中确实存在人声，且人声的强度能够对该另一路声音信号造成影响。进一步地，若一路声音信号被干扰源影响，则表示该路声音信号中会持续交织有干扰源的声音信号，因此，该路受影响的声音信号与干扰源的声音信号的相关性会高于未受到影响的其他路声音信号。基于此，由于参考信号能够很好地代表干扰源的声音信号，当第一声音信号的信号能量小于该参考信号的信号能量，且，该第一声音信号与该参考信号之间的相关性大于相关性阈值，则说明该参考信号对该第一声音信号造成了影响，也即是，该第一声音信号被干扰源的声音影响。例如，干扰源是正在以一定音量进行私密谈话的与会人A，而该与会人A的旁边有一位与会人B，则该与会人B面前的麦克风所拾取的声音信号中，会持续交织有该与会人A进行私密谈话的声音，因此，该与会人B面前的麦克风所拾取的声音信号，即为受干扰源影响的声音信号，也即是，该第一声音信号。其中，该相关性阈值可以基于声音信号处理的精确度需求自行设定，本申请实施例对此不做限定。

在一些实施例中，会议终端接收经过ANS模块处理后的参考信号和其他多路声音信号，并基于参考信号的信号能量、其他多路声音信号的信号能量以及其他多路声音信号与参考信号之间的互相关值，从该其他多路声音信号中确定出该第一声音信号。其中，该信号能量的计算原理参见上述公式(1)。

需要说明的是，本申请实施例以信号帧为最小单位进行信号能量的对比，在一些实施例中，信号能量的对比也可以基于一段时间内多个信号帧的平均能量来进行，以提高能量对比的准确度。

在一些实施例中，信号之间的相关性的大小能够用信号之间的互相关值来体现，计算信号之间的互相关值的原理参见公式(6)。

公式(6)中，f(t)和g(t)为两个信号；

为信号f(t)和信号g(t)之间的互相关值。

在一些实施例中，对于任一路声音信号，若该路声音信号的信号能量大于参考信号的信号能量，且，与该参考信号之间的相关性大于相关性阈值，则表明该参考信号并未对该路声音信号造成影响，在这种情况下，将该参考信号置零，例如，将参考信号中的多个信号帧的信号幅值置0，使得在后续的处理过程中，无需再考虑该参考信号对该路声音信号的影响。

需要说明的是，本步骤605为可选步骤，在一些实施例中，可以基于步骤603中确定的参考信号，直接执行步骤606。在另一些实施例中，基于步骤604中去噪后的参考信号，执行步骤606。

606、会议终端基于该参考信号，对该第一声音信号中的目标声音信号进行增强。

在一些实施例中，该第一声音信号中包括多个声源对应的声音信号，其中，该目标声音信号是重点关注的声源对应的声音信号，例如，会议中发言人对应的声音信号，因此，对声音信号进行处理的目的通常是为了突出该目标声音信号。由于参考信号能够很好地代表干扰源的声音信号，通过参考信号对第一声音信号进行处理，能够针对性地减小干扰源的声音对该第一声音信号的影响，进而保证该第一声音信号中目标声音信号的突出。

在本申请实施例中，对该第一声音信号中的目标声音信号进行增强是指：抑制该第一声音信号中的参考信号，以对该第一声音信号中的目标声音信号增强，例如，通过减小该第一声音信号中该参考信号对应部分的占比，以增大该第一声音信号中目标声音信号的占比，进而实现对目标声音信号进行增强的目的。

在一些实施例中，以该参考信号为滤波器的一路输入，以该第一声音信号为该滤波器的另一路输入，通过该滤波器，滤除该第一声音信号中与该参考信号相关的部分，以增强该第一声音信号中的该目标声音信号，输出滤波结果。

在一些实施例中，该滤波器包括第一滤波器和第二滤波器，通过将参考信号输入该第一滤波器，基于该第一滤波器的参数，调整参考信号中不同频率的信号成分的权重值，以重构该参考信号，进而得到该参考信号的估计信号，估计信号是对参考信号中干扰源的声音信号进行估计的结果。基于此，将该第一声音信号与估计信号之间的差值信号作为滤波结果，通过滤除该第一声音信号中的估计信号，实现滤除第一声音信号中与参考信号相关的部分。在一些实施例中，第一滤波器的参数基于第二滤波器的参数确定，而第二滤波器的参数基于多次滤波结果之间的差异确定。其中，在将参考信号输入第一滤波器的同时，也将参考信号输入该第二滤波器，从而获得第二滤波器的第n次滤波结果。第二滤波器基于该第二滤波器的第n次滤波结果和第n-1次滤波结果之间的差异，调整第二滤波器的参数，使得基于调整后的参数获得的估计信号，能够更加接近该第一声音信号中干扰源的声音信号。在调整后的该第二滤波器的参数满足收敛条件的情况下，将调整后的第二滤波器的参数配置至第一滤波器，从而提升对第一声音信号进行滤波的效果。其中，n为大于1的整数。

在一些实施例中，上述滤波器是自适应滤波器，自适应滤波器在滤波过程中，通过自适应算法来调整滤波器的参数，以获得更好的滤波效果，例如，该第二滤波器基于该第二滤波器的第n次滤波结果和第n-1次滤波结果之间的差异，通过自适应算法，调整该第二滤波器的参数，其中，该滤波器参数包括滤波器步长，通过调整滤波器步长，能够改变滤波器参数的收敛速度。进一步地，基于不同需求，能够选择不同优化准则下的自适应算法，例如，递推最小二乘算法(recursive least square，RLS)、最小均方误差算法((least meansquare，LMS)以及归一化均方误差算法(normalized least mean square，NLMS)等，本申请实施例对此不做限定。

本申请实施例提供了一种自适应滤波器的示意图，如图7所示，其中，参考信号即是该输入信号x(n)；该期望信号y(n)包括第一声音信号v(n)以及该参考信号的系统回声d(n)；x(n)经过快速傅里叶变换处理后，同时输入该第一滤波器以及该第二滤波器；该第一滤波器输出(频域)估计信号X′(m)；该y(n)经过快速傅里叶变换处理后得到Y(m)，该Y(m)通过加法器与该X′(m)相减，输出差值信号E(m)，该E(m)经过傅里叶逆变换，得到滤波结果e(n)；该第二滤波器输出的(频域)估计信号与Y(m)通过加法器相加后得到的差值信号返回该第二滤波器，用于更新滤波器的参数。其中，H(n)是用于模拟系统回声的系统函数。

在一些实施例中，上述自适应滤波的过程能够基于深度学习模型来进行，通过深度学习模型对自适应滤波器的参数进行训练，能够有效提升自适应滤波器参数收敛的速度，进而提高滤波的效率。

在一些实施例中，在第一声音信号滤波前后的衰减量大于衰减阈值的情况下，该滤波后的第一声音信号可能被减弱导致失真，此时，需要对该滤波后的第一声音信号进行相应处理，例如，增强信号中的人声或剪切信号中的失真片段，以进一步保证声音信号的质量。

在一些实施例中，会议终端将滤波后的该第一声音信号发送给多媒体控制平台，多媒体控制平台对接收到的该第一声音信号编码后发送给远端会议终端。

图8是本申请实施例提供的一种声音信号处理方法的流程图。该方法应用于上述图3对应的声音处理系统中，该声音处理系统包括多个麦克风、会议终端、会议触控平板以及摄像头。该声音信号处理方法由该会议终端执行。如图8所示，该方法包括：

801、会议终端通过多个麦克风，拾取拾音空间内的声音信号。

本步骤参考步骤601，在此不作赘述。其中，该摄像头用于针对拾音空间进行图像采集，在对声音处理系统进行配置时，需要配置摄像头在拾音空间中的位置信息以及摄像头进行图像采集的角度范围，以确定摄像头采集的图像与拾音空间中的位置之间的关系。例如，在图像和实际拾音空间呈镜面对称关系的情况下，图像中的左半边区域，对应于拾音空间的右半边空间。

802、会议终端接收位置选择指令，将该位置选择指令所对应的位置，确定为该拾音空间内的干扰源位置。

在本申请实施例中，该拾音空间中存在多个声源，会议终端基于接收到的位置选择指令，能够基于位置来确定被认为是干扰源的声源，从而在后续的声音信号处理过程中，针对干扰源的声音进行处理，例如，滤除声音信号中干扰源的声音。

在一些实施例中，该摄像头具有数据处理能力，能够对采集到的图像进行检测，该摄像头在从所采集的图像中检测到第一肢体行为的情况下，向会议终端发送该位置选择指令。其中，该第一肢体行为用于指示对该位置静音，例如，与会人将食指竖放靠近唇边。基于预先配置的摄像头采集的图像与拾音空间中的位置之间的关系，该摄像头能够根据该第一肢体行为在该图像中的位置，确定该第一肢体行为在拾音空间中的位置，从而在位置选择指令中指示该第一肢体行为在拾音空间中的位置。基于此，会议终端从该摄像头接收该位置选择指令，获取该位置选择指令指示的位置，基于该位置选择指令指示的位置，确定干扰源位置对应的麦克风。

在另一些实施例中，该摄像头具有数据处理能力，摄像头对采集到的图像进行检测，在从所采集的图像中检测到第一肢体行为的情况下，基于拾音空间中该多个麦克风的位置信息，确定与该第一肢体行为所处位置距离最近的麦克风，基于该麦克风的编号，确定位置选择指令，以指示该麦克风所在的位置为干扰源位置。基于此，会议终端从该摄像头接收该位置选择指令，获取该位置选择指令携带的麦克风编号，将该位置选择指令中的麦克风编号对应的麦克风，确定为干扰源位置对应的麦克风。

通过上述技术方案，能够直接从位置选择指令中获取干扰源位置，减少了运算过程中涉及到的数据量，提高了声音信号处理的效率。

在另一些实施例中，该位置选择指令基于在控制设备中对该干扰源所在位置的选择操作触发，原理参考步骤602。

上述过程是以会议终端接收摄像机发送的位置选择指令为例进行说明，在一些实施例中，会议终端接收该摄像头采集到的图像，并对该图像进行检测，以确定干扰源位置，在这种示例下，确定干扰源位置的过程包括下述步骤1至步骤2：

步骤1、会议终端对摄像头所采集的图像进行检测。

步骤2、会议终端响应于在该图像中检测到第一肢体行为，将该第一肢体行为在该拾音空间中的位置确定为该干扰源位置。

在一些实施例中，会议终端基于摄像头采集的图像与拾音空间中的位置之间的关系，能够根据该第一肢体行为在图像中的位置，确定该第一肢体行为在拾音空间中的位置，进而基于拾音空间中该多个麦克风的位置信息，确定与该第一肢体行为所处位置距离最近的麦克风，将该麦克风确定为干扰源位置对应的麦克风。

在一些实施例中，该第一肢体行为指示对其所在的位置静音，因此，能够基于该第一肢体行为确定干扰源位置，进而通过滤除干扰源的声音实现对目标声音信号的增强。在另一些实施例中，基于第二肢体行为能够确定目标声音信号，从而直接对目标声音信号进行增强，其中，该第二肢体行为用于指示对目标声音信号进行增强，例如，与会人将食指横放靠近唇边，指示其需要发言。在这种示例下，会议终端响应于在图像中检测到第二肢体行为，将该第二肢体行为在该拾音空间中的位置，确定为目标的位置。其中，该目标是指该拾音空间内存在的多个声源中，需要重点关注的目标声源，因此，需要对该目标声源对应的目标声音信号进行增强。

803、会议终端将来源于该干扰源位置对应的麦克风的声音信号，确定为参考信号。

本步骤参考步骤603，在此不做赘述。

在一些实施例中，会议终端在基于摄像机采集的图像确定了干扰源位置之后，能够持续对该干扰源位置进行跟踪。例如，根据干扰源的特征，对干扰源位置进行跟踪检测。在跟踪到该干扰源位置发生变化的情况下，会议终端基于干扰源变化后的位置，从该声音信号中重新确定参考信号。在一些实施例中，会议终端将该第一肢体行为在图像中的位置对应的对象，确定为干扰源对应的对象，基于实时采集的图像，跟踪该对象的位置变化，基于该对象变化后的位置，确定干扰源变化后的位置。当然，对干扰源的追踪能够通过会议终端或会议触控平板手动解除，也可以设置在一定时长后自动解除。

804、会议终端对该参考信号进行去噪。

本步骤参考步骤604，在此不做赘述。

805、会议终端基于去噪后的该参考信号，从该拾音空间内的声音信号中，确定第一声音信号。

本步骤参考步骤605，在此不做赘述。

806、会议终端基于该参考信号，对该第一声音信号中的目标声音信号进行增强。

本步骤参考步骤606，在此不作赘述。

进一步地，通过上述技术方案，与会者无需手动选择，基于图像即可自动对干扰源进行定位，在会议场景中实现对干扰源的智能屏蔽，在保证声音质量的同时，提升了会议体验。

图9是本申请实施例提供的一种声音信号处理方法的流程图。该方法应用于上述图4对应的声音处理系统中，该声音处理系统包括麦克风阵列、会议终端、桌面物理按键、会议触控平板以及摄像头。该声音信号处理方法由该会议终端执行。如图9所示，该方法包括：

901、会议终端通过麦克风阵列，拾取拾音空间内的声音信号。

本步骤参考步骤801，在此不作赘述。其中，在对声音处理系统进行配置时，需要配置该麦克风阵列拾取的声音信号对应的波束角度范围以及该麦克风阵列在该拾音空间中的位置信息，以确定该麦克风阵列拾取的声音信号对应的波束角度范围与该拾音空间中的位置之间的关系。例如，麦克风阵列的声音信号A对应的波束角度范围覆盖拾音空间的左半边空间。在一些实施例中，对声音处理系统进行配置时，对不同波束角度范围的对应的声音信号进行编号，以便于在后续的声音信号处理过程中，能够基于编号，选择所需的声音信号。

其中，该会议终端通过该麦克风阵列，获取来源于该拾音空间的声音信号。在一些实施例中，由于麦克风阵列包括按照某种空间结构排列的多个麦克风，因此，麦克风阵列根据阵列结构的空间特性，通过声音信号到达麦克风阵列中不同阵列单元的差异，来确定声源相对于麦克风阵列的角度，进而确定声源相对于麦克风阵列的位置。

902、会议终端接收位置选择指令，将该位置选择指令所对应的位置，确定为该拾音空间内的干扰源位置。

本步骤参考步骤802。

在一些实施例中，该摄像头具有数据处理能力，能够对采集到的图像进行检测，该摄像头在从所采集的图像中检测到第一肢体行为的情况下，向会议终端发送该位置选择指令。基于预先配置的摄像头采集的图像与拾音空间中的位置之间的关系，该摄像头能够根据该第一肢体行为在该图像中的位置，确定该第一肢体行为在拾音空间中的位置。基于此，结合麦克风阵列在拾音空间中的位置信息，即可确定出该第一肢体行为相对于该麦克风阵列的角度。从而在位置选择指令中指示该第一肢体行为相对于麦克风阵列的角度。基于此，会议终端从该摄像头接收该位置选择指令，将该位置选择指令指示的角度，确定为干扰源位置相对于麦克风阵列的角度。

在另一些实施例中，该位置选择指令基于在控制设备中对该干扰源所在位置的选择操作触发，原理参考步骤602，在这种示例下，该位置选择指令指示该第一肢体行为相对于麦克风阵列的角度。

步骤1、会议终端对摄像头所采集的图像进行检测。

在一些实施例中，会议终端基于摄像头采集的图像与拾音空间中的位置之间的关系，能够根据该第一肢体行为在图像中的位置，确定该第一肢体行为在拾音空间中的位置，进而基麦克风阵列在拾音空间中的位置信息，将该第一肢体行为相对于麦克风阵列的角度，确定为干扰源位置相对于麦克风阵列的角度。

903、会议终端基于该干扰源位置的角度信息，确定与该角度信息匹配的波束角度范围。

在一些实施例中，该干扰源位置的角度信息是指干扰源位置相对于麦克风阵列的角度。会议终端基于该角度信息，能够确定与干扰源位置对应的麦克风阵列的波束角度范围。

904、会议终端基于该波束角度范围，从该麦克风阵列拾取的声音信号中，确定参考信号。

在一些实施例中，会议终端从该麦克风阵列拾取的多路声音信号中，获取与该波束角度范围对应的多路声音信号分量，基于每路声音信号分量的特征，对该多路声音信号分量进行组合，得到参考信号。

在另一些实施例中，会议终端预先对不同波束角度范围的对应的声音信号进行编号，基于此，该会议终端基于该与该干扰源位置的角度信息匹配的波束角度范围，获取对应的声音信号的编号，从而直接将编号对应的声音信号确定为参考信号。

905、会议终端对该参考信号进行去噪。

本步骤参考步骤604，在此不做赘述。

906、会议终端基于去噪后的该参考信号，从该拾音空间内的声音信号中，确定第一声音信号。

本步骤参考步骤605，在此不做赘述。

907、会议终端基于该参考信号，对该第一声音信号中的目标声音信号进行增强。

本步骤参考步骤606，在此不作赘述。

进一步地，本申请实施例提供的方法在采用麦克风阵列进行拾音的场景下，能够适配于麦克风阵列的空间排列特性，利用干扰源的角度信息，获取对干扰源而言具有针对性的指定角度范围内的声音信号，保证了参考信号对干扰源的代表性，提升了针对干扰源进行声音信号处理的准确性，有效提升声音质量。

图10是本申请实施例提供的一种声音信号处理方法的流程图。该方法应用于上述图5对应的声音处理系统中，该声音处理系统包括多个具有定位功能的分布式麦克风、会议终端、会议触控平板以及摄像头。该声音信号处理方法由该会议终端执行。如图10所示，该方法包括：

1001、会议终端通过具有定位功能的分布式麦克风，拾取拾音空间内的声音信号。

本步骤参考步骤801，在此不作赘述。在会议开始前，该多个具有定位功能的分布式麦克风与会议终端进行信号交互，该会议终端根据从多个分布式麦克风接收到的信号，确定各个分布式麦克风在拾音空间中的位置信息。其中，在该分布式麦克风的位置发生变化的情况下，会议终端能够基于接收到的信号，实时更新该分布式麦克风的位置信息。可选地，该分布式麦克风可以通过蓝牙、超声波或无线局域网等方式与会议终端进行信号交互。可选地，多个分布式麦克风之间通过持续进行信号交互，来保持时间同步。

本申请实施例提供了一种分布式麦克风定位过程的示意图，如图11所示，其中，该会议终端上安装有四个信号交互装置1101、1102、1103和1104，用于与分布式麦克风1105进行信号交互，各个信号交互装置之间的相对位置已预先确定，参见图11中各个信号交互装置的坐标。会议终端获取四个信号交互装置接收到分布式麦克风1105所发出信号的时刻分别为t_i(i＝1,2,3,4)，用于计算分布式麦克风1105到第i个信号交互装置的距离r_i(i＝1，2，3，4)。距离计算过程参见下述公式(7)至公式(14)。

d_i,12＝r₁-r₂＝(t₁-t₂)×c (7)

d_i,23＝r₂-r₃＝(t₂-t₃)×c (8)

d_i,34＝r₃-r₄＝(t₃-t₄)×c (9)

d_i,41＝r₄-r₁＝(t₄-t₁)×c (10)

其中，该d_i,12是分布式麦克风1105相对于信号交互装置1101与信号交互装置1102之间的距离差；该d_i,23是分布式麦克风1105相对于信号交互装置1102与信号交互装置1103之间的距离差；该d_i,34是分布式麦克风1105相对于信号交互装置1103与信号交互装置1104之间的距离差；该d_i,41是分布式麦克风1105相对于信号交互装置1104与信号交互装置1101之间的距离差；c为光速。

基于上述d_i,12、d_i,23、d_i,34以及d_i,41，能够建立双曲线方程组，用于确定分布式麦克风1105到第i个信号交互装置的距离r_i(i＝1,2,3,4)，实现对该分布式麦克风1105的定位。

其中，(x₁，y₁，z₁)是信号交互装置1101的坐标；(x₂，y₂，z₂)是信号交互装置1102的坐标；(x₃，y₃，z₃)是信号交互装置1103的坐标；(x₄，y₄，z₄)是信号交互装置1104的坐标；其中，i＝1，2，3，4。

1002、会议终端接收位置选择指令，将该位置选择指令所对应的位置，确定为该拾音空间内的干扰源位置。

本步骤参考步骤802，在此不作赘述。

1003、会议终端将来源于该干扰源位置对应的分布式麦克风的声音信号，确定为参考信号。

本步骤参考步骤803，在此不做赘述。

1004、会议终端对该参考信号进行去噪。

本步骤参考步骤804，在此不做赘述。

1005、会议终端基于去噪后的该参考信号，从该拾音空间内的声音信号中，确定第一声音信号。

本步骤参考步骤805，在此不做赘述。

1006、会议终端基于该参考信号，对该第一声音信号中的目标声音信号进行增强。

本步骤参考步骤806，在此不作赘述。

进一步地，通过上述技术方案，能够根据需求随机摆放多个麦克风，大大减小了设备部署时的场景限制，在提升声音处理系统中设备部署灵活性的同时，通过对麦克风进行实时定位，实现对干扰源的准确定位，从而更加精准地从声音信号中滤除干扰源的声音，有效保证声音质量。

图12是本申请实施例提供的一种声音信号处理装置的结构示意图。如图12所示，该声音信号处理装置包括：

拾音模块1201，用于通过拾音设备，拾取拾音空间内的声音信号；

位置确定模块1202，用于确定所述拾音空间内的干扰源位置；

信号确定模块1203，用于基于所述干扰源位置，从所述声音信号中确定参考信号，所述参考信号用于滤除所述干扰源的声音；

增强模块1204，用于基于所述参考信号，对目标声音信号进行增强。

在一种可能实施方式中，所述位置确定模块1202包括：

第一确定单元，用于接收位置选择指令，将所述位置选择指令所对应的位置，确定为所述拾音空间内的干扰源位置。

在一种可能实施方式中，所述位置确定模块1202包括：

图像检测单元，用于对图像采集设备所采集的目标图像进行检测，所述图像采集设备用于针对所述拾音空间进行图像采集；

第二确定单元，用于响应于在所述目标图像中检测到第一肢体行为，将所述第一肢体行为在所述拾音空间中的位置确定为所述干扰源位置，所述第一肢体行为用于指示对所述位置静音。

在一种可能实施方式中，所述装置还包括：

第三确定单元，用于响应于在所述目标图像中检测到第二肢体行为，将所述第二肢体行为在所述拾音空间中的位置确定为所述目标的位置，所述第二肢体行为用于指示对所述目标声音信号进行增强。

在一种可能实施方式中，所述装置还包括：

跟踪单元，用于对所述干扰源位置进行跟踪；

所述信号确定模块用于：

在一种可能实施方式中，所述拾音设备包括多个麦克风，所述信号确定模块用于：

在一种可能实施方式中，所述多个麦克风具有定位功能。

在一种可能实施方式中，所述拾音设备为麦克风阵列，所述信号确定模块1203用于：

在一种可能实施方式中，所述增强模块1204包括：

信号确定单元，用于基于所述参考信号，从所述拾音空间内的声音信号中，确定第一声音信号，所述第一声音信号的信号能量小于所述参考信号的信号能量，且，所述第一声音信号与所述参考信号之间的相关性大于相关性阈值；

增强单元，用于基于所述参考信号，对所述第一声音信号中的目标声音信号进行增强。

在一种可能实施方式中，所述增强单元用于：

需要说明的是：上述实施例提供的声音信号处理装置在进行声音信号处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的声音信号处理装置与声音信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例提供的技术方案中，基于拾音空间中的干扰源位置，从拾音空间内的声音信号中确定参考信号，进而基于参考信号滤除声音信号中干扰源的声音，以增强目标声音信号。通过上述技术方案，根据干扰源位置进行声音信号处理，能够针对性地对干扰源的声音进行屏蔽，以增强目标声音信号，从而提升声音质量。

本申请实施例提供了一种声音信号处理设备，能够作为上述声音处理系统中的声音信号处理设备。示意性地，参考图13，图13是本申请实施例提供的一种声音信号处理设备的硬件结构示意图。如图13所示，该声音信号处理设备1300包括存储器1301、处理器1302、通信接口1303以及总线1304。其中，存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。

存储器1301可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器1301可以存储至少一段程序代码，当存储器1301中存储的程序代码被处理器1302执行时，使得声音信号处理设备能够实现上述声音信号处理方法。存储器1301还可以存储各类数据，包括但不限于图像和声音信号等，本申请实施例对此不作限定。

处理器1302可以是网络处理器(network processor，NP)、中央处理器(centralprocessing unit，CPU)、特定应用集成电路(application-specific integratedcircuit，ASIC)或用于控制本申请方案程序执行的集成电路。该处理器1302可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。该处理器1302的数量可以是一个，也可以是多个。通信接口1303使用例如收发器一类的收发模块，来实现声音信号处理设备1300与其他设备或通信网络之间的通信。例如，可以通过通信接口1303获取声音信号。

其中，存储器1301和处理器1302可以分离设置，也可以集成在一起。

总线1304可包括在声音信号处理设备1300各个部件(例如，存储器1301、处理器1302、通信接口1303)之间传送信息的通路。

本发明中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种所述示例的范围的情况下，第一麦克风可以被称为第二麦克风，并且类似地，第二麦克风可以被称为第一麦克风。第一麦克风和第二麦克风都可以是麦克风，并且在某些情况下，可以是单独且不同的麦克风。

本发明中术语“至少一个”的含义是指一个或多个，本发明中术语“多个”的含义是指两个或两个以上，例如，多个麦克风是指两个或两个以上的麦克风。

以上描述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以程序产品的形式实现。该程序产品包括一个或多个程序指令。在声音信号处理设备上加载和执行该程序指令时，全部或部分地产生按照本发明实施例中的流程或功能。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种声音信号处理方法，其特征在于，所述方法包括：

通过拾音设备，拾取拾音空间内的声音信号；

确定所述拾音空间内的干扰源位置；

基于所述参考信号，对目标声音信号进行增强。

2.根据权利要求1所述的方法，其特征在于，所述确定所述拾音空间内的干扰源位置包括：

3.根据权利要求2所述的方法，其特征在于，所述位置选择指令基于在控制设备中对所述干扰源所在位置的选择操作触发。

4.根据权利要求2所述的方法，其特征在于，所述位置选择指令由图像采集设备在所采集的图像中检测到第一肢体行为的情况下触发，所述图像采集设备用于针对所述拾音空间进行图像采集，所述第一肢体行为用于指示对所述位置静音。

5.根据权利要求1所述的方法，其特征在于，所述确定所述拾音空间内的干扰源位置包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

对所述干扰源位置进行跟踪；

8.根据权利要求1至7任一项所述的方法，其特征在于，所述拾音设备包括多个麦克风，所述基于所述干扰源位置，从所述声音信号中确定参考信号包括：

9.根据权利要求8所述的方法，其特征在于，所述多个麦克风具有定位功能。

10.根据权利要求1至7任一项所述的方法，其特征在于，所述拾音设备为麦克风阵列，所述基于所述干扰源位置，从所述声音信号中确定参考信号包括：

11.根据权利要求1至10任一项所述的方法，其特征在于，所述基于所述参考信号，对目标声音信号进行增强包括：

12.根据权利要求11所述的方法，其特征在于，所述基于所述参考信号，对所述第一声音信号中的目标声音信号进行增强包括：

13.一种声音信号处理装置，其特征在于，所述装置包括：

拾音模块，用于通过拾音设备，拾取拾音空间内的声音信号；

位置确定模块，用于确定所述拾音空间内的干扰源位置；

信号确定模块，用于基于所述干扰源位置，从所述声音信号中确定参考信号，所述参考信号用于滤除所述干扰源的声音；

增强模块，用于基于所述参考信号，对目标声音信号进行增强。

14.根据权利要求13所述的装置，其特征在于，所述位置确定模块包括：

15.根据权利要求14所述的装置，其特征在于，所述位置选择指令基于在控制设备中对所述干扰源所在位置的选择操作触发。

16.根据权利要求14所述的装置，其特征在于，所述位置选择指令由图像采集设备在所采集的图像中检测到第一肢体行为的情况下触发，所述图像采集设备用于针对所述拾音空间进行图像采集，所述第一肢体行为用于指示对所述位置静音。

17.根据权利要求13所述的装置，其特征在于，所述位置确定模块包括：

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

19.根据权利要求13至18任一项所述的装置，其特征在于，所述装置还包括：

跟踪单元，用于对所述干扰源位置进行跟踪；

所述信号确定模块用于：

20.根据权利要求13至19任一项所述的装置，其特征在于，所述拾音设备包括多个麦克风，所述信号确定模块用于：

21.根据权利要求20所述的装置，其特征在于，所述多个麦克风具有定位功能。

22.根据权利要求13至19任一项所述的装置，其特征在于，所述拾音设备为麦克风阵列，所述信号确定模块用于：

23.根据权利要求13至22任一项所述的装置，其特征在于，所述增强模块包括：

24.根据权利要求23所述的装置，其特征在于，所述增强单元用于：

25.一种声音信号处理设备，其特征在于，所述声音信号处理设备包括处理器和存储器，所述存储器用于存储至少一段程序代码，所述至少一段程序代码由所述处理器加载并执行如权利要求1至权利要求12中任一项所述的声音信号处理方法。

26.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段程序代码，所述至少一段程序代码用于执行如权利要求1至权利要求12中任一项所述的声音信号处理方法。

27.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至权利要求12中任一项所述的声音信号处理方法。