CN117376757A

CN117376757A - 拾音方法、处理器、电子设备及计算机存储介质

Info

Publication number: CN117376757A
Application number: CN202311599077.0A
Authority: CN
Inventors: 黄心月; 黄伟隆; 冯津伟
Original assignee: Dingtalk China Information Technology Co Ltd
Current assignee: Dingtalk China Information Technology Co Ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-01-09

Abstract

本申请实施例提供了一种拾音方法、处理器、电子设备及计算机存储介质，其中，拾音方法包括：获取差分麦克风阵列采集的声音信号；根据拾音场景指示，为所述声音信号确定对应的差分滤波器，其中，所述差分滤波器基于近场信号传播模型和用于表征拾音约束的约束条件生成，所述近场信号传播模型基于所述声音信号与所述差分麦克风阵列之间的距离生成；通过所述差分滤波器，对所述声音信号进行基于固定波束形成的拾音处理。通过本申请实施例，可以更好地针对近场声源进行拾音处理，获得更好的拾音效果。

Description

拾音方法、处理器、电子设备及计算机存储介质

技术领域

本申请实施例涉及声音处理技术领域，尤其涉及一种拾音方法、处理器、电子设备及计算机存储介质。

背景技术

拾音技术是广泛应用于各种音视频场景中的，可通过麦克风阵列拾取声音的技术。目前，拾音技术大都假设声源距离麦克风阵列较远，因而，一般都基于该远程声源的假设来建立信号传播模型。在该模型中，声源的方向为其主要考虑因素。

但是，在实际应用中，存在很多近场声源的场景，如会议场景等。在近场声源场景中，因声源到达麦克风阵列的方向差别不大，从而导致使用传统的以远程声源为假设的信号传播模型不能很好地进行近场声音的声音处理，如近场拾音或近场抑制的处理等。

因此，如何针对近场声源进行有效的声音处理，成为亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种拾音方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种拾音方法，包括：获取差分麦克风阵列采集的声音信号；根据拾音场景指示，为所述声音信号确定对应的差分滤波器，其中，所述差分滤波器基于近场信号传播模型和用于表征拾音约束的约束条件生成，所述近场信号传播模型基于所述声音信号与所述差分麦克风阵列之间的距离生成；通过所述差分滤波器，对所述声音信号进行基于固定波束形成的拾音处理。

根据本申请实施例的第二方面，提供了另一种拾音方法，包括：获取差分麦克风阵列采集的视频会议的声音信号；为所述声音信号确定用于近场拾音的差分滤波器，其中，所述差分滤波器基于近场信号传播模型和用于表征拾音约束的约束条件生成，所述近场信号传播模型基于所述声音信号与所述差分麦克风阵列之间的距离生成；通过所述差分滤波器，对所述声音信号进行基于固定波束形成的近场拾音处理，以拾取所述视频会议中的发言人的声音信号。

根据本申请实施例的第三方面，提供了一种处理器，所述处理器用于执行如第一方面或第二方面所述的方法对应的操作。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述方法对应的操作。

根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。

根据本申请实施例提供的方案，在针对近场声源进行声音处理时，一方面，使用基于近场信号传播模型生成的差分滤波器，而该近场信号传播模型又是基于声音信号与差分麦克风阵列之间的距离生成，由于在近场情况下，声音信号对于麦克风阵列在方向上的差异不大，而通过距离则可更为有效地区分不同信号，因此，采用该种类型的差分滤波器，可以更好地针对近场声源进行拾音处理，获得更好的拾音效果；另一方面，即使针对近场声源，也存在着不同的拾音场景，如近场拾音远场抑制，或者近场抑制远场拾音等，针对该种情况，还为拾音场景设置了相应的拾音场景指示，以通过该指示确定相对应的差分滤波器，以使得根据具体拾音场景使用不同功能的差分滤波器，结合固定波束形成方式，来实现不同的拾音需求，从而扩大了方案适用场景，使得方案的应用更具灵活性和兼容性，也为用户提供了更多的拾音选择，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例的一种麦克风阵列的拾音过程的示意图；

图2A为根据本申请实施例的一种拾音方法的步骤流程图；

图2B为图2A所示实施例中的一种应用场景的拾音处理过程的示意图；

图3为根据本申请实施例的一种处理器的结构框图；

图4为根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

为便于理解本申请实施例的方案，以下先对麦克风阵列的拾音过程进行简单说明。

麦克风阵列是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列，其中的每一个麦克风也称为麦克风阵列的一个阵元。麦克风阵列可对空间传播声音信号进行空间采样，采集到的声音信号包含了其空间位置信息。对于麦克风阵列来说，按照实现原理的不同，可至少将其分为差分麦克风阵列、超指向麦克风阵列、延迟求和麦克风阵列，等等。其中，差分麦克风阵列是指输出为两两麦克风之间加权相减的结果的麦克风阵列，因其较适用于诸如耳机、便携式设备(如笔记本电脑、平台电脑、手机、话筒等)等的通话场合，因此，本申请实施例中，用于采集声音信号的麦克风阵列采用了差分麦克风阵列的形式。

一种示例性的通过麦克风阵列进行拾音的过程如图1所示，其包括：去混响、声源定位、波束形成和单通道降噪等处理。

其中，混响多为声音信号遇到诸如墙壁、天花板、地面等障碍物形成的反射声，并和直达声相叠加的现象。去混响就是去除那些叠加的声音。

声源定位是利用麦克风阵列采集的多路语音信号，来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪。

波束形成则是对采集的声音信号进行空域滤波，将多路声音信号变成一个波束的声音信号。

单通道降噪，则是在波束形成基础上进行单路声音信号的噪声抑制处理。

由图1可见，使用麦克风阵列拾音时，先对每个阵元采集的声音信号去混响，同时用每个阵元采集的声音信号做声源定位得到目标说话人的角度(如方位角和俯仰角等)，然后用去混响后的声音信号和目标说话人的角度，做波束形成得到单路的声音信号，最后对该单路声音信号进行降噪，并在降噪后提供给后续过程使用。

上述过程中，波束形成是通过对麦克风阵列的多个阵元采集到的声音信号进行加权相加，形成一个虚拟的指向声源的波束，其原理主要包括固定波束形成和自适应波束形成。固定波束形成通过对多个阵元采集到的声音信号进行固定的加权系数处理，使得来自声源方向的信号加权相加后增强，而来自其他方向的噪声信号被抑制。自适应波束形成则更为复杂和灵活，它通过对多个阵元采集到的信号进行实时分析和处理，利用自适应算法来获得随时间动态变化的加权系数，以达到较佳的波束形成效果。固定波束形成多适用于声源方向已知且固定的场景，例如会议室中的麦克风阵列等；而自适应波束形成多适用于声源方向未知或者可变的场景，例如移动通信中的基站天线阵列等。

正是因为在实现机制、适用场景以及其它方面，固定波束形成和自适应波束形成存在诸多不同，在实际应用中，一个麦克风阵列中通常仅采用一种波束形成方式，而不能兼用。并且，固定波束形成的具体实现算法也很难转换至自适应波束形成使用，反之，自适应波束形成的具体实现算法也很难转换至固定波束形成使用。又因各种麦克风阵列实现原理的不同，不同实现原理的麦克风阵列的波束形成方式也很难通用或互换。基于此，本申请实施例中，采用了针对差分麦克风阵列的固定波束形成的方式，来进行拾音处理。

此外，波束形成需要以声音信号为依据，具体地，需要基于信号传播模型实现。通常，根据声源和麦克风阵列距离的远近，可将信号传播模型分为近场信号传播模型和远场信号传播模型。其中，近场信号传播模型将声波看成球面波，它会考虑麦克风阵列中的各阵元接收声音信号间的幅度差；远场信号传播模型则将声波看成平面波，它忽略各阵元接收声音信号间的幅度差，近似认为各声音信号之间是简单的时延关系。近场信号传播模型和远场信号传播模型的划分没有绝对的标准，一般认为声源离麦克风阵列中心参考点的距离远大于信号波长时为远场；反之，则为近场。示例性地，设均匀线性阵列相邻阵元之间的距离(又称阵列孔径)为d，声源最高频率语音的波长(即声源的最小波长)为λmin，如果声源到阵列中心的距离大于2d2/λmin，则为远场信号传播模型，否则为近场信号传播模型。但不限于此，其它划分近场和远场的方式，如简单通过声源与麦克风阵列之间的距离来划分的方式，也同样适用于本申请实施例的方案。

基于上述过程描述，以下，通过实施例对本申请的拾音方案进行说明。

参照图2A，示出了根据本申请实施例的一种拾音方法的步骤流程图。

本实施例的拾音方法包括以下步骤：

步骤S102：获取差分麦克风阵列采集的声音信号。

本申请实施例中，差分麦克风阵列可以设置于任意适当的设备中，包括但不限于：话筒、移动设备(如手机、平板电脑、笔记本电脑等等)、游戏设备、虚拟现实AR设备中等等，本申请实施例对此不作限制。

当这些设备设置于诸如会议、音视频录制等语音场景中时，即可通过其中的差分麦克风阵列采集设备所在物理环境中的声音信号。因采集到的声音信号可能不仅包含目标对象(如会议发言人等)的声音信号，也可能包含其他的如噪声、其他人说话声等非目标对象的声音信号，因此，需要对采集到的声音信号进行下述的拾音处理，以获得所需的声音信号。

步骤S106：根据拾音场景指示，为声音信号确定对应的差分滤波器。

其中，差分滤波器基于近场信号传播模型和用于表征拾音约束的约束条件生成，该近场信号传播模型基于声音信号与差分麦克风阵列之间的距离生成。

为便于理解本申请实施例的方案，以下先对近场信号传播模型的生成进行说明，再对基于近场信号传播模型的差分滤波器的生成进行说明。

近场声源具有球面波特性，因此，本申请实施例中，近场信号传播模型也为球面波的近场信号传播模型。又因声音在入射差分麦克风阵列时是通过多个声音信号分量入射的，因此，本申请实施例中，在为声音信号建立近场信号传播模型时，先为各声音信号分量建立相对应的近场导向矢量，再基于各声音信号分量对应的近场导向矢量生成总的声音信号的模型，即近场信号传播模型。基于此，在一种可行方式中，近场信号传播模型通过以下方式生成：针对采集的声音信号中的各声音信号分量，基于球面坐标确定该声音信号分量到达差分麦克风阵列中的各阵元的距离；根据该距离，确定该声音信号分量到达各阵元的信号幅度和信号相位；根据信号幅度和信号相位，确定该声音信号分量对应的近场导向矢量；根据各声音信号分量的近场导向矢量，生成声音信号对应的近场信号传播模型。基于声音信号分量到达各阵元的距离来生成相应的近场导向矢量，充分考虑了近场声源的特点，使得最终形成的近场传播信号模型具有更好的距离分辨能力，更适用于近场拾音处理场景。

示例性地，假设有K个不相关的近场宽带声音信号分量入射到M元均匀线阵元，K小于M，则，声音信号分量i到各阵元的距离为(r_i1,r_i2,……,r_iM)。因差分麦克风阵列可采集到声音信号源在球面坐标系下的位置，再基于差分麦克风阵列中各阵元的位置，即可获得声音信号分量i到各阵元的距离，其中，i∈K。

为了数据处理和计算的方便，在一种可行方式中，在获得了各声音信号分量i到达差分麦克风阵列中的各阵元的距离后，还可以为各声音信号分量i生成对应的距离矢量。例如，基于前述声音信号分量i到各阵元的距离(r_i1,r_i2,……,r_iM)，生成该声音信号分量i到各阵元的距离矢量r_i＝[r_i1,r_i2,……,r_iM]。

然后，基于该距离，确定声音信号分量到达各阵元的信号幅度和信号相位。在为距离生成了距离矢量的情况下，可选地，则可根据距离矢量中的各距离，确定声音信号分量到达各阵元的信号幅度和信号相位。进而，根据该信号幅度和信号相位，即可生成声音信号分量对应的近场导向矢量。

示例性地，在声音信号分量i到各阵元的距离矢量r_i＝[r_i1,r_i2,……,r_iM]的情况下，该声音信号分量i对应的近场导向矢量可以表示为：

其中，ω表示声波频带，a(ω,r_i)即声音信号分量i在某个声波频带上的基于距离的近场导向矢量。表示声音信号分量i在相对应的各阵元上的信号幅度。/>表示声音信号分量i在相对应的各阵元上的信号相位，其中除r_i外的各参数采用常规含义，如，exp()表示e的幂次方，j为复数，λ表示信号波长。

考虑到实际应用中，使用的更多的是信号的相对量，因此，在一种可行方式中，可以将上述公式一表示的近场导向矢量作为原始矢量，对其进行归一化处理，以获得最终的近场导向矢量。也即，根据声音信号分量的信号幅度和信号相位，确定该声音信号分量对应的近场导向矢量可以实现为：根据该声音信号分量的信号幅度和信号相位，确定该声音信号分量对应的原始矢量；对原始矢量进行归一化处理，获得该声音信号分量对应的近场导向矢量。

示例性地，可将差分麦克风阵列中的第一个阵元作为参考阵元，对上述公式一示意的原始矢量进行归一化处理，获得如下公式二所示的近场导向矢量。

通过上述归一化处理，使得获得的上述声音信号分量i的近场导向矢量既可与实际使用场景更匹配，又可便于后续的计算和处理。

当获得了所有的声音信号分量对应的近场导向矢量后，即可组合起来，形成对应于整个声音信号的总的声音信号的近场导向矢量，该总的近场导向矢量也即为近场信号传播模型。

在此基础上，进一步地，可以基于声音信号的近场信号传播模型生成差分滤波器。

本申请实施例中，针对不同的拾音场景可以设置不同的滤波器。一种是近场拾音场景，则可设置近场拾音远场抑制的滤波器；另一种是远场拾音场景，则可设置近场抑制远场拾音的滤波器。

上述滤波器的不同可主要通过用于表征拾音约束的约束条件体现。在一种可行方式中，该约束条件可实现为约束条件向量的形式。

以近场拾音场景为例，可基于距离来设置约束条件，如可设置仅拾取最近距离的声音信号分量，则在约束条件向量中，可将最近距离的约束条件设置为用于指示拾音的指示，其它的约束条件均设置为用于指示声音抑制的指示。或者，要拾取预设距离范围内的声音信号分量，则可对预设距离范围内的距离对应的约束条件均设置为用于指示拾音的指示，其它的约束条件均设置为用于指示声音抑制的指示。或者，还可结合声音信号分量的方向来设置约束条件。

示例性地，假设由上述公式一或二获得的各声音信号分量对应的近场导向矢量是按距离排序后的声音信号分量，其中声音信号分量r₀矢量值最小，r_N矢量值最大。再假设，约束条件向量为β，β的元素数量根据约束条件设置，通常至少为N+1个，这是因为被拾音的声音信号分量对应的设置不被视为“约束”，因此，其虽然也包含在β中，但不属于“约束”条件。但因其均为约束条件向量中的元素，本申请实施例中统一称为约束条件。该约束条件向量β也称为N阶差分阵，示例性地，β可表示为β＝[β₀,β₁,β₂,……,β_N]。如前所述，若只仅拾取最近距离的声音信号分量r₀，对其它声音信号分量均进行抑制，则β＝[1,β₁,β₂,……,β_N]。其中，β₁,β₂,……,β_N可均设置为0，也即，可使用1指示拾音，使用0指示声音抑制。但不限于此，声音抑制也可以按照期望权重设置为一个小于1的较小值，如0.01等，且β₁,β₂,……,β_N可各不相同，也可部分相同，等等。而假若各声音信号分量对应的近场导向矢量无序，在只拾取最近距离的声音信号分量的情况下，可对各声音信号分量的距离进行判断，确定其中的最小矢量值，比如，经比较后，确定最小矢量值为r₂,则β＝[β₀,β₁,1,……,β_i,……,β_N]。又或者，需要拾取20CM以内的声音信号分量，20CM以外的声音信号分量均需进行抑制，假设，经比较，声音信号分量r₀,r₁,和r₂均需要拾取的声音信号分量，则β＝[1,1,1,……,……,β_i,……,β_N]。

反之，在远场拾音场景中，可设置仅拾取最远距离的声音信号分量，则在约束条件向量中，可将最远距离的约束条件设置为用于指示拾音的指示，其它的约束条件均设置为用于指示声音抑制的指示。或者，要拾取预设的远场距离范围内的声音信号分量，则可对该远场距离范围内的距离对应的约束条件均设置为用于指示拾音的指示，其它的约束条件均设置为用于指示声音抑制的指示。

例如，假设各声音信号分量对应的近场导向矢量是按距离排序后的声音信号分量，声音信号分量r₀矢量值最小，r_N矢量值最大。则，若只仅拾取最远距离的声音信号分量r_N，则β＝[β₀,β₁,β₂,……,1]。而假若各声音信号分量对应的近场导向矢量无序，在只拾取最远距离的声音信号分量的情况下，可对各声音信号分量的距离进行判断，确定其中的最大矢量值，比如，经比较后，确定最大矢量值为r₂,则β＝[β₀,β₁,1,……,β_i,……,β_N]。

可见，通过上述约束条件矢量，可以实现不同场景下的有效拾音。

在此基础上，进一步地，可以结合近场信号传播模型，获得差分滤波器。也即，差分滤波器的生成过程可以包括：根据确定的拾音场景的信息，生成用于表征拾音约束的约束条件向量；基于近场信号传播模型对应的球面波的近场导向矢量和约束条件向量，获得差分滤波器。

其中，如前所述，对于近场拾音场景，根据确定的拾音场景的信息，生成用于表征拾音约束的约束条件向量可以实现为：若拾音场景的信息指示进行近场拾音，则确定在预设的近场拾音距离范围内的至少一个声音信号对应的近场导向矢量；将约束条件向量中，与确定的近场导向矢量对应的约束条件设置为用于指示拾音的指示，并将其它约束条件设置为用于指示声音抑制的指示。

进而，根据该近场拾音场景的约束条件向量和之前建立的近场信号传播模型，来生成用于近场拾音的差分滤波器。

在一个示例中，为获得该差分滤波器，可以先建立约束条件向量的N阶差分阵为：

D(ω,r)h(ω)＝β 公式三

其中，h(ω)表示频带ω上的差分滤波器；D(ω,r)表示频带ω上的近场信号传播模型，在具体实现中，可采用各声音信号分量对应的近场导向矢量的共轭实现，示例性地，可实现为：

β表示约束条件向量，也即N阶差分阵，在近场拾音场景中，其可实现为：β＝[1，β₁，β₂，...，β_N]^T。

由此，求解h(ω)，可以获得：

h(ω)＝D^H(ω,r)[D(ω,r)D^H(ω,r)]^-1β 公式五

在一个具体示例中，假设对于3个阵元的一阶差分阵，若近场声音信号分量为r_s,远场干扰声音信号分量为r_i，则D(ω,r)和β分别为：

β＝[1,0]^T

基于上述公式五对其进行求解，即可获得相应的适用于近场拾音的差分滤波器。

而对于远场拾音场景，根据确定的拾音场景的信息，生成用于表征拾音约束的约束条件向量可以实现为：若拾音场景的信息指示进行远场拾音，则确定在预设的远场拾音距离范围内的至少一个声音信号对应的近场导向矢量；将约束条件向量中，与确定的近场导向矢量对应的约束条件设置为用于指示拾音的指示，并将其它约束条件设置为用于指示声音抑制的指示。

进而，根据该远场拾音场景的约束条件向量和之前建立的近场信号传播模型，来生成用于远场拾音的差分滤波器。

在一个示例中，仍可采用前述公式三、四、五来获得用于远场拾音的差分滤波器。但与前述近场拾音不同的是，用于远场拾音的差分滤波器中，β可实现为：β＝[β₁，β₂，...，β_N，1]^T。进而，基于上述公式五，可求解获得远场拾音场景下的差分滤波器。

在一个具体示例中，假设对于一个3个阵元的二阶差分阵，若近场干扰声音信号分量的参数为(r_i,θ_i)，远场声音信号分量的参数为(r_s,θ_s)，其中，θ表示声音信号分量的方向。除近场声音抑制外，另一个约束可以设为和干扰声音信号分量同角度的远场位置，使得在干扰方向的不同距离都能有抑制效果，则D(ω,r)和β可以分别为：

β＝[0,0,1]^T

基于上述公式五对其进行求解，即可获得相应的满足约束条件且适用于远场拾音的差分滤波器。

差分滤波器一旦生成，可长期使用，无需每次拾音时均生成。在实际应用中，固定波束形成可以根据使用场景的需要，提前设计好需要的差分滤波器系数，这样不需要像自适应波束一样时时刻刻计算系数。因此作为固定波束形成的一种，差分滤波器也集成了计算量低的优点。则，在此基础上，本步骤的根据拾音场景指示，为声音信号确定对应的差分滤波器可以实现为：根据用于指示近场拾音的拾音指示，为声音信号确定对应的、用于近场拾音且远场抑制的差分滤波器；或者，根据用于指示远场拾音的拾音指示，为声音信号确定对应的、用于远场拾音且近场抑制的差分滤波器。

其中，拾音场景指示可以为任意适当的指示，包括但不限于：按键指示、语音指示，以及智能化的检测指示。例如，根据检测到的目标发言人的声音距离，来确定是近场拾音还是远场拾音。本申请实施例中，对拾音场景的确定及其对应的指示方式不进行具体限定。

步骤S108：通过确定的差分滤波器，对声音信号进行基于固定波束形成的拾音处理。

如前所述，本申请实施例的拾音过程的波束形成采用了固定波束形成的方式，也即，采用固定波束形成的方式，基于差分滤波器，对目标距离范围内的声音信号分量进行固定的时延和加权处理，以使这些声音信号分量被增强，而其它的声音信号分量被抑制，实现为目标声音的拾音处理。

此外，在一种可行方式中，在生成了差分滤波器后，还会对其进行性能评价，以确定其性能是否可满足需求。其中，进行性能评价的评价指标包括但不限于：波束方向图、白噪声增益和指向性因子中的至少一种。

当采用波束方向图方式时：以差分麦克风阵列的首阵元为参考阵元，将到参考阵元的距离固定,改变与参考阵元之间的夹角,在对应夹角下，与其他阵元的距离即可通过几何关系计算得到。于是得到固定距离下的波束方向图为：：

其中，θ＝[θ₁,θ₂,……,θ_M]为与各阵元的夹角矢量，r＝[r₁,r₂,……,r_M]为到各阵元的距离矢量，其中r₁为给定的固定距离，r₂,……,r_M随θ₁∈[0°,360°)变化而变化。

当采用白噪声增益方式时：近场白噪声增益与远场白噪声增益类似，可以为：

当采用指向性因子方向时：

一方面，可将指向性因子定义为期望距离和方向处的响应功率与所有距离和方向的相应功率平均值的之比，即：

上式中，只对θ₁和r₁进行了积分，是因为阵型固定的情况下，当θ₁和r₁确定，θ₂,……,θ_M和r₂,……,r_M也随之确定。

另一方面，还可在固定距离(与参考阵元的距离，即r₁)下，将指向性因子定义为期望方向处的响应功率与所有方向的相应功率平均值的之比，即：

其中，r₁为给定的固定距离，r₂,……,r_M随θ₁∈[0,π)变化而变化。

经上述各项指标评价，采用本申请实施例方式建立的差分滤波器具有较好的效果，能够有效适用于近场拾音场景，相较于传统的基于远场模型建立的差分滤波器，具有更好的近场拾音效果。

以将上述拾音过程应用于视频会议场景为例，该拾音过程可以实现为：获取差分麦克风阵列采集的视频会议的声音信号；为声音信号确定用于近场拾音的差分滤波器，其中，差分滤波器基于近场信号传播模型和用于表征拾音约束的约束条件生成，近场信号传播模型基于声音信号与差分麦克风阵列之间的距离生成；通过差分滤波器，对声音信号进行基于固定波束形成的近场拾音处理，以拾取视频会议中的发言人的声音信号。

在一种较优实施方式中，进一步地，还可以对近场拾音处理所拾取的发言人的声音信号，进行信号增强处理。由此，进一步提升了拾音效果，更便于在视频会议场景中使其他参会者更容易捕捉到发言人的声音和信息，提高视频会议质量和参会效果。

以下，以一个示例，对该场景下拾音过程的实现进行示例性说明，如图2B所示。

假设，在一个远程视频会议场景中，有五位参会者A、B、C、D和E。当前，参会者A为发言人，其使用笔记本电脑参会，该笔记本电脑中设置有差分麦克风阵列。此种情况下，参会者A距离笔记本电脑的距离一般不会超过20CM。与此同时，在距离参会者A两米之外存在一个空调，会发出噪声。再假设，该笔记本电脑中设置有用于近场拾音的差分滤波器，该差分滤波器可对20CM以内的声音进行拾取，而对20CM以外的声音进行抑制。

则，在参会者A发言时，其笔记本电脑中的处理器会指示差分麦克风阵列采集参会者A的声音信号，因参会者A所在空间中还存在着发出噪声的空调，则该噪声也会被差分麦克风阵列一并采集到。

进而，该笔记本电脑中的处理器通过智能检测的结果，确定当前需使用近场拾音且远场抑制的差分滤波器来处理采集到的声音信号，则处理器会启动该差分滤波器，来对采集到的声音信号进行滤波处理，从而，拾取到20CM以内的参会者A的声音信号分量，而抑制或屏蔽掉两米外的空调的噪声。可选地，拾取到的参会者A的声音信号分量还会被进一步进行增强处理后，向其他参会者B、C、D和E发送，以使参会者B、C、D和E更清楚地听到参会者A的声音。

可见，通过本实施例，在针对近场声源进行声音处理时，一方面，使用基于近场信号传播模型生成的差分滤波器，而该近场信号传播模型又是基于声音信号与差分麦克风阵列之间的距离生成，由于在近场情况下，声音信号对于麦克风阵列在方向上的差异不大，而通过距离则可更为有效地区分不同信号，因此，采用该种类型的差分滤波器，可以更好地针对近场声源进行拾音处理，获得更好的拾音效果；另一方面，即使针对近场声源，也存在着不同的拾音场景，如近场拾音远场抑制，或者近场抑制远场拾音等，针对该种情况，还为拾音场景设置了相应的拾音场景指示，以通过该指示确定相对应的差分滤波器，以使得根据具体拾音场景使用不同功能的差分滤波器，结合固定波束形成方式，来实现不同的拾音需求，从而扩大了方案适用场景，使得方案的应用更具灵活性和兼容性，也为用户提供了更多的拾音选择，提升了用户体验。

对应于前述拾音方法，本申请实施例还提供了一种用于执行该拾音方法的处理器，如图3所示。该处理器与差分麦克风阵列电连接，以基于差分麦克风阵列采集的声音信号，执行上述实施例中所描述的拾音方法。

参照图4，本申请实施例还提供了一种电子设备，本申请具体实施例并不对电子设备的具体实现做限定。

如图所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、通信总线408、以及差分麦克风阵列410。

其中：

处理器402、通信接口404、存储器406、以及差分麦克风阵列410通过通信总线408完成相互间的通信。

通信接口404，用于与其它电子设备或服务器进行通信。

差分麦克风阵列410，用于采集声音信号。

处理器402，用于基于差分麦克风阵列410采集的声音信号，执行程序410，具体可以执行上述拾音方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是CPU，或者是GPU(Graphic Processing Unit，图形处理器)或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410可包括多条计算机指令，程序410具体可以通过多条计算机指令使得处理器402执行前述方法实施例中所描述的拾音方法对应的操作。

程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述多个方法实施例中任一实施例所描述的方法。该计算机存储介质包括但不限于：只读光盘(Compact Disc Read-Only Memory，CD-ROM)、随机存储器(RandomAccess Memory，RAM)、软盘、硬盘或磁光盘等。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述方法实施例中所描述的拾音方法对应的操作。

此外，需要说明的是，本申请实施例所涉及到的与用户有关的信息(包括但不限于用户设备信息、用户个人信息、用户的声音数据等)和数据(包括但不限于用于对模型进行训练的样本数据、用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD-ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如专用集成电路(Application Specific Integrated Circuit，ASIC)或现场可编辑门阵列(Field Programmable Gate Array，FPGA))的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，随机存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种拾音方法，包括：

获取差分麦克风阵列采集的声音信号；

根据拾音场景指示，为所述声音信号确定对应的差分滤波器，其中，所述差分滤波器基于近场信号传播模型和用于表征拾音约束的约束条件生成，所述近场信号传播模型基于所述声音信号与所述差分麦克风阵列之间的距离生成；

通过所述差分滤波器，对所述声音信号进行基于固定波束形成的拾音处理。

2.根据权利要求1所述的方法，其中，所述根据拾音场景指示，为所述声音信号确定对应的差分滤波器，包括：

根据用于指示近场拾音的拾音指示，为所述声音信号确定对应的、用于近场拾音且远场抑制的差分滤波器；

或者，

根据用于指示远场拾音的拾音指示，为所述声音信号确定对应的、用于远场拾音且近场抑制的差分滤波器。

3.根据权利要求1所述的方法，其中，所述差分滤波器通过以下方式生成：

根据确定的拾音场景的信息，生成用于表征拾音约束的约束条件向量；

基于所述近场信号传播模型对应的球面波的近场导向矢量和所述约束条件向量，获得所述差分滤波器。

4.根据权利要求3所述的方法，其中，所述根据确定的拾音场景的信息，生成用于表征拾音约束的约束条件向量，包括：

若拾音场景的信息指示进行近场拾音，则确定在预设的近场拾音距离范围内的至少一个声音信号对应的近场导向矢量；

将所述约束条件向量中，与确定的所述近场导向矢量对应的约束条件设置为用于指示拾音的指示，并将其它约束条件设置为用于指示声音抑制的指示。

5.根据权利要求3所述的方法，其中，所述根据确定的拾音场景的信息，生成用于表征拾音约束的约束条件向量，包括：

若拾音场景的信息指示进行远场拾音，则确定在预设的远场拾音距离范围内的至少一个声音信号对应的近场导向矢量；

6.根据权利要求1-5任一项所述的方法，其中，所述声音信号包括入射到所述差分麦克风阵列的多个声音信号分量；

所述近场信号传播模型通过以下方式生成：

针对所述声音信号中的各声音信号分量，基于球面坐标确定该声音信号分量到达所述差分麦克风阵列中的各阵元的距离；

根据所述距离，确定该声音信号分量到达各阵元的信号幅度和信号相位；

根据所述信号幅度和所述信号相位，确定该声音信号分量对应的近场导向矢量；

根据各声音信号分量的近场导向矢量，生成所述声音信号对应的近场信号传播模型。

7.根据权利要求6所述的方法，其中，所述根据所述信号幅度和所述信号相位，确定该声音信号分量对应的近场导向矢量，包括：

根据所述信号幅度和所述信号相位，确定该声音信号分量对应的原始矢量；

对所述原始矢量进行归一化处理，获得该声音信号分量对应的近场导向矢量。

8.根据权利要求6所述的方法，其中，

所述方法还包括：根据确定的该声音信号分量到达所述差分麦克风阵列中的各阵元的距离，为该声音信号分量生成对应的距离矢量；

所述根据所述距离，确定该声音信号分量到达各阵元的信号幅度和信号相位，包括：根据所述距离矢量中的各距离，确定该声音信号分量到达各阵元的信号幅度和信号相位。

9.一种拾音方法，包括：

获取差分麦克风阵列采集的视频会议的声音信号；

为所述声音信号确定用于近场拾音的差分滤波器，其中，所述差分滤波器基于近场信号传播模型和用于表征拾音约束的约束条件生成，所述近场信号传播模型基于所述声音信号与所述差分麦克风阵列之间的距离生成；

通过所述差分滤波器，对所述声音信号进行基于固定波束形成的近场拾音处理，以拾取所述视频会议中的发言人的声音信号。

10.根据权利要求9所述的方法，其中，所述方法还包括：

对拾取的发言人的声音信号，进行信号增强处理。

11.一种处理器，所述处理器用于执行如权利要求1-8中或9-10中任一项所述的方法对应的操作。

12.一种电子设备，包括：差分麦克风阵列、处理器、存储器、通信接口和通信总线，所述差分麦克风阵列、所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述差分麦克风阵列用于采集声音信号；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器根据所述差分麦克风阵列采集的声音信号，执行如权利要求1-8中或9-10中任一项所述的方法对应的操作。

13.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8中或9-10中任一所述的方法。