CN110517703A

CN110517703A - 一种声音采集方法、装置及介质

Info

Publication number: CN110517703A
Application number: CN201910754717.8A
Authority: CN
Inventors: 龙韬臣; 侯海宁
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-11-29
Anticipated expiration: 2039-08-15
Also published as: KR20210021252A; US10945071B1; RU2732854C1; JP2022500681A; US20210051402A1; CN110517703B; EP3779984A1; KR102306066B1; JP6993433B2; WO2021027049A1

Abstract

本公开是关于一种声音采集方法，将M个声音采集装置采集到的M个时域信号转换为M个原始频域信号；在N个预设网格点中的每一点处，对所述M个原始频域信号进行波束成型，以获得与所述N个预设网格点一一对应的N个波束成型频域信号；基于所述N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括所述K个频点、且在每一个频点处以所述平均幅度为幅度、参考声音采集装置的原始频域信号的相位为相位的合成频域信号；将合成频域信号转换成合成时域信号。通过应用本公开实施例的声音采集方法，声音采集阵列采集的原始时域信号中的干扰方向上的噪声得到很好的抑制，由此获得增强的时域信号。

Description

一种声音采集方法、装置及介质

技术领域

本公开涉及声音采集领域，尤其涉及一种声音采集方法，装置及介质。

背景技术

在物联网、AI时代，智能语音作为人工智能核心技术之一，可以有效地改善人机交互的模式，大大提高智能产品使用的便捷性。相关技术中，智能产品设备拾音多采用麦克风阵列，并且应用麦克风阵列波束成型技术提高语音信号处理质量，以提高真实环境下的语音识别率。目前麦克风阵列的波束成型技术存在两个难点：1.噪声难以估计；2.强干扰下的语音方向未知。对于语音的寻向问题，目前在安静场景下寻向算法比较准确，但在强干扰场景下，寻向算法会失效，这是由寻向算法本身的约束决定的。因此，目前本领域内不能很好地解决在强干扰场景下的语音寻向问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种声音采集方法、装置及介质。

根据本公开实施例的第一方面，提供一种声音采集方法，包括：

将M个声音采集装置采集到的M个时域信号转换为M个原始频域信号；

在N个预设网格点中的每一点处，对所述M个原始频域信号进行波束成型，以获得与所述N个预设网格点一一对应的N个波束成型频域信号；

基于所述N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括所述K个频点、且在各个频点处以所述平均幅度为幅度的合成频域信号，所述合成频域信号在各个频点处的相位为所述M个声音采集装置中指定的参考声音采集装置的原始频域信号中的对应相位；将所述合成频域信号转换成合成时域信号，其中，M、N、K都是大于等于2的整数。

所述在N个预设网格点中的每一点处，对所述M个原始频域信号进行波束成型，以获得与所述N个预设网格点一一对应的N个波束成型频域信号包括：

在所述M个声音采集装置的期望采集范围内，选择不同方向上的N个预设网格点；

在每一个预设网格点处，基于所述M个声音采集装置与该预设网格点的位置关系，确定与各个频点相关联的导向向量；

在每一个预设网格点处，基于所述各个频点上的导向向量，对所述M个原始频域信号进行波束成型，获取与该预设网格点对应的波束成型频域信号。

所述在每一个预设网格点处，基于所述M个声音采集装置与该预设网格点的位置关系，确定与各个频点相关联的导向向量包括：

获取该预设网格点到所述M个声音采集装置的距离向量；

基于该预设网格点到所述M个声音采集装置的距离向量，以及该预设网格点到参考声音采集装置的距离，确定该预设网格点到M个声音采集装置的参考时延向量；

基于所述参考时延向量，确定该预设网格点在各个频点上的导向向量。

所述在每一个预设网格点处，基于所述各个频点上的导向向量，对所述M个原始频域信号进行波束成型，获取与该预设网格点对应的波束成型频域信号包括：

基于所述各个频点的导向向量以及各个频点的噪声协方差矩阵，确定与各个频点对应的波束成型权系数；

基于波束成型权系数以及所述M个原始频域信号，确定与每一个预设网格点对应的波束成型频域信号。

所述N个预设网格点均匀排列在所述M个声音采集装置所形成的阵列坐标系的水平面内的一个圆上。

根据本公开实施例的第二方面，提供一种声音采集装置，包括信号转换模块，用于将M个声音采集装置采集到的M个时域信号转换为M个原始频域信号；

信号处理模块，用于在N个预设网格点中的每一点处，对所述M个原始频域信号进行波束成型，以获得与所述N个预设网格点一一对应的N个波束成型频域信号；

信号合成模块，用于基于所述N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括所述K个频点、且在各个频点处以所述平均幅度为幅度的合成频域信号，所述合成频域信号在各个频点处的相位为所述M个声音采集装置中指定的参考声音采集装置的原始频域信号中的对应相位；信号输出模块，用于将所述合成频域信号转换成合成时域信号；

其中，M、N、K都是大于等于2的整数。

所述信号处理模块在N个预设网格点中的每一点处，对所述M个原始频域信号进行波束成型，以获得与所述N个预设网格点一一对应的N个波束成型频域信号包括：

所述信号处理模块在每一个预设网格点处，基于所述M个声音采集装置与该预设网格点的位置关系，确定与各个频点相关联的导向向量包括：

获取该预设网格点到所述M个声音采集装置的距离向量；

根据本公开实施例的第三方面，提供一种声音采集装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

基于所述N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括所述K个频点、且在各个频点处以所述平均幅度为幅度的合成频域信号，所述合成频域信号在各个频点处的相位为所述M个声音采集装置中指定的参考声音采集装置的原始频域信号中的对应相位；

将所述合成频域信号转换成合成时域信号，其中，M、N、K都是大于等于2的整数。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种声音采集方法，所述方法包括：

本公开的实施例提供的技术方案可以包括以下有益效果：采用多方向波束成型策略，对多方向波束求和，达到波束图在干扰方向形成零陷，其他方向正常输出的效果，巧妙地绕过了强干扰下寻向算法不准而导致声音采集效果变差或声音采集不准这一难题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种声音采集方法的流程图。

图2是根据一示例性实施例示出的一种声音采集方法建立预设网格点示意图。

图3示出了应用本公开实施例的声音采集方法的麦克风阵列的仿真波束图。

图4是根据一示例性实施例示出的一种声音采集装置的框图。

图5是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

根据本公开实施例的声音采集方法用于声音采集装置阵列，声音采集装置阵列是一组位于空间不同位置的多个声音采集装置，按一定的形状规则布置形成的阵列，是对空间传播的声音信号进行空间采样的一种装置，采集到的信号包含了其空间位置信息。根据声音采集装置的拓扑结构，阵列可以是一维阵列，二维平面阵列，也可以是球状等三维阵列。

图1是根据一示例性实施例示出的一种声音采集方法的流程图，如图1所示，本公开实施例的声音采集方法包括步骤S11-S14。

在步骤S11，将M个声音采集装置采集到的M个时域信号转换为M个原始频域信号，其中，M为大于等于2的整数。实施本发明中的方法，需要使用两个以上的声音采集装置，从不同的方向采集声音信号，声音采集装置的数量越多，抑制干扰的效果越好。M个声音采集装置的排列可以是线性阵列，平面阵列或者其他任何本领域技术人员可以想到的排列方式。

在一个示例中，以x^m(t)代表声音采集装置阵列中第m个声音采集装置的一帧加窗信号(m＝1、2……M)。对时域信号x^m(t)进行傅里叶变换后，得到对应的原始频域信号X^m(k)。示例性地，一帧的长度可以设置在10ms～30ms范围内，例如20ms。然后，加窗处理则是为了使分帧后的信号连续，示例地，在音频信号处理中可以加汉明窗。

在步骤S12中，在N个预设网格点中的每一点处，对M个原始频域信号进行波束成型，以获得与N个预设网格点一一对应的N个波束成型频域信号；其中，N为大于等于2的整数。

预设网格点是指在期望采集空间内将估计声源位置或方向划分为多个网格点，即对以声音采集装置阵列(包括多个声音采集装置)为中心的期望采集空间进行网格化处理。具体地，该处理的过程为：以声音采集装置阵列几何中心为网格中心，以距离网格中心的某一长度为半径进行二维空间内的圆形网格化或三维空间内的球形网格化；又例如，以声音采集装置阵列几何中心为网格中心，以网格中心为正方形中心并以某一长度为边长进行二维空间内的正方形网格化，或，以网格中心为正方体中心并以某一长度为边长进行三维空间内的正方体网格化。

需要注意的是，预设网格点只是本实施例中用来进行波束成型的虚拟点，并不是真实的声源点或声源采集点。预设网格点的数量N的值越大，则选取的方向越多，可以在更多的方向上进行波束成型，最终实现的效果也会越好。同时，N个预设网格点应尽可能地分布在不同的方向，以便在多个方向上进行采样。

在一个示例中，将N个预设网格点设置在同一平面内，并分布在该平面内的各个方向上。进一步地，为了更便于说明，N个预设网格点在360度内均匀分布，方便计算的同时可以达到更好的效果。需要注意的是，本公开的N个预设网格点排列方式不限于此。

在步骤S13，基于N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括所述K个频点、且在各个频点处以上述平均幅度为幅度的合成频域信号，所述合成频域信号在各个频点处的相位为所述M个声音采集装置中指定的参考声音采集装置的原始频域信号中的对应相位。在此，参考声音采集装置与上述步骤S12中的波束成型过程相关，具体是在波束成型过程中用于确定参考时延的一个声音采集装置。下文将进一步详细描述波束成型过程。另外，所述K个频点与步骤S11中的原始频域信号相关，例如，通过傅里叶变换将声音信号从时域变换到频域之后，可以根据频域信号来确定其包含的多个频点。

在步骤S14，将合成频域信号转换成合成时域信号。该合成时域信号作为去干扰后的增强语音信号用于声音采集装置的后续处理，因此可达到抑制噪声的目的。

下面，针对声音采集方法的步骤S12进行详细说明。在一实施例中，步骤S12可以包括步骤S121—S123。

在步骤S121，在M个声音采集装置的期望采集范围内，选择不同方向上的N个预设网格点。

N个预设网格点应尽可能地分布在不同的方向，以便在多个方向上进行采样。为了便于实施，N个预设网格点可以在同一平面内选取，并分布在该平面内的各个方向上。当然，为了更简单地实施本公开的方法，N个预设网格点可在360度内均匀分布。

在步骤S122，在每一个预设网格点处，基于M个声音采集装置与该预设网格点的位置关系，确定与各个频点相关联的导向向量。

例如，在一个示例中，步骤S122可以实现为：以M个声音采集装置的阵列坐标系原点为中心，确定所述M个声音采集装置的坐标以及所述N个预设网格点的坐标；基于M个声音采集装置的坐标，为每个预设网格点在各个频点上建立导向向量，获得N个预设网格点在各个频点上的导向向量。

在一实施例中，步骤S122可以包括：

步骤S1221，获取每一个预设网格点到M个声音采集装置的距离向量。

步骤S1222，基于该预设网格点到M个声音采集装置的距离向量，以及该预设网格点到参考声音采集装置的距离，确定该预设网格点到M个声音采集装置的参考时延向量。

步骤S1223，基于参考时延向量，确定该预设网格点在各个频点上的导向向量。

在一示例中，以某一预设网格点为例，假设该预设网格点为第n个预设网格点(n＝1、2…N)，为便于表述，用Sⁿ表示该点坐标，坐标值为另外，因为有M个声音采集装置，会有M个声音采集装置的坐标，分别为P¹,P²…P^M。其对应的坐标值分别为：而且用P表示所有声音采集装置的坐标矩阵：

首先，求取该预设网格点到参考声音采集装置的距离。作为示例，在此假设M个声音采集装置中的第一声音采集装置作为参考声音采集装置。需要注意的是，实际上，M个声音采集装置中的任一声音采集装置都可以被指定为参考声音采集装置，只要在整个声音采集方法的执行过程中，保持该参考声音采集装置不变即可。因此，在该示例中，该预设网格点到参考声音采集装置的距离为：然后，可以求取该预设网格点到M个声音采集装置的距离向量：dist＝P-Sⁿ，其中P是上文中表示所有声音采集装置的坐标矩阵。需要注意的是，实际上预设网格点到参考声音采集装置的距离d₁是预设网格点到M个声音采集装置的距离向量dist中的一个值，因此，d₁和dist的计算顺序没有限制。

基于该预设网格点Sⁿ到M个声音采集装置的距离向量，计算该预设网格点Sⁿ到M个声音采集装置的时延向量，以tau表示，则tau＝sqrt(sum(dist.^2，2))，即对dist向量的平方按行求和后开根号。

以该预设网格点到M个声音采集装置的时延向量，减去该预设网格点到参考声音采集装置的时延后，除以声速，可以得到参考时延taut：taut＝(tau-tau₁)/c。其中tau为该预设网格点到M个声音采集装置的时延向量，tau₁为该预设网格点到所指定的参考声音采集装置的时延，tau₁＝d₁/c，c为声速。

将参考时延向量taut代入导向向量公式：a_s(k)＝e^{-j×2πk×Δf×taut}，可以求取该预设网格点在K个频点上的导向向量，其中：e为自然底数，j为虚数单位，K为通过傅里叶变换得到的频点数(取值范围为0到Nfft-1)，Δf＝f_s/Nfft，其中f_s为采用率，Nfft为傅里叶变换的点数，c为声速。同理，可以求取其他预设网格点在各个频点上的导向向量，在此不再列举。

接下来，在步骤S123，在每一个预设网格点处，基于各个频点上的导向向量，对M个原始频域信号进行波束成型，获取与每一个预设网格点对应的波束成型频域信号。

在一个示例中，步骤S123可以包括步骤S1231—S1232。

在步骤S1231，基于各个频点的导向向量以及各个频点的噪声协方差矩阵，确定与各个频点对应的波束成型权系数：

其中a_s(k)为该预设网格点在各个频点上的导向向量，R_n(k)为各个频点上的噪声协方差矩阵，可以为通过任意一种算法估计的噪声协方差矩阵，为R_n(k)的逆，是导向向量的共轭转置。

在步骤S1232，基于各个频点的波束成型权系数以及M个原始频域信号，确定与每一个预设网格点的各个频点分别对应的波束成型频域信号。具体地，对于一个预设网格点而言，基于各个频点的波束成型权系数以及M个原始频域信号中与该频点对应的M个频率分量，可以确定与该频点对应的波束成型频率分量，然后由K个波束成型频率分量合成该预设网格点的波束成型频域信号。

其中：是W_mvdr(k)的共轭转置。

对应每一个预设网格点，会获取到一个波束成型频域信号，选取N个预设网格点，可以获取到N个波束成型频域信号，分别表示为Y₁,Y₂,…Y_N。

在一实施例中，在步骤S13中，基于所述N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括所述K个频点、且在各个频点处以所述平均幅度为幅度的合成频域信号，所述合成频域信号在各个频点处的相位为所述M个声音采集装置中指定的参考声音采集装置的原始频域信号中的对应相位。

在一示例中，对于获取的N个波束成型频域信号，Y₁,Y₂,…Y_N，在某一频点处的频率分量的幅度，表示为R₁(k),R₂(k),…R_N(k)，可以获得全部N个波束成型频域信号在第k个频点处的平均幅度：R(k)＝(R₁(k)+R₂(k)+…+R_n(k))/N。获取参考声音采集装置采集的频域信号的相位，参考声音采集装置采集的频域信号表示为X¹(k)，其相位为phase(X¹(k))。合成包括K个频点、且在每一个频点处以对应频点的平均幅度为幅度、以参考声音采集装置的原始频域信号中对应频点的相位为相位的合成频域信号：

返回到声音采集方法的步骤S14，在该步骤中对合成频域信号进行逆傅里叶变换，获取合成时域信号：y(N)＝ISTFT(Y_sum(k))。在此，该合成时域信号即是去干扰后的增强声音信号。通过应用本公开实施例的声音采集方法，麦克风阵列采集的原始时域信号中的干扰方向上的噪声得到很好的抑制，由此获得增强的时域信号。

在一实施例中，在步骤S121中，N个预设网格点均匀排列在M个声音采集装置所形成的阵列坐标系水平面内的一个圆上。示例性地，该圆的半径可以在大概1m到5m。便于计算的同时，效果也会更好。

为了更好的理解本发明中的技术方案，现举例说明：

如图2所示，以智能音箱为例，音箱包括6个麦克风，以6个麦克风的阵列坐标系原点为中心，在6个麦克风组成的阵列水平面上，选取一半径为r的圆，半径r可以为1～1.5m，为正常情况下，人与智能音箱进行交互的距离。在圆上0°～360°范围内以60°等间隔选取6个点，比如分别为1°,61°，121°，181°,241°,301°所对应的点，作为预设网格点。并指定90°方向位置的声音采集装置为参考声音采集装置，并在后续的计算中，始终以该声音采集装置作为参考声音采集装置，当然也可以指定其他声音采集装置为参考声音采集装置。

再以阵列坐标系的原点为中心，获取6个麦克风的坐标，分别为P¹,P²…P⁶。其对应的坐标值分别为：而且用P表示所有声音采集装置的坐标矩阵：

以及6个预设网格点的坐标S¹，S²…S⁶。

以61°位置的预设网格点为例，该点为第二个预设网格点，该点的坐标为S²，坐标值为

首先，求取该预设网格点与参考声音采集装置(示例性地，在此以第一声音采集装置为例)的距离：然后，可以求取该预设网格点S²到M个声音采集装置的距离向量：dist＝P-S²。

基于该预设网格点S²到M个声音采集装置的距离向量，计算该预设网格点S²到M个声音采集装置的时延向量，以tau表示，则tau＝sqrt(sum(dist.^2，2))，即对dist的平方按行求和后开根号。

以该预设网格点S²到M个麦克风组成的阵列的时延向量，减去该预设网格点S²到参考声音采集装置的时延后，除以声速，可以得到参考时延taut，taut＝(tau-tau₁)/c。其中tau为该预设网格点S²到M个声音采集装置的时延向量，tau₁为该预设网格点S²到所指定的参考声音采集装置的时延，c为声速。

将参考时延向量taut代入导向向量公式：a_s(k)＝e^{-j×2πk×Δf×taut}，可以求取该预设网格点S²在K个频点上的导向向量，表示为其中：e为自然底数，j为虚数单位，K为通过傅里叶变换得到的频点数(取值范围为0到Nfft-1)，Δf＝f_s/Nfft，其中f_s为采用率，Nfft为傅里叶变换的点数，c为声速。

通过上述方法，可以获取其他预设网格点在各个频点上的导向向量。

将6个声音采集装置采集到的6个时域信号转换为6个原始频域信号：X¹(k)，X²(k)，…X⁶(k)。

在6个预设网格点中的每一点处，对6个原始频域信号进行波束成型；

仍以第二个预设网格点S²为例，计算波该点束成型权系数：其中为第二预设网格点在各个频点上的导向向量，R_n(k)为噪声协方差矩阵，可以为通过任意一种算法估计的噪声协方差矩阵，为R_n(k)的逆，是导向向量的共轭转置。

在第二预设网格点S²处，对6个声音采集装置的原始频域信号进行波束成型，得到第二预设网格点对应的波束成型频域信号：其中，

对于其他预设网格点，采用同样的方法，可以获得共6个波束成型频域信号：Y₁,Y₂,…Y₆。

对应上述6个波束成型频域信号，在某一频点处，有6个和该频点处频率对应的频率分量，以第k个频点为例，在该频点对应的频率上，6个频率分量分别为R₁(k),R₂(k),…R₆(k)。可以获得6个波束成型频域信号在第k个频点处的平均幅度：R(k)＝(R₁(k)+R₂(k)+…+R₆(k))/6。

获取参考声音采集装置采集的频域信号的相位，参考声音采集装置采集的频域信号表示为X¹(k)，其相位为phase(X¹(k))。

合成在各个频点处以平均幅度为幅度，以参考声音采集装置的原始频域信号的相位为相位的合成频域信号：

对合成频域信号进行逆傅里叶变换，获取合成时域信号：y(6)＝ISTFT(Y_sum(k))。将合成时域信号作为输出信号。

波束图中的横坐标为上文的预设网格点所在的方位。仿真过程中，可以在任一方位上设置干扰源。仿真过程以及绘制波束图的具体过程为本领域技术人员所知，在此不再详述。

通过应用本公开实施例的声音采集方法，可以确认干扰方向上的信号增益最小，也就是说干扰信号被抑制了，而其他方向的声音信号基本没受太大影响。如图3所示，在干扰方向形成了很深的零陷，干扰得到抑制，同时其他方向的声音信号得到了保护。由该实施例可知，通过本公开的方法，可以对任意方向的干扰进行抑制，达到抑制噪声干扰的目的。

图4是根据一示例性实施例示出的一种声音采集装置框图。参照图4，该装置包括信号转换模块401，信号处理模块402，信号合成模块403和信号输出模块404。

该信号转换模块401被配置为用于用于将M个声音采集装置采集到的M个时域信号转换为M个原始频域信号；

该信号处理模块402被配置为用于在N个预设网格点中的每一点处，对M个原始频域信号进行波束成型，以获得与N个预设网格点一一对应的N个波束成型频域信号；

该信号合成模块403被配置为用于基于N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括K个频点、且在各个频点处以所述平均幅度为幅度的合成频域信号，所述合成频域信号在各个频点处的相位为所述M个声音采集装置中指定的参考声音采集装置的原始频域信号中的对应相位；该信号输出模块404被配置为信号输出模块，用于将合成频域信号转换成合成时域信号；其中，M、N、K都是大于等于2的整数。

信号处理模块在N个预设网格点中的每一点处，对M个原始频域信号进行波束成型，以获得与N个预设网格点一一对应的N个波束成型频域信号包括：

在M个声音采集装置的期望采集范围内，选择不同方向上的N个预设网格点；

在每一个预设网格点处，基于M个声音采集装置与预设网格点的位置关系，确定与各个频点相关联的导向向量；

在每一个预设网格点处，基于各个频点上的导向向量，对M个原始频域信号进行波束成型，获取与该预设网格点对应的波束成型频域信号。

信号处理模块在每一个预设网格点处，基于M个声音采集装置与预设网格点的位置关系，确定与各个频点相关联的导向向量包括：

获取该预设网格点到所述M个声音采集装置的距离向量；

基于参考时延向量，确定该预设网格点在各个频点上的导向向量。

在每一个预设网格点处，基于各个频点上的导向向量，对M个原始频域信号进行波束成型，获取与该预设网格点对应的波束成型频域信号包括：

基于各个频点的导向向量以及各个频点的噪声协方差矩阵，确定与各个频点对应的波束成型权系数；

N个预设网格点均匀排列在所述M个声音采集装置所形成的阵列坐标系的水平面内的一个圆上。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于声音采集装置500的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电力组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个声音采集装置(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，声音采集装置被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种声音采集方法，所述方法包括：

在N个预设网格点中的每一点处，对M个原始频域信号进行波束成型，以获得与N个预设网格点一一对应的N个波束成型频域信号；

基于N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括所述K个频点、且在各个频点处以所述平均幅度为幅度的合成频域信号，所述合成频域信号在各个频点处的相位为所述M个声音采集装置中指定的参考声音采集装置的原始频域信号中的对应相位；将合成频域信号转换成合成时域信号，其中，M、N、K都是大于等于2的整数。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种声音采集方法，其特征在于，包括：

将所述合成频域信号转换成合成时域信号，

其中，M、N、K都是大于等于2的整数。

2.根据权利要求1所述的声音采集方法，其特征在于，所述在N个预设网格点中的每一点处，对所述M个原始频域信号进行波束成型，以获得与所述N个预设网格点一一对应的N个波束成型频域信号包括：

3.根据权利要求2所述的声音采集方法，其特征在于，所述在每一个预设网格点处，基于所述M个声音采集装置与该预设网格点的位置关系，确定与各个频点相关联的导向向量包括：

获取该预设网格点到所述M个声音采集装置的距离向量；

4.根据权利要求2所述的声音采集方法，其特征在于，所述在每一个预设网格点处，基于所述各个频点上的导向向量，对所述M个原始频域信号进行波束成型，获取与该预设网格点对应的波束成型频域信号包括：

基于所述波束成型权系数以及所述M个原始频域信号，确定与每一个预设网格点对应的波束成型频域信号。

5.根据权利要求1所述的声音采集方法，其特征在于，所述N个预设网格点均匀排列在所述M个声音采集装置所形成的阵列坐标系的水平面内的一个圆上。

6.一种声音采集装置，其特征在于，包括：

信号转换模块，用于将M个声音采集装置采集到的M个时域信号转换为M个原始频域信号；

信号合成模块，用于基于所述N个波束成型频域信号，确定与K个频点中的每一个相对应的N个频率分量的平均幅度，并且合成包括所述K个频点、且在各个频点处以所述平均幅度为幅度的合成频域信号，所述合成频域信号在各个频点处的相位为所述M个声音采集装置中指定的参考声音采集装置的原始频域信号中的对应相位；

信号输出模块，用于将所述合成频域信号转换成合成时域信号；

其中，M、N、K都是大于等于2的整数。

7.根据权利要求6所述的声音采集装置，其特征在于，所述信号处理模块在N个预设网格点中的每一点处，对所述M个原始频域信号进行波束成型，以获得与所述N个预设网格点一一对应的N个波束成型频域信号包括：

8.根据权利要求7所述的声音采集装置，其特征在于，所述信号处理模块在每一个预设网格点处，基于所述M个声音采集装置与该预设网格点的位置关系，确定与各个频点相关联的导向向量包括：

获取该预设网格点到所述M个声音采集装置的距离向量；

9.根据权利要求7所述的声音采集装置，其特征在于，所述在每一个预设网格点处，基于所述各个频点上的导向向量，对所述M个原始频域信号进行波束成型，获取与该预设网格点对应的波束成型频域信号包括：

10.根据权利要求6所述的声音采集装置，其特征在于，所述N个预设网格点均匀排列在所述M个声音采集装置所形成的阵列坐标系的水平面内的一个圆上。

11.一种声音采集装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

12.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种声音采集方法，所述方法包括：