CN117135504A

CN117135504A - 音频采集方法、装置、电子设备以及存储介质

Info

Publication number: CN117135504A
Application number: CN202311017662.5A
Authority: CN
Inventors: 宋政斌; 李亚桐; 张伟彬; 陈东鹏
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-28

Abstract

本申请公开了一种音频采集方法、装置、电子设备以及存储介质，涉及语音处理技术领域。该方法包括：在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据；从至少一个波束数据中确定目标波束数据，其中，目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，目标对象为至少一个对象中的一个或多个对象；根据目标波束数据更新目标对象对应的预设声源角度范围，获得目标声源角度范围；在目标声源角度范围内对目标对象进行音频数据采集，获得目标音频数据。本申请通过结合声纹的方式进行声源定位，提高了声源定位的速率和音频采集的质量。

Description

音频采集方法、装置、电子设备以及存储介质

技术领域

本申请涉及语音处理技术领域，更具体地，涉及一种音频采集方法、装置、电子设备以及存储介质。

背景技术

随着科学技术的发展，语音处理技术的应用越来越多样化，如，会议语音自动采集的应用。相关技术中，由于在会议语音采集的场景下，存在用户走动使得麦克风采集的音频质量低下的问题。因此，相关技术中存在音频采集的声源定位速率慢，采集的音频的音质低下的问题。

发明内容

鉴于上述问题，本申请提出了一种音频采集方法、装置、电子设备以及存储介质，可以通过结合声纹的方式进行声源定位，提高声源定位的速率，也提高了音频采集的质量。

第一方面，本申请实施例提供了一种音频采集方法，所述方法包括：在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据；从所述至少一个波束数据中确定目标波束数据，其中，所述目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，所述目标对象为所述至少一个对象中的一个或多个对象；根据所述目标波束数据更新所述目标对象对应的预设声源角度范围，获得目标声源角度范围；在所述目标声源角度范围内对所述目标对象进行音频数据采集，获得目标音频数据。

第二方面，本申请实施例提供了一种音频采集方装置，所述装置包括：波束数据获取模块、目标波束数据确定模块、目标声源角度范围获得模块以及目标音频数据采集模块。其中，波束数据获取模块用于在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据；目标波束数据确定模块，用于从所述至少一个波束数据中确定目标波束数据，其中，所述目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，所述目标对象为所述至少一个对象中的一个或多个对象；目标声源角度范围获得模块用于根据所述目标波束数据更新所述目标对象对应的预设声源角度范围，获得目标声源角度范围；目标音频数据采集模块用于在所述目标声源角度范围内对所述目标对象进行音频数据采集，获得目标音频数据。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

本申请实施例提供的音频采集方法、装置、电子设备以及存储介质，通过在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据；从至少一个波束数据中确定目标波束数据，其中，目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，目标对象为至少一个对象中的一个或多个对象；根据目标波束数据更新目标对象对应的预设声源角度范围，获得目标声源角度范围；在目标声源角度范围内对目标对象进行音频数据采集，获得目标音频数据，进而通过结合声纹的方式进行声源定位，提高了声源定位的速率，也提高了音频采集的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一实施例提供的音频采集方法的流程示意图；

图2示出了本申请一实施例提供的音频采集方法的流程示意图；

图3示出了本申请一实施例提供的音频采集方法的流程示意图；

图4示出了本申请一实施例提供的音频采集方装置的模块框图；

图5示出了本申请实施例用于执行根据本申请实施例的音频采集方法的电子设备的框图；

图6示出了本申请实施例的用于保存或者携带实现根据本申请实施例的音频采集方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着科学技术的发展，会议语音采集系统的应用越来越广泛，如，会议语音系统可以应用于远程多方会议、会议记录自动整理等场景。相关技术中，会议语音采集大多通过声源定位的方式进行音频采集。其中，声源定位的方式依赖于声音的强度，而声音信号的强度符合统计的规律，也即需要一段时间的累积，因此，相关技术中，声源定位的速度大多为百毫秒量级的。另外，声源定位受噪声影响较大，在噪声场景下，声源定位算法容易出错，得到准确结果的时间可能要秒级。因此，相关技术中，存在声源定位速率慢的问题。

相应的，在会议语音采集场景下，若讲话人移动由于声源定位的速度不够快，导致MIC阵列波束形成的改变速度跟不上讲话人的移动，使得采集的语音信号质量急剧下降。因此，相关技术中存在音频采集的声源定位速率慢，采集的音频的音质低下的问题。

针对上述问题，发明人经过长期的研究发现，并提出了本申请实施例提供的音频采集方法、装置、电子设备以及存储介质，通过结合声纹的方式进行声源定位，提高声源定位的速率，也提高了音频采集的质量。其中，具体的音频采集方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一实施例提供的音频采集方法的流程示意图。该音频采集方法通过结合声纹的方式进行声源定位，提高声源定位的速率，也提高了音频采集的质量。在具体的实施例中，该音频采集方法可以应用于如图4所示的音频采集方装置200以及配置有音频采集方装置200的电子设备100(图5)。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以包括智能手机、平板电脑、穿戴式电子设备等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述音频采集方法具体可以包括以下步骤：

步骤S110：在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据。

在一些实施方式中，电子设备可以获取至少一个对象各自对应在预设麦克风MIC阵列中的预设声源角度范围内的至少一个波束数据。其中，电子设备可以通过无线通信技术(如，蓝牙、WiFi、zigbee等无线技术)从相关联的云端或电子设备获得该至少一个对象各自对应的预设声源角度范围。相应地，电子设备可以在该至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据。

其中，电子设备可以基于预设麦克风MIC阵列，在至少一个对象各自对应的预设声源角度范围内进行多个波束运算，获得至少一个波束数据。其中，预设MIC阵列可以由预设数量的声学传感器基于预设排列方式组成。示例性的，波束成形的预设MIC阵列可以包括环形、螺旋、随机分布、圆形等排列方式。

其中，波束运算的逻辑可以包括由于声音达到预设MIC阵列包括的各MIC单元存在一个基于声源角度的时延差，电子设备可以基于该时延差进行声音信号的叠加实现波束成形，进而实现按声源角度的语音增强。其中，波束成形可以通过将预设MIC阵列中各个声学传感器所采集到的信号进行滤波、加权叠加后形成波束，并通过扫描整个接收空间，对一个平面的声压分布进行成像可视化。

步骤S120：从所述至少一个波束数据中确定目标波束数据，其中，所述目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，所述目标对象为所述至少一个对象中的一个或多个对象。

在一些实施方式中，电子设备获得至少一个波束数据后，可以对该至少一个波束数据进行声纹特征提取，获得该至少一个波束数据各自对应的声纹特征。

其中，电子设备获得至少一个波束数据各自对应的声纹特征后，可以将目标对象对应的声纹特征与该至少一个波束数据各自对应的声纹特征匹配，并从该至少一个波束数据中确定目标波束数据。

可以理解的是，声纹可以反映人发声器官的特征，通常百毫秒左右的语音数据即可确定发声的特征，它的特点是准确性高；特别是在噪声场景下，通过声纹准确确定对象的速度比声源定位算法要快得多。

在一些实施方式中，电子设备中可以预先设置有至少一个对象各自对应的声纹特征，电子设备也可以通过无线通信技术从相关联的云端或电子设备获得该至少一个对象各自对应的声纹特征，在此不作限定。

其中，目标对象可以为该至少一个对象中的一个或多个对象，示例性的，目标对象可以为该至少一个对象中正在讲话的对象。其中，目标对象可以由用户灵活地自助设置，该目比对象可以固定不变且预先设置在电子设备中，在此不作限定。

其中，电子设备从该至少一个波束数据中确定目标波束数据的过程可以包括，计算该至少一个波束数据各自对应的声纹特征与目标对象对应的声纹特征的相似度，并确定声纹特征与目标对象对应的声纹特征相似度最高的波束数据作为目标波束数据。

步骤S130：根据所述目标波束数据更新所述目标对象对应的预设声源角度范围，获得目标声源角度范围。

在一些实施方式中，电子设备获得目标波束数据后，可以基于该目标波束数据获得目标对象对应的当前声源角度。相应地，电子设备可以根据该目标波束数据更新该目标对象对应的预设声源角度范围，获得目标声源角度范围；其中，电子设备可以根据目标对象对应的当前声源角度更新该目标对象对应的预设声源角度范围，获得目标声源角度范围。

其中，电子设备可以获取当前声源角度与目标对象对应的预设声源角度范围内的初始声源角度的偏差角度；并根据该偏差角度与预设角度的关系调整该预设声源角度范围，获得目标声源角度范围。

示例性的，若该偏差角度大于预设角度，电子设备则可以根据该偏差角度调整该预设声源角度的位置直至该初始声源角度与当前声源角度的偏差小于或等于该预设偏差角度，获得目标声源角度范围。

在一些实施方式中，电子设备获得该目标音波数据后，可以将该目标音波数据作为目标对象对应的音频数据，并可以将该音频数据输出至相关联的云端或电子设备。

步骤S140：在所述目标声源角度范围内对所述目标对象进行音频数据采集，获得目标音频数据。

在一些实施方式中，电子设备获得目标对象对应的目标声源角度范围后，可以在该目标声源角度范围内对该目标对象进行音频数据采集，获得目标音频数据。

可以理解的是，电子设备获取目标对象对应的音频数据的过程中，直接获得目标对象对应的目标声源角度范围内的音频数据作为目标音频数据，提高了对目标对象进行声源定位的速度，同时预设MIC阵列基于该目标声源角度范围进行音频采集，提高了采集的音频的音质。

本申请一实施例提供的音频采集方法，通过在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据；从至少一个波束数据中确定目标波束数据，其中，目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，目标对象为至少一个对象中的一个或多个对象；根据目标波束数据更新目标对象对应的预设声源角度范围，获得目标声源角度范围；在目标声源角度范围内对目标对象进行音频数据采集，获得目标音频数据，进而通过结合声纹的方式进行声源定位，提高了声源定位的速率，也提高了音频采集的质量。

请参阅图2，图2示出了本申请一实施例提供的音频采集方法的流程示意图。该方法应用于上述电子设备，下面将针对图2所示的流程进行详细的阐述，所述音频采集方法具体可以包括以下步骤：

步骤S210：基于声源定位算法获得所述至少一个对象各自对应的声源角度。

在一些实施方式中，电子设备可以基于声源定位算法获得至少一个对象各自对应的声源角度。其中，至少一个对象可以包括人、动物等可以发出声音的事物。示例性的，电子设备可以基于声源定位算法获得至少一个讲话人各自对应的人声源角度。

其中，电子设备可以对预设MIC阵列中包括的所有麦克风记录的声音信号进行频谱转换，获得其频谱特性矩阵，然后进行互谱运算，获得实测结果；同时，可以以扫描平面的每一个网格点作为假想声源，计算麦克风点接收到的声音信号，作为假想结果；相应地，电子设备可以将实测结果和假想结果进行匹配度分析，求其自谱，其中，实测结果与假想结果匹配度最高者即可以确定为声源位置。进一步，电子设备可以将该声源位置在该预设MIC阵列中的绝对角度作为该声源位置对应的对象对应的声源角度。

在一些实施方式中，电子设备可以基于声源定位算法获取目标范围内至少一个对象各自对应的声源角度。其中，该目标范围可以预先设置在电子设备中，也可以由电子设备基于无线通信技术从相关联的云端或电子设备获得，还可以由电子设备通过串行通信接口从相关联的电子设备获得，在此不作限定。可选的，目标范围可以由用户自主设置，也可以通过第三方实验数据获得；示例性的，目标范围由用户自主设置为会议室。相应地，电子设备可以获取会议室中不同说话人的声纹特征，并将各说话人对应的声纹特征与该说话人关联。

步骤S220：基于所述至少一个对象各自对应的声源角度进行所述预设MIC阵列的波束成形运算，获得所述至少一个对象各自对应的音频数据。

在一些实施方式中，电子设备获得至少一个对象各自对应的声源角度后，可以基于该至少一个对象各自对应的声源角度进行预设MIC阵列的波束成形运算，并可以对波束运算获得该至少一个对象各自对应的音频数据。

步骤S230：对所述至少一个对象各自对应的音频数据进行声纹特征提取，获得所述至少一个对象各自对应的声纹特征，并将所述至少一个对象各自对应的声源角度与所述至少一个对象各自对应的声纹特征进行关联存储。

在一些实施方式中，电子设备获得该至少一个对象各自对应的音频数据后，可以对该至少一个对象各自对应的音频数据进行声纹特征提取，获得该至少一个对象各自对应的声纹特征，并可以将该至少一个对象各自对应的声源角度与该至少一个对象各自对应的声纹特征进行关联存储。

其中，电子设备可以基于预设声纹提取处理方法(如，归一化处理、分类处理等)对各对象对应的音频数据进行声纹特征提取。其中，电子设备获得至少一个对象各自对应的声纹特征后，可以将该至少一个对象各自对应的声纹特征和声源角度进行关联，并可以在将声纹特征与声源角度关联存储的同时，标识各声纹特征与声源特征对应的对象。

在一些实施方式中，电子设备可以将至少一个对象各自对应的声源角度与该至少一个对象各自对应的声纹特征关联存储在相关联的云端或电子设备，也可以关联存储在电子设备的本地存储，在此不作限定。

步骤S240：获取所述至少一个对象各自对应的声源角度，并根据所述关联存储获取所述至少一个对象各自对应的声纹特征。

可选的，电子设备可以从相关联的云端或电子设备获取至少一个对象各自对应的声源角度，并可以根据关联存储获取该至少一个对象各自对应的声纹特征；电子设备也可以从本地存储获取该至少一个对象各自对应的声源角度，并可以根据关联存储获取该至少一个对象各自对应的声纹特征。

步骤S250：根据所述至少一个对象各自对应的声源角度，确定所述至少一个对象各自对应的预设声源角度范围。

在一些实施方式中，电子设备获得至少一个对象各自对应的声源角度后，可以根据该至少一个对象各自对应的声源角度，确定该至少一个对象各自对应的预设声源角度范围。

其中，电子设备根据至少一个对象各自对应的声源角度，确定该至少一个对象各自对应的预设声源角度范围的过程可以包括，根据该至少一个对象各自对应的声源角度以及第一预设偏斜角度，获取该至少一个对象各自对应的预设声源角度范围。

其中，电子设备可以确定至少一个对象各自对应的声源角度左右各偏斜第一预设角度，获得该至少一个对象各自对应的预设声源角度范围。示例性的，第一预设偏斜角度为15°，相应地，电子设备可以确定至少一个对象各自对应的声源角度左右各偏斜15°的范围作为该至少一个对象各自对应的预设声源角度范围。

可以理解的是，电子设备可以以说话人当前声源角度为基点，左右各偏斜第一预设偏斜角度作为该说话人的预设声源角度范围，也即，可以为不同的对象划分不同的预设声源角度范围。其中，各对象对应的预设声源角度范围考虑到了讲话人不能瞬时移动离开这个预设声源角度范围，以后续基于该预设声源角度范围对该对象进行音频采集，减小了麦克风阵列进行声源定位的运算量，其中，第一预设偏斜角度可以作为约束条件，有效避免讲话人的声源角度数值异常。

其中，该第一预设偏斜角度可以预先设置在电子设备中，电子设备也可以通过无线通信技术从相关联的云端或电子设备获得，电子设备还可以通过串行通信接口从相关联的电子设备获得，在此不作限定。

作为一种可实施的方式，电子设备也可以根据该至少一个对象所在的目标范围确定该第一预设偏斜角度，可以理解为，电子设备可以根据各对象所处的空间确定各对象对应的第一预设偏斜角度。其中，电子设备可以包括至少一个偏斜角度和至少一个空间体积；其中，该至少一个偏斜角度与该至少一个空间体积可以是一一对应的关系，也可以是一对多的关系，还可以是多对一的关系，在此不作限定。

示例性的，电子设备中可以预先设置有第一预设体积，也可以设置有多个偏斜角度，如，第一偏斜角度、第二偏斜角度等；其中，第一偏斜角度可以小于第二偏斜角度。其中，电子设备可以获得各对象所处的目标范围的体积，若确定目标范围的体积大于该第一预设体积，则可以确定第一预设偏斜角度为第二偏斜角度；若确定目标范围的体积小于或等于该第一预设体积，则可以确定第一预设偏斜角度为第一偏斜角度。

可以理解的是，考虑到对象所处的空间体积越大，对象可以活动的范围越大，在本实施例中，可以对所处目标范围较大的对象设置更大的第一预设偏斜角度，进而获得范围更大的预设声源角度范围，提高声源定位的速率，以及音频采集的音频的质量。

作为另一种可实施的方式，电子设备也可以根据该至少一个对象各自对应的属性确定该第一预设偏斜角度。其中，该属性可以包括性别、物种等。其中，电子设备可以包括至少一个偏斜角度和至少一个属性；其中，该至少一个偏斜角度与该至少一个属性可以是一一对应的关系，也可以是一对多的关系，还可以是多对一的关系，在此不作限定。

示例性的，电子设备中可以预先设置有不同性别对应的偏斜角度，如，女性对应第一偏斜角度，男性对应第二偏斜角度等；其中，第一偏斜角度与第二偏斜角度不同，第一偏斜角度可以大于第二偏斜角度，第一偏斜角度也可以小于第二偏斜角度。其中，电子设备可以获得各对象对应的属性，若确定该对象的属性为女性，则可以确定第一预设偏斜角度为第一偏斜角度；若确定该对象的属性为男性，则可以确定第一预设偏斜角度为第二偏斜角度。

可以理解的是，考虑到男性与女性声音的差别，在本实施例中，可以根据对象的不同属性设置不同的第一预设偏斜角度，进而获得更准确的预设声源角度范围，提高声源定位的速率，以及音频采集的音频的质量。

作为再一种可实施的方式，电子设备也可以获取该至少一个对象对应的声音响度，并可以根据该至少一个对象各自对应的声音响度确定该第一预设偏斜角度，可以理解为，电子设备可以根据各对象的声音响度确定各对象对应的第一预设偏斜角度。其中，电子设备可以包括至少一个偏斜角度和至少一个声音响度；其中，该至少一个偏斜角度与该至少一个声音响度可以是一一对应的关系，也可以是一对多的关系，还可以是多对一的关系，在此不作限定。

示例性的，电子设备中可以预先设置有第一预设声音响度，也可以设置有多个偏斜角度，如，第一偏斜角度、第二偏斜角度等；其中，第一偏斜角度可以小于第二偏斜角度。其中，电子设备可以获得各对象对应的声音响度，若确定该声音响度大于该第一预设声音响度，则可以确定第一预设偏斜角度为第二偏斜角度；若确定目标范围的体积小于或等于该第一预设体积，则可以确定第一预设偏斜角度为第一偏斜角度。

可以理解的是，考虑到对象对应的声音响度越大，该对象说话的声音传播的范围广，在本实施例中，可以对声音响度较大的对象设置更小的第一预设偏斜角度，减低音频采集设备的功耗，节约音频采集的资源；也可以对声音响度较小的对象设置更大的第一预设偏斜角度进而获得范围更大的预设声源角度范围，提高声源定位的速率，以及音频采集的音频的质量。

步骤S260：在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据。

步骤S270：从所述至少一个波束数据中确定目标波束数据，其中，所述目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，所述目标对象为所述至少一个对象中的一个或多个对象。

步骤S280：根据所述目标波束数据更新所述目标对象对应的预设声源角度范围，获得目标声源角度范围。

步骤S290：在所述目标声源角度范围内对所述目标对象进行音频数据采集，获得目标音频数据。

其中，关于步骤S260-步骤S290的具体描述请参阅前文对步骤S110-步骤S140的描述，在此不作一一赘述。

本申请一实施例提供的音频采集方法，相较于图1所示的音频采集方法，本实施例还可以在在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据之前，基于声源定位算法获得至少一个对象各自对应的声源角度；基于至少一个对象各自对应的声源角度进行预设MIC阵列的波束成形运算，获得至少一个对象各自对应的音频数据；对至少一个对象各自对应的音频数据进行声纹特征提取，获得至少一个对象各自对应的声纹特征，并将至少一个对象各自对应的声源角度与至少一个对象各自对应的声纹特征进行关联存储，获取至少一个对象各自对应的声源角度，并根据关联存储获取至少一个对象各自对应的声纹特征；根据至少一个对象各自对应的声源角度，确定至少一个对象各自对应的预设声源角度范围，进而通过结合声源定位和声纹特征识别的方式，进行声源定位提高了声源定位的准确性和速率，提高了音频采集的准确性和音频数据的质量。

请参阅图3，图3示出了本申请一实施例提供的音频采集方法的流程示意图。该方法应用于上述电子设备，下面将针对图3所示的流程进行详细的阐述，所述音频采集方法具体可以包括以下步骤：

步骤S310：在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据。

步骤S320：从所述至少一个波束数据中确定目标波束数据，其中，所述目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，所述目标对象为所述至少一个对象中的一个或多个对象。

其中，关于步骤S310-步骤S320的具体描述请参阅前文对步骤S110-步骤S120的描述，在此不作一一赘述。

步骤S330：根据所述目标波束数据确定所述目标对象的移动状态，其中，所述移动状态包括移动方向和移动距离中的至少一种。

在一些实施方式中，电子设备获取目标波束数据后，可以基于该目标波束数据与该目标对象对应的预设声源角度范围确定该目标对象的移动状态。其中，电子设备可以基于该目标波束数据确定该目标对象对应的当前声源角度；相应地，电子设备可以基于该当前声源角度与该目标对象对应的预设声源角度范围对应的声源角度，确定该目标对象的移动状态。

其中，移动状态可以包括移动方向和移动距离中的至少一种。其中，电子设备可以获取该当前声源角度与该目标对象对应的预设声源角度范围对应的声源角度的角度差，并可以根据该角度差获得目标对象的移动方向和移动距离。

步骤S340：根据所述移动状态调整所述目标对象对应的预设声源角度范围，获得所述目标声源角度范围。

在一些实施方式中，电子设备获得目标对象的移动状态后，可以根据该移动状态调整该目标对象对应的预设声源角度范围，获得目标声源角度范围。可选的，电子设备可以基于将该目标对象对应的移动方向的偏斜角度加大，而前进方向的反方向的偏斜角度保持不变或者减小，获得目标声源角度范围。示例性的，可以将移动方向的偏斜角度由15°加大为20°，将与移动方向相反的反方向的偏斜角度由15°减小为10°。

在一些实施方式中，电子设备根据目标对象的移动状态调整该目标对象对应的预设声源角度范围，获得目标声源角度范围的过程可以包括：若该移动状态包括移动距离，且该移动距离大于预设距离，则可以将该目标对象对应的预设声源角度范围在预设MIC阵列中移动第一距离，获得目标声源角度范围；或者若该移动状态包括移动方向，则可以根据该目标对象对应的声源角度以及第二预设偏斜角度，获得目标声源角度范围；或者若该移动状态包括移动方向和移动距离，且该移动距离大于该预设距离，则可以根据该目标对象对应的声源角度、第二预设偏斜角度以及第一距离，获得目标声源角度范围。

其中，电子设备中可以预先设置有预设距离、第一距离以及第二预设偏斜角度；其中，预设距离、第一距离以及第二预设偏斜角度可以由用户自主设置，也可以通过第三方实验数据获得，在此不作限定。其中，预设距离可以包括偏转角度、水平方向移动的直线距离、垂直方向移动的直线距离等；第一角度可以包括偏转角度、水平方向移动的直线距离、垂直方向移动的直线距离等。相应地，电子设备若确定目标对象的移动状态对应的移动角度大于该偏转角度，则可以将该目标对象对应的预设声源角度范围在预设MIC阵列中偏转该偏转角度，获得目标声源角度范围。

其中，第二预设偏斜角度可以大于第一预设偏斜角度，也可以小于第一预设偏斜角度。示例性的，第一预设偏斜角度可以以目标对象对应的声源角度为基点，左右各偏斜15°；第二预设偏斜角度可以以目标对象对应的声源角度为基点，左右各偏斜20°。其中，第二偏斜角度以目标对象对应的声源角度的基点，左右偏斜的角度可以相同也可以不同；第一偏斜角度以目标对象对应的声源角度的基点，左右偏斜的角度可以相同也可以不同，在此不作限定。

在一些实施方式中，电子设备中可以预先设置有第二预设偏斜角度，其中，该第二偏斜角度可以包括不同的移动方向对应的偏斜角度，以及移动方向反方向对应的偏斜角度。示例性的，第二偏斜角度包括移动方向对应的偏斜角度为20°，移动方向反方向对应的偏斜角度为15°；相应地，若电子设备检测到目标对象的移动方向，则可以以该目标对象的声源角度为基点，将该声源角度向该移动方向偏转20°，以及将该声源角度向该移动方向反方向偏转15°形成的角度范围作为目标声源角度范围。

其中，若电子设备确定该移动状态包括移动方向和移动距离，且该移动距离大于该预设距离，则根据该目标对象对应的声源角度、第二预设偏斜角度以及第一距离，获得目标声源角度范围的过程可以包括，将该目标对象对应的声源角度移动该第一距离后获得该目标对象对应的当前声源角度，并根据目标对象的移动方向、该当前声源角度以及该第二预设偏斜角度，获得目标声源角度范围。

步骤S350：若所述目标声源角度范围与所述至少一个对象中除所述目标对象的其他对象对应的预设声源角度范围在所述预设MIC阵列中存在重叠范围，则获取所述重叠范围内的待判定音频。

在一些实施方式中，电子设备基于预设MIC阵列在目标对象对应的目标声源角度范围内对目标对象发出的声音进行音频采集的过程中，若检测到该目标声源角度范围与该至少一个对象中除该目标对象的其他对象对应的预设声源角度范围在该预设MIC阵列中存在重叠范围时，则可以获取该重叠范围内的待判定音频。

其中，电子设备可以将基于预设MIC阵列获取的目标对象对应的与该至少一个对象中除该目标对象的其他对象对应的预设声源角度范围不存在重叠的范围的音频作为目标音频数据。

示例性的，以预设MIC阵列视角的绝对角度确定目标对象对应的目标声源角度范围以及该至少一个对象中除该目标对象的其他对象对应的预设声源角度范围。其中，电子设备将讲话人A确定为目标对象，讲话人A对应的声源角度为15°的位置，其中，电子设备可以对讲话人A进行波束范围的计算，获得讲话人A对应的目标声源角度范围为0°-30°；其中，讲话人B为至少一个对象中除该目标对象的其他对象，若电子设备确定讲话人B对应的声源角度为40°的位置，且对讲话人B进行波束范围的计算，获得讲话人B对应的预设声源角度范围为25°-55°。基于此，电子设备可以确定讲话人A与讲话人B存在5°的声源范围重叠，即，25°-30°为讲话人A与讲话人B的重叠范围。相应地，电子设备可以将基于预设MIC阵列获得的该重叠范围的音频作为待判定音频。

步骤S360：若所述待判定音频对应的声纹特征与所述目标对象对应的声纹特征匹配，则将所述待判定音频确定为所述目标音频数据。

在一些实施方式中，电子设备获得待判定音频后，可以对该待判定音频进行声纹特征提取，并可以将该待判定音频对应的声纹特征与该目标对象对应的声纹特征匹配，若检测到该待判定音频对应的声纹特征与该目标对象对应的声纹特征匹配，则可以将待判定音频确定为目标音频数据。

可以理解的是，电子设备可以通过声纹特征检测采集的目标对象与其他对象重叠的声源范围内的音频对应的对象的身份，判定该音频是否为目标音频，进而在提高声源定位速率的同时，提高音频采集的准确性，提高了音频采集的音质。相应地，针对会议采集系统通过结合声纹的方式，提高声源定位的速率，也改善了讲话人移动场景下，会议采集系统录音的音质。

申请一实施例提供的音频采集方法，相较于图1所示的音频采集方法，本实施例还可以根据目标波束数据确定目标对象的移动状态，其中，移动状态包括移动方向和移动距离中的至少一种；根据移动状态调整目标对象对应的预设声源角度范围，获得目标声源角度范围，若目标声源角度范围与至少一个对象中除目标对象的其他对象对应的预设声源角度范围在预设MIC阵列中存在重叠范围，则获取重叠范围内的待判定音频；若待判定音频对应的声纹特征与目标对象对应的声纹特征匹配，则将待判定音频确定为目标音频，进而通过根据目标对象的移动状态灵活确定对目标对象进行音频采集的声源范围，提高了声源定位的速率，同时通过结合声纹的方式进行声源定位，提高了声源定位的效率，提高了采集的音频的质量，提高了用户的体验感。

请参阅图4，图4示出了本申请一实施例提供的音频采集方装置的模块框图。该音频采集方装置200应用于上述电子设备。下面将针对图4所示的流程进行详细的阐述，所述音频采集方装置200包括：波束数据获取模块210、目标波束数据确定模块220、目标声源角度范围获得模块230以及目标音频数据采集模块240，其中：

波束数据获取模块210，用于在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据。

目标波束数据确定模块220，用于从所述至少一个波束数据中确定目标波束数据，其中，所述目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，所述目标对象为所述至少一个对象中的一个或多个对象。

目标声源角度范围获得模块230，用于根据所述目标波束数据更新所述目标对象对应的预设声源角度范围，获得目标声源角度范围。

目标音频数据采集模块240，用于在所述目标声源角度范围内对所述目标对象进行音频数据采集，获得目标音频数据。

进一步地，所述目标音频数据采集模块240可以包括：待判定音频获取单元以及目标音频确定单元，其中：

待判定音频获取单元，用于若所述目标声源角度范围与所述至少一个对象中除所述目标对象的其他对象对应的预设声源角度范围在所述预设MIC阵列中存在重叠范围，则获取所述重叠范围内的待判定音频。

目标音频确定单元，用于若所述待判定音频对应的声纹特征与所述目标对象对应的声纹特征匹配，则将所述待判定音频确定为所述目标音频数据。

进一步地，在所述在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据之前，所述音频采集方装置200还可以包括：声源定位模块、MIC阵列波束运算模块以及声源角度和声纹特征关联模块，其中：

声源定位模块，用于基于声源定位算法获得所述至少一个对象各自对应的声源角度。

MIC阵列波束运算模块，用于基于所述至少一个对象各自对应的声源角度进行所述预设MIC阵列的波束成形运算，获得所述至少一个对象各自对应的音频数据。

声源角度和声纹特征关联模块，用于对所述至少一个对象各自对应的音频数据进行声纹特征提取，获得所述至少一个对象各自对应的声纹特征，并将所述至少一个对象各自对应的声源角度与所述至少一个对象各自对应的声纹特征进行关联存储。

进一步地，在所述对所述至少一个对象各自对应的音频数据进行声纹特征提取，获得所述至少一个对象各自对应的声纹特征，并将所述至少一个对象各自对应的声源角度与所述至少一个对象各自对应的声纹特征进行关联存储之后，所述音频采集方装置200还可以包括：声源角度和声纹特征获取模块以及预设声源角度范围确定模块，其中：

声源角度和声纹特征获取模块，用于获取所述至少一个对象各自对应的声源角度，并根据所述关联存储获取所述至少一个对象各自对应的声纹特征。

预设声源角度范围确定模块，用于根据所述至少一个对象各自对应的声源角度，确定所述至少一个对象各自对应的预设声源角度范围。

进一步地，所述预设声源角度范围确定模块可以包括：预设声源角度范围确定子单元，其中：

预设声源角度范围确定子单元，用于根据所述至少一个对象各自对应的声源角度以及第一预设偏斜角度，获取所述至少一个对象各自对应的预设声源角度范围。

进一步地，所述目标声源角度范围获得模块230可以包括：移动状态确定单元以及目标声源角度范围获得子单元，其中：

移动状态确定单元，用于根据所述目标波束数据确定所述目标对象的移动状态，其中，所述移动状态包括移动方向和移动距离中的至少一种。

目标声源角度范围获得子单元，用于根据所述移动状态调整所述目标对象对应的预设声源角度范围，获得所述目标声源角度范围。

进一步地，所述目标声源角度范围获得子单元可以包括：第一调整单元、第二调整单元或者第三调整单元，其中：

第一调整单元，用于若所述移动状态包括所述移动距离，且所述移动距离大于预设距离，则将所述目标对象对应的预设声源角度范围在所述预设MIC阵列中移动第一距离，获得所述目标声源角度范围。

第二调整单元，用于若所述移动状态包括所述移动方向，则根据所述目标对象对应的声源角度以及第二预设偏斜角度，获得所述目标声源角度范围。

第三调整单元，用于若所述移动状态包括所述移动方向和所述移动距离，且所述移动距离大于所述预设距离，则根据所述目标对象对应的声源角度、所述第二预设偏斜角度以及所述第一距离，获得所述目标声源角度范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图5，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

其中，处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责待显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图6其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读取存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的音频采集方法、装置、电子设备以及存储介质，通过在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据；从至少一个波束数据中确定目标波束数据，其中，目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，目标对象为至少一个对象中的一个或多个对象；根据目标波束数据更新目标对象对应的预设声源角度范围，获得目标声源角度范围；在目标声源角度范围内对目标对象进行音频数据采集，获得目标音频数据，进而通过结合声纹的方式进行声源定位，提高了声源定位的速率，也提高了音频采集的质量。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频采集方法，其特征在于，所述方法包括：

在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据；

从所述至少一个波束数据中确定目标波束数据，其中，所述目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，所述目标对象为所述至少一个对象中的一个或多个对象；

根据所述目标波束数据更新所述目标对象对应的预设声源角度范围，获得目标声源角度范围；

在所述目标声源角度范围内对所述目标对象进行音频数据采集，获得目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述在所述目标声源角度范围内对所述目标对象进行音频数据采集，获得目标音频数据，包括：

若所述目标声源角度范围与所述至少一个对象中除所述目标对象的其他对象对应的预设声源角度范围在所述预设MIC阵列中存在重叠范围，则获取所述重叠范围内的待判定音频；

若所述待判定音频对应的声纹特征与所述目标对象对应的声纹特征匹配，则将所述待判定音频确定为所述目标音频数据。

3.根据权利要求1所述的方法，其特征在于，在所述在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据之前，还包括：

基于声源定位算法获得所述至少一个对象各自对应的声源角度；

基于所述至少一个对象各自对应的声源角度进行所述预设MIC阵列的波束成形运算，获得所述至少一个对象各自对应的音频数据；

对所述至少一个对象各自对应的音频数据进行声纹特征提取，获得所述至少一个对象各自对应的声纹特征，并将所述至少一个对象各自对应的声源角度与所述至少一个对象各自对应的声纹特征进行关联存储。

4.根据权利要求3所述的方法，其特征在于，在所述对所述至少一个对象各自对应的音频数据进行声纹特征提取，获得所述至少一个对象各自对应的声纹特征，并将所述至少一个对象各自对应的声源角度与所述至少一个对象各自对应的声纹特征进行关联存储之后，还包括：

获取所述至少一个对象各自对应的声源角度，并根据所述关联存储获取所述至少一个对象各自对应的声纹特征；

根据所述至少一个对象各自对应的声源角度，确定所述至少一个对象各自对应的预设声源角度范围。

5.根据权利要求4所述的方法，其特征在于，所述根据所述至少一个对象各自对应的声源角度，确定所述至少一个对象各自对应的预设声源角度范围，包括：

根据所述至少一个对象各自对应的声源角度以及第一预设偏斜角度，获取所述至少一个对象各自对应的预设声源角度范围。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标波束数据更新所述目标对象对应的预设声源角度范围，获得目标声源角度范围，包括：

根据所述目标波束数据确定所述目标对象的移动状态，其中，所述移动状态包括移动方向和移动距离中的至少一种；

根据所述移动状态调整所述目标对象对应的预设声源角度范围，获得所述目标声源角度范围。

7.根据权利要求6所述的方法，其特征在于，所述根据所述移动状态调整所述目标对象对应的预设声源角度范围，获得所述目标声源角度范围，包括：

若所述移动状态包括所述移动距离，且所述移动距离大于预设距离，则将所述目标对象对应的预设声源角度范围在所述预设MIC阵列中移动第一距离，获得所述目标声源角度范围；或者

若所述移动状态包括所述移动方向，则根据所述目标对象对应的声源角度以及第二预设偏斜角度，获得所述目标声源角度范围；或者

若所述移动状态包括所述移动方向和所述移动距离，且所述移动距离大于所述预设距离，则根据所述目标对象对应的声源角度、所述第二预设偏斜角度以及所述第一距离，获得所述目标声源角度范围。

8.一种音频采集装置，其特征在于，所述音频采集装置包括：

波束数据获取模块，用于在至少一个对象各自对应的预设声源角度范围内，基于预设麦克风MIC阵列获取至少一个波束数据；

目标波束数据确定模块，用于从所述至少一个波束数据中确定目标波束数据，其中，所述目标波束数据对应的声纹特征与目标对象对应的声纹特征匹配，所述目标对象为所述至少一个对象中的一个或多个对象；

目标声源角度范围获得模块，用于根据所述目标波束数据更新所述目标对象对应的预设声源角度范围，获得目标声源角度范围；

目标音频数据采集模块，用于在所述目标声源角度范围内对所述目标对象进行音频数据采集，获得目标音频数据。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。