CN114697812B

CN114697812B - 声音采集方法、电子设备及系统

Info

Publication number: CN114697812B
Application number: CN202011593358.1A
Authority: CN
Inventors: 陶凯; 尹明婕; 常青; 蒋摇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-06-20
Anticipated expiration: 2040-12-29
Also published as: EP4258685A1; US20240064449A1; WO2022143119A1; CN114697812A; EP4258685A4

Abstract

本申请公开了一种声音采集方法、电子设备及系统。该系统包括第一电子设备、左耳TWS耳机和右耳TWS耳机。在该方法中，第一电子设备、左耳TWS耳机和右耳TWS耳机的麦克风可以组成第一麦克风阵列。当第一电子设备检测到开始录像的用户操作，第一麦克风阵列进行声音采集得到联合麦克风阵列信号。第一电子设备可以对该联合麦克风阵列信号进行降噪处理。该方法可以增强第一麦克风阵列近场区域的目标声音信号并抑制环境噪声信号，提高录制得到的视频中的音质。

Description

声音采集方法、电子设备及系统

技术领域

本申请涉及终端技术领域，尤其涉及一种声音采集方法、电子设备及系统。

背景技术

随着蓝牙技术的发展，真无线立体声(true wireless stereo，TWS)耳机可以与手机、平板电脑等电子设备更高效、高品质地传输音频信号，受到越来越多用户的青睐。用户在直播、拍摄视频博客(video blog，vlog)等视频录制的场景中，可以通过TWS耳机的麦克风采集声音。

但在嘈杂环境下录制视频时，现有的TWS耳机所采用的拾音降噪方案受到耳机中麦克风数量的限制以及用户佩带姿态的影响。TWS耳机抑制环境噪声、增强目标声音的效果较差。

发明内容

本申请提供了一种声音采集方法、电子设备及系统，可以在用户佩带无线耳机，使用第一电子设备录制视频时，利用无线耳机与第一电子设备的麦克风进行声音采集。第一电子设备可以对通过多个麦克风得到的音频信号进行降噪处理，提高录制得到的视频中的音质。

第一方面，本申请提供一种声音采集方法。该方法可应用于具有第一麦克风的第一电子设备、具有第二麦克风的左耳无线耳机、具有第三麦克风的右耳无线耳机。第一电子设备与左耳无线耳机、右耳无线耳机通过无线通信连接。该方法可包括：第一电子设备可以采集到人脸图像。第一电子设备可基于人脸图像和第一电子设备的姿态信息确定第一麦克风、第二麦克风、第三麦克风的相对位置。第一电子设备可获取第一麦克风的第一音频信号、第二麦克风的第二音频信号和第三麦克风的第三音频信号。第一电子设备可基于相对位置，对第一音频信号、第二音频信号和第三音频信号进行降噪处理。

上述第一麦克风、第二麦克风和第三麦克风可以组成第一麦克风阵列。第一麦克风可以包含第一电子设备中的一个或多个麦克风。第二麦克风可以包含左耳无线耳机中的一个或多个麦克风。第三麦克风可以包含右耳无线耳机中的一个或多个麦克风。

由第一麦克风阵列中各麦克风所在的位置可知，该第一麦克风阵列所构成的近场区域包括佩带有TWS耳机的用户以及第一电子设备100的位置所在的区域。相较于仅由单个TWS耳机中的麦克风阵列，第一麦克风阵列的尺寸更大，空间分辨能力更强，可以更准确地分辨近场区域中的目标声音以及来自远场区域中的环境噪声。这样，第一电子设备100对第一麦克风阵列采集得到的音频信号进行空域滤波时，可以更好地增强目标声音并抑制环境噪声，提高录制得到的视频中的音质。

并且，在麦克风阵列中增加第一电子设备100中的麦克风可以降低用户佩带TWS耳机姿态对第一电子设备100增强目标声音、降低环境噪声的影响。

上述目标声音可以为声源位于第一麦克风阵列的近场区域的声音。上述目标声音可以包括用户的语音、用户弹奏乐器的声音。

结合第一方面，在一些实施例中，第一电子设备在基于上述相对位置，对第一音频信号、第二音频信号、第三音频信号进行降噪处理之前，还可以对第一音频信号、第二音频信号和第三音频信号进行时延对齐。

具体的，第一电子设备可以发出对齐声音。该对齐声音由对齐信号经过数模转换得到。第一电子设备可以对第一音频信号中的第一对齐信号部分、第二音频信号中的第二对齐信号部分和第三音频信号中的第三对齐信号部分进行时延相关性检测，确定第一音频信号、第二音频信号和第三音频信号之间的时延长度。第一电子设备可以基于时延长度，对第一音频信号、第二音频信号、第三音频信号进行时延对齐。

上述对齐信号可以为频率高于20000Hz的音频信号。人耳可闻频段在20Hz～20000Hz之间。对齐信号的频率高于20000Hz，对齐声音不会被用户听见。这可以避免对齐声音对用户产生干扰。

上述时延对齐可以确定第一音频信号、第二音频信号和第三音频信号中属于同一时刻被采集到的数据，减少时延误差对第一电子设备在进行降噪处理的影响。

在一种可能的实现方式中，第一电子设备可以以第一音频信号、第二音频信号和第三音频信号中任意一个音频信号为基准音频信号，将其他音频信号与该基准音频信号进行时延对齐。示例性的，第一电子设备可以以第一音频信号为基准音频信号。第一电子设备可以对第一音频信号、第二音频信号和第三音频信号进行高通滤波，得到这些音频信号中的对齐信号部分。第一电子设备可以对第二音频信号和第三音频信号中的对齐信号部分进行不同时间长度的时延处理，来确定出在哪一个时延长度下第二音频信号和第三音频信号中的对齐信号部分与第一音频信号中的对齐信号部分的相关性最高。这样，第一电子设备可以确定出第二音频信号和第三音频信号相对于第一音频信号的时延长度。

在一种可能的实现方式中，第一电子设备可以在开始录像的预设时间段(如开始录像前的预设时间段或者开始录像后的预设时间段)生成上述对齐信号，并发出对齐声音。第一电子设备可以根据上述预设时间段的对齐信号确定出第一音频信号、第二音频信号和第三音频信号之间的时延长度。上述时延长度在第一电子设备录像的过程中一般不会变化或者变化极小。在上述预设时间段之后的录像过程中，第一电子设备可以根据上述时延长度对第一音频信号、第二音频信号和第三音频信号进行时延对齐。并且，第一电子设备可以停止生成上述对齐信号，以节省第一电子设备的功耗。

结合第一方面，在一些实施例中，上述第一麦克风、第二麦克风和第三麦克风的相对位置可以包括第一麦克风、第二麦克风、第三麦克风在世界坐标系的坐标。

其中，第一电子设备可以基于第一人脸关键点在标准人头坐标系中的坐标与在人脸图像坐标系中的坐标的对应关系，确定标准人头坐标系与第一电子设备坐标系的第一转换关系。标准人头坐标系可以根据标准人头模型确定。第一电子设备可以存储有标准人头模型中各关键点在标准人头坐标系中的坐标。第一电子设备可以基于第一转换关系以及标准人头模型中左耳与右耳在标准人头坐标系中的坐标，确定标准人头模型中左耳与右耳在第一电子设备坐标系中的坐标。标准人头模型中左耳与右耳在第一电子设备坐标系中的坐标分别为第二麦克风与第三麦克风在第一电子设备坐标系中的坐标。第一电子设备可以根据第一电子设备的姿态信息，确定第一电子设备坐标系与世界坐标系之间的第二转换关系。第一电子设备可以基于第二转换关系，第一麦克风、第二麦克风、第三麦克风在第一电子设备坐标系的坐标(即上述相对位置)。

上述标准人头坐标系可以是以标准人头模型中鼻尖所在的位置为原点、以垂直于人脸的方向为x轴所在的方向、以平行于人脸的水平方向为y轴所在的方向、以平行于人脸的竖直方向为z轴所在的方向建立的三维坐标系。

上述第一人脸关键点可以包含人脸图像中人脸所在区域的任意多个关键点。例如，额头区域所在区域的关键点、脸颊所在区域的关键点、嘴唇所在区域的关键点等。

上述姿态信息可以是第一电子设备通过姿态传感器(如加速度传感器、陀螺仪传感器)确定的。

第一电子设备的摆放姿态具有未知性和时变性。第一麦克风阵列需要采集的目标声音不仅包含用户的语音，还可包含用户弹奏乐器的声音。相比于第一麦克风阵列中各麦克风在以电子设备坐标系中的坐标，第一电子设备在空域滤波的过程中使用第一麦克风阵列中各麦克风在世界坐标系中的坐标可以更好地提高增强目标声音并降低环境噪声的效果。

结合第一方面，在一些实施例中，第一电子设备基于相对位置，对第一音频信号、第二音频信号和第三音频信号进行降噪处理的方法具体可以包括：第一电子设备可以基于相对位置，对第一音频信号、第二音频信号和第三音频信号进行语音活动检测。语音活动检测可以用于确定第一音频信号、第二音频信号和第三音频信号中目标声音信号的频点和环境噪声信号的频点。第一电子设备可以基于目标声音信号的频点和环境噪声信号的频点更新环境噪声的噪声空间特性。噪声空间特性可以用于指示环境噪声在空间的分布。环境噪声在空间的分布包括环境噪声的方向和能量。第一电子设备可以基于相对位置，确定第一音频信号、第二音频信号和第三音频信号的目标导向矢量。目标导向矢量可以用于指示目标声音信号的方向。第一电子设备基于噪声空间特性和目标导向矢量确定空域滤波器，并利用空域滤波器对第一音频信号、第二音频信号和第三音频信号进行空域滤波，来增强第一音频信号、第二音频信号和第三音频信号中的目标声音信号并抑制其中的环境噪声信号。

结合第一方面，在一些实施例中，左耳无线耳机可以进行佩带检测。上述佩带检测可用于确定左耳无线耳机是否处于入耳状态。在左耳无线耳机处于入耳状态的情况下，左耳无线耳机利用第二麦克风得到第二音频信号。右耳无线耳机可以进行佩带检测。在右耳无线耳机处于入耳状态的情况下，右耳无线耳机利用第三麦克风得到第三音频信号。

在一种可能的实现方式中，第一电子设备在检测到用于开始录像的用户操作时，可以向左耳无线耳机和右耳无线耳机询问佩带检测结果。当确定左耳无线耳机和右耳无线耳机均处于入耳状态，第一电子设备可以开启第一麦克风，并向左耳无线耳机和右耳无线耳机发送开启麦克风的指令。当接收到来自第一电子设备的开启麦克风的指令，左耳无线耳机和右耳无线耳机可以分别开启第二麦克风和第三麦克风。

在另一种可能的实现方式中，左耳无线耳机可以在进行佩带检测并确定左耳无线耳机处于入耳状态时，开启第二麦克风。右耳无线耳机可以在进行佩带检测并确定右耳无线耳机处于入耳状态时，开启第三麦克风。即第一电子设备可以不用向左耳无线耳机和右耳无线耳机发送开启麦克风的指令。

结合第一方面，在一些实施例中，第一电子设备可以将在第一时间段内采集的第一视频与第四音频信号混合。第四音频信号可以为第一音频信号、第二音频信号和第三音频信号经过降噪处理后的音频信号。第一音频信号、第二音频信号、第三音频信号可以分别为在第一时间段内通过第一麦克风、第二麦克风和第三麦克风得到的。

在一些实施例中，左耳无线耳机和右耳无线耳机中的一个耳机的麦克风可以与第一电子设备的麦克风组成麦克风阵列。该麦克风阵列也可以适用本申请实施例提供的声音采集方法。示例性的，在用户佩带左耳无线耳机和右耳无线耳机，使用第一电子设备直播的场景中，第一电子设备的第一麦克风和左耳无线耳机的第二麦克风可以进行声音采集。第一电子设备可以通过第一麦克风得到第一音频信号。左耳无线耳机可以通过第二麦克风得到第二音频信号。左耳无线耳机可以将该第二音频信号发送给第一电子设备。第一电子设备可以对第一音频信号和第二音频信号进行降噪处理，得到直播视频中的音频信号。

上述一个耳机的麦克风可以与第一电子设备的麦克风组成麦克风阵列的近场区域仍然可以包含用户语音、用户弹奏乐器的声音等目标声音的声源所在的位置。并且，使用一个耳机的麦克风可以节省耳机的功耗。

第二方面，本申请还提供一种声音采集方法。该方法应用于具有第一麦克风的第一电子设备。第一电子设备与具有第二麦克风的左耳无线耳机、具有第三麦克风的右耳无线耳机通过无线通信连接。该方法可包括：第一电子设备采集得到人脸图像。第一电子设备基于人脸图像和第一电子设备的姿态信息确定第一麦克风、第二麦克风、第三麦克风的相对位置。第一电子设备获取第一麦克风的第一音频信号、第二麦克风的第二音频信号和第三麦克风的第三音频信号。第一电子设备基于相对位置，对第一音频信号、第二音频信号和第三音频信号进行降噪处理。

结合第二方面，在一些实施例中，第一电子设备在基于上述相对位置，对第一音频信号、第二音频信号、第三音频信号进行降噪处理之前，还可以对第一音频信号、第二音频信号和第三音频信号进行时延对齐。

结合第二方面，在一些实施例中，上述第一麦克风、第二麦克风和第三麦克风的相对位置可以包括第一麦克风、第二麦克风、第三麦克风在世界坐标系的坐标。

结合第二方面，在一些实施例中，第一电子设备基于相对位置，对第一音频信号、第二音频信号和第三音频信号进行降噪处理的方法具体可以包括：第一电子设备可以基于相对位置，对第一音频信号、第二音频信号和第三音频信号进行语音活动检测。语音活动检测可以用于确定第一音频信号、第二音频信号和第三音频信号中目标声音信号的频点和环境噪声信号的频点。第一电子设备可以基于目标声音信号的频点和环境噪声信号的频点更新环境噪声的噪声空间特性。噪声空间特性可以用于指示环境噪声在空间的分布。环境噪声在空间的分布包括环境噪声的方向和能量。第一电子设备可以基于相对位置，确定第一音频信号、第二音频信号和第三音频信号的目标导向矢量。目标导向矢量可以用于指示目标声音信号的方向。第一电子设备基于噪声空间特性和目标导向矢量确定空域滤波器，并利用空域滤波器对第一音频信号、第二音频信号和第三音频信号进行空域滤波，来增强第一音频信号、第二音频信号和第三音频信号中的目标声音信号并抑制其中的环境噪声信号。

结合第二方面，在一些实施例中，第一电子设备可以将在第一时间段内采集的第一视频与第四音频信号混合。第四音频信号可以为第一音频信号、第二音频信号和第三音频信号经过降噪处理后的音频信号。第一音频信号、第二音频信号、第三音频信号可以均为在第一时间段内采集得到的音频信号。

第三方面，本申请提供一种电子设备，该电子设备可包括通信装置、摄像头、麦克风、存储器和处理器。其中，通信装置可用于与无线耳机建立通信连接。摄像头可用于采集图像。麦克风可用于进行声音采集。存储器可用于存储标准人头坐标系以及计算机程序。处理器可用于调用计算机程序，使得电子设备执行上述第二方面中任一种可能的实现方式。

第四方面，本申请提供一种计算机存储介质，包括指令，当上述指令在电子设备上运行时，使得上述电子设备执行上述第一方面中任一种可能的实现方式，或者使得上述电子设备执行上述第二方面中任一种可能的实现方式。

第五方面，本申请实施例提供一种芯片，该芯片应用于电子设备，该芯片包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行上述第一方面中任一种可能的实现方式，或者使得上述电子设备执行上述第二方面中任一种可能的实现方式。

第六方面，本申请实施例提供一种包含指令的计算机程序产品，当上述计算机程序产品在设备上运行时，使得上述电子设备执行上述第一方面中任一种可能的实现方式，或者使得上述电子设备执行上述第二方面中任一种可能的实现方式。

可以理解地，上述第三方面提供的电子设备、第四方面提供的计算机存储介质、第五方面提供的芯片、第六方面提供的计算机程序产品均用于执行本申请实施例所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

图1A是本申请实施例提供的一种声音采集的场景示意图；

图1B是本申请实施例提供的一种麦克风阵列的空间分辨能力示意图；

图2A是本申请实施例提供的另一种声音采集的场景示意图；

图2B是本申请实施例提供的另一种麦克风阵列的空间分辨能力示意图；

图3A～图3G是本申请实施例提供的一些声音采集的场景示意图；

图4是本申请实施例提供的一种声音采集系统结构示意图；

图5A和图5B是本申请实施例提供的一种对音频信号进行时延对齐的方法示意图；

图6A～图6C是本申请实施例提供的一些坐标转换示意图；

图7A是本申请实施例提供的一种开启第一麦克风阵列的方法流程图；

图7B是本申请实施例提供的一种声音采集的方法流程图；

图8是本申请实施例提供的一种第一电子设备100的结构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在一些实施例中，第一电子设备(如手机、平板电脑等)与TWS耳机建立有通信连接。第一电子设备在录制视频、语音通话等场景中，第一电子设备可以通过TWS耳机的麦克风采集声音。如图1A所示，TWS耳机可以利用左耳TWS耳机201或右耳TWS耳机202中一个耳机的麦克风阵列来采集声音。TWS耳机采集的声音中往往会包括环境噪声。上述环境噪声主要来自于单个TWS耳机中的麦克风阵列的远场区域。环境噪声可以是TWS耳机的前方干扰噪声、后方干扰噪声、左侧干扰噪声、右侧干扰噪声等多个方向的干扰噪声。第一电子设备可以对单个TWS耳机中的麦克风阵列采集的音频信号进行空域滤波，来抑制环境噪声，并增强近场区域的目标声音。但TWS耳机的尺寸有限。单个TWS耳机中麦克风阵列的近场区域非常小。用户嘴部发声位置已经是处于上述单个TWS耳机中的麦克风阵列的远场区域。那么，第一电子设备就难以区分上述单个TWS耳机中的麦克风阵列采集的音频信号中同方向上用户的语音和环境噪声。

图1B示例性示出了单个TWS耳机的麦克风阵列的空间分辨能力。由于单个TWS耳机的麦克风阵列中各麦克风的距离较近，麦克风阵列的尺寸不足，单个TWS耳机的麦克风阵列的空间分辨能力较弱。单个TWS耳机的麦克风阵列的近场目标源往往无法包括来自用户语音的声源。第一电子设备在进行空域滤波，增强近场目标源时难以有效增强用户语音。此外，单个TWS耳机的麦克风阵列的朝向容易受到用户佩带姿态的影响，而导致在进行空域滤波时波束主瓣方向偏离用户嘴部的方向。单个TWS耳机的麦克风阵列的拾音能力进一步被削弱。而且，单个TWS耳机的麦克风阵列受限于尺寸的约束，确定出的声源的空间谱谱峰较宽。目标源信号极容易被环境噪声信号遮蔽。单个TWS耳机中的麦克风阵列难以准确地区分目标源和环境噪声。在对单个TWS耳机中的麦克风阵列采集的音频信号进行空域滤波时，第一电子设备抑制环境噪声并增强用户语音的效果较差。第一电子设备录制得到的视频中环境噪声较大，用户语音不够清楚。

本申请提供一种声音采集方法。该方法可以在TWS耳机与第一电子设备100(如手机、平板等)建立有通信连接，第一电子设备100录制视频时，增强目标声音，并抑制环境噪声，提高录制得到的视频中的音质。具体的，如图2A所示，第一电子设备100的麦克风和双耳TWS耳机的麦克风可以组成第一麦克风阵列。上述目标声音为声源在第一麦克风阵列的近场区域的声音。上述目标声音可以例如是用户的语音、用户弹奏乐器的声音。第一麦克风阵列的尺寸较大。第一麦克风阵列的近场区域可以包括用户以及第一电子设备100的位置所构成的区域。上述环境噪声主要为声源在第一麦克风阵列的远场区域的声音。

图2B示例性示出了第一麦克风阵列的空间分辨能力。联合有第一电子设备100的麦克风的第一麦克风阵列所构成的近场区域比单个TWS耳机的麦克风阵列的近场区域更大，且受用户佩带姿态的影响较小。第一麦克风阵列的空间分辨能力更强。第一麦克风阵列可以更准确地分辨出在第一电子设备视频录制过程中各声源与第一麦克风阵列的方向与距离。来自于远场区域任意方向的环境噪声的空间能量谱到达近场区域时会有明显的衰减，第一电子设备100可以更好地区分环境噪声和目标声音。第一电子设备可以对第一麦克风阵列采集得到的音频信号进行空域滤波，根据目标声音和环境噪声的方向和距离来抑制环境噪声并增强目标声音。这减少了环境噪声对第一电子设备录制视频的影响，提高了录制得到的视频中的音质。

图2B所示的空间分辨能力示意图仅仅用于解释本申请，不应对第一麦克风阵列的空间分辨能力构成限定。

在一些实施例中，组成上述第一麦克风阵列的第一电子设备100的麦克风可以是一个或多个。组成上述第一麦克风阵列的左耳以及右耳TWS耳机的麦克风也可以是一个或多个。也即是说，第一麦克风阵列中至少包含三个麦克风。这三个麦克风分别来自于第一电子设备100、左耳TWS耳机201、右耳TWS耳机202。

另外，不限于TWS耳机，还可以是其他类型的耳机，例如头戴式耳机等。当耳机与第一电子设备100建立通信连接，且第一电子设备录制视频时，第一电子设备100的麦克风和耳机的麦克风可以组成上述第一麦克风阵列，来采集声音。

上述第一电子设备100可以是手机、平板电脑、笔记本电脑、电视、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant，PDA)等具有摄像头的电子设备。本申请实施例对第一电子设备100的具体类型不作限定。

本申请后续实施例中具体以第一电子设备100中的一个麦克风，左耳TWS耳机201中的一个麦克风、右耳TWS耳机202中的一个麦克风组成的麦克风阵列为例介绍本申请提供的声音采集方法。

下面介绍本申请实施例提及的麦克风阵列的近场区域和远场区域。

根据声源与麦克风阵列距离的远近，声场模型可以分为近场模型和远场模型这两种模型。麦克风阵列的近场区域中声场模型为近场模型。在近场模型中，麦克风阵列响应不仅和入射声源的方向有关，还与入射声源的距离有关。声波是球面波。麦克风阵列的远场区域中声场模型为远场模型。在远场模型中，麦克风阵列响应仅与入射声源的方向有关，与入射声源的距离无关。声波是平面波。

麦克风阵列的近场区域的大小与麦克风阵列的尺寸成正相关。近场区域和远场区域没有绝对的划分标准。在一些实施例中，与麦克风阵列中心参考点的距离大于声音信号波长的区域为麦克风阵列的远场区域。反之，则为麦克风阵列的近场区域。本申请实施例对麦克风阵列的近场区域和远场区域的划分方式不作限定。

在本申请实施例中，第一麦克风阵列尺寸较大，可以更好地将需要增强的声音(如用户的语音)的声源所处的位置包含在第一麦克风阵列的近场区域。第一电子设备在对第一麦克风阵列采集的音频信号进行空域滤波时，可以更好地通过方向和距离的差异来区分目标声音的声源和环境噪声的声源。上述目标声音的声源可以是位于第一麦克风阵列的近场区域的声源。上述环境噪声的声源可以是位于第一麦克风阵列的远场区域的声源。

本申请的声音采集方法可适用于第一电子设备100与TWS耳机连接，并开启前置摄像头直播、拍摄vlog等视频录制的场景。那么上述目标声音可以包括用户的语音、用户弹奏乐器的声音。

下面介绍本申请实施例中一种声音采集的场景。

在一些实施例中，第一电子设备100可以检测到开启声源增强功能的用户操作。在直播、拍摄vlog等视频录制的场景中，第一电子设备100可以利用自己的麦克风与左耳TWS耳机201的麦克风、右耳TWS耳机202的麦克风组成第一麦克风阵列，来采集声音。第一电子设备100可以根据第一麦克风阵列采集得到的音频对来自用户的目标声音进行增强，并抑制其中的环境噪声，从而提高录制得到的视频中的音质。

图3A～图3G示例性示出了本申请实施例提供的一种声音采集的场景示意图。

如图3A所示，左耳TWS耳机201和右耳TWS耳机202均与第一电子设备100建立有蓝牙连接。在TWS耳机与第一电子设备100建立有蓝牙连接的情况下，第一电子设备100可以将要播放的音频通过蓝牙发送给TWS耳机。TWS耳机的音频输出装置，例如扬声器，可以播放接收到的音频。TWS耳机可以将通过音频输入装置(如麦克风)采集到的音频通过蓝牙发送给第一电子设备100。

第一电子设备100可以配置有摄像头193。其中，摄像头193可包括前置摄像头和后置摄像头。第一电子设备100的前置摄像头可如图3A所示。本申请实施例对第一电子设备100的摄像头193的数量不作限定。

第一电子设备100可以显示如图3A所示的用户界面310。用户界面310可以包括相机应用程序图标311。响应于作用在相机应用程序图标311的用户操作，第一电子设备100可以开启相机应用程序。示例性的，第一电子设备100可以开启前置摄像头，并显示如图3B所示的用户界面320。

响应于作用在相机应用程序图标311的用户操作，第一电子设备100还可以开启后置摄像头，或者开启前置摄像头和后置摄像头。本申请实施例对此不作限定。

用户界面310还可以包含更多的内容，本申请实施例对此不作限定。

如图3B所示，用户界面320可以包括闪光灯控件321、设置控件322、预览框323、相机模式选项324、图库快捷键325、录像开启控件326、摄像头翻转控件327。其中：

闪光灯控件321可用于开启或关闭闪光灯。

设置控件322可用于调整视频录制的参数(如分辨率等)以及开启或关闭一些用于录像的方式(如静音拍摄等)等。

预览框323可用于显示摄像头193实时采集的图像。第一电子设备100可以实时刷新其中的显示内容，以便于用户预览摄像头193当前采集的图像。

相机模式选项324中可以显示有一个或多个拍摄模式选项。这一个或多个拍摄模式选项可以包括：人像模式选项、拍照模式选项、录像模式选项、专业模式选项、更多选项。这一个或多个拍摄模式选项在界面上可以表现为文字信息，例如“人像”、“拍照”、“录像”、“专业”、“更多”。不限于此，这一个或多个摄像选项在界面上还可以表现为图标或者其他形式的交互元素(interactive element，IE)。当检测到作用于拍摄模式选项上的用户操作，第一电子设备100可以开启用户选择的拍摄模式。特别的，当检测到作用于更多选项的用户操作，第一电子设备100可以进一步显示更多的其他拍摄模式选项，如慢动作拍摄模式选项等等，可以向用户展示更丰富的摄像功能。不限于图3B所示，相机模式选项中可以不显示更多选项，用户可以通过在相机模式选项324中向左/右滑动来浏览其他拍摄模式选项。

图库快捷键325可用于开启图库应用程序。响应于作用在图库快捷键325上的用户操作，例如点击操作，第一电子设备100可以开启图库应用程序。这样，用户可以便捷地查看拍摄的照片和视频，而无需先退出相机应用程序，再开启图库应用程序。图库应用程序是智能手机、平板电脑等电子设备上的一款图片管理的应用程序，又可以称为“相册”，本实施例对该应用程序的名称不做限制。图库应用程序可以支持用户对存储于第一电子设备100上的图片进行各种操作，例如浏览、编辑、删除、选择等操作。

录像开启控件326可用于监听触发开始录像的用户操作。示例性的，如图3B所示，录像模式选项处于选中状态。响应于作用在录像开启控件326的用户操作，第一电子设备100可以开始录像。第一电子设备100可以将从开始录像到结束录像这一时间段内摄像头193采集的图像按采集时间的先后顺序保存为视频。其中，该视频中的音频可来自于第一电子设备100的音频输入装置(如麦克风)采集的音频和/或与第一电子设备100建立有蓝牙连接的TWS耳机的音频输入装置(如麦克风)采集的音频。

摄像头翻转控件327可用于监听触发翻转摄像头的用户操作。响应于作用在摄像头翻转控件327的用户操作，第一电子设备100可以翻转摄像头。例如，将后置摄像头切换为前置摄像头。此时，预览框323中可显示如图3B所示的前置摄像头采集的图像。

用户界面320还可以包含更多或更少的内容，本申请实施例对此不作限定。

响应于作用在设置控件322的用户操作，第一电子设备100可以显示如图3C所示的用户界面330。用户界面330可包括返回控件331、分辨率控件332、地理位置控件333、拍摄静音控件334和声源增强控件335。其中，声源增强控件335可用于用户开启或者关闭声源增强功能。当上述声源增强功能开启，第一电子设备100在录制视频时将会开启本设备的麦克风。

如图3C所示，声源增强功能处于关闭状态。响应于作用在声源增强功能的用户操作，第一电子设备100可以显示如图3D所示的用户界面330。用户界面330中可包括提示框336。提示框336中可包括文本提示语“录制视频时本设备的麦克风将开启”。该提示框336可用于提示用户在声源增强功能开启时，第一电子设备100在录制视频的过程中将会开启本设备的麦克风。提示框336中还可包含确定控件336A。响应于作用在确定控件336A的用户操作，第一电子设备100可以显示如图3E所示的用户界面330。此时，声源增强功能处于开启状态。

可以理解的，若第一电子设备100没有与TWS耳机连接，上述声源增强功能失效。也即是说，用户不能使用上述声源增强功能来提升录制得到的视频中的音质。

响应于作用在图3E所示的返回控件331的用户操作，第一电子设备100可以显示如图3F所示的用户界面320。响应于作用在录像开启控件326的用户操作，第一电子设备100可以开始录像。

如图3G所示，左耳TWS耳机201和右耳TWS耳机202均与第一电子设备100连接。用户佩带左耳TWS耳机201和右耳TWS耳机202，并利用第一电子设备100的前置摄像头进行视频录制。该视频中的音频信号来自于第一电子设备100的麦克风采集的第一音频信号、左耳TWS耳机201的麦克风采集的第二音频信号、右耳TWS耳机202的麦克风采集的第三音频信号。第一电子设备100可以对上述第一音频信号、上述第二音频信号、上述第三音频信号进行处理，增强其中的目标声音，并抑制其中的环境噪声，从而提高录制得到的视频中的音质。

在一些实施例中，当TWS耳机与第一电子设备100建立有连接，第一电子设备100在检测到开始录像的用户操作时，可以直接开启麦克风采集声音。也即是说，用户在佩带TWS耳机，使用第一电子设备100录制视频时，可以不用手动开启上述声源增强功能。第一电子设备100可以在用户佩带TWS耳机，使用第一电子设备100录制视频时，自动实现上述声源增强功能，提供录制得到的视频中的音质。

需要进行说明的是，在第一电子设备100对上述第一音频信号、上述第二音频信号、上述第三音频信号进行处理的过程中，由于第二音频信号、第三音频信号传输至第一电子设备100需要一定的时间，第一音频信号、第二音频信号、第三音频信号之间存在不同时间长度的时间延迟。第一电子设备100可以对第一音频信号、第二音频信号、第三音频信号进行时延对齐，得到联合麦克风阵列信号。

另外，为了增强上述联合麦克风阵列信号中的目标声音，并抑制其中的环境噪声，第一电子设备可以对上述联合麦克风阵列信号进行空域滤波。上述空域滤波需要第一电子设备100的麦克风、左耳TWS耳机201的麦克风、右耳TWS耳机202的麦克风所组成的第一麦克风阵列的位置信息。由于左耳TWS耳机201和右耳TWS耳机202分别佩带于用户的左耳和右耳上，第一电子设备100可以利用前置摄像头采集的人脸图像以及自己的姿态信息确定上述第一麦克风阵列中各麦克风的位置信息。

上述第一电子设备进行时延对齐、确定第一麦克风阵列中各麦克风的位置信息以及对联合麦克风阵列信号进行空域滤波的实现方法将在后续实施例中具体介绍。

本申请实施例对上面提及的以及后续实施例中的各用户操作均不作限定。例如，用户可以通过触摸显示屏上控件所在的位置，来指示第一电子设备100执行该控件对应的指令(如开启声源增强的功能、开始录像等)。

下面结合前述实施例中声音采集的场景，介绍本申请实施例提供的一种进行声音采集的第一麦克风阵列及声音采集系统。

如图4所示，声音采集系统可包括第一电子设备100、左耳TWS耳机201、右耳TWS耳机202。第一麦克风阵列可包括第一麦克风211、第二麦克风230、第三麦克风220。其中，第一麦克风211为第一电子设备100的麦克风。第二麦克风230为左耳TWS耳机201的麦克风。第三麦克风220为右耳TWS耳机202的麦克风。

第一电子设备100中还可包含扬声器210、摄像头213、姿态传感器214、数模转换器(digital toanalog converter，DAC)215A、模数转换器(analog to digital converter，ADC)215B、ADC215C、数字信号处理器(digital signal processor，DSP)216。其中：

扬声器210可用于将音频电信号转换为声音信号。第一电子设备100可以通过扬声器210播放声音。

摄像头213可以为前述实施例中摄像头193中的前置摄像头。摄像头213可用于捕获静态图像或视频。

姿态传感器214可用于测量第一电子设备100的姿态信息。姿态传感器214可包括陀螺仪传感器、加速度传感器。

DAC215A可用于将数字音频信号转换为模拟音频信号。

ADC215B可用于将模拟音频信号转化为数字音频信号。

ADC215C可用于将模拟图像信号转换为数字图像信号。

DSP216可用于处理数字信号。例如数字图像信号、数字音频信号。DSP216中可包括信号发生器216A、时延对齐模块216B、坐标解算模块216C、空域滤波模块216D。其中：

信号发生器216A可用于生成对齐信号。该对齐信号为数字音频信号。由于人耳可以听到的音频信号的频段一般在20赫兹(Hz)～20000Hz，上述对齐信号可以是频率在20000Hz以上频段范围内的音频信号。这样，对齐信号可以规避人耳可闻频段，避免对用户产生干扰。该对齐信号可用于第一电子设备100对上述第一麦克风阵列中各麦克风采集的音频信号进行时延对齐。其中，当第一电子设备100检测到开始录像的用户操作，信号发生器216A可以生成对齐信号，并将对齐信号发送给上述DAC215A。

本申请实施例对上述对齐信号的频率不作限定，对齐信号也可以是频率为20000Hz或者20000Hz以下频段范围内的音频信号。

DAC215A可以将该对齐信号转换为模拟信号，并发送给扬声器210。然后，扬声器210可以发出对齐声音。该对齐声音为上述对齐信号对应的声音。第一麦克风211、第二麦克风230、第三麦克风220均可以收听到上述对齐声音。

另外，信号发生器216A还可以将该对齐信号发送给时延对齐模216B。

时延对齐模块216B可以利用上述对齐信号对第一麦克风211采集的第一音频信号、第二麦克风230采集的第二音频信号、第三麦克风220采集的第三音频信号进行时延对齐，得到联合麦克风阵列信号。上述联合麦克风阵列信号为矩阵。该矩阵的第一行、第二行和第三行可以分别为经过时延对齐处理的第一音频信号、第二音频信号和第三音频信号。

坐标解算模块216C可用于确定第一麦克风阵列中各麦克风在世界坐标系中的坐标。第一麦克风阵列中的各麦克风位于不同的电子设备中。第一麦克风阵列中各麦克风的位置根据佩带有TWS耳机的用户相对于第一电子设备100的距离和姿态的不同而不同。

坐标解算模块216C可以通过前置摄像头(即摄像头213)采集的人脸图像以及第一电子设备100的姿态信息来解算第一麦克风阵列中各麦克风在世界坐标系中的坐标。其中，摄像头213可以将采集的图像发送给上述ADC215C。ADC215C可以将该图像转换为数字信号，得到图4所示的图像信号。ADC215C可以将该图像信号发送给坐标解算模块216C。另外，姿态传感器214C可以将采集得到的第一电子设备100的姿态信息发送给坐标解算模块216C。根据上述图像信号和上述第一电子设备100的姿态信息，坐标解算模块216C可以得到第一麦克风阵列的坐标信息。该第一麦克风阵列的坐标信息包含第一麦克风阵列中各麦克风在世界坐标系中的坐标。

空域滤波模块216D可用于对上述联合麦克风阵列信号进行空域滤波。基于上述第一麦克风阵列的坐标信息，空域滤波模块216D可以对上述联合麦克风阵列信号中来自用户的目标声音进行增强，并对环境噪声进行抑制。空域滤波模块216D可以输出结果音频信号。该结果音频信号即为经过空域滤波的联合麦克风阵列信号。

在一种可能的实现方式中，空域滤波模块216D可以对经过时延处理的第一音频信号、第二音频信号、第三音频信号一起进行空域滤波。具体的，空域滤波模块216D可以以联合麦克风阵列中同一列的多行数据作为一组数据，并对各组数据进行空域滤波。进一步的，空域滤模块可以输出经过空域滤波的信号。该信号即为上述结果音频信号。

在另一种可能的实现方式中，空域滤波器216D可以对经过时延对齐处理的第一音频信号、第二音频信号和第三音频信号分别进行空域滤波。具体的，空域滤波器216D可以对联合麦克风阵列中的第一行(即经过时延对齐处理的第一音频信号)进行空域滤波，得到第一路音频。空域滤波器216D可以对联合麦克风阵列中的第二行(即经过时延对齐处理的第二音频信号)进行空域滤波，得到第二路音频。空域滤波器216D可以对联合麦克风阵列中的第三行(即经过时延对齐处理的第三音频信号)进行空域滤波，得到第三路音频。第一电子设备100可以将上述第一路音频、第二路音频和第三路音频合为一路音频，得到上述结果音频信号。

第一电子设备100可以将上述结果音频信号与摄像头采集得到的视频混合后保存至本地或者上传至云端服务器。

左耳TWS耳机201中还可包含ADC231A。ADC231A可用于将模拟音频信号转换为数字音频信号。例如，第二麦克风230可以将收听到的声音(即模拟音频信号)发送给ADC231A。ADC231A可以将上述声音转换为第二音频信号(即数字音频信号)。上述第二麦克风230收听到的声音可包括对齐声音、来自用户的目标声音(如用户的语音、用户弹奏乐器的声音)、环境噪声等。该第二音频信号中可包括上述对齐信号、来自用户的目标声音信号以及环境噪声信号。左耳TWS耳机201可以通过蓝牙将上述第二音频信号发送给第一电子设备100。

右耳TWS耳机202中还可包含ADC221A。ADC221A可用于将模拟音频信号转换为数字音频信号。例如，第三麦克风220可以将收听到的声音(即模拟音频信号)发送给ADC221A。ADC221A可以将上述声音转换为第三音频信号(即数字音频信号)。上述第三麦克风220收听到的声音可包括对齐声音、来自用户的目标声音(如用户的语音、用户弹奏乐器的声音)、环境噪声等。该第三音频信号中可包括上述对齐信号、来自用户的目标声音信号以及环境噪声信号。右耳TWS耳机202可以通过蓝牙将上述第三音频信号发送给第一电子设备100。

由第一麦克风阵列中各麦克风所在的位置可知，该第一麦克风阵列所构成的近场区域包括佩带有TWS耳机的用户以及第一电子设备100的位置所在的区域。相较于仅由单个TWS耳机中的麦克风阵列，第一麦克风阵列的尺寸更大，空间分辨能力更强，可以更准确地分辨近场区域中来自用户的目标声音以及来自远场区域中的环境噪声。这样，第一电子设备100对第一麦克风阵列采集得到的音频信号进行空域滤波时，可以更好地增强目标声音并抑制环境噪声，提高录制得到的视频中的音质。

下面具体介绍本申请实施例提供的一种对音频信号进行时延对齐的方法。

第一麦克风阵列中的各麦克风分布在不同的电子设备上。第一电子设备100可以对第一麦克风阵列采集的音频信号进行处理，并将经过处理后的音频信号与摄像头采集得到的视频混合。TWS耳机中的麦克风采集的音频信号需要通过蓝牙发送给第一电子设备100。上述信号传输会引入数百毫秒量级的时延误差。并且，第一麦克风阵列中各麦克风开始进行声音采集的时间可能不一致，第一电子设备100和TWS耳机处理各自麦克风采集的音频信号的时间可能也不一致，上述因素均会导致第一电子设备100接收到的第一音频信号、第二音频信号和第三音频信号之间存在时延误差。

为了解决上述时延误差的问题，第一电子设备100可以生成对齐信号，并将该对齐信号转化为模拟音频音效后，由扬声器发出对齐声音。第一电子设备可以利用上述对齐信号确定各麦克风采集得到的音频信号之间的时延长度。

在一些实施例中，当检测到开始录像的用户操作，第一电子设备100可以发出对齐声音。第一麦克风、第二麦克风和第三麦克风可分别采集得到第一音频信号、第二音频信号和第三音频信号。第一音频信号、第二音频信号和第三音频信号均可包含对齐信号、来自用户的目标声音信号以及环境噪声信号。

如图5A所示，第一电子设备100的时延对齐模块216B可以接收到第一音频信号502、第二音频信号503、第三音频信号504以及来自信号发生器216A的对齐信号501。其中，对齐信号501中与T0时刻发出的对齐声音对应的数据、第一音频信号502中第一麦克风在T0时刻采集得到的数据、第二音频信号503中第二麦克风在T0时刻采集得到的数据、第三音频信号504中第三麦克风在T0时刻采集得到的数据均不对齐。

为了确定第一音频信号501、第二音频信号502和第三音频信号503中属于同一时刻被采集到的数据，时延对齐模块216B可以将第一音频信号502、第二音频信号503和第三音频信号504均与对齐信号501进行时延对齐。

具体的，时延对齐模块216B可以对第一音频信号501、第二音频信号502、第三音频信号503进行高通滤波，得到这些音频信号中的对齐信号。时延对齐模块216B可以对这些音频信号中的对齐信号以及对齐信号501进行时延相关性检测，得到这些对齐信号之间的时延长度。这些对齐信号之间的时延长度即为第一音频信号502、第二音频信号503、第三音频信号504与对齐信号501之间的时延长度。

其中，时延对齐模块216B的可以对第一音频信号501、第二音频信号502、第三音频信号503中的对齐信号进行不同时间长度的时延处理。然后，时延对齐模块216B可以比较上述经过时延处理的对齐信号与上述对齐信号501的相关性。

如图5B所示，时延对齐模块216B可以对第一音频信号502进行高通滤波，得到包含对齐信号的信号512。时延对齐模块216B可以比较对齐信号501与信号512中从不同时刻处开始的信号之间的相关性。对齐信号501可以例如是时间长度为1秒的音频信号。时延对齐模块216B可以确定出对齐信号501与信号512中从Δt1时刻处开始，时间长度为1秒的这部分信号的相关性最高。那么时延对齐模块可以确定出第一音频信号502与上述对齐信号501的时延长度为Δt1。

时延对齐模块216B可以对第二音频信号503进行高通滤波，得到包含对齐信号的信号513。时延对齐模块216B可以比较对齐信号501与信号513中从不同时刻处开始的信号之间的相关性。对齐信号501可以例如是时间长度为1秒的音频信号。时延对齐模块216B可以确定出对齐信号501与信号513中从Δt2时刻处开始，时间长度为1秒的这部分信号的相关性最高。那么时延对齐模块可以确定出第二音频信号503与上述对齐信号501的时延长度为Δt2。

时延对齐模块216B可以对第三音频信号504进行高通滤波，得到包含对齐信号的信号514。时延对齐模块216B可以比较对齐信号501与信号514中从不同时刻处开始的信号之间的相关性。对齐信号501可以例如是时间长度为1秒的音频信号。时延对齐模块216B可以确定出对齐信号501与信号514中从Δt3时刻处开始，时间长度为1秒的这部分信号的相关性最高。那么时延对齐模块可以确定出第三音频信号504与上述对齐信号501的时延长度为Δt3。

本申请实施例对上述对齐信号501的时间长度不作限定。上述对齐信号501可以是信号发生器216A生成的全部的对齐信号。可选的，上述对齐信号501可以是信号发生器216B生成的全部的对齐信号中的一部分。例如，信号发生器216B生成的对齐信号为周期信号。信号发生器216B可以生成多个周期的对齐信号。时延对齐模块216B可以利用一个周期的对齐信号对上述信号512、信号513和信号514进行时延相关性检测，以确定第一音频信号、第二音频信号和第三音频信号之间的时延长度。

上述时延相关性检测可以互相关时间估计法等相关性检测方法。本申请实施例对时延对齐模块216B进行时延相关性检测的方法不作限定。

当确定出上述时延长度，时延对齐模块216B可以利用接收到音频信号的时刻减去该音频信号对应的时延长度，确定出各音频信号中属于第一麦克风阵列中的各麦克风在相同时刻采集到的数据。时延对齐模块216B可以输出联合麦克风阵列信号。该联合麦克风阵列信号可包含多个音频信号。这多个音频信号是上述第一音频信号502、上述第二音频信号503、上述第三音频信号504中的对齐信号被滤除后的音频信号。该联合麦克风阵列信号包含的多个音频信号中，同一时刻对应的数据是第一麦克风阵列中各麦克风在相同时间采集得到的数据。这样，时延对齐模块216B可以消除由于信号传输导致的时延误差。

图5A和图5B的示例仅仅用于解释本申请，不应构成限定。

在一些实施例中，时延对齐模块216B还可以以第一音频信号502、第二音频信号503和第三音频信号504中任意一个音频信号为基准音频信号，将其他音频信号与该基准音频信号进行时延对齐。示例性的，时延对齐模块216B可以以第一音频信号502为基准音频信号。时延对齐模块216B可以对第一音频信号502、第二音频信号503和第三音频信号504进行高通滤波，得到这些音频信号中的对齐信号部分。时延对齐模块216B可以对第二音频信号503和第三音频信号504中的对齐信号部分进行不同时间长度的时延处理，来确定出在哪一个时延长度下第二音频信号503和第三音频信号504中的对齐信号部分与第一音频信号501中的对齐信号部分的相关性最高。这样，时延对齐模块216B可以确定出第二音频信号503和第三音频信号504相对于第一音频信号502的时延长度。

在一些实施例中，第一电子设备100可以在开始录像的预设时间段(如开始录像前的预设时间段或者开始录像后的预设时间段)生成上述对齐信号，并发出对齐声音。第一电子设备100可以根据上述预设时间段的对齐信号确定出第一音频信号、第二音频信号和第三音频信号之间的时延长度。上述时延长度在第一电子设备100录像的过程中一般不会变化或者变化极小。在上述预设时间段之后的录像过程中，第一电子设备100可以根据上述时延长度对第一音频信号、第二音频信号和第三音频信号进行时延对齐。并且，第一电子设备100可以停止生成上述对齐信号，以节省第一电子设备100的功耗。

下面具体介绍本申请实施例提供的一种确定第一麦克风阵列的坐标信息的方法。

第一电子设备100可以对上述联合麦克风阵列信号进行空域滤波，以增强来自用户的目标声音并抑制环境噪声。在上述空域滤波的过程中，第一电子设备100需要通过确定第一麦克风阵列的坐标信息，来确定目标声音信号的方向与环境噪声的方向。

第一麦克风阵列中的各麦克风分别分布在TWS耳机和第一电子设备100中。上述TWS耳机通常佩带在用户的左耳和右耳上。第一电子设备100可以利用前置摄像头采集的人脸图像以及自己的姿态信息确定上述第一麦克风阵列的坐标信息。

1、第一电子设备100可以确定第一麦克风阵列中各麦克风在第一电子设备坐标系中的坐标。

第一电子设备100可以先根据人脸图像确定三维(3dimensions，3D)人头坐标系与第一电子设备坐标系之间的转换关系。然后，第一电子设备100可以通过将用户左耳和右耳外耳廓在3D人头坐标系中的坐标转换为在第一电子设备坐标系中的坐标，来确定第一麦克风阵列中TWS耳机的麦克风在第一电子设备坐标系中的坐标。

上述3D人头坐标系可以是根据标准人头模型确定的。人脸上各关键点在3D人头坐标系均可对应有一个确定的坐标。如图6A所示，3D人头坐标系x_h-y_h-z_h可以是以标准人头的鼻尖所在的位置为原点、以垂直于人脸的方向为x轴所在的方向、以平行于人脸的水平方向为y轴所在的方向、以平行于人脸的竖直方向为z轴所在的方向建立的三维坐标系。第一电子设备100中可存储有3D人头坐标系x_h-y_h-z_h的相关数据。本申请实施例对上述3D人头坐标系的建立方法不作限定。

第一电子设备100可以通过人脸图像的关键点在像素坐标系中的坐标与对应关键点在3D人头坐标系中的坐标之间的关系，确定外参矩阵。上述像素坐标系是二维坐标系，可用于反映图像中像素的排列情况。例如，像素坐标系可以是以图像的任一个像素为原点、以与像面的两边平行的方向为x轴和y轴所在的方向建立的二维坐标系。上述外参矩阵可用于描述3D人头坐标系x_h-y_h-z_h与第一电子设备坐标系x_d-y_d-z_d之间的变换关系。

具体的，第一电子设备100的前置摄像头采集的人脸图像上可包含有N个关键点。这N个关键点分别为p₁，p₂，…，p_i，…，p_N。i为小于或等于N的正整数。这N个关键点可以是人脸图像中人脸所在区域的任意N个关键点，例如额头区域所在区域的关键点、脸颊所在区域的关键点、嘴唇所在区域的关键点等。本申请实施例对上述关键点的数量不作限定。

第一电子设备100可以确定出这N个关键点在3D人头坐标系x_h-y_h-z_h中的坐标{h_i＝[x_i，y_i，z_i]^T，i＝1，2，…，N}。第一电子设备100可以通过关键点检测算法确定出这N个关键点在上述像素坐标系中的坐标{g_i＝[u_i，v_i]^T，i＝1，2，…，N}。上述关键点检测算法可以例如是利用训练好的神经网络模型确定关键点坐标的方法。本申请实施例对上述关键点检测算法不作限定。

上述N个关键点在像素坐标系中的坐标与在3D人头坐标系中的坐标可存在下式(1)中的关系：

g_i＝C*(R*h_i+T) (1)

其中，C为内参矩阵。该内参矩阵可用于描述像素坐标系与第一电子设备坐标系x_d-y_d-z_d之间的变换关系。内参矩阵仅与第一电子设备100的摄像头的参数相关。内参矩阵可以通过相机标定的方法得到。上述相机标定的具体实现方法可以参考现有技术中相机标定的方法，这里不作赘述。第一电子设备100中可存储有上述内参矩阵C。R为旋转矩阵。T为中心偏移向量。上述R和T共同组成外参矩阵[R|T]。

第一电子设备100可以根据上述N个关键点在像素坐标系中的坐标与在3D人头坐标系中的坐标，解算出上述外参矩阵。其中：

/>

如图6B所示，上述α，β，γ可以分别为3D人头坐标系x_h-y_h-z_h与第一电子设备坐标系x_d-y_d-z_d各坐标轴之间的偏转角。上述中心偏移量T中的x，y，z可以分别为3D人头坐标系的原点偏移至第一电子设备坐标系的原点时在第一电子设备坐标系中x_d轴、y_d轴、z_d轴上的偏移量。

第一电子设备100中可存储上述外参矩阵。

进一步的，第一电子设备100可以确定左耳和右耳外耳廓所在的关键点在上述3D人头坐标系中的坐标。其中，左耳外耳廓在上述3D人头坐标系中的坐标可以为h_L＝[x_L，y_L，z_L]^T。右耳外耳廓在上述3D人头坐标系中的坐标可以为h_R＝[x_R，y_R，z_R]^T。第一电子设备100可以以上述h_L和h_R分别作为左耳TWS耳机201的第二麦克风230和右耳TWS耳机202的第三麦克风220在上述3D人头坐标系中的坐标。

由于上述外参矩阵可用于描述3D人头坐标系与第一电子设备坐标系之间的变换关系，第一电子设备100可以将第二麦克风230和第三麦克风220在上述3D人头坐标系中的坐标转换为在第一电子设备坐标系中的坐标。其中，第二麦克风230在第一电子设备坐标系中的坐标可以为e₂＝h_L*[R|T]。第三麦克风220在第一电子设备坐标系中的坐标可以为e₃＝h_R*[R|T]。

另外，第一电子设备100中可存储有前述实施例中第一麦克风211在第一电子设备坐标系中的坐标e₁。

这样，第一电子设备100可以确定出第一麦克风阵列中各麦克风在第一电子设备坐标系中的坐标E＝{e₁，e₂，e₃}。

2、第一电子设备100可以确定第一电子设备坐标系与世界坐标系之间的变换关系，解算第一麦克风阵列中各麦克风在世界坐标系的坐标。

第一电子设备100的摆放姿态具有未知性和时变性。第一麦克风阵列需要采集的目标声音不仅包含用户的语音，还可包含用户弹奏乐器的声音。第一电子设备在空域滤波的过程中使用第一麦克风阵列中各麦克风在第一电子设备坐标系中的坐标会降低空域滤波的效果。为了更好地提高增强目标声音并降低环境噪声的效果，第一电子设备100可以将第一麦克风阵列中各麦克风在第一电子设备坐标系中的坐标转换为在世界坐标系中的坐标。

具体的，第一电子设备100可以通过姿态传感器214获取第一电子设备100的姿态信息。如图6C所示，该姿态信号可包括第一电子设备坐标系x_d-y_d-z_d与世界坐标系x_w-y_w-z_w各坐标轴之间的偏转角α’，β’，γ’。第一电子设备100可以利用上述姿态信息确定第一麦克风阵列中各麦克风在世界坐标系中的坐标E’＝{e₁’，e₂’，e₃’}。其中，E’与E可以具有下式(4)所示的关系：

在一些实施例中，上述确定第一麦克风阵列的坐标信息的过程可以由图4所示的坐标解算模块216C完成。

下面具体介绍本申请实施例提供的一种空域滤波的方法。

当得到了上述联合麦克风阵列信号和第一麦克风阵列的坐标信息，第一电子设备100可以对联合麦克风阵列信号进行空域滤波。其中，第一电子设备100可以先对上述联合麦克风阵列信号进行语音活动检测。语音活动检测可用于区分联合麦克风阵列信号中频点在目标声音上的信号以及频点在环境噪声上的信号。进一步的，根据上述频点在环境噪声上的信号，第一电子设备100可以更新噪声空间特性。根据上述频点在目标声音上的信号，第一电子设备100可以估计目标导向矢量。上述噪声空间特性和目标导向矢量均为用于确定空域滤波器的参数。噪声空间特性更新可用于减少目标声音对空域滤波器抑制环境噪声的影响。目标导向矢量估计可用于减少与目标声音在同一频点上的环境噪声对空域滤波器抑制环境噪声的影响，提高空域滤波的效果。

下面对上述语音活动检测、噪声空间特性更新、目标导向矢量估计以及空域滤波器确定的方法进行介绍。

1、语音活动检测(voice activity detection，VAD)

在一些实施例中，第一麦克风阵列在近场区域采集到的声音主要包括用户的语音以及用户弹奏乐器的声音。即上述联合麦克风阵列信号中需要增强的目标声音信号主要包括语音信号以及乐器的声音信号。根据语音信号以及乐器的声音信号的特性与环境噪声信号的特性之间的区别，第一电子设备100可以利用神经网络模型对联合麦克风阵列信号进行语音活动检测，以区分联合麦克风阵列信号中频点在目标声音上的目标声音信号和频点在环境噪声上的环境噪声信号。

上述用于进行语音活动检测的神经网络模型可以利用语音信号以及乐器的声音信号进行训练得到。训练好的神经网络模型可用于区分联合麦克风阵列信号中的目标声音信号和环境噪声信号。例如，将频点在语音或乐器声音上的语音信号或乐器的声音信号输入训练好的神经网络模型，该训练好的神经网络模型可以输出标签1。上述标签1可以表示训练好的神经网络模型接收的输入为频点在目标声音上的目标声音信号。将频点在环境噪声上环境噪声信号输入训练好的神经网络模型，该训练好的神经网络模型可以输出标签0。上述标签1可以表示训练好的神经网络模型接收的输入不为目标声音信号(例如是环境噪声信号)。

第一电子设备100可以存储上述训练好的神经网络模型。

本申请实施例对上述训练神经网络模型的方法不作限定。神经网络模型的训练方法可以参考现有技术中的具体实现方法，这里不作赘述。上述神经网络模型可以是卷积神经网络模型、深度神经网络模型等。本申请实施例对神经网络模型的类型不作限定。

在一些实施例中，第一电子设备100可以将上述联合麦克风阵列信号以及第一麦克风阵列的坐标信息作为上述训练好的神经网络模型的输入。这样，训练好的神经网络模型可以适应第一麦克风阵列的坐标信息变化对语音活动检测的影响。在第一麦克风阵列具有不同的结构的情况下，训练好的神经网络模型均可较好地区分联合麦克风阵列信号中的目标声音信号和环境噪声信号。

2、噪声空间特性更新

第一电子设备100可以利用上述语音活动检测的检测结果来更新联合麦克风阵列信号中各个频点上的噪声空间特性，以减少目标声音信号对环境噪声的噪声空间特性的干扰。

在一种可能的实现方式中，噪声空间特性可以通过噪声协方差矩阵表示。第一电子设备100可以根据语音活动检测的检测结果对噪声协方差矩阵进行更新。具体的，联合麦克风阵列信号在时刻t、频点f的短时傅里叶变换(short time fourier transform,STFT)为X_t(f)。时刻t的上一个时刻的噪声协方差矩阵为R_t-1(f)。第一电子设备100对联合麦克风阵列信号进行语音活动检测。其中，联合麦克风阵列信号在频点f的检测结果为vad(f)。第一电子设备100可以根据下式(5)对时刻t的噪声协方差矩阵进行更新：

其中，R_t(f)为时刻t的噪声协方差矩阵。fac为平滑因子。fac大于或等于0且小于或等于1。fac的取值可以根据经验预设。本申请实施例对fac的具体取值不作限定。X_t ^H(f)为X_t(f)的共轭转置。vad(f)＝1可以表示用于进行语音活动检测的神经网络模型的输出标签为1。即联合麦克风阵列信号在频点f的信号为目标声音信号。vad(f)＝0可以表示用于进行语音活动检测的神经网络模型的输出标签为0。即联合麦克风阵列信号在频点f的信号为环境噪声信号。

由上述更新噪声空间特性的方法可知，第一电子设备100可以根据频点f的联合麦克风阵列信号是目标声音信号还是环境噪声信号对噪声控件特性进行平滑更新。这可以减少环境噪声出现突变以及目标声音对空域滤波器抑制环境噪声的影响。

不限于上述更新噪声空间特性的方法，第一电子设备100还可以采用其它方法来更新上述噪声空间特性。

3、目标导向矢量估计

第一电子设备100可以根据第一麦克风阵列的坐标信息以及声传播模型来估计目标导向矢量。该目标导向矢量可用于表示目标声音信号的方向。在一种可能的实现方式中，该目标导向矢量可以通过目标声音信号到达第一麦克风阵列中各麦克风的不同延迟时间确定。上述目标导向矢量估计的方法具体可以参考现有空域滤波技术中估计目标导向矢量的方法，这里不作赘述。

在一些实施例中，第一电子设备100可以进一步利用子空间投影方法来提升上述目标导向矢量的精度。提升目标导向矢量的精度有利于第一电子设备100更准确地区分目标声音信号的方向和环境噪声信号的方向。

上述目标导向矢量估计可用于减少与目标声音在同一频点上的环境噪声对空域滤波器抑制环境噪声的影响，提高空域滤波的效果。

4、空域滤波器确定

空域滤波可用于对多路麦克风信号(即联合麦克风阵列信号)进行处理，抑制非目标方向的信号(即环境噪声信号)并增强目标方向的信号(即目标声音信号)。第一电子设备100可以利用最小方差无失真响应(minimum variance distortionless response,MVDR)波束形成算法、线性约束最小方差(linearly constrained minimum variance,LCMV)波束形成算法、广义旁瓣相消器(generalized sidelobe canceller，GSC)等方法来确定空域滤波器。本申请实施例对确定空域滤波器的具体方法不作限定。

示例性的，第一电子设备100可以利用MVDR波束形成算法来确定控件滤波器。该方法的原理是在期望信号无失真的约束条件下，选择合适的滤波器参数，使得联合麦克风阵列信号输出的平均功率最小化。第一电子设备100可以利用上述噪声空间特性和目标导向矢量来确定最优空域滤波器。该最优空域滤波器可以在目标导向矢量无失真通过的约束条件下，使得环境噪声信号的影响最小。空域滤波器可以根据下式(6)进行设计：

其中，w(f)为空域滤波器的最优滤波权重系数。R_t(f)和a_t(f)分别为时刻t，频点f的噪声协方差矩阵和目标导向矢量。

当得到上述最优空域滤波器，第一电子设备100可以将联合麦克风阵列信号输入最优空域滤波器，进行空域滤波。经过空域滤波器，第一电子设备100可以得到结果音频信号。该结果音频信号是对联合麦克风阵列信号中的目标声音信号进行增强、环境噪声进行抑制后得到的音频信号。

在一些实施例中，上述进行空域滤波的过程可以由图4所示的空域滤波模块216D完成。

下面介绍本申请实施例提供的一种开启第一麦克风阵列的方法。

第一麦克风阵列可包括第一电子设备100中的第一麦克风、左耳TWS耳机201中的第二麦克风以及右耳TWS耳机202中的第三麦克风。第一麦克风阵列在进行声音采集之前，左耳TWS耳机201和右耳TWS耳机202均与第一电子设备100建立有蓝牙连接。不限于通过蓝牙的方式进行连接，TWS耳机与第一电子设备100还可以通过其他的通信方式建立通信连接。

图7A示例性示出了一种开启第一麦克风阵列的方法流程图。如图7A所示，该方法可包括步骤S101～S110。其中：

S101、第一电子设备100接收到开启录像的用户操作。

用户可以利用第一电子设备100在直播、拍摄vlog等使用前置摄像头录制视频的场景下进行录像。第一电子设备100可以接收到开始录像的用户操作。上述开始录像的用户操作可以例如是前述图3F所示作用在录像开启控件326的用户操作。

其中，在接收到上述开始录像的用户操作之前，第一电子设备100的前置摄像头处于开启状态。第一电子设备100可以在前述图3F所示的预览框323中显示前置摄像头实时采集的图像。

S102、左耳TWS耳机201进行佩带检测。

S103、右耳TWS耳机202进行佩带检测。

在一些实施例中，左耳TWS耳机201和右耳TWS耳机202中均可包含佩带检测模块。该佩带检测模块可用于检测用户是否佩带了TWS耳机。

其中，上述佩带检测模块中可包含温度传感器。TWS耳机可通过该接近光传感器获取TWS耳机听筒表面的温度。当检测到TWS耳机听筒表面的温度超过预设值，TWS耳机可以确定用户佩带了该TWS耳机。这样，TWS耳机可以通过温度传感器实现佩带检测。当检测到用户佩带了TWS耳机，TWS耳机可以唤醒主处理器，以实现播放音乐、采集声音等功能。当检测到用户未佩带TWS耳机，TWS耳机可以控制主处理器以及扬声器、麦克风等组件处于休眠状态。这样可以节省TWS耳机的功耗。

不限于上述通过温度传感器进行佩带检测的方法，TWS耳机还可以通过接近光传感器、运动传感器、压力传感器等进行佩带检测。本申请实施例对TWS耳机进行佩带检测的方法不作限定。

S104、第一电子设备100确定用户已佩带右耳TWS耳机202。

S105、第一电子设备100确定用户已佩带左耳TWS耳机201。

当接收到上述步骤S101中开启录像的用户操作，第一电子设备100可以向左耳TWS耳机201和右耳TWS耳机202发送消息，以询问佩带检测结果。左耳TWS耳机201和右耳TWS耳机202可以将佩带检测结果发送给第一电子设备100。第一电子设备100可以根据接收到的佩带检测结果确定用户已佩带左耳TWS耳机201和右耳TWS耳机202。

本申请实施例对上述步骤S104和步骤S105的执行顺序不作限定。

S106、第一电子设备100开启第一麦克风。

当确定用户已佩带左耳TWS耳机201和右耳TWS耳机202，第一电子设备100可以开启第一麦克风，进行声音采集。

S107、第一电子设备100向右耳TWS耳机202发送开启麦克风的指令。

S108、第一电子设备100向左耳TWS耳机201发送开启麦克风的指令。

当确定用户已佩带左耳TWS耳机201，第一电子设备100还可以向左耳TWS耳机201发送开启麦克风的指令。

当确定用户已佩带右耳TWS耳机202，第一电子设备100还可以向右耳TWS耳机202发送开启麦克风的指令。

本申请实施例对上述步骤S106、步骤S107和步骤S108的执行顺序不作限定。

S109、左耳TWS耳机201开启第二麦克风。

当佩带检测结果指示用户已佩带左耳TWS耳机201，且接收到来自第一电子设备100开启麦克风的指令，左耳TWS耳机201可以开启第二麦克风。

S110、右耳TWS耳机202开启第三麦克风。

当佩带检测结果指示用户已佩带右耳TWS耳机202，且接收到来自第一电子设备100开启麦克风的指令，右耳TWS耳机202可以开启第三麦克风。

也即是说，用户在佩带左耳TWS耳机201和右耳TWS耳机202，利用第一电子设备100进行录像时，用于进行声音采集的麦克风可包括第一麦克风、第二麦克风、第三麦克风。即第一麦克风开启。不限于上述录像的场景，第一麦克风开启的场景还可以是用户在佩带左耳TWS耳机201和右耳TWS耳机202，利用第一电子设备100进行视频通话等场景。

在一些实施例中，左耳TWS耳机201可以在进行佩带检测并确定左耳TWS耳机201处于入耳状态时，开启第二麦克风。右耳TWS耳机202可以在进行佩带检测并确定右耳TWS耳机202处于入耳状态时，开启第三麦克风。即第一电子设备100可以不用向左耳TWS耳机201和右耳TWS耳机202发送开启麦克风的指令。

基于图7A所示的开启第一麦克风阵列的方法，下面介绍本申请实施例提供的一种声音采集的方法。

图7B示例性示出了一种声音采集的方法流程图。如图7B所示，该方法可包括步骤S201～S210。其中，步骤S201～S207为第一麦克风阵列进行声音采集的过程。步骤S208～S210为第一电子设备100对第一麦克风阵列采集得到的音频信号进行处理的过程。

1、(S201～S207)第一麦克风阵列进行声音采集。

S201、第一电子设备100接收到开始录像的用户操作。

上述开始录用的用户操作可以参考对图7A中步骤S101的介绍，这里不再赘述。

S202、第一电子设备100发出对齐声音。

上述对齐信号可以参考前述实施例的介绍，这里不再赘述。

S203、左耳TWS耳机201通过第二麦克风采集到第二音频信号，第二音频信号包含对齐信号、来自用户的目标声音信号、环境噪声信号。

S204、右耳TWS耳机202通过第三麦克风采集到第三音频信号，第三音频信号包含对齐信号、来自用户的目标声音信号、环境噪声信号。

S205、第一电子设备100通过第一麦克风采集到第一音频信号，第一音频信号包含对齐信号、来自用户的目标声音信号、环境噪声信号。

在上述第一电子设备100开启前置摄像头录像的过程中，第一电子设备100、左耳TWS耳机201和右耳TWS耳机202附近的声音可包括来自对齐声音、用户的语音、用户弹奏乐器的声音以及环境噪声。其中，第一麦克风阵列采集的目标声音包括上述用户的语音、用户弹奏乐器的声音。上述目标声音即为期望录制得到的视频中保留且录制得较为清楚的声音。上述环境噪声是不被期望录入的声音。

第一麦克风、第二麦克风、第三麦克风均可以采集到上述第一电子设备100、左耳TWS耳机201和右耳TWS耳机202附近的声音。第一麦克风、第二麦克风、第三麦克风可以对将自己采集到的声音交由处理音频的相关模块(如ADC)进行处理，并分别得到第一音频信号、第二音频信号、第三音频信号。

S206、左耳TWS耳机201可通过蓝牙将第二音频信号发送给第一电子设备100。

S207、右耳TWS耳机202可通过蓝牙将第三音频信号发送给第一电子设备100。

2、(S208～S210)第一电子设备100对第一麦克风阵列采集得到的音频信号进行处理。

S208、第一电子设备100对第一音频信号、第二音频信号、第三音频信号进行时延对齐，得到联合麦克风阵列信号。

S209、第一电子设备100结合前置摄像头采集的人脸图像和第一电子设备100的姿态信息，确定第一麦克风阵列的坐标信息。

S210、第一电子设备100根据第一麦克风阵列的坐标信息，利用空域滤波器对联合麦克风阵列信号进行空域滤波。

当得到经过空域滤波的结果音频信号，第一电子设备100可以将该结果音频信号与摄像头从开始录像到结束录像这一过程中捕获的视频进行混合。其中，第一电子设备100可以根据第一麦克风阵列中任意一个或多个麦克风开始进行声音采集的时间与第一电子设备100的摄像头开始进行图像采集的时间，来确定上述结果音频信号与视频的时延长度。根据该结果音频信号与视频的时延长度，第一电子设备100可以在混合结果音频信号与视频时保证结果音频信号与视频在时间上是对齐的。本申请实施例对第一电子设备100对结果音频信号与视频进行时延对齐处理的方法不作限定。

进一步的，第一电子设备100可以将混合后的音视频数据保存至本地或者上传云端服务器。

上述步骤S208～S210的实现方法可以参考前述实施例中的介绍，这里不再赘述。

需要进行说明的是，在一些实施例中，第一电子设备100可以利用开始录像后预设时间段内采集的人脸图像和第一电子设备100的姿态信息，确定第一麦克风阵列的坐标信息。第一电子设备100可以存储该第一麦克风阵列的坐标信息，并在对此次录像过程中的联合麦克风阵列信号进行空域滤波时，均使用上述第一麦克风阵列的坐标信息。也即是说，第一电子设备100可以不用在一次录像过程中反复测量第一麦克风阵列的坐标信息。这样可以节省第一电子设备100的功耗。并且，在一次录像过程中，佩带TWS耳机的用户与第一电子设备100之间的距离和方向一般不会有太大的变动。第一电子设备100以开始录像后预设时间段内确定的第一麦克风阵列的坐标信息作为这一次录像过程中第一麦克风阵列的坐标信息，对增强目标声音并抑制环境噪声的效果影响不大。

在另一些实施例中，第一电子设备100可以利用开始录像后预设时间段内采集的人脸图像和第一电子设备100的姿态信息，确定第一麦克风阵列的坐标信息。在这一次录像的后续阶段，第一电子设备100可以每隔固定的时间段对用户与第一电子设备100之间的距离和方向进行判断。若判断出用户与第一电子设备100之间的距离和方向的变化量超过预设变化量，第一电子设备100可以根据当前前置摄像头采集得到的人脸图像和第一电子设备100的姿态信息重新确定第一麦克风阵列的坐标信息。进一步的，第一电子设备100可以利用上述重新确定的第一麦克风阵列的坐标信息对联合麦克风阵列信号进行空域滤波。若判断出用户与第一电子设备100之间的距离和方向的变化量没有超过预设变化量，第一电子设备100可以继续利用当前存储的第一麦克风阵列的坐标信息对联合麦克风阵列信号进行空域滤波。上述方法不仅减少了第一电子设备100确定第一麦克风阵列的坐标信息的次数，节省了第一电子设备100的功耗，而且减少了录像过程中第一麦克风阵列的坐标信息变化对空域滤波的影响。

其中，第一电子设备100可以通过检测前置摄像头采集的图像中人脸框的大小和位置的变化来确定用户与第一电子设备100之间的距离和方向的变化量。可选的，第一电子设备100还可以通过接近光传感器、声波测距等方式来确定用户与第一电子设备100之间的距离和方向的变换量。本申请实施例对此不作限定。

由图7B所示的声音采集方法可知，第一电子设备100在与TWS耳机建立有通信连接的情况下录制视频时，仍可以开启自己的麦克风进行声音采集。第一电子设备100的麦克风与TWS耳机的麦克风可以组成第一麦克风阵列。该第一麦克风阵列所构成的近场区域包括佩带有TWS耳机的用户以及第一电子设备100所在的区域。相较于仅由TWS耳机的麦克风组成的麦克风阵列，第一麦克风阵列的尺寸更大，空间分辨能力更强，可以更准确地分辨近场区域中来自用户的目标声音以及来自远场区域中的环境噪声。这样，第一电子设备100对第一麦克风阵列采集得到的音频信号进行空域滤波时，可以更好地增强目标声音并抑制环境噪声，提高录制得到的视频中的音质。

本申请提供的声音采集方法特别可以适用于佩带有TWS耳机的用户使用第一电子设备100直播、拍摄vlog等进行视频录制的场景。不限于上述视频录制的场景，本申请提供的声音采集方法还可适用于视频通话等其他场景。

在一些实施例中，左耳TWS耳机201和右耳TWS耳机202中的一个耳机的麦克风可以与第一电子设备100的麦克风组成麦克风阵列。该麦克风阵列也可以适用本申请实施例提供的声音采集方法。示例性的，在用户佩带左耳TWS耳机201和右耳TWS耳机202，使用第一电子设备100直播的场景中，第一电子设备100的第一麦克风和左耳TWS耳机201的第二麦克风可以进行声音采集。第一电子设备100可以通过第一麦克风得到第一音频信号。左耳TWS耳机201可以通过第二麦克风得到第二音频信号。左耳TWS耳机201可以将该第二音频信号发送给第一电子设备100。第一电子设备100可以对第一音频信号和第二音频信号进行降噪处理，得到直播视频中的音频信号。

上述一个耳机的麦克风可以与第一电子设备100的麦克风组成麦克风阵列的近场区域仍然可以包含用户语音、用户弹奏乐器的声音等目标声音的声源所在的位置。并且，使用一个耳机的麦克风可以节省耳机的功耗。

在一些实施例中，第一电子设备100的摄像头采集的图像中包含多张人脸。即有多个用户共同使用第一电子设备100进行录像。这多个用户中有一个用户佩带有TWS耳机。该TWS耳机与第一电子设备100建立有通信连接。第一电子设备100的麦克风和该TWS耳机的麦克风组成的第一麦克风阵列的近场区域一般可以覆盖到这多个用户所在的区域。那么第一麦克风阵列的近场区域的声音可以包括这多个用户的语音以及这多个用户弹奏乐器的声音均。也即是说，第一电子设备100在对第一麦克风阵列采集得到的联合麦克风阵列信号进行空域滤波时，不仅可以增强佩带有TWS耳机的用户的语音以及该用户弹奏乐器的声音，还可以增强进行录像的其他用户的语音以及其他用户弹奏乐器的声音。这样可以提高多人共同录制得到的视频的音质。

图8示例性示出了一种第一电子设备100的结构示意图。

第一电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对第一电子设备100的具体限定。在本申请另一些实施例中，第一电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

充电管理模块140用于从充电器接收充电输入。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

第一电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。第一电子设备100中的每个天线可用于覆盖单个或多个通信频带。

移动通信模块150可以提供应用在第一电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在第一电子设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

第一电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。在一些实施例中，第一电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

第一电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，第一电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

在本申请中，前述图4所示的摄像头213即为图8中摄像头193中的前置摄像头。摄像头213采集的图像可以由ADC215C转换为数字图像信号并输出到DSP。上述ADC215C可以是集成在上述ISP的模数转换器。

DSP用于处理数字信号，例如数字图像信号、数字音频信号等数字信号。例如，当第一电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

在本申请的一些实施例中，DSP中可包括信号发生器、时延对齐模块、坐标解算模块和空域滤波模块。上述信号发生器、时延对齐模块、坐标解算模块和空域滤波模块的作用可以参考前述图4中的实施例介绍，这里不再赘述。

不限于集成在上述DSP中，上述信号发生器、时延对齐模块、坐标解算模块和空域滤波模块还可以单独或者共同集成在其他芯片处理器中。本申请实施例对此不作限定。

视频编解码器用于对数字视频压缩或解压缩。第一电子设备100可以支持一种或多种视频编解码器。这样，第一电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现第一电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，语音活动检测等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展第一电子设备100的存储能力。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行第一电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储第一电子设备100使用过程中所创建的数据(比如音频数据)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

第一电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信号转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。第一电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当第一电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。第一电子设备100可以设置至少一个麦克风170C。在另一些实施例中，第一电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，第一电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

其中，上述麦克风170C即为前述实施例中的第一麦克风211。

耳机接口170D用于连接有线耳机。

在本申请中，第一电子设备100的信号发生器可以生成对齐信号。该对齐信号为数字音频信号。信号发生器可以将该对齐信号发送给DAC215A。DAC215A可以将该对齐信号转换为模拟音频信号。其中，上述DAC215A可以集成在上述音频模块170中。

第一麦克风211采集的声音为模拟音频信号。第一麦克风211可以将采集的声音发送给ADC215B。ADC215B可以将该模拟音频信号转换为数字音频信号。其中，上述ADC215B可以集成在上述音频模块170中。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。

陀螺仪传感器180B可以用于确定第一电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定第一电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测第一电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消第一电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。

磁传感器180D包括霍尔传感器。第一电子设备100可以利用磁传感器180D检测翻盖皮套的开合。

加速度传感器180E可检测第一电子设备100在各个方向上(一般为三轴)加速度的大小。当第一电子设备100静止时可检测出重力的大小及方向。还可以用于识别第一电子设备100姿态，应用于横竖屏切换，计步器等应用。

上述陀螺仪传感器180B和上述加速度传感器180E即可以为前述实施例中的姿态传感器214。

距离传感器180F，用于测量距离。第一电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，第一电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。第一电子设备100通过发光二极管向外发射红外光。第一电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定第一电子设备100附近有物体。当检测到不充分的反射光时，第一电子设备100可以确定第一电子设备100附近没有物体。第一电子设备100可以利用接近光传感器180G检测用户手持第一电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。

环境光传感器180L用于感知环境光亮度。第一电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。

指纹传感器180H用于采集指纹。第一电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，第一电子设备100利用温度传感器180J检测的温度，执行温度处理策略。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。

骨传导传感器180M可以获取振动信号。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。

马达191可以产生振动提示。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和第一电子设备100的接触和分离。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种声音采集方法，其特征在于，所述方法应用于具有第一麦克风的第一电子设备、具有第二麦克风的左耳无线耳机、具有第三麦克风的右耳无线耳机，所述第一电子设备与所述左耳无线耳机、所述右耳无线耳机通过无线通信连接；

所述方法包括：

所述第一电子设备采集到人脸图像；

所述第一电子设备基于所述人脸图像和所述第一电子设备的姿态信息确定所述第一麦克风、所述第二麦克风、所述第三麦克风的相对位置；

所述第一电子设备通过所述第一麦克风得到第一音频信号；

所述左耳无线耳机通过所述第二麦克风得到第二音频信号，并将所述第二音频信号发送给所述第一电子设备；

所述右耳无线耳机通过所述第三麦克风得到第三音频信号，并将所述第三音频信号发送给所述第一电子设备；

所述第一电子设备基于所述相对位置，对所述第一音频信号、所述第二音频信号和所述第三音频信号进行降噪处理。

2.根据权利要求1所述的方法，其特征在于，所述第一电子设备基于所述相对位置，对所述第一音频信号、所述第二音频信号和所述第三音频信号进行降噪处理之前，所述方法还包括：

所述第一电子设备发出对齐声音，所述对齐声音由对齐信号经过数模转换得到；

所述第一电子设备对所述第一音频信号中的第一对齐信号部分、所述第二音频信号中的第二对齐信号部分和所述第三音频信号中的第三对齐信号部分进行时延相关性检测，确定所述第一音频信号、所述第二音频信号和所述第三音频信号之间的时延长度；

所述第一电子设备基于所述时延长度，对所述第一音频信号、所述第二音频信号、所述第三音频信号进行时延对齐。

3.根据权利要求2所述的方法，其特征在于，所述对齐信号为频率高于20000Hz的音频信号。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述第一电子设备根据所述人脸图像和所述第一电子设备的姿态信息确定所述第一麦克风、所述第二麦克风、所述第三麦克风的相对位置，具体包括：

所述第一电子设备基于第一人脸关键点在标准人头坐标系中的坐标与在人脸图像坐标系中的坐标的对应关系，确定所述标准人头坐标系与第一电子设备坐标系的第一转换关系；所述标准人头坐标系根据标准人头模型确定，所述第一电子设备存储有所述标准人头模型中各关键点在所述标准人头坐标系中的坐标；

所述第一电子设备基于所述第一转换关系以及所述标准人头模型中左耳与右耳在所述标准人头坐标系中的坐标，确定所述标准人头模型中左耳与右耳在所述第一电子设备坐标系中的坐标，所述标准人头模型中左耳与右耳在所述第一电子设备坐标系中的坐标分别为所述第二麦克风与所述第三麦克风在所述第一电子设备坐标系中的坐标；

所述第一电子设备根据所述第一电子设备的姿态信息，确定所述第一电子设备坐标系与世界坐标系之间的第二转换关系；

所述第一电子设备基于所述第二转换关系，所述第一麦克风、所述第二麦克风、所述第三麦克风在所述第一电子设备坐标系的坐标，确定所述相对位置，所述相对位置包括所述第一麦克风、所述第二麦克风、所述第三麦克风在所述世界坐标系的坐标。

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述第一电子设备基于所述相对位置，对所述第一音频信号、所述第二音频信号和所述第三音频信号进行降噪处理，具体包括：

所述第一电子设备基于所述相对位置，对所述第一音频信号、所述第二音频信号和所述第三音频信号进行语音活动检测，所述语音活动检测用于确定所述第一音频信号、所述第二音频信号和所述第三音频信号中目标声音信号的频点和环境噪声信号的频点；所述目标声音信号为位于所述第一麦克风、所述第二麦克风、所述第三麦克风组成的麦克风阵列的近场区域的声源的声音信号；

所述第一电子设备基于所述目标声音信号的频点和所述环境噪声信号的频点更新所述环境噪声的噪声空间特性，所述噪声空间特性用于指示所述环境噪声在空间的分布，所述环境噪声在空间的分布包括所述环境噪声的方向和能量；

所述第一电子设备基于所述相对位置，确定所述第一音频信号、所述第二音频信号和所述第三音频信号的目标导向矢量，所述目标导向矢量用于指示所述目标声音信号的方向；

所述第一电子设备基于所述噪声空间特性和所述目标导向矢量确定空域滤波器，并利用所述空域滤波器对所述第一音频信号、所述第二音频信号和所述第三音频信号进行空域滤波。

6.根据权利要求4所述的方法，其特征在于，所述第一电子设备基于所述相对位置，对所述第一音频信号、所述第二音频信号和所述第三音频信号进行降噪处理，具体包括：

7.根据权利要求1-3、6中任一项所述的方法，其特征在于，所述方法还包括：

所述左耳无线耳机进行佩带检测，所述佩带检测用于确定无线耳机是否处于入耳状态；

在所述左耳无线耳机处于入耳状态的情况下，所述左耳无线耳机利用所述第二麦克风得到所述第二音频信号；

所述右耳无线耳机进行所述佩带检测；

在所述右耳无线耳机处于入耳状态的情况下，所述右耳无线耳机利用所述第三麦克风得到所述第三音频信号。

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述右耳无线耳机进行所述佩带检测；

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

所述右耳无线耳机进行所述佩带检测；

10.根据权利要求1-3、6、8、9中任一项所述的方法，其特征在于，所述方法还包括：

所述第一电子设备将在第一时间段内采集的第一视频与第四音频信号混合，所述第四音频信号为所述第一音频信号、所述第二音频信号和所述第三音频信号经过所述降噪处理后的音频信号；所述第一音频信号、所述第二音频信号、所述第三音频信号分别为在所述第一时间段内通过所述第一麦克风、所述第二麦克风和所述第三麦克风得到的。

11.根据权利要求4所述的方法，其特征在于，所述方法还包括：

12.根据权利要求5所述的方法，其特征在于，所述方法还包括：

13.根据权利要求7所述的方法，其特征在于，所述方法还包括：

14.一种声音采集方法，所述方法应用于具有第一麦克风的第一电子设备，所述第一电子设备与具有第二麦克风的左耳无线耳机、具有第三麦克风的右耳无线耳机通过无线通信连接，其特征在于，所述方法包括：

所述第一电子设备采集得到人脸图像；

所述第一电子设备获取所述第一麦克风的第一音频信号、所述第二麦克风的第二音频信号和所述第三麦克风的第三音频信号；

15.根据权利要求14所述的方法，其特征在于，所述第一电子设备基于所述相对位置，对所述第一音频信号、所述第二音频信号和所述第三音频信号进行降噪处理之前，所述方法还包括：

16.根据权利要求15所述的方法，其特征在于，所述对齐信号为频率高于20000Hz的音频信号。

17.根据权利要求14-16中任一项所述的方法，其特征在于，所述第一电子设备根据所述人脸图像和所述第一电子设备的姿态信息确定所述第一麦克风、所述第二麦克风、所述第三麦克风的相对位置，具体包括：

18.根据权利要求14-16中任一项所述的方法，其特征在于，所述第一电子设备基于所述相对位置，对所述第一音频信号、所述第二音频信号和所述第三音频信号进行降噪处理，具体包括：

19.根据权利要求17所述的方法，其特征在于，所述第一电子设备基于所述相对位置，对所述第一音频信号、所述第二音频信号和所述第三音频信号进行降噪处理，具体包括：

20.根据权利要求14-16、19中任一项所述的方法，其特征在于，所述方法还包括：

所述第一电子设备将在第一时间段内采集的第一视频与第四音频信号混合，所述第四音频信号为所述第一音频信号、所述第二音频信号和所述第三音频信号经过所述降噪处理后的音频信号；所述第一音频信号、所述第二音频信号、所述第三音频信号为在所述第一时间段内采集得到的音频信号。

21.根据权利要求17所述的方法，其特征在于，所述方法还包括：

22.根据权利要求18所述的方法，其特征在于，所述方法还包括：

23.一种电子设备，其特征在于，所述电子设备包括通信装置、摄像头、麦克风、存储器和处理器，其中：

所述通信装置用于与无线耳机建立通信连接；

所述摄像头用于采集图像；

所述麦克风用于进行声音采集；

所述存储器用于存储标准人头坐标系，还用于存储计算机程序；所述处理器用于调用所述计算机程序，使得所述电子设备执行如权利要求14-22中任一项所述的方法。

24.一种计算机存储介质，其特征在于，包括：计算机指令；当所述计算机指令在电子设备上运行时，使得所述电子设备执行权利要求1-22中任一项所述的方法。