CN111970625B

CN111970625B - 录音方法和装置、终端和存储介质

Info

Publication number: CN111970625B
Application number: CN202010882361.9A
Authority: CN
Inventors: 许逸君; 严笔祥
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2022-03-22
Anticipated expiration: 2040-08-28
Also published as: CN111970625A

Abstract

本申请提供了一种录音方法。录音方法包括判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像；若存在，则通过所述终端的至少三个麦克风进行录音，以获取至少三个第一音频信号；根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪；及合成去噪后的至少三个所述第一音频信号，以生成立体音频信号。本申请实施方式的录音方法中通过至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪，可将声源所在的波束角之外的环境噪音去除，录音效果较好。本申请还提供一种录音装置、终端和非易失性计算机可读存储介质。

Description

录音方法和装置、终端和存储介质

技术领域

本申请涉及录音技术领域，特别涉及一种录音方法、录音装置、终端和非易失性计算机存储介质。

背景技术

立体声，就是指具有立体感的声音，为了实现立体声录音，终端一般通过多个不同位置的麦克风进行录音以合成立体音频信号，然而，录音时不仅会录到声源的声音，还会将声源周围的环境噪音一并录入，导致录音效果较差。

发明内容

为此，本申请的实施方式提供了一种录音方法、录音装置、终端和非易失性计算机存储介质。

本申请实施方式的录音方法包括判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像；若存在，则通过所述终端的至少三个麦克风进行录音，以获取至少三个第一音频信号；根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪；及合成去噪后的至少三个所述第一音频信号，以生成立体音频信号。

本申请实施方式的录音装置包括判断模块、第一获取模块、去噪模块和第一合成模块。所述判断模块用于判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像；所述获取模块用于在所述采集图像中存在所述人像时，通过所述终端的至少三个麦克风进行录音，以获取至少三个第一音频信号；所述去噪模块用于根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪；所述合成模块用于合成去噪后的至少三个所述第一音频信号，以生成立体音频信号。

本申请实施方式的终端包括摄像头、至少三个麦克风和处理器，所述处理器用于：判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像；在所述采集图像中存在所述人像时，通过所述终端的至少三个麦克风进行录音，以获取至少三个第一音频信号；根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪；及合成去噪后的至少三个所述第一音频信号，以生成立体音频信号。

本申请的一种包含计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行录音方法。所述录音方法包括判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像；若存在，则通过所述终端的至少三个麦克风进行录音，以获取至少三个第一音频信号；根据所述至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪；及合成去噪后的至少三个所述第一音频信号，以生成立体音频信号。

本申请的录音方法、录音装置、终端和非易失性计算机可读存储介质通过至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪，可准确地确定波束角并将声源所在的波束角之外的环境噪音去除，录音效果较好。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请某些实施方式的录音方法的流程示意图；

图2是本申请某些实施方式的录音装置的模块示意图；

图3是本申请某些实施方式的终端和耳机的连接示意图；

图4是本申请某些实施方式的终端背部的平面示意图；

图5是本申请某些实施方式的录音方法的流程示意图；

图6是本申请某些实施方式的录音装置的模块示意图；

图7是本申请某些实施方式的录音方法的流程示意图；

图8是本申请某些实施方式的录音装置的模块示意图；

图9是本申请某些实施方式的录音方法的原理示意图；

图10是本申请某些实施方式的录音方法的流程示意图；

图11是本申请某些实施方式的录音装置的模块示意图；

图12是本申请某些实施方式的录音方法的流程示意图；和

图13是本申请某些实施方式的处理器和计算机可读存储介质的连接示意图。

具体实施方式

以下结合附图对本申请的实施方式作进一步说明。附图中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。另外，下面结合附图描述的本申请的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的限制。

请参阅图1和图3，本申请实施方式的录音方法包括以下步骤：

011：判断终端100的摄像头20拍摄的一帧或多帧采集图像是否存在人像；

012：若存在，则通过终端100的至少三个麦克风30进行录音，以获取至少三个第一音频信号；

013：根据至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪；及

014：合成去噪后的至少三个第一音频信号，以生成立体音频信号。

请参阅图2，在某些实施方式中，录音装置10包括判断模块11、第一获取模块12、去噪模块13和第一合成模块14。判断模块11、第一获取模块12、去噪模块13和第一合成模块14分别用于执行步骤011、步骤012、步骤013和步骤014。即，判断模块11用于判断终端100的摄像头20拍摄的一帧或多帧采集图像是否存在人像；第一获取模块12用于在采集图像存在人像时，通过至少三个麦克风30进行录音，以获取至少三个第一音频信号；去噪模块13用于根据至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪；第一合成模块14用于合成去噪后的至少三个第一音频信号，以生成立体音频信号。

在某些实施方式中，终端100包括摄像头20、至少三个麦克风30和处理器40。处理器40用于判断终端100的摄像头20拍摄的一帧或多帧采集图像是否存在人像；在采集图像存在人像时，通过至少三个麦克风30进行录音，以获取至少三个第一音频信号；根据至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪；及合成去噪后的至少三个第一音频信号，以生成立体音频信号。也即是说，步骤011、步骤012、步骤013和步骤014可以由处理器40实现。

具体地，终端100包括摄像头20、至少三个麦克风30、处理器40、壳体50和显示屏60。终端100可以是手机、平板电脑、显示器、笔记本电脑、柜员机、闸机、智能手表、头显设备、游戏机等。如图3所示，本申请实施方式以终端100是手机为例进行说明，可以理解，终端100的具体形式并不限于手机。壳体50还可用于安装终端100的音频装置(即，麦克风和扬声器)、成像装置(即，摄像头20)、显示装置(即显示屏60)、供电装置、通信装置等功能模块，以使壳体50为功能模块提供防尘、防摔、防水等保护。

摄像头20可以是前置相机、后置相机、侧置相机等，摄像头20还可设置在屏下，在此不做限制。摄像头20包括镜头模组和图像传感器，摄像头20和处理器40安装在壳体50内。壳体50光线经过显示屏60后进入镜头模组，再来到图像传感器，图像传感器用于将照射到图像传感器上的光信号转化为电信号，以生成初始图像。

请结合图3和图4，终端100可设置有至少三个麦克风30，至少三个麦克风30至少分别设置在终端100的两侧，任意两个麦克风30之间的距离大于预定距离，如预定距离可以是1厘米、2厘米、3厘米等。例如，终端100设置有三个麦克风30、四个麦克风30、五个麦克风30等，本申请实施方式中，终端100设置有四个麦克风30，分别为设置在终端100的底部的两个麦克风30、设置在顶部的一个麦克风30，以及设置在背部的一个麦克风30，四个麦克风设置的位置差异较大，能够提高立体录音效果。

处理器40首先判断摄像头20拍摄的一帧或多帧采集图像是否存在人像，其中，人像指的是包含人的特定部位的图像区域，例如人像为包含脸部的图像区域。处理器40可判断预定帧数内的采集图像是否存在人像，预定帧数可以是1帧、2帧、3帧、4帧、10帧等，在存在人像时，说明终端100此时可能正在进行视频通话，或者用户正在利用摄像头20给其他用户拍摄视频，此时声源处于摄像头20的视场角内。

处理器40可基于波束赋形原理，利用终端100的四个麦克风30的相对空间坐标和四个麦克风30采集的四个第一音频信号的采集时延，计算出声源相对终端100的第一波束角。具体地，麦克风30接收到声源发出的声音后会将声音信号转换为音频信号，根据第一音频信号对应的音频波形即可确定任意两个第一音频信号之间的采集时延，以其中一个第一音频信号为基准，即可计算得到其他三个第一音频信号相对该第一音频信号的采集时延，然后以任一麦克风30或者终端100的中心位置为坐标原点建立空间坐标系，根据麦克风30预设的安装位置，即可计算得到其他三个麦克风30相对该麦克风30的空间坐标，根据四个麦克风30的空间坐标和每个麦克风30采集的第一音频信号对应的采集时延，即可计算得到声源相对坐标原点(如终端100的中心)的空间坐标，从而进一步计算得到第一波束角，终端100的中心和声源的连线即为第一波束角的平分线，第一波束角可以是20度、30度、50度等，可根据终端100的麦克风30的数量确定，麦克风30数量越多，第一波束角越小。第一波束角可用于表征声源相对终端100在水平面上的方位。

处理器40还可获取人像在采集图像中的位置以确定第二波束角，可以理解，采集图像中人像的位置与人像对应的声源相对摄像头20的位置是对应的，如人像对应的声源位于摄像头20的左侧，则人像在采集图像中的位置也是左侧，人像对应的声源位于摄像头20的右侧，则人像在采集图像中的位置也是右侧。如此，处理器40根据人像在采集图像中的位置能够确定声源相对摄像头第二波束角。第二波束角可用于表征声源相对摄像头20在水平面上的方位。第二波束角可以是一个预定值，该预定值可根据摄像头20的视场角确定，例如，摄像头20的水平视场角120度，若人像在采集图像中的位置为左侧，则可确定第二视场角的角度范围为[0度，60度]，若人像在采集图像中的位置为右侧，则可确定第二视场角的角度范围为[60度，120度]。从而根据人像在采集图像的位置确定一个初步的角度范围。

在其他实施方式中，人像占据采集图像的面积占整个采集图像的面积的比例越大，说明声源离终端100越近，第二波束角越大，人像占据采集图像的面积占整个采集图像的面积的比例越小，说明声源离终端100越远，第二波束角越小，例如，在用户距离摄像头极近时，人像占据整个采集图像，此时的第二波束角基本等于摄像头20的水平视场角。如此，处理器40根据人像在采集图像中的位置和人像占据采集图像的面积占整个采集图像的面积的比例即可更准确地确定第二波束角的角度范围，如第二波束角的角度范围可以是[0度，30度]、[10度，50度]、[30度，60度]、[0度，120度]等。

处理器40可融合第一波束角和第二波束角，以更为准确地确定声源相对于终端100的波束角。融合方式可以是：

处理器40可识别当前场景的声源数量，在声源数量较大时，使用波束赋形的方式计算的第一波束角的准确性较低。例如，处理器40识别麦克风30接收的第一音频信号中强度大于预定声源强度阈值的信号数量，以作为声源数量，当声源数量大于第一预设阈值(如第一预设阈值为1、2、3、4等)时，使用波束赋形的方式计算的第一波束角的准确性较低，此时以第二波束角作为声源相对于终端100的波束角；而在声源数量小于或等于预设阈值时，此时使用波束赋形的方式计算的第一波束角的准确性较高，此时以第一波束角作为声源相对于终端100的波束角。

同样的，处理器40可识别采集图像中人像数量时，人像数量较大时，人像识别的速度和准确性均会下降。例如，在人像数量大于第二预设阈值(如第二预设阈值为1、2、3、4等)时，使用根据人像在采集图像中的位置确定第二波束角的方式计算的第二波束角的准确性较低，此时第一波束角作为声源相对于终端100的波束角；人像数量若小于或等于第二预设阈值时，使用根据人像在采集图像中的位置确定第二波束角的方式计算的第二波束角的准确性较高，此时以第二波束角作为声源相对于终端100的波束角。

在确定波束角之后，处理器40通过调节终端100的每个麦克风30的增益，以增强波束角内的音频信号而过滤波束角之外的音频信号，可以理解，声源之外的声音一般为环境噪音，因此，根据过滤波束角之外的音频信号能够很好的消除终端100的麦克风30采集的环境噪音。

最后，处理器40将去噪后的四个第一音频信号进行合成，以生成立体音频信号，且由于四个第一音频信号对应的麦克风30的安装位置不同，四个第一音频信号包括声源在不同方位的音频信号，从而使得合成的立体音频信号的空间立体感更好。

本申请实施方式的录音方法、录音装置10和终端100通过至少三个第一音频信号和人像在采集图像的位置确定的波束角对至少三个第一音频信号进行去噪，可准确地确定波束角并将声源所在的波束角之外的环境噪音去除，录音效果较好，且得到的立体音频信号的空间立体感较好。

请参阅图5，在某些实施方式中，录音方法还包括以下步骤：

015：若采集图像不存在人像，则开启左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号；及

016：合成二个第二音频信号，以生成立体音频信号。

请参阅图6，在某些实施方式中，录音装置10还包括第二获取模块15和第二合成模块16，第二获取模块15和第二合成模块16分别用于执行步骤015和步骤016。即，第二获取模块15用于在采集图像不存在人像时，开启左耳耳机210和右耳耳机220的麦克风进行录音以获取二个第二音频信号；第二合成模块16用于合成二个第二音频信号，以生成立体音频信号。

请再次参阅图3，在某些实施方式中，处理器40还用于在采集图像不存在人像时，开启左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号；合成二个第二音频信号，以生成立体音频信号。也即是说，步骤015和步骤016可以由处理器40实现。

具体地，在一帧或多帧采集图像均不存在人像时，说明此时进行视频通话或被拍摄的用户不在摄像头20前，或者暂时离开了摄像头20前，用户距离终端100的距离可能较远，此时可使用与终端100连接的耳机200的麦克风240进行录音，由于耳机200一般穿戴在用户耳部，距离用户较近，相较于距离较远的终端100的麦克风30而言，耳机200的麦克风240录制用户的声音时更为清晰。

终端100和耳机200的连接可以是有线连接或无线连接。有线连接如终端100设置有耳机插口，耳机200包括耳机线和与耳机线连接的耳机插头，通过耳机插头插入耳机插口即可实现终端100和耳机200的有线连接。无线连接如耳机200和终端100可通过蓝牙实现无线连接。如图3所示，本申请的终端100和耳机200通过蓝牙实现无线连接。

处理器40可设置在终端100和/或耳机200，例如处理器40为一个且设置在终端100，或者处理器40为多个(如分别为第一处理器41和第二处理器230)，分别设置在终端100和耳机200上，在终端100和耳机200连接后，第一处理器41和第二处理器230能够实现通信连接。本实施方式中，处理器40包括第一处理器41和第二处理器230，分别设置在终端100和耳机200上。在一帧或多帧采集图像均不存在人像时，第一处理器41将录音指令发送给第二处理器40，以使得第二处理器40控制左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号。

耳机200包括左耳耳机210、右耳耳机220和第二处理器230，左耳耳机210和右耳耳机220连接，在耳机200和终端100连接时，左耳耳机210和右耳耳机220中的一个作为主耳机，另一个作为从耳机，第二处理器230设置在主耳机内。如以左耳耳机210作为主耳机，右耳耳机220作为从耳机，终端100可先与左耳耳机210的第二处理器230实现蓝牙连接，然后左耳耳机210再与右耳耳机220实现蓝牙连接，从而通过左耳耳机210和右耳耳机220的连接实现同步，且终端100只需与左耳耳机210进行通信即可。

左耳耳机210和右耳耳机220均设置有麦克风240，左耳耳机210的麦克风240和右耳耳机220的麦克风240贴合人的左耳和右耳的声场，无需转化即可得到类似左右声道的第二音频信号，第二处理器230将第二音频信号合成即可生成立体音频信号。

请参阅图7，在某些实施方式中，录音方法还包括以下步骤：

017：根据终端100到左耳耳机210和右耳耳机220的信号传输时间，同步去噪后的至少三个第一音频信号和二个第二音频信号；及

018：合成同步后的至少三个第一音频信号和二个第二音频信号，以生成立体音频信号。

请参阅图8，在某些实施方式中，录音装置10还包括同步模块17和第三合成模块18。同步模块17和第三合成模块18分别用于执行步骤017步骤018。即，同步模块17用于根据终端100到左耳耳机210和右耳耳机220的信号传输时间，同步去噪后的至少三个第一音频信号和二个第二音频信号；第三合成模块18用于合成同步后的至少三个第一音频信号和二个第二音频信号，以生成立体音频信号。

请再次参阅图3，在某些实施方式中，处理器40还用于根据终端100到左耳耳机210和右耳耳机220的信号传输时间，同步去噪后的至少三个第一音频信号和二个第二音频信号；及合成同步后的至少三个第一音频信号和二个第二音频信号，以生成立体音频信号。也即是说，步骤017和步骤018可以由处理器40实现。

具体地，在采集图像后不存在人像时，除了开启左耳耳机210和右耳耳机220的麦克风240进行录音以获取二个第二音频信号之外，终端100的至少三个麦克风30同时也会进行录音以得到至少三个第一音频信号，终端100和耳机200连接后，第一处理器41和/或第二处理器230均可获取终端100的麦克风30采集的第一音频信号、左耳耳机210的麦克风240采集的第二音频信号、右耳耳机220的麦克风240采集的第二音频信号。例如，第一处理器41获取到第一音频信号后，通过蓝牙传输给第二处理器230，第二处理器230可直接获取到第二音频信号，由于第一音频信号需要通过蓝牙传输给第二处理器230，而蓝牙传输需要消耗一定的时间，因此，在第二处理器230获取到第一音频信号后，会计算信号传输时间，从而同步第一音频信号和第二音频信号，使得第一音频信号和第二音频信号的开始时间相同。

计算信号传输时间的方式可以是：第一处理器41在发送第一音频信号的同时会发送时间戳信号，时间戳信号可用于表征第一音频信号的发射时间，第二处理器230接收到时间戳信号后根据发射时间和接收时间即可确定信号传输时间，从而根据信号传输时间同步第一音频信号和第二音频信号。

然后根据同步后的第一音频信号和第二音频信号即可合成立体音频信号。由于左耳耳机210、右耳耳机220和终端100的麦克风30的位置差异较大，采集的至少三个第一音频信号和两个第二音频信号包括声源在不同方位的音频信号，从而使得合成的立体音频信号的空间立体感更好。

在某些实施方式中，处理器40根据声源相对终端100的波束角、耳机200相对终端100的空间坐标确定声源相对耳机200的波束角；根据声源相对耳机200的波束角调节左耳耳机210和右耳耳机220的麦克风240的增益，以过滤第二音频信号中的环境噪音。

具体地，处理器40根据摄像头20拍摄的采集图像中，人像对应人的头部的区域在采集图像中的位置、及人像对应人的头部的区域的面积占采集图像的面积的比例，即可确定耳机200相对终端100的空间坐标，其中，根据人像对应人的头部的区域在采集图像中的位置可确定耳机200相对终端100的方位角，根据人像对应人的头部的区域的面积占采集图像的面积的比例可确定耳机200相对终端100的距离，根据耳机200相对终端100的方位角和距离即可计算得到耳机200相对终端100的空间坐标。

然后处理器40根据前述实施方式计算得到的声源O相对终端100的空间坐标即可确定声源O相对耳机200的空间坐标，从而确定声源O相对耳机200的波束角(如图9所示的波束角β)，声源O和耳机200的连线即为波束角β的平分线，波束角β可以是20度、30度、50度等，可根据声源O相对终端100的波束角(如图9所示的波束角α)确定，波束角α越小(即，波束角α越准确)，波束角β也越小。

在计算得到波束角β之后，将根据波束角β调节左耳耳机210和右耳耳机220的麦克风240的增益，以增强波束角β内的第二音频信号而过滤波束角β之外的第二音频信号，可以理解，声源O之外的声音一般为环境噪音，因此，根据过滤波束角β之外的第二音频信号能够很好的消除耳机200的麦克风240采集的环境噪音以得到更为准确的第二音频信号。

请参阅图10，在某些实施方式中，录音方法还包括以下步骤：

019：根据至少三个第一音频信号确定一个或多个第一波束角；

020：根据人像在采集图像的位置确定第二波束角；及

021：根据一个或多个第一波束角和第二波束角计算波束角。

请参阅图11，在某些实施方式中，录音装置10还包括第一确定模块19、第二确定模块20和计算模块21。第一确定模块19、第二确定模块20和计算模块21分别用于执行步骤019、步骤020和步骤021。即，第一确定模块19用于根据至少三个第一音频信号确定一个或多个第一波束角；第二确定模块20用于根据人像在采集图像的位置确定第二波束角；计算模块21用于根据一个或多个第一波束角和第二波束角计算波束角。

请再次参阅图3，在某些实施方式中，处理器40还用于根据至少三个第一音频信号确定一个或多个第一波束角；根据人像在采集图像的位置确定第二波束角；及根据一个或多个第一波束角和第二波束角计算波束角。也即是说，步骤019、步骤020和步骤021可以由处理器40实现。

具体地，可以理解，波束赋形原理中，只需要三个形成三角形的麦克风即可计算得到波束角，当终端100的麦克风30数量为三时，可得到一个第一波束角，而当终端100的麦克风30数量大于三时，每三个麦克风30的采集的第一音频信号即可计算得到一个第一波束角，处理器40可将所有组合(每三个为一组，如存在四个麦克风30时则有4种组合)的第一波束角均计算得到，然后根据利用最小二乘法对所有第一波束角进行处理以求出最优解，从而利用到终端100所有的麦克风30的信息来提高第一波束角的稳定性和准确性。最后处理器40根据最优解和第二波束角准确地确定声源相对于终端100的波束角，从而提高录音效果。

请参阅图12，在某些实施方式中，步骤014包括以下步骤：

0142：将去噪后的至少三个第一音频信号转化为左右声道，以生成立体音频信号。

请再次参阅图11，在某些实施方式中，第一合成模块14还用于执行步骤0142。即，第一合成模块14还用于将去噪后的至少三个第一音频信号转化为左右声道，以生成立体音频信号。

请再次参阅图3，在某些实施方式中，处理器40还用于将去噪后的至少三个第一音频信号转化为左右声道，以生成立体音频信号。也即是说，步骤0142可以由处理器40实现。

具体地，在得到第一音频信号、或者得到第一音频信号和第二音频信号后，由于终端100的扬声器和耳机200一般是通过左右声道实现立体声的播放，因此，需要将第一音频信号和第二音频信号转换为左右声道，从而生成立体音频信号以供终端100或耳机200播放。当然，第一音频信号和第二音频信号还可转换为更多的声道，如根据位置不同的麦克风数量，可以转换为4声道(对应4个麦克风)、8声道(对应8个麦克风)等等，从而提升立体音频信号的空间立体感。

请参阅图13，本申请实施方式的一种存储有计算机程序302的非易失性计算机可读存储介质300，当计算机程序302被一个或多个处理器40执行时，使得处理器40可执行上述任一实施方式的录音方法。

例如，请结合图1和图3，当计算机程序302被一个或多个处理器40执行时，使得处理器40执行以下步骤：

再例如，请结合图3和图5，当计算机程序302被一个或多个处理器40执行时，处理器40还可以执行以下步骤：

016：合成二个第二音频信号，以生成立体音频信号。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的程序的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种录音方法，其特征在于，包括：

判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像；

若存在，则通过所述终端的至少三个麦克风进行录音，以获取至少三个第一音频信号；

根据至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪，在识别到当前场景的声源数量小于第一预设阈值时，选择至少三个所述第一音频信号确定的波束角对至少三个所述第一音频信号进行去噪；在识别到所述采集图像的人像数量小于第二预设阈值时，选择所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪；及

合成去噪后的至少三个所述第一音频信号，以生成立体音频信号。

2.根据权利要求1所述的录音方法，其特征在于，还包括：

若所述采集图像不存在所述人像，则开启左耳耳机和右耳耳机的麦克风进行录音以获取二个第二音频信号；及

合成二个所述第二音频信号，以生成所述立体音频信号。

3.根据权利要求2所述的录音方法，其特征在于，还包括：

根据所述终端到所述左耳耳机和所述右耳耳机的信号传输时间，同步去噪后的至少三个所述第一音频信号和二个所述第二音频信号；及

合成同步后的至少三个所述第一音频信号和二个所述第二音频信号，以生成所述立体音频信号。

4.根据权利要求1所述的录音方法，其特征在于，还包括：

根据至少三个所述第一音频信号确定一个或多个第一波束角；

根据所述人像在所述采集图像的位置确定第二波束角；及

根据一个或多个所述第一波束角和所述第二波束角计算所述波束角。

5.根据权利要求1所述的录音方法，其特征在于，所述摄像头包括前置摄像头或者后置摄像头。

6.根据权利要求1所述的录音方法，其特征在于，所述终端的至少三个所述麦克风至少分别设置在所述终端的两侧，任意两个所述麦克风之间的距离大于预定距离。

7.根据权利要求1所述的录音方法，其特征在于，所述合成去噪后的至少三个所述第一音频信号，以生成立体音频信号，包括：

将去噪后的至少三个所述第一音频信号转化为左右声道，以生成所述立体音频信号。

8.一种录音装置，其特征在于，包括：

判断模块，用于判断终端的摄像头拍摄的一帧或多帧采集图像是否存在人像；

第一获取模块，用于在所述采集图像存在所述人像时，通过所述终端的至少三个麦克风进行录音，以获取至少三个第一音频信号；

去噪模块，用于根据至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪，在识别到当前场景的声源数量小于第一预设阈值时，选择所述至少三个所述第一音频信号确定的波束角对至少三个所述第一音频信号进行去噪；在识别到所述采集图像的人像数量小于第二预设阈值时，选择所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪；

第一合成模块，用于合成去噪后的至少三个所述第一音频信号，以生成立体音频信号。

9.一种终端，其特征在于，包括摄像头、至少三个麦克风和处理器，所述处理器用于：

判断所述摄像头拍摄的一帧或多帧采集图像是否存在人像；

在所述采集图像存在所述人像时，通过至少三个所述麦克风进行录音，以获取至少三个第一音频信号；

根据至少三个所述第一音频信号和所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪，在识别到当前场景的声源数量小于第一预设阈值时，选择所述至少三个所述第一音频信号确定的波束角对至少三个所述第一音频信号进行去噪；在识别到所述采集图像的人像数量小于第二预设阈值时，选择所述人像在所述采集图像的位置确定的波束角对至少三个所述第一音频信号进行去噪；及

10.一种存储有计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，实现权利要求1至7中任一项所述的录音方法。