CN113473057A

CN113473057A - 一种录像方法与电子设备

Info

Publication number: CN113473057A
Application number: CN202110553288.5A
Authority: CN
Inventors: 李�瑞; 黄雪妍
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-10-01
Anticipated expiration: 2041-05-20
Also published as: CN113473057B; CN116233348A

Abstract

一种录像方法与电子设备，用于提升视频拍摄质量。该方法包括：启动电子设备的摄像头和麦克风，所述摄像头用于采集视频信号，所述麦克风用于采集环境中的声音信号；确定所述环境中的声音信号中的第一目标声音信号，所述第一目标声音信号是所述环境中所包括的N种声音信号中的一种或多种声音信号，所述N种声音信号的频率和/或声源不同，N为大于或等于1的整数；将所述摄像头采集的视频信号与所述第一目标声音信号合成录像文件。

Description

一种录像方法与电子设备

技术领域

本申请涉及电子技术领域，尤其涉及一种录像方法与电子设备。

背景技术

视频拍摄(或称录像)是人们用来记录生活的常用手段。一般，用户常用手机来拍摄视频。在拍摄视频时，手机不仅会采集视频信号，还会一并采集拍摄场景中所有声音信号，然后将视频信号和声音信号合成为视频文件(或称录像文件)。

然而，对于声音嘈杂的拍摄场景(比如演唱会、闹市等)，用户拍摄的视频文件往往杂音较多，拍摄效果较差。

发明内容

本申请的目的在于提供一种录像方法与电子设备，用于提升视频拍摄质量。

第一方面，提供一种录像方法，应用于电子设备，电子设备可以是手机、平板电脑等具有摄像头和麦克风的设备。电子设备启动摄像头和麦克风，所述摄像头用于采集视频信号，所述麦克风用于采集环境中的声音信号；确定所述环境中的声音信号中的第一目标声音信号，所述第一目标声音信号是所述环境中所包括的N种声音信号中的一种或多种声音信号，所述N种声音信号的频率和/或声源不同，N为大于或等于1的整数；将所述摄像头采集的视频信号与所述第一目标声音信号合成录像文件。

本申请实施例中，电子设备录像时，可以将摄像头采集的视频信号和麦克风采集的环境中的第一目标声音信号合成录像文件，这种录像方式所得到的录像文件中包括较少的嘈杂声音，录像效果较好。

示例性的，电子设备启动摄像头和麦克风，包括：启动第一应用，第一应用具有录像功能，电子设备启动第一应用的录像功能时，打开摄像头和麦克风。其中，第一应用可以是电子设备中的相机应用，所述相机应用可以是电子设备自带相机应用或者电子设备从网络上下载的第三方相机应用。或者，第一应用还可以是即时通信应用，比如，华为畅连应用，华为畅连应用中具有视频通话功能或拍摄视频功能等。或者，第一应用还可以是各种类型的短视频应用，比如，抖音、小红书等等。或者，第一应用还可以是社交网络，比如微博、论坛等。总之，第一应用可以是电子设备中具有拍摄功能的任意的应用。

其中，电子设备确定环境中N种声音信号中的第一目标声音信号的方式有多种，包括但不限定于如下三种方式中的至少一种。

第一种方式

确定环境中的声音信号中的第一目标声音信号，包括：在电子设备的显示屏上显示N个标签，所述N个标签用于标识所述N种声音信号；响应于用于选择目标标签的操作，确定目标标签，所述目标标签对应的声音信号为所述第一目标声音信号。

简单来说，电子设备通过标签的方式在显示屏上展示出N种声音信号，用户通过选择标签的方式，选择第一目标设备信号。这种方式，第一目标声音信号是用户选择出来的，比较符合用户的喜好，体验较好。

电子设备显示屏上显示N个标签的一种可实施方式为，电子设备显示屏上显示预览界面，该预览界面上显示摄像头采集的视频信号，在预览界面中显示N个标签。

举例来说，电子设备打开了相机应用，相机应用显示预览界面，预览界面实时的显示摄像头采集的视频信号，在预览界面中还显示环境中N种声音信号对应的N个标签，这样的话，用户使用相机应用录像时，在预览界面就可以选择第一目标声音信号，而且这种录像方式所得到的录像文件中包括较少的嘈杂声音，录像效果较好。

其中，在预览界面中显示N个标签可以是将N个标签显示在预览界面中的任意位置，或者，显示在预设位置(可以是系统默认设置的位置)，或者，显示在用户指定的位置(即用户可以设置该位置)。可以理解的是，N个标签中一个或多个标签的显示位置可以根据用户的操作而改变。

或者，在预览界面中显示N个标签还可以包括：确定预览界面中的M个拍摄对象的位置；在所述预览界面中所述M个拍摄对象的位置处显示M个标签，所述M个拍摄对象是所述N个标签中M个标签所对应的M种声音信号的声源；或者，在所述预览界面中其它位置处显示所述N个标签中所述M个标签之外的N-M个标签；其中，M为大于等于1小于等于N的整数。

假设电子设备识别出预览界面中包括P个拍摄对象(P大于M)，而标签数量为N，P和N之间存在三种关系。

1、P>N

标签的数量N小于预览界面中拍摄对象的数量P。一种可能的场景为，摄像头采集的视频信号中各种各样的拍摄对象，其中部分拍摄对象并未发出声音，所以麦克风采集不到这部分拍摄对象的声音信号，所以出现拍摄界面中拍摄对象的数量大于标签的数量的情况。

2、P＝N

标签的数量N等于预览界面中拍摄对象的数量P。可能的场景为，摄像头采集的视频信号中所包括的多个拍摄对象刚好都发声，且没有旁边声音。

3、P<N

标签的数量N大于预览界面中拍摄对象的数量P。一种可能的场景为，因为摄像头的视场角有限，摄像头采集的视频信号中不包括不在视场范围内的拍摄对象，但是不在视场范围内的拍摄对象发出的声音会被麦克风采集，类似旁白声音。这种场景下会出现摄像头采集的视频信号中没有某个物体，但是麦克风采集的声音信号中包括该物体的声音信号，即，拍摄界面中的拍摄对象的数量小于标签的数量。

以上三种情况中，电子设备在预览界面中显示N个标签时，可以根据N个标签中M个标签，在P个拍摄对象中匹配出对应的M个拍摄对象，所述M个拍摄对象是所述M个标签所对应的M种声音信号的声源。然后，将M个标签显示在M个拍摄对象所在位置。对于N个标签中的其它标签(M个标签之外的其它标签)可以显示在预览界面中的其它位置处。

在一种可能的设计中，在所述电子设备的显示屏上显示N个标签，包括：检测到用户唤出所述N个标签的唤出操作；响应于所述唤出操作，在所述预览界面上显示所述N个标签。也就是说，N个标签可以不是自动出现，是在用户的唤出操作的作用下显示。可选的，当电子设备检测到用于隐藏N个标签的隐藏操作时，可以隐藏N个标签。这样的话，用户可以控制N个标签的显示与否，体验较好。

第二种方式

确定环境中的声音信号中的第一目标声音信号，包括：确定视频信号中的主体拍摄对象，所述主体拍摄对象是所述视频信号中的一个或多个物体；根据所述主体拍摄对象，确定第一目标声音信号，所述第一目标声音信号的声源是所述主体拍摄对象。

其中，主体拍摄对象有多种确定方式，包括但不限定于如下至少一种。

方式一，主体拍摄对象是用户在预览界面上指定的所述视频信号中的物体。

电子设备的预览界面中显示摄像头采集的视频信号，用于可以指定视频信号中的一个或多个物体作为主体拍摄对象。这种方式确定出的主体拍摄对象是用户选择的，符合用户喜欢。

方式二，主体拍摄对象是所述视频信号中用户感兴趣的物体。

其中，用户感兴趣的物体可以是电子设备记录的用户经常拍摄的物体，或者经常修图的物体。一种可实现方式为，以物体是猫为例，电子设备确定图库应用中存储的图像中猫的图像数量较多，那么确定用户感兴趣的物体是猫。另一种可实现方式为，电子设备记录用户使用修改软件对图像进行修图时修图次数较多的物体，确定该修图次数较多的物体是用户感兴趣的物体。当电子设备确定摄像头采集的视频信号中存在用户感兴趣的物体时，确定所述物体为主体拍摄对象。

第三种方式

确定环境中的声音信号中的第一目标声音信号，包括：检测到用于指示第一模式的第二操作，所述第一模式是用于指示录制特定声音信号的模式；响应于所述第二操作，确定所述特定声音信号为所述第一目标声音信号。

可选的，电子设备提供多种特定声音信号录制模式，用户可以选择某种特定声音信号录制模式，电子设备确定用户所选择的特定声音信号为第一目标声音信号。

以上是三种确定环境中的第一目标声音信号的方式，对于其他的方式也是可以的，本申请实施例不作限定。

在一种可能的设计中，电子设备确定所述第一目标声音信号之后，等待预设时长自动开始录像；或者，在确定所述第一目标声音信号之后，检测到用于指示开始录像的操作时，开始录像。

举例来说，电子设备启动相机应用进行录像，当确定第一目标声音信号之后，等待一定时长(比如3s)可以自动开始录像，或者，确定第一目标声音信号之后，检测到用户点击开始录像的按键，开始录像。

在本申请实施例中，在录像之前或录像中途可以更改(或切换)目标声音信号，下文分两种场景介绍。

场景一

在开始录制前，更改目标声音信号。比如，在开始录制前，确定了第一目标声音信号，如果用户不满意，可以将第一目标声音信号切换为第二目标声音信号，在切换为第二目标声音信号之后，开始录制时将第二声音信号与摄像头采集的视频信号合成录像文件。

场景二

在录制中途更改目标声音信号，其中录制中途可以理解为开始录制后停止录制前。

示例性的，在录制之前，电子设备确定了第一目标声音信号，开始录制后，电子设备将摄像头采集的视频信号与第一目标声音信号合成录制文件。在停止录像之前，电子设备检测到用户将第一目标声音信号切换为第二目标声音信号，那么电子设备继续将摄像头采集的视频信号与第二目标声音信号合成录像文件。如果检测到停止录像指令，将得到一个录像文件，该录像文件中第一片段由所述摄像头采集的视频信号与所述第一目标声音信号合成，所述录制文件内第二片段由所述摄像头采集的视频信号与所述第二目标声音信号合成。第一片段是在第二片段之前的片段。

举例来说，电子设备确定第一目标声音信号之后，将摄像头在第一时长内采集的视频信号与麦克风在第一时长内采集的第一声音信号合成得到第一录像片段，停止录像之前，电子设备检测到第一目标声音信号切换为第二目标声音信号，那么电子设备将摄像头在第二时长内采集的视频信号与麦克风在第二时长内采集的第二目标声音信号合成第二录像片段；检测到停止录像指令时，将第一录像片段和第二录像片段合成录像文件。这样的话，电子设备得到的录像文件中不同片段突出的目标声音不同，拍摄体验较好。

在另一些实施例中，电子设备响应于停止录制指令，存储第一录像文件和第二录像文件；其中，所述第一录像文件由所述摄像头采集的视频信号与所述环境中N种声音信号合成，所述第二录像文件由所述摄像头采集的视频信号和所述第一目标声音信号合成。也就是说，一次录制，可以得到两个录像文件，一个录像文件是摄像头采集的视频信号和第一目标声音信号合成，另一个录像文件是摄像头采集的视频信号与环境中N种声音信号合成，类似传统录像方式所得到的录像文件。这种方式得到两种录像文件可以方便用户对比查看，体验较好。

在一些实施例中，将所述摄像头采集的视频信号与所述第一目标声音信号合成录像文件，包括：增强所述第一目标声音信号，和/或，弱化其它声音信号，所述其它声音信号是所述N种声音信号中所述第一目标声音信号之外的其它声音信号；将所述摄像头采集的视频信号与增强后的所述第一目标声音信号和弱化后的所述其它声音信号合成录像文件。

这样的话，电子设备得到的录像文件中包括环境中的各种声音信号，但是第一目标声音信号比较突出，其它声音信号比较弱，既可以保留真实环境中的各种声音，还可以突出第一目标声音，录像体验较好，得到的录像文件质量较高。

第二方面，提供一种电子设备，包括：

处理器，存储器，以及，一个或多个程序；

其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个程序包括指令，当所述指令被所述处理器执行时，使得所述电子设备执行如下步骤：

启动所述电子设备的摄像头和麦克风，所述摄像头用于采集视频信号，所述麦克风用于采集环境中的声音信号；

确定所述环境中的声音信号中的第一目标声音信号，所述第一目标声音信号是所述环境中所包括的N种声音信号中的一种或多种声音信号，所述N种声音信号的频率和/或声源不同，N为大于或等于1的整数；

将所述摄像头采集的视频信号与所述第一目标声音信号合成录像文件。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：在所述电子设备的显示屏上显示N个标签，所述N个标签用于标识所述N种声音信号；响应于用于选择目标标签的操作，确定目标标签，所述目标标签对应的声音信号为所述第一目标声音信号。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：确定所述视频信号中的主体拍摄对象，所述主体拍摄对象是所述视频信号中的一个或多个物体；根据所述主体拍摄对象，确定第一目标声音信号，所述第一目标声音信号的声源是所述主体拍摄对象。

在一种可能的设计中，所述主体拍摄对象是用户在预览界面上指定的所述视频信号中的物体；或者，所述主体拍摄对象是所述视频信号中用户感兴趣的物体。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：检测到用于指示第一模式的第二操作，所述第一模式是用于指示录制特定声音信号的模式；响应于所述第二操作，确定所述特定声音信号为所述第一目标声音信号。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：检测到用户唤出所述N个标签的唤出操作；显示屏上显示所述N个标签。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：显示预览界面，所述预览界面中包括所述摄像头采集的视频信号；确定所述预览界面中的M个拍摄对象的位置；在所述预览界面中所述M个拍摄对象的位置处显示M个标签，所述M个拍摄对象是所述N个标签中M个标签所对应的M种声音信号的声源；或者，在所述预览界面中其它位置处显示所述N个标签中所述M个标签之外的N-M个标签；其中，M为大于等于1小于等于N的整数。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备还执行如下步骤：在确定所述第一目标声音信号之后，等待预设时长自动开始录像；或者，在确定所述第一目标声音信号之后，检测到用于指示开始录像的操作时，开始录像。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：将所述摄像头在第一时长内采集的视频信号与所述麦克风在所述第一时长内采集的第一目标声音信号合成第一录像片段，所述第一时长是确定所述第一目标声音信号之后的时长；当所述指令被所述处理器执行时，使得所述电子设备还执行如下步骤：在停止录像之前，根据目标声音信号切换操作，将所述第一目标声音信号切换为第二目标声音信号；将所述摄像头在第二时长内采集的视频信号与所述麦克风在所述第二时长内采集的第二目标声音信号合成第二录像片段，所述第二时长是切换到所述第二目标声音信号之后的时长；停止录像指令，将所述第一录像片段与第二录像片段合成录像文件。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备还执行如下步骤：响应于停止录制指令，存储第一录像文件和第二录像文件；其中，所述第一录像文件由所述摄像头采集的视频信号与所述环境中N种声音信号合成，所述第二录像文件由所述摄像头采集的视频信号和所述第一目标声音信号合成。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：增强所述第一目标声音信号，和/或，弱化其它声音信号，所述其它声音信号是所述N种声音信号中所述第一目标声音信号之外的其它声音信号；将所述摄像头采集的视频信号与增强后的所述第一目标声音信号和弱化后的所述其它声音信号合成录像文件。

第三方面，还提供一种录像文件处理方法，应用于电子设备。该方法包括：确定本地存储的录像文件中待处理的第一录像文件，所述第一录像文件中包括视频信号和N种声音信号，N为大于或等于1的整数；确定所述N种声音信号中的目标声音信号；将所述第一录像文件中的所述目标声音信号增强，和/或，将所述第一录像文件中的其它声音信号弱化，以得到第二录像文件，所述其它声音信号是所述N种声音信号中所述目标声音信号以外的其它声音信号。

也就是说，本申请实施例可以对已经录制完成的录像文件进行处理，突出录像文件中的目标声音信号，弱化录像文件中的其它声音信号，比如可以对录像文件中嘈杂的或用户不喜欢的声音弱化，提升录像文件的质量。

需要说明的是，一般情况下，用户在录像过程中，可能并未考虑到环境中声音嘈杂或者环境中有用户不想要录入的声音，等录像完成之后，用户打开录像文件才发现有些声音被录入，此时，可以使用后处理方式对录像文件中的声音信号进行处理，用户体验较好。

示例性的，确定本地存储的录像文件中待处理的第一录像文件，包括电子设备启动第一应用，所述第一应用中包括至少一个录像文件，根据用户操作，确定待处理的第一录像文件。其中，第一应用可以是电子设备的本地图库或云端图库；或者，第一应用是短视频应用，第一录像文件是电子设备下载的短视频；或者，第一应用是即时通信应用，第一录像文件中其它联系人发送的视频；或者，第一应用是社交网络，第一录像文件是从社交网络中下载的视频(比如别人发布后用户下载的视频)。

在一种可能的设计中，确定所述N种声音信号中的目标声音信号，包括：显示N个标签，所述N个标签用于标识所述N种声音信号；响应于用于选择目标标签的操作，确定目标标签，所述目标标签对应的声音信号为所述目标声音信号。

在一种可能的设计中，确定所述N种声音信号中的目标声音信号，包括：确定所述视频信号中的主体拍摄对象；所述主体拍摄对象是所述视频信号中的一个或多个物体；根据所述主体拍摄对象，确定所述目标声音信号，所述目标声音信号的声源是所述主体拍摄对象。

示例性的，所述主体拍摄对象是所述视频信号中用户指定的所述视频信号中的物体；或者，所述主体拍摄对象是所述视频信号中用户感兴趣的物体。

第四方面，提供一种电子设备，包括：

处理器，存储器，以及，一个或多个程序；

确定本地存储的录像文件中待处理的第一录像文件，所述第一录像文件中包括视频信号和N种声音信号，N为大于或等于1的整数；确定所述N种声音信号中的目标声音信号；将所述第一录像文件中的所述目标声音信号增强，和/或，将所述第一录像文件中的其它声音信号弱化，以得到第二录像文件，所述其它声音信号是所述N种声音信号中所述目标声音信号以外的其它声音信号。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：显示N个标签，所述N个标签用于标识所述N种声音信号；响应于用于选择目标标签的操作，确定目标标签，所述目标标签对应的声音信号为所述目标声音信号。

在一种可能的设计中，当所述指令被所述处理器执行时，使得所述电子设备具体执行如下步骤：确定所述视频信号中的主体拍摄对象；所述主体拍摄对象是所述视频信号中的一个或多个物体；根据所述主体拍摄对象，确定所述目标声音信号，所述目标声音信号的声源是所述主体拍摄对象。

第五方面，还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如上述第一方面或第三方面提供方法。

第六方面，还提供一种计算机程序产品，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如上述第一方面或第三方面提供的方法。

第七方面，还提供一种电子设备上的图形用户界面，所述电子设备具有显示屏、存储器、以及处理器，所述处理器用于执行存储在所述存储器中的一个或多个计算机程序，所述图形用户界面包括所述电子设备执行如上述第一方面或第三方面提供的方法时显示的图形用户界面。

第八方面，本申请实施例还提供一种芯片系统，所述芯片系统与电子设备中的存储器耦合，用于调用存储器中存储的计算机程序并执行本申请实施例第一方面的技术方案，或者，用于调用存储器中存储的计算机程序并执行本申请实施例第三方面的技术方案，本申请实施例中“耦合”是指两个部件彼此直接或间接地结合。

上述第二方面至第八方面的有益效果，参见第一方面的有益效果，不重复赘述。

附图说明

图1为本申请一实施例提供的第一种应用场景的示意图；

图2A为本申请一实施例提供的第二种应用场景的示意图；

图2B为本申请一实施例提供的第三种应用场景的示意图；

图3为本申请一实施例提供的电子设备的结构示意图；

图4为本申请一实施例提供的录像方法的流程示意图；

图5至图6为本申请一实施例提供的从混合声音信号中分离不同声音信号的示意图：

图7为本申请一实施例提供的电子设备中相机应用的录像方法的流程示意图；

图8至图9为本申请一实施例提供的电子设备显示预览界面的示意图；

图10至图14为本申请一实施例提供的电子设备显示标签的示意图；

图15至图18为本申请一实施例提供的电子设备开始录像后的GUI的示意图；

图19为本申请一实施例提供的录像文件处理方法的流程示意图；

图20为本申请一实施例提供的电子设备中图库应用的示意图；

图21至图23为本申请一实施例提供的电子设备对录像文件处理过程的示意图；

图24为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

以下，对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。

除非有相反的说明，本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分，不用于限定多个对象的大小、内容、顺序、时序、优先级或者重要程度等。

如前文所述，对于声音比较嘈杂的拍摄场景(比如演唱会、闹市等)，用户拍摄出的视频文件往往杂音较多，拍摄效果较差。一种解决方案是，采用电视剧后期配音的方式来进行后期配音。比如，在拍摄视频时，不采集声音信号或者对拍摄完的视频文件进行消音处理后，再额外对视频文件进行配音。这种后期配音的方式一般需要使用专门的软件工具，而且将配音与视频信号实现同步需要专业技术人员，总之，后期制作难度较大，对于非专业用户来说，难以实现。

本申请实施例提供一种录像方法、录像文件处理方法与电子设备。具体的，本申请实施例提供的录像方法可以确定环境中的声音信号中的第一目标声音信号，在录像时，将所述摄像头采集的视频信号与所述第一目标声音信号合成录像文件。这样，电子设备得到的录像文件包括第一目标声音信号，不包括环境中其它声音信号，即过滤掉了环境中嘈杂的声音，保留了第一目标声音信号，提升视频拍摄质量。

下面介绍本申请实施例提供的几种应用场景。

示例性的，图1为本申请实施例提供的一种应用场景的示意图。该应用场景为用户正在使用电子设备(如手机)录制海边风景的场景。电子设备的摄像头正实时的采集视频信号(包括海浪、鸟、山等拍摄对象)，麦克风正实时的采集环境中的声音信号，所述环境中的声音信号包括海浪声、鸟鸣声、人声等多种声音信号。电子设备可以确定环境中多种声音信号中的第一目标声音信号，然后将第一目标声音信号与摄像头采集的视频信号合成录像文件。假设第一目标声音信号是海浪声，那么录像文件由摄像头采集的视频信号与海浪声合成，不包括人声、鸟声等杂音。或者，电子设备确定第一目标声音信号之后，增强第一目标声音信号和/或弱化环境中其它声音信号，将增强后的第一目标声音信号和/或弱化后的其它声音信号和摄像头采集的视频信号合成录像文件。这样，录像文件中可以包括环境中多种声音信号，但是第一目标声音信号的声音较为突出，其它声音信号相对较弱，录像效果较好。

示例性的，图2A为本申请实施例提供的又一种应用场景的示意图。该应用场景为用户正在使用电子设备(如手机)录制会议的场景。电子设备的摄像头正实时的采集视频信号(包括参会人、桌子、屏幕等拍摄对象)，麦克风在实时的采集环境中的声音信号，所述环境中的声音信号包括演讲人的声音、听讲人的声音等多种声音信号。电子设备可以确定所述环境中多种声音信号中的第一目标声音信号，然后将第一目标声音信号与摄像头采集的视频信号合成录像文件。假设第一目标声音信号是演讲人的声音，即录像文件由摄像头采集的视频信号与演讲人的声音合成，不包括听讲人的声音，这样拍摄出的录像文件杂音较少，效果较好。或者，电子设备确定第一目标声音信号之后，增强第一目标声音信号和/或弱化环境中其它声音信号，将增强后的第一目标声音信号和/或弱化后的其它声音信号和摄像头采集的视频信号合成录像文件。这样，录像文件中可以包括环境中多种声音信号，但是第一目标声音信号(如，演讲人的声音)的声音较为突出，其它声音信号(听讲人的声音)相对较弱，录像效果较好。

示例性的，图2B为本申请实施例提供的另一种应用场景的示意图。该应用场景为用户正在使用电子设备(如手机)录制演唱会的场景。电子设备的摄像头正实时的采集视频信号(包括舞台、演唱者、观众等拍摄对象)，麦克风在实时的采集环境中的声音信号，所述环境中的声音信号包括演唱者的唱歌声、观众的呐喊声等多种声音信号。电子设备可以确定所述环境中多种声音信号中的第一目标声音信号，然后将第一目标声音信号与摄像头采集的视频信号合成录像文件。假设第一目标声音信号是演唱者的唱歌声，即录像文件由摄像头采集的视频信号与唱歌声合成，不包括观众的呐喊声，这样拍摄出的录像文件杂音较少，效果较好。或者，电子设备确定第一目标声音信号之后，增强第一目标声音信号和/或弱化环境中其它声音信号，将增强后的第一目标声音信号和/或弱化后的其它声音信号和摄像头采集的视频信号合成录像文件。这样，录像文件中可以包括环境中多种声音信号，但是第一目标声音信号(如，演唱者的唱歌声)的声音较为突出，其它声音信号(观众的呐喊声)相对较弱，录像效果较好。

本申请实施例提供的录像方法、录像文件处理方法可以应用于电子设备，所述电子设备可以是具有摄像头、显示屏的任意设备，诸如手机、平板电脑、可穿戴设备(例如，手表、手环、头盔、耳机、项链等)、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等，本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图3示出了电子设备100的结构示意图。如图3所示，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serialbus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。充电管理模块140用于从充电器接收充电输入。电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

显示屏194用于显示应用的显示界面，例如相机应用的取景界面等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，以及至少一个应用程序(例如爱奇艺应用，微信应用等)的软件代码等。存储数据区可存储电子设备100使用过程中所产生的数据(例如拍摄的图像、录制的视频等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将图片，视频等文件保存在外部存储卡中。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。

陀螺仪传感器180B可以用于拍摄防抖。气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备100姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现与电子设备100的接触和分离。

可以理解的是，图3所示的部件并不构成对电子设备100的具体限定，电子设备100还可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。此外，图3中的部件之间的组合/连接关系也是可以调整修改的。

下文以图3所示的电子设备(以手机为例)为例，结合附图介绍本申请实施例提供的技术方案。

实施例一

请参见图4，为本申请实施例提供的录像方法的流程示意图。该方法可以适用于图1所示的电子设备，所述方法的流程包括：

S1，启动电子设备的摄像头和麦克风，所述摄像头用于采集视频信号，所述麦克风用于采集环境中的声音信号。

S2，确定环境中的声音信号中的第一目标声音信号，所述第一目标声音信号是所述环境中所包括的N种声音信号中的一种或多种声音信号，所述N种声音信号的频率和/或声源不同，N为大于或等于1的整数。

一般，环境中的声音信号包括多种，可以理解为混合声音信号。因此，S2可以包括：对混合声音信号进行分离得到至少一个音频组，然后在至少一个音频组中，确定目标音频组(即第一目标声音信号)。

其中，对混合声音信号进行分离可以有多种方式，包括但不限定于如下至少一种：

第一种方式，根据不同声音信号的频率范围，对混合声音信号进行分离。

示例性的，电子设备可以预先存储一个声音区分表，该声音区分表内记载了不同的频率区间(声音的频率一般以赫兹(Hz)为单位，即每秒钟周期性震动的次数)。其中，区分表中的不同频率区间可以是事先设置好的。比如，声音区分表请参见下表1：

表1：声音区分表

频率区间(Hz)	声音
		区间1	音频组文件1
区间2	音频组文件2
		区间3	音频组文件3

电子设备基于上面的表1，可以对混合声音信号进行分离。比如，混合声音信号中声音频率处于区间1内的声音信号分离出来作为音频组文件1，混合声音信号中声音频率处于区间2内的声音信号分离出来作为音频组文件2，混合声音信号中声音频率处于区间3内的声音信号分离出来作为音频组文件3。也就是说，混合声音信号被分离为三个音频组文件。电子设备可以存储这三个音频组文件，可选的，存储时可以对每个音频组文件进行命名，比如分别命名为音频组1至音频组3。

这种方式，通过不同频率区间对混合声音信号进行了分离，但是不清楚分离出的每个音频组文件具体是什么样的声音类型，比如是风声还是海浪等等。这种区分方式实现难度较低，效率较高。

第二种方式，在第一种方式的基础上可以进一步优化。具体来说，考虑到不同声源发出的声音具有特定的频率范围，所以上面表1中的不同频率区间可以对应不同类型的声源的发声频率区间。比如，人的发声频率范围为100Hz(如男低音)到10000Hz(如女高音)，风声的频率范围在70Hz-100Hz内。因此，电子设备中可以存储风声、雨声、雷声、海浪声、脚步声、鸟鸣声、人说话声等各种声源的发声频率区间。这样，上面的表1可以细化为下表的表2：

表2：声音区分表

频率区间(Hz)	声源类型	声音
			区间1	风声	音频组文件1
区间2	人声	音频组文件2
			区间3	海浪声	音频组文件3

电子设备可以基于上面的表2，对混合声音信号进行分离。比如，混合声音信号中声音频率处于区间1内的声音信号分离出来作为音频组文件1存储；混合声音信号中声音频率处于区间2内的声音信号分离出来作为音频组文件2存储；混合声音信号中声音频率处于区间3内的声音信号分离出来作为音频组文件3存储。由于第二种方式分离出音频组文件之后，可以确定分离出的单独的音频文件组的声源类型，所以在存储分离出的音频组文件时，可以对音频组文件进行命名。比如，音频组文件1命名为风声，音频组文件2命名为人声、音频组文件3命名为海浪声。示例性的，请参见图5，电子设备中的声音分离模块，可以根据声音区分表(如上面的表2)将混合声音信号进行分离，得到不同声源类型的声音信号，如风声、雨声、海浪声等。

简单来说，上面的第二种方式分离出的多个音频组文件所对应的声源的类型不同，比较准确。

第三种方式，利用麦克风阵列，对混合声音信号进行分离。

其中，麦克风阵列可以理解为按照特定规则(比如三行三列，五行五列等)分布的多个麦克风。麦克风阵列中每个麦克风都可以采集声音信号，所以麦克风阵列采集的声音信号可以形成一个声音矩阵。对于每个声源麦克风阵列都可以得到一个声音矩阵，这样的话，每个声源可以对应一个声音矩阵，不同声音源对应的声音矩阵不同，从而得以区分。具体的，通过麦克风阵列得到每个声音源的声音矩阵的方式可以利用独立成分分析(independent component correlation algorithm，ICA)算法来实现，本文不多赘述。

相对于前面的第二种方式来说，第三种方式较为准确。因为，第二种方式可以对不同声源类型的声音信号进行区分，但是对于同一种类的声源发出的声音信号，通过上面第二种方式难以区分。比如，第二种方式可以对人的声音和海浪的声音进行分离，但是无法区分出不同人的声音，比如，人物1和人物2这两个人的声音无法进一步区分。通过第三种方式可以将同一种类的声源的声音信号进行区分，准确性更高。

第四种方式，通过声纹识别，对混合声音信号进行分离。

由于不同声源的声纹不同，比如，不同人的声纹不同，不同动物的声纹也不同。因此，电子设备中可以预先存储声纹数据库，声纹数据库中存储不同声源(比如不同人或不同动物)对应的声纹。从混合声音信号中提取多个音频组(比如使用第一种方式)，然后将音频组的声纹与声纹数据库中的声纹进行匹配，确定是音频组的声源(比如，哪个人发出的声音)。这种方式需要一定的存储空间用于存储声纹数据库，如果电子设备的存储空间足够，声纹数据库可以存储在电子设备中，如果电子设备的存储空间不够，可以将声纹数据库存储在云端，当电子设备需要对混合声音信号进行分离时，可以将混合声音信号发送给云端，由云端根据声纹数据库对混合声音信号进行分离，然后将分离结果反馈给电子设备。通过第四种方式也可以将同一种类的声源的声音信号进行区分，准确性更高。

需要说明的是，上述四种方式可以单独使用，也可以结合使用。比如，第二种方式与第三种方式结合，即经过两次处理，第一次可以按照声音区分表进行粗略的区分，第二次是对第一次区分结果作进一步区分(比如，对同类声源的声音信号进行进一步分离)。示例性的，请参见图6，第一次分离出人声、风声等，第二次分离时，将人声中不同人物的声音分离出。这样，经过两次分离过程，声音信号的划分较为准确。

混合声音信号被分离成至少一个音频组之后，可以确定目标音频组(即第一目标声音信号)。可以理解的是，如果仅分离出一个音频组，那么可以确定该音频组是第一目标声音，如果分离出至少两个音频组，可以在所述至少两个音频组中确定第一目标声音信号。

其中，第一目标声音信号的确定方式有多种，包括但不限定于如下至少一种：

方式A

根据用户选择操作，确定第一目标声音信号。

示例性的，电子设备将混合声音信号进行分离得到至少两个音频组之后，可以将所述至少两个音频组以一定的方式展示出来供用户选择。比如，每个音频组对应一个标签展示，用户选中哪一个标签，则该标签对应的音频组为目标音频组(即第一目标声音信号)。

方式B

确定所述待处理的视频信号中主体拍摄对象，根据所述主体拍摄对象确定目标音频组(即第一目标声音信号)，所述主体拍摄对象是所述目标音频组的声源。

其中，主体拍摄对象可以是所述待处理的视频信号中一个或多个物体。所述一个或多个物体可以是同一种类型的一个或多个物体或不同类型的一个或多个物体，对此不作限定。当存在多个物体时，主体拍摄对象可以是多个物体中的目标物体。比如，目标物体可以是预设物体。所述预设物体可以是默认设置好的物体；或者，是用户预先设置的，本申请实施例对此不作限定。再比如，目标物体还可以是用户感兴趣的物体。其中，用户感兴趣的物体可以是电子设备记录的用户经常拍摄的物体，或者经常修图的物体。一种可实现方式为，以物体是猫为例，电子设备确定图库应用中存储的图像中猫的图像数量较多，那么确定用户感兴趣的物体是猫。另一种可实现方式为，电子设备记录用户使用修改软件对图像进行修图时修图次数较多的物体，确定该修图次数较多的物体是用户感兴趣的物体。当电子设备确定待处理视频信号中存在用户感兴趣的物体时，确定所述物体为目标对象。

或者，主体拍摄对象还可以是所述待处理的视频信号中一个或多个物体类型。其中，一种物体类型可以对应一个或多个属于该种类型的物体，换句话说，当主体拍摄对象是物体类型时，该主体拍摄对象包括待处理的视频信号中属于该物体类型的所有物体。例如，视频信号中包括人物1和人物2，如果主体拍摄对象是“人物”这一物体类型时，那么确定待处理视频信号中的主体拍摄对象包括人物1和人物2这两个物体。当存在多种物体类型时，主体拍摄对象可以是多种物体类型中的目标物体类型。目标物体类型可以是多种物体类型中的任意一种或多种物体类型，如果目标物体类型是多种物体类型的话，即同时识别多种物体类型。比如，目标物体类型多种物体类型中具有较高优先级的物体类型。比如，优先级关系是：人物>动物>文字>美食>花卉>绿植>建筑物。电子设备可以先确定待处理视频信号中是否包括“人物”类型，如果包括“人物”类型，则确定待处理视视频信号中属于“人物”类型的所有物体(即待处理视频信号中的所有人)为主体拍摄对象；如果不包括“人物”类型，则继续确定是否包括“动物”类型，如果包括“动物”类型，则确定待处理视频信号中属于“动物”类型的所有物体为主体拍摄对象，当然，如果不包括“动物”类型，则继续识别下一个等级的物体类型，以此类推。其中，所述优先级关系可以是出厂默认设置好的，或者，也可以是用户设置的，本申请对此不作限定。再比如，目标物体类型还可以是预设物体类型。所述预设物体类型可以是出厂默认设置好的物体类型或用户设置的物体类型，本申请实施例对此不作限定。再比如，目标物体类型还可以是用户感兴趣的物体类型。一种可实现方式为，以物体是猫为例，电子设备确定图库应用中存储的图像中猫的图像数量较多，那么确定用户感兴趣的物体类型是“动物”类型。另一种可实现方式为，电子设备记录用户使用修改软件对图像进行修图时修图次数较多的物体，确定该修图次数较多的物体所属的物体类型是用户感兴趣的物体类型。

在确定出主体拍摄对象之后，可以根据分离出至少两个音频组的声源类型，确定声源类型与所述主体拍摄对象相匹配的音频组为第一目标声音信号。比如，主体拍摄对象是人物，所述至少两个音频组中的声源为人物的音频组为目标音频组(即第一目标声音信号)。

方式C

电子设备提供多种特定声音信号录制模式，用户可以选择某种特定声音信号录制模式，电子设备确定用户所选择的特定声音信号为第一目标声音信号。比如，电子设备提供风声录像模式、雨声录制模式等等，用户选择风声录制模式的话，电子设备从采集的混合声音信号中确定风声，然后将风声与摄像头采集的视频信号合成录像文件。

S4，将摄像头采集的视频信号与第一目标声音信号合成录像文件。

其中，将第一目标声音信号与视频信号合成的方式有多种，包括但不限定于如下方式A和方式B。

方式A，确定出第一目标声音信号之后，只将第一目标声音信号与视频信号合成。也就是说，合成的录像文件中仅包括第一目标声音信号，不包括环境中其它声音信号。这种方式，可以完全过滤其它声音信号，声音干净。可选的，这种方式，在将第一目标声音信号与视频信号合成之前，还可以增强第一目标声音信号，然后将增强后的第一目标声音信号与视频信号合成录像文件。

方式B，确定出第一目标声音信号之后，增强第一目标声音信号和/或削弱其它声音信号，然后将增强后的第一目标声音信号和削弱后的其它声音信号与所述待处理的视频信号合成，其中其它声音信号是所述环境中声音信号中第一目标声音信号之外的其它声音信号。其中，增强第一目标声音信号的方式可以是增大第一目标声音信号的强度，削弱其它声音信号可以是降低其它声音信号的强度。这样的话，合成的视频文件中包括环境中多个声音信号，但是第一目标声音信号的声音突出、其它声音信号较弱。

示例性的，下面以电子设备使用相机应用进行录像为例，介绍本申请实施例提供的录像方法。

示例性的，请参见图7，为本实施例二提供的录像方法的流程示意图。该图7可以理解为图4的细化，具体来说，图7中S702是对图4中S1的细化，图7中S703是对图4中S2的细化，图7中S704至S706是对图4中S3的细化，图7中S707是对图4中S4的细化。如图7所示，所述流程包括：

S701，启动相机应用。

示例性的，图8中的(a)示出了手机的一种图形用户界面(graphical userinterface，GUI)，该GUI为手机的桌面。当手机检测到用户点击桌面上的相机应用的图标的操作后，可以启动相机应用。

S702，启动摄像头，用于采集视频信号。

S703，启动麦克风，用于采集环境中的声音信号。

S704，显示预览界面，所述预览界面内显示所述摄像头采集的视频信号。

示例性的，电子设备启动相机应用后，显示如图8中的(b)所示的另一GUI，该GUI可以称为预览界面801。预览界面801用于显示摄像头采集的视频信号。预览界面801上还可以包括用于指示拍照模式的控件802，用于指示录像模式的控件803，以及拍摄控件804。在拍照模式下，当手机检测到用户点击该拍摄控件804的操作后，手机执行拍照操作；在录像模式下，当手机检测到用户点击该拍摄控件804的操作后，手机执行录像的操作。

需要说明的是，目前手机录像时不会对麦克风所采集的环境中的声音信息进行处理，而本实施例二中在录像时对采集的环境中的声音信号中的目标声音进行处理(比如加强处理)，所以，如果将目前的录像模式称为一般录像模式，将本申请的录像模式称为特定声音录像模式，那么，手机可以提供至少两种录像模式。可选的，在手机使用本申请的特定声音录像模式进行录像之前，用户可以将手机上相机应用的录像模式设置为特定声音录像模式。示例性的，请参见图8(b)，预览界面801上包括模式选项805。当手机检测到用户点击拍摄选项805后，显示图8(c)所示的模式选择界面。在手机检测到用户点击拍摄模式界面上用于指示特定声音录像模式的控件806后，手机进入特定声音录像模式。

当然，另一些实施例中，用户也可以无需设置特定声音录像模式。比如，手机系统默认使用特定声音录像模式，或者，上一次设置了特定声音录像模式，下一次使用相机应用录像时，默认使用上一次所设置的特定声音录像模式。

可选的，手机进入特定声音录像模式之后，可以显示如图9的预览界面801，该预览界面801中可以显示提示信息807，用于提示用户当前处于特定声音录制模式，图8中以提示信息807是声波信号为例，可以理解的是，其它的提示信息也是可以的。可选的，为了不遮挡预览界面801，提示信息807显示一段时长之后，可以自动消失。

S705，确定所述环境中的声音信号中的第一目标声音信号。

其中，S705的实现方式包括如下至少一种方式。

第一种方式，在预览界面801上显示N个标签，所述N个标签用于标识所述环境中的N种声音信号；响应于用于选择目标标签的操作，确定目标标签，所述目标标签对应的声音信号为所述第一目标声音信号。具体的，第一种方式可以包括步骤1至步骤3。

步骤1；将环境中的声音信号分离为N个音频组，N为大于或等于2的整数，分离原理与前面图4中S3的实现原理相同，在此不重复赘述。

步骤2：设置N个标签用于标识N个音频组并显示N个标签。比如，将环境中的声音信号分离出N个音频组后，会存储N个音频组文件，在存储时可以为每个音频组文件进行命名，示例性的，标签可以是音频组文件的命名。

比如，如果S704使用前面的第一种方式将环境中的声音信号分离得到N个音频组，由于并不知道每个音频组是风声、雨声或人声中哪种类型。因此，存储每个音频组文件时，直接将音频组命名为音频组1、音频组2、音频组3等。这种情况下，标签可以是存储的音频组文件的命名，即音频组1、音频组2、音频组3等。示例性的，请参见图10，预览界面801中显示多个标签，包括音频组1、音频组2、音频组3等等。预览界面801还可以显示提示信息：点击音频组以增强对应的音频。比如，用户点击音频组1，则增强音频组1对应的音频。这种情况下，用户从标签上无法直接区分出每个音频组是什么样的声音，用户可以逐一点击每个标签，即逐一尝试每个标签的对应的音频组的声音。

比如，如果S704使用的是前面的第二种方式至第四种方式中的任意一种或多种进行分离得到N个音频组，由于可以确定分离出的音频组的类型，比如是风声、雨声还是人声等。因此，存储每个音频组文件时，可以将音频组文件直接命名为风声、鸟鸣、雨声等等。这种情况下，标签可以是音频组文件的命名。示例性的，请参见图11，预览界面801中显示多个标签，包括风声、鸟鸣、海浪声、脚步声等。这种标签更加形象，用户通过标签就可以直接区分出每个音频组是什么样的声音，不需要逐一尝试每个标签对应的声音。

需要说明的是，上面的图10和图11中，以N个标签纵向排列的显示在预览界面801右侧区域为例，可以理解的是，标签的显示位置和/或显示形态可以调整，比如，标签的显示形态可以是纵向排列也可以是横向排列，显示位置可以在预览界面801上右侧区域，也可以在预览界面801上左侧区域，等等。

再比如，标签还可以显示在预览界面801中拍摄对象所在的位置处。示例性的，请参见图12，鸟鸣声标签显示在鸟所在位置处，海浪声标签显示在海浪所在位置处。对于风声、脚步声等，由于预览界面801中不存在对应的拍摄对象，那么可以显示在任意位置或者显示在可能出现风声或脚步声的位置处。比如，图12中，风声标签显示在天空处，脚步声标签显示在沙滩位置处。这种标签的显示方式，更加方便用户区分，用户体验更好。

可以理解的是，在以图12所示的方式显示N个标签之前，可以先识别预览界面中拍摄对象。假设电子设备识别出预览界面中包括P个拍摄对象，而标签数量为N，P和N之间存在三种关系。

1、P>N

标签的数量N小于预览界面中拍摄对象的数量P。一种可能的场景为，摄像头采集的视频信号中各种各样的拍摄对象，其中部分拍摄对象并未发出声音(比如蓝天、白云等)，所以麦克风采集不到这部分拍摄对象的声音信号，所以出现拍摄界面中拍摄对象的数量大于标签的数量的情况。

2、P＝N

3、P<N

标签的数量N大于预览界面中拍摄对象的数量P。一种可能的场景为，因为摄像头的视场角有限，摄像头采集的视频信号中不包括不在视场范围内的拍摄对象，但是不在视场范围内的拍摄对象发出的声音会被麦克风采集，类似旁白声音。这种场景下会出现摄像头采集的视频信号中没有某个物体，但是麦克风采集的声音信号中包括该物体的声音信号，即，拍摄界面中的拍摄对象的数量小于标签的数量。比如，图12中，预览界面801中没有出现小孩这一拍摄对象，假设环境中有小孩的玩耍的声音，那么采集的声音信号中包括小孩玩耍声音。

以上三种情况中，电子设备在预览界面中显示N个标签时，可以根据N个标签中M个标签，在P个拍摄对象中匹配出对应的M个拍摄对象，所述M个拍摄对象是所述M个标签所对应的M种声音信号的声源。然后，将M个标签显示在M个拍摄对象所在位置。对于N个标签中的其它标签(M个标签之外的其它标签)可以显示在预览界面中的其它位置处。比如，请参见图12，电子设备识别出拍摄对象鸟，则将鸟鸣声标签显示在鸟所在位置处，电子设备识别出海水这一拍摄对象，则将海浪声标签显示在海水所在位置处。对于风声或脚步声，由于未识别出对应的拍摄对象，此时，可以在任意位置显示，或者可以在有可能出现风声或脚步声的位置处显示。比如，图12中，风声标签显示在天空处，脚步声标签显示在沙滩位置处。

需要说明的是，上面的实施例中，电子设备将环境中的声音信号分离为N个音频组后，预览界面801中自动显示出N个标签。在另一些实施例中，电子设备将环境中的声音信号分离为N个音频组后，预览界面801中不会自动出现标签，当接收到用于唤出标签的操作时，显示标签。其中，用于唤出标签的操作可以是预设手势操作(比如在预览界面801的任意位置的双击或长按操作)，或者，预览界面801中显示特定控件，当检测到针对该控件的操作时，唤出标签，或者，接收到用于指示标签的语音指令时，唤出标签。

当然，标签显示出来之后，还可以隐藏。比如，电子设备接收到用于隐藏标签的操作时，隐藏标签。所述用于隐藏标签的操作可以是预设手势操作(比如在预览界面801的任意位置的双击或长按操作)，或者，预览界面801中显示特定控件，当检测到针对该控件的操作时，隐藏标签，或者，接收到用于指示标签的语音指令时，隐藏标签。示例性的，请参见图13(a)所示，预览界面801中显示标签，当检测到在预览界面801上任意位置的双击或长按操作，隐藏标签，如图13(b)。当再次检测到在预览界面上任意位置的双击或长按操作，唤出标签，如图13(c)。

步骤3，接收用户输入操作，根据所述输入操作确定目标标签。

示例性的，请参见图14，用户点击风声标签之后，显示提示信息：已选择“风声”，将在3s后开始重点录制“风声”，再次点击可取消重点录制“风声”。也就是说，当点击风声标签之后，3s后开始自动录制。可选的，当用户选择风声标签之后，风声标签可以突出显示，比如高亮，放大、加粗等等。

第二种方式为，确定所述视频信号中的主体拍摄对象；所述主体拍摄对象是所述视频信号中的一个或多个物体或者一个或多个物体种类；根据所述主体拍摄对象，确定第一目标声音信号，所述第一目标声音信号的声源是所述主体拍摄对象。

其中，所述主体拍摄对象的确定方式与前面图4中S3中目标音频组的多种确定方式中方式B的实现原理相同，不重复赘述。

示例性的，请参见图15，预览界面801中包括多个拍摄对象，鸟、海浪、船等等。电子设备可以自动识别主体拍摄对象(实现原理前面已介绍过)，或者，用户可以指定主体拍摄对象。比如，用户通过画圈操作选择主体拍摄对象；或者，用户可以通过语音指令指定主体拍摄对象。

S706，开始录制视频。

方式A，在确定所述第一目标声音信号之后，等待预设时长自动开始录像；

可选的，在用户选择了目标标签后的一定时间(比如3s)可以自动开始录制。比如，以图14为例，选择风声标签3s后自动开始录制。

方式B，在确定所述第一目标声音信号之后，检测到用于指示开始录像的操作时，开始录像。也就是说，在用户选择了目标标签之后，不会自动开始录制，当接收到开始录制指令时，开始录制。继续以图14为例，当用户选择风声标签之后，3s后不会自动开始录制，当检测到用户点击录制按键804时，开始重点录制风声，即显示图16所示的录制界面1601，该录制界面1601中只包括风声标签不包括其它标签，代表当前正在重点录制风声，而且，还显示录制时间，表征当前正在录制视频。

S707，将所述摄像头采集的视频信号与所述第一目标声音信号合成录像文件。

其中，S707的实现原理请参见图4中S4的实现原理，在此不重复赘述。以图16为例，电子设备前台显示图16所示的录制界面1601时，后台将麦克风采集的环境中的声音信号中风声增强，其他声音弱化，以达到重点录制风声的目的。当用户想要停止录制时，可以点击录制界面1601中的停止录像控件1602。

可选的，电子设备可以在检测到用户点击停止录像控件1602的操作时，开始合成，或者，在录制过程中实时的合成，本申请实施例对此不作限定。

以上实施例中介绍电子设备开始录制之前就确定了第一目标声音信号，可以理解的是，在录像之前或录像中途均可以更换目标声音信号。下文分两种场景介绍。

场景一

场景二

在录制中途更改目标声音信号，其中录制中途可以理解为开始录制后停止录制前。比如，电子设备重点录制第一目标声音信号一段时间后，用户可能想要紧接着(停止录像之前)重点录制第二目标声音信号。即，录制一个视频的过程中，切换了两种目标声音信号。

示例性的，在录制之前，电子设备确定了第一目标声音信号。开始录制后，电子设备将摄像头在第一时长内采集的视频信号与麦克风在第一时长内采集的第一声音信号合成得到第一录像片段，其中第一时长是在确定第一目标声音之后的时长。停止录像之前，电子设备检测到第一目标声音信号切换为第二目标声音信号，那么电子设备将摄像头在第二时长内采集的视频信号与麦克风在第二时长内采集的第二目标声音信号合成第二录像片段，第二时长是在确定第二目标声音信号之后的时长。在检测到停止录像指令时，电子设备将第一录像片段和第二录像片段合成录像文件。这样的话，电子设备得到的录像文件中不同片段突出的目标声音不同，拍摄体验较好。

如果使用第一种方式(即显示多个标签让用户选择目标标签)确定第一目标声音信号，这种情况下，在录像中途，如果用户想要切换到第二目标声音信号，可以重新在多个标签中选择新的目标标签。示例性的，请参见图17(a)，电子设备当前正在重点录制风声，录制界面1601中显示控件1603。当检测到用户点击控件1603时，唤出所有的标签，如图17(b)。当检测到用户选择另一个标签，比如海浪声标签时，开始重点录制海浪声，如图17(c)。也就是说，在开始录制后，用户可以调整目标标签，这样的话，录制完一个录像，该录像文件中不同片段内的侧重的声音不同，比如，录制文件内第一片段由所述摄像头采集的视频信号与所述第一目标声音信号合成，该录制文件内第二片段由所述摄像头采集的视频信号与所述第二目标声音信号合成。

如果是使用第二种方式(即显示屏上不显示标签，根据主体拍摄对象确定第一目标声音信号)确定第一目标声音信号。这种情况下，在录像中途，如果用户想要切换到第二目标声音信号，可以是在预览界面801中重新选择拍摄对象。由于后台建立了拍摄对象与标签之间的对应关系，当检测到用户重新选择某个拍摄对象时，确定与重新选择的拍摄对象对应的标签为目标标签。示例性的，请参见图18(a)，手机正在重点录制鸟声，当手机检测到用户选择海浪时，紧接着重点录制海浪声，比如，在3s之后，开始重点录制海浪声，如图18(b)。

实施例二

本实施例二具体介绍前面提到过的第二种场景，即对本地存储的录像文件进行后处理的场景。

请参见图19，为本实施例二提供的录像文件处理方法的流程示意图。该流程示意图可以理解为对图4所示的流程图的细化。所述流程包括：

S1901，确定本地存储的录像文件中待处理的第一录像文件，所述第一录像文件中包括视频信号和N种声音信号，N为大于或等于1的整数。

下文以电子设备中的图库应用为例进行介绍。

示例性的，图20中的(a)示出了手机的桌面。当手机检测到用户点击桌面上的图库应用的图标的操作后，可以打开图库应用，显示如图20中的(b)所示的另一GUI，该GUI可以称为图库应用的首页。首页中包括手机本地存储的录像文件的封面图。当手机检测到针对某个录像文件2001的操作时，显示如图21所示的界面，该界面中显示录像文件2001的封面图，还显示编辑控件2002。

S1902，进入对所述第一录像文件的编辑模式。

示例性的，继续以图21为例，当手机检测到用户点击编辑控件2002的操作时，进入对录像文件2001的编辑模式，比如，显示如图22(a)或图23(a)所示的界面，该界面中包括声音增强控件2201。当检测到用户点击声音增强控件2201时，进入对第一录像文件中声音信号的编辑模式。

可选的，S1902可以执行或不执行，本申请实施例不作限定，所以图中使用虚线表示。

S1903，确定所述N种声音信号中的目标声音信号。

第一种方式，显示N个标签，所述N个标签用于标识所述N种声音信号；响应于用于选择目标标签的操作，确定目标标签，所述目标标签对应的声音为所述目标声音。如图22中的(a)，电子设备检测到用于点击声音增强控件2201之后，显示如图22中的(b)所示，用户可以选择目标标签。

第二种方式，确定所述视频信号中的主体拍摄对象；所述主体拍摄对象是所述视频信号中的一个或多个物体或者一个或多个物体种类；根据所述主体拍摄对象，确定目标声音信号，所述目标声音信号的声源是所述主体拍摄对象。如图23中的(a)，电子设备检测到用于点击声音增强控件2201之后，显示如图23中的(b)所示，用户可以该界面中选择主体拍摄对象(比如画圈操作选择主体拍摄对象)，然后根据用户选择的主体拍摄对象确定目标声音信号。

S1904，将所述第一录像文件中的目标声音信号增强，和/或，将所述第一录像文件中的其它声音信号弱化以得到第二录像文件，所述其它声音信号是所述N种声音信号中所述目标声音信号以外的其它声音信号。

示例性的，继续以图22(b)为例，手机检测到用户选择海浪声标签后，当检测用户点击完成控件时，将该录像文件的海浪声增强和/或将其它声音弱化得到新的录像文件。

需要说明的是，用户使用电子设备时录像时，可能并没有意识到环境中声音嘈杂，当录像完成之后，打开录像文件观看时，可能才会意识到录像文件声音杂乱。此时，用户可以使用本实施例二的方式，对已存储的本地录制文件中的目标声音信号进行增强，其它声音信号进行弱化，改善已录制的录像文件的效果。

上述本申请提供的实施例中，从电子设备(例如手机)作为执行主体的角度对本申请实施例提供的方法进行了介绍。为了实现上述本申请实施例提供的方法中的各功能，电子设备可以包括硬件结构和/或软件模块，以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行，取决于技术方案的特定应用和设计约束条件。

基于相同的构思，图24所示为本申请提供的一种电子设备2400。该电子设备2400可以是前文中的手机。如图24所示，电子设备2400可以包括：一个或多个处理器2401；一个或多个存储器2402；通信接口2403，以及一个或多个计算机程序2404，上述各器件可以通过一个或多个通信总线2405连接。其中该一个或多个计算机程序2404被存储在上述存储器2402中并被配置为被该一个或多个处理器2401执行，该一个或多个计算机程序2404包括指令，上述指令可以用于执行如上面相应实施例中手机的相关步骤。通信接口2403用于实现与其他设备的通信，比如通信接口可以是收发器。

以上实施例中所用，根据上下文，术语“当…时”或“当…后”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。另外，在上述实施例中，使用诸如第一、第二之类的关系术语来区份一个实体和另一个实体，而并不限制这些实体之间的任何实际的关系和顺序。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。在不冲突的情况下，以上各实施例的方案都可以组合使用。

需要指出的是，本专利申请文件的一部分包含受著作权保护的内容。除了对专利局的专利文件或记录的专利文档内容制作副本以外，著作权人保留著作权。

Claims

1.一种录像方法，应用于电子设备，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，确定所述环境中的声音信号中的第一目标声音信号，包括：

在所述电子设备的显示屏上显示N个标签，所述N个标签用于标识所述N种声音信号；

响应于用于选择目标标签的操作，确定目标标签，所述目标标签对应的声音信号为所述第一目标声音信号。

3.根据权利要求1所述的方法，其特征在于，确定所述环境中的声音信号中的第一目标声音信号，包括：

确定所述视频信号中的主体拍摄对象，所述主体拍摄对象是所述视频信号中的一个或多个物体；

根据所述主体拍摄对象，确定第一目标声音信号，所述第一目标声音信号的声源是所述主体拍摄对象。

4.根据权利要求3所述的方法，其特征在于，

所述主体拍摄对象是用户在预览界面上指定的所述视频信号中的物体；或者，

所述主体拍摄对象是所述视频信号中用户感兴趣的物体。

5.根据权利要求1所述的方法，其特征在于，确定所述环境中的声音信号中的第一目标声音信号，包括：

检测到用于指示第一模式的第二操作，所述第一模式是用于指示录制特定声音信号的模式；

响应于所述第二操作，确定所述特定声音信号为所述第一目标声音信号。

6.根据权利要求2所述的方法，其特征在于，在所述显示屏上显示N个标签，包括：

检测到用户唤出所述N个标签的唤出操作；

响应于所述唤出操作，在所述显示屏上显示所述N个标签。

7.根据权利要求2或6所述的方法，其特征在于，在所述显示屏上显示N个标签，包括：

显示预览界面，所述预览界面中包括所述摄像头采集的视频信号；

确定所述预览界面中的M个拍摄对象的位置；

在所述预览界面中所述M个拍摄对象的位置处显示M个标签，所述M个拍摄对象是所述N个标签中M个标签所对应的M种声音信号的声源；或者，在所述预览界面中其它位置处显示所述N个标签中所述M个标签之外的N-M个标签；

其中，M为大于等于1小于等于N的整数。

8.根据权利要求1-7任一所述的方法，其特征在于，所述方法还包括：

在确定所述第一目标声音信号之后，等待预设时长自动开始录像；或者，

在确定所述第一目标声音信号之后，检测到用于指示开始录像的操作时，开始录像。

9.根据权利要求1-8任一所述的方法，其特征在于，将所述摄像头采集的视频信号与所述第一目标声音信号合成录像文件，包括：

将所述摄像头在第一时长内采集的视频信号与所述麦克风在所述第一时长内采集的第一目标声音信号合成第一录像片段，所述第一时长是确定所述第一目标声音信号之后的时长；所述方法还包括：

在停止录像之前，根据目标声音信号切换操作，将所述第一目标声音信号切换为第二目标声音信号；

将所述摄像头在第二时长内采集的视频信号与所述麦克风在所述第二时长内采集的第二目标声音信号合成第二录像片段，所述第二时长是切换到所述第二目标声音信号之后的时长；

检测到停止录像指令，将所述第一录像片段与第二录像片段合成录像文件。

10.根据权利要求1-8任一所述的方法，其特征在于，所述方法还包括：

响应于停止录制指令，存储第一录像文件和第二录像文件；

其中，所述第一录像文件由所述摄像头采集的视频信号与所述环境中N种声音信号合成，所述第二录像文件由所述摄像头采集的视频信号和所述第一目标声音信号合成。

11.根据权利要求1-10任一所述的方法，其特征在于，将所述摄像头采集的视频信号与所述第一目标声音信号合成录像文件，包括：

增强所述第一目标声音信号，和/或，弱化其它声音信号，所述其它声音信号是所述N种声音信号中所述第一目标声音信号之外的其它声音信号；

将所述摄像头采集的视频信号与增强后的所述第一目标声音信号和弱化后的所述其它声音信号合成录像文件。

12.一种电子设备，其特征在于，包括：

处理器，存储器，以及，一个或多个程序；

其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个程序包括指令，当所述指令被所述处理器执行时，使得所述电子设备执行如权利要求1-11任一项所述的方法步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至11中任意一项所述的方法。

14.一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如上述权利要求1-11中任意一项所述的方法。

15.一种电子设备上的图形用户界面，其特征在于，所述电子设备具有显示屏、存储器、以及处理器，所述处理器用于执行存储在所述存储器中的一个或多个计算机程序，所述图形用户界面包括所述电子设备执行上述权利要求1-11中任意一项所述的方法时显示的图形用户界面。