CN113676592B

CN113676592B - 录音方法、装置、电子设备及计算机可读介质

Info

Publication number: CN113676592B
Application number: CN202110882695.0A
Authority: CN
Inventors: 翟雁琦
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-02-17
Anticipated expiration: 2041-08-02
Also published as: CN113676592A

Abstract

本申请公开了一种录音方法、装置、电子设备及计算机可读介质，涉及音频处理技术领域，方法包括：获取电子设备执行视频录制操作时通过图像采集装置采集的视频画面，视频画面内包括多个对象；确定每个对象与图像采集装置之间的距离；基于每个对象的距离确定目标对象；基于目标对象在视频画面内的图像位置，确定目标对象与音频采集装置之间的目标方位信息；基于目标方位信息，对目标方位信息对应的目标声源执行追焦录音操作，追焦录音操作用于对音频采集装置采集的所有声源中目标声源的音频信号优化处理。开启录像后，实时的识别拍摄主体的空间角度信息，保证多人场景中的拍摄主体方向的声音信息正常处理，同时抑制目标对象周围产生的干扰音。

Description

录音方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及音频处理技术领域，更具体地，涉及一种录音方法、装置、电子设备及计算机可读介质。

背景技术

目前，在使用手机录制视频时，当出现多人同框时，无法针对某一主体进行录制音频，不能更清晰凸显说话主体的声音，对外部干扰音的抑制效果不足。

发明内容

本申请提出了一种录音方法、装置、电子设备及计算机可读介质，以改善上述缺陷。

第一方面，本申请实施例提供了一种录音方法，应用于电子设备，所述电子设备包括图像采集装置，所述方法包括：获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象；确定每个所述对象与所述图像采集装置之间的距离；基于每个所述对象的距离确定目标对象；基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息；基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于对所述音频采集装置采集的所有声源中目标声源的音频信号优化处理。

第二方面，本申请实施例还提供了一种录音装置，应用于电子设备，所述电子设备包括图像采集装置，所述装置包括：获取单元、第一确定单元、第二确定单元、第三确定单元、追焦单元。获取单元，用于获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象；第一确定单元，用于确定每个所述对象与所述图像采集装置之间的距离；第二确定单元，用于基于每个所述对象的距离确定目标对象；第三确定单元，用于基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息；追焦单元，用于基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于对所述音频采集装置采集的所有声源中目标声源的音频信号优化处理。

第三方面，本申请实施例还提供了一种电子设备，包括：一个或多个处理器；存储器；图像采集装置；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述方法。

第四方面，本申请实施例还提供了一种计算机可读介质，所述可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行上述方法。

本申请提供的录音方法、装置、电子设备及计算机可读介质，获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象；确定每个所述对象与所述图像采集装置之间的距离；基于每个所述对象的距离确定目标对象；基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息；基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于对所述音频采集装置采集的所有声源中目标声源的音频信号优化处理。因此，在多人同框的应用场景中，能够实现对所述目标对象之外的音频信号抑制，从而凸显所述目标信号的音频信号，实现对所需音频信号更清晰的录制。

本申请实施例的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的录音方法的方法流程图。

图2示出了本申请实施例提供的一种测距方法的示意图。

图3示出了本申请实施例提供的目标对象的示意图。

图4示出了本申请实施例提供的图像位置的示意图。

图5示出了本申请另一实施例提供的录音方法的方法流程图。

图6示出了本申请又一实施例提供的录音方法的方法流程图。

图7示出了本申请一实施例提供的输入选中对象的示意图。

图8示出了本申请一实施例提供的录音装置的模块框图。

图9示出了本申请一实施例提供的电子设备的示意图。

图10示出了本申请实施例的存储单元的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

当前用户使用手机平板等电子设备拍摄视频的场景越来越多，跟随产品拍照能力的提升，相应的录音能力也需要同步提升，才不会出现音画质量不匹配情况。针对目前使用手机平板等设备拍摄多人同框的场景时，实时的从所述声音数据分离出所述对象产生的第一声音数据和该第一声音数据以外的第二声音数据，按向多扬声器输出的声音数据的每声道，合成通过按该每声道设定的增益以及相位调整量控制了增益和相位后的所述第一声音数据与所述第二声音数据。

然而，发明人在研究中发现，在使用手机录制视频时，当出现多人同框时，无法针对某一主体进行录制音频，不能更清晰凸显说话主体的声音，对外部干扰音的抑制效果不足。

因此，为了克服上述缺陷，本申请实施例提供了一种录音方法、装置、电子设备及计算机可读介质，通过确定想要凸显的目标对象，确定所述目标对象与音频采集装置之间的目标方位信息；基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于对所述音频采集装置采集的所有声源中目标声源的音频信号优化处理。

请参阅图1，图1示出了本申请实施例提供的一种录音方法，该方法应用于电子设备，该电子设备可以是智能手机、平板电脑、录像机等能够录制视频的设备，该电子设备可以包括音频采集装置和图像采集装置。作为一种实施方式，该电子设备可以包括处理器，该处理器分别与音频采集装置和图像采集装置连接，该方法的执行主体可以是处理器。具体地，该方法包括：步骤S110至步骤S150。

步骤S110：获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象。

作为一种实施方式，视频录制操作可以通过电子设备中安装的相机应用程序实现视频录制。在电子设备执行视频录制操作时，该电子设备所安装的相机应用程序被激活，通过所述电子设备的显示屏显示该相机应用程序设置的预览界面，在视频录制的同时，对音频信号也进行录制，所述视频录制通过图像采集装置实现，所述音频录制通过音频采集装置实现，录制时图像采集装置采集视野范围内的物体图像，并且通过电子设备的显示屏实时显示出来。

作为一种实施方式，所述视频画面可以是在执行录制操作时，实时显示在电子设备的显示屏上的画面。

作为另一种实施方式，所述多个对象可以是所述视频画面中的所有对象，所有对象是指人像的集合，具体的，可以通过包括：人脸识别、运动追踪等技术中一种或多种来确认所述视频画面中的所有人像。

步骤S120：确定每个所述对象与所述图像采集装置之间的距离。

作为一种实施方式，可以对所述多个对象与图像采集装置的位置之间的距离进行计算。具体的，本实施例中，录制视频的视频采集装置可以是多个，可以利用摄获取景深信息，利用景深信息获取数据来提升录制效果。例如，可以利用双摄获取景深信息，然后利用所述景深信息计算出画面中主体与镜头的实际距离，依次作为对追焦录音操作的依据。

具体地，使用图像采集装置中的双摄像头，通过提取所述多个对象的景深信息，计算出每一个所述对象和图像采集装置的距离信息。其中，处理器获取到图像采集装置中的双摄像头提取到的所述多个对象的景深信息，然后进行计算，并把计算得到的每一个所述对象的距离信息存入存储器中，所述处理器和图像采集装置、音频采集装置相连接，所述存储器和处理器相连接。为了更好的理解双摄像头测距的原理，通过图2加以说明。

如图2中，摄像头1210与摄像头2220之间的距离为Y，物体230和摄像头1210与摄像头2220的连线的垂直距离Z为该物体230到图像采集模组的距离，摄像头1210与物体230的连线和摄像头1210与摄像头2220连线的夹角为θ1，摄像头2220与物体230的连线和摄像头1210与摄像头2220连线的夹角为θ2。在获取到了上述参数后，通过计算能够得出Z的距离。需要说明的是，图2只是对双摄测距原理的一个简单介绍，有许多不同的算法都能够实现双摄测距，本实施例中不做限定。

步骤S130：基于每个所述对象的距离确定目标对象。

作为一种实施方式，所述对象的距离为步骤S120中计算得出的距离。所述基于每个所述对象的距离确定目标对象，可以是所有所述对象中最远距离的一个对象，此时处理器比较确认得到该距离最远的对象为目标对象。比如，如图3所示，所述对象为第一用户310，第二用户320，第三用户330，第四用户340，则判断第一用户310为目标对象。

作为一种实施方式，所述基于每个所述对象的距离确定目标对象，还可以是所有对象的距离中距离在最中间一个或者两个的对象，此时处理器比较确认得到该距离中在最中间的一个或者两个对象为目标对象。比如，如图3所示，所述对象为第一用户310，第二用户320，第三用户330，第四用户340，则判断第二用户320、第三用户330为目标对象。

作为一种实施方式，本申请中，所述基于每个所述对象的距离确定目标对象，还可以为所有所述对象中距离最近的一个对象，此时处理器比较确认得到该距离最近的对象为目标对象。比如，如图3所示，所述对象为第一用户310，第二用户320，第三用户330，第四用户340，则判断第四用户340为目标对象。

步骤S140：基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息。

作为一种实施方式，所述目标方位信息可以通过目标对象在图像中的，可以通过建立一套图像采集装置对应的指定坐标系，和一套音频采集装置对应的坐标系，其中音频采集装置所在的坐标系可以命名为空间声坐标系，其以音频采集装置的位置为坐标原点而建立的三维立体坐标系。视频画面内的每个位置点均与空间声坐标系的各个位置点建立了映射关系，具体地，该视频画面对应指定坐标系，所述指定坐标系为基于视频画面建立的坐标系。

作为一种实施方式，该指定坐标系可以是图像坐标系，具体地，如图4所示，若电子设备在视频录制操作的情况下，目标对象在图像采集装置的取景范围内，则在视频录制的画面内，例如，在电子设备的相机应用程序中，通过电子设备的显示屏显示出的视频录制画面。作为一种实施方式，视频画面内的每个对象的图像都对应一个图像位置，具体地，该图像位置可以是视频画面内的每个图像的像素坐标，例如，以视频画面的左上角的像素点至右下角的像素点，一共包括M*N个像素点，其中，M为画面的每一行的像素数量，N为画面的每一列的像素数量。从而每个物体的图像位置都可以由（a_i，b_j）来表示，其中，0＜i≤M，0＜j≤N，作为一种实施方式，每个图像的图像位置可以是该图像的中心点的像素点对应的坐标。

作为一种实施方式，该图像坐标系为所述视频画面所在的坐标系，可以是基于该视频画面内的任意一个像素点为基准点而建立的坐标系，则每个图像的图像位置（即像素点坐标），就能够反应每个物体的图像在图像坐标系内的图像坐标。具体的，在本申请实施例中，如图4所示，假设以视频画面的指定边为X轴，其中，指定边为电子设备处于横屏模式的时候，横向的两条边中底部的一条边，沿着此边向着远离摄像头的方向定为X轴的正方向，以该指定边的中心点作为基准点，即坐标系的原点，经过该中心点且垂直于X轴的方向为Y轴，朝着和所述指定边平行的对边延伸的方向定为Y轴的正方向。则可以确定视频画面内的某个物的图像坐标为（x₀，y₀）。基于预先确定的图像坐标系与空间声坐标系的映射关系，能够确定该图像坐标（x₀，y₀）在空间声坐标系内的空间坐标，进而能够确定目标对象与所述音频采集装置之间的目标方位信息。

作为另一种实施方式，该指定坐标系为相机坐标系，所述相机坐标系为基于所述图像采集装置建立的空间坐标系。具体地，是以图像采集装置的中心为坐标原点，以图像采集装置对应的深度方向为Z轴的正方向而建立的三维坐标系。基于该指定坐标系与空间声坐标系的映射关系，通过确定目标对象在相机坐标系内的坐标信息，即目标位置之后，就可以得到该目标方位信息。具体地，在所述电子设备执行视频录制操作的情况下，基于目标对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述目标对象在相机坐标系内的坐标信息，作为目标位置。基于所述目标对象的目标位置，确定所述目标对象与所述音频采集装置之间的目标方位信息。

以图4为例，以垂直于电子设备的屏幕方向为Z轴的正方向，其Z轴正方向与图像采集装置的深度方向一致，则目标对象在相机坐标系内的坐标信息为（x₀，y₀，z₀），其中，z₀的绝对值为目标对象的深度信息。

作为一种实施方式，可以是以人物的人脸区域的中心点的图像位置在相机坐标系内的坐标点，作为该人物的坐标信息。

作为另一种实施方式，可以是以整个人物全身区域的中心点的图像位置在相机坐标系内的坐标点，作为该人物的坐标信息。

因此，在确定了目标对象之后，基于上述方法能够确定目标对象的目标位置。

作为一种实施方式，可以预先建立相机坐标系与空间声坐标系的映射关系，从而在确定了目标对象在相机坐标系内的坐标信息的时候，能够将该坐标信息映射到空间声坐标系内，从而能确定目标对象在空间声坐标系内的坐标，即空间声坐标，基于该空间声坐标能够确定目标对象与空间声坐标系的原点即音频采集装置的位置之间的方位信息，即目标方位信息。作为一种实施方式，该方位信息可以包括空间角度和距离等信息，该空间角度用于表征目标对象与音频采集装置之间的方位。

步骤S150：基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作。

其中，所述追焦录音操作用于对所述音频采集装置采集的所有声源中目标声源的音频信号优化处理。

其中，所述追焦录音操作用于由所述音频采集装置所采集的所有声源的音频信号中，对所述目标声源的音频信号进行优化处理。具体地，音频采集装置可以采集周围的声音，所采集的音频可以对应多个声源，并且能够确定每个声源的方位信息，具体地，可以根据每个声源的音频信号的幅度确定该声源与音频采集装置之间的距离，根据音频信号与音频采集装置之间的到达角可以确定相位角，从而能够确定音频方位信息。从而就能确定每个声源所对应的音频方位信息。作为一种实施方式，可以参考上述的预设空间分布函数，确定每个声源对应的音频方位信息。

然后，在获取到目标方位信息的时候，该目标方位信息可以作为目标对象的目标声源在空间声坐标系内的位置，其中，该目标声源为与目标方位信息对应的声源。然后，通过音频采集装置所采集的所有声源信息，确定每一个声源信息对应在空间声坐标内的位置，和所述目标方位信息通过映射在空间声坐标系做比较，确定目标方位信息对应的声源，作为目标声源。理论上，目标声源就是该目标对象的声源。从而，电子设备就能够从音频采集装置所采集的多个音频信号中确定目标声源对应的音频信号，然后，对目标声源的音频信号优化处理。

作为一种实施方式，确定音频采集装置与目标声源之间的目标波束角，基于该目标波束角将音频采集装置所采集的所有音频中，波束角与该目标波束角匹配的音频信号作为第一音频信号，其他的音频信号作为第二音频信号，将第一音频信号执行优化处理，第二音频信号不执行优化处理。其中，波束角是指以音频采集装置与目标声源之间的中轴线，由此向外至能量强度减少一半 (-3dB)处形成的角度。不同位置的声源与音频采集装置之间的波束角不同，因此，通过目标波束角能够筛选出目标声源的音频信号。

作为一种实施方式，优化处理的方式为，对第一音频信号提高增益以及滤波，例如，增益调整处理和频率处理，其中，增益调整处理包括增益增大操作和动态范围调整（Dynamic Range Control，DRC），其中，增益增大操作包括对目标声源的音频信号的整个频域或时域部分的增益增大，动态范围调整是指用来动态调整音频输出幅值，在音量大时压制音量在某一范围内，在音量小时适当提升音量，通常用于控制音频输出功率，使扬声器不破音，当处于低音量播放时也能清晰听到。频率处理用于对目标声源的音频信号的不同频率部分进行处理，例如，EQ和降噪，其中，EQ英文全称Equaliser，即均衡器，用于通过对音频信号的某一个或多个频段进行增益或衰减，从而达到调整音色的目的。降噪可以是滤波，即将音频信号中的部分频段的信号滤除等，以降低音频信号中的噪声。

作为一种实施方式，对第二音频信号不执行优化处理的实施方式还可以是，对第二音频信号执行弱化处理，具体地，可以是将第二音频信号的幅值降低，从而降低第二音频信号的音量，具体地，降低幅度可以根据实际使用需求而设定，例如，可以将第二音频信号的音量的降低至小于指定音量，该指定音量可以是一个较小的音量值，以该指定音量播放音频信号的时候，用户几乎无法听见该音频信号，可以看作是静音。

作为一种实施方式，对第二音频信号不执行优化处理的实施方式还可以是，对第二音频信号执行弱化处理，具体地，也可以设定第二信号和第一信号的差值，具体的，差值大小可以根据实际使用需求而设定，该差值可以设定一个较大的值，例如，将第二信号减少至第一信号的-50dB，以使得第二信号远小于第一信号，从而使得第二信号无法干扰第一信号。

作为一种实施方式，优化处理的方式还可以为，通过其他参数确定对第一音频信号的增益大小，所述其他参数可以是，当前镜头的放大倍数。分析人物在电子设备显示画面中的画面占比，所述画面占比可以是目标对象的人脸像素点总和占整个画面像素总和的比值。具体的，人物在电子设备显示画面中的画面占比越小，镜头的放大倍数越大，则对第一信号的增益就越大。例如，当人物在电子设备显示画面中的画面占比小于10%且摄像头的放大倍数超过5倍时，可以设定将第一音频信号增加50dB，从而能够实现智能获得第一音频信号的增益大小。

进一步的，所述其他参数还可以是，当前手持设备的方向。作为一种实施方式，确定音频采集装置与目标声源之间的目标波束角，基于该目标波束角将音频采集装置所采集的所有音频中，波束角与该目标波束角匹配的音频信号作为第一音频信号，波束角在第一音频信号之外但是在手持设备的方向所对应的波束角之内为第二音频信号，波束角在除了第一音频信号和第二音频信号之外的为第三音频信号。

作为一种实施方式，对第一音频信号优化处理的方式可以见上述对第一音频信号执行的实施例，此处不再赘述。

作为一种实施方式，对第二音频信号优化处理的方式可以参考上述对第二音频信号执行的实施例，但是需要说明的是，此处对第二信号的弱化处理幅度应该比对第三信号的弱化处理幅度稍小一些。

作为一种实施方式，对第三音频信号不执行优化处理的实施方式可以见上述对第二音频信号执行的实施例，此处不再赘述。

请参阅图5，图5示出了本申请实施例提供的一种录音方法，该方法应用于上述电子设备，可以在确定目标对象之前，确定在当前时刻之前的预设时间内输出语音信号的对象，作为备选对象，再由所述备选对象中，基于每个对象的距离确定目标对象，然后基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息，最后基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作。具体的，该方法包括：步骤S510至步骤S560。

步骤S510：获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象。

步骤S520：确定每个所述对象与所述图像采集装置之间的距离。

本申请实施例中，步骤S510和步骤S520在上述实施例已经进行详细介绍，这里就不再赘述了。

步骤S530：由多个所述对象中，确定在当前时刻之前的预设时间段内输出语音信号的对象，作为备选对象。

作为一种实施方式，所述备选对象可以是，由多个所述对象中，确定在当前时刻之前的预设时间段内输出语音信号的对象，作为待选对象，由所述待选对象中查找满足指定条件的对象，作为备选对象。

进一步的，指定条件可以是，所述待选对象中满足人脸朝向条件，所述满足人脸朝向条件可以是脸对着电子设备的人。具体地，该人脸信息可以包括所述待选对象的头部区域的图像，则基于该人脸信息确定头部区域内的图像中，人的面部区域的占比，将占比大于指定占比的对象，作为备选对象。如图3所示，在图像采集装置当前所拍摄的视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，假设第三用户330在当前时段内未输出语音的对象，其他的用户在当前时段内输出语音的对象，即第一用户310、第二用户320、第四用户340都为所述待选对象，然后，再确定每个待选对象的面部区域的占比，将占比大于指定占比的对象作为备选对象，即备选对象可以是第二用户320和第四用户340，其中，指定占比可以根据实际需求而设定，于本申请实施例中，该指定占比可以是30%，以便能够筛选出背对电子设备或者低头以及侧面对着电子设备的用户。

作为一种实施方式，所述指定条件还可以是，确定每个待选对象的身份信息，基于每个待选对象的身份信息，确定待选对象与用户终端的使用者之间的亲密度，所述亲密度包含但不限于亲戚、朋友、同事、同学、微信好友等关系中的一种或者多种，能够匹配上至少一种亲密关系的用户即被选中为备选用户。具体的，比如，如图3所示，在图像采集装置当前所拍摄的视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，假设第三用户330在当前时段内未输出语音的对象，其他的用户在当前时段内输出语音的对象，即第一用户310、第二用户320、第四用户340都为所述待选对象，然后，通过大数据识别第一用户310、第二用户320、第四用户340对应的微信ID，若第一用户310和所述用户为亲戚关系，第二用户320与所述用户不认识，第四用户340与用户为同事关系，则第一用户310和第四用户340即为备选对象。

作为一种实施方式，所述指定条件还可以是，确定每个待选对象的身份信息，基于每个待选对象的身份信息，确定待选对象与用户终端的使用者之间的社交活跃度，比如，微博、微信、B站等社交平台在设定时间内相互点赞的次数，设定一个数值，至少一个社交平台相互点赞次数超过所述数值即作为备选对象。具体的，设定时间可以为拍摄时间点前一周，所述数值可以为10。比如，如图3所示，在图像采集装置当前所拍摄的视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，假设第三用户330在当前时段内未输出语音的对象，其他的用户在当前时段内输出语音的对象，即第一用户310、第二用户320、第四用户340都为所述待选对象，然后，通过大数据识别第一用户310、第二用户320、第四用户340对应的微博、微信、B站ID，发现第一用户310和用户微博相互点赞次数为15次，第二用户320和用户无任何交集，第四用户340和用户B站相互点赞次数为20次，则第一用户310和第四用户340即为备选用户。

进一步的，在另一些实施例中，该指定条件还可以是在指定时间段内所述对象被录制的次数大于或者等于指定次数，所述被录制次数对应一个视频文件，在同一视频文件中的多次出境只算做一次被录制，所述指定时间可以是本次录制时间点前一段时间，该指定条件通过记录每次被录制的时候，画面内出现的所有人脸，然后进行统计实现。具体的，所述指定时间为一周，所述次数为5。比如，如图3所示，在图像采集装置当前所拍摄的视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，假设第三用户330在当前时段内未输出语音的对象，其他的用户在当前时段内输出语音的对象，即第一用户310、第二用户320、第四用户340都为所述待选对象，然后，通过数据得知，第一用户310在之前一周被录制次数为5，第一用户310在之前一周被录制次数为3，第一用户310在之前一周被录制次数为10，则第一用户310和第四用户340即为备选用户。

进一步的，在另一些实施例中，该指定条件还可以是在所有的待选对象中录制次数最大的，所述被录制次数对应一个视频文件，在同一视频文件中的多次出境只算做一次被录制，所述指定时间可以是本次录制时间点前一段时间，该指定条件通过记录每次被录制的时候，画面内出现的所有人脸，然后进行统计实现。比如，如图3所示，在图像采集装置当前所拍摄的视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，假设第三用户330在当前时段内未输出语音的对象，其他的用户在当前时段内输出语音的对象，即第一用户310、第二用户320、第四用户340都为所述待选对象，然后，通过数据得知，第一用户310在之前一周被录制次数为5，第一用户310在之前一周被录制次数为3，第一用户310在之前一周被录制次数为10，则第一用户310和第四用户340即为备选用户。

在另一些实施例中，该指定条件还还可以是，人脸表情是指定表情的，持续时间超过或者等于预定时间的，所述表情可以为笑脸或者哭脸，所述预定时间可以是10秒。具体的，比如，如图3所示，在图像采集装置当前所拍摄的视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，假设第三用户330在当前时段内未输出语音的对象，其他的用户在当前时段内输出语音的对象，即第一用户310、第二用户320、第四用户340都为所述待选对象，然后，检测到第一用户310笑脸持续5秒，第二用户320哭脸持续3秒，第三用户330哭脸持续5秒，第四用户340笑脸持续15秒，则第四用户340即为备选用户。

步骤S540：由所述备选对象中，基于每个对象的距离确定目标对象。

作为一种实施方式，所述备选对象的距离为步骤S520中计算得出的距离。所述基于每个所述备选对象的距离确定目标对象，可以是所有所述备选对象中最远距离的一个对象，此时处理器比较确认得到该距离最远的备选对象为目标对象。比如，如图3所示，所述对象为第一用户310，第二用户320，第三用户330，第四用户340，通过步骤S530判断后所述备选对象为第一用户310，第四用户340，则判断第一用户310为目标对象。

作为一种实施方式，所述基于每个所述备选对象的距离确定目标对象，还可以是所有备选对象的距离中距离在最中间的对象，此时处理器比较确认得到该距离中在最中间的备选对象为目标对象。比如，如图3所示，所述对象为第一用户310，第二用户320，第三用户330，第四用户340，通过步骤S530判断后所述备选对象为第一用户310，第四用户340，则判断第一用户310，第四用户340为目标对象。

作为一种实施方式，本申请中，所述基于每个所述备选对象的距离确定目标对象，还可以为所有所述备选对象中距离最近的一个对象，此时处理器比较确认得到该距离最近的备选对象为目标对象。比如，如图3所示，所述对象为第一用户310，第二用户320，第三用户330，第四用户340，通过步骤S530判断后所述备选对象为第一用户310，第四用户340，则判断第四用户340为目标对象。

步骤S550：基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息。

步骤S560：基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作。

本申请实施例中，步骤S550和步骤S560在上述实施例已经进行详细介绍，这里就不再赘述了。

请参阅图6，图6示出了本申请实施例提供的一种录音方法，该方法应用于上述电子设备，在所述确定每个所述对象与所述图像采集装置之间的距离之前，判断是否获取到用户由所述多个对象中输入的选中对象；若未获取到选中对象，则确定每个所述对象与所述图像采集装置之间的距离；若获取到选中对象，则将所述选中对象作为目标对象，并执行基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息以及后续步骤。具体的，该方法包括：步骤S610至步骤S670。

步骤S610：获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象。

本申请实施例中，步骤S610在上述实施例已经进行详细介绍，这里就不再赘述了。

步骤S620：判断是否获取到用户由所述多个对象中输入的选中对象。

作为一种实施方式，判断是否获取到用户由所述多个对象中输入的选中对象，可以检测是否获取到用户在指定界面上输入触控手势，所述指定界面内显示所述视频画面；其中所述视频画面可以是通过电子设备实时显示的录制画面，所述输入触控手势为通过电子设备的输入装置进行输入，所述输入装置可以为按键、触摸屏等中的一种或者多种。

进一步的，在本实施例中，若检测到所述触控手势，将所述触控手势在所述指定界面内的触控位置所对应的对象作为用户输入的选中对象，此时转入步骤S650将所述选中对象作为目标对象。具体的，如图3所示，所述视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，若用户触控第四用户340对应的位置，则选中第四用户340为选中对象。

进一步的，在本实施例中，若未检测到所述触控手势或所述触控手势在所述指定界面内的触控位置未对应有对象，则判定未获取到用户由所述多个对象中输入的选中对象，此时转入步骤S630确定每个所述对象与所述图像采集装置之间的距离。具体的，如图3所示，所述视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，若用户没有进行触控操作，或者触控任意非第一用户310、第二用户320、第三用户330、第四用户340的位置，则判断未检测到所述触控手势或所述触控手势在所述指定界面内的触控位置未对应有对象。

作为一种实施例，判断是否获取到用户由所述多个对象中输入的选中对象，还可以检测是否获取到用户的指定手势，比如，对指定界面中同一位置连续敲击三次，可以对该区域放大显示在视频画面中，用户可以对放大后的区域图像精准选中对象，具体地，电子设备检测到用户在视频画面上输入的指定手势之后，在屏幕上显示选择界面，该选择界面内显示有放大后的区域图像，该放大后的区域图像为用户在视频画面上输入的指定手势所对应的位置的预设范围内的所有对象的画面，其中，该预设范围可以根据实际需求使用而设定，从而在视频画面内的对象比较密集的时候，用户通过输入指定手势的方式显示该预设范围内的多个密集对象的放大后的图像，方便用户选择。电子设备获取用户在选择界面710内选中的对象，作为用户选中的对象。

此时电子设备仍然按照之前的录制方式进行录制，即没有放大焦距，也没变焦点，也没有暂停录制，其中所述视频画面可以是通过电子设备实时显示的录制画面，所述输入触控手势为通过电子设备的输入装置进行输入，所述输入装置可以为按键、触摸屏等中的一种或者多种。具体的，如图3和图7所示，图3中所述视频画面内包括第一用户310、第二用户320、第三用户330、第四用户340，用户通过连续三次敲击第一用户310头像位置对其进行放大显示，此时转入图7显示，然后再选中第一用户310，则选中第一用户310为选中对象。

步骤S630：确定每个所述对象与所述图像采集装置之间的距离。

步骤S640：基于每个所述对象的距离确定目标对象。

本申请实施例中，步骤S630和步骤S640在上述实施例已经进行详细介绍，这里就不再赘述了。

步骤S650：将所述选中对象作为目标对象。

进一步的，所述目标对象为通过步骤S620选定的选中对象。

步骤S660：基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息。

步骤S670：基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作。

本申请实施例中，步骤S660和步骤S670在上述实施例已经进行详细介绍，这里就不再赘述了。

请参阅图8，其示出了本申请实施例提供的一种录音装置800的结构框，图该装置可以包括：获取单元810、第一确定单元820、第二确定单元830、第三确定单元840、追焦单元850。

获取单元810，用于获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象。

第一确定单元820，用于确定每个所述对象与所述图像采集装置之间的距离。

第二确定单元830，用于基于每个所述对象的距离确定目标对象。

进一步地，第二确定单元830还用于由多个所述对象中，将距离最近的对象作为目标对象。

进一步地，第二确定单元830还用于由多个所述对象中，确定在当前时刻之前的预设时间段内输出语音信号的对象，作为备选对象；由所述备选对象中，基于每个对象的距离确定目标对象。

进一步地，第二确定单元830还用于由所述备选对象中，将距离最近的对象作为目标对象。

进一步地，第二确定单元830还用于判断是否获取到用户由所述多个对象中输入的选中对象；若未获取到选中对象，则确定每个所述对象与所述图像采集装置之间的距离。

进一步地，第二确定单元830还用于若获取到选中对象，则将所述选中对象作为目标对象，并执行基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息以及后续步骤。

进一步地，第二确定单元830还用于检测是否获取到用户在指定界面上输入触控手势，所述指定界面内显示所述视频画面；若检测到所述触控手势，将所述触控手势在所述指定界面内的触控位置所对应的对象作为用户输入的选中对象；若未检测到所述触控手势或所述触控手势在所述指定界面内的触控位置未对应有对象，则判定未获取到用户由所述多个对象中输入的选中对象。

第三确定单元840，用于基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息。

追焦单元850，用于基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于对所述音频采集装置采集的所有声源中目标声源的音频信号优化处理。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图9，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备900可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备900可以包括一个或多个如下部件：处理器910、存储器920、音频采集装置930、图像采集装置940以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器920中并被配置为由一个或多个处理器910执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。其中，音频采集装置930可以是麦克风，例如，可以是多个麦克风组成的麦克风阵列，图像采集装置940可以是摄像头等装置。

处理器910可以包括一个或者多个处理核。处理器910利用各种接口和线路连接整个电子设备900内的各个部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行电子设备900的各种功能和处理数据。可选地，处理器910可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable LogicArray，PLA）中的至少一种硬件形式来实现。处理器910可集成中央处理器（CentralProcessing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端900在使用中所创建的数据（比如电话本、音视频数据、聊天记录数据）等。

请参考图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1000中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1000可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1000包括非易失性计算机可读介质（non-transitory computer-readable storage medium）。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的程序代码1010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1010可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种录音方法，其特征在于，应用于电子设备，所述电子设备包括图像采集装置和音频采集装置，所述方法包括：

获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象；

确定每个所述对象与所述图像采集装置之间的距离；

由多个所述对象中，确定在当前时刻之前的预设时间段内输出语音信号的对象，作为待选对象；

获取每个所述待选对象在所述视频画面内的头部区域图像；

基于每个所述待选对象的头部区域图像，确定每个所述待选对象的面部区域图像与头部区域图像的占比；

将所述占比大于指定占比的待选对象，作为备选对象；

由所述备选对象中，基于每个对象的距离确定目标对象；

基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息；

基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于对所述音频采集装置采集的所有声源中目标声源的音频信号优化处理。

2.根据权利要求1所述的方法，其特征在于，所述基于每个所述对象的距离确定目标对象，包括：

由多个所述对象中，将距离最近的对象作为目标对象。

3.根据权利要求1所述的方法，其特征在于，所述由所述备选对象中，基于每个对象的距离确定目标对象，包括：

由所述备选对象中，将距离最近的对象作为目标对象。

4.根据权利要求1所述的方法，其特征在于，所述确定每个所述对象与所述图像采集装置之间的距离，包括：

判断是否获取到用户由所述多个对象中输入的选中对象；

若未获取到选中对象，则确定每个所述对象与所述图像采集装置之间的距离。

5.根据权利要求4所述的方法，其特征在于，还包括：

若获取到选中对象，则将所述选中对象作为目标对象，并执行基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息以及后续步骤。

6.根据权利要求4所述的方法，其特征在于，所述判断是否获取到用户由所述多个对象中输入的选中对象，包括：

检测是否获取到用户在指定界面上输入触控手势，所述指定界面内显示所述视频画面；

若检测到所述触控手势，将所述触控手势在所述指定界面内的触控位置所对应的对象作为用户输入的选中对象；

若未检测到所述触控手势或所述触控手势在所述指定界面内的触控位置未对应有对象，则判定未获取到用户由所述多个对象中输入的选中对象。

7.一种录音装置，其特征在于，应用于电子设备，所述电子设备包括图像采集装置和音频采集装置，所述录音装置包括：

获取单元，用于获取所述电子设备执行视频录制操作时通过所述图像采集装置采集的视频画面，所述视频画面内包括多个对象；

第一确定单元，用于确定每个所述对象与所述图像采集装置之间的距离；

第二确定单元，用于由多个所述对象中，确定在当前时刻之前的预设时间段内输出语音信号的对象，作为待选对象；获取每个所述待选对象在所述视频画面内的头部区域图像；基于每个所述待选对象的头部区域图像，确定每个所述待选对象的面部区域图像与头部区域图像的占比；将所述占比大于指定占比的待选对象，作为备选对象；由所述备选对象中，基于每个对象的距离确定目标对象；

第三确定单元，用于基于所述目标对象在所述视频画面内的图像位置，确定所述目标对象与音频采集装置之间的目标方位信息；

追焦单元，用于基于所述目标方位信息，对所述目标方位信息对应的目标声源执行追焦录音操作，所述追焦录音操作用于对所述音频采集装置采集的所有声源中目标声源的音频信号优化处理。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

图像采集装置；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行权利要求1-6任一项所述方法。