CN110740259B

CN110740259B - 视频处理方法及电子设备

Info

Publication number: CN110740259B
Application number: CN201911002660.2A
Authority: CN
Inventors: 孙华伟
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2021-06-25
Anticipated expiration: 2039-10-21
Also published as: CN110740259A; WO2021078116A1

Abstract

本发明公开一种视频处理方法及电子设备，包括：当接收到视频录制操作时，开启摄像头进行图像采集和开启麦克风进行声音采集；提取采集到的图像包含的拍摄对象的特征信息；提取采集到的声音包含的声源对象的特征信息；基于拍摄对象的和声源对象的特征信息对拍摄对象和声源对象进行匹配，得到拍摄对象与声源对象之间的匹配关系；接收针对拍摄对象的选择操作，从采集到的图像包含的拍摄对象中选择第一拍摄对象；根据匹配关系，确定采集到的声音包含的声源对象中与第一拍摄对象匹配的第一声源对象；对采集到的声音包含的第二声源对象对应的音轨进行预设第一防干扰处理，并对预设第一防干扰处理得到的声音和采集到的图像进行合成处理，得到目标视频。

Description

视频处理方法及电子设备

技术领域

本发明涉及多媒体技术领域，特别是涉及一种视频处理方法及电子设备。

背景技术

近年来，随着互联网技术的快速发展和设备硬件配置的升级，电子设备的功能越来越丰富，越来越多的用户使用电子设备开展娱乐活动，例如，使用电子设备进行视频直播、vlog(video weblog，视频播客)拍摄等视频录制活动。目前，在视频录制过程中，往往会收录一些杂音，现有技术中，主要通过后期使用专业设备对已录制的视频进行剪辑处理，来滤除杂音，导致成本较高，且操作比较繁琐。

发明内容

本发明实施例提供一种视频处理方法及电子设备，以解决现有技术中存在的视频处理成本较高，且操作比较繁琐的技术问题。

为解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种视频处理方法，应用于电子设备，所述方法包括：

当接收到视频录制操作时，开启所述电子设备的摄像头进行图像采集，以及开启所述电子设备的麦克风进行声音采集；

确定所述摄像头采集到的图像包含的拍摄对象，并提取所述拍摄对象的特征信息；以及确定所述麦克风采集到的声音包含的声源对象，并提取所述声源对象的特征信息，其中，不同的声源对象对应不同的音轨；

基于所述拍摄对象的特征信息和所述声源对象的特征信息，对所述拍摄对象和所述声源对象进行匹配，得到所述拍摄对象与所述声源对象之间的匹配关系；

接收针对所述拍摄对象的选择操作；

响应所述选择操作，从所述摄像头采集到的图像包含的拍摄对象中选择第一拍摄对象；

根据所述匹配关系，确定所述麦克风采集到的声音包含的声源对象中与所述第一拍摄对象匹配的第一声源对象；

对所述麦克风采集到的声音包含的第二声源对象对应的音轨进行预设第一防干扰处理，并对所述预设第一防干扰处理得到的声音和所述摄像头采集到的图像进行合成处理，得到目标视频，其中，所述第二声源对象为所述麦克风采集到的声音包含的声源对象中除所述第一声源对象之外的声源对象。

第二方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

开启单元，用于当接收到视频录制操作时，开启所述电子设备的摄像头进行图像采集，以及开启所述电子设备的麦克风进行声音采集；

第一提取单元，用于确定所述摄像头采集到的图像包含的拍摄对象，并提取所述拍摄对象的特征信息；

第二提取单元，用于确定所述麦克风采集到的声音包含的声源对象，并提取所述声源对象的特征信息，其中，不同的声源对象对应不同的音轨；

匹配单元，用于基于所述拍摄对象的特征信息和所述声源对象的特征信息，对所述拍摄对象和所述声源对象进行匹配，得到所述拍摄对象与所述声源对象之间的匹配关系；

接收单元，用于接收针对所述拍摄对象的选择操作；

选择单元，用于响应所述选择操作，从所述摄像头采集到的图像包含的拍摄对象中选择第一拍摄对象；

确定单元，用于根据所述匹配关系，确定所述麦克风采集到的声音包含的声源对象中与所述第一拍摄对象匹配的第一声源对象；

第一处理单元，用于对所述麦克风采集到的声音包含的第二声源对象对应的音轨进行预设第一防干扰处理；

第二处理单元，用于对所述预设第一防干扰处理得到的声音和所述摄像头采集到的图像进行合成处理，得到目标视频，其中，所述第二声源对象为所述麦克风采集到的声音包含的声源对象中除所述第一声源对象之外的声源对象。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述视频处理方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述视频处理方法的步骤。

本发明实施例中，在视频录制过程中，可以建立所录制的视频画面中的拍摄对象与所录制的视频声音中的声源对象的匹配关系，当用户选择视频画面中的特定拍摄对象时，根据特定拍摄对象和上述匹配关系，确定与特定拍摄对象匹配的特定声源对象，将所录制的视频声音中特定声源对象之外的声源对象的音轨进行防干扰处理，基于防干扰处理得到的声音和所录制的视频画面生成目标视频，使得不需要通过专业设备进行后期剪辑，就可以得到用户想要的、更加纯净的视频，降低了视频处理成本，简化了视频处理操作。

附图说明

图1是本发明的一个实施例的视频处理方法的流程图；

图2是本发明的一个实施例的视频录制对象的极坐标的实例图；

图3是本发明的另一个实施例的视频录制对象的极坐标的实例图；

图4是本发明的一个实施例的视频处理方法的应用场景图；

图5是本发明的一个实施例的电子设备的结构框图；

图6是实现本发明各个实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网技术的快速发展以及社交网络、短视频爆发式的增长，人们在使用电子设备时会有大量的时间进行视频录制，例如视频拍摄或视频直播。但是在进行视频录制时，如果录制的视频中存在杂音或多个用户的声音，现有技术中，需要通过后期使用专业设备对已录制的视频进行剪辑处理，来滤除杂音或其他用户的声音，导致成本较高，且操作比较繁琐。

为了解决上述技术问题，本发明实施例提供了一种视频处理方法及电子设备。

下面首先对本发明实施例提供的一种视频处理方法进行介绍。

需要说明的是，本发明实施例提供的视频处理方法适用于电子设备，在实际应用中，该电子设备可以包括：智能手机、平板电脑、个人数字助理等移动终端，也可以包括：笔记本电脑、台式电脑、桌面机等计算机设备，本发明实施例对此不作限定。

图1是本发明的一个实施例的视频处理方法的流程图，如图1所示，该方法可以包括以下步骤：步骤101、步骤102、步骤103、步骤104和步骤105，其中，

在步骤101中，当接收到视频录制操作时，开启电子设备的摄像头进行图像采集，以及开启电子设备的麦克风进行声音采集。

本发明实施例中，视频录制操作可以为用于触发视频拍摄的操作，也可以为用于触发视频直播的操作。

本发明实施例中，用户可以通过手动操作的方式，在电子设备上输入视频录制操作，例如，点击电子设备操作界面上的照相机图标；或者打开视频录制软件，进入视频录制软件的界面，点击该界面上的视频录制图标/按钮；或者，用户也可以通过语音呼出方式，在电子设备上输入视频录制操作；或者，用户还可以通过手势或摇晃电子设备的方式，在电子设备上输入视频录制操作，本发明实施例对此不作限定。

本发明实施例中，在电子设备录制视频的过程中，通过该电子设备的摄像头进行图像画面采集，通过该电子设备的麦克风进行声音采集，也就是，电子设备的摄像头和麦克风同时工作。

在步骤102中，确定摄像头采集到的图像包含的拍摄对象，并提取拍摄对象的特征信息；以及确定麦克风采集到的声音包含的声源对象，并提取声源对象的特征信息，其中，不同的声源对象对应不同的音轨。

本发明实施例中，拍摄对象和声源对象，在本质上为：视频录制场景中被录制对象(即客观存在的对象)的不同表现形式，具体的，拍摄对象为视频录制场景中被录制对象在视频画面中的表现形式，声源对象为被录制对象在视频声音中的表现形式。

例如，用户D使用手机进行视频直播，在这种情况下，用户D即为被录制对象，视频直播画面中的用户D即为拍摄对象，视频直播声音中的用户D即为声源对象。

本发明实施例中，拍摄对象的特征信息和声源对象的特征信息，用于确定拍摄对象和声源对象的匹配关系，也就是确定哪个拍摄对象和哪个声源对象属于同一个被录制对象。

在一个例子中，视频录制场景中包括三个被录制对象，分别为：用户A、用户B和用户C，在视频录制过程中，例如，摄像头采集到图像中包括三个拍摄对象，分别为：拍摄对象1、拍摄对象2和拍摄对象3，麦克风采集到的声音中包括四个声源对象，分别为：声源对象1、声源对象2、声源对象3和声源对象4，提取拍摄对象1～拍摄对象3的特征信息和声源对象1～声源对象4的特征信息，其目的是：确定拍摄对象1～拍摄对象3中的哪个拍摄对象和声源对象1～声源对象4中的哪个声源对象属于用户A，确定拍摄对象1～拍摄对象3中的哪个拍摄对象和声源对象1～声源对象4中的哪个声源对象属于用户B，确定拍摄对象1～拍摄对象3中的哪个拍摄对象和声源对象1～声源对象4中的哪个声源对象属于用户C。

本发明实施例中，拍摄对象的特征信息可以包括：拍摄对象相对于电子设备的空间位置信息，相应的，声源对象的特征信息可以包括：声源对象相对于电子设备的空间位置信息；或者，拍摄对象的特征信息可以包括：拍摄对象的外在形象，相应的，声源对象的特征信息可以包括：声源对象的音轨属性，其中，音轨属性包括下述至少一种：音色、音律和音量。

具体的，当拍摄对象的特征信息包括：拍摄对象相对于电子设备的空间位置信息时，可以采用物体识别技术，识别出摄像头采集到的图像中包含的各拍摄对象，之后根据各拍摄对象的图像深度信息，确定各拍摄对象的空间位置信息；当声源对象的特征信息包括：声源对象相对于电子设备的空间位置信息时，可以根据麦克风采集到的声音中的音色、音律等信息，识别出麦克风采集到的声音中包含的各声源对象，之后根据各声源对象的声波信息，确定各声源对象的空间位置信息。

当拍摄对象的特征信息包括：拍摄对象的外在形象时，可以采用物体识别技术，识别出摄像头采集到的图像中包含的各拍摄对象，之后采用人脸识别技术，提取各拍摄对象的外在形象，例如，年龄、性别等；当声源对象的特征信息包括：声源对象的音轨属性时，可以根据麦克风采集到的声音中的音色、音律等信息，识别出麦克风采集到的声音中包含的各声源对象，并提取各声源对象的音轨属性。

本发明实施例中，考虑到拍摄对象相对于电子设备的空间位置信息是基于电子设备的摄像头采集到的图像获得的，声源对象相对于电子设备的空间位置信息是基于电子设备的麦克风采集到的声音获得的，因此，具体的，拍摄对象相对于电子设备的空间位置信息可以包括：拍摄对象在以摄像头为坐标原点的空间坐标系下的极坐标(x1，α1)；相应的，声源对象相对于电子设备的空间位置信息包括：声源对象在以麦克风为坐标原点的空间坐标系下的极坐标(y1，β1)。

为了便于直观理解，将以摄像头为坐标原点的空间坐标系和以麦克风为坐标原点的空间坐标系放在一张图中进行描述。

在一个例子中，被录制对象在摄像头和麦克风之间，如图2所示，O1代表摄像头，O2代表麦克风，被录制对象在以O1为坐标原点的空间坐标系下的极坐标为(x1，α1)，即拍摄对象在以摄像头为坐标原点的空间坐标系下的极坐标(x1，α1)，被录制对象在以O2为坐标原点的空间坐标系下的极坐标为(y1，β1)，即声源对象在以麦克风为坐标原点的空间坐标系下的极坐标(y1，β1)，其中，x1为被录制对象到摄像头的距离，y1为被录制对象到麦克风的距离，L为麦克风到摄像头的距离，α1和β1的取值范围均为(-90°，90°)。

在另一个例子中，被录制对象在摄像头或麦克风的一侧，如图3所示，O1代表摄像头，O2代表麦克风，被录制对象在以O1为坐标原点的空间坐标系下的极坐标为(x1，α1)，即拍摄对象在以摄像头为坐标原点的空间坐标系下的极坐标(x1，α1)，被录制对象在以O2为坐标原点的空间坐标系下的极坐标为(y1，β1)，即声源对象在以麦克风为坐标原点的空间坐标系下的极坐标(y1，β1)，其中，x1为被录制对象到摄像头的距离，y1为被录制对象到麦克风的距离，L为麦克风到摄像头的距离，α1和β1的取值范围均为(-90°，90°)。

在步骤103中，基于拍摄对象的特征信息和声源对象的特征信息，对拍摄对象和声源对象进行匹配，得到拍摄对象与声源对象之间的匹配关系。

本发明实施例中，如果拍摄对象与声源对象匹配，则说明拍摄对象与声源对象属于同一个被录制对象，如果拍摄对象与声源对象不匹配，则说明拍摄对象与声源对象不属于同一个被录制对象。拍摄对象与声源对象之间的匹配关系中记录的信息为：哪个拍摄对象与哪个声源对象属于同一个被录制对象。

本发明实施例中，当拍摄对象的特征信息包括：拍摄对象相对于电子设备的空间位置信息，声源对象的特征信息包括：声源对象相对于电子设备的空间位置信息时，上述步骤103具体可以包括以下步骤：如果拍摄对象相对于电子设备的空间位置信息与声源对象相对于电子设备的空间位置信息重合或者相差不大，则确定拍摄对象与声源对象匹配。

更为具体地，在拍摄对象的特征信息为：拍摄对象在以摄像头为坐标原点的空间坐标系下的极坐标(x1，α1)，声源对象的特征信息为：声源对象在以麦克风为坐标原点的空间坐标系下的极坐标(y1，β1)的情况下，考虑到(x1，α1)是在以摄像头为坐标原点的坐标系下获得的，(y1，β1)是在以麦克风为坐标原点的坐标系下获得，而摄像头和麦克风位于电子设备的不同位置上，因此为了保证后续匹配结果的准确性，需要消除由于坐标原点不同所造成的偏差，也就是，将拍摄对象和声源对象转换到同一个坐标系下。

在消除由于坐标原点不同所造成的偏差时，可以将摄像头作为统一原点，将拍摄对象和声源对象转换到以摄像头作为坐标原点的坐标系下；或者可以将麦克风作为统一原点，将拍摄对象和声源对象转换到以麦克风作为坐标原点的坐标系下；或者，也可以将摄像头和麦克风之外的第三位置作为统一原点，将拍摄对象和声源对象转换到以第三位置作为坐标原点的坐标系下，本发明实施例对此不作限定。

当将摄像头作为统一原点，将拍摄对象和声源对象转换到以摄像头作为坐标原点的坐标系下时，上述步骤103具体可以包括以下步骤(图中未示出)：步骤1031、步骤1032和步骤1033，其中，

在步骤1031中，当(x1，α1)和(y1，β1)位于两个坐标原点之间时，根据(y1，β1)和预设第一坐标转换公式

计算声源对象在以摄像头为坐标原点的空间坐标系下的极坐标(x2，α2)；其中，两个坐标原点包括：以摄像头作为坐标原点和以麦克风作为坐标原点，L为麦克风到摄像头的距离；

本步骤中，由已知量(x1，α1)、L和第一坐标转换公式，求解未知量(x2，α2)。

在步骤1032中，当(x1，α1)和(y1，β1)位于两个坐标原点的同一侧时，根据(y1，β1)和预设第二坐标转换公式

计算声源对象在以摄像头为坐标原点的空间坐标系下的极坐标(x2，α2)；

本步骤中，由已知量(x1，α1)、L和第二坐标转换公式，求解未知量(x2，α2)。

在步骤1033中，根据(x1，α1)和(x2，α2)，计算拍摄对象与声源对象的匹配度，针对每个拍摄对象，将与每个拍摄对象匹配度最高的声源对象确定为匹配的声源对象，得到对应的匹配关系。

在一个实施方式中，上述步骤1033具体可以包括以下步骤：

计算(x1，α1)与(x2，α2)之间的距离值，根据该距离值，确定拍摄对象与声源对象的匹配度，其中，距离值与匹配度成反比关系。

在另一个实施方式中，考虑到针对同一个被录制对象，在确定摄像头采集到的图像中的拍摄对象和确定麦克风采集到的声音中的声源对象时，以被录制对象为人为例，图像测量的中心是被录制对象的眼睛，声音测量的中心是被录制对象的嘴巴，为了保证后续匹配结果的准确性，需要消除由于图像测量中心和声音测量中心不同所造成的误差。在消除由于图像测量中心和声音测量中心不同所造成的误差时，可以引入误差修正参数，通过误差修正参数进行误差修正，此时，上述步骤1033具体可以包括以下步骤(图中未示出)：步骤10331、步骤10332和步骤10333，其中，

在步骤10331中，对(x2，α2)与预设误差修正参数δ进行乘积运算，得到修正后的极坐标(δ*x2，δ*α2)；

本发明实施例中，可以针对拍摄对象和声源对象分别设置误差修正参数，在实际应用中，误差修正参数可以由技术人员根据经验设定，可以通过通过对大量样本进行训练得到，本发明实施例对此不作限定。

在步骤10332中，根据(x1，α1)、(δ*x2，δ*α2)以及极坐标系下两点间距离公式

计算得到(x1，α1)与(δ*x2，δ*α2)之间的距离值；

在步骤10333中，根据距离值，确定拍摄对象与声源对象的匹配度，其中，距离值与匹配度成反比关系。

由于拍摄对象的空间位置信息和声源对象的空间位置信息可以从很大程度上反映拍摄对象与声源对象之间的相对位置关系，因此本发明实施例中，通过拍摄对象的空间位置信息和声源对象的空间位置信息，对拍摄对象和声源对象进行匹配，可以保证匹配结果的准确性。

本发明实施例中，当拍摄对象的特征信息包括：拍摄对象的外在形象，声源对象的特征信息包括：声源对象的音轨属性时，上述步骤103具体可以包括以下步骤：如果拍摄对象的外在形象与声源对象的音轨属性匹配，则确定拍摄对象与声源对象匹配。

在一个例子中，拍摄对象包括两个，两个拍摄对象的外在形象分别为：一个男生和一个女生，声源对象也包括两个，两个声源对象的音轨属性分别为：一个女声和一个男声，此时，可以确定外在形象为“男生”的拍摄对象与音轨属性为“男声”的声源对象匹配，确定外在形象为“女生”的拍摄对象与音轨属性为“女声”的声源对象匹配。

在步骤104中，接收针对拍摄对象的选择操作，响应该选择操作，从摄像头采集到的图像包含的拍摄对象中选择第一拍摄对象。

本发明实施例中，当用户希望录制得到的最终视频中只包括某一个或某几个拍摄对象的声音时，可以在电子设备上输入对焦对象选择操作。在实际应用中，用户可以通过语音或手动操作的方式，在电子设备上输入对焦对象选择操作。

在一个例子中，如图4所示，用户42在使用电子设备40进行视频录制，电子设备40的视频录制画面41中包含三个拍摄对象，用户42可以通过“长按”视频录制画面41中的一个拍摄对象，来将该拍摄对象选择为目标拍摄对象。

在步骤105中，根据所确定的匹配关系，确定麦克风采集到的声音包含的声源对象中与第一拍摄对象匹配的第一声源对象。

在步骤106中，对麦克风采集到的声音包含的第二声源对象对应的音轨进行预设第一防干扰处理，并对预设第一防干扰处理得到的声音和摄像头采集到的图像进行合成处理，得到目标视频，其中，第二声源对象为麦克风采集到的声音包含的声源对象中除第一声源对象之外的声源对象。

本发明实施例中，可以将麦克风采集到的声音中第一声源对象对应的音轨之外的音轨(即第二声源对象对应的音轨)进行预设第一防干扰处理，以得到只包含第一声源对象对应的音轨或者主要包含第一声源对象对应的音轨的音频，其中，预设第一防干扰处理可以为消音处理。

本发明实施例中，在合成目标视频时，可以保留摄像头采集到的图像中的所有拍摄对象，也可以只保留第一拍摄对象。

当只保留第一拍摄对象时，上述步骤106具体可以包括以下步骤：

对摄像头采集到的图像包含的第二拍摄对象所在的图像区域进行预设第二防干扰处理，对预设第二防干扰处理得到的图像和第一预设防干扰处理得到的声音进行合成处理，得到目标视频，其中，第二拍摄对象为摄像头采集到的图像包含的拍摄对象中除第一拍摄对象之外的拍摄对象。

在实际应用中，预设第二防干扰处理可以包括马赛克处理或模糊处理。

由上述实施例可见，该实施例中，在视频录制过程中，可以建立所录制的视频画面中的拍摄对象与所录制的视频声音中的声源对象的匹配关系，当用户选择视频画面中的特定拍摄对象时，根据特定拍摄对象和上述匹配关系，确定与特定拍摄对象匹配的特定声源对象，将所录制的视频声音中特定声源对象之外的声源对象的音轨进行防干扰处理，基于防干扰处理得到的声音和所录制的视频画面生成目标视频，使得不需要通过专业设备进行后期剪辑，就可以得到用户想要的、更加纯净的视频，降低了视频处理成本，简化了视频处理操作。

图5是本发明的一个实施例的电子设备的结构框图，如图5所示，电子设备500，可以包括：开启单元501、第一提取单元502、第二提取单元503、匹配单元504、接收单元505、选择单元506、确定单元507、第一处理单元508和第二处理单元509，其中，

开启单元501，用于当接收到视频录制操作时，开启所述电子设备的摄像头进行图像采集，以及开启所述电子设备的麦克风进行声音采集；

第一提取单元502，用于确定所述摄像头采集到的图像包含的拍摄对象，并提取所述拍摄对象的特征信息；

第二提取单元503，用于确定所述麦克风采集到的声音包含的声源对象，并提取所述声源对象的特征信息，其中，不同的声源对象对应不同的音轨；

匹配单元504，用于基于所述拍摄对象的特征信息和所述声源对象的特征信息，对所述拍摄对象和所述声源对象进行匹配，得到所述拍摄对象与所述声源对象之间的匹配关系；

接收单元505，用于接收针对所述拍摄对象的选择操作；

选择单元506，用于响应所述选择操作，从所述摄像头采集到的图像包含的拍摄对象中选择第一拍摄对象；

确定单元507，用于根据所述匹配关系，确定所述麦克风采集到的声音包含的声源对象中与所述第一拍摄对象匹配的第一声源对象；

第一处理单元508，用于对所述麦克风采集到的声音包含的第二声源对象对应的音轨进行预设第一防干扰处理；

第二处理单元509，用于对所述预设第一防干扰处理得到的声音和所述摄像头采集到的图像进行合成处理，得到目标视频，其中，所述第二声源对象为所述麦克风采集到的声音包含的声源对象中除所述第一声源对象之外的声源对象。

可选地，作为一个实施例，所述拍摄对象的特征信息包括：所述拍摄对象相对于所述电子设备的空间位置信息，所述声源对象的特征信息包括：所述声源对象相对于所述电子设备的空间位置信息。

可选地，作为一个实施例，所述拍摄对象相对于所述电子设备的空间位置信息为：所述拍摄对象在以所述摄像头为坐标原点的空间坐标系下的极坐标(x1，α1)；

所述声源对象相对于所述电子设备的空间位置信息为：所述声源对象在以所述麦克风为坐标原点的空间坐标系下的极坐标(y1，β1)。

可选地，作为一个实施例，所述匹配单元504，可以包括：

第一计算子单元，用于当所述(x1，α1)和所述(y1，β1)位于两个坐标原点之间时，根据所述(y1，β1)和预设第一坐标转换公式

计算所述声源对象在以所述摄像头为坐标原点的空间坐标系下的极坐标(x2，α2)；

第二计算子单元，用于当所述(x1，α1)和所述(y1，β1)位于两个坐标原点的同一侧时，根据所述(y1，β1)和预设第二坐标转换公式

计算所述声源对象在以所述摄像头为坐标原点的空间坐标系下的极坐标(x2，α2)，其中，所述两个坐标原点包括：以所述摄像头作为坐标原点和以所述麦克风作为坐标原点，L为所述麦克风到所述摄像头的距离；

第三计算子单元，用于根据所述(x1，α1)和所述(x2，α2)，计算所述拍摄对象与所述声源对象的匹配度，针对每个拍摄对象，将与所述每个拍摄对象匹配度最高的声源对象确定为匹配的声源对象，得到对应的匹配关系。

可选地，作为一个实施例，所述第三计算子单元，可以包括：

坐标修正模块，用于对所述(x2，α2)与预设误差修正参数δ进行乘积运算，得到修正后的极坐标(δ*x2，δ*α2)；

距离计算模块，用于根据所述(x1，α1)、所述(δ*x2，δ*α2)以及极坐标系下两点间距离公式

计算得到所述(x1，α1)与所述(δ*x2，δ*α2)之间的距离值；

匹配度确定模块，用于根据所述距离值，确定所述拍摄对象与所述声源对象的匹配度，其中，距离值与匹配度成反比关系。

可选地，作为一个实施例，所述第二处理单元509，可以包括：

视频合成子单元，用于对所述摄像头采集到的图像包含的第二拍摄对象所在的图像区域进行预设第二防干扰处理，对所述预设第二防干扰处理得到的图像和所述第一预设防干扰处理得到的声音进行合成处理，得到目标视频，其中，所述第二拍摄对象为所述摄像头采集到的图像包含的拍摄对象中除所述第一拍摄对象之外的拍摄对象。

图6是实现本发明各个实施例的一种电子设备的硬件结构示意图，如图6所示，该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器610，用于当接收到视频录制操作时，开启所述电子设备的摄像头进行图像采集，以及开启所述电子设备的麦克风进行声音采集；确定所述摄像头采集到的图像包含的拍摄对象，并提取所述拍摄对象的特征信息；以及确定所述麦克风采集到的声音包含的声源对象，并提取所述声源对象的特征信息，其中，不同的声源对象对应不同的音轨；基于所述拍摄对象的特征信息和所述声源对象的特征信息，对所述拍摄对象和所述声源对象进行匹配，得到所述拍摄对象与所述声源对象之间的匹配关系；接收针对所述拍摄对象的选择操作；响应所述选择操作，从所述摄像头采集到的图像包含的拍摄对象中选择第一拍摄对象；根据所述匹配关系，确定所述麦克风采集到的声音包含的声源对象中与所述第一拍摄对象匹配的第一声源对象；对所述麦克风采集到的声音包含的第二声源对象对应的音轨进行预设第一防干扰处理，并对所述预设第一防干扰处理得到的声音和所述摄像头采集到的图像进行合成处理，得到目标视频，其中，所述第二声源对象为所述麦克风采集到的声音包含的声源对象中除所述第一声源对象之外的声源对象。

可选地，作为一个实施例，所述基于所述拍摄对象的特征信息和所述声源对象的特征信息，对所述拍摄对象和所述声源对象进行匹配，得到所述拍摄对象与所述声源对象之间的匹配关系，包括：

当所述(x1，α1)和所述(y1，β1)位于两个坐标原点之间时，根据所述(y1，β1)和预设第一坐标转换公式

当所述(x1，α1)和所述(y1，β1)位于两个坐标原点的同一侧时，根据所述(y1，β1)和预设第二坐标转换公式

根据所述(x1，α1)和所述(x2，α2)，计算所述拍摄对象与所述声源对象的匹配度，针对每个拍摄对象，将与所述每个拍摄对象匹配度最高的声源对象确定为匹配的声源对象，得到对应的匹配关系。

可选地，作为一个实施例，所述根据所述(x1，α1)和所述(x2，α2)，计算所述拍摄对象与所述声源对象的匹配度，针对每个拍摄对象，将与所述每个拍摄对象匹配度最高的声源对象确定为匹配的声源对象，得到对应的匹配关系，包括：

对所述(x2，α2)与预设误差修正参数δ进行乘积运算，得到修正后的极坐标(δ*x2，δ*α2)；

根据所述(x1，α1)、所述(δ*x2，δ*α2)以及极坐标系下两点间距离公式

计算得到所述(x1，α1)与所述(δ*x2，δ*α2)之间的距离值；

根据所述距离值，确定所述拍摄对象与所述声源对象的匹配度，其中，距离值与匹配度成反比关系。

可选地，作为一个实施例，所述对所述预设第一防干扰处理得到的声音和所述摄像头采集到的图像进行合成处理，得到目标视频，包括：

对所述摄像头采集到的图像包含的第二拍摄对象所在的图像区域进行预设第二防干扰处理，对所述预设第二防干扰处理得到的图像和所述第一预设防干扰处理得到的声音进行合成处理，得到目标视频，其中，所述第二拍摄对象为所述摄像头采集到的图像包含的拍摄对象中除所述第一拍摄对象之外的拍摄对象。

应理解的是，本发明实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像可以显示在显示单元606上。经图形处理器6041处理后的图像可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

电子设备600还包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在电子设备600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中，触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元608为外部装置与电子设备600连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器609可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元；优选地，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

电子设备600还可以包括给各个部件供电的电源611(比如电池)，优选地，电源611可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备600包括一些未示出的功能模块，在此不再赘述。

优选地，本发明实施例还提供了一种电子设备，包括处理器610，存储器609，存储在存储器609上并可在所述处理器610上运行的计算机程序，该计算机程序被处理器610执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频处理方法，应用于电子设备，其特征在于，所述方法包括：

接收针对所述拍摄对象的选择操作；

2.根据权利要求1所述的方法，其特征在于，所述拍摄对象的特征信息包括：所述拍摄对象相对于所述电子设备的空间位置信息，所述声源对象的特征信息包括：所述声源对象相对于所述电子设备的空间位置信息。

3.根据权利要求2所述的方法，其特征在于，所述拍摄对象相对于所述电子设备的空间位置信息为：所述拍摄对象在以所述摄像头为坐标原点的空间坐标系下的极坐标(x1，α1)；

4.根据权利要求3所述的方法，其特征在于，所述基于所述拍摄对象的特征信息和所述声源对象的特征信息，对所述拍摄对象和所述声源对象进行匹配，得到所述拍摄对象与所述声源对象之间的匹配关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述(x1，α1)和所述(x2，α2)，计算所述拍摄对象与所述声源对象的匹配度，针对每个拍摄对象，将与所述每个拍摄对象匹配度最高的声源对象确定为匹配的声源对象，得到对应的匹配关系，包括：

计算得到所述(x1，α1)与所述(δ*x2，δ*α2)之间的距离值；

6.根据权利要求1所述的方法，其特征在于，所述对所述预设第一防干扰处理得到的声音和所述摄像头采集到的图像进行合成处理，得到目标视频，包括：

7.一种电子设备，其特征在于，所述电子设备包括：

接收单元，用于接收针对所述拍摄对象的选择操作；

8.根据权利要求7所述的电子设备，其特征在于，所述拍摄对象的特征信息包括：所述拍摄对象相对于所述电子设备的空间位置信息，所述声源对象的特征信息包括：所述声源对象相对于所述电子设备的空间位置信息。

9.根据权利要求8所述的电子设备，其特征在于，所述拍摄对象相对于所述电子设备的空间位置信息为：所述拍摄对象在以所述摄像头为坐标原点的空间坐标系下的极坐标(x1，α1)；

10.根据权利要求9所述的电子设备，其特征在于，所述匹配单元包括：

11.根据权利要求10所述的电子设备，其特征在于，所述第三计算子单元包括：

计算得到所述(x1，α1)与所述(δ*x2，δ*α2)之间的距离值；

12.根据权利要求11所述的电子设备，其特征在于，所述第二处理单元包括：

13.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6任一项所述的视频处理方法的步骤。