CN113329138A

CN113329138A - 视频拍摄方法、视频播放方法和电子设备

Info

Publication number: CN113329138A
Application number: CN202110621078.5A
Authority: CN
Inventors: 高志稳
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-08-31

Abstract

本申请公开了一种视频拍摄方法、视频播放方法和电子设备，属于拍摄技术领域。其中，所述视频拍摄方法包括：电子设备的第一摄像头组件采集第一图像，以及所述电子设备的第二摄像头组件采集第二图像；分别识别各个图像中的语音信号；将各个图像中的语音信号与对应的图像进行关联；输出目标视频；所述目标视频由所述第一图像和所述第二图像组成；其中，所述第一摄像头组件和所述第二摄像头组件分别位于所述电子设备的两个相对面。

Description

视频拍摄方法、视频播放方法和电子设备

技术领域

本申请属于拍摄技术领域，具体涉及一种视频拍摄方法、视频播放方法和电子设备。

背景技术

目前，人们利用电子设备拍摄视频图像时，打开“相机”程序，进入拍摄预览界面，选择前置摄像头拍摄或者后者摄像头拍摄，从而拍摄预览界面显示对应的拍摄头所采集的图像，用户点击拍摄的开始选项和结束选项，从而完成视频图像的拍摄。

基于此，可以依靠拍摄者在拍摄过程中转动身体，以变化拍摄角度，来实现前后视角的拍摄；或者分多次拍摄，每次拍摄启用不同的摄像头，来实现前后视角的拍摄。

在现有技术中，用户在实现前后视角的拍摄过程中，前后视角拍摄的环境中的声音混在一起，导致视频中的画面和声音不匹配。

发明内容

本申请实施例的目的是提供一种视频拍摄方法，能够解决在现有技术中，用户在实现前后视角的拍摄过程中，前后视角拍摄的环境中的声音混在一起，导致视频中的画面和声音不匹配的问题。

第一方面，本申请实施例提供了一种视频拍摄方法，该方法包括：电子设备的第一摄像头组件采集第一图像，以及所述电子设备的第二摄像头组件采集第二图像；分别识别各个图像中的语音信号；将各个图像中的语音信号与对应的图像进行关联；输出目标视频；所述目标视频由所述第一图像和所述第二图像组成；其中，所述第一摄像头组件和所述第二摄像头组件分别位于所述电子设备的两个相对面。

第二方面，本申请实施例提供了一种视频播放方法，该方法包括：接收对目标视频的第二输入；所述第二输入用于播放第一图像和/或第二图像；响应于所述第二输入，按照与所述第二输入相关联的第三目标分配信息，在所述目标视频中显示所述第一图像和/或所述第二图像；以及，按照与所述第二输入相关联的第四目标分配信息，播放所述第一图像中的第一语音信号和/或所述第二图像中的第二语音信号；其中，所述目标视频由电子设备的第一摄像头组件采集的第一图像、和所述电子设备的第二摄像头组件采集的第二图像组成。

第三方面，本申请实施例提供了一种视频拍摄装置，该装置包括：采集模块，用于电子设备的第一摄像头组件采集第一图像，以及所述电子设备的第二摄像头组件采集第二图像；识别模块，用于分别识别各个图像中的语音信号；关联模块，用于将各个图像中的语音信号与对应的图像进行关联；输出模块，用于输出目标视频；所述目标视频由所述第一图像和所述第二图像组成；其中，所述第一摄像头组件和所述第二摄像头组件分别位于所述电子设备的两个相对面。

第四方面，本申请实施例提供了一种视频播放装置，该装置包括：第二输入接收模块，用于接收对目标视频的第二输入；所述第二输入用于播放第一图像和/或第二图像；第二输入响应模块，用于响应于所述第二输入，按照与所述第二输入相关联的第三目标分配信息，在所述目标视频中显示所述第一图像和/或所述第二图像；以及，按照与所述第二输入相关联的第四目标分配信息，播放所述第一图像中的第一语音信号和/或所述第二图像中的第二语音信号；其中，所述目标视频由电子设备的第一摄像头组件采集的第一图像、和所述电子设备的第二摄像头组件采集的第二图像组成。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面或者第二方面所述的方法的步骤。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面或者第二方面所述的方法的步骤。

第七方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面或者第二方面所述的方法。

这样，在本申请的实施例中，可利用电子设备中的第一摄像头组件和第二摄像头组件分别采集图像，同步实现前景拍摄和后景拍摄。对应地，在拍摄预览界面中，同步显示前景拍摄的第一图像和后景拍摄的第二图像，使得用户在一次拍摄中，完成前后视角的拍摄，用户操作简单。在此基础上，考虑到前后视角同步拍摄时，前后拍摄环境中的语音信号混在一起，导致拍摄画面与声音不匹配，本申请在拍摄的过程中，还对拍摄环境中的语音信号进行了识别和关联处理。其中，在拍摄过程中，自动识别出哪些语音信号是来自前方拍摄环境中的，以将这些语音信号与前景拍摄的第一图像相关联；以及，自动识别出哪些语音信号是来自后方拍摄环境中的，以将这些语音信号与后景拍摄的第二图像相关联。进一步地，拍摄结束后，输出由第一图像和第二图像组成的目标视频，而目标视频中不同的图像，是关联了对应的语音信号的，在目标视频的播放过程中，可根据用户的需求，清晰地播放任意图像中的语音信号。可见，在本申请的实施例中，用户在实现前后视角的拍摄过程中，不仅操作简单，而且前后两个视角拍摄的图像不会相互掺杂拍摄范围以外的声音，使得所拍摄的视频中，画面和声音是匹配的。

附图说明

图1是本申请实施例的视频拍摄方法的流程图之一；

图2是本申请实施例的电子设备的示意图之一；

图3是本申请实施例的电子设备的示意图之二；

图4是本申请实施例的视频拍摄方法的说明示意图之一；

图5是本申请实施例的视频拍摄方法的说明示意图之二；

图6是本申请实施例的视频拍摄方法的说明示意图之三；

图7是本申请实施例的视频拍摄方法的流程图之二；

图8是本申请实施例的视频播放方法的流程图之一；

图9是本申请实施例的电子设备的示意图之三；

图10是本申请实施例的电子设备的示意图之四；

图11是本申请实施例的电子设备的示意图之五；

图12是本申请实施例的电子设备的示意图之六；

图13是本申请实施例的视频播放方法的流程图之二；

图14是本申请实施例的视频拍摄装置的框图；

图15是本申请实施例的视频播放装置的框图；

图16是本申请实施例的电子设备的硬件结构示意图之一；

图17是本申请实施例的电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频拍摄方法和视频播放方法进行详细地说明。

参见图1，示出了本申请一个实施例的视频拍摄方法的流程图，该方法应用于电子设备，包括：

步骤S1：电子设备的第一摄像头组件采集第一图像，以及电子设备的第二摄像头组件采集第二图像。

在本申请中，电子设备包括第一摄像头组件和第二摄像头组件，第一摄像头组件和第二摄像头组件分别位于电子设备的两个相对面。

常见地，第一摄像头组件位于电子设备的正面，应用于前摄场景中，第二摄像头组件位于电子设备的背面，应用于后摄场景中。

参见图2，示例性地，第一摄像头组件包括一个摄像头(图示中的CAM1)，位于屏幕下方；第二摄像头组件包括两个摄像头(图示中的CAM2和CAM3)，位于背面。

参见图3，可选地，用户通过预设输入方式开启前后摄录像功能，从而第一摄像头组件采集前景画面(即第一图像)，第二摄像头组件采集后景画面(即第二图像)，进而在拍摄预览界面中，分别显示第一图像和第二图像。

其中，第一图像和第二图像均为动态图像，且动态图像的变化进度与拍摄进度一致。

步骤S2：分别识别各个图像中的语音信号。

在该步骤中，各个图像中的语音信号，包括：各个图像中的所有拍摄对象发出的语音信号。

例如，在拍摄过程中，第一图像中的小A说话，则将小A说的话，作为第一图像中的语音信号。

又如，在拍摄过程中，第二图像中的小B说话，则将小B说的话，作为第二图像中的语音信号。

又如，在拍摄过程中，第一图像中的小A和第二图像中的小B同时说话，则将小A说的话，作为第一图像中的语音信号，将小B说的话，作为第二图像中的语音信号。

步骤S3：将各个图像中的语音信号与对应的图像进行关联。

在该步骤中，将第一摄像头组件拍摄的环境中出现的语音信号，与第一摄像头组件拍摄的第一图像进行关联；将第二摄像头组件拍摄的环境中出现的语音信号，与第二摄像头组件拍摄的第二图像进行关联。

示例性地，关联的方法为：将整个拍摄过程中识别的第一图像中的语音信号加入声轨1中；将整个拍摄过程中识别的第二图像中的语音信号加入声轨2中。进一步地，将声轨1作为音频文件，与第一图像进行关联保存，将声轨2作为音频文件，与第二图像进行关联保存。

步骤S4：输出目标视频；目标视频由第一图像和第二图像组成。

在该步骤中，用户通过预设输入方式结束视频拍摄，从而输出本次拍摄的目标视频，目标视频的画面由第一图像和第二图像组成，且目标视频的播放过程中，第一图像和第二图像是同步播放的。

例如，在相册程序中，用户点击目标视频，同步显示第一图像和第二图像。

其中，第一图像和第二图像分别是关联了对应的语音信号的。因此，在目标视频播放的过程中，第一图像中关联的语音信号和第二图像中关联的语音信号同步播放。

这样，在本申请的实施例中，可利用电子设备中的第一摄像头组件和第二摄像头组件分别采集图像，同步实现前景拍摄和后景拍摄。对应地，在拍摄预览界面中，同步显示前景拍摄的第一图像和后景拍摄的第二图像，使得用户在一次拍摄中，完成前后视角的拍摄，用户操作简单。在此基础上，考虑到前后视角同步拍摄时，前后拍摄环境中的语音信号混在一起，导致画面与声音不匹配，本申请在拍摄的过程中，还对拍摄环境中的语音信号进行了识别和关联处理。其中，在拍摄过程中，自动识别出哪些语音信号是来自前方拍摄环境中的，以将这些语音信号与前景拍摄的第一图像相关联；以及，自动识别出哪些语音信号是来自后方拍摄环境中的，以将这些语音信号与后景拍摄的第二图像相关联。进一步地，拍摄结束后，输出由第一图像和第二图像组成的目标视频，而目标视频中不同的图像，是关联了对应的语音信号的，在目标视频的播放过程中，可根据用户的需求，清晰地播放任意图像中的语音信号。可见，在本申请的实施例中，用户在实现前后视角的拍摄过程中，不仅操作简单，而且前后两个视角拍摄的图像不会相互掺杂拍摄范围以外的声音，使得拍摄的视频中，画面和声音是匹配的。

在本申请另一个实施例的视频拍摄方法的流程中，电子设备上分布有至少三个拾音器，至少三个拾音器位于不同的平面内。

可选地，拾音器为麦克风。

参见图2，电子设备上分布有三个麦克风，分别为图示中的MIC1、MIC2和MIC3。MIC1和MIC2分别位于电子设备的底部和顶部，MIC3位于电子设备的背面。其中，MIC1和MIC2分别位于电子设备的底部和顶部，为了便于理解，将MIC1和MIC2示意在电子设备的背面。

在更多的实施例中，麦克风的数量不限定，具体的安装位置也不限定，只要满足至少三个麦克风位于不同的平面内，形成立体空间即可。

这样设置的目的在于：一方面，环境中，同一位置发出的语音信号，经不同位置的麦克风拾取后，因传播距离的差异，会出现相位差，从而根据在不同麦克风中产生的差异，可以定位到发出语音信号的位置。另一方面，不同位置的麦克风可用于实现不同方向上的声音，在拾取全方位声音的基础上，可以进一步识别出不同图像中的语音信号。

步骤S2，包括：

子步骤A1：在检测到目标语音信号的情况下，基于目标语音信号在至少三个拾音器中产生的相位差，确定产生目标语音信号的目标方向。

在拍摄过程中，若检测到目标语音信号，则基于电子设备中各个拾音器采集的目标语音信号，可获取到目标语音信号的相位差异，从而基于目标语音信号的相位差异，识别到产生目标语音信号的目标方向。

子步骤A2：根据目标方向上目标语音信号的强度信息，确定产生目标语音信号的目标位置信息。

在该步骤中，在确定发出目标语音信号的方向之后，可检测该方向上的目标语音信号强度，从而将强度最大的位置，确定为发出目标语音信号的具体位置，即目标位置信息。

另外，还可结合电子设备中各个拾音器拾取目标语音信号后，产生的幅值差异，来识别产生目标语音信号的目标方向，以及目标位置信息。

子步骤A3：在目标位置信息位于目标摄像头组件的采集角度范围内的情况下，将目标语音信号确定为目标摄像头组件采集图像中的语音信号。

其中，目标摄像头组件为第一摄像头组件或者第二摄像头组件。

对于任意摄像头组件来说，都会有一个采集角度范围。

参见图4，对于CAM1来说，图中两条带箭头的实线的中间区域，表示采集角度范围。

参见图5，对于CAM2和CAM3来说，图中两条带箭头的实线的中间区域，表示采集角度范围。

对应地，在图4中，基于三个麦克风，可以定位到发出目标语音信号的目标位置信息。图示中的三条虚线相交的位置所在位置，即目标位置信息。其中，三条虚线可以从电子设备的正面相交，也可以是电子设备的背面相交，可以在信号强度较强的一面，确定为相交位置。可以看出，该目标位置信息是属于CAM1的采集角度范围内的，从而可以确定目标语音信号为CAM1采集图像中的语音信号，也就是说，目标语音信号是由CAM1采集图像中的拍摄对象发出的。即，将目标语音信号确定为第一摄像头组件采集的第一图像中的语音信号。

对应地，在图5中，基于三个麦克风，可以定位到发出目标语音信号的目标位置信息。图示中的三条虚线相交的位置所在位置，即目标位置信息。其中，三条虚线可以从电子设备的正面相交，也可以是电子设备的背面相交，可以在信号强度较强的一面，确定为相交位置。可以看出，该目标位置信息是属于CAM2和CAM3的采集角度范围内的，从而可以确定目标语音信号为CAM2和CAM3采集图像中的语音信号，也就是说，目标语音信号是由CAM2和CAM3采集图像中的拍摄对象发出的。即，将目标语音信号确定为第二摄像头组件采集的第二图像中的语音信号。

在本实施例中，采用多个拾音器，如麦克风，组成麦克风阵列，麦克风阵列形成三维立体空间，位于电子设备上，从而同一语音信号被三维立体空间内的各个麦克风拾取后，会呈现出相位差异，从而基于该相位差异，可以确定发出该语音信号的方向，再基于该方向上的信号强度，确定发出该语音信号的位置。进一步地，判断该位置属于哪个摄像头组件的采集角度范围内，并在该位置属于某一摄像头组件的采集角度范围的情况下，确定该语音信号是由该摄像头组件拍摄环境中的拍摄对象发出的，从而确定该语音信号为该摄像头组件采集图像中的语音信号。基于此方法，本实施例可以准确地识别出各个摄像头组件采集环境中的语音信号，避免各个图像中的语音信号相互混杂在一起，从而使得输出的视频中，前后视角两个图像与声音是匹配的，进而确保输出的视频中，前后视角两个图像的音质清晰。

在本申请另一个实施例的视频拍摄方法的流程中，在将目标语音信号确定为目标摄像头组件采集图像中的语音信号的步骤之前，还包括：

子步骤B1：在目标拍摄对象的脸部特征信息满足预设条件的情况下，若目标拍摄对象所处的图像与目标摄像头组件的采集角度范围匹配，则将目标语音信号确定为目标摄像头组件采集图像中的语音信号。

其中，面部特征信息包括面部动作和嘴巴动作。

在该步骤中，基于对各个图像中的拍摄对象的面部特征信息的采集，可以识别出正在说话的拍摄对象。

对应地，预设条件为：人物说话时的脸部特征信息。

因此，在该步骤中，摄像头组件采集环境中的拍摄对象的脸部特征信息，当其中的目标拍摄对象的脸部特征信息满足人物说话时的脸部特征信息时，说明目标拍摄对象正在说话。进一步地，判断目标拍摄对象所在的采集角度范围是属于哪个摄像头组件的采集角度范围内，即目标拍摄对象所处的图像与哪个摄像头组件的采集角度范围匹配。

结合上一实施例，首先，确定发出目标语音信号的目标位置信息是属于目标摄像头组件的采集角度范围内的，然后，在本实施例中，确定目标摄像头组件的采集角度范围内的目标拍摄对象正在说话，因此，两者结合，可以最终确定目标语音信号是目标摄像头组件采集图像中的语音信号。

可选地，任意摄像头组件可包括多个摄像头，多个摄像头除了用于拍摄以外，还可实时采集拍摄对象的脸部特征信息，以更准确地完成脸部动作、嘴部动作的侦测和追踪。

在本实施例中，在基于信号源的位置确定目标语音信号属于哪个图像的情况下，结合实际拍摄环境中的拍摄对象的状态，双重确定目标语音信号所属的图像。可见，本实施例提供了一种高准确率的、对于拍摄过程中的语音信号的判断方法。

在本申请另一个实施例的视频拍摄方法中，可单独采用：在检测到目标语音信号的情况下，若某一图像中的拍摄对象正在说话，则可确定目标语音信号为该图像中的语音信号。

需要说明的是，本实施例更适用于当前目标语音信号的数量为一个的情况，即当前只有一个人在说话，从而准确地建立目标语音信号与图像的对应关系。

在本申请另一个实施例的视频拍摄方法的流程中，在步骤S2之前，还包括：

步骤C1：在检测到多个语音信号的情况下，将与预设的声纹特征信息匹配的语音信号，确定为目标语音信号。

在该步骤之前，用户可预先录入多个拍摄对象的语音，以识别出各个拍摄对象语音中的声纹特征信息，作为本实施例中的预设的声纹特征信息。

在该步骤中，若当前识别到多个语音信号，则可从多个语音信号中，通过预设的声纹特征信息去识别出目标语音信号。

需要说明的是，目标语音信号是需要关联至对应的图像中，而其它的语音信号、环境声音信号等，可作为视频的背景声音，进行保留或者滤除处理。

因此，在当前检测到的多个语音信号中，若其中部分语音信号与预设的声纹特征信息是匹配的，则可将这些匹配的语音信号，作为目标语音信号。

简单理解为，目标语音信号是由：用户希望在视频中保留其话语的拍摄对象发出的。

进一步地，在识别出目标语音信号后，再依次识别各个目标语音信号所属的图像。

可参考地，依次识别发出每个目标语音信号对应的目标位置信息，以初次确定各个目标语音信号所属的图像，然后再判断已确定的图像中是否有人在说话，最终确定各个目标语音信号所属的图像。

在本实施例中，在拍摄过程中，存在多个拍摄对象同时说话的场景，其中包括前后拍摄环境中的拍摄对象同时说话的场景。在这种情况下，为了避免前后拍摄环境中的语音信号混在一起，可首先通过声纹识别的方式，去区分开各个拍摄对象的语音信号，再依次去识别各个语音信号所属的图像，从而可以较为准确地提取出前后拍摄环境中的语音信号。

在本申请另一个实施例的视频拍摄方法的流程中，在检测到多个语音信号的情况下，在拍摄的过程中，将匹配成功的目标语音信号直接提取至对应的图像中。其中，若检测某个声音信号具有相似或者相同的声纹特征信息，则默认为该声音信号为语音信号，即是由某个拍摄对象发出的，但电子设备没有预先录入该拍摄对象的声纹特征信息，从而可采取的办法为：在拍摄过程中，识别该语音信号是属于哪个图像，但不会进行关联，拍摄结束后，可弹出提示窗口，提示用户录入该语音信号的声纹特征信息。

在一种情况下，用户同意，则自动将该语音信号作为目标语音信号关联至对应的图像中，同时将该语音信号的声纹特征信息加入预设的声纹特征信息中；在另一种情况下，用户不同意，则默认将该语音信号作为环境声音信号。

在本申请另一个实施例的视频拍摄方法的流程中，可对分别对各个图像中的语音信号进行降噪处理。

参见图6，对于任意一个麦克风，对应连接一个连接编码-解码器(Coder-Decoder，简称Codec)，多个Codec和数字信号处理(Digital Signal Processing，简称DSP)器连接，从而可对各个麦克风拾取的语音信号进行处理，处理之后识别出语音信号是属于哪个图像的，在属于第一图像的情况下，将识别的语音信号加入声轨1，在属于第二图像的情况下，将识别的语音信号加入声轨2。

其中，麦克风所拾取的信号中，除了语音信号以外，还包括环境声音信号。因此，为了确保视频播放时，语音信号可以清晰地播放，本实施例采取了滤除环境声音信号的处理。

可选地，基于本申请图2提供的麦克风布局方法，在前摄场景中，将距离拍摄对象嘴巴较近的、位于底部的MIC1，作为拾取语音信号的主要麦克风，将其余的两个麦克风作为拾取环境声音信号的主要麦克风。因此，可基于MIC1拾取的信号，对其余两个麦克风拾取的信号进行降噪处理，从而滤除到大部分环境声音信号。

可选地，基于本申请图2提供的麦克风布局方法，在后摄场景中，将距离拍摄对象嘴巴较近的、位于底部的MIC1、或者位于顶部的MIC2(二者距离后摄环境中的拍摄对象的距离几乎一样)，作为拾取语音信号的主要麦克风；将其余的两个麦克风作为拾取环境声音信号的主要麦克风。因此，可基于MIC1或者MIC2拾取的信号，对其余两个麦克风拾取的信号进行降噪处理，从而滤除到大部分环境声音信号。

在本实施例中，利用电子设备上的多个麦克风，可实现对语音信号的降噪处理，以提高每个图像的音频质量，从而使得目标视频具有非常清晰的音频。

需要说明的是，在本申请中，主要识别图像中的语音信号，并分别形成对应的声轨1和声轨2。在拍摄过程中，在某些时间段内，若检测到目标语音信号，而无法在对应的图像中检测到正在说话的拍摄对象，则可将检测到的目标语音信号作为环境声音信号关联至对应图像，以加入对应的声轨中；在拍摄过程中，在某些时间段内，没有检测到目标语音信号，则可将当前检测到的环境声音信号关联至对应图像，以加入对应的声轨中。

可选地，因前后摄场景所处的环境是一样的，可以将当前检测到的环境声音信号分别关联至两个图像，以分别加入对应的声轨中。

在本申请中，对于前摄场景或者后摄场景，可提取出对应摄像头组件的采集角度范围内的语音信号，而自动忽略来自采集角度范围以外的语音信号，如自动将来自采集角度范围以外的语音信号进行静音处理(如图4和图5的静音符号所表示)。在处理过程中，也可在确定任一目标语音信号属于任一图像的情况下，将目标语音信号加入对应声轨中；同此同时，将该目标语音信号以静音或者低于环境音量的方式加入另一声轨中，避免目标语音信号起到干扰作用。

以下示例性地提供了一种本申请视频拍摄方法的应用场景。

参见图7，用户开启录像后，一方面，电子设备基于录像功能，进行前后摄录像，使得电子设备中，分别采集前摄画面和后摄画面；另一方面，电子设备基于多麦录音功能，进行声源定位，从而针对性地进行声音拾取。综合两方面，完成前摄画面与前摄声源的匹配1，以及完成后摄画面与后摄声源的匹配2，再将提取出来的不同特征的语音信号关联至对应的画面中，用户结束录像后，保存视频文件。另外，在拍摄过程中，同步进行全景录音，以根据用户的需求，在播放视频文件的过程中，播放录制的全景声音。

在本申请另一个实施例的视频拍摄方法的流程中，在步骤S3之后，还包括：

步骤D1：接收第一输入；第一输入用于显示第一图像和/或第二图像。

第一输入包括用户在屏幕上进行的触摸输入，不限于点击、滑动、拖动等输入。第一输入还可以是第一操作，第一操作包括用户的隔空操作，不限于手势动作操作、脸部动作操作等，第一操作还包括用户在设备上对实体按键的操作，不限于按动等操作。而且，第一输入包括一个或者多个输入，其中，多个输入可以是连续的，也可以是间断的。

步骤D2：响应于第一输入，按照与第一输入相关联的第一目标分配信息，显示第一图像和/或第二图像；以及，按照与第一输入相关联的第二目标分配信息，调节第一图像中的第一语音信号的音量信息和/或第二图像中的第二语音信号的音量信息。

其中，基于不同的情况，第一目标分配信息包括以下任一项：第一图像和第二图像的显示比例；第一图像显示最大化、第二图像显示最小化；第二图像显示最大化、第一图像显示最小化。

其中，基于不同的情况，第二目标分配信息包括以下任一项：第一语音信号和第二语音信号的音量比例；第一语音信号音量最大化、第二语音信号音量最小化；第二语音信号音量最大化、第一语音信号音量最小化。

在拍摄过程中，用户可通过第一输入的不同方式进行操作，使得拍摄预览界面中显示第一图像和第二图像中的至少一个，以及调节拍摄过程中各个图像的语音信号的音量。

例如，用户按照常规输入方式，点击“开始”按键，在拍摄预览界面中，按照1:1的显示比例，同步显示第一图像和第二图像，如左侧显示第一图像，右侧显示第二图像。同时，第一图像对应的第一语音信号和第二图像对应的第二语音信号，以1:1的音量比例播放。

在拍摄过程中，用户单击左侧显示的第一图像所在区域，在拍摄预览界面中，继续保持1:1的显示比例，同步显示第一图像和第二图像；同时第一图像对应的第一语音信号和第二图像对应的第二语音信号，以N:1(N大于1)的音量比例播放。从而，第一图像的第一语音信号的音量提高N倍，第二图像的第二语音信号的音量减小N倍，第一图像的第一语音信号的音量高于第二图像的第二语音信号的音量，以突出第一图像的第一语音信号。

在拍摄过程中，用户双击左侧显示的第一图像，在拍摄预览界面中，仅显示第一图像；同时将第一图像对应的第一语音信号的音量最大化，以及将第二图像对应的第二语音信号的音量最小化(静音)，从而播放第一图像对应的第一语音信号。

同理，在拍摄过程中，用户双击右侧显示的第二图像，在拍摄预览界面中，仅显示第二图像；同时将第二图像对应的第二语音信号的音量最大化，第一图像对应的第一语音信号的音量最小化(静音)，从而在目标视频中播放第二图像对应的第二语音信号。

在本实施例中，在拍摄过程中，还在拍摄预览界面中提供了用户操作路径，使得用户可以根据需要，在拍摄预览界面，选择切换第一摄像头组件拍摄的第一图像和/或第二摄像头组件拍摄的第二图像；同时，跟随用户所选，自动调整各个图像中的语音信号的音量，例如，可以适当调高用户所选图像中的语音信号，从而达到突出某一图像中的语音信号的目的，等等。可见，本实施例在电子设备能够实现前后视角的同步拍摄的基础上，还可实现用户的自由操作，使得用户能够随时预览到期望的拍摄效果。

参见图8，示出了本申请另一个实施例的视频播放方法的流程图，该方法应用于电子设备，包括：

步骤S5：接收对目标视频的第二输入；第二输入用于播放第一图像和/或第二图像。

第二输入包括用户在屏幕上进行的触摸输入，不限于点击、滑动、拖动等输入。第二输入还可以是第二操作，第二操作包括用户的隔空操作，不限于手势动作操作、脸部动作操作等，第二操作还包括用户在设备上对实体按键的操作，不限于按动等操作。而且，第二输入包括一个或者多个输入，其中，多个输入可以是连续的，也可以是间断的。

步骤S6：响应于第二输入，按照与第二输入相关联的第三目标分配信息，在目标视频中显示第一图像和/或第二图像；以及，按照与第二输入相关联的第四目标分配信息，播放第一图像中的第一语音信号和/或第二图像中的第二语音信号。

其中，目标视频由电子设备的第一摄像头组件采集的第一图像、和电子设备的第二摄像头组件采集的第二图像组成。

其中，基于不同的情况，第三目标分配信息包括以下任一项：第一图像和第二图像的显示比例；第一图像显示最大化、第二图像显示最小化；第二图像显示最大化、第一图像显示最小化。

其中，基于不同的情况，第四目标分配信息包括以下任一项：第一语音信号和第二语音信号的音量比例；第一语音信号音量最大化、第二语音信号音量最小化；第二语音信号音量最大化、第一语音信号音量最小化。

其中，第一语音信号为第一图像中的全部语音信号，第二语音信号为第二图像中的全部语音信号。

参见图9，输出目标视频后，用户可打开目标视频，从而显示第一图像(图示中左侧的图像)和第二图像(图示中右侧的图像)。

用户可通过第一输入的不同方式，对目标视频进行操作，使得当前播放第一图像和第二图像中的至少一个；以及按需播放各个图像的语音信号。

参见图9，例如，用户按照常规输入方式，点击“播放”按键，在目标视频的画面中，按照1:1的显示比例，同步显示第一图像和第二图像，同时第一图像对应的第一语音信号和第二图像对应的第二语音信号，以1:1的音量比例在目标视频中播放。

参见图10，在播放过程中，用户单击左侧显示的第一图像所在区域，目标视频的画面中，继续保持1:1的显示比例，同步显示第一图像和第二图像；同时第一图像对应的第一语音信号和第二图像对应的第二语音信号，以N:1(N大于1)的音量比例在目标视频中播放。如图10所示，相比于图9所示，第一图像的第一语音信号的音量提高N倍，第二图像的第二语音信号的音量减小N倍，第一图像的第一语音信号的音量高于第二图像的第二语音信号的音量，以突出第一图像的第一语音信号。

参见图11，在播放过程中，用户双击左侧显示的第一图像，目标视频的画面中，仅显示第一图像；同时将第一图像对应的第一语音信号的音量最大化，以及将第二图像对应的第二语音信号的音量最小化(静音)，从而在目标视频中播放第一图像对应的第一语音信号。

参见图12，同理，在播放过程中，用户双击右侧显示的第二图像，目标视频的画面中，仅显示第二图像；同时将第二图像对应的第二语音信号的音量最大化，第一图像对应的第一语音信号的音量最小化(静音)，从而在目标视频中播放第二图像对应的第二语音信号。

可选地，将第一语音信号所在的声轨1，认为声源L，将第二语音信号所在的声轨2，认为声源R，从而根据不同的情况，调整两个声源的音量，以在目标视频中同步播放调整音量后第一语音信号和第二语音信号。

可选地，在显示目标视频的情况下，若用户手动拖动进度条上的控件，则目标视频的播放时刻从第一时刻调整至第二时刻，对应地，第一图像和第二图像的播放时刻同步地从第一时刻调整至第二时刻。

在本申请的实施例中，用户可以打开目标视频，以对目标视频进行操作。其中，基于对前后视角的同步拍摄输出的目标视频，本申请实施例提供了用户操作界面，使得用户可以根据需要，在目标视频的画面中，选择切换第一摄像头组件拍摄的第一图像和/或第二摄像头组件拍摄的第二图像；同时，跟随用户所选，自动调整视频中播放的各个图像中的语音信号的音量，例如，可以适当调高用户所选图像中的语音信号，从而达到突出某一图像中的语音信号的目的，等等。可见，本申请不仅能够实现前后视角的同步拍摄，还可实现同步播放前后两个视角的拍摄图像的视频回放，同时，可确保各个图像中的语音信号的播放清晰度，从而可根据用户需求，自由切换不同的视频播放模式，不仅解决交互单一的问题，同时能够带来更好的视觉感官效果，以及真挚干净的听感感官效果。

以下示例性地提供了一种本申请视频播放方法的应用场景。

参见图13，用户点击录像播放，一种情况下，录像正常播放，同步播放前摄画面和后摄画面，声源L等于声源R；另一种情况下，窗口播放，包括三种子情况：用户点击后，前摄画面窗口单独播放，播放对应的声源L；用户点击后，后摄画面窗口单独播放，播放对应的声源R；用户点击后，前后摄窗口同步显示，根据点击的窗口，对应地，使得声源L大于声源R，或者声源L效应声源R。

综上，本申请提供了一种前后摄同时录像和视频回放的方法。

其中，在前后摄同时录像的过程中：通过多麦定位录音技术和人像定位，自动关联前后摄像画面和语音信号，多麦定位录音技术能够更好地区分前后方向，同时也使得语音信号更加清晰干净，这种录像方式适合于采访视频，前后人物和景物混合录制。

在视频回放的过程中：通过用户与视频界面操作互动，进行前后视频画面切换，同时声音也跟随画面自动切换，提升用户体验。

需要说明的是，本申请实施例提供的视频拍摄方法，执行主体可以为视频拍摄装置，或者该视频拍摄装置中的用于执行视频拍摄方法的控制模块。本申请实施例中以视频拍摄装置执行视频拍摄方法为例，说明本申请实施例提供的视频拍摄装置。

图14示出了本申请另一个实施例的视频拍摄装置的框图，该装置包括：

采集模块10，用于电子设备的第一摄像头组件采集第一图像，以及电子设备的第二摄像头组件采集第二图像；

识别模块20，用于分别识别各个图像中的语音信号；

关联模块30，用于将各个图像中的语音信号与对应的图像进行关联；

输出模块40，用于输出目标视频；目标视频由第一图像和第二图像组成；

其中，第一摄像头组件和第二摄像头组件分别位于电子设备的两个相对面。

可选地，电子设备上分布有至少三个拾音器，至少三个拾音器位于不同的平面内；

识别模块20，包括：

第一确定单元，用于在检测到目标语音信号的情况下，基于目标语音信号在至少三个拾音器中产生的相位差，确定产生目标语音信号的目标方向；

第二确定单元，用于根据目标方向上目标语音信号的强度信息，确定产生目标语音信号的目标位置信息；

第三确定单元，用于在目标位置信息位于目标摄像头组件的采集角度范围内的情况下，将目标语音信号确定为目标摄像头组件采集图像中的语音信号；

可选地，装置，还包括：

第四确定单元，用于在目标拍摄对象的脸部特征信息满足预设条件的情况下，若目标拍摄对象所处的图像与目标摄像头组件的采集角度范围匹配，则将目标语音信号确定为目标摄像头组件采集图像中的语音信号。

可选地，装置，还包括：

目标语音信号确定模块，用于在检测到多个语音信号的情况下，将与预设的声纹特征信息匹配的语音信号，确定为目标语音信号。

可选地，装置，还包括：

第一输入接收模块，用于接收第一输入；第一输入用于显示第一图像和/或第二图像；

第一输入响应模块，用于响应于第一输入，按照与第一输入相关联的第一目标分配信息，显示第一图像和/或第二图像；以及，按照与第一输入相关联的第二目标分配信息，调节第一图像中的第一语音信号的音量信息和/或第二图像中的第二语音信号的音量信息。

需要说明的是，本申请实施例提供的视频播放方法，执行主体可以为视频播放装置，或者该视频播放装置中的用于执行视频播放方法的控制模块。本申请实施例中以视频播放装置执行视频播放方法为例，说明本申请实施例提供的视频播放装置。

图15示出了本申请另一个实施例的视频拍摄装置的框图，该装置包括：

第二输入接收模块50，用于接收对目标视频的第二输入；第二输入用于播放第一图像和/或第二图像；

第二输入响应模块60，用于响应于第二输入，按照与第二输入相关联的第三目标分配信息，在目标视频中显示第一图像和/或第二图像；以及，按照与第二输入相关联的第四目标分配信息，播放第一图像中的第一语音信号和/或第二图像中的第二语音信号；

本申请实施例中的视频拍摄装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频拍摄装置可以为具有动作系统的装置。该动作系统可以为安卓(Android)动作系统，可以为ios动作系统，还可以为其他可能的动作系统，本申请实施例不作具体限定。

本申请实施例提供的视频拍摄装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图16所示，本申请实施例还提供一种电子设备100，包括处理器101，存储器102，存储在存储器102上并可在所述处理器101上运行的程序或指令，该程序或指令被处理器101执行时实现上述任一视频拍摄方法或视频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图17为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图17中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，在一种电子设备1000中，显示单元1006，用于电子设备1000的第一摄像头组件采集第一图像，以及电子设备1000的第二摄像头组件采集第二图像；处理器1010，用于分别识别各个图像中的语音信号；将各个图像中的语音信号与对应的图像进行关联；输出目标视频；所述目标视频由所述第一图像和所述第二图像组成；其中，所述第一摄像头组件和所述第二摄像头组件分别位于电子设备1000的两个相对面。

可选地，电子设备1000上分布有至少三个拾音器，所述至少三个拾音器位于不同的平面内；处理器1010，还用于在检测到目标语音信号的情况下，基于所述目标语音信号在所述至少三个拾音器中产生的相位差，确定产生所述目标语音信号的目标方向；根据所述目标方向上所述目标语音信号的强度信息，确定产生所述目标语音信号的目标位置信息；在所述目标位置信息位于目标摄像头组件的采集角度范围内的情况下，将所述目标语音信号确定为所述目标摄像头组件采集图像中的语音信号；其中，所述目标摄像头组件为所述第一摄像头组件或者所述第二摄像头组件。

可选地，处理器1010，还用于在目标拍摄对象的脸部特征信息满足预设条件的情况下，若所述目标拍摄对象所处的图像与所述目标摄像头组件的采集角度范围匹配，则将所述目标语音信号确定为所述目标摄像头组件采集图像中的语音信号。

可选地，处理器1010，还用于在检测到多个语音信号的情况下，将与预设的声纹特征信息匹配的语音信号，确定为所述目标语音信号。

可选地，用户输入单元1007，用于接收第一输入；所述第一输入用于显示所述第一图像和/或所述第二图像；显示单元1006，用于响应于所述第一输入，按照与所述第一输入相关联的第一目标分配信息，显示所述第一图像和/或所述第二图像；以及，处理器1010，还用于按照与所述第一输入相关联的第二目标分配信息，调节所述第一图像中的第一语音信号的音量信息和/或所述第二图像中的第二语音信号的音量信息。

在另一种电子设备1000中，用户输入单元1007，用于接收对目标视频的第二输入；所述第二输入用于播放第一图像和/或第二图像；处理器1010，用于响应于所述第二输入，按照与所述第二输入相关联的第三目标分配信息，在所述目标视频中显示所述第一图像和/或所述第二图像；以及，按照与所述第二输入相关联的第四目标分配信息，播放所述第一图像中的第一语音信号和/或所述第二图像中的第二语音信号；其中，所述目标视频由电子设备的第一摄像头组件采集的第一图像、和所述电子设备的第二摄像头组件采集的第二图像组成。

在在视频回放的过程中：通过用户与视频界面操作互动，进行前后视频画面切换，同时声音也跟随画面自动切换，提升用户体验。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频图像捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频图像的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、动作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和动作系统。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理动作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频拍摄方法或者视频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频拍摄方法或者视频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频拍摄方法，其特征在于，所述方法包括：

电子设备的第一摄像头组件采集第一图像，以及所述电子设备的第二摄像头组件采集第二图像；

分别识别各个图像中的语音信号；

将各个图像中的语音信号与对应的图像进行关联；

输出目标视频；所述目标视频由所述第一图像和所述第二图像组成；

其中，所述第一摄像头组件和所述第二摄像头组件分别位于所述电子设备的两个相对面。

2.根据权利要求1所述的方法，其特征在于，所述电子设备上分布有至少三个拾音器，所述至少三个拾音器位于不同的平面内；

所述分别识别各个图像中的语音信号，包括：

在检测到目标语音信号的情况下，基于所述目标语音信号在所述至少三个拾音器中产生的相位差，确定产生所述目标语音信号的目标方向；

根据所述目标方向上所述目标语音信号的强度信息，确定产生所述目标语音信号的目标位置信息；

在所述目标位置信息位于目标摄像头组件的采集角度范围内的情况下，将所述目标语音信号确定为所述目标摄像头组件采集图像中的语音信号；

其中，所述目标摄像头组件为所述第一摄像头组件或者所述第二摄像头组件。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标语音信号确定为所述目标摄像头组件采集图像中的语音信号之前，还包括：

在目标拍摄对象的脸部特征信息满足预设条件的情况下，若所述目标拍摄对象所处的图像与所述目标摄像头组件的采集角度范围匹配，则将所述目标语音信号确定为所述目标摄像头组件采集图像中的语音信号。

4.根据权利要求2所述的方法，其特征在于，所述分别识别各个图像中的语音信号之前，还包括：

在检测到多个语音信号的情况下，将与预设的声纹特征信息匹配的语音信号，确定为所述目标语音信号。

5.根据权利要求1所述的方法，其特征在于，所述将各个图像中的语音信号与对应的图像进行关联之后，还包括：

接收第一输入；所述第一输入用于显示所述第一图像和/或所述第二图像；

响应于所述第一输入，按照与所述第一输入相关联的第一目标分配信息，显示所述第一图像和/或所述第二图像；以及，按照与所述第一输入相关联的第二目标分配信息，调节所述第一图像中的第一语音信号的音量信息和/或所述第二图像中的第二语音信号的音量信息。

6.一种视频播放方法，其特征在于，所述方法包括：

接收对目标视频的第二输入；所述第二输入用于播放第一图像和/或第二图像；

响应于所述第二输入，按照与所述第二输入相关联的第三目标分配信息，在所述目标视频中显示所述第一图像和/或所述第二图像；以及，按照与所述第二输入相关联的第四目标分配信息，播放所述第一图像中的第一语音信号和/或所述第二图像中的第二语音信号；

其中，所述目标视频由电子设备的第一摄像头组件采集的第一图像、和所述电子设备的第二摄像头组件采集的第二图像组成。

7.一种视频拍摄装置，其特征在于，所述装置包括：

采集模块，用于电子设备的第一摄像头组件采集第一图像，以及所述电子设备的第二摄像头组件采集第二图像；

识别模块，用于分别识别各个图像中的语音信号；

关联模块，用于将各个图像中的语音信号与对应的图像进行关联；

输出模块，用于输出目标视频；所述目标视频由所述第一图像和所述第二图像组成；

8.根据权利要求7所述的装置，其特征在于，所述电子设备上分布有至少三个拾音器，所述至少三个拾音器位于不同的平面内；

所述识别模块，包括：

第一确定单元，用于在检测到目标语音信号的情况下，基于所述目标语音信号在所述至少三个拾音器中产生的相位差，确定产生所述目标语音信号的目标方向；

第二确定单元，用于根据所述目标方向上所述目标语音信号的强度信息，确定产生所述目标语音信号的目标位置信息；

第三确定单元，用于在所述目标位置信息位于目标摄像头组件的采集角度范围内的情况下，将所述目标语音信号确定为所述目标摄像头组件采集图像中的语音信号；

9.根据权利要求8所述的装置，其特征在于，所述装置，还包括：

第四确定单元，用于在目标拍摄对象的脸部特征信息满足预设条件的情况下，若所述目标拍摄对象所处的图像与所述目标摄像头组件的采集角度范围匹配，则将所述目标语音信号确定为所述目标摄像头组件采集图像中的语音信号。

10.根据权利要求8所述的装置，其特征在于，所述装置，还包括：

目标语音信号确定模块，用于在检测到多个语音信号的情况下，将与预设的声纹特征信息匹配的语音信号，确定为所述目标语音信号。

11.根据权利要求7所述的装置，其特征在于，所述装置，还包括：

第一输入接收模块，用于接收第一输入；所述第一输入用于显示所述第一图像和/或所述第二图像；

第一输入响应模块，用于响应于所述第一输入，按照与所述第一输入相关联的第一目标分配信息，显示所述第一图像和/或所述第二图像；以及，按照与所述第一输入相关联的第二目标分配信息，调节所述第一图像中的第一语音信号的音量信息和/或所述第二图像中的第二语音信号的音量信息。

12.一种视频播放装置，其特征在于，所述装置包括：

第二输入接收模块，用于接收对目标视频的第二输入；所述第二输入用于播放第一图像和/或第二图像；

第二输入响应模块，用于响应于所述第二输入，按照与所述第二输入相关联的第三目标分配信息，在所述目标视频中显示所述第一图像和/或所述第二图像；以及，按照与所述第二输入相关联的第四目标分配信息，播放所述第一图像中的第一语音信号和/或所述第二图像中的第二语音信号；

13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的视频拍摄方法或权利要求6所述的视频播放方法的步骤。