CN113014983A

CN113014983A - 视频播放方法、装置、存储介质及电子设备

Info

Publication number: CN113014983A
Application number: CN202110249259.XA
Authority: CN
Inventors: 宋佳杰
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-06-22
Anticipated expiration: 2041-03-08
Also published as: CN113014983B

Abstract

本申请实施例公开了一种视频播放方法、装置、存储介质及电子设备，其中，本申请实施例接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域；计算所述目标区域在预设坐标系中对应的声源方向；获取所述视频的全向音频数据，所述全向音频数据为通过麦克风阵列录制的音频数据，所述麦克风阵列包括至少三个麦克风；从所述全向音频数据中提取属于所述声源方向的定向音频数据；以及将所述定向音频数据与视频画面进行同步播放。基于该方案，实现了对视频画面中特定位置处的主体的音频进行定向播放。

Description

视频播放方法、装置、存储介质及电子设备

技术领域

本申请涉电子设备技术领域，具体涉及一种视频播放方法、装置、存储介质及电子设备。

背景技术

随着通信技术的快速发展，移动终端的功能越来越强大，使用范围和环境也越来越多样化，例如，智能手机等电子还是被可以安装多个麦克风，进行3D录音，比如，在拍摄视频时，会将全部的环境音都录制进去，在播放时也会将全部的声音进行播放，无法根据用户需要选择视频中某一个主体的声音进行播放。

发明内容

本申请实施例提供一种视频播放方法、装置、存储介质及电子设备，能够实现对视频画面中特定位置处的主体的音频进行定向播放。

第一方面，本申请实施例提供一种视频播放方法，包括：

接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域；

计算所述目标区域在预设坐标系中对应的声源方向；

获取所述视频的全向音频数据，所述全向音频数据为通过麦克风阵列录制的音频数据，所述麦克风阵列包括至少三个麦克风；

从所述全向音频数据中提取属于所述声源方向的定向音频数据；

将所述定向音频数据与视频画面进行同步播放。

第二方面，本申请实施例还提供一种视频播放装置，包括：

区域选择模块，用于接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域；

方向计算模块，用于计算所述目标区域在预设坐标系中对应的声源方向；

音频获取模块，用于获取所述视频的全向音频数据，所述全向音频数据为通过麦克风阵列录制的音频数据，所述麦克风阵列包括至少三个麦克风；

定向选择模块，用于从所述全向音频数据中提取属于所述声源方向的定向音频数据；

视频播放模块，用于将所述定向音频数据与视频画面进行同步播放。

第三方面，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的视频播放方法。

第四方面，本申请实施例还提供一种电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请任一实施例提供的视频播放方法。

本申请实施例提供的技术方案，在视频的播放过程中，可以根据用户从视频画面上选择的目标区域来确定要播放的声源方向，再从该视频的全向音频数据中提取属于该声源方向的定向音频数据，即将该定向音频数据与视频画面同步播放。基于该方案，实现了对视频画面中特定位置处的主体的音频进行定向播放。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频播放方法的第一种流程示意图。

图2为本申请实施例提供的视频播放方法中的应用场景示意图。

图3为本申请实施例提供的视频播放方法中声源方向示意图。

图4为本申请实施例提供的视频播放方法的第二种流程示意图。

图5为本申请实施例中视频播放模式切换的场景示意图。

图6为本申请实施例提供的视频播放装置的结构示意图。

图7为本申请实施例提供的电子设备的第一种结构示意图。

图8为本申请实施例提供的电子设备的第二种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种视频播放方法，该视频播放方法的执行主体可以是本申请实施例提供的视频播放装置，或者集成了该视频播放装置的电子设备，其中该视频播放装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参阅图1，图1为本申请实施例提供的视频播放方法的第一种流程示意图。本申请实施例提供的视频播放方法的具体流程可以如下：

101、接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域。

本申请实施例的中的视频在录制时，使用包含有至少三个麦克风的麦克风阵列录制声音。录制的视频中包含的音频数据为全向音频数据，即将环境中的各个方向上的全部声音都录制进去。

其中，麦克风阵列用于采集音频信号，其中的多路麦克风的布局方式可以根据电子设备的形态或者根据录音效果等需求设置在电子设备上的不同位置处，通过多路麦克风可以将环境中的各个方向上的声音都录制进去。该麦克风阵列在录音时，可以对各路声音信号进行降噪、均衡、以及DRC(Dynamic Range Control，动态范围控制)处理，并将处理之后的信号进行存储。还可以将各路麦克风录制的声音信号进行变化处理成为AAC(AdvancedAudio Coding，高级音频编码)格式的音频数据进行存储。

在该视频播放时，可以设置多种音频播放模式，至少包括全向音频播放模式和定向音频播放模式。根据用户选择的播放模式对该视频中的音频数据进行播放。

示例性地，接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域之前，该方法还包括：当接收到模式切换指令且当前为全向音频播放模式时，将所述视频的播放模式由全向音频播放模式切换为定向音频播放模式，并提示用户基于当前的视频画面触发目标选择指令。

该实施例中，如果用户选择全向音频播放模式，则控制电子设备按照全向音频播放模式播放该视频中的声音，比如，可以将多路麦克风对应的音频信号实时编码处理，使声音信号与画面同步播放。也可以直接播放经过预先编码的声音信号，并使声音信号与画面同步播放。其中，当接收到模式切换指令且当前为定向音频播放模式时，将所述视频的播放模式由定向音频播放模式切换为全向音频播放模式。

如果用户选择定向音频播放模式且当前为全向音频播放模式，则控制视频的播放模式由全向音频播放模式切换为定向音频播放模式，同时可以在显示界面上提示用户选择播放方向，此时，用户可以通过在视频画面通过特定的手势触发目标选择指令，例如，可以将视频暂停，在目标对象处进行长按操作；又例如，可以将视频暂停，在目标对象处轻触或者滑动一次或者多次。本申请实时不对具体的手势进行限制。在其他实施例中，可以无需暂停视频的播放，在视频播放过程中也可以通过特定的手势触发目标选择指令。当电子设备检测到基于视频画面触发的目标选择指令时，从该视频画面中确定出目标选择指令对应的目标区域。

该实施例中，可以将触发目标选择指令的触控操作所在的区域作为目标区域。或者，在另一实施例中，从所述视频画面中确定出所述目标选择指令对应的目标区域的步骤可以包括：从当前的视频画面中确定出所述目标选择指令对应的触控区域；识别所述触控区域处的目标对象，将所述目标对象在所述视频画面所占的区域作为目标区域。

该实施例中，从视频画面中确定出触发目标选择指令的触控操作对应的触控区域，对该触控区域对应的画面内容进行图像识别处理，确定出该触控区域中的目标对象，如图2所示，图2为本申请实施例提供的视频播放方法中的应用场景示意图。假设用户点击的目标对象为画面中的狗，触控区域可能只是该狗所在区域的一部分，而在确定出目标对象之后，将该目标对象所在的全部区域作为目标区域。

102、计算所述目标区域在预设坐标系中对应的声源方向。

在确定出目标区域后，计算该目标区域在预设坐标系中对应的声源方向。本申请实施例中，用目标区域在预设坐标系中所占的角度范围来表示其对应的声源方向。其中，以手机显示屏所在平面建立坐标系，以麦克风阵列的中心点为坐标系的原点。如图3所示，图3为本申请实施例提供的视频播放方法中声源方向示意图。在图3所示的例子中，麦克风阵列的中心点同时也是显示屏的中心点。

其中，“计算所述目标区域在预设坐标系中对应的声源方向”可以包括：计算所述目标区域在预设坐标系中对应的第二边界角度和第一边界角度；获取所述视频画面对应的变焦倍数；以及根据所述变焦倍数、所述第二边界角度和所述第一边界角度，计算所述目标区域对应的声源方向。其中，第一边界角度和第二边界角度可以分别根据第一边界点和第二边界点处的坐标，采用三角函数来计算。

如图3所示，计算该目标区域该坐标系所占区域的第二边界角度和第一边界角度，第二边界角度和第一边界角度之间的角度区间为该目标区域所占的角度区间，即可以表示该目标区域对应的声源方向。

此外，可以理解的是，当拍摄时使用的变焦倍数不同时，会导致如下现象：拍摄场景中的声源位置没有发生变化，但是不同的变焦倍数下同样的目标对象在画面中的位置不同，进而导致计算出的声源方向不准确。为了提高声源方向计算的准确度，根据变焦倍数确定出一个调整系数，根据调整系数对计算出的角度区间进行校正。

示例性地，“根据所述变焦倍数、所述第二边界角度和所述第一边界角度，计算所述目标区域对应的声源方向”包括：根据所述变焦倍数确定调整系数，所述调整系数与所述变焦倍数成反比；计算所述第一边界角度与所述第二边界角度对应的第一角度区间，将所述调整系数与所述第一角度区间相乘得到第二角度区间，作为所述目标区域对应的声源方向。

该实施例中，可以将0.7倍变焦倍数对应的调整系数确定为1，一倍变焦倍数对应的调整系数为0.7，二倍变焦倍数对应的调整系数为0.5，五倍变焦倍数对应的调整系数为0.2。比如，计算出的角度区间为[-30°,-60°]，当前的变焦倍数为2，则经过调整系数校正后的角度区间为0.5[-30°，-60°]，即[-15°,-30°]。

其中，视频数据中每一帧画面有对应的变焦倍数，计算得到第一边界角度与所述第二边界角度之间的第一角度区间之后，根据当前的视频画面对应变焦倍数确定调整系数，计算该调整系数与第一角度区间乘积，得到第二角度区间，作为目标区域对应的声源方向。

103、获取所述视频的全向音频数据，所述全向音频数据为通过麦克风阵列录制的音频数据，所述麦克风阵列包括至少三个麦克风。

104、从所述全向音频数据中提取属于所述声源方向的定向音频数据；

105、将所述定向音频数据与视频画面进行同步播放。

在确定出声源方向后，可以从该视频的全向音频数据中提取该特定的声源方向上的定向音频数据。

示例性地，在一实施例中，从所述全向音频数据中提取属于所述声源方向的定向音频数据，包括：以所述声源方向作为目标波束方向，对所述全向音频数据进行波束成形处理，以获取所述全向音频数据中对应于所述目标波束方向的定向音频数据，并抑制所述全向音频数据中除所述目标波束方向之外的定向音频数据。

该实施例中，采用波束成形算法对全向音频数据进行处理，以前文中确定出的声源方向作为目标波束方向，目标波束方向为波束成形的主瓣方向。按照该目标波束方向进行波束成形处理之后，可以得到该波束方向对应的定向音频数据，而除该方向之外的其他方向的声音会被抑制。其中，波束成形算法使用的坐标系与上文中的预设坐标系相同，左侧为正角度，右侧为负角度。

由于在视频录制时，麦克风阵列录制的是各个方向上的全部声音，即360°的声音信号。通过本申请的方案，用户在视频播放过程中可以根据需要选择画面上任意一个方向的对象进行播放，并且，随着视频的播放，用户可以随时变更播放的对象。比如，录制的视频中有多人讲话，那么用户在播放该视频时，可以将特定的讲话的人作为将目标对象，只需要轻触视频画面中该讲话人所在的区域，即可实现只播放该讲话人的声音。

其中，在一实施例中，将所述定向音频数据与视频画面进行同步播放，包括：确定所述目标对象对应的主体类型；根据所述主体类型对所述定向音频数据进行处理；以及将经过处理的定向音频数据与所述视频画面进行同步播放。

该实施例中，还可以进一步地提高音频播放的效果。在确定出用户选择的目标对象后，采用图像识别的方式确定该目标对象对应的主体类型，例如，主体类型可以是人物、动物、乐器等。不同的发声主体具有不同的特征，可以采用不同的音质优化方法对音质进行优化处理。基于此，在识别出主体类型之后，确定该主体类型对应的优化方法，按照该优化方法对定向音频数据进行优化处理，比如，主体为人，则对定向音频数据的保真度进行提升处理；主体为乐器，则对定向音频数据的明亮度进行提升等。此外，还可以确定定向音频数据对应的频段，对不属于该频段内的声音信号进行再次抑制。然后，将经过处理后的定向音频数据与视频画面同步播放。

其中，在一实施例中，将所述定向音频数据与视频画面进行同步播放之后，还包括：若视频画面持续预设时长内未检测到所述目标对象，则将所述全向音频数据与所述变化后的视频画面同步播放。

该实施例中，随着视频的播放，画面可能会发生变更，若检测到变化后的视频画面持续预设时长内未显示目标对象，则可以恢复至全向音频播放模式。当然，可以理解的是，如果视频画面变化后，用户手动重新选择了新的播放对象，则按照用户重新选择的方向进行定向播放，无需切换至全向音频播放模式。

在一些实施例中，将所述定向音频数据与视频画面进行同步播放之后，该方法还包括：

对所述目标对象在视频画面中的位置进行监测；

当监测到所述目标对象在视频画面中发生移动时，确定移动后的所述目标对象在视频画面中的区域作为新的目标区域，并基于所述新的目标区域，返回执行计算所述目标区域在预设坐标系中对应的声源方向。

在一些场景下录制的视频，视频画面中的目标对象可能会发生移动，当移动位移较大时，其对应的声源方向也会发生较大的变化。对于这样的场景，本实施例的方案可以对目标对象在视频画面中的位置进行实时监测，当检测到目标的对象在视频画面中发生移动时，重新确定该目标对象在视频画面中的新的目标区域。可以理解的是，为了提高位移检测的有效性，节省计算资源，当检测到大部分的目标对象移动至第一角度区间之外时，判定目标对象发生有效移动，此时，确定移动后的目标对象在视频画面中的区域作为新的目标区域，基于该新的目标区域，返回执行102，即重新确定移动后的目标区域对应的声源方向。由于目标对象发生移动后，其相对于麦克风阵列的位置也会发生变换，因此，其声源方向也会发生变化，通过本方案，在用户选择目标对象之后，根据目标对象在视频画面中的移动情况，对声源方向进行更新，提高音频定向播放的准确度。

在另一些实施例中，电子设备可以包括多个扬声器，将所述定向音频数据与视频画面进行同步播放，包括：根据所述目标对象在视频画面中的位置，以及所述视频画面所述电子设备的显示屏上的位置，从所述多个扬声器中确定出距离所述目标对象最近的扬声器作为目标扬声器；通过所述目标扬声器将所述定向音频数据与所述视频画面进行同步播放。

该实施例中，可以在电子设备的不同位置处设置多个扬声器，在上一个实施例的基础上，视频播放时，随着目标对象在视频画面中的移动情况，在播放定向音频数据时，动态地选择距离目标对象最近的扬声器来播放定向音频数据，以获取更好的音频播放效果。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的视频播放方法，在视频的播放过程中，可以根据用户从视频画面上选择的目标区域来确定要播放的声源方向，再从该视频的全向音频数据中提取属于该声源方向的定向音频数据，即将该定向音频数据与视频画面同步播放。基于该方案，实现了对视频画面中特定位置处的主体的音频进行定向播放。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

请参阅图4，图4为本发明实施例提供的视频播放方法的第二流程示意图。所述方法包括：

201、响应于模式切换指令，将视频的播放模式由全向音频播放模式切换为定向音频播放模式。

在视频播放时，可以设置多种音频播放模式，至少包括全向音频播放模式和定向音频播放模式。根据用户选择的播放模式对该视频中的音频数据进行播放。请参阅图5所示，图5为本申请实施例中视频播放模式切换的场景示意图。该实施例中，用户可以通过视频播放界面上的播放模式切换控件触发视频播放模式切换指令。例如，在全向音频播放模式下，在播放界面的控制栏显示有“切换为定向播放模式”的控件，用户可以基于该控件触发模式切换指令，对于电子设备来说，当接收到模式切换指令且当前为定向音频播放模式时，将所述视频的播放模式由定向音频播放模式切换为全向音频播放模式。如果用户选择定向音频播放模式且当前为全向音频播放模式，则控制视频的播放模式由全向音频播放模式切换为定向音频播放模式，同时可以在显示界面上提示用户选择播放方向。

202、接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域。

用户可以通过在视频画面通过特定的手势触发目标选择指令，例如，可以将视频暂停，在目标对象处进行长按操作；又例如，可以将视频暂停，在目标对象处轻触或者滑动一次或者多次。

203、计算所述目标区域在预设坐标系中对应的第二边界角度和第一边界角度。

204、获取所述视频画面对应的变焦倍数。

205、根据所述变焦倍数、所述第二边界角度和所述第一边界角度，计算所述目标区域对应的声源方向。

计算该目标区域该坐标系所占区域的第二边界角度和第一边界角度，第二边界角度和第一边界角度之间的角度区间为该目标区域所占的角度区间，即可以表示该目标区域对应的声源方向。为了提高声源方向计算的准确度，根据变焦倍数确定出一个调整系数，根据调整系数对计算出的角度区间进行校正。其中，视频数据中每一帧画面有对应的变焦倍数，计算得到第一边界角度与所述第二边界角度之间的第一角度区间之后，根据当前的视频画面对应变焦倍数确定调整系数，计算该调整系数与第一角度区间乘积，得到第二角度区间，作为目标区域对应的声源方向。

206、以所述声源方向作为目标波束方向，对所述全向音频数据进行波束成形处理，得到定向音频数据。

在确定出声源方向后，采用波束成形算法对全向音频数据进行处理，以前文中确定出的声源方向作为目标波束方向，目标波束方向为波束成形的主瓣方向。按照该目标波束方向进行波束成形处理之后，可以得到该波束方向对应的定向音频数据，而除该方向之外的其他方向的声音会被抑制。

207、确定所述目标对象对应的主体类型，根据所述主体类型对所述定向音频数据进行处理。

208、将经过处理的定向音频数据与所述视频画面进行同步播放。

在确定出用户选择的目标对象后，采用图像识别的方式确定该目标对象对应的主体类型，不同的发声主体具有不同的特征，可以采用不同的音质优化方法对音质进行优化处理。在识别出主体类型之后，确定该主体类型对应的优化方法，按照该优化方法对定向音频数据进行优化处理。然后，将经过处理后的定向音频数据与视频画面同步播放。

由上可知，本发明实施例提出的视频播放方法，在视频的播放过程中，可以根据用户从视频画面上选择的目标区域来确定要播放的声源方向，再从该视频的全向音频数据中提取属于该声源方向的定向音频数据，实现了对视频画面中特定位置处的主体的音频进行定向播放。

在一实施例中还提供一种视频播放装置。请参阅图6，图6为本申请实施例提供的视频播放装置300的结构示意图。其中该视频播放装置300应用于电子设备，该视频播放装置300包括区域选择模块301、方向计算模块302、音频获取模块303、定向选择模块304以及视频播放模块305，如下：

区域选择模块301，用于接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域；

方向计算模块302，用于计算所述目标区域在预设坐标系中对应的声源方向；

音频获取模块303，用于获取所述视频的全向音频数据，所述全向音频数据为通过麦克风阵列录制的音频数据，所述麦克风阵列包括至少三个麦克风；

定向选择模块304，用于从所述全向音频数据中提取属于所述声源方向的定向音频数据；以及

视频播放模块305，用于将所述定向音频数据与视频画面进行同步播放。

在一些实施例中，区域选择模块301，还用于从当前的视频画面中确定出所述目标选择指令对应的触控区域；以及

识别所述触控区域处的目标对象，将所述目标对象在所述视频画面所占的区域作为目标区域。

在一些实施例中，方向计算模块302，还用于计算所述目标区域在预设坐标系中对应的第二边界角度和第一边界角度；

获取所述视频画面对应的变焦倍数；以及

根据所述变焦倍数、所述第二边界角度和所述第一边界角度，计算所述目标区域对应的声源方向。

在一些实施例中，方向计算模块302，还用于根据所述变焦倍数确定调整系数，所述调整系数与所述变焦倍数成反比；以及

计算所述第一边界角度与所述第二边界角度对应的第一角度区间，将所述调整系数与所述第一角度区间相乘得到第二角度区间，作为所述目标区域对应的声源方向。

在一些实施例中，视频播放模块305，还用于确定所述目标对象对应的主体类型；

根据所述主体类型对所述定向音频数据进行处理；以及

将经过处理的定向音频数据与所述视频画面进行同步播放。

在一些实施例中，区域选择模块301，还用于对所述目标对象在视频画面中的位置进行监测；当监测到所述目标对象在视频画面中发生移动时，确定移动后的所述目标对象在视频画面中的区域作为新的目标区域，并基于所述新的目标区域，返回执行计算所述目标区域在预设坐标系中对应的声源方向。

在一些实施例中，该装置应用于电子设备，所述电子设备包括多个扬声器；视频播放模块305，还用于根据所述目标对象在视频画面中的位置，以及所述视频画面所述电子设备的显示屏上的位置，从所述多个扬声器中确定出距离所述目标对象最近的扬声器作为目标扬声器；通过所述目标扬声器将所述定向音频数据与所述视频画面进行同步播放。

在一些实施例中，视频播放模块305，还用于将所述定向音频数据与视频画面进行同步播放之后，若视频画面持续预设时长内未检测到所述目标对象，则将所述全向音频数据与所述变化后的视频画面同步播放。

在一些实施例中，定向选择模块304，还用于以所述声源方向作为目标波束方向，对所述全向音频数据进行波束成形处理，以获取所述全向音频数据中对应于所述目标波束方向的定向音频数据，并抑制所述全向音频数据中除所述目标波束方向之外的定向音频数据。

在一些实施例中，该装置300还包括模式切换模块，用于当接收到模式切换指令且当前为全向音频播放模式时，将所述视频的播放模式由全向音频播放模式切换为定向音频播放模式，并提示用户基于当前的视频画面触发目标选择指令。

应当说明的是，本申请实施例提供的视频播放装置与上文实施例中的视频播放方法属于同一构思，通过该视频播放装置可以实现视频播放方法实施例中提供的任一方法，其具体实现过程详见视频播放方法实施例，此处不再赘述。

由上可知，本申请实施例提出的视频播放装置，在视频的播放过程中，可以根据用户从视频画面上选择的目标区域来确定要播放的声源方向，再从该视频的全向音频数据中提取属于该声源方向的定向音频数据，即将该定向音频数据与视频画面同步播放。基于该方案，实现了对视频画面中特定位置处的主体的音频进行定向播放。

本申请实施例还提供一种电子设备。所述电子设备可以是智能手机、平板电脑等设备。请参阅图7，图7为本申请实施例提供的电子设备的第一种结构示意图。电子设备400包括处理器401和存储器402。其中，处理器401与存储器402电性连接。

处理器401是电子设备400的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或调用存储在存储器402内的计算机程序，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

存储器402可用于存储计算机程序和数据。存储器402存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器401通过调用存储在存储器402的计算机程序，从而执行各种功能应用以及数据处理。

在本实施例中，电子设备400中的处理器401会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的计算机程序，从而实现各种功能：

接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域；计算所述目标区域在预设坐标系中对应的声源方向；获取所述视频的全向音频数据，所述全向音频数据为通过麦克风阵列录制的音频数据，所述麦克风阵列包括至少三个麦克风；从所述全向音频数据中提取属于所述声源方向的定向音频数据；将所述定向音频数据与视频画面进行同步播放。

在一些实施例中，请参阅图8，图8为本申请实施例提供的电子设备的第二种结构示意图。电子设备400还包括：射频电路403、显示屏404、控制电路405、输入单元406、音频电路407、传感器408以及电源409。其中，处理器401分别与射频电路403、显示屏404、控制电路405、输入单元406、音频电路407、传感器408以及电源409电性连接。

射频电路403用于收发射频信号，以通过无线通信与网络设备或其他电子设备进行通信。

显示屏404可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图像、文本、图标、视频和其任意组合来构成。

控制电路405与显示屏404电性连接，用于控制显示屏404显示信息。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中，输入单元406可以包括指纹识别模组。

音频电路407可通过扬声器、传声器提供用户与电子设备之间的音频接口。其中，音频电路407包括麦克风。所述麦克风与所述处理器401电性连接。所述麦克风用于接收用户输入的语音信息。

传感器408用于采集外部环境信息。传感器408可以包括环境亮度传感器、加速度传感器、陀螺仪等传感器中的一种或多种。

电源409用于给电子设备400的各个部件供电。在一些实施例中，电源409可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

虽然图中未示出，电子设备400还可以包括摄像头、蓝牙模块等，在此不再赘述。

计算所述目标区域在预设坐标系中对应的声源方向；

将所述定向音频数据与视频画面进行同步播放。

由上可知，本申请实施例提供了一种电子设备，所述电子设备在视频的播放过程中，可以根据用户从视频画面上选择的目标区域来确定要播放的声源方向，再从该视频的全向音频数据中提取属于该声源方向的定向音频数据，即将该定向音频数据与视频画面同步播放。基于该方案，实现了对视频画面中特定位置处的主体的音频进行定向播放。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的视频播放方法。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述计算机可读存储介质可以包括但不限于：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

此外，本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上对本申请实施例所提供的视频播放方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频播放方法，其特征在于，包括：

计算所述目标区域在预设坐标系中对应的声源方向；

从所述全向音频数据中提取属于所述声源方向的定向音频数据；以及

将所述定向音频数据与视频画面进行同步播放。

2.如权利要求1所述的视频播放方法，其特征在于，从所述视频画面中确定出所述目标选择指令对应的目标区域，包括：

从当前的视频画面中确定出所述目标选择指令对应的触控区域；以及

3.如权利要求2所述的视频播放方法，其特征在于，计算所述目标区域在预设坐标系中对应的声源方向，包括：

计算所述目标区域在预设坐标系中对应的第二边界角度和第一边界角度；

获取所述视频画面对应的变焦倍数；以及

4.如权利要求3所述的视频播放方法，其特征在于，根据所述变焦倍数、所述第二边界角度和所述第一边界角度，计算所述目标区域对应的声源方向，包括：

根据所述变焦倍数确定调整系数，所述调整系数与所述变焦倍数成反比；以及

5.如权利要求2所述的视频播放方法，其特征在于，将所述定向音频数据与视频画面进行同步播放，包括：

确定所述目标对象对应的主体类型；

根据所述主体类型对所述定向音频数据进行处理；以及

将经过处理的定向音频数据与所述视频画面进行同步播放。

6.如权利要求2所述的视频播放方法，其特征在于，将所述定向音频数据与视频画面进行同步播放之后，还包括：

对所述目标对象在视频画面中的位置进行监测；

7.如权利要求6所述的视频播放方法，其特征在于，应用于电子设备，所述电子设备包括多个扬声器；将所述定向音频数据与视频画面进行同步播放，包括：

根据所述目标对象在视频画面中的位置，以及所述视频画面所述电子设备的显示屏上的位置，从所述多个扬声器中确定出距离所述目标对象最近的扬声器作为目标扬声器；

通过所述目标扬声器将所述定向音频数据与所述视频画面进行同步播放。

8.如权利要求2所述的视频播放方法，其特征在于，将所述定向音频数据与视频画面进行同步播放之后，还包括：

若视频画面持续预设时长内未检测到所述目标对象，则将所述全向音频数据与所述变化后的视频画面同步播放。

9.如权利要求1至8任一项所述的视频播放方法，其特征在于，从所述全向音频数据中提取属于所述声源方向的定向音频数据，包括：

以所述声源方向作为目标波束方向，对所述全向音频数据进行波束成形处理，以获取所述全向音频数据中对应于所述目标波束方向的定向音频数据，并抑制所述全向音频数据中除所述目标波束方向之外的定向音频数据。

10.如权利要求1至8任一项所述的视频播放方法，其特征在于，接收基于视频画面触发的目标选择指令，从所述视频画面中确定出所述目标选择指令对应的目标区域之前，还包括：

当接收到模式切换指令且当前为全向音频播放模式时，将所述视频的播放模式由全向音频播放模式切换为定向音频播放模式，并提示用户基于当前的视频画面触发目标选择指令。

11.一种视频播放装置，其特征在于，包括：

定向选择模块，用于从所述全向音频数据中提取属于所述声源方向的定向音频数据；以及

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至10任一项所述的视频播放方法。

13.一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至10任一项所述的视频播放方法。