CN114880518A

CN114880518A - 视频播放控制方法、电子设备及存储介质

Info

Publication number: CN114880518A
Application number: CN202210388246.5A
Authority: CN
Inventors: 王冲
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-08-09

Abstract

本申请提供了一种视频播放控制方法、电子设备及存储介质，涉及智能终端领域。所述方法应用于电子设备，所述方法包括：播放录制的视频；响应用户对所述录制的视频中人物对象人脸区域的点击，播放所述人物对象对应的人物音轨，并在所述人物对象对应的显示区域上显示音量调节控件。本申请实施例可以基于用户对人物对象人脸区域的点击，播放该人物对象对应的人物音轨，从而提高视频播放的灵活性。

Description

视频播放控制方法、电子设备及存储介质

技术领域

本申请涉及智能终端技术领域，尤其涉及一种视频播放控制方法、电子设备及存储介质。

背景技术

随着电子设备的不断进步和发展，电子设备的功能也越来越丰富多样。例如可以通过电子设备进行录像，即视频录制。目前在对录制的视频进行视频回放时，通常按照统一的播放方式进行播放，灵活性与互动性较差。

发明内容

鉴于以上内容，有必要提供一种视频播放控制方法、电子设备及存储介质，以解决录制视频播放的灵活性与互动性较差的问题。

第一方面，本申请实施例提供一种视频播放控制方法，应用于电子设备，所述方法包括：播放录制的视频；响应用户对所述录制的视频中人物对象人脸区域的点击，播放所述人物对象对应的人物音轨，并在所述人物对象对应的显示区域上显示音量调节控件。上述技术方案，可以基于用户对人物对象人脸区域的点击，播放该人物对象对应的人物音轨，从而提高视频播放的灵活性。同时，会在人物对象对应的显示区域上显示音量调节控件，方便用户调整该音轨对应的音量。

在一种实现方式中，所述方法还包括：确定所述用户对所述录制的视频的点击动作对应的位置坐标；若所述位置坐标在所述录制的视频中一人物对象人脸区域对应的坐标区间内，根据所述位置坐标确定所述人物对象对应的人物音轨。上述技术方案，通过确定用户触摸点坐标是否在人脸部位对应的坐标区间内，可以更准确地确定用户点击的意图，避免将用户不小心触摸屏幕后就进行索引查询的情况发生，有效减少了无用的能量损耗。

在一种实现方式中，所述根据所述位置坐标确定所述人物对象对应的人物音轨包括：确定所述用户对所述录制的视频的点击动作对应的播放时间；根据所述播放时间和所述位置坐标，确定所述人物对象对应的人物音轨。上述技术方案，通过播放时间和位置坐标，可以更准确地确定人物对象对应的人物音轨。

在一种实现方式中，所述根据所述播放时间和所述位置坐标，确定所述人物对象对应的人物音轨包括：根据所述位置坐标，在所述录制的视频对应的索引表中确定至少一个目标音轨；根据所述播放时间，在所述至少一个目标音轨中确定所述人物对象对应的人物音轨。上述技术方案，通过录制的视频对应的索引表、播放时间和位置坐标，可以更准确的确定人物对象对应的人物音轨。

在一种实现方式中，所述播放所述人物对象对应的音轨之后，所述方法还包括：显示所述音轨对应的音轨进度控件。上述技术方案，通过显示音轨进度控件，可以提高用户控制音轨播放的便捷性。

在一种实现方式中，所述电子设备包括图像采集装置和音频采集装置，所述方法还包括：生成所述录制的视频，包括：响应于视频拍摄指令，基于人脸识别，确定所述图像采集装置拍摄的视频画面中是否存在人物对象；若所述拍摄的视频画面中存在人物对象，确定所述人物对象与所述音频采集装置之间的方位信息；基于所述方位信息，对所述人物对象进行采音，得到所述人物对象对应的人物音轨；根据所述图像采集装置拍摄的视频数据、所述音频采集装置录制的音频数据和所述人物对象对应的人物音轨进行编码，得到所述录制的视频，所述录制的视频包括人物对象对应的人物音轨。上述技术方案，可以为录制的视频中识别到的每个人物对象生成对应的一段音轨，使得录制的视频包括多段人物对象对应的音轨，可以基于多段音轨对选择的人物对象进行单独的语音播放，从而提高视频播放的灵活性与互动性。

在一种实现方式中，所述得到所述录制的视频还包括：根据在所述人物对象在所述视频中的图像位置和所述人物对象对应的人物音轨之间建立的关联，生成所述人物对象对应的索引，所述索引用于获取人物对象对应的人物音轨。上述技术方案，通过根据人物对象在所述视频中的图像位置和所述人物对象对应的人物音轨之间建立的关联建立索引，可以方便后续根据用户点击的图像位置，获取该图像位置的人物音轨，提高获取人物音轨的效率。

在一种实现方式中，所述根据在所述人物对象在所述视频中的图像位置和所述人物对象对应的人物音轨之间建立的关联，生成所述人物对象对应的索引包括：根据所述人物对象在所述视频中的图像位置、所述人物对象在所述图像位置上的时间信息和所述人物对象对应的人物音轨之间的关联，生成所述人物对象对应的索引。上述技术方案，通过根据图像位置、时间信息和人物对象对应人物音轨之间的关联建立索引，可以使索引中包含更多的信息，方便后续进行索引。

在一种实现方式中，所述方法还包括：基于所述人物对象的人脸识别框在所述视频中的图像位置，确定所述人物对象在所述视频中的图像位置。上述技术方案，将人物对象的人脸识别框在所述视频中的图像位置确定为所述人物对象在所述视频中的图像位置，可以提高确定人物对象在所述视频中的图像位置的准确率。

在一种实现方式中，所述方法还包括：在所述人物对象发生超出预设范围的移动时，将移动后的所述人物对象相对于所述音频采集装置的位置作为更新位置，录制与所述更新位置对应的另一人物音轨。上述技术方案，通过根据人物对象的移动，为该人物对象生成另一人物音轨，保证了图像位置与人物音轨之间的对应性。

第二方面，本申请实施例提供一种电子设备，该电子设备包括存储器和处理器；该存储器，用于存储程序指令；该处理器，用于读取存储器中存储的程序指令，以实现如上述的视频播放控制方法。

第三方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机可读指令，该计算机可读指令被处理器执行时实现如上述的视频播放控制方法。

另外，第二方面和第三方面所带来的技术效果可参见上述方法部分各设计的方法相关的描述，此处不再赘述。

附图说明

图1为本申请实施例提供的一种进入多对象录像模式的场景示意图。

图2为本申请实施例提供的一种进入多对象录像模式的场景示意图。

图3为本申请实施例提供的一种多对象视频录制方法的流程图。

图4为本申请实施例提供的一种麦克风分布示的示意图。

图5为本申请实施例提供的一种视频画面的场景示意图。

图6为本申请实施例提供的一种相机坐标系的场景示意图。

图7为本申请实施例提供的一种视频录制方法的时序图。

图8为本申请实施例提供的一种录制功能系统框架的示意图。

图9为本申请实施例提供的一种视频播放方法的时序图。

图10为本申请实施例提供的一种视频画面的场景示意图。

图11为本申请实施例提供的一种音量调节控件的场景示意图。

图12为本申请实施例提供的一种音轨进度条的场景示意图。

图13为本申请实施例提供的一种视频播放方法的流程示意图。

图14为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，“示例性”、“或者”、“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性”、“或者”、“例如”等词旨在以具体方式呈现相关概念。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。应理解，本申请中除非另有说明，“/”表示或的意思。例如，A/B可以表示A或B。本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B三种情况。“至少一个”是指一个或者多个。“多个”是指两个或多于两个。例如，a、b或c中的至少一个，可以表示：a，b，c，a和b，a和c，b和c，a、b和c七种情况。应当理解的是，本文的流程图中所示步骤的顺序可以改变，某些也可以省略。

对于热衷于通过拍摄视频来记录生活的用户，使用手机、平板等电子设备拍摄视频的场景越来越多。目前对录制的视频在进行视频回放时，通常按照统一的播放方式进行播放，因此存在录制视频播放的灵活性与互动性较差。例如，当对多个人物进行视频录制后，通常是按照录制的顺序播放该录制好的视频，无法在播放该录制视频的过程中，根据用户选择，单独播放指定人物对应的音频数据。

为了解决录制视频播放的灵活性与互动性较差的问题，本申请实施例提供一种视频播放方法，所述方法应用于电子设备，所述方法可以使得在播放视频的过程中，基于用户对视频中某一个人物对象的点击，播放该人物对象对应的音频，提高了播放的灵活性。所述方法具体包括多对象视频录制方法和多对象视频播放方法两种方法，下文将对两种方法进行分别说明。

可以理解的是，本申请中的电子设备可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、人工智能(artificial intelligence，AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备等电子设备。本申请实施例对该电子设备的具体形态不作特殊限制。

下面结合附图，先对多对象视频录制方法进行详细介绍。所述方法可以为录制的视频提供多段音轨，使得在播放录制好的视频时，可以基于多段音轨提高视频播放的灵活性与互动性。具体地，本申请实施例提供的多对象视频录制方法，可以基于人脸识别技术和定向录音技术，生成参与视频录制的每一个人对应的音轨，从而得到录制视频对应的多段音轨，通过所述多段音轨可以实现录制视频的灵活播放。

在本申请实施例中，当手机进入多对象录像模式后，可以应用本申请提供的多对象视频录制方法进行视频录制。可以理解的是，多对象录像模式仅做举例描述，不构成任何限定。实际应用中，也可以称为多对象拍摄模式。在一些实施例中，手机在启动相机后可以自动进入拍照模式、录像模式(即普通录像模式)或多对象录制模式等拍摄模式，并显示拍摄预览界面。示例性的，手机在检测到用户点击如图1中的界面(a)所示的相机图标101的操作后，可以自动进入拍照模式，并显示如图1中的界面(b)所示的预览窗口，预览窗口内可以显示拍照预览界面。

在另一些实施例中，手机在启动相机后，若未进入多对象录像模式，则可以根据用户的指示进入多对象录像模式。示例性的，在图1中的界面(b)所示的拍照预览界面上，若手机检测到用户点击控件102的操作，则可以进入多对象录像模式，如图1中的界面(c)所示。如图1中的界面(c)所示，进入多对象录像模式后，对拍摄区域开启人脸识别功能，以确定拍摄区域中存在的人脸。可以理解的是，如图1中的界面(c)所示的人脸识别实线框仅做示例，实际应用中的拍摄区域上可以不显示人脸识别框，或者以其他形式显示人脸识别框，在此不做任何限定。

再示例性的，在图2中的界面(a)所示的拍照预览界面上，若手机检测到用户点击控件201的操作，则可以显示如图2中的界面(c)所示的设置界面。或者，在图2中的界面(b)所示的拍照预览界面上，若手机检测到用户点击控件202的操作，则可以显示如图2中的界面(c)所示的设置界面。而后，若手机检测到用户点击控件203的操作，则进入多对象录像模式。

再示例性的，在拍照模式或录像模式(即普通录像模式)下，手机在检测到用户在触摸屏上画了第一预设轨迹(例如“L”轨迹)的操作后，进入多对象录像模式。

在另一些实施例中，在用户想要使用手机进行多对象录像时，手机可以根据用户的触摸操作、按键操作、隔空手势操作或语音操作等指示，启动相机功能并直接进入多对象录像模式。此外，手机还可在录像模式下，对拍照预览界面中的人脸数量进行识别，若识别到有多个拍摄对象时，直接进入多对象录像模式，或者通过弹框等方式提示用户进行确认是否进入多对象录像模式。

示例性的，手机在显示桌面或显示其他应用的界面时，若接收到用户语音指示进入多录像模式的指令，则启动相机并进入多录像模式。再示例性的，在亮屏并显示桌面的情况下，或者在黑屏情况下，若手机检测到用户在触摸屏上画了第二预设轨迹(例如“D”轨迹)的操作，则启动相机并进入多对象录像模式。第一预设轨迹与第二预设轨迹可以相同，也可以有所区别，本实施例中不进行限定。

以上描述的进入多对象录像模式的方式仅为示例性说明，手机还可以通过其他方式进入多对象录像模式，本申请实施例对该方式不予具体限定。

图3为本申请实施例提供的一种多对象视频录制方法的流程图。所述方法应用于电子设备，所述电子设备包括图像采集装置和音频采集装置。所述图像采集装置用于采集图像信息，可以进行图片拍摄或视频录制。所述音频采集装置用于采集声音信息，可以在视频录制的过程中，采集电子设备预设范围内的声音。如图3所示，该方法可以包括：

301，确定所述图像采集装置所拍摄的视频画面内是否存在人物对象。

进入多对象录像模式后，确定所述图像采集装置所拍摄的视频画面内是否存在人物对象。

可以基于图像采集装置的人脸识别功能，确定所述图像采集装置所拍摄的视频画面内是否存在人物对象。若识别到所述视频画面中存在人脸，确定所述图像采集装置所拍摄的视频画面内存在人物对象。

若确定所述图像采集装置所拍摄的视频画面内存在人物对象，执行302。若确定所述图像采集装置所拍摄的视频画面内不存在人物对象，流程结束。

302，若存在人物对象，确定所述人物对象与所述音频采集装置之间的方位信息。

可以基于人物对象在所述图像采集装置所拍摄的视频画面内的图像位置，确定所述人物对象与所述音频采集装置之间的方位信息。可以根据人物对象的人脸位置确定所述人物对象在所述视频画面中的图像位置。具体地，可以将人物对象对应的人脸识别框的位置确定为该人物对象的人脸在所述视频画面中的图像位置。方位信息用于表示人物对象与音频采集装置之间的相对方位距离。方位信息可以包括相位角和距离等信息，该相位角用于表征人物对象与音频采集装置之间的方位。

在本申请的一些实施例中，音频采集装置所在的坐标系可以称为音频坐标系(根据音频采集装置的位置而建立的三维立体坐标系)。视频画面内的每个位置点均与音频坐标系的各个位置点建立了映射关系。根据视频画面与音频坐标系之间的映射关系，可以确定人物对象与所述音频采集装置之间的方位信息。

例如，音频采集装置包括至少三个麦克风，所述至少三个麦克风分布在电子设备的非同一个平面上，呈现为立体分布，使得可以感知到同一个声源到各个麦克风之间的相位和幅值差异。如图4所示，音频采集装置包括立体分布的三个麦克风，分别记为a、b、和c，其中a位于电子设备的顶部，b位于电子设备的背部，c位于电子设备的底部，a、b、和c呈现立体分布。可以基于音频采集装置包括的至少三个麦克风，预先建立音频坐标系，以便后续根据该音频坐标系来确定所述人物对象与所述音频采集装置之间的方位信息。

具体地，可在录音测试环境中，相对于电子设备的一个方向上放置一个用于测试的固定声源，而其他方向上没有声源，通过电子设备上的至少三个麦克风获取固定声源的录音信号，然后分别对至少三个麦克风中的每个麦克风对应的录音信号进行傅立叶变换，得到相应的频谱数据。同样的，在相对于电子设备的另一个方向上也放置一个用于测试的固定声源，而其他方向上没有声源，然后获取至少三个麦克风中的每个麦克风对应的录音信号的频谱数据。重复上述过程，在相对于电子设备的多个方向上放置一个用于测试的固定声源，以得到各个声源点下每个麦克风对应的录音信号的频谱数据，从而根据这些频谱数据，可以获取到不同声源点到至少三个麦克风的幅值的差和/或相位的差，并构建得到声源的空间分布函数，即可得到电子设备上至少三个麦克风(音频采集装置)对应的音频坐标系。可以理解的是，以上用包含三个麦克风的情况进行描述仅作举例说明，不构成任何限制，实际上音频采集装置可以包括更多的麦克风，如四个、五个等。

在本申请的一些实施例中，视频画面可以对应图像坐标系(基于该视频画面内的某个像素点为基准点而建立的二维坐标系)。视频画面内的每个人物对象的图像在所述视频画面构建的二维坐标系中都对应了一个图像位置。该图像位置可以是视频画面内的每个图像的像素坐标。例如，以视频画面的左下角为原点建立二维坐标系。视频画面的左上角的像素点至右下角的像素点，一共包括M*N个像素点，其中，M为画面的每一行的像素数量，N为画面的每一列的像素数量，视频画面左下角的像素点为(0，0)，视频画面右上角的像素点为(M，N)，从而每个物体的图像位置都可以由(a，b)来表示，其中，0＜a≤M，0＜b≤N，且，a和b均为正数。人物对象的图像在视频画面中占据了多个像素点，可以将每个人物对象的人脸的中心点的像素点确定为该人物对象的图像对应的图像位置。例如，如图5所示，将图像位置41确定为对象1的图像对应的图像位置；将图像位置42确定为对象2的图像对应的图像位置；将图像位置43确定为对象3的图像对应的图像位置。

基于预先确定的图像坐标系与音频坐标系的映射关系，能够确定该图像位置为(a，b)的人物对象在音频坐标系内的空间坐标，进而能够确定人物对象与所述音频采集装置之间的方位信息。

在本申请的一些实施例中，所述视频画面可以对应相机坐标系(以画面采集装置的位置为坐标原点而建立的三维立体坐标系)。可以是以图像采集装置为坐标原点，以图像采集装置对应的深度方向为Z轴而建立的三维坐标系。基于相机坐标系与音频坐标系的映射关系，在确定了人物对象在相机坐标系内的坐标信息(即目标位置)之后，可以得到该人物对象与所述音频采集装置之间的方位信息。

具体地，在所述电子设备执行多对象录像的情况下，基于人物对象在所述图像采集装置所拍摄的视频画面内的图像位置，将所述人物对象在相机坐标系内的坐标信息确定为目标位置。基于所述人物对象的目标位置，确定所述人物对象与所述音频采集装置之间的方位信息。

例如，如图6所示，可以以电子设备的屏幕左下角为原点，以电子设备的屏幕左下角的两边分别为X轴，Y轴；以垂直于电子设备的屏幕方向为Z轴方向(图像中未示出，Z轴方向与图像采集装置的深度方向一致，Z轴上的坐标用于表示深度信息)，建立三维坐标系。人物对象在相机坐标系内的坐标信息可以表示为(x0，y0，z0)，其中，z0为人物对象的深度信息。

可以将人物对象的人脸区域的中心点的图像位置在相机坐标系内的坐标点，确定为该人物的坐标信息。例如，如图6所示，可以将图像位置41在相机坐标系内的坐标点，确定为对象1的坐标信息；可以将图像位置42在相机坐标系内的坐标点，确定为对象2的坐标信息；可以将图像位置43在相机坐标系内的坐标点，确定为对象3的坐标信息。

可以预先建立相机坐标系与音频坐标系的映射关系。通过预先建立相机坐标系与音频坐标系的映射关系，可以使得在确定了人物对象在相机坐标系内的坐标信息的时候，能够将该坐标信息映射到音频坐标系内，从而能确定人物对象在音频坐标系内的坐标，即音频坐标。基于该音频坐标能够确定人物对象与音频采集装置的位置之间的方位信息。

上述确定人物对象与音频采集装置之间的方位信息的方法仅做举例说明，不构成任何限制，可以理解的是，也可以通过其他的方法确定人物对象与音频采集装置之间的方位信息。

303，基于所述方位信息，对所述人物对象进行采音，得到所述人物对象对应的人物音轨。

根据所述人物对象对应的方位信息进行定向采音，获取该人物对象对应的音频数据，得到所述人物对象对应的人物音轨。可以基于麦克风波束成型原理，根据所述人物对象对应的方位信息进行定向采音。

304，建立所述人物对象在所述视频画面中的图像位置与所述人物对象对应的人物音轨之间的关联，并将所述人物音轨进行存储。

可以建立人物对象与对应的人物音轨之间在时间和空间上的关联，如建立所述人物对象在所述视频画面中的图像位置与对应的人物音轨之间的关联和所述人物对象在所述视频画面中的出现时间(时间信息)与对应的人物音轨之间的关联。也就是说，可以建立人物对象在所述视频画面中的图像位置、在所述图像位置上的时间信息与所述人物对象对应的人物音轨三者之间的关联。可以理解的是，本申请实施例中所述的时间信息是指相对于拍摄的视频中的时间信息。例如，一人物对象在一视频中的时间信息为[02:00，02:20]，表明该人物对象是在这个视频播放到02:00时出现，在这个视频播放到02:20时消失，在视频中出现的时间为20秒。

建立人物对象在视频画面中的图像位置、在所述图像位置上的时间信息与所述人物对象对应的人物音轨三者之间的关联之后，得到所述人物对象对应的索引。人物对象对应的索引中包括所述人物对象的位置信息(在所述视频画面中的图像位置)、所述人物对象的时间信息(在所述视频画面中的出现时间，什么时候出现，什么时候消失)和所述人物对象对应的音轨索引。音轨索引用于获取所述人物对象对应的音轨，不同的音轨索引对应不同的音轨。

例如，若一人物对象为图5所示的对象1，对象1对应的索引可以为：[Px1，Py1，L1]，[Tb1，Te1]，[X1]。

其中，[Px1，Py1，L1]表示对象1在所述视频画面中的图像位置。可以将对象1人脸在所述视频画面内的显示区域确定为对象1在所述视频画面中的显示区域。具体地，可以基于人脸识别过程中的人脸识别框，确定人物对象在所述视频画面中的图像位置。(Px1，Py1)可以表示对象1对应的人脸识别框的中心点在所拍摄的视频画面内的图像位置，如图5中的41在所述视频画面内的图像位置；L1表示对象1对应的人脸识别框的框长度，如图5中对象1对应的人脸识别框的框长度。

[Tb1，Te1]表示对象1出现在所拍摄的视频画面内的时间信息，即对象1对应的播放时间，Tb1表示对象1的出现时间(对象1出现的起始时间)，Te1表示对象1的消失时间。

X1是对象1音轨的音轨索引，如可以是对象1音轨对应的音轨编号。根据音轨索引可以获取到该音轨索引对应的音轨。

可以理解的是，301中是基于人脸识别的结果确定是否存在人物对象。当识别到人脸，即可确定存在人物对象，无需识别该人物对象对应的身份。所以即使是同一个人物对象，在不同时刻出现，会被确定为多个人物对象，同时会在确定人物对象的时候，为该人物对象生成一段音轨。也就是说，同一个人物对象，在拍摄过程中多次在拍摄界面中出现(消失)，每次出现时，会被确定为新的人物对象，会根据出现的次数生成多段音轨(音轨的次数与被人脸识别到的次数相同)。同时，一个人物对象在位置移动过程中，可能导致人脸识别无法识别到，所以同一个人物对象可能会因为位置移动从而被确定为多个人物对象。

此外，在其他实施例中，也可结合人脸追踪技术，当人物对象在预定范围内发生移动时，持续进行定向录音，直至超出预定范围。

在本申请的一些实施例中，所述方法还包括：在一人物对象发生超出预设范围的移动时，将移动后的所述人物对象相对于所述音频采集装置的位置作为更新位置，录制与所述更新位置对应的另一人物音轨。也就是说，当一人物对象发生超出预设范围的移动时，若移动后的所述人物对象还在所述图像采集装置所拍摄的视频画面内，对移动后的所述人物对象所在的更新位置(所述更新位置可以是移动后的人物对象相对于音频采集装置的位置)进行定向采音，录制与所述更新位置对应的另一人物音轨。可以理解的是，随着一人物对象的移动可以得到多条人物音轨，每条人物音轨对应不同的对象标识。也就是说，即使是同一个人物对象，在不同的位置采集得到的多条人物音轨，每条人物音轨对应的对象标识也是不同的。例如，一人物对象在位置A采集到的人物音轨为音轨X1，在位置B采集到的人物音轨为音轨X2，音轨X1对应对象1，音轨X2对应对象2，对象1和对象2不会被认定为同一个对象。上述实施例，通过根据人物对象的移动，录制该人物对象对应的新的人物音轨，可以保证人物音轨与人物对象对应的图像位置之间的关联性，方便后续用户点击录制的视频时，可以准确地播放用户点击的人物对象对应的人物音轨。

在生成视频中每个人物对象对应的索引后，根据人物对象对应的索引生成所述视频对应的索引表。所述索引表，可以如表1所示：

表1

序号	图像位置	时间信息	音轨索引
				1	[Px1，Py1，L1]	[Tb1，Te1]	X1
2	[Px2，Py2，L2]	[Tb2，Te2]	X2
				3	[Px3，Py3，L3]	[Tb3，Te3]	X3
4	[Px4，Py4，L4]	[Tb4，Te4]	X4
				5	[Px5，Py5，L5]	[Tb5，Te5]	X5
…	…	…	…

根据所述图像采集装置拍摄的视频数据、所述音频采集装置录制的音频数据和所述人物对象对应的人物音轨进行编码，得到录制好的视频。所述录制的视频包括多段音轨，其中多段视频中包括人脸识别到的每个人物对象分别对应的人物音轨和整个视频对应的音轨。整个视频对应的音轨为录制过程中音频采集装置录制到全部声音对应的音轨。例如，采用图像采集装置和音频采集装置对三个人物对象(对象1、对象2、对象3，三个人物对象都有说话)进行拍摄录制，得到录制好的视频。所述录制的视频包括对象1对应的人物音轨(包括对象1的说话声)、对象2对应的人物音轨(包括对象2的说话声)、对象3对应的人物音轨(包括对象3的说话声)和整个视频对应的音轨。整个视频对应的音轨为在图像采集装置拍摄过程中，音频采集装置采集到的所有声音对应的音轨，包括对象1、对象2和对象3的说话声。可以理解的是，用户用常规的方式播放该录制的视频时，电子设备播放整个视频对应的音轨。

录制的视频还包括音轨对应的索引表，索引表中可以包括人物对象在所述录制的视频中的图像位置与所述人物对象对应的人物音轨之间的关联。

通过上述实施例，可以为录制的视频中识别到的每个人物对象生成对应的一段音轨，使得录制的视频包括多段人物对象对应的音轨。然后，建立音轨与人物对象之间的关联。基于音轨与人物对象之间的关联，使得在播放录制好的视频时，可以基于多段音轨对选择的人物对象进行单独的语音播放，从而提高视频播放的灵活性与互动性。

图7为本申请实施例提供的一种多对象视频录制方法的时序图，所述视频录制方法应用于电子设备。如图7所示，电子设备中包括视频录制模块、人脸检测模块、索引缓存模块、定向录音模块和文件存储模块。其中视频录制模块用于录制视频。人脸检测模块用于在视频录制模块录制视频的过程中，对录制的内容进行检测，确定拍摄的内容中是否存在人物对象。索引缓存模块用于根据人物对象与音轨之间的关联，建立人物对象对应的索引。定向录音模块用于对人物对象进行定向录音，得到人物对象对应的人物音轨。文件存储模块用于存储人物对象对应的索引、音轨和视频。

人脸检测模块将对象1位置信息发送至定向录音模块和索引缓存模块(可以同时发送，也可以先后发送，在此不做任何限定)。

定向录音模块接收到对象1位置信息后，根据对象1位置信息对对象1进行定向录音，得到对象1对应的音轨(音轨X1)，并将对象1对应的音轨发送至文件存储模块进行音轨存储，得到该音轨对应的音轨索引(音轨索引1)。定向录音模块将音轨索引1发送至索引缓存模块。

视频录制模块向索引缓存模块发送对象1在录制视频中的时间信息。

索引缓存模块接到音轨索引1、对象1位置信息、对象1时间信息后，索引缓存模块根据音轨索引1、对象1位置信息和对象1时间信息生成对象1对应的索引。索引缓存模块将生成的对象1对应的索引发送至文件存储模块进行索引存储。关于对象1对应的索引的相关描述可以参见对图3中304的相关描述，在此不再赘述。

视频录制模块结束视频录制后，会将录制好的视频进行编码存储至文件存储模块中。

图7中所示的对象2索引的生成过程与对象1一致，在此不做赘述。可以理解的是，若在实施多对象视频录制方法的过程中，识别到对象3和对象4，对象3和对象4的处理过程与对象1一致，可以生成对象3对应的索引和对象4对应的索引。

通过上述实施例，可以为录制的视频中识别到的每个人物对象生成对应的一段音轨，使得录制的视频包括多段音轨，同时会为每个人物对象生成对应的索引，方便后续根据人物对象的索引调用该人物对象对应的音轨，从而提高视频播放的灵活性。

图8为本申请实施例提供的一录制功能系统的框架示意图。如图8所示，所述录制功能系统包括相机(camera)模块、录音(record)模块、多音轨(Multi-audio trackengine)模块，其中多音轨模块中包括视频(Video)模块、音频(Audio)模块、格式封装模块。视频模块用于控制相机模块拍摄视频；音频模块用于控制录音模块录制音频；多音轨模块用于对拍摄的视频和录制的音频进行封装，得到目标格式的文件，如MP4格式的文件；视频模块可以用于对相机模块拍摄的视频进行编码；音频模块可以用于对录音模块录制的音频进行编码。格式封装模块用于对编码好的视频和音频进行封装，得到目标格式的文件，如MP4格式的文件。格式封装模块可以包括MP4容器格式封装模块。

如图8所示，相机模块将拍摄过程中识别到的人物对象的人脸信息发送至视频模块，视频模块将接收到的人脸信息发送至音频模块。所述人脸信息包括所述人物对象对应的位置信息。音频模块接收到所述人脸信息后，控制录音模块根据所述位置信息对所述人物对象进行定向录音，得到所述人物对象对应的人物音轨。音频模块会对录音模块录制的录音进行编码，得到音轨文件。

多音轨模块根据人物对象的人脸信息、人物对象的音轨和系统时间，生成所述人物对象对应的索引缓存。

格式封装模块将人物对象对应的视频文件、音轨文件和索引缓存进行格式封装，得到目标格式的视频文件。

如图8所示，得到的目标格式的视频文件中包括文件头、视频轨、音频轨、音轨1、音轨2、音轨3和索引表。其中，音频轨为该视频对应的完整音频，即包括视频中所有发声对象对应的全部音频；音轨X1、音轨X2和音轨X3用于表示不同的人物对象对应的人物音轨，例如音轨X1可以对应对象1，音轨X2可以对应对象2，音轨X3可以对应对象3。索引表中包括人物对象在所述视频画面中的图像位置、人物对象在所述图像位置上的时间信息与人物对象对应的人物音轨三者之间的关联。基于索引表，可以确定一人物对象对应的人物音轨。

例如，音轨和索引表，可以如下所示，其中括号中的内容为注释或说明，实际的音轨和索引表的信息中不包括如下示例中的括号内的注释：

音频

ID：2；(音轨ID：音轨2)

格式：AAC LC；

时长：2分50秒；(音轨持续时长)

编码日期：UTC 2020-12-09 09:55:01；(音轨开始时间)

标记日期：UTC 2020-12-09 09:55:01；

音频

ID：3；(音轨ID：音轨3)

格式：AAC LC；

时长：3分33秒；(音轨持续时长)

编码日期：UTC 2020-12-09 10:15:01；(音轨开始时间)

标记日期：UTC 2020-12-09 10:15:01；

索引

ID：1001；(索引ID，可以设置为固定值，如1001)

格式：Text；(存储格式为文本格式)

Index数值：300；(索引包含的索引项，索引包含300个音轨对应的索引)

编码日期：UTC 2020-12-09 10:25:01；

标记日期：UTC 2020-12-09 10:25:01。

图9为本申请实施例提供的一种多对象视频播放方法的时序图，所述多对象视频播放方法应用于电子设备，所述电子设备中包括视频播放模块、索引模块、音轨切换模块。视频播放模块用于播放录制的视频，所述视频是使用上述实施例提供的多对象视频录制方法录制得到的；索引模块用于存储包含人物对象在所述视频画面中的图像位置、时间信息与所述人物对象对应的人物音轨之间的关联的索引，所述图像位置包括多个图像坐标；音轨切换模块用于在视频播放过程中，切换视频对应的音轨。

如图9所示，所述方法包括：视频播放模块接收用户对电子设备的视频播放界面的触摸点击，确定用户触摸点坐标(用户点击处在所述视频播放界面中播放的视频画面中对应的图像位置)，并将触摸点坐标传递至索引模块。在本申请的一些实施例中，所述将触摸点坐标传递至索引模块包括：若所述触摸点坐标在一人物对象的人脸部位对应的坐标区间内，将所述触摸点坐标传递至索引模块。例如，如图10所示，在播放录制视频的时候，若用户点击了电子设备的视频播放界面(如点击了图10中1001处)，确定1001对应的触摸点坐标为(940，255)，确定触摸点坐标(940，255)在中间人物对象的人脸区域，将触摸点坐标(940，255)传递至索引模块；若用户点击了电子设备的视频播放界面(如点击了图10中1002处)，确定1002对应的触摸点坐标为(1140，400)，确定触摸点坐标(1140，400)不在人物对象的人脸区域，不将触摸点坐标(1140，400)传递至索引模块。

确定用户触摸点坐标在人脸部位对应的坐标区间后，将所述触摸点坐标发送至索引模块，可以更准确地确定用户点击的意图，避免将用户不小心触摸屏幕后就进行索引查询的情况发生，有效减少了无用的能量损耗。

索引模块确定是否有包含该触摸点坐标的索引。例如，索引模块将用户触摸点坐标(940，255)在存储的索引(索引表)中进行查询，确定是否有一索引对应的人物对象在所述视频画面中的图像位置中包含该触摸点坐标。索引表中包括音轨索引对应的图像位置和时间信息，图像位置表示人物对象的人脸在所述视频画面中的图像位置，时间信息表示该人物对象在视频画面中出现的时间。

例如，根据用户触摸点坐标(940，255)在索引表中查询到两个结果，查询到的结果如下表2所示：

表2

序号	图像位置	时间信息	音轨索引
				1	[882，232，200]	[02:00，02:20]	X1
2	[893，250，200]	[02:35，02:55]	X4

用户触摸点坐标(940，255)在图像位置[882，232，200](表示人脸对象对应的中心点)和图像位置[893，250，200]所示的图像区间内。其中[882，232，200]表示人脸对象对应的中心点为(882，232)，该人脸对象对应的人脸识别框的边长为200；[893，250，200]表示人脸对象对应的中心点为(893，250)，该人脸对象对应的人脸识别框的边长为200。根据人脸对象对应的中心点以及人脸识别框的边长，可以确定人脸的图像区间的范围，若触摸点坐标落入图像区间的范围，即可确定对应的人物对象以及对应的音轨索引。时间信息包括视频对应的播放时间，时间信息[02:00，02:20]表示音轨索引X1对应的人物对象于播放时间02:00在视频画面中出现，于播放时间02:20在视频画面中消失，出现时长为20S。时间信息[02:35，02:55]表示音轨索引X4对应的人物对象于播放时间02:35在视频画面中出现，于播放时间02:55在视频画面中消失，出现时长为20S。

若没有包含该触摸点坐标的索引，流程结束，或者索引模块按照预设的提示规则向视频播放模块返回为未检索到提示。视频播放模块在接收到所述未检索到提示后，可以在视频播放界面上显示该未检索到提示。

若有包含该触摸点坐标的索引，索引模块可以根据包含该触摸点坐标的索引得到检索结果(如检索结果1)，所述检索结果可以包括含该触摸点坐标的索引对应的时间信息(如时间项)和音轨。索引模块可以向音轨切换模块发送播放时间查询请求，以向音轨切换模块获取当前视频时间；播放时间查询请求中可以包括含该触摸点坐标对应的检索结果(如检索结果1)。

音轨切换模块向索引模块发送当前视频时间，当前视频时间为当前播放视频的时间，该时间是当前。例如，对应该触摸点的当前视频时间(用户执行触摸操作时对应的当前视频时间)。

索引模块根据索引中的时间信息，在包括含该触摸点坐标的索引中，确定是否存在与当前视频时间在时间区间上匹配的索引。索引模块在查询到包含该触摸点坐标的索引结果中，确定是否存在与当前视频时间在时间区间上匹配的索引。

若不存在与当前视频时间在时间区间上匹配的索引，流程结束，或者索引模块按照预设的提示规则向视频播放模块返回为未检索到提示。视频播放模块在接收到所述未检索到提示后，可以在视频播放界面上显示该未检索到提示。若存在与当前视频时间在时间区间上匹配的索引，索引模块可以向音轨切换模块发送该索引对应的音轨，以使音轨切换模块切换音轨，播放该索引对应的音轨。

例如，当前视频时间为02:07，根据索引结果中每个索引的时间信息，确定所述索引结果中是否存在与当前视频时间在时间区间上匹配的索引。将当前视频时间02:07分别与时间信息[02:00，02:20]、时间信息[02:35，02:55]进行比对，确定当前视频时间02:07在时间区间上与时间信息[02:00，02:20]匹配。索引模块将时间信息[02:00，02:20]对应的音轨索引(音轨索引X1)发送至音轨切换模块。音轨切换模块切换至音轨索引X1对应的音轨进行播放。

音轨切换模块在播放音轨索引X1对应的音轨时，会在该音轨对应的人物对象(例如，对象2)旁显示音轨调节控件，如音量调节控件。音量调节控件用于调节播放该音轨时的音量，放大音量或者减小音量。如图11中所示，在对象2旁边显示音量调节控件。通过在音轨对应的人物对象旁显示音量调节控件，可以让用户清晰感知到当前播放的音轨是对应哪个人物对象，提高了用户观看视频的体验感。同时，在音轨切换模块在播放音轨索引X1对应的音轨时，可以在视频播放界面显示该段音轨对应的音轨信息，如音轨时长和当前播放音轨进度等。例如，如图12所示，在音轨切换模块播放在播放音轨索引X1对应的音轨时，会在视频播放界面上显示音轨进度条，用户可以通过拖动音轨进度条，进行快进或回退等操作，如往左拖动可以进行回退，往右拖动可以进行快进。如图12所示，音轨进度条旁可以显示音轨对应的整体时长。

在本申请的一些实施例中，索引模块可以同时基于触摸点坐标和当前视频时间在索引中进行检索；或者，索引模块也可以基于当前视频时间在索引中进行检索，确定索引表中是否有当前视频时间对应的索引。若索引表中包括当前视频时间对应的索引，确定当前视频时间对应的索引中是否包含触摸点坐标对应的索引。

图13为本申请实施例提供的一种多对象视频播放方法的流程示意图。所述视频播放方法应用于电子设备，所述电子设备上播放使用上述实施例提供的多对象视频录制方法录制得到的视频。如图13所示，所述方法包括：

1301，当接收到用户点击视频播放界面的动作时，确定所述动作对应的位置坐标。

在播放视频时，若接收到用户点击视频播放界面的动作，确定用户点击的位置在所述视频画面中的位置坐标。

1302，确定当前播放视频对应的索引表中，是否存在位置坐标对应的索引。

若不存在所述位置坐标对应的索引，流程结束。若存在所述位置坐标对应的索引，执行1303，获取所述当前播放视频对应的当前视频时间。

1304，确定位置坐标对应的索引中，是否存在当前视频时间对应的索引。若不存在所述当前视频时间对应的索引，流程结束。若存在所述当前视频时间对应的索引，执行1305，播放当前视频时间对应的索引的音轨。

图13中1301-1305的一些具体实施方式，可以参见对图9的相关描述，在此不再赘述。

图14为本申请实施例提供的一种电子设备100的结构示意图。参考图14，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universalserial bus，USB)接口130，充电管理模块120，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I1C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I1C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。I2S接口可以用于音频通信。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I1C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备100，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)，蓝牙(bluetooth，BT)，全球导航卫星系统(globalnavigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为服务异常提醒的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。

在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。在本申请实施例中，内部存储器121也可以称为内存。在一些实施例中，处理器(如CPU)可以在内存中存储每一次展示引导信息的展示时间以及展示引导信息的累计次数。

外部存储器接口120可以用于连接外部的非易失性存储器，实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部的非易失性存储器中。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备100平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of theUSA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以陀螺仪传感器180B的定位，更新显示界面上显示的桌面卡片。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备100姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。在本申请的一些实施例中，可以基于用户在触摸传感器180K上触摸操作，确定目标粘贴应用。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多帧卡。所述多帧卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备100上运行时，使得电子设备100执行上述相关方法步骤实现上述实施例中的视频播放控制方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的视频播放控制方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的视频播放控制方法。

其中，本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种视频播放控制方法，其特征在于，所述方法应用于电子设备，所述方法包括：

播放录制的视频；

响应用户对所述录制的视频中人物对象人脸区域的点击，播放所述人物对象对应的人物音轨，并在所述人物对象对应的显示区域上显示音量调节控件。

2.根据权利要求1所述的视频播放控制方法，其特征在于，所述方法还包括：

确定所述用户对所述录制的视频的点击动作对应的位置坐标；

若所述位置坐标在所述录制的视频中一人物对象人脸区域对应的坐标区间内，根据所述位置坐标确定所述人物对象对应的人物音轨。

3.根据权利要求2所述的视频播放控制方法，其特征在于，所述根据所述位置坐标确定所述人物对象对应的人物音轨包括：

确定所述用户对所述录制的视频的点击动作对应的播放时间；

根据所述播放时间和所述位置坐标，确定所述人物对象对应的人物音轨。

4.根据权利要求3所述的视频播放控制方法，其特征在于，所述根据所述播放时间和所述位置坐标，确定所述人物对象对应的人物音轨包括：

根据所述位置坐标，在所述录制的视频对应的索引表中确定至少一个目标音轨；

根据所述播放时间，在所述至少一个目标音轨中确定所述人物对象对应的人物音轨。

5.根据权利要求1所述的视频播放控制方法，其特征在于，所述播放所述人物对象对应的音轨之后，所述方法还包括：

显示所述音轨对应的音轨进度控件。

6.根据权利要求1至5中任意一项所述的视频播放控制方法，其特征在于，所述电子设备包括图像采集装置和音频采集装置，所述方法还包括：生成所述录制的视频，包括：

响应于视频拍摄指令，基于人脸识别，确定所述图像采集装置拍摄的视频画面中是否存在人物对象；

若所述拍摄的视频画面中存在人物对象，确定所述人物对象与所述音频采集装置之间的方位信息；

基于所述方位信息，对所述人物对象进行采音，得到所述人物对象对应的人物音轨；

根据所述图像采集装置拍摄的视频数据、所述音频采集装置录制的音频数据和所述人物对象对应的人物音轨进行编码，得到所述录制的视频，所述录制的视频包括人物对象对应的人物音轨。

7.根据权利要求6所述的视频播放控制方法，其特征在于，所述得到所述录制的视频还包括：

根据在所述人物对象在所述视频中的图像位置和所述人物对象对应的人物音轨之间建立的关联，生成所述人物对象对应的索引，所述索引用于获取人物对象对应的人物音轨。

8.根据权利要求7所述的视频播放控制方法，其特征在于，所述根据在所述人物对象在所述视频中的图像位置和所述人物对象对应的人物音轨之间建立的关联，生成所述人物对象对应的索引包括：

根据所述人物对象在所述视频中的图像位置、所述人物对象在所述图像位置上的时间信息和所述人物对象对应的人物音轨之间的关联，生成所述人物对象对应的索引。

9.根据权利要求8所述的视频播放控制方法，其特征在于，所述方法还包括：

基于所述人物对象的人脸识别框在所述视频中的图像位置，确定所述人物对象在所述视频中的图像位置。

10.根据权利要求6所述的视频播放控制方法，其特征在于，所述方法还包括：

在所述人物对象发生超出预设范围的移动时，将移动后的所述人物对象相对于所述音频采集装置的位置作为更新位置，录制与所述更新位置对应的另一人物音轨。

11.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于读取所述存储器中存储的所述程序指令，以实现如权利要求1至10中任意一项所述的视频播放控制方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至10中任意一项所述的视频播放控制方法。