CN114666639B

CN114666639B - 视频播放方法及显示设备

Info

Publication number: CN114666639B
Application number: CN202210273180.5A
Authority: CN
Inventors: 许丽星; 王昕�; 于仲海
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2023-11-03
Anticipated expiration: 2042-03-18
Also published as: CN114666639A

Abstract

本申请公开了一种视频播放方法即显示设备，涉及显示技术领域。由于能够将动作教学视频包括的第一视频帧中的目标教学对象的子图像，以及与第一视频帧匹配的跟学图像中的跟学对象的子图像合成得到第一合成视频帧后再进行显示，即能够在显示目标教学对象的子图像的同时，显示跟学对象的子图像，从而提高了运动教学的灵活性。并且，由于目标教学对象的子图像，以及跟学对象的子图像合成在一个目标背景图像上，即能够在一个背景图像中显示目标教学对象的子图像，以及跟学对象的子图像，因此提高了显示设备的显示灵活性。

Description

视频播放方法及显示设备

技术领域

本申请涉及显示技术领域，特别涉及一种视频播放方法及显示设备。

背景技术

为了便于用户学习运动教学视频(例如舞蹈教学视频)中的动作，显示设备(例如电视)可以在播放运动教学视频的过程中，同步播放讲解音频。但是，上述运动教学方法的灵活性较低。

发明内容

本申请提供了一种视频播放方法及显示设备，可以解决相关技术的运动教学方法的灵活性较低的问题。所述技术方案如下：

一方面，提供了一种显示设备，所述显示设备包括：处理器；所述处理器用于：

响应于针对动作教学视频的跟学指令，获取所述动作教学视频包括的第一视频帧中的目标教学对象的子图像；

基于摄像头采集到的图像确定与所述第一视频帧匹配的跟学图像，并从所述跟学图像中获取跟学对象的子图像；

将所述目标教学对象的子图像与所述跟学对象的子图像合成在目标背景图像上，得到第一合成视频帧，其中，所述目标教学对象的子图像和所述跟学对象的子图像在所述目标背景图像上的合成位置，基于所述目标教学对象的个数和所述跟学对象的个数确定；

播放所述第一合成视频帧。

另一方面，提供了一种视频播放方法，应用于显示设备；所述方法包括：

播放所述第一合成视频帧。

可选的，所述处理器用于：

获取所述跟学图像的分辨率；

若所述跟学图像的分辨率与所述第一视频帧的分辨率不同，则调整所述跟学图像，调整后的所述跟学图像的分辨率与所述第一视频帧的分辨率相同；

从调整后的所述跟学图像中获取跟学对象的子图像。

可选的，所述处理器还用于：

在播放所述第一合成视频帧的过程中，播放所述动作教学视频的音频。

可选的，所述处理器还用于：

响应于针对动作教学视频的跟学指令，获取所述动作教学视频中第二视频帧，并从与所述第二视频帧匹配的跟学图像中获取所述跟学对象的子图像，所述第二视频帧为不包括所述目标教学对象的视频帧；

将所述第二视频帧，以及与所述第二视频帧匹配的跟学图像中的跟学对象的子图像合成在目标背景图像上，得到第二合成视频帧；

播放所述第二合成视频帧。

可选的，所述处理器还用于：

若所述摄像头的采样率大于所述动作教学视频的帧率，则对于每个第一视频帧，对所述摄像头在目标时段内采集到的多帧图像进行抽帧处理，得到与所述第一视频帧匹配的跟学图像，所述第一视频帧的播放时刻位于所述目标时段内；

若所述摄像头的采样率小于所述动作教学视频的帧率，则对于每个第一视频帧，对所述摄像头在所述目标时段内采集的多帧图像进行插帧处理，得到与所述第一视频帧匹配的跟学图像。

又一方面，提供了一种显示设备，所述显示设备包括：存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方面所述的视频播放方法。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的视频播放方法。

再一方面，提供了一种包含指令的计算机程序产品，当所述计算机程序产品在所述计算机上运行时，使得所述计算机执行上述方面所述的视频播放方法。

本申请提供的技术方案带来的有益效果至少包括：

本申请提供了一种视频播放方法及显示设备，由于能够将动作教学视频包括的第一视频帧中的目标教学对象的子图像，以及与第一视频帧匹配的跟学图像中的跟学对象的子图像合成得到第一合成视频帧后再进行显示，即能够在显示目标教学对象的子图像的同时，显示跟学对象的子图像，从而提高了运动教学的灵活性。并且，由于目标教学对象的子图像，以及跟学对象的子图像合成在一个目标背景图像上，即能够在一个背景图像中显示目标教学对象的子图像，以及跟学对象的子图像，因此提高了显示设备的显示灵活性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频播放方法的流程图；

图2是本申请实施例提供的另一种视频播放方法的流程图；

图3是本申请实施例提供的一种从动作教学视频中识别出的人脸子图像的示意图；

图4是本申请实施例提供的另一种从动作教学视频中识别出的人脸子图像的示意图；

图5是本申请实施例提供的一种目标教学对象的个数、跟学对象的个数与背景图像的对应关系的示意图；

图6是本申请实施例提供的一种显示设备播放第一合成视频帧的示意图；

图7是本申请实施例提供的另一种显示设备播放第一合成视频帧的示意图；

图8是本申请实施例提供的一种显示设备播放第二合成视频帧的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种视频播放方法，该方法可以应用于动作教学视频中的至少一个视频帧包括目标教学对象的场景。例如，可以应用于动作教学视频中的每个视频帧均包括目标教学对象的场景(即每个视频帧均为下文所述的第一视频帧的场景)，或者可以应用于动作教学视频中的部分视频帧包括目标教学对象，部分视频帧不包括目标教学对象的场景(即部分视频帧为第一视频帧，部分视频帧为下文所述的第二视频帧的场景)。

本申请实施例提供的方法能够应用于显示设备。可选的，该显示设备可以为显示设备，或者可以为显示设备。该显示设备可以为智能电视、拼接屏设备或台式电脑。参见图1，该方法包括：

步骤101、响应于针对动作教学视频的跟学指令，获取动作教学视频包括的第一视频帧中的目标教学对象的子图像。

其中，动作教学视频可以包括多个第一视频帧。或者，动作教学视频除了包括多个第一视频帧外，还可以包括至少一个第二视频帧。第一视频帧是指：包括目标教学对象的子图像的视频帧。第二视频帧是指：不包括目标对象的子图像的视频帧。可选的，目标教学对象可以为动作教学视频中肢体动作发生变化的对象，且目标教学对象的个数可以为一个或多个。例如，目标教学对象可以为动作教学视频中肢体动作发生变化的，且可以讲解动作的教学对象。

在本申请实施例中，显示设备的存储器中预先存储有动作教学视频帧包括每个第一视频帧中的目标教学对象的子图像，该目标教学对象的子图像可以是显示设备预先对动作教学视频帧中的每个第一视频帧进行分割处理得到。显示设备在接收到针对该动作教学视频的跟学指令后，即可从该存储器中读取第一视频帧中的目标教学对象的子图像。如此，可以确保显示设备获取目标教学对象的子图像的效率较高。

或者，显示设备在接收到针对该动作教学视频的跟学指令后，可以响应于该动作教学视频的跟学指令，对动作教学视频包括的多个视频帧进行人脸检测，以确定动作教学视频包括至少一个第一备选对象的个数。每个第一备选对象均为动作教学视频中的教学对象。若显示设备确定该个数为一个，则可以确定动作教学视频包括一个教学对象，并可以将直接将教学对象确定为目标教学对象。若显示设备确定该个数为多个，则可以确定动作教学视频包括多个第一备选对象，并可以先从多个第一备选对象中确定目标教学对象。之后，显示设备可以基于该目标教学对象的人脸子图像，确定第一视频帧，并从该第一视频帧中分割得到目标教学对象的子图像。

步骤102、基于摄像头采集到的图像，确定与第一视频帧匹配的跟学图像，并从该跟学图像中获取跟学对象的子图像。

显示设备响应于针对动作教学视频的跟学指令，还可以启动摄像头。相应的，摄像头即可采集图像。之后，显示设备可以基于摄像头采集到的图像得到与第一视频帧匹配的跟学图像，并对该跟学图像进行处理(例如人像识别处理)，得到跟学对象的子图像。其中，与第一视频帧匹配的跟学图像可以直接为摄像头采集到的图像。或者，与第一视频帧匹配的跟学图像可以对摄像头采集到的图像处理得到的。跟学对象为跟学至少一个目标教学对象的动作的对象。可选的，跟学对象的个数可以为一个或多个。

在本申请实施例中，若摄像头的采样率与动作教学视频的帧率相同，则与每个第一视频帧匹配的跟学图像可以是摄像头采集到的图像。若摄像头的采样率大于动作教学视频的帧率，则与每个第一视频帧匹配的跟学图像可以是显示设备对摄像头在目标时段内采集到的多帧图像进行抽帧处理后得到的。若摄像头的采样率小于动作教学视频的帧率，则与每个第一视频帧匹配的跟学图像可以是显示设备对摄像头在目标时段内采集到的多帧图像进行插帧处理后得到的。其中，第一视频帧的播放时刻位于目标时段内，该播放时刻可以等于摄像头开始采集图像的时刻与第一视频帧的时间戳之和。动作教学视频中的多个视频帧中每个视频帧均具有时间戳，任意相邻的两个视频帧的时间戳的差值均为目标数值。每个视频帧的时间戳用于指示该视频帧在该多个视频帧中的排列次序。

在本申请实施例中，摄像头可以集成在显示设备中，即该显示设备包括该摄像头。这种实现方式下，显示设备响应于针对动作教学视频的跟学指令后，可以直接控制摄像头采集图像。或者，摄像头与显示设备可以为独立的两个设备，即该显示设备不包括该摄像头。这种实现方式下，显示设备可以与摄像头建立通信连接，且显示设备接收到针对动作教学视频的跟学指令后，可以通过该通信连接向摄像头发送启动指令。摄像头接收到该启动指令后，即可响应于该启动指令启动并采集图像。

步骤103、将目标教学对象的子图像与跟学对象的子图像合成在目标背景图像上，得到第一合成视频帧。

其中，目标教学对象的子图像在目标背景图像上的合成位置和跟学对象的子图像在目标背景图像上的合成位置，基于目标教学对象的个数和跟学对象的个数确定。

步骤104、播放第一合成视频帧。

显示设备在合成得到第一合成视频帧后，即可在其显示屏中播放该第一合成视频帧。

可以理解的是，对于动作教学视频包括的多个第一视频帧，显示设备可以按照该多个第一视频帧的播放时刻从早到晚的顺序，依次基于该多个第一视频帧中的每个第一视频帧，以及与每个第一视频帧匹配的跟学图像，得到多个第一合成视频帧。且在得到一个第一合成视频帧后，显示设备即可播放该第一合成视频帧。

由此可见，本申请实施例提供的方法能够在显示目标教学对象的子图像的同时，还可以显示跟学对象的子图像。如此，有效提高了运动教学的灵活性。并且，可以使得跟学目标教学对象的动作的跟学对象直观的看到自己的动作与动作教学视频中的目标教学对象的规范动作的差距，以提高自身的学习效果，因此用户体验较好。此外，由于能够在一个背景图像中，显示目标教学对象的子图像，以及跟学对象的子图像。如此，一方面提高了显示设备的显示灵活性；另一方面，可以避免动作教学视频的背景图像与摄像头采集的实时跟学图像的背景图像不一致，从而容易分散跟学对象的注意力的问题，继而可以确保跟学者的沉浸式跟学。

综上所述，本申请实施例提供了一种视频播放方法，由于能够将动作教学视频包括的第一视频帧中的目标教学对象的子图像，以及与第一视频帧匹配的跟学图像包括的跟学对象的子图像合成得到第一合成视频帧后再进行显示，即能够在显示目标教学对象的子图像的同时，显示跟学对象的子图像，从而提高了运动教学的灵活性。并且，由于目标教学对象的子图像，以及跟学对象的子图像合成在一个目标背景图像上，即能够在一个背景图像中显示目标教学对象的子图像，以及跟学对象的子图像，因此提高了显示设备的显示灵活性。

本申请实施例以显示设备包括摄像头，以及动作教学视频包括：第一视频帧和第二视频帧显为例，对本申请实施例提供的视频播放方法进行示例性的说明。参见图3，该方法可以包括：

步骤201、显示设备响应于针对动作教学视频的跟学指令，获取动作教学视频包括的第一视频帧中的目标教学对象的子图像。

其中，第一视频帧为包括目标教学对象的视频帧。目标教学对象的个数可以为一个或多个。可选的，目标教学对象可以为动作教学视频中肢体动作发生变化的对象，且目标教学对象的个数可以为一个或多个。例如，目标教学对象可以为动作教学视频中肢体动作发生变化的，且可以讲解动作的教学对象(即动作教学视频中的主讲人)。

在本申请实施例中，显示设备可以包括显示屏，该显示屏可以显示跟学控件。显示设备接收到的跟学指令可以由用户(例如跟学对象)针对该跟学控件的选择操作触发。

例如，用户(例如跟学对象)可以在显示设备播放动作教学视频的过程中，选择该跟学控件。相应的，显示设备即可接收到针对该动作教学视频的跟学指令。

或者，显示设备可以响应于用户针对跟学控件的选择操作，显示多个备选的动作教学视频。之后，用户可以从多个备选的动作教学视频中选择任一动作教学视频。相应的，显示设备即可接收到针对该任一动作教学视频的跟学指令。

可以理解的是，显示设备接收到该跟学指令后，可以获取动作教学视频帧中未播放的第一视频帧中的目标教学对象的子图像。基于此，跟学指令可以携带动作教学视频当前的播放进度。

在一种可选的示例中，显示设备可以存储有动作教学视频的每个第一视频帧中的目标教学对象的子图像。在接收到针对动作教学视频的跟学指令后，显示设备可以直接读取该动作教学视频帧包括的每个第一视频帧中的目标教学对象的子图像。如此，可以确保显示设备获取该第一视频帧中的目标教学对象的子图像的效率较高。例如，显示设备可以基于该跟学指令中携带的动作教学视频当前的播放进度，读取动作教学视频中未播放的每个第一视频帧中的目标教学对象的子图像。

在另一可选的示例中，对于动作教学视频中的每个第一视频帧，显示设备预先存储有该第一视频帧中的目标教学对象的子图像在该第一视频帧中的位置。在接收到该跟学指令后，对于每个第一视频帧，显示设备可以基于记录的目标教学对象的子图像在该第一视频帧的位置，从该第一视频帧中分割得到目标教学对象的子图像。例如，显示设备可以基于该跟学指令中携带的动作教学视频当前的播放进度，对于每个未播放的第一视频帧，基于目标教学对象的子图像的位置，从该未播放的第一视频帧分割得到目标教学对象的子图像。

在又一种可选的示例中，显示设备在接收到该跟学指令后，可以对动作教学视频包括的多个视频帧进行人脸检测，以从多个视频帧中识别出至少一个第一备选对象中每个第一备选对象的人脸子图像和子图像。然后，显示设备可以从至少一个第一备选对象的人脸子图像中，确定目标教学对象的人脸子图像，并基于目标教学对象的人脸子图像，从至少一个第一备选对象的子图像中筛选出目标教学对象的子图像。其中，该多个视频帧可以是动作教学视频包括的所有视频帧，或者可以是显示设备基于动作教学视频当前的播放进度，确定的动作教学视频中未播放的多个视频帧。

在再一种可选的示例中，显示设备在接收到该跟学指令后，可以对动作教学视频包括的多个视频帧进行人脸检测，以确定动作教学视频包括至少一个第一备选对象的个数。若显示设备确定该个数为一个，则可以确定动作教学视频包括一个教学对象，并可以将直接将教学对象确定为目标教学对象。若显示设备确定该个数为多个，则可以确定动作教学视频包括多个第一备选对象，并可以先从多个第一备选对象中确定目标教学对象。之后，显示设备可以将包括该目标教学对象的人脸子图像的视频帧确定为第一视频帧。例如，显示设备可以基于动作教学视频当前的播放进度，以及目标教学对象的人脸子图像确定未播放的第一视频帧。

在本申请实施例中，由于动作教学视频中讲解动作的对象的唇部会发生较多的变化，因此显示设备从多个第一备选对象中确定目标教学对象的过程可以如下所述：

对于动作教学视频包括的多个第一备选对象中的每个第一备选对象，显示设备基于从多个参考视频帧中识别出的该第一备选对象的人脸子图像，检测该第一备选对象的唇部状态在该多个参考视频帧中是否发生变化。该多个参考视频帧中的每个参考视频帧均为包括该备选图像的人脸子图像的视频帧。若显示设备基于识别出的该第一备选对象的人脸子图像，确定该第一备选对象的唇部状态在该多个参考视频帧中发生变化，则将该第一备选对象确定为目标教学对象。

示例的，假设动作教学视频包括两个第一备选对象，其中从一个第一备选对象的多个参考视频帧中识别出的该一个第一备选对象的人脸子图像如图3所示，从另一个第一备选对象的多个参考视频帧中识别出的该另一个第一备选对象的脸子图像如图4所示。

从图3中可以看出，该一个第一备选对象的唇部状态在该一个第一备选对象的多个参考视频帧中发生了变化，因此显示设备可以确定该一个第一备选对象为目标教学对象。而从图4可以看出，该另一个第一备选对象的唇部状态在该另一个第一备选对象的多个参考视频帧保持不变。

在本申请实施例中，显示设备可以对多个视频帧中的每个视频帧进行人脸检测(例如可以采用多任务卷积神经网络算法进行人脸检测)，以得到每个视频帧包括的人脸子图像。若显示设备检测到该多个视频帧中的每个视频帧均包括的人脸子图像的个数小于等于1，则可以确定该第一视频帧包括一个教学对象。若显示设备检测到该多个视频帧中任一视频帧包括多个人脸子图像，则可以确定该多个视频帧包括多个第一备选对象。

显示设备得到每个视频帧包括的人脸子图像后，可以计算该多个人脸子图像中任意两个人脸子图像之间的相似度，并将相似度大于相似度阈值的多个人脸子图像确定为一个第一备选对象的人脸子图像。之后，对于每个第一备选对象，显示设备可以将包括该第一备选对象的人脸子图像的视频帧，确定为该第一备选对象的参考视频帧。

对于每个第一备选对象，显示设备确定该第一备选对象的唇部状态在多个参考视频帧中是否发生变化的方式有多种，本申请实施例以下述几种可选的实现方式为例，对显示设备确定该第一备选对象的唇部状态在多个参考视频帧中是否发生变化的过程进行示例性的说明。

在第一种可选的实现方式中，每个人脸子图像包括多个唇部特征点。对于每个参考视频帧，显示设备可以确定该第一备选对象的每个唇部特征点在该参考视频帧中的位置。然后，显示设备可以基于多个唇部特征点该参考视频帧中的位置，确定每两个唇部特征点之间的距离(例如欧式距离)。之后，若显示设备确定任意两个唇部特征点之间的距离，在相邻的两个参考视频帧中不同，则可以确定该第一备选对象的唇部状态在该相邻两个参考视频帧中发生变化，继而可以确定第一备选对象的唇部状态在多个参考视频帧中发生变化。

其中，该多个唇部特征点可以包括：位于上嘴唇上沿的特征点、位于上嘴唇下沿的特征点、位于下嘴唇上沿的特征点和位于下嘴唇下沿的特征点。

在第二种可选的实现方式中，对于每个参考视频帧，显示设备可以确定该第一备选对象的唇部子图像的高度和宽度的比值。其中，唇部子图像的高度方向可以平行于参考视频帧的像素列的延伸方向，宽度方向可以平行于参考视频帧的像素行的延伸方向。之后，若显示设备确定该唇部子图像的高度和宽度的比值，在相邻的两个参考视频帧中不同，则可以确定该第一备选对象的唇部状态在该相邻两个参考视频帧中发生变化，继而可以确定第一备选对象的唇部状态在多个参考视频帧中发生变化。

在第三种可选的实现方式中，对于每个参考视频帧，显示设备可以从该第一备选对象在参考视频帧中的人脸子图像输入唇部状态检测模型中，得到该唇部状态检测模型输出的该参考视频帧中第一备选对象的唇部状态。该唇部状态包括下述状态中的一种：张开和闭合。之后，若显示设备确定该唇部状态在相邻的两个参考视频帧中不同，则可以确定该第一备选对象的唇部状态在该相邻两个参考视频帧中发生变化，继而可以确定第一备选对象的唇部状态在多个参考视频帧中发生变化。

在本申请实施例中，动作教学视频中除目标教学对象之外的教学对象的唇部因运动可能也会发生变化。基于此，对于每个第一备选对象，若显示设备确定该第一备选对象的唇部状态在多个参考视频帧中发生变化的次数大于次数阈值后，则可以将第一备选对象确定为目标教学对象。如此，可以确保确定目标教学对象的准确性较高。其中，该次数阈值可以是显示设备中预先存储的。多个参考视频帧可以按照播放时刻的先后顺序(例如播放时刻从早到晚的顺序)排布。

例如，对于每个备选对象的多个参考视频帧，多个参考视频帧按照播放时刻从早到晚的顺序排布，显示设备可以从该多个参考视频帧的第二个参考视频帧开始遍历，对于遍历到每个参考视频帧，显示设备可以检测该参考视频帧中的备选对象的唇部状态与前一个参考视频帧中该备选对象的唇部状态是否相同。若显示设备确定该参考视频帧中的该唇部状态与前一个参考视频帧中的该唇部状态相同，则可以遍历该参考视频帧的下一个参考视频帧。若显示设备确定该参考视频帧中的该唇部状态与前一个参考视频帧中该唇部状态不同，则可以为该唇部状态变化次数加1，并遍历该参考视频帧的下一个参考视频帧，直至遍历完成，从而得到该第一备选对象的唇部状态发生变化的次数。

可选的，对于每个备选对象，显示设备可以按照目标采样率对多个参考视频帧进行采样，得到多个采样帧。该目标采样率小于动作教学视频的帧率。之后，显示设备可以基于从多个采样帧中识别出该第一备选对象的人脸子图像，确定该的第一备选对象是否为目标教学对象。如此，可以确保显示设备确定目标教学对象的效率较高。

其中，该多个采样帧可以按照播放时刻的先后顺序(例如可以按照由早到晚的顺序)排列。该目标采样率可以是显示设备预先存储的经验值。或者，该目标采样率可以是显示设备基于视频的帧率灵活确定的。例如，若动作教学视频的帧率(即每秒显示的帧数)为30，则该目标采样率可以为15。即每秒采集15个视频帧。

可选的，显示设备还可以存储动作教学视频的播放时长、分辨率、存储地址、帧率、文件类型和内容类别等属性信息。

步骤202、显示设备控制摄像头采集图像。

显示设备接收到针对动作教学视频的跟学指令后，还可以响应于该跟学指令，控制摄像头采集图像。

步骤203、显示设备检测待播放的首个音频帧对应的视频帧是否为第一视频帧。

在本申请实施例中，显示设备在接收到跟学指令后，还可以播放动作教学视频的音频，该音频可以包括多个音频帧，该多个音频帧可以与动作教学视频中的多个视频帧一一对应。并且，显示设备在播放音频时可以播放下文所述的第一合成视频帧，以及第二合成视频帧。基于此，显示设备可以检测待播放的首个音频帧对应的视频帧是否为第一视频帧。若显示设备确定待播放的首个音频帧对应的视频帧为第一视频帧，则可以执行步骤204。若显示设备确定待播放的首个音频帧对应的视频帧为第二视频帧，则可以执行步骤207。

其中，与音频帧对应的视频帧是指：时间戳与该音频帧的时间戳的差值小于等于差值阈值的视频帧，例如时间戳与该音频帧的时间戳相同的视频帧。每个音频帧的时间戳能够用于指示该音频帧在音频的多个音频帧中的排列次序。

可选的，该动作教学视频的音频可以是显示设备对该动作教学视频进行预处理后，从以该动作教学视频中提取出的。或者，该动作教学视频的音频可以是显示设备发送至显示设备的。

步骤204、显示设备基于摄像头采集到的图像确定与该第一视频帧匹配的跟学图像。

若显示设备确定待播放的首个音频帧为第一视频帧，则可以基于摄像头的采样率、动作教学视频的帧率和摄像头采集到的图像，确定与第一视频帧匹配的跟学图像。

在本申请实施例中，若摄像头的采样率与动作教学视频的帧率相同，则显示设备可以直接从摄像头采集到的图像中确定与第一视频帧匹配的跟学图像。若摄像头的采样率大于动作教学视频的帧率，则显示设备可以对摄像头在目标时段内采集的多帧图像进行抽帧处理，得到与第一视频帧匹配的跟学图像。若摄像头的采样率小于动作教学视频的帧率，则显示设备可以对摄像头在目标时段内采集的多帧图像进行插帧处理，得到与第一视频帧匹配的跟学图像。

其中，第一视频帧的播放时刻位于目标时段内，第一视频帧的播放时刻等于在接收到跟学指令后摄像头开始采集图像的时刻与第一视频帧的时间戳之和。

由于本申请实施例提供的显示设备可以在摄像头的采样率与动作教学视频的帧率不同时，对摄像头采集到的图像进行抽帧或插帧处理，因此可以使得播放的合成视频帧能够与动作教学视频的每一视频帧一一对应，即在整个播放过程中使得目标视频的帧率与动作教学视频的帧率保持一致，从而可以无需调整动作教学视频的音频不变，一方面提高了音频资源的利用率，另一方面降低了显示设备的开销。其中，目标视频是指由合成视频帧组成的视频。

在本申请实施例中，显示设备可以周期性的读取动作教学视频中多个视频帧，以及摄像头采集到的图像。显示设备每次读取到的多个视频帧中第一个视频帧的时间戳与最后一个视频帧的时间戳之间的第一时间差，等于每次读取到多帧图像中的第一帧图像的采集时刻与最后一帧图像的采集时刻之间的第二时间差。并且，显示设备同一次读取到的多个视频帧中第一个视频帧的播放时刻，与读取到的多帧图像中第一帧图像的采集时刻相等。其中，第一时间差可以为1秒(S)。

基于此，若摄像头的采样率与动作教学视频的帧率相同，则显示设备在同一次读取到的多个视频帧可与读取到的摄像头采集到的多帧图像一一对应，因此显示设备可以将每个视频帧对应的一帧图像，确定为与该视频帧匹配的跟学图像。若摄像头的采样率大于动作教学视频的帧率，则显示设备在同一次读取的摄像头采集到的多帧图像的数目，大于读取的多个视频帧的数目，因此显示设备可以对该多帧图像进行抽帧处理，以得到与多个视频帧一一对应的图像，继而确定与每个视频帧匹配的跟学图像。

若摄像头的采样率小于动作教学视频的帧率，则显示设备在同一次读取的摄像头采集到的多帧图像的数目，小于读取的多个视频帧的数目，因此显示设备可以对该多帧图像进行插帧处理，以得到与多个视频帧一一对应的图像，继而确定与每个视频帧匹配的跟学图像。

步骤205、显示设备从与第一视频帧匹配的跟学图像中获取跟学对象的子图像。

其中，跟学对象的个数可以为一个或多个。

在本申请实施例中，显示设备在从跟学图像中获取跟学对象的子图像之前，可以先确定跟学对象。在一种可选的实现方式中，显示设备可以将跟学图像中包括的至少一个对象中的每个对象均确定为一个跟学对象。

在另一种可选的实现方式中，摄像头采集到第一帧图像后，显示设备可以在交互列表中显示从该第一帧图像中识别出的人脸子图像。之后，显示设备可以响应于用户针对该交互列表中目标人脸子图像的选择操作，将目标人脸子图像所属的对象确定为跟学对象。

在又一种可选的实现方式中，显示设备可以检测跟学图像中包括的人脸的个数。若显示设备确定跟学图像包括一个人脸，则可以确定跟学图像中存在一个第二备选对象，则可以直接将该第二备选对象确定为跟学对象。若显示设备确定跟学图像包括多个人脸，则可以确定跟学图像中存在多个第二备选对象，则可以获取摄像头在该跟学图像之前采集到的至少一帧历史图像。之后，对于多个第二备选对象中的每个第二备选对象，显示设备若确定该第二备选对象的肢体姿态在至少一帧历史图像和跟学图像中发生变化，则将该第二备选对象确定为一个跟学对象。

在本申请实施例中，对于多个第二备选对象中的每个第二备选对象，显示设备可以从每帧历史图像和跟学图像中识别出该第二备选对象的子图像。该子图像可以包括多个肢体特征点。之后，对于多个肢体特征点中的任意两个肢体特征点，显示设备若确定该任意两个肢体特征点，至少一帧历史图像和跟学图像中的任意相邻的两帧图像中的距离不同，则可以确定第二备选对象的肢体姿态发生变化。

步骤206、显示设备将第一视频帧中的目标教学对象的子图像，以与第一视频帧匹配的跟学图像中跟学对象的子图像合成在目标背景图像上，得到第一合成视频帧。

在本申请实施例中，目标背景图像中标记有目标教学对象的第一合成位置，以及跟学对象的第二合成位置。显示设备可以将目标教学对象的子图像合成在目标背景图像中的第一合成位置上，并将跟学对象合成在目标背景图像的第二合成位置上，得到第一合成视频帧。其中，第一合成位置与第二合成位置不同。

由此可见，本申请实施例提供的方法能够在显示目标教学对象的子图像的同时，还可以显示跟学对象的子图像。即可以同步显示动作教学视频和实时练习画面。如此，有效提高了运动教学的灵活性。并且，可以使得跟学目标教学对象的动作的对象直观的看到自己的动作与动作教学视频中的目标教学对象的规范动作的差距，以提高自身的学习效果，因此用户体验较好。此外，由于能够在一个背景图像中，显示每个目标教学对象的子图像，以及每个跟学对象的子图像。如此，一方面进一步提高了显示设备的显示灵活性；另一方面，可以避免动作教学视频的背景图像与摄像头采集的实时跟学图像的背景图像不一致，从而容易分散跟学者的注意力的问题，继而可以确保跟学者的沉浸式跟学体验。

可选的，目标背景图像可以为第一视频帧的背景图像。或者，目标背景图像可以为显示设备中存储的新的背景图像，该背景图像与动作教学视频中的任一视频帧的背景图像可以不同。

在得到第一合成视频帧之前，显示设备可以基于跟学图像中包括的跟学对象的第一个数，以及第一视频帧中包括的目标教学对象的第二个数，从多个备选背景图像中确定与第一个数以及第二个数对应的目标背景图像。

其中，各个备选背景图像标记的目标教学对象的子图像的第一合成位置可以相同，也可以不同。各个备选背景图像标记的任一跟学对象的子图像的第二合成位置可以相同，也可以不同。

由此可见，对于不同数量的目标教学对象，以及不同数量的跟学对象，显示设备均能够选择合适的背景图像，以将每个目标教学对象的子图像和每个跟学对象的子图像合成在该背景图像中。即本申请提供的方法支持多人跟学。如此，进一步提高了显示设备的显示灵活性。

例如，图5示出了一种目标教学对象的个数、跟学对象的个数与背景图像的对应关系。从图5可以看出，若目标教学对象的个数为1，跟学对象的个数为1，则显示设备将目标教学对象的子图像合成在图5中第二行所示背景图像中的黑色圆所在位置处，并可以将跟学对象的子图像合成在该背景图像中的白色圆所在位置处。

若目标教学对象的个数为1，跟学对象的个数为3，则显示设备将目标教学对象的子图像合成在图5中第四行所示背景图像中的黑色圆所在位置处，并可以将第一个跟学对象的子图像合成在该背景图像中的第一个白色圆所在位置处，将第二个跟学对象的子图像合成在该背景图像中的第二个白色圆所在位置处，将第三个跟学对象的子图像合成在该背景图像中的第三个白色圆所在位置处。

可选的，在合成第一合成视频帧之前，显示设备检测与第一视频帧匹配的跟学图像的分辨率，与第一视频帧的分辨率是否相同。若显示设备确定该跟学图像分辨率与第一视频帧的分辨率相同，则可以直接对该跟学图像进行处理(例如人体识别处理)，以得到跟学对象的子图像，并将第一视频帧中的目标教学对象的子图像，以及该跟学对象的子图像合成在目标背景图像中。

若显示设备确定该跟学图像的分辨率与第一视频帧的分辨率不同，则可以调整该跟学图像的分辨率，以使调整后的跟学图像的分辨率与第一视频帧的分辨率相同。之后，再将第一视频帧中的目标教学对象的子图像，与调整后的跟学图像中的跟学对象的子图像合成在目标背景图像中。如此，可以在保持动作教学视频的属性(例如分辨率)不变的前提下，使得目标教学对象的子图像的分辨率和跟学对象的子图像的分辨率一致，从而可以确保第一合成视频帧的显示效果较好。其中，第一视频帧的分辨率以及跟学图像的分辨率均是显示设备预先存储的。

在本申请实施例中，若与第一视频帧匹配的跟学图像的分辨率大于第一视频帧的分辨率，则显示设备可以通过对跟学图像进行抽值操作，以降低跟学图像的分辨率。若跟学图像的分辨率小于第一视频帧的分辨率，则显示设备可以通过对跟学图像进行插值操作，以提高跟学图像的分辨率。

步骤207、显示设备播放第一合成视频帧。

显示设备得到第一合成视频帧后，即可在其显示屏中播放该第一合成视频帧。

在本申请实施例中，显示设备在播放第一合成视频帧的过程中，还可以播放动作教学视频的音频。例如，显示设备在播放第一合成视频帧时，播放该第一合成视频帧对应的音频帧。第一合成视频帧对应的音频帧是指：第一合成视频帧中的目标教学对象的子图像所属第一视频帧对应的音频帧。

可以理解的是，对于不同数量的跟学对象，显示设备能够基于跟学对象的数量自适应的调整目标教学对象的子图像的尺寸的大小，以及每个跟学对象的尺寸的大小，以使合成得到的第一合成视频帧包括该目标教学对象的子图像，以及每个跟学对象的子图像，从而可以确保每个跟学对象均可以直观的看到自身的跟学画面，跟学对象的用户体验较好。

示例的，假设目标教学对象的个数为1，跟学对象的个数为1，数量与背景图像的对应关系如图5所示，则显示设备显示的第一合成视频帧可以如图6所示。

假设目标教学对象的个数为1，跟学对象的个数为2，则显示设备显示的第一合成视频帧可以如图7所示。

步骤208、显示设备基于摄像头采集到的图像确定与第二视频帧匹配的跟学图像。

若显示设备确定待播放的首个音频帧对应的视频帧为第二视频帧，则基于摄像头采集到的图像确定与第二视频帧匹配的跟学图像。

其中，显示设备基于摄像头采集到的图像确定与第二视频帧匹配的跟学图像的实现方式，可以参考上述步骤204中基于摄像头采集到的图像确定与第一视频帧匹配的跟学图像的实现过程，本申请实施例在此不再赘述。

步骤209、显示设备将第二视频帧，以及与第二视频帧匹配的跟学图像中的跟学对象的子图像合成在目标背景图像上，得到第二合成视频帧。

显示设备可以将第二视频帧合成在目标背景图像中的第三合成位置，并可以将与第二视频帧匹配的跟学图像中的跟学对象的子图像合成在目标背景图像中的第四合成位置，得到第二合成视频帧。其中，第三合成位置与第四合成位置不同。

示例的，假设第二视频帧为图8所示的视频帧，跟学对象的个数为2，则媒体播放设备合成的第二合成视频帧如图8所示。

从图8可以看出，第二合成视频帧的一侧区域(如图8所示的左侧区域)可以包括第二视频帧，另一侧区域(如图8所示的右侧区域)可以包括每个跟学对象的子图像。

步骤210、显示设备播放第二合成视频帧。

显示设备得到第一合成视频帧后，即可在其显示屏中显示该第一合成视频帧。

根据步骤201至步骤210可知，本申请实施例提供的方法是将动作教学视频中的第一视频帧的目标教学对象的子图像与跟学对象的子图像合成并播放，以及将第二视频帧与跟学对象的子图像合成并播放。即本申请实施例提供的方法可以在提高运动教学的灵活性的前提下，可以避免改变动作教学视频，从而可以确保动作教学视频的正常播放。

需要说明的是，本申请实施例提供的视频播放方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减。例如，步骤208至步骤210也可以根据情况删除。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

本申请实施例提供了一种视频播放方法，由于能够将动作教学视频包括的第一视频帧中的目标教学对象的子图像，以及与第一视频帧匹配的跟学图像包括的跟学对象的子图像合成得到第一合成视频帧后再进行显示，即能够在显示目标教学对象的子图像的同时，显示跟学对象的子图像，从而提高了运动教学的灵活性。并且，由于目标教学对象的子图像，以及跟学对象的子图像合成在一个目标背景图像上，即能够在一个背景图像中显示目标教学对象的子图像，以及跟学对象的子图像，因此提高了显示设备的显示灵活性。

本申请实施例还提供了一种显示设备，该显示设备包括：处理器；处理器用于：

响应于针对动作教学视频的跟学指令，获取动作教学视频包括的第一视频帧中的目标教学对象的子图像；

基于摄像头采集到的图像确定与第一视频帧匹配的跟学图像，并从跟学图像中获取跟学对象的子图像；

将目标教学对象的子图像与跟学对象的子图像合成在目标背景图像上，得到第一合成视频帧，其中，目标教学对象的子图像和跟学对象的子图像在目标背景图像上的合成位置，基于目标教学对象的个数和跟学对象的个数确定；

播放第一合成视频帧。

可选的，该处理器还可以用于：

若动作教学视频包括多个第一备选对象，则对于每个第一备选对象，若基于从第一备选对象的多个参考视频帧中，识别出的第一备选对象的人脸子图像，确定第一备选对象的唇部状态在多个参考视频帧中发生变化，则将第一备选对象确定为目标教学对象，并将多个视频帧中包括目标对象的人脸子图像的视频帧确定为第一视频帧；

其中，第一备选对象的每个参考视频帧均包括第一备选对象的人脸子图像。

可选的，该处理器可以用于：

若第一备选对象的唇部状态在多个参考视频帧中发生变化的次数大于次数阈值，则将第一备选对象确定为目标教学对象。

可选的，人脸子图像包括多个唇部特征点；处理器还用于：

对于每个第一备选对象，若第一备选对象的任意两个唇部特征点之间的距离，在相邻两个参考视频帧中不同，则确定第一备选对象的唇部状态在相邻两个参考视频帧中发生变化。

可选的，该处理器可以用于：

按照目标采样率对多个参考视频帧进行采样，得到多个采样帧；

从每个采样帧中识别出第一备选对象的多个人脸子图像。

可选的，目标背景图像中标记有目标教学对象的第一合成位置，以及跟学对象的第二合成位置。该处理器可以用于：

将目标教学对象的子图像合成在目标背景图像中的第一合成位置上，并将跟学对象合成在目标背景图像中的第二合成位置上，得到第一合成视频帧。

可选的，该处理器还可以用于：基于跟学图像中包括的跟学对象的第一个数，以及第一视频帧中包括的目标教学对象的第二个数，从多个备选背景图像中确定与第一个数和第二个数对应的目标背景图像。

可选的，该处理器可以用于：

获取跟学图像的分辨率；

若跟学图像的分辨率与第一视频帧的分辨率不同，则调整跟学图像，调整后的跟学图像的分辨率与第一视频帧的分辨率相同；

从调整后的跟学图像中获取跟学对象的子图像。

可选的，该处理器还可以用于：

在播放第一合成视频帧的过程中，播放动作教学视频的音频。

可选的，该处理器还可以用于：

若跟学图像中存在多个第二备选对象，则获取摄像头在跟学图像之前采集到的至少一帧历史图像；

对于多个第二备选对象中的每个第二备选对象，若第二备选对象的肢体姿态在至少一帧历史图像和跟学图像中发生变化，则将第二备选对象确定为跟学对象。

可选的，该处理器还可以用于：

响应于针对动作教学视频的跟学指令，获取动作教学视频包括的第二视频帧，并从与第二视频帧匹配的跟学图像中获取跟学对象的子图像，第二视频帧为不包括目标教学对象的视频帧；

将第二视频帧，以及与第二视频帧匹配的跟学图像中的跟学对象的子图像合成在目标背景图像上，得到第二合成视频帧；

播放第二合成视频帧。

可选的，该处理器还可以用于：

若摄像头的采样率大于动作教学视频的帧率，则对于每个第一视频帧，对摄像头在目标时段内采集到的多帧图像进行抽帧处理，得到与第一视频帧匹配的跟学图像，第一视频帧的播放时刻位于目标时段内；

若摄像头的采样率小于动作教学视频的帧率，则对于每个第一视频帧，对摄像头在目标时段内采集的多帧图像进行插帧处理，得到与第一视频帧匹配的跟学图像。

综上所述，本申请实施例提供了一种显示设备，该显示设备能够将动作教学视频包括的第一视频帧中的目标教学对象的子图像，以及与第一视频帧匹配的跟学图像包括的跟学对象的子图像合成得到第一合成视频帧后再进行显示，即能够在显示目标教学对象的子图像的同时，显示跟学对象的子图像，从而提高了运动教学的灵活性。并且，由于目标教学对象的子图像，以及跟学对象的子图像合成在一个目标背景图像上，即能够在一个背景图像中显示目标教学对象的子图像，以及跟学对象的子图像，因此提高了显示设备的显示灵活性。

本申请实施例提供了一种显示设备，该显示设备可以包括存储器，处理器及存储在该存储器上并可在该处理器上运行的计算机程序，该处理器执行该计算机程序时实现如上述实施例提供的视频播放方法，例如图1或图2所示的方法。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序由处理器加载并执行以上述实施例提供的视频播放方法，例如图1或图2所示的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述方法实施例提供的视频播放方法，例如图1或图2所示的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

应当理解的是，在本文中提及的“和/或”，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。并且，本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。例如，在不脱离各种所述示例的范围的情况下，第一个数可以被称为第二个数，并且类似地，第二个数可以被称为第一个数。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种显示设备，其特征在于，所述显示设备包括：处理器；所述处理器用于：

播放所述第一合成视频帧；

所述处理器还用于：

若所述动作教学视频包括多个第一备选对象，则对于每个所述第一备选对象，若基于从所述第一备选对象的多个参考视频帧中，识别出的所述第一备选对象的人脸子图像，确定所述第一备选对象的唇部状态在所述多个参考视频帧中发生变化，则将所述第一备选对象确定为所述目标教学对象，并将所述多个参考视频帧中包括所述目标教学对象的人脸子图像的视频帧确定为所述第一视频帧；

其中，所述第一备选对象的每个所述参考视频帧均包括所述第一备选对象的人脸子图像。

2.根据权利要求1所述的显示设备，其特征在于，所述处理器用于：

若所述第一备选对象的唇部状态在所述多个参考视频帧中发生变化的次数大于次数阈值，则将所述第一备选对象确定为所述目标教学对象。

3.根据权利要求1所述的显示设备，其特征在于，所述人脸子图像包括多个唇部特征点；所述处理器还用于：

对于每个所述第一备选对象，若所述第一备选对象的任意两个唇部特征点之间的距离，在相邻两个参考视频帧中不同，则确定所述第一备选对象的唇部状态在所述相邻两个参考视频帧中发生变化。

4.根据权利要求1至3任一所述的显示设备，其特征在于，所述目标背景图像中标记有所述目标教学对象的第一合成位置，以及所述跟学对象的第二合成位置；所述处理器用于：

将所述目标教学对象的子图像合成在所述目标背景图像中的所述第一合成位置上，并将所述跟学对象的子图像合成在所述目标背景图像中的所述第二合成位置上，得到第一合成视频帧。

5.根据权利要求4所述的显示设备，其特征在于，所述处理器还用于：

基于所述跟学图像中包括的跟学对象的第一个数，以及所述第一视频帧中包括的目标教学对象的第二个数，从多个备选背景图像中确定与所述第一个数和所述第二个数对应的目标背景图像。

6.根据权利要求1至3任一所述的显示设备，其特征在于，所述处理器还用于：

若所述跟学图像中存在多个第二备选对象，则获取所述摄像头在所述跟学图像之前采集到的至少一帧历史图像；

对于所述多个第二备选对象中的每个第二备选对象，若所述第二备选对象的肢体姿态在所述至少一帧历史图像和所述跟学图像中发生变化，则将所述第二备选对象确定为所述跟学对象。

7.根据权利要求1至3任一所述的显示设备，其特征在于，所述处理器还用于：

响应于针对动作教学视频的跟学指令，获取所述动作教学视频包括的第二视频帧，并从与所述第二视频帧匹配的跟学图像中获取所述跟学对象的子图像，所述第二视频帧为不包括所述目标教学对象的视频帧；

播放所述第二合成视频帧。

8.根据权利要求1至3任一所述的显示设备，其特征在于，所述处理器还用于：

9.一种视频播放方法，其特征在于，应用于显示设备；所述方法包括：

播放所述第一合成视频帧；

所述方法还包括：