CN114885210A

CN114885210A - 教程视频处理方法、服务器及显示设备

Info

Publication number: CN114885210A
Application number: CN202210429426.3A
Authority: CN
Inventors: 许丽星; 于仲海; 刘鹏; 王昕�
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-08-09
Anticipated expiration: 2042-04-22
Also published as: CN114885210B

Abstract

本申请公开了一种教程视频处理方法、服务器及显示设备，属于视频处理技术领域。所述方法包括：从教程视频中确定目标示范对象的人像集合，获取该人像集合中各个目标人像区域对应的动作分析率，基于该人像集合、各个目标人像区域对应的帧序号和动作分析率，确定目标示范对象的候选人像子集合，基于候选人像子集合，确定目标示范对象的教程视频片段。本申请通过目标示范对象的人像集合中每个目标人像区域对应的帧序号和动作分析率，从该人像集合中确定目标示范对象的候选人像子集合。由于候选人像子集合包括对应的帧序号连续的目标人像区域，即候选人像子集合包括教程视频中连续出现目标示范对象的视频帧中的目标人像区域。

Description

教程视频处理方法、服务器及显示设备

技术领域

本申请涉及视频处理技术领域，特别涉及一种教程视频处理方法、服务器及显示设备。

背景技术

随着互联网技术的发展，用户可以根据终端播放的教程视频进行跟学。但是，在某些情况下，教程视频中示范对象的动作可以会被遮挡，从而导致用户无法进行连续跟学。此外，如果教程视频中同时显示多个示范对象，也会导致用户无法专注的进行跟学，从而影响用户的跟学效率。因此，如何进行教程视频的处理成为目前亟待解决的问题。

发明内容

本申请提供了一种教程视频处理方法、服务器及显示设备，可以解决相关技术用户无法进行连续跟学的问题。所述技术方案如下：

一方面，提供了一种教程视频处理方法，所述方法包括：

从教程视频中确定目标示范对象的人像集合，所述人像集合包括多个目标人像区域，所述目标人像区域是指所述目标示范对象在所述教程视频的一个视频帧中的成像区域，所述目标人像区域对应一个帧序号，所述目标示范对象为所述教程视频包括的多个示范对象中的一个示范对象；

获取所述人像集合中各个目标人像区域对应的动作分析率，所述动作分析率用于指示所述目标示范对象的动作被识别的情况或者被遮挡的情况；

基于所述人像集合、所述各个目标人像区域对应的帧序号和动作分析率，确定所述目标示范对象的候选人像子集合，所述候选人像子集合包括所述人像集合中对应的帧序号连续的目标人像区域；

基于所述候选人像子集合，确定所述目标示范对象的教程视频片段。

另一方面，提供了一种教程视频处理装置，所述装置包括：

第一确定模块，用于从教程视频中确定目标示范对象的人像集合，所述人像集合包括多个目标人像区域，所述目标人像区域是指所述目标示范对象在所述教程视频的一个视频帧中的成像区域，所述目标人像区域对应一个帧序号，所述目标示范对象为所述教程视频包括的多个示范对象中的一个示范对象；

获取模块，用于获取所述人像集合中各个目标人像区域对应的动作分析率，所述动作分析率用于指示所述目标示范对象的动作被识别的情况或者被遮挡的情况；

第二确定模块，用于基于所述人像集合、所述各个目标人像区域对应的帧序号和动作分析率，确定所述目标示范对象的候选人像子集合，所述候选人像子集合包括所述人像集合中对应的帧序号连续的目标人像区域；

第三确定模块，用于基于所述候选人像子集合，确定所述目标示范对象的教程视频片段。

另一方面，提供了一种服务器，所述服务器包括处理器，所述处理器用于：

另一方面，提供了一种显示设备，所述显示设备包括显示器，所述显示器用于：

显示第一用户界面，所述第一用户界面包括教程视频中的多个示范对象的人物标识和跟学提示信息，所述跟学提示信息用于提示用户基于相应示范对象能够进行完整跟学还是片段跟学；

响应于所述用户的第一选择操作，显示第二用户界面，所述第二用户界面包括目标示范对象的教程视频片段的片段信息，所述第一选择操作用于从所述多个示范对象中选择所述目标示范对象，所述目标示范对象为所述多个示范对象中的一个示范对象，所述教程视频片段是基于帧序号连续的目标人像区域生成，所述目标人像区域是指所述目标示范对象在所述教程视频的一个视频帧中的成像区域，所述目标人像区域对应一个帧序号；

响应于所述用户的第二选择操作，显示目标教程视频片段，所述第二选择操作用于从所述目标示范对象的教程视频片段中选择所述目标教程视频片段。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述教程视频处理方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得计算机执行上述所述的教程视频处理方法的步骤。

本申请提供的技术方案至少可以带来以下有益效果：

本申请通过目标示范对象的人像集合中每个目标人像区域对应的帧序号和动作分析率，从该人像集合中确定目标示范对象的候选人像子集合。由于候选人像子集合包括对应的帧序号连续的目标人像区域，即候选人像子集合包括教程视频中连续出现目标示范对象的视频帧中的目标人像区域，且这些目标人像区域中目标示范对象的动作基本都能被识别或者基本都未被遮挡。所以，通过候选人像子集合确定目标示范对象的教程视频片段之后，该教程视频片段中的各个视频帧也是连续的，而且目标示范对象的动作基本都未被遮挡。这样，将该教程视频片段呈现给用户之后，用户可以跟着目标示范对象的动作进行连续学习，从而提高用户的跟学效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构的示意图；

图2是本申请实施例提供的一种服务器的结构示意图；

图3是本申请实施例提供的一种教程视频处理方法的流程图；

图4是本申请实施例提供的一种教程视频的示意图；

图5是本申请实施例提供的一种目标示范对象的教程视频片段的示意图；

图6是本申请实施例提供的另一种教程视频的示意图；

图7是本申请实施例提供的另一种目标示范对象的教程视频片段的示意图；

图8是本申请实施例提供的一种第一用户界面的示意图；

图9是本申请实施例提供的一种第二用户界面的示意图；

图10是本申请实施例提供的一种显示设备的结构示意图；

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的教程视频处理方法进行详细地解释说明之前，先对本申请实施例提供的系统架构进行介绍。

请参考图1，图1是根据一示例性实施例示出的一种教程视频处理系统的架构示意图。该系统包括服务器101和显示设备102，服务器101可以与显示设备102进行通信连接。该通信连接可以为有线或者无线连接，本申请实施例对此不做限定。

服务器101用于从教程视频中确定目标示范对象的人像集合，并获取该人像集合中各个目标人像区域对应的动作分析率。然后，基于该人像集合、该人像集合中各个目标人像区域对应的帧序号和动作分析率，确定目标示范对象的候选人像子集合，并基于候选人像子集合，确定目标示范对象的教程视频片段。

服务器101还用于向显示设备102发送目标示范对象的教程视频片段，显示设备102用于接收服务器101发送的目标示范对象的教程视频片段，并显示目标示范对象的教程视频片段。

请参考图2，服务器101可以包括教程视频管理服务、教程视频处理服务、教程视频发送服务和数据存储服务。教程视频管理服务用于管理教程视频的属性信息，该属性信息包括视频标识、视频总时长、视频分辨率、视频存储地址、文件类型、内容类别等。教程视频处理服务用于从教程视频中确定目标示范对象的人像集合，并获取该人像集合中各个目标人像区域对应的动作分析率。然后，基于该人像集合、该人像集合中各个目标人像区域对应的帧序号和动作分析率，确定目标示范对象的候选人像子集合，并基于候选人像子集合，确定目标示范对象的教程视频片段。教程视频发送服务用于将目标示范对象的教程视频片段发送给显示设备102。数据存储服务用于存储教程视频和目标示范对象的教程视频片段。

视频标识用于唯一标识教程视频，该视频标识可以是教程视频的编号、日期以及名称等等，或者通过这些信息进行组合得到。文件类型是指教程视频的视频格式，例如，教程视频为MP4格式的视频。内容类别是指教程视频的内容所属的类别，例如，教程视频为舞蹈视频。

其中，服务器101可以是一台独立的服务器，也可以是由多台物理服务器组成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是一个云计算服务中心。

显示设备102可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、掌上电脑PPC(Pocket PC)、平板电脑、智能电视等。

本领域技术人员应能理解上述服务器101和显示设备102仅为举例，其他现有的或今后可能出现的服务器或显示设备如可适用于本申请实施例，也应包含在本申请实施例保护范围以内，并在此以引用方式包含于此。

需要说明的是，本申请实施例描述的系统架构是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

接下来对本申请实施例提供的教程视频处理方法进行详细地解释说明。

图3是本申请实施例提供的一种教程视频处理方法的流程图，请参考图3，该方法包括如下步骤。

步骤301：服务器从教程视频中确定目标示范对象的人像集合，该人像集合包括多个目标人像区域，目标人像区域是指目标示范对象在教程视频的一个视频帧中的成像区域，目标人像区域对应一个帧序号，目标示范对象为教程视频包括的多个示范对象中的一个示范对象。

服务器确定教程视频包括的多个视频帧中每个视频帧对应的人脸集合和人像集合，以得到多个人脸集合和多个人像集合，进而按照相关算法对该多个人脸集合包括的人脸区域进行聚类，以得到各个示范对象的人脸集合。然后，基于各个示范对象的人脸集合，将该多个人像集合包括的人像区域进行聚类，以得到各个示范对象的人像集合。服务器从各个示范对象的人像集合中选择一个示范对象的人像集合，将选择的人像集合确定为目标示范对象的人像集合。

在一些实施例中，服务器确定教程视频包括的多个视频帧中每个视频帧对应的人脸集合和人像集合的实现过程包括：对于该多个视频帧中的任一视频帧，服务器对该任一视频帧进行人脸检测，以得到该任一视频帧对应的人脸集合，该人脸集合包括该任一视频帧中各个示范对象的人脸区域。然后，服务器对该任一视频帧进行人像分割，以得到该任一视频帧对应的人像集合，该人像集合包括该任一视频帧中各个示范对象的人像区域。

步骤302：服务器获取该人像集合中各个目标人像区域对应的动作分析率，动作分析率用于指示目标示范对象的动作被识别的情况或者被遮挡的情况。

在一些实施例中，对于该人像集合中的任一目标人像区域，对该任一目标人像区域进行骨骼关键点检测，基于目标示范对象的骨骼关键点的检测结果，确定该任一目标人像区域对应的动作分析率。

由于动作分析率用于指示目标示范对象的动作被识别的情况或者被遮挡的情况，在不同的情况下，基于目标示范对象的骨骼关键点的检测结果，确定该任一目标人像区域对应的动作分析率的过程有所不同，因此接下来将分为以下两种情况分别进行介绍。

第一种情况，动作分析率用于指示目标示范对象的动作被识别的情况。此时，服务器可以基于目标对象的骨骼关键点的检测结果确定未被遮挡的骨骼关键点(也称为是被识别的骨骼关键点)的数量，将未被遮挡的骨骼关键点的数量除以骨骼关键点总数，以得到该任一目标人像区域对应的动作分析率。

其中，骨骼关键点总数是指在示范对象未被遮挡的情况下，该示范对象具有的所有骨骼关键点的数量。比如对于人体来说，在人体未被遮挡的情况下，该人体具有32个骨骼关键点。

服务器对目标人像区域进行骨骼关键点检测之后，得到的检测结果包括目标示范对象的骨骼关键点坐标。该骨骼关键点坐标可能包括目标示范对象的所有骨骼关键点坐标，也可能只包括目标示范对象的部分骨骼关键点坐标。在不同的情况下，服务器基于目标示范对象的骨骼关键点的检测结果确定未被遮挡的骨骼关键点的数量的过程有所不同，因此接下来将分别进行介绍。

情况1，目标人像区域的骨骼关键点的检测结果包括目标示范对象的所有骨骼关键点坐标。即，在目标示范对象的所有骨骼关键点均未被遮挡的情况下，服务器通过对目标人像区域进行骨骼关键点检测，得到目标示范对象的所有骨骼关键点的坐标。在目标示范对象的部分骨骼关键点被遮挡的情况下，服务器通过对目标人像区域进行骨骼关键点检测，可以得到目标示范对象未被遮挡的骨骼关键点的实际坐标，还可以预测目标示范对象被遮挡的骨骼关键点的坐标，从而得到目标示范对象的所有骨骼关键点的坐标。换句话说，在这种情况下，不管目标示范对象的骨骼关键点是否被遮挡，该骨骼关键点检测算法输出的结果均为所有骨骼关键点坐标。此时，服务器需要基于所有骨骼关键点坐标，确定未被遮挡的骨骼关键点的数量。

由于被遮挡的骨骼关键点的坐标是服务器预测的，通常为事先设置的默认值，未被遮挡的骨骼关键点的坐标是服务器真实确定的。所以，服务器可以基于各个骨骼关键点的坐标确定未被遮挡的骨骼关键点的数量。

情况2，目标人像区域的骨骼关键点的检测结果包括目标示范对象的部分骨骼关键点坐标。即，在目标示范对象的部分骨骼关键点被遮挡的情况下，服务器通过对目标人像区域进行骨骼关键点检测，只能得到目标示范对象未被遮挡的骨骼关键点的坐标。此时，服务器可以直接统计得到的骨骼关键点坐标的数量，将其作为未被遮挡的骨骼关键点的数量。

上述是以服务器对目标人像区域进行骨骼关键点检测之后，得到的检测结果包括目标示范对象的骨骼关键点坐标为例进行介绍。在另一些实施例中，该骨骼关键点的检测结果也可能包括其他的内容，比如，骨骼关键点的标签，该标签用于指示骨骼关键点被遮挡或者未被遮挡。这样，服务器可以直接基于各个骨骼关键点的标签，确定未被遮挡的骨骼关键点的数量。进而将未被遮挡的骨骼关键点的数量除以骨骼关键点总数，以得到该任一目标人像区域对应的动作分析率。

第二种情况，动作分析率用于指示目标示范对象的动作被遮挡的情况。此时，服务器可以基于目标对象的骨骼关键点的检测结果，确定被遮挡的骨骼关键点的数量，将被遮挡的骨骼关键点的数量除以骨骼关键点总数，以得到该任一目标人像区域对应的动作分析率。

基于目标对象的骨骼关键点的检测结果，确定被遮挡的骨骼关键点的数量的实现过程，与基于目标示范对象的骨骼关键点的检测结果确定未被遮挡的骨骼关键点的数量的过程类似，不同点在于，在检测到未被遮挡的骨骼关键点的坐标之后，可以将骨骼关键点总数减去未被遮挡的骨骼关键点的坐标数量，以得到被遮挡的骨骼关键点的数量。

以上内容是以服务器确定出目标示范对象的人像集合之后，统一对该人像集合中各个目标人像区域进行骨骼关键点检测，进而确定各个目标人像区域对应的动作分析率为例。当然，在另一些实施例中，服务器还可以通过其他的方式获取该人像集合中各个目标人像区域对应的动作分析率。示例地，在服务器对教程视频包括的多个视频帧中的任一视频帧进行人像分割之后，可以直接对该任一视频帧中各个人像区域进行骨骼关键点检测，进而确定各个人像区域对应的动作分析率，即服务器在进行人像检测的过程中，实时地确定该任一视频帧中各个人像区域对应的动作分析率，并存储各个人像区域对应的动作分析率。这样，在服务器确定出目标对象的人像集合之后，可以直接从存储的各个人像区域对应的动作分析率中，获取各个目标人像区域对应的动作分析率。

在一些实施例中，服务器在确定出该任一视频帧中各个人像区域对应的动作分析率之后，可以将各个人像区域在该任一视频帧中的坐标范围与动作分析率存储至坐标范围与动作分析率之间的对应关系中。这样，在服务器确定出目标对象的人像集合之后，该人像集合中每个目标人像区域还对应有一个坐标范围，该坐标范围为目标人像区域在所处视频帧中的坐标范围，服务器可以基于该人像集合包括的目标人像区域对应的坐标范围，从坐标范围与动作分析率之间的对应关系中，获取各个目标人像区域对应的动作分析率。

需要说明的是，在某些情况下，由于示范对象的走位和造型等原因，导致某一视频帧中可能不存在某个示范对象的人像区域。所以，服务器无法按照上述方法对人像区域进行骨骼关键点检测，也就无法得到某个示范对象的未被遮挡的骨骼关键点的坐标或者被遮挡的骨骼关键点的坐标，进而无法按照上述方式确定该人像区域对应的动作分析率。此时，在动作分析率用于指示目标示范对象的动作被识别的情况时，服务器可以默认该视频帧中该人像区域对应的动作分析率为0。在动作分析率用于指示目标示范对象的动作被遮挡的情况时，服务器可以默认该视频帧中该人像区域对应的动作分析率为1。

步骤303：服务器基于该人像集合、该人像集合中各个目标人像区域对应的帧序号和动作分析率，确定目标示范对象的候选人像子集合，候选人像子集合包括该人像集合中对应的帧序号连续的目标人像区域。

由于该人像集合中各个目标人像区域对应的帧序号可能均连续，也可能存在不连续。在不同的情况下，服务器基于该人像集合、该人像集合中各个目标人像区域对应的帧序号和动作分析率，确定目标示范对象的候选人像子集合的过程有所不同，因此接下来将分别进行介绍。

第一种情况，该人像集合中各个目标人像区域对应的帧序号均连续。此时，服务器基于该人像集合以及各个目标人像区域对应的动作分析率，确定目标示范对象的候选人像子集合。

基于上文描述，动作分析率用于指示目标示范对象的动作被识别的情况或者被遮挡的情况。为了便于描述，接下来以动作分析率用于指示目标示范对象的动作被识别的情况为例进行介绍。

服务器将该人像集合中的各个目标人像区域对应的动作分析率取平均，以得到目标示范对象的平均动作分析率，在平均动作分析率高于分析率阈值的情况下，将该人像集合确定为目标示范对象的候选人像子集合。由于平均动作分析率与分析率阈值之间的关系用于表征目标示范对象的动作能够被识别的程度，如果在该人像集合中目标示范对象的平均动作分析率高于分析率阈值，则表明该人像集合中目标示范对象的动作基本均能被识别。因此，将该人像集合确定为目标示范对象的候选人像子集合。

其中，分析率阈值是事先设置的。而且，分析率阈值还可以按照不同的需求来调整。

在一些实施例中，目标示范对象的平均动作分析率也可能低于分析率阈值。此时，服务器将该人像集合中帧序号小于参考帧序号的目标人像区域划分至同一个子集合，将该人像集合中帧序号大于参考帧序号的目标人像区域划分至同一个子集合，以得到两个参考人像子集合，参考帧序号是指该人像集合中最小动作分析率对应的目标人像区域的帧序号。然后，服务器基于该两个参考人像子集合以及每个参考人像子集合中各个目标人像区域对应的动作分析率，确定目标示范对象的候选人像子集合。

也即是，如果在该人像集合中目标示范对象的平均动作分析率低于分析率阈值，则表明该人像集合中存在目标示范对象的动作不能被识别的目标人像区域，或者说，该人像集合中存在目标示范对象的动作基本都被遮挡的目标人像区域。为了避免服务器最终确定出的目标示范对象的教程视频片段中存在目标示范对象的动作不能被识别的情况，需要从各个目标人像区域对应的动作分析率中筛选出最小的动作分析率，将最小动作分析率对应的目标人像区域的帧序号确定为参考帧序号，并将最小动作分析率对应的目标人像区域从该人像集合中筛除。然后，将该人像集合中帧序号小于参考帧序号的目标人像区域划分至同一个子集合，将该人像集合中帧序号大于参考帧序号的目标人像区域划分至同一个子集合，以得到两个参考人像子集合。

对于该两个参考人像子集合中的任一参考人像子集合，服务器将该任一参考人像子集合中的各个目标人像区域对应的动作分析率取平均，以得到目标示范对象的平均动作分析率，在平均动作分析率高于分析率阈值的情况下，将该任一参考人像子集合确定为目标示范对象的候选人像子集合。在平均动作分析率低于分析率阈值的情况下，重新按照上述方法将该任一参考人像子集合再次划分为两个子集合。对于再次划分得到的两个子集合中的任一子集合，服务器重新执行上述步骤，直至最终确定出的目标示范对象的候选人像子集合中的目标人像区域的平均动作分析率高于分析率阈值。

本申请实施例中，“高于”可以理解为大于，也可以理解为大于或等于。在“高于”理解为大于的情况下，“低于”可以理解为小于或等于。在“高于”理解为大于或等于的情况下，“低于”可以理解为小于。后续涉及的“高于”和“低于”都可以参考该解释。

接下来以动作分析率用于指示目标示范对象的动作被遮挡的情况为例进行介绍。即，服务器将该人像集合中的各个目标人像区域对应的动作分析率取平均，以得到目标示范对象的平均动作分析率，在平均动作分析率低于分析率阈值的情况下，将该人像集合确定为目标示范对象的候选人像子集合。由于平均动作分析率与分析率阈值之间的关系用于表征目标示范对象的动作能够被遮挡的程度，如果在该人像集合中目标示范对象的平均动作分析率低于分析率阈值，则表明该人像集合中目标示范对象的动作基本均未被遮挡。因此，将该人像集合确定为目标示范对象的候选人像子集合。

在一些实施例中，目标示范对象的平均动作分析率也可能高于分析率阈值。此时，服务器将该人像集合中帧序号小于参考帧序号的目标人像区域划分至同一个子集合，将该人像集合中帧序号大于参考帧序号的目标人像区域划分至同一个子集合，以得到两个参考人像子集合，参考帧序号是指该人像集合中最大动作分析率对应的目标人像区域的帧序号。然后，服务器基于该两个参考人像子集合以及每个参考人像子集合中各个目标人像区域对应的动作分析率，确定目标示范对象的候选人像子集合。

也即是，如果在该人像集合中目标示范对象的平均动作分析率高于分析率阈值，则表明该人像集合中存在目标示范对象的动作不能被识别的目标人像区域，或者说，该人像集合中存在目标示范对象的动作基本都被遮挡的目标人像区域。为了避免服务器最终确定出的目标示范对象的教程视频片段中存在目标示范对象的动作被遮挡的情况，需要从各个目标人像区域对应的动作分析率中筛选出最大的动作分析率，将最大动作分析率对应的目标人像区域的帧序号确定为参考帧序号，并将最大动作分析率对应的目标人像区域从该人像集合中筛除。然后，将该人像集合中帧序号小于参考帧序号的目标人像区域划分至同一个子集合，将该人像集合中帧序号大于参考帧序号的目标人像区域划分至同一个子集合，以得到两个参考人像子集合。

对于该两个参考人像子集合中的任一参考人像子集合，服务器将该任一参考人像子集合中的各个目标人像区域对应的动作分析率取平均，以得到目标示范对象的平均动作分析率，在平均动作分析率低于分析率阈值的情况下，将该任一参考人像子集合确定为目标示范对象的候选人像子集合。在平均动作分析率高于分析率阈值的情况下，重新按照上述方法将该任一参考人像子集合再次划分为两个子集合。对于再次划分得到的两个子集合中的任一子集合，服务器重新执行上述步骤，直至最终确定出的目标示范对象的候选人像子集合中的目标人像区域的平均动作分析率低于分析率阈值。

第二种情况，该多个目标人像区域对应的帧序号存在不连续。此时，服务器基于各个目标人像区域对应的帧序号，将该多个目标人像区域中对应的帧序号连续的目标人像区域划分至同一个子集合，以得到多个参考人像子集合。然后，服务器基于该多个参考人像子集合以及每个参考人像子集合中各个目标人像区域对应的动作分析率，确定目标示范对象的候选人像子集合。

其中，服务器基于该多个参考人像子集合以及每个参考人像子集合中各个目标人像区域对应的动作分析率，确定目标示范对象的候选人像子集合的过程与上述第一种情况中服务器将该人像集合划分为两个参考人像子集合之后，对于该两个参考人像子集合中的任一参考人像子集合确定目标示范对象的候选人像子集合的过程相似，所以，可以参考上述第一种情况的相关内容，此处不再赘述。

步骤304：服务器基于候选人像子集合，确定目标示范对象的教程视频片段。

在一些实施例中，服务器获取目标示范对象的动作相似度，动作相似度用于指示目标示范对象与教程视频中其他示范对象的动作是否一致，在动作相似度高于相似度阈值的情况下，按照候选人像子集合中各个目标人像区域对应的帧序号的大小顺序，将候选人像子集合中的各个目标人像区域填充至背景模板中，以得到目标示范对象的教程视频片段。

其中，相似度阈值是事先设置的。而且，相似度阈值还可以按照不同的需求来调整。

对于教程视频中出现目标示范对象的多个视频帧，服务器获取该多个视频帧中每个视频帧对应的平均相似度，该平均相似度用于指示同一视频帧中目标示范对象与其他示范对象之间的动作的平均相似度，将该多个视频帧对应的平均相似度取平均，以得到目标示范对象的动作相似度。

其中，服务器获取该多个视频帧中每个视频帧对应的平均相似度的实现过程包括：对于该多个视频帧中的任一视频帧，获取该任一视频帧中目标示范对象的骨骼关键点坐标，以及其他示范对象中每个示范对象的骨骼关键点坐标，按照相关算法确定目标示范对象的骨骼关键点坐标与其他示范对象中每个示范对象的骨骼关键点坐标之间的坐标相似度，以得到多个坐标相似度，进而将该多个坐标相似度取平均，以得到该任一视频帧对应的平均相似度。

基于上文描述，示范对象的骨骼关键点坐标可以是服务器确定出各个示范对象的人像集合之后，统一对某一示范对象的人像集合中的各个人像区域进行骨骼关键点检测，以得到某一示范对象在所有视频帧的骨骼关键点坐标。或者，还可以是服务器对任一视频帧进行人像分割之后，直接对该任一视频帧中各个人像区域进行骨骼关键点检测，以得到所有示范对象在该任一视频帧的骨骼关键点坐标。在骨骼关键点坐标是服务器统一确定的情况下，服务器将视频帧的帧序号、示范对象的人物标识以及骨骼关键点坐标对应存储，使得服务器可以基于该任一视频帧的帧序号，从帧序号、人物标识与骨骼关键点坐标之间的对应关系中，获取目标示范对象的骨骼关键点坐标，以及其他示范对象中每个示范对象的骨骼关键点坐标。然后，按照相关算法确定目标示范对象的骨骼关键点坐标与其他示范对象中每个示范对象的骨骼关键点坐标之间的坐标相似度，以得到该任一视频帧对应的多个坐标相似度。在骨骼关键点坐标是服务器实时确定的情况下，服务器直接按照相关算法确定目标示范对象的骨骼关键点坐标与其他示范对象中每个示范对象的骨骼关键点坐标之间的坐标相似度，以得到该任一视频帧对应的多个坐标相似度。

需要说明的是，由于各个示范对象的骨骼关键点坐标属于以各个示范对象的人像区域的某一点作为原点建立的坐标系，即各个示范对象的骨骼关键点坐标是属于不同的坐标系的。所以，在按照相关算法确定目标示范对象的骨骼关键点坐标与其他示范对象中每个示范对象的骨骼关键点坐标之间的坐标相似度之前，还需要对各个示范对象的骨骼关键点坐标进行归一化处理，使得归一化后的各个示范对象的骨骼关键点坐标均位于同一坐标范围内。

此外，基于上文描述，在某些情况下，由于示范对象的走位和造型等原因，导致某一视频帧中可能不存在某个示范对象的人像区域。所以，服务器无法确定该某个示范对象的骨骼关键点坐标。为了保证服务器能够获取该多个视频帧中每个视频帧对应的平均相似度，进而得到目标示范对象的动作相似度。示例地，可以将该某个示范对象的骨骼关键点坐标均默认为(0,0)。

由于动作相似度与相似度阈值之间的关系用于表征目标示范对象的动作与其他示范对象的动作相似的程度，如果动作相似度高于相似度阈值，则表明目标示范对象的动作与其他示范对象的动作相似。此时，服务器按照候选人像子集合中各个目标人像区域对应的帧序号的大小顺序，将候选人像子集合中的各个目标人像区域通过图像融合技术填充至背景模板中，以得到目标示范对象的教程视频片段。也即是，在目标示范对象的动作与其他示范对象的动作相似时，目标示范对象的教程视频片段中只显示目标示范对象，可以避免用户眼花缭乱，提高用户的跟学效率。

可选地，服务器获取该多个视频帧中每个视频帧对应的平均相似度之后，还可以将该每个视频帧对应的平均相似度与相似度阈值进行比较，以此来确定该每个视频帧对应的相似度标识。也即是，如果某个视频帧对应的平均相似度高于相似度阈值，则确定该视频帧对应的相似度标识为第一数值。如果某个视频帧对应的平均相似度低于相似度阈值，则确定该视频帧对应的相似度标识为第二数值。然后，将该多个视频帧对应的相似度标识取平均，以得到目标示范对象的动作相似度。

其中，第一数值为0，第二数值为1。当然，第一数值和第二数值也可以反过来，或者为其他的数值。

需要说明的是，在服务器将该多个视频帧对应的相似度标识取平均，以得到目标示范对象的动作相似度之后，还需要将目标示范对象的动作相似度与相似度阈值进行比较。由于此时目标示范对象的动作相似度是基于第一数值和第二数值确定的，所以，该相似度阈值与前文所述的相似度阈值可能不同。

例如，接下来以图4和图5为例，对本申请实施例提供的教程视频处理方法进行举例说明。在图4所示的教程视频中，该教程视频包括3个示范对象。假设，矩形框中的示范对象为目标示范对象，由于目标示范对象的动作与其他2个示范对象的动作相似。所以在图5所示的目标示范对象的教程视频片段中，该教程视频片段中只显示目标示范对象。

在一些实施例中，目标示范对象的动作相似度也可能低于相似度阈值。此时，服务器基于候选人像子集合中各个目标人像区域对应的帧序号，获取其他示范对象在相应视频帧中的人像区域，以得到多个其他人像区域，将该多个其他人像区域进行虚化处理。然后，按照该多个其他人像区域在相应视频帧中的坐标范围，将教程视频中的该多个其他人像区域替换为虚化后的其他人像区域，以得到目标示范对象的教程视频片段。

由于动作相似度与相似度阈值之间的关系用于表征目标示范对象的动作与其他示范对象的动作相似的程度，如果动作相似度低于相似度阈值，则表明目标示范对象的动作与其他示范对象的动作不相似。此时，服务器基于候选人像子集合中各个目标人像区域对应的帧序号，从其他示范对象的人像集合中获取其他示范对象在相应视频帧中的人像区域，以得到多个其他人像区域，通过高斯滤波技术将该多个其他人像区域进行虚化处理。然后，按照该多个其他人像区域在相应视频帧中的坐标范围，将教程视频中的该多个其他人像区域替换为虚化后的其他人像区域，以得到目标示范对象的教程视频片段。也即是，在目标示范对象的动作与其他示范对象的动作不相似时，目标示范对象的教程视频片段中其他示范对象被虚化，可以避免目标示范对象的动作被其他示范对象的动作所干扰，方便用户集中注意力。

例如，接下来以图6和图7为例，对本申请实施例提供的教程视频处理方法进行举例说明。在图6所示的教程视频中，该教程视频包括3个示范对象。假设，矩形框中的示范对象为目标示范对象，由于目标示范对象的动作与其他2个示范对象的动作不相似。所以在图7所示的目标示范对象的教程视频片段中，该教程视频片段同时显示目标示范对象和其他2个示范对象，但是其他2个示范对象被虚化。

可选地，服务器按照上述步骤301-304确定出教程视频包括的多个示范对象中每个示范对象的教程视频片段之后，还可以确定每个教程视频片段的开始时间、结束时间以及时长。示例地，服务器获取教程视频的总时长、教程视频的总帧数，以及候选人像子集合中各个目标人像区域对应的帧序号。然后，服务器将教程视频的总时长除以教程视频的总帧数，以得到每个视频帧的平均时长，进而将各个目标人像区域对应的帧序号中最小的帧序号乘以平均时长，以得到教程视频片段的开始时间，将各个目标人像区域对应的帧序号中最大的帧序号乘以平均时长，以得到教程视频片段的结束时间，并将教程视频片段的开始时间与教程视频片段的结束时间之间的时长，确定为教程视频片段的时长。

在一些实施例中，显示设备可以通过视频播放客户端播放教程视频，或者，也可以通过网站播放教程视频。在显示设备播放教程视频的过程中，显示设备可以按照下述步骤(1)-(3)显示目标教程视频片段。

(1)显示设备显示第一用户界面，第一用户界面包括教程视频中的多个示范对象的人物标识和跟学提示信息，跟学提示信息用于提示用户基于相应示范对象能够进行完整跟学还是片段跟学。

显示设备接收到服务器发送的教程视频包括的各个示范对象的人物标识，以及各个示范对象的教程视频片段的片段信息之后，显示第一用户界面。第一用户界面中包括教程视频中各个示范对象的人物标识，以及各个示范对象的跟学提示信息。用户可以基于各个示范对象的跟学提示信息，从该多个人物标识中选择目标人物标识。

示范对象的人物标识用于唯一标识示范对象，该人物标识可以是示范对象的名称、编号以及头像等等，或者通过这些信息进行组合得到。教程视频片段的片段信息包括教程视频片段的标识、名称、时长等信息。

由于教程视频片段的片段信息包括教程视频片段的标识、名称、时长等信息。所以，显示设备可以基于教程视频片段的时长，确定示范对象的跟学提示信息。也即是，显示设备确定示范对象的所有教程视频片段的总时长，在示范对象的所有教程视频片段的总时长等于教程视频的总时长时，确定示范对象的跟学提示信息为“完整跟学”。在示范对象的所有教程视频片段的总时长小于教程视频的总时长时，确定示范对象的跟学提示信息为“片段跟学”。

可选地，显示设备还可以基于示范对象的教程视频片段的数量，确定示范对象的跟学提示信息。即，在示范对象的教程视频片段仅包括一个教程视频片段的情况下，确定示范对象的跟学提示信息为“完整跟学”。在目标示范对象的教程视频片段包括多个教程视频片段的情况下，确定示范对象的跟学提示信息为“片段跟学”。

当然，在实际应用中，示范对象的跟学提示信息还用于提示用户可以跟着该示范对象进行学习的总时长。

例如，请参考图8，图8是本申请实施例提供的一种第一用户界面的示意图。在图8中，第一用户界面中显示有教程视频包括的3个示范对象的人物标识，该人物标识为头像，以及各个示范对象的跟学提示信息，该跟学提示信息用于提示该示范对象只有一个完整视频片段，还是有多个间断的视频片段，以及能够跟每个示范对象进行学习的总时长。比如，第一个示范对象的跟学提示信息为“完整跟学、10：00”，表明第一个示范对象只有一个完整的视频片段，该完整的视频片段的总时长为10分钟。第二个示范对象的跟学提示信息为“完整跟学、10：00”，表明第二个示范对象只有一个完整的视频片段，该完整的视频片段的总时长为10分钟。第三个示范对象的跟学提示信息为“片段跟学、3：00”，表明第三个示范对象有多个间断的视频片段，该多个间断的视频片段的总时长为3分钟。

在一些实施例中，显示设备可以向服务器发送教程视频查询请求，该教程视频查询请求用于查询教程视频包括的多个示范对象的教程视频片段，该教程视频查询请求携带教程视频的视频标识。比如，当显示设备检测到用户的“只跟TA学”按钮点击操作时，向服务器发送教程视频查询请求。服务器接收到显示设备发送的该教程视频查询请求之后，向显示设备发送教程视频查询响应，该教程视频查询响应携带教程视频包括的各个示范对象的人物标识，以及各个示范对象的教程视频片段的片段信息。

在一些实施例中，服务器接收到显示设备发送的该教程视频查询请求之后，可以基于该教程视频查询请求携带的教程视频的视频标识，获取教程视频，然后按照上述步骤301-304确定教程视频包括的多个示范对象的教程视频片段，生成教程视频包括的各个示范对象的人物标识，以及各个示范对象的教程视频片段的片段信息并发送给显示设备。

在另一些实施例中，服务器可以事先按照上述步骤301-304确定存储的多个教程视频中每个教程视频包括的多个示范对象的教程视频片段，并将教程视频的视频标识、教程视频包括的多个示范对象的人物标识与教程视频片段的片段信息存储至视频标识、人物标识与片段信息之间的对应关系中。这样，服务器接收到显示设备发送的该教程视频查询请求之后，可以基于该教程视频查询请求携带的教程视频的视频标识，从视频标识、人物标识与片段信息之间的对应关系中，获取与教程视频的视频标识对应的人物标识和片段信息，并发送给显示设备。

(2)显示设备响应于用户的第一选择操作，显示第二用户界面，第二用户界面包括目标示范对象的教程视频片段的片段信息，第一选择操作用于从该多个示范对象中选择目标示范对象，目标示范对象为该多个示范对象中的一个示范对象，教程视频片段是基于帧序号连续的目标人像区域生成，目标人像区域是指目标示范对象在教程视频的一个视频帧中的成像区域，目标人像区域对应一个帧序号。

在显示设备检测到用户的第一选择操作时，将用户选择的目标人物标识所对应的示范对象确定为目标示范对象。此时，显示设备显示第二用户界面，第二用户界面中包括目标示范对象的教程视频片段的片段信息。用户可以基于教程视频片段的片段信息，从教程视频片段中选择目标教程视频片段。

以图8为例，在用户选择第三个示范对象为目标示范对象之后，由于第三个示范对象的教程视频片段包括多个教程视频片段，此时显示设备显示第二用户界面。例如，请参考图9，图9是本申请实施例提供的一种第二用户界面的示意图。在图9中，第二用户界面中显示有第三个示范对象的人物标识，该人物标识为头像，以及第三个示范对象的教程视频片段的片段信息。比如，片段一的时长为2分钟。片段二的时长为1分钟。用户可以只选择片段一进行学习，或者只选择片段二进行学习，当然用户还可以选择第三个示范对象的2个教程视频片段进行全部跟学。

(3)显示设备响应于用户的第二选择操作，显示目标教程视频片段，第二选择操作用于从目标示范对象的教程视频片段中选择目标教程视频片段。

在显示设备检测到用户的第二选择操作时，将用户选择的教程视频片段确定为目标视频片段。显示设备向服务器发送跟学请求，该跟学请求携带目标视频片段的标识。服务器接收到显示设备发送的该跟学请求之后，基于该跟学请求携带的目标视频片段的标识，将目标视频片段发送给显示设备，使得显示设备可以显示目标视频片段。

教程视频片段的标识用于唯一标识教程视频片段，该标识可以是教程视频片段的时长和编号等等，或者通过这些信息进行组合得到。

以上内容是以服务器按照上述步骤301-304确定教程视频包括的多个示范对象的教程视频片段为例。当然，在实际应用中，服务器还可以先按照上述步骤301-303确定目标示范对象的候选人像子集合，由于每个候选人像子集合能够确定出一个教程视频片段，所以在执行步骤304之前，也可以通过候选人像子集合确定出对应教程视频片段的人物标识、片段信息等。这样，在服务器接收到显示设备发送的该教程视频查询请求之后，向显示设备发送教程视频查询响应，该教程视频查询响应携带教程视频包括的各个示范对象的人物标识，以及各个示范对象的教程视频片段的片段信息。显示设备接收到服务器发送的该教程视频查询响应之后，向服务器发送跟学请求，该跟学请求携带目标视频片段的标识。服务器接收到显示设备发送的该跟学请求之后，基于该跟学请求携带的目标视频片段的标识，按照上述步骤304确定目标示范对象的教程视频片段，即目标视频片段，并发送给显示设备，使得显示设备可以显示目标示范对象的教程视频片段。

可选地，在服务器先按照上述步骤301-303确定目标示范对象的候选人像子集合的情况下，服务器接收到显示设备发送的该跟学请求之后，还可以获取目标示范对象的动作相似度。在动作相似度高于相似度阈值的情况下，服务器将目标人像子集合中各个目标人像区域、各个目标人像区域对应的帧序号以及背景模板发送给显示设备，使得显示设备可以按照目标人像子集合中各个目标人像区域对应的帧序号的大小顺序，将目标人像子集合中的各个目标人像区域填充至背景模板中，以得到目标示范对象的教程视频片段并显示。

在动作相似度低于相似度阈值的情况下，服务器基于目标人像子集合中各个目标人像区域对应的帧序号，获取其他示范对象在相应视频帧中的人像区域和人像区域的坐标范围，以得到多个其他人像区域和其他人像区域在相应视频帧中的坐标范围，并发送给显示设备。显示设备将该多个其他人像区域进行虚化处理，并按照该多个其他人像区域在相应视频帧中的坐标范围，将教程视频中的该多个其他人像区域替换为虚化后的其他人像区域，以得到目标示范对象的教程视频片段并显示。

本申请通过目标示范对象的人像集合中每个目标人像区域对应的帧序号和动作分析率，从该人像集合中确定目标示范对象的候选人像子集合。由于候选人像子集合包括对应的帧序号连续的目标人像区域，即候选人像子集合包括教程视频中连续出现目标示范对象的视频帧中的目标人像区域，且这些目标人像区域中目标示范对象的动作基本都能被识别或者基本都未被遮挡。所以，通过候选人像子集合确定目标示范对象的教程视频片段之后，该教程视频片段中的各个视频帧也是连续的，而且目标示范对象的动作基本都未被遮挡。这样，将该教程视频片段呈现给用户之后，用户可以跟着目标示范对象的动作进行连续学习，从而提高用户的跟学效率。而且，在目标示范对象的动作与其他示范对象的动作相似的情况下，目标示范对象的教程视频片段中只显示目标示范对象。在目标示范对象的动作与其他示范对象的动作不相似的情况下，目标示范对象的教程视频片段中其他示范对象被虚化。这样，目标示范对象的动作就不会被其他示范对象的动作所干扰，方便用户集中注意力，使得用户可以专注的跟着目标示范对象进行学习。

本申请实施例还提供了一种教程视频处理装置，该教程视频处理装置可以由软件、硬件或者两者的结合实现成为服务器的部分或者全部，该装置包括：第一确定模块、获取模块、第二确定模块和第三确定模块。

第一确定模块，用于从教程视频中确定目标示范对象的人像集合，该人像集合包括多个目标人像区域，目标人像区域是指目标示范对象在教程视频的一个视频帧中的成像区域，目标人像区域对应一个帧序号，目标示范对象为教程视频包括的多个示范对象中的一个示范对象。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

获取模块，用于获取该人像集合中各个目标人像区域对应的动作分析率，动作分析率用于指示目标示范对象的动作被识别的情况或者被遮挡的情况。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第二确定模块，用于基于该人像集合、各个目标人像区域对应的帧序号和动作分析率，确定目标示范对象的候选人像子集合，候选人像子集合包括该人像集合中对应的帧序号连续的目标人像区域。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第三确定模块，用于基于候选人像子集合，确定目标示范对象的教程视频片段。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

可选地，第二确定模块包括：

第一确定单元，用于在各个目标人像区域对应的帧序号均连续的情况下，基于该人像集合以及各个目标人像区域对应的动作分析率，确定目标示范对象的候选人像子集合。

可选地，动作分析率用于指示目标示范对象的动作被识别的情况；

第一确定单元具体用于：

将该人像集合中的各个目标人像区域对应的动作分析率取平均，以得到目标示范对象的平均动作分析率；

在平均动作分析率高于分析率阈值的情况下，将该人像集合确定为目标示范对象的候选人像子集合。

可选地，第一确定单元还具体用于：

在平均动作分析率低于分析率阈值的情况下，将该人像集合中帧序号小于参考帧序号的目标人像区域划分至同一个子集合，将该人像集合中帧序号大于参考帧序号的目标人像区域划分至同一个子集合，以得到两个参考人像子集合，参考帧序号是指该人像集合中最小动作分析率对应的人像区域的帧序号；

基于该两个参考人像子集合以及每个参考人像子集合中各个目标人像区域对应的动作分析率，确定目标示范对象的候选人像子集合。

可选地，第二确定模块包括：

划分单元，用于在该多个目标人像区域对应的帧序号存在不连续的情况下，基于各个目标人像区域对应的帧序号，将该多个目标人像区域中对应的帧序号连续的目标人像区域划分至同一个子集合，以得到多个参考人像子集合；

第二确定单元，用于基于该多个参考人像子集合以及每个参考人像子集合中各个目标人像区域对应的动作分析率，确定目标示范对象的候选人像子集合。

可选地，获取模块具体用于：

对于该人像集合中的任一目标人像区域，对该任一目标人像区域进行骨骼关键点检测，以得到目标示范对象的骨骼关键点的检测结果；

基于目标示范对象的骨骼关键点的检测结果，确定该任一目标人像区域对应的动作分析率。

可选地，第三确定模块包括：

第一获取单元，用于获取目标示范对象的动作相似度，动作相似度用于指示目标示范对象与教程视频中其他示范对象的动作是否一致；

填充单元，用于在动作相似度高于相似度阈值的情况下，按照候选人像子集合中各个目标人像区域对应的帧序号的大小顺序，将候选人像子集合中的各个目标人像区域填充至背景模板中，以得到目标示范对象的教程视频片段。

可选地，第三确定模块还包括：

第二获取单元，用于在动作相似度低于相似度阈值的情况下，基于候选人像子集合中各个目标人像区域对应的帧序号，获取其他示范对象在相应视频帧中的人像区域，以得到多个其他人像区域；

虚化单元，用于将该多个其他人像区域进行虚化处理；

替换单元，用于按照该多个其他人像区域在相应视频帧中的坐标范围，将教程视频中的该多个其他人像区域替换为虚化后的其他人像区域，以得到目标示范对象的教程视频片段。

可选地，第一获取单元具体用于：

对于教程视频中出现目标示范对象的多个视频帧，获取该多个视频帧中每个视频帧对应的平均相似度，平均相似度用于指示同一视频帧中目标示范对象与其他示范对象之间的动作的平均相似度；

将该多个视频帧对应的平均相似度取平均，以得到目标示范对象的动作相似度。

需要说明的是：上述实施例提供的教程视频处理装置在进行教程视频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的教程视频处理装置与教程视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本申请实施例提供的一种显示设备1000的结构框图。该显示设备1000可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。显示设备1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，显示设备1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的教程视频处理方法。

在一些实施例中，显示设备1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它显示设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请实施例对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置显示设备1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在显示设备1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在显示设备1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在显示设备的前面板，后置摄像头设置在显示设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在显示设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位显示设备1000的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为显示设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图10中示出的结构并不构成对显示设备1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图11是本申请实施例提供的一种服务器的结构示意图。服务器1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说，大容量存储设备1107可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

根据本申请的各种实施例，服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中教程视频处理方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的教程视频处理方法的步骤。

应当理解的是，本文提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请实施例中涉及到的教程视频、人像集合、人像区域、帧序号以及动作分析率都是在充分授权的情况下获取的。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种教程视频处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述人像集合、所述各个目标人像区域对应的帧序号和动作分析率，确定所述目标示范对象的候选人像子集合，包括：

在所述各个目标人像区域对应的帧序号均连续的情况下，基于所述人像集合以及各个目标人像区域对应的动作分析率，确定所述目标示范对象的候选人像子集合。

3.如权利要求2所述的方法，其特征在于，所述动作分析率用于指示所述目标示范对象的动作被识别的情况；

所述基于所述人像集合以及各个目标人像区域对应的动作分析率，确定所述目标示范对象的候选人像子集合，包括：

将所述人像集合中的各个目标人像区域对应的动作分析率取平均，以得到所述目标示范对象的平均动作分析率；

在所述平均动作分析率高于分析率阈值的情况下，将所述人像集合确定为所述目标示范对象的候选人像子集合。

4.如权利要求3所述的方法，其特征在于，所述将所述人像集合中的各个目标人像区域对应的动作分析率取平均之后，还包括：

在所述平均动作分析率低于所述分析率阈值的情况下，将所述人像集合中帧序号小于参考帧序号的目标人像区域划分至同一个子集合，将所述人像集合中帧序号大于所述参考帧序号的目标人像区域划分至同一个子集合，以得到两个参考人像子集合，所述参考帧序号是指所述人像集合中最小动作分析率对应的目标人像区域的帧序号；

基于所述两个参考人像子集合以及每个参考人像子集合中各个目标人像区域对应的动作分析率，确定所述目标示范对象的候选人像子集合。

5.如权利要求1所述的方法，其特征在于，所述基于所述人像集合、所述各个目标人像区域对应的帧序号和动作分析率，确定所述目标示范对象的候选人像子集合，包括：

在所述多个目标人像区域对应的帧序号存在不连续的情况下，基于各个目标人像区域对应的帧序号，将所述多个目标人像区域中对应的帧序号连续的目标人像区域划分至同一个子集合，以得到多个参考人像子集合；

基于所述多个参考人像子集合以及每个参考人像子集合中各个目标人像区域对应的动作分析率，确定所述目标示范对象的候选人像子集合。

6.如权利要求1所述的方法，其特征在于，所述获取所述人像集合中各个目标人像区域对应的动作分析率，包括：

对于所述人像集合中的任一目标人像区域，对所述任一目标人像区域进行骨骼关键点检测，以得到所述目标示范对象的骨骼关键点的检测结果；

基于所述目标示范对象的骨骼关键点的检测结果，确定所述任一目标人像区域对应的动作分析率。

7.如权利要求1所述的方法，其特征在于，所述基于所述候选人像子集合，确定所述目标示范对象的教程视频片段，包括：

获取所述目标示范对象的动作相似度，所述动作相似度用于指示所述目标示范对象与所述教程视频中其他示范对象的动作是否一致；

在所述动作相似度高于相似度阈值的情况下，按照所述候选人像子集合中各个目标人像区域对应的帧序号的大小顺序，将所述候选人像子集合中的各个目标人像区域填充至背景模板中，以得到所述目标示范对象的教程视频片段。

8.如权利要求7所述的方法，其特征在于，所述获取所述目标示范对象的动作相似度之后，还包括：

在所述动作相似度低于所述相似度阈值的情况下，基于所述候选人像子集合中各个目标人像区域对应的帧序号，获取所述其他示范对象在相应视频帧中的人像区域，以得到多个其他人像区域；

将所述多个其他人像区域进行虚化处理；

按照所述多个其他人像区域在相应视频帧中的坐标范围，将所述教程视频中的所述多个其他人像区域替换为虚化后的其他人像区域，以得到所述目标示范对象的教程视频片段。

9.一种服务器，其特征在于，所述服务器包括处理器，所述处理器用于：

10.一种显示设备，其特征在于，所述显示设备包括显示器，所述显示器用于：