CN110505498B

CN110505498B - 视频的处理、播放方法、装置及计算机可读介质

Info

Publication number: CN110505498B
Application number: CN201910828434.3A
Authority: CN
Inventors: 熊章俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2021-04-02
Anticipated expiration: 2039-09-03
Also published as: CN110505498A

Abstract

本申请公开了一种视频的处理、播放方法、装置及计算机可读介质，该方法应用于服务器中，包括：提取视频中的多帧图像；对每一帧图像中的目标物体进行识别，得到识别结果；记录每一帧图像的目标物体信息；其中，目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息；根据视频中提取的多帧图像的目标物体信息，生成视频的展示列表；其中，展示列表中包括每一帧图像的展示信息；展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。由于本申请中生成的每一帧图像的展示信息，可让儿童根据展示信息在观看视频的过程中自动进行识字学习，提升儿童的认字能力。

Description

视频的处理、播放方法、装置及计算机可读介质

技术领域

本发明涉及多媒体技术领域，尤其涉及一种视频的处理、播放方法、装置及计算机可读介质。

背景技术

儿童敏感期是指由于儿童在这一阶段智力、秩序感、节奏感、行走、观察力等方面的发育特征，而产生的一段对环境、秩序、感官、动作、社会规范等一系列的敏感情况，而这一时期被称为儿童敏感期。在儿童敏感期中的认识符号、书写符号的敏感期内，儿童会对认识符号、书写符号产生较大的兴趣。

让儿童在该敏感期内通过物体配合文字的形式进行学习，可大大提升儿童的识字能力。尤其是在儿童进行娱乐活动的同时进行识字学习，儿童识字的效率会更高。然而，现有技术中，儿童的识字学习过程普遍需要家长或老师指导，不存在能让儿童在生活娱乐过程中自动进行识字学习的方法。

发明内容

基于上述现有技术的不足，本申请提出了一种视频的处理、播放方法、装置及计算机可读介质，以实现使儿童在观看视频的过程中自动进行识字学习。

本发明第一方面公开了一种视频的处理方法，所述视频的处理方法包括：

提取视频中的多帧图像；

对每一帧所述图像中的目标物体进行识别，得到识别结果；其中，所述识别结果包括所述目标物体的标识，以及所述目标物体在所述图像中的位置信息；

记录每一帧所述图像的目标物体信息；其中，所述目标物体信息包括所述目标物体的标识、所述目标物体在所述图像中的位置信息、所述视频的标识以及所述图像在所述视频中的时间点信息；

根据所述视频中提取的多帧图像的目标物体信息，生成所述视频的展示列表；其中，所述展示列表中包括每一帧所述图像的展示信息；其中，所述展示信息用于在所述视频播放至所述图像出现的时间点时，在所述图像中的目标物体的对应位置进行展示。

可选地，在上述视频的处理方法中，还包括：

接收客户端发送的视频播放请求；其中，所述视频播放请求中携带有用户信息和视频的标识；

获取与所述视频的标识对应的视频的展示列表；

根据所述视频播放请求中的用户信息，向客户端发送所述视频的展示列表。

可选地，在上述视频的处理方法中，所述获取与所述视频的标识对应的视频的展示列表之后，还包括：

根据当前识字计划，调整所述展示列表中的图像的展示信息，得到调整后的展示列表；其中，所述当前识字计划根据所述用户信息对初始识字计划进行调整得到；

其中，所述根据所述视频播放请求中的用户信息，向客户端发送所述视频的展示列表，包括：

根据所述视频播放请求中的用户信息，向所述客户端发送所述调整后的展示列表。

可选地，在上述视频的处理方法中，所述对每一帧所述图像中的目标物体进行识别，得到识别结果，包括：

判断每一帧所述图像中是否包括满足预定要求的物体；其中，所述预定要求为所述目标物体的属性信息；

若判断出所述图像中包括满足预定要求的物体，则获取所述物体的标识和所述物体在所述图像中的位置信息；其中，所述图像中包括的所有的满足预定要求的物体的标识和物体在所述图像中的位置信息，作为所述图像的识别结果。

基于区域卷积神经网络算法，对每一帧所述图像中的目标物体进行识别，得到第一识别结果；

基于只看一次YOLO算法，对每一帧所述图像中的目标物体进行识别，得到第二识别结果；

对比所述第一识别结果与所述第二识别结果，将所述第一识别结果和所述第二识别结果中一致的信息作为所述识别结果。

可选地，在上述视频的处理方法中，所述提取视频中的多帧图像，包括：

对所述视频进行分段处理，得到所述视频的视频片段；

提取每一个所述视频片段中的多个关键帧图像；其中，所述关键帧图像为所述视频中的物体移动或变化对应的图像帧。

本发明第二方面公开了一种视频的播放方法，应用于客户端，所述视频的播放方法包括：

向服务器发送视频播放请求；其中，所述视频播放请求中携带用户信息和视频的标识；

接收所述服务器发送的与所述视频的标识对应的视频的展示列表；其中，所述视频的展示列表包括所述视频的图像的展示信息；所述展示信息由所述服务器根据所述图像的目标物体信息生成；所述目标物体信息包括所述目标物体的标识、所述目标物体在所述图像中的位置信息、所述视频的标识以及所述图像在所述视频中的时间点信息；所述展示信息用于在所述视频播放至所述图像出现的时间点时，在所述图像中的目标物体的对应位置进行展示。

本发明第三方面公开了一种视频的处理装置，应用于服务器，所述视频的处理装置包括：

提取单元，用于提取视频中的多帧图像；

识别单元，用于对每一帧所述图像中的目标物体进行识别，得到识别结果；其中，所述识别结果包括所述目标物体的标识，以及所述目标物体在所述图像中的位置信息；

记录单元，用于记录每一帧所述图像的目标物体信息；其中，所述目标物体信息包括所述目标物体的标识、所述目标物体在所述图像中的位置信息、所述视频的标识以及所述图像在所述视频中的时间点信息；

生成单元，用于根据所述视频中提取的多帧图像的目标物体信息，生成所述视频的展示列表；其中，所述展示列表中包括每一帧所述图像的展示信息；其中，所述展示信息用于在所述视频播放至所述图像出现的时间点时，在所述图像中的目标物体的对应位置进行展示。

可选地，在上述视频的处理装置中，还包括：

接收单元，用于接收客户端发送的视频播放请求；其中，所述视频播放请求中携带有用户信息和视频的标识；

获取单元，用于获取与所述视频的标识对应的视频的展示列表；

发送单元，用于根据所述视频播放请求中的用户信息，向客户端发送所述视频的展示列表。

可选地，在上述视频的处理装置中，还包括：

调整单元，用于根据当前识字计划，调整所述展示列表中的图像的展示信息，得到调整后的展示列表；其中，所述当前识字计划根据所述用户信息对初始识字计划进行调整得到；

其中，所述发送单元执行根据所述视频播放请求中的用户信息，向客户端发送所述视频的展示列表时，用于：

可选地，在上述视频的处理装置中，所述识别单元，包括：

判断单元，用于判断每一帧所述图像中是否包括满足预定要求的物体；其中，所述预定要求为所述目标物体的属性信息；

第一识别子单元，用于若判断出所述图像中包括满足预定要求的物体，则获取所述物体的标识和所述物体在所述图像中的位置信息；其中，所述图像中包括的所有的满足预定要求的物体的标识和物体在所述图像中的位置信息，作为所述图像的识别结果。

可选地，在上述视频的处理装置中，所述识别单元，包括：

第二识别子单元，用于基于区域卷积神经网络算法，对每一帧所述图像中的目标物体进行识别，得到第一识别结果；

第三识别子单元，用于基于只看一次YOLO算法，对每一帧所述图像中的目标物体进行识别，得到第二识别结果；

对比单元，用于对比所述第一识别结果与所述第二识别结果，将所述第一识别结果和所述第二识别结果中一致的信息作为所述识别结果。

可选地，在上述视频的处理装置中，所述提取单元，包括：

分段单元，用于对所述视频进行分段处理，得到所述视频的视频片段；

提取子单元，用于提取每一个所述视频片段中的多个关键帧图像；其中，所述关键帧图像为所述视频中的物体移动或变化对应的图像帧。

本发明第四方面公开了一种视频的播放装置，应用于客户端，所述视频的播放装置包括：

发送单元，用于向服务器发送视频播放请求；其中，所述视频播放请求中携带用户信息和视频的标识；

接收单元，用于接收所述服务器发送的与所述视频的标识对应的视频的展示列表；其中，所述视频的展示列表包括所述视频的图像的展示信息；所述展示信息由所述服务器根据所述图像的目标物体信息生成；所述目标物体信息包括所述目标物体的标识、所述目标物体在所述图像中的位置信息、所述视频的标识以及所述图像在所述视频中的时间点信息；所述展示信息用于在所述视频播放至所述图像出现的时间点时，在所述图像中的目标物体的对应位置进行展示。

本发明第五方面公开了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述第一方面中任一所述的方法，或者，如上述第二方面所述的方法。

从上述的技术方案可以看出，本申请提供的视频的处理方法中，应用于服务器，通过提取视频中的多帧图像，对每一帧图像中的目标物体进行识别，得到识别结果。其中，识别结果包括目标物体的标识，以及目标物体在图像中的位置信息。记录每一帧图像的目标物体信息。其中，目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。根据视频中提取的多帧图像的目标物体信息，生成视频的展示列表。其中，展示列表中包括每一帧图像的展示信息；展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。由于本申请中生成的每一帧图像的展示信息，可让儿童根据展示信息在观看视频的过程中自动进行识字学习，进而提升了儿童的认字能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种视频的播放系统的结构示意图；

图2为本发明实施例公开的一种视频的处理方法的流程示意图；

图3为本发明实施例公开的一种提取视频中的关键帧的方法的流程示意图；

图4为本发明实施例公开的一种识别图像中的物体的方法的流程示意图；

图5为本发明实施例公开的另一种识别图像中的物体的方法的流程示意图；

图6为本发明实施例公开的一种视频的播放方法的流程示意图；

图7为本发明实施例公开的一种视频的处理装置的结构示意图；

图8为本发明实施例公开的一种视频的播放装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，本申请实施例公开了一种视频播放系统，包括：服务器101和客户端102。

服务器101对视频中的每一帧图像中的目标物体进行识别，得到每一帧图像中的目标物体的标识以及目标物体在图像中的位置信息。服务器101记录下每一帧图像中的目标物体的信息，其中目标物体的信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。服务器101根据视频中每一帧图像的目标物体信息，生成该视频的展示列表。展示列表中的展示信息可用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。

当客户端102向服务器101发送视频播放请求后，服务器101可根据播放请求中的视频的标识，将对应的展示列表发送给客户端102。客户端102接收了展示列表后，可根据视频的展示列表播放该视频。

由于视频的播放系统中，服务器101生成的每一帧图像的展示信息，可让儿童根据展示信息在观看视频的过程中自动进行识字学习，因此提升了儿童的认字能力。

需要说明的是，本实施例中，客户端102应用于多种类型的电子设备，诸如手机、平板电脑等。

具体的，以下分别通过几个实施例对视频的处理过程、以及视频的播放过程进行说明。

参阅图2，本申请实施例公开了一种视频的处理方法，应用于服务器中，具体包括以下步骤：

S201、提取视频中的多帧图像。

其中，步骤S201中提到的视频为存储于视频库中的视频。执行步骤S201时，服务器可以对所有视频库中的视频都进行提取多帧图像的操作，若视频库中设有专门的儿童类别的视频，也可以仅对视频库中属于儿童观看的视频进行提取。

服务器将视频分解成多帧图像的方法有很多，例如可通过一些视频编辑软件、视频播放软件等，对视频进行逐帧分解。需要说明的是，将视频分解后得到的多帧图像，可以按照预设的规则，仅提取视频中的部分多帧图像。例如，由于本申请需要实现让儿童在观看视频的过程中进行识字学习，因此对于本申请来说，视频中用户较少观看的片段，例如片头和片尾，可以进行删除，即不对视频中处于片头的图像以及处于片尾的图像进行提取。本申请中具体所需提取的多帧图像的部分，可根据实际情况进行设定，仅提取视频中有意义的多帧图像，可减少后续的计算工作，加快视频的处理效率。

可选地，参阅图3，在本申请一具体实施例中，执行步骤S201的一种实施方式，包括：

S301、对视频进行分段处理，得到视频的视频片段。

对视频进行分割，分割的每一个片段的时间长度可人为进行设定。执行步骤S301时，可对视频进行平均分段处理，也可进行不平均分段处理，分段的具体方式均不影响本申请实施例的实现。

可选地，为了减少处理的工作量，可仅对视频中的有效片段进行分段处理。例如，可将视频中的片头和片尾去掉，将留下的片段作为有效片段进行分段处理。

S302、提取每一个视频片段中的多个关键帧图像。

在视频中，经常会出现相邻的图像帧之间特征变化很少的情况。例如，电视剧中某个人物在开口说话的过程。像这类相邻的图像帧之间特征变化很少的一组连续图像，图像中所包含的物体都是相同的，且相邻帧之间的特征变化很少，因此可以仅提取其中的最为关键的一帧作为代表，即提取关键帧。关键帧图像为视频中的物体移动或变化对应的图像帧。仅提取视频中的关键帧图像作为步骤S202中识别的对象，可以减少计算量，提高视频的处理效率。其中，对每一个视频片段中需要提取的关键帧的数目可以人为进行设定。

需要说明的是，提取关键帧的方法有很多，例如基于抽样的方法、基于镜头边界的方法、基于颜色特征法、基于运动分析法等，有些提取关键帧的方法可在不对视频进行分段处理的情况下，即不执行步骤S301的情况下直接提取关键帧。提取关键帧的方法包括但不仅限于本申请实施例中提出的内容。

S202、对每一帧图像中的目标物体进行识别，得到识别结果。

其中，识别结果包括目标物体的标识，以及目标物体在图像中的位置信息。需要说明的是，步骤S201中提取的多帧图像中，不一定所有的图像中均包含有目标物体，对于不含有目标物体的图像，识别后无法得到识别结果。其中，目标物体指的是能够满足预定要求的物体。由于本申请中的预定要求为让儿童对一些简单的、常见的物体与文字有关联性的认知，因此本申请的目标物体为儿童识字目标物体，例如桌子、椅子、菠萝、苹果等。具体的，可将目标物体的标识信息以及对应的目标物体的图像关联保存在目标物体集中。然后根据目标物体集，对每一帧图像中的目标物体进行识别，得到识别结果。

可选地，目标物体的标识，可以是目标物体集中每一个目标物体的唯一编号，也可以是目标物体对应的文字等。目标物体在图像中的位置信息可以为坐标信息。具体的，可在图像上建立坐标系，使用该坐标系下的坐标信息来说明目标物体在该图像中的位置。

例如，服务器对视频中的其中一帧图像进行识别时，得到的识别结果是：xy坐标轴下，(111，120)位置有一个编号为001的目标物体。其中，编号001对应于目标物体集中的菠萝物体。又例如，得到的识别结果为，(111，120)位置有一个文字信息为菠萝的目标物体。

需要说明的是，由于目标物体可根据实际的要求进行设定，因此本申请实施例除了可满足儿童识字需求，也可适用于其他的需求中。

还需要说明的是，步骤S202中得到的识别结果的信息包括但不限于本申请实施例中提出的内容，例如还可记录下目标物体的大小信息、颜色信息等。

可选地，参阅图4，在本申请一具体实施例中，执行步骤S202的一种方式，包括：

S401、判断每一帧图像中是否包括满足预定要求的物体。

其中，预定要求为目标物体的属性信息。本申请中，目标物体的属性信息主要是指的儿童识字目标物体的属性信息。而儿童识字目标物体的属性信息可以为图像特征信息。具体的，可将儿童识字目标物体组成一个目标物体集，该目标物体集中包括所有的儿童识字目标物体的图像特征信息。根据儿童识字目标物体的图像特征信息，即可判断出每一帧图像中是否包括满足预定要求的物体。

若判断出图像中包括满足预定要求的物体，则获取物体的标识和物体在图像中的位置信息。若判断出图像中不包括满足预定要求的物体，则结束识别。

需要说明的是，对每一帧图像中的目标物体进行识别的算法有很多，例如区域卷积神经网络算法、只看一次(You Only Look Once，YOLO)算法等。执行步骤S202时，可只采用其中一种识别算法进行识别，也可采用多种识别算法分别进行识别，然后再对识别结果进行综合评估处理。

可选地，参阅图5，在本申请一具体实施例中，执行步骤S202的一种方式，包括：

S501、基于区域卷积神经网络算法，对每一帧图像中的目标物体进行识别，得到第一识别结果。

具体的，基于区域卷积神经网络算法对每一帧图像进行特征提取、区域提取、区域归一化以及分类与回归操作。由于这部分为现有技术，此处可不再赘述。基于区域卷积神经网络算法进行目标识别的优点在于，识别的准确率较高。

S502、基于YOLO算法，对每一帧图像中的目标物体进行识别，得到第二识别结果。

YOLO算法可直接对每一帧图像使用回归的方式输出目标物体的边框和类别。YOLO算法的具体执行过程为现有技术，此处不再赘述。YOLO算法的优点在于可较为快速的得到识别结果。

需要说明的是，执行步骤S501和执行步骤S502的先后顺序不影响本申请实施例的实现，服务器也可同时执行步骤S501以及步骤S502。

S503、对比第一识别结果与第二识别结果，将第一识别结果和第二识别结果中一致的信息作为识别结果。

由于不同的识别算法各自具有不同的优点，因此将不同识别算法得到的识别结果进行比对，将识别结果中相同的部分作为最终的识别结果，可大大提升识别的准确率。需要说明的是，对第一识别结果以及第二识别结果的处理方式有很多，可以设置不同的权重进行计算，也可仅将第一识别结果和第二识别结果中一致的部分作为最终的识别结果等。还需要说明的是，可进行目标识别的算法有很多，包括但不限于申请实施例提出的部分。

S203、记录每一帧图像的目标物体信息。

其中，目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。即目标物体信息中包含了步骤S202中的识别结果信息以及图像自身的信息。视频的标识可以是视频的专属编码或者视频的地址信息，根据视频的标识可从视频库中找到对应的视频。视频中的时间点信息用于说明记录下的图像在视频中出现的时间点。根据图像在视频中的时间点信息，可从视频中找到该图像。记录下的每一帧图像的目标物体信息可以保存在数据库中。

需要说明的是，记录的每一帧图像的目标物体信息，并不是指的是对于步骤S201中提取的所有的图像都记录目标物体信息。若步骤S202中对所有的图像分别进行识别后，能得到识别结果的图像，即图像中有包含目标物体的图像，才需要记录该图像的目标物体信息。对于经过识别后发现不存在目标物体的图像，则不再执行步骤S203。

S204、根据视频中提取的多帧图像的目标物体信息，生成视频的展示列表。

其中，展示列表中包括每一帧图像的展示信息。展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。而图像中的目标物体对应位置可以是预设的目标物体附近的位置，也可以是目标物体所在的位置，在目标物体对应位置进行展示的可以是目标物体的多种不同语言下的文字信息、还可以是目标物体对应文字的拼音信息、还可以展示目标物体的读音信息等。

当儿童观看视频时，能从图像的展示信息学习到目标物体的文字、读音等等。展示信息中的图像出现的时间点信息指的是由步骤S203中记录的时间点信息。例如，展示列表中的展示信息可以为：目标“泥坑”出现在视频的1分30秒的坐标(200，500)处。客户端根据展示列表中的展示信息，即可在视频的1分30秒时，在坐标为(200，500)的位置显示与“泥坑”对应的文字、拼音、配音等。

可选地，在本申请一具体实施例中，执行步骤S204之后，可根据当前识字计划，调整展示列表中的图像的展示信息，得到调整后的展示列表。

对于一个视频的展示列表来说，可能会出现同一个目标物体在视频中反复出现的情况，即展示列表中重复记录了同一个目标物体的相关信息。例如，菠萝在视频的1分30秒出现过，还在视频的2分14秒处出现过。又或者一个视频的展示列表中的展示信息过多，用户在观看一个视频的过程中，需要学习的物体太多，这对于比较低龄的用户而言学习难度较大。因此，对于视频的展示列表中的展示信息，可以进行一些调整。具体的调整方法，可预先进行设定，设定好后形成每一个视频对应的识字计划，视频的展示列表根据识字计划进行相应的调整。

其中，当前识字计划根据用户信息对初始识字计划进行调整得到。用户信息可以是用户的标识信息、以及用户的观看记录信息等。通过用户的标识信息获得用户的年龄信息，进而针对该用户的年龄设置适合该用户的初始识字计划。又根据遗忘曲线、以及用户的观看记录，来调整识字计划，以便用户可对已观看学习过的文字进行阶段性的复习。展示列表中的展示信息根据当前的识字计划进行调整后，会删除掉部分图像的展示信息。

在执行完步骤S204之后，当用户通过客户端向服务器发送视频播放请求时，服务器就可以将对应的展示列表发送给客户端，由客户端根据展示列表播放该视频，实现让儿童自动进行识字学习。

儿童敏感期内，对符号的兴趣本身就比较高，又可在进行观看视频这一娱乐活动的过程中去学习感兴趣的文字，因此可大大提高儿童的识字能力。且在学习文字的过程中，完全不需要有家长或老师在旁边进行指导，每一帧图像均会自动显示展示信息，让儿童自动进行识字学习，也大大减少了家长或老师需要花费的时间和精力。

本申请提供的视频的处理方法中，应用于服务器，通过提取视频中的多帧图像，对每一帧图像中的目标物体进行识别，得到识别结果。其中，识别结果包括目标物体的标识，以及目标物体在图像中的位置信息。记录每一帧图像的目标物体信息。其中，目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。根据视频中提取的多帧图像的目标物体信息，生成视频的展示列表。其中，展示列表中包括每一帧图像的展示信息；展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。由于本申请中生成的每一帧图像的展示信息，可让儿童根据展示信息在观看视频的过程中自动进行识字学习，提升儿童的认字能力。

可选地，参阅图6，在本申请一具体实施例中，服务器执行完上述实施例提出的视频的处理方法之后，还可以与客户端配合执行一种视频的播放方法，具体包括以下步骤：

S601、客户端向服务器发送视频播放请求。

其中，视频播放请求中携带有用户信息和视频的标识。用户信息指的是用户的标识、用户的资料信息、用户的观看记录等。用户的标识指的是用户的编码(Identitydocument，ID)。视频的标识指的是视频的编码(Identity document，ID)或者地址信息。

需要说明的是，步骤S601也可以看成是服务器接收视频播放请求。

S602、服务器获取与视频的标识对应的视频的展示列表。

由于上述实施例示出的视频的处理方法中，服务器已在图2示出的步骤S204中生成了视频的展示列表，因此可根据视频播放请求中携带的视频的标识，获取对应的视频的展示列表。

需要说明的是，步骤S602中服务器获取的视频的展示列表的的生成方法可参见图2示出的实施例中的相关部分，此处不再进行赘述。

S603、服务器根据视频播放请求中的用户信息，向客户端发送视频的展示列表。

其中，用户信息主要指的是用户的标识，服务器向通过客户端发送了视频播放请求的用户返回对应的展示列表。

需要说明的是，步骤S603也可以看成是客户端接收服务器发送的与视频的标识对应的视频的展示列表。

其中，视频的展示列表包括视频的图像的展示信息。展示信息由服务器根据图像的目标物体信息生成。目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。客户端接收到视频的展示列表后，根据视频的展示列表，为用户播放该视频。在播放视频的过程中，根据视频的展示列表中的展示信息，在视频播放至展示列表中记录的时间点时在图像中的目标物体的对应位置展示目标物体的文字、配音等等，以供儿童在观看的过程中进行识字学习。

可选地，在本申请一具体实施例中，执行步骤S602之后，还包括：

服务器根据当前识字计划，调整展示列表中的图像的展示信息，得到调整后的展示列表。

还需要说明的是，视频的展示列表由服务器通过上述本申请实施例示出的视频的处理方法中得到，可参见上述实施例中的视频的处理方法的相应部分，此处不再赘述。

本申请实施例提供的视频的播放方法中，客户端向服务器发送视频播放请求，其中，视频播放请求中携带有用户信息和视频的标识。服务器获取与视频的标识对应的视频的展示列表，并根据视频播放请求中的用户信息，向客户端发送视频的展示列表。其中，视频的展示列表包括视频的图像的展示信息。展示信息由服务器根据图像的目标物体信息生成。目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。本申请中，客户端可根据接收到的视频的展示列表来播放视频，使得视频在播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示，实现儿童在观看视频的过程中自动进行识字学习。

参阅图7，基于上述本申请实施例提出的视频的处理方法，本申请实施例对应公开了一种视频的处理装置700，应用于服务器，包括：提取单元701、识别单元702、记录单元703以及生成单元704。

提取单元701，用于提取视频中的多帧图像。

可选地，在本申请一具体实施例中，提取单元701，包括：分段单元和提取子单元。

分段单元，用于对视频进行分段处理，得到视频的视频片段。

提取子单元，用于提取每一个视频片段中的多个关键帧图像。其中，关键帧图像为视频中的物体移动或变化对应的图像帧。

识别单元702，用于对每一帧图像中的目标物体进行识别，得到识别结果。其中，识别结果包括目标物体的标识，以及目标物体在图像中的位置信息。

可选地，在本申请一具体实施例中，识别单元702包括：判断单元和第一识别子单元。

判断单元，用于判断每一帧图像中是否包括满足预定要求的物体。其中，预定要求为目标物体的属性信息。

第一识别子单元，用于若判断出图像中包括满足预定要求的物体，则获取物体的标识和物体在所述图像中的位置信息。其中，图像中包括的所有的满足预定要求的物体的标识和物体在图像中的位置信息，作为图像的识别结果。

可选地，在本申请一具体实施例中，识别单元702包括：第二识别子单元、第三识别子单元以及对比单元。

第二识别子单元，用于基于区域卷积神经网络算法，对每一帧图像中的目标物体进行识别，得到第一识别结果。

第三识别子单元，用于基于只看一次YOLO算法，对每一帧图像中的目标物体进行识别，得到第二识别结果。

对比单元，用于对比第一识别结果与第二识别结果，将第一识别结果和第二识别结果中一致的信息作为识别结果。

记录单元703，用于记录每一帧图像的目标物体信息。其中，目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。

生成单元704，用于根据视频中提取的多帧图像的目标物体信息，生成视频的展示列表。其中，展示列表中包括每一帧图像的展示信息。其中，展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。

可选地，在本申请一具体实施例中，视频的处理装置700还包括：

接收单元，用于接收客户端发送的视频播放请求。其中，视频播放请求中携带有用户信息和视频的标识。

获取单元，用于获取与视频的标识对应的视频的展示列表。

发送单元，用于根据视频播放请求中的用户信息，向客户端发送视频的展示列表。

调整单元，用于根据当前识字计划，调整展示列表中的图像的展示信息，得到调整后的展示列表。其中，当前识字计划根据用户信息对初始识字计划进行调整得到。

其中，发送单元执行根据视频播放请求中的用户信息，向客户端发送视频的展示列表时，用于：

根据视频播放请求中的用户信息，向客户端发送调整后的展示列表。

上述本申请实施例公开的视频的处理装置700中的具体的原理和执行过程，与上述本申请实施例公开的视频的处理方法相同，可参见上述本申请实施例公开的视频的处理方法中相应的部分，这里不再进行赘述。

本申请提供的视频的处理装置，应用于服务器，通过提取单元701提取视频中的多帧图像，识别单元702对每一帧图像中的目标物体进行识别，得到识别结果。其中，识别结果包括目标物体的标识，以及目标物体在图像中的位置信息。记录单元703记录每一帧图像的目标物体信息。其中，目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。生成单元704根据视频中提取的多帧图像的目标物体信息，生成视频的展示列表。其中，展示列表中包括每一帧图像的展示信息；展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。由于本申请中生成单元704生成的每一帧图像的展示信息，可让儿童根据展示信息在观看视频的过程中自动进行识字学习，提升儿童的认字能力。

参阅图8，基于上述本申请实施例公开的视频的播放方法，本申请实施例对应公开了一种视频的播放装置800，应用于客户端，包括：发送单元801和接收单元802。

发送单元801，用于向服务器发送视频播放请求。其中，视频播放请求中携带用户信息和视频的标识。

接收单元802，用于接收服务器发送的与视频的标识对应的视频的展示列表。其中，视频的展示列表包括视频的图像的展示信息；展示信息由服务器根据图像的目标物体信息生成；目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息；展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。

上述本申请实施例公开的视频的播放装置800中的具体的原理和执行过程，与上述本申请实施例公开的视频的播放方法相同，可参见上述本申请实施例公开的视频的播放方法中相应的部分，这里不再进行赘述。

本申请实施例提供的视频的播放装置800，应用于客户端，发送单元801向服务器发送视频播放请求，其中，视频播放请求中携带有用户信息和视频的标识。接收单元802接收服务器发送的与视频的标识对应的视频的展示列表。其中，视频的展示列表包括视频的图像的展示信息。展示信息由服务器根据图像的目标物体信息生成。目标物体信息包括目标物体的标识、目标物体在图像中的位置信息、视频的标识以及图像在视频中的时间点信息。展示信息用于在视频播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示。本申请中，接收单元802可根据接收到的视频的展示列表来播放视频，使得视频在播放至图像出现的时间点时，在图像中的目标物体的对应位置进行展示，实现儿童在观看视频的过程中自动进行识字学习。

本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现以上各方法实施例提供的视频的处理方法，或者，视频的播放方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频的处理方法，其特征在于，应用于服务器，所述视频的处理方法包括：

提取视频中的多帧图像；

判断每一帧所述图像中是否包括满足儿童识字目标物体的图像特征信息的物体；

若判断出所述图像中包括满足儿童识字目标物体的图像特征信息的物体，则获取所述物体的标识和所述物体在所述图像中的位置信息；其中，所述图像中包括的所有的满足儿童识字目标物体的图像特征信息的物体的标识和物体在所述图像中的位置信息，作为所述图像的识别结果；

根据所述视频中提取的多帧图像的目标物体信息，生成所述视频的展示列表；其中，所述展示列表中包括每一帧所述图像的与识字学习相关的展示信息；其中，所述展示信息用于在所述视频播放至所述图像出现的时间点时，在所述图像中的目标物体的对应位置进行展示；

所述方法还包括：

根据遗忘曲线、以及用户的观看记录，通过对初始识字计划进行调整，得到当前识字计划，根据当前识字计划，调整所述展示列表中的图像的展示信息，得到调整后的展示列表，展示列表中的展示信息根据当前的识字计划进行调整后，会删除掉部分图像的展示信息。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取与所述视频的标识对应的视频的展示列表；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述提取视频中的多帧图像，包括：

对所述视频进行分段处理，得到所述视频的视频片段；

5.一种视频的播放方法，其特征在于，应用于客户端，所述视频的播放方法包括：

接收所述服务器发送的与所述视频的标识对应的视频的展示列表；其中，所述视频的展示列表包括所述视频的图像的展示信息；所述展示信息由所述服务器根据所述图像的目标物体信息生成；所述目标物体信息包括所述目标物体的标识、所述目标物体在所述图像中的位置信息、所述视频的标识以及所述图像在所述视频中的时间点信息；所述展示信息用于在所述视频播放至所述图像出现的时间点时，在所述图像中的目标物体的对应位置进行展示，所述展示列表的调整过程包括：服务器根据遗忘曲线、以及用户的观看记录，通过对初始识字计划进行调整，得到当前识字计划，根据当前识字计划，调整所述展示列表中的图像的展示信息，得到调整后的展示列表，展示列表中的展示信息根据当前的识字计划进行调整后，会删除掉部分图像的展示信息；

所述目标物体信息的识别过程包括：判断每一帧所述图像中是否包括满足儿童识字目标物体的图像特征信息的物体；若判断出所述图像中包括满足儿童识字目标物体的图像特征信息的物体，则获取所述物体的标识和所述物体在所述图像中的位置信息；其中，所述图像中包括的所有的满足儿童识字目标物体的图像特征信息的物体的标识和物体在所述图像中的位置信息，作为所述图像的识别结果。

6.一种视频的处理装置，其特征在于，应用于服务器，所述视频的处理装置包括：

提取单元，用于提取视频中的多帧图像；

识别单元，用于判断每一帧所述图像中是否包括满足儿童识字目标物体的图像特征信息的物体；若判断出所述图像中包括满足儿童识字目标物体的图像特征信息的物体，则获取所述物体的标识和所述物体在所述图像中的位置信息；其中，所述图像中包括的所有的满足儿童识字目标物体的图像特征信息的物体的标识和物体在所述图像中的位置信息，作为所述图像的识别结果；

生成单元，用于根据所述视频中提取的多帧图像的目标物体信息，生成所述视频的展示列表；其中，所述展示列表中包括每一帧所述图像的展示信息；其中，所述展示信息用于在所述视频播放至所述图像出现的时间点时，在所述图像中的目标物体的对应位置进行展示；

所述视频的处理装置还用于：根据遗忘曲线、以及用户的观看记录，通过对初始识字计划进行调整，得到当前识字计划，根据当前识字计划，调整所述展示列表中的图像的展示信息，得到调整后的展示列表，展示列表中的展示信息根据当前的识字计划进行调整后，会删除掉部分图像的展示信息。

7.一种视频的播放装置，其特征在于，应用于客户端，所述视频的播放装置包括：

接收单元，用于接收所述服务器发送的与所述视频的标识对应的视频的展示列表；其中，所述视频的展示列表包括所述视频的图像的展示信息；所述展示信息由所述服务器根据所述图像的目标物体信息生成；所述目标物体信息包括所述目标物体的标识、所述目标物体在所述图像中的位置信息、所述视频的标识以及所述图像在所述视频中的时间点信息；所述展示信息用于在所述视频播放至所述图像出现的时间点时，在所述图像中的目标物体的对应位置进行展示，所述展示列表的调整过程包括：服务器根据遗忘曲线、以及用户的观看记录，通过对初始识字计划进行调整，得到当前识字计划，根据当前识字计划，调整所述展示列表中的图像的展示信息，得到调整后的展示列表，展示列表中的展示信息根据当前的识字计划进行调整后，会删除掉部分图像的展示信息；

8.一种计算机可读介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至4中任一所述的方法，或者，如权利要求5所述的方法。

9.一种服务器，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序用于执行如权利要求1-4任一项所述的视频的处理方法。

10.一种计算设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序用于执行如权利要求5所述的视频的播放方法。