CN111914682A

CN111914682A - 一种包含演示文稿的教学视频分割方法、装置及设备

Info

Publication number: CN111914682A
Application number: CN202010671185.4A
Authority: CN
Inventors: 王大禹; 姜妍; 池宇峰
Original assignee: Perfect World Holding Group Ltd
Current assignee: Perfect World Holding Group Ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-11-10
Anticipated expiration: 2040-07-13
Also published as: CN111914682B

Abstract

本申请实施例提供一种包含演示文稿的教学视频分割方法、装置及设备。在本申请实施例中，可响应于视频分割指令，在待处理视频中确定多个关键帧，多个关键帧用于反映待处理视频中演示文稿的翻页信息；在多个关键帧中，分别识别演示文稿的标题信息；按照多个关键帧各自对应的演示文稿的标题信息，对待处理视频进行分割。因此，本申请实施例中，不再需要依赖原始的演示文稿，而是可从待处理视频自身出发，进行视频分割，可有效提高视频分割效率。

Description

一种包含演示文稿的教学视频分割方法、装置及设备

技术领域

本申请涉及视频处理技术领域，尤其涉及一种包含演示文稿的教学视频分割方法、装置及设备。

背景技术

视频分割技术在图像处理、计算机视觉领域都有很广泛的应用，分割的准确性直接影响后续任务的有效性，因此具有十分重要的意义。

目前，对于教学视频的分割通常需要依赖原始的演示文稿，视频帧需要与原始的演示文稿建立关联，这类视频分割方式的效率都比较低。

发明内容

本申请的多个方面提供一种包含演示文稿的教学视频分割方法、装置、设备及存储介质，用以提高视频分割的效率。

本申请实施例提供一种包含演示文稿的教学视频分割方法，包括：

响应于视频分割指令，在待处理视频中确定多个关键帧，所述多个关键帧用于反映所述待处理视频中演示文稿的翻页信息；

在所述多个关键帧中，分别识别演示文稿的标题信息；

按照所述多个关键帧各自对应的演示文稿的标题信息，对所述待处理视频进行分割。

本申请实施例还提供一种包含演示文稿的教学视频分割装置，包括：

关键帧确定模块，用于响应于视频分割指令，在待处理视频中确定多个关键帧，所述多个关键帧用于反映所述待处理视频中演示文稿的翻页信息；

识别模块，用于在所述多个关键帧中，分别识别演示文稿的标题信息；

分割模块，用于按照所述多个关键帧各自对应的演示文稿的标题信息，对所述待处理视频进行分割。

本申请实施例还提供一种计算设备，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器与所述存储器耦合，用于执行所述一条或多条计算机指令，以用于：

在所述多个关键帧中，分别识别演示文稿的标题信息；

本申请实施例还提供一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行前述的包含演示文稿的教学视频分割方法。

在本申请实施例中，可响应于视频分割指令，在待处理视频中确定多个关键帧，多个关键帧用于反映待处理视频中演示文稿的翻页信息；在多个关键帧中，分别识别演示文稿的标题信息；按照多个关键帧各自对应的演示文稿的标题信息，对待处理视频进行分割。因此，本申请实施例中，不再需要依赖原始的演示文稿，而是可从待处理视频自身出发，进行视频分割，可有效提高视频分割效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的一种包含演示文稿的教学视频分割方法的流程示意图；

图2为本申请一示例性实施例提供的一种包含演示文稿的教学视频分割方案的逻辑示意图；

图3为本申请一示例性实施例提供的一种关键帧的图像块分割方案的示意图；

图4为本申请一示例性实施例提供的一种包含演示文稿的教学视频分割装置的结构示意图；

图5为本申请一示例性实施例提供的一种计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有视频分割方式的准确度和效率都比较低的技术问题，本申请实施例的一些实施例中：可响应于视频分割指令，在待处理视频中确定多个关键帧，多个关键帧用于反映待处理视频中演示文稿的翻页信息；在多个关键帧中，分别识别演示文稿的标题信息；按照多个关键帧各自对应的演示文稿的标题信息，对待处理视频进行分割。因此，本申请实施例中，不再需要依赖原始的演示文稿，而是可从待处理视频自身出发，进行视频分割，可有效提高视频分割效率。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一实施例提供的一种包含演示文稿的教学视频分割方法的流程示意图。参考图1，该视频分割方法可包括：

步骤100、响应于视频分割指令，在待处理视频中确定多个关键帧，多个关键帧用于反映待处理视频中演示文稿的翻页信息；

步骤101、在多个关键帧中，分别识别演示文稿的标题信息；

步骤102、按照多个关键帧各自对应的演示文稿的标题信息，对待处理视频进行分割。

本实施例提供的视频分割方法，可应用于各种需要进行视频分割的场景中，尤其是可对教学视频进行精准且快速的分割。本实施例对应用场景不做限定。

发明人在研究过程中发现，教学视频的形式通常比较统一，基本是老师搭配演示文稿讲授的形式，且多含有演示文稿。而且，用户对这类视频的调序、检索等需求较多。因此，提出了本实施例的视频分割方案，以更加精准且快速进行视频分割，满足用户需求。

在步骤100中，可向用户展示交互界面，用户可在交互界面中上传待处理视频，并发起视频分割指令。当然，本实施例中视频分割指令的来源不限于此。

响应于视频分割指令，可在待处理视频中确定多个关键帧。其中，关键帧可以是待处理视频中能够反映演示文稿的翻页信息的视频帧。演示文稿的翻页信息包括但不限于翻页开始时间、翻页结束时间等。不同关键帧所反映的演示文稿的翻页信息不同。据此，待处理视频中演示文稿的每一次翻页事件，可分别由一关键帧进行表征。

在待处理视频中确定多个关键帧的过程将在后文中进行详述。

这样，可获得待处理视频中的多个关键帧。例如，若待处理视频包含100帧，则关键帧可能是第1、10、30、50和90帧，每一关键帧可对应待处理视频中发生的一次演示文稿翻页事件。

接下来，在步骤101中，将处理的范围缩小到多个关键帧。在多个关键帧中，分别识别演示文稿的标题信息。

如前文所述，待处理视频中通常包含演示文稿。而且，由于关键帧是与待处理视频中发生的演示文稿的翻页事件对应的，因此，关键帧中通常都包含演示文稿区域。

本实施例中，可预先确定出关键帧包含的演示文稿区域。

实际应用中，待处理视频可能是直接录屏而获得的，也可能是通过摄像机拍摄而获得的。对于后一种情况下，本实施例中，可对待处理视频的首帧画面进行边缘检测，以确定首帧画面包含的演示文稿区域；根据首帧画面包含的演示文稿区域，确定待处理视频中其它帧包含的演示文稿区域。其中，发明人在研究中发现，在摄像机进行拍摄的过程中，摄像机、用于投影演示文稿的投影仪多是固定的，所以演示文稿在待处理视频中的位置通常是固定不变的，基于此，本实施例中，可将首帧画面包含的演示文稿区域，直接作为待处理视频中其它帧包含的演示文稿区域。

这样，可预先确定出关键帧包含的演示文稿区域。

基于此，在步骤101中，可在多个关键帧各自包含的演示文稿区域中，分别识别演示文稿的标题信息。这样，不仅可有效降低识别过程的计算量，还可提高识别结果的准确度。其中，多个关键帧各自对应的演示文稿的标题信息可用于表征关键帧与演示文稿中各页面之间的对应关系。

当然，本实施例中，也可直接对关键帧的整幅画面进行识别，以识别出演示文稿的标题信息，本实施例对此不做限定。

本实施例中，多个关键帧可将待处理视频间隔为多个视频片段。但应当理解的是，这里的视频片段仅用于说明多个关键帧各自代表的视频帧集合，而非视频分割的结果。其中，单个关键帧关联单个视频片段，该视频片段以该关键帧为起始，以下一关键帧的前一视频帧为结束。这样，关键帧对应的演示文稿的标题信息可作为关键帧关联的视频片段对应的演示文稿的标题信息。

基于此，在步骤102中，可按照多个关键帧各自对应的演示文稿的标题信息，对待处理视频进行分割。承接上文，可按照多个视频片段对应的演示文稿的标题信息，对待处理视频进行分割。例如，可对标题信息进行同类合并后再进行视频分割，或者直接按照关键帧对应的演示文稿的标题信息进行视频分割等。具体的分割方式将在后续实施例中进行详述。这样，整个视频分割过程中，并不需要依赖原始的演示文稿，而是直接对待处理视频进行分析和处理，这可有效提高视频分割效率。

综上，本实施例中，可响应于视频分割指令，在待处理视频中确定多个关键帧，多个关键帧用于反映待处理视频中演示文稿的翻页信息；在多个关键帧中，分别识别演示文稿的标题信息；按照多个关键帧各自对应的演示文稿的标题信息，对待处理视频进行分割。因此，本申请实施例中，不再需要依赖原始的演示文稿，而是可从待处理视频自身出发，进行视频分割，可有效提高视频分割效率。

图2为本申请一示例性实施例提供的一种包含演示文稿的教学视频分割方案的逻辑示意图。以下将结合图2对本实施例提供的视频分割方案进行详细说明。其中，图2中，将演示文稿假设为幻灯片，但应当理解的是，演示文稿还可以是其它文件形式，例如，PDF、WORD等形式。

参考图2，在上述或下述实施例中，可采用多种实现方式在待处理视频中确定多个关键帧。

在一种可选的实现方式中，可获取待处理视频中的光流信息；根据光流信息，在待处理视频中确定多个关键帧。

其中，光流(optical flow)是目标、场景或摄像机在连续两帧图像间运动时造成的目标的运动。它是图像在平移过程中的二维矢量场，是通过二维图像来表示物体点三维运动的速度场，反映了微小时间间隔内由于运动形成的图像变化，以确定图像点上的运动方向和运动速率。

本实施例中，可采用运动补偿的方式对待处理视频进行视频压缩、视频编码等预处理。运动补偿，是一种描述相邻帧差别的方法，具体来说是描述前面一帧的每一小块如何移动到当前帧中的某个位置。也即是，运动补偿方式会记录视频的光流信息。

实际应用中，可根据待处理视频的格式，是否为运用了运动补偿方式而获得的格式，例如，MPGE格式等。若是，则可直接提取待处理视频自带的光流信息；若否，则可基于运动补偿方式，对待处理视频进行格式转换，将待处理视频转换为运动补偿方式对应的格式，之后，可从转换后的待处理视频中提取光流信息。

在此基础上，可将分析维度调整为待处理视频中的相邻帧。从待处理视频中的若干相邻帧中，确定出满足预设条件的目标相邻帧，并将目标相邻帧中的在后帧确定为关键帧。

值得说明的是，这里的相邻帧是指待处理视频中，在编码关系上相邻的任意两个视频帧。后文中提及的相邻帧均是指两个视频帧。例如，从编码关系上，待处理视频中，第1帧和第2帧为相邻帧，第2帧和第3帧为相邻帧，依次类推。

从像素的维度，光流信息中包含像素的运动信息，例如，像素的位移坐标、位移时间等。这样，可根据待处理视频的光流信息，确定出待处理视频包含的相邻帧中像素的运动信息。

在此基础上，基于前述实施例中预先确定出的待处理视频中各视频帧包含的演示文稿区域，本实施例中，可根据光流信息，确定待处理视频中相邻帧包含的演示文稿区域中像素的运动信息；遍历待处理视频中的相邻帧，若存在像素的运动信息满足预设条件的目标相邻帧，则将目标相邻帧中的在后帧确定为关键帧。

针对当前遍历的相邻帧，本实施例中，可根据当前遍历的相邻帧包含的演示文稿区域中像素的运动信息，确定当前遍历的相邻帧中位移大于第一阈值的像素的占比；若占比超过预设值，则确定当前遍历的相邻帧中像素的运动信息满足预设条件，相应地，当前遍历的相邻帧可作为目标相邻帧，且当前遍历的相邻帧中的在后帧可确定为关键帧。之后，继续遍历下一相邻帧，并确定下一相邻帧是否可作为目标相邻帧，直至遍历完待处理视频中的所有相邻帧。这样，可甄别出待处理视频中的所有关键帧。

其中，第一阈值和占比的预设值均可根据实际情况进行灵活设定。例如，若第一阈值设定为10，占比的预设值设定为20％，则若相邻帧中20％以上的像素(指像素点)移动超过10个像素(指单位)，表征着相邻帧之间的画面变化程度足够大，则可确定为目标相邻帧，即认为在目标相邻帧中发生了演示文稿切换事件。

在该实现方式中，可根据待处理视频的光流信息，分析相邻帧中像素的运动情况，以准确地甄别出演示文稿的翻页事件，从而可将翻页后的首帧作为关键帧。这种确定关键帧的方式，计算量小，且准确度高。

当然，本实施例中，也可采用其它实现方式在待处理视频中确定多个关键帧，例如，特征提取的方式、像素聚类的方式等等，在此不再展开详述，本实施例并不限于此。

参考图2，在上述或下述实施例中，可采用多种实现方式，识别关键帧中的演示文稿的标题信息。

由于在不同关键帧中，识别演示文稿的标题信息的过程相似，为便于描述，以下将以目标关键帧为例进行方案说明，但应当理解的是，目标关键帧可以是多个关键帧中的任意一个。

在一种实现方式中，可将目标关键帧分割为多个图像块；从多个图像块中，选择关键图像块；在关键图像块中进行字符识别，以获得目标关键帧对应的演示文稿的标题信息。

图3为本申请一示例性实施例提供的一种关键帧的图像块分割方案的示意图。在一种可能的设计中，可将目标关键帧从上到下分割为多个图像块。例如，图3中将目标关键帧从上到下分割为等大的4个图像块。当然，本实施例中，关键帧的分割方案并不局限于图3所示的方案，例如，还可将目标关键帧分割为横纵交错的多个图像块，类似于棋盘式，等。

针对不同的目标关键帧的分割方案，可采用不同方式选择关键图像块(图2中描述为标题块)。根据演示文稿的特点，标题通常位于演示文稿区域的顶部，例如，演示文稿区域的左上角、右上角或顶部居中等位置。基于此，可将目标关键帧中，位于演示文稿区域顶部的图像块确定为关键图像块。例如，图3中，可将4个图像块中最上方的图像块作为关键图像块。当然，选择关键图像块的规则可根据实际情况进行灵活调整。

在确定出关键图像块之后，可在关键图像块中进行字符识别，以获得目标关键帧对应的演示文稿的标题信息。其中，字符识别的方式可以是多种多样的。

在一种可能的设计中，可检测关键图像块中的文字区域；识别文字区域中的文字；将识别到的文字，作为目标关键帧对应的演示文稿的标题信息(图2中描述为小标题)。

其中，检测关键图像块中的文字区域的过程中，可利用卷积神经网络CNN提取关键图像块中至少一个图像子块的图像卷积特征；根据图像卷积特征预测至少一个图像子块的分类。分类包括文字区域类和非文字区域类；将分类为文字区域类的图像子块确定为文字区域。例如，可基于YOLO算法实现该过程，YOLO可仅仅使用一个CNN网络直接预测不同目标的类别与位置。

检测关键图像块中的文字区域的过程中，还可利用CNN提取关键图像块的图像卷积特征，以在关键图像块中选定候选区域；继续利用CNN提取候选区域的图像卷积特征，以在候选区域中确定出文字区域。例如，可基于Faster-RCNN算法实现该过程。Faster-RCNN可以看做“区域生成网络(RPN)+Fast RCNN“的系统，或者，可理解为利用一个CNN网络选定候选区域，在候选区域内再利用一个CNN网络优化选定区域。

当然，还可采用其它方案，检测关键图像块中的文字区域，在此不做限定。

其中，识别文字区域中的文字的过程中，可利用神经网络在文字区域中进行字符预测，以获得多个字符；基于CTC(Connectionist temporal classification，基于神经网络的时序类分类)技术，将多个字符识别为文字。例如，可将RNN、LSTM、GRU中的一个，与CTC算法复合使用。RNN是一种循环式的神经网络，可对变长的输入输出进行解码。LSTM是增加了遗忘功能的RNN变体。GRU则是一种轻量级的LSTM变体。CTC算法则可将输入与输出标签对齐。例如“角虫角”，可识别为“触角”。这可有效提高识别的准确度。

当然，还可采用其它方案识别文字区域中的文字，例如，采用传统的OCR技术识别文字区域中的文字等。在此不做限定。

另外，发明人在研究过程中发现，在一些情况下，例如，前述的摄像机拍摄而产生的待处理视频的情况下，待处理视频中的演示文稿区域中有可能会遇到人物遮挡问题。因为人物信息中包含过多干扰信息，例如相对文稿的复杂色彩信息、不规律的边缘信息、复杂的纹理信息、连续帧之间巨大的画面差异等，因此，为避免人物影响标题信息的识别准确性，本实施例中，可在目标关键帧中识别演示文稿的标题信息之前，预先排除人物干扰信息。

为此，可对目标关键帧进行人体轮廓检测。若检测到目标关键帧中包含人物区域，则可遮挡人物区域。例如，可生成人物区域对应的掩膜，以遮挡人物区域。实际应用中，可采用Mask RCNN进行人体轮廓检测，将人物信息排除，即用掩膜进行图像处理，过滤掉人像。Mask RCNN是在Faster-RCNN上进行扩展，添加一个分支使用现有的检测对目标进行并行预测，可理解为是一种神经网络。Mask RCNN的速度比较快，可准确地检测出目标关键帧中的人物信息。

其中，掩膜可能遮挡目标关键帧中的演示文稿的标题信息，为此，可分两种情况，确定目标关键帧对应的演示文稿的标题信息。

在一种情况下，若关键图像块未被遮挡，则可将在关键图像块中进行字符识别而获得的文字，作为目标关键帧对应的演示文稿的标题信息。

在另一种情况下，若关键图像块被部分遮挡，则可将获取演示文稿的目录信息，目录信息中可包含演示文稿的所有标题信息；若从目录信息中查找到在关键图像块中进行字符识别而获得的文字匹配的标题信息，则将查找到的标题信息作为目标关键帧对应的演示文稿的标题信息。其中，演示文稿的目录信息，可预先从待处理视频中演示文稿首页中识别出，或从其它渠道获取。当然，也可将在关键图像块中进行字符识别而获得的文字，直接作为目标关键帧对应的演示文稿的标题信息，这时，目标关键帧对应的演示文稿的标题信息可能是不完整的，但不影响本实施例中的视频分割过程。

上述的人物遮挡方案还可应用于待处理视频中的其它视频帧，这样，前述实施例中的确定关键帧的过程以及本实施例中在关键帧中识别演示文稿的标题信息的过程，均可基于已经排除人物信息的演示文稿区域进行方案实施。这可进一步提到视频分割的准确度。

参考图2，在上述或下述实施例中，按照多个关键帧各自对应的演示文稿的标题信息，可采用多种实现方式对待处理视频进行分割。

在一种可选地实现方式中，可将多个关键帧划分为至少一个关键帧组，同一关键帧组内的关键帧对应的演示文稿的标题信息相同；根据多个关键帧各自反映的演示文稿的翻页信息，分别确定至少一个关键帧组对应的视频分割点；按照视频分割点，对待处理视频进行分割。

如图3所示，两张演示文稿的文稿内容可能不同，但标题信息可能是相同的。因此，不同关键帧对应的演示文稿的标题信息可能是相同的。基于此，可对关键帧进行分组，将标题信息相同的关键帧划分至同一关键帧组中。

在该实现方式中，可按照多个关键帧各自对应的演示文稿的标题信息，对多个关键帧进行标注，以获得多个关键帧各自关联的标签。这样，可通过对标签进行分类而实现对关键帧进行分组。在完成关键帧分组后，可获得各关键帧组关联的标签。当单个关键帧组内包含多个关键帧时，可将多个关键帧关联的同一标签，作为该关键帧组关联的标签；当单个关键帧组内包含1个关键帧时，则可将该关键帧关联的标签，作为该关键帧组关联的标签。

之后，可按照分类后的标签，生成待处理视频对应的索引信息。其中，如前文所述，每一关键帧可代表一视频片段，而且分类后的标签各自关联一关键帧组。这样，索引信息中将包含多个标签以及多个标签各自关联的视频片段。

为了准确地确定出视频分割点，可以目标关键帧对应的视频时刻作为翻页开始时间，以目标关键帧的下一关键帧对应的视频时刻作为翻页结束时间；根据翻页开始时间和翻页结束时间，生成目标关键帧所反映的演示文稿的翻页信息。这里，演示文稿的翻页信息，可对应于前文中提及的单个关键帧代表一视频片段。通过记录关键帧所反映的演示文稿的翻页信息，可记录关键帧所代表的视频片段。这样，若关键帧组内包含多个关键帧，则关键帧组对应的视频分割点则可以是组内多个关键帧各自代表的视频片段组合后而产生的视频起点和视频终点。因此，可准确地确定出待处理视频中的视频分割点，从而实现对待处理视频的分割。

例如，承接前文中的示例，若待处理视频包含100帧，关键帧是第1、10、30、50和90帧，若地30帧和第50帧对应的标题信息相同，则可将待处理视频分割为4部分：第1-9帧、第10-29帧、第30-89帧以及第90-100帧。

至此，可完成待处理视频的分割并产生待处理视频对应的索引信息。承接上例，索引信息中可包含4个标签，4个标签分别关联上例重分割获得的4部分。当然，实际应用中，索引信息中，还可在单个标签下配置其对应的关键帧组内各关键帧各自关联的标签，作为索引信息中该标签的下拉标签。由前文可知，下拉标签可关联其对应关键帧所代表的视频片段。

当然，本实施例中，按照多个关键帧各自对应的演示文稿的标题信息，还可采用其它实现方式对待处理视频进行分割。例如，以演示文稿的标题信息为单位直接进行分割等等，本实施例并不限于此。

基于上述视频分割产生的索引信息及分割出的视频部分，用户可对待处理视频进行分类、调序、拼接等各种操作。据此，本实施例中，可从待处理视频本身出发，生成索引信息，而不再需要依赖原始的演示文稿。实际应用中，索引信息可配置到待处理视频中，以浮窗或目录的形式展示给用户，对于用户来说，也不再需要访问原始的演示文稿，而是可直接基于索引信息对待处理视频进行各种操作，有效提高了便利性。尤其是在不变获取原始的演示文稿的情况下，可大大提高待处理视频的可编辑性。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤100至步骤101的执行主体可以为设备A；又比如，步骤101和102的执行主体可以为设备A，步骤100的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的阈值、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

前述实施例提供的视频分割方法可以由一视频分割装置来执行，图4为本申请一示例性实施例提供的一种包含演示文稿的教学视频分割装置的结构示意图。参考图4，该视频分割装置可包括：

关键帧确定模块40，用于响应于视频分割指令，在待处理视频中确定多个关键帧，多个关键帧用于反映待处理视频中演示文稿的翻页信息；

识别模块41，用于在多个关键帧中，分别识别演示文稿的标题信息；

分割模块42，用于按照多个关键帧各自对应的演示文稿的标题信息，对待处理视频进行分割。

其中，关键帧确定模块40可采用多种实现方式在待处理视频中确定多个关键帧。在一种可选的实现方式中，关键帧确定模块40，可获取待处理视频中的光流信息；根据光流信息，在待处理视频中确定多个关键帧。

从像素的维度，光流信息中包含相邻帧中像素的运动信息。在此基础上，关键帧确定模块40可根据光流信息，确定待处理视频中相邻帧包含的演示文稿区域中像素的运动信息；遍历待处理视频中的相邻帧，若存在像素的运动信息满足预设条件的目标相邻帧，则将目标相邻帧中的在后帧确定为关键帧。

为了确定出待处理视频中所有的关键帧，关键帧确定模块40可根据当前遍历的相邻帧包含的演示文稿区域中像素的运动信息，确定当前遍历的相邻帧中位移大于第一阈值的像素的占比；若占比超过预设值，则确定当前遍历的相邻帧中像素的运动信息满足预设条件；继续遍历下一相邻帧，直至确定出待处理视频中所有的目标相邻帧，进而获得待处理视频中的多个关键帧。

在此之前，关键帧确定模块40还可对待处理视频的首帧画面进行边缘检测，以确定首帧画面包含的演示文稿区域；根据首帧画面包含的演示文稿区域，确定待处理视频中其它帧包含的演示文稿区域。从而，可确定出多个关键帧中各自包含的演示文稿区域。

其中，识别模块41可才采用多种实现方式在多个关键帧中，分别识别演示文稿的标题信息。在一可选实现方式中，识别模块41可将目标关键帧分割为多个图像块；从多个图像块中，选择关键图像块；在关键图像块中进行字符识别，以获得目标关键帧对应的演示文稿的标题信息；其中，目标关键帧为多个关键帧中的任意一个。

在将目标关键帧分割为多个图像块之前，识别模块41还可对目标关键帧进行人体轮廓检测；若检测到目标关键帧中包含人物区域，则生成人物区域对应的掩膜，以遮挡人物区域。从而识别模块41可在目标关键帧中排除人物干扰之后的演示文稿区域，识别演示文稿的标题信息。可有效降低计算量，并提高识别准确度。

其中，识别模块41在关键图像块中进行字符识别过程中，可检测关键图像块中的文字区域；识别文字区域中的文字；将识别到的文字，作为目标关键帧对应的演示文稿的标题信息。

可选地，识别模块41在检测关键图像块中的文字区域的过程中，可利用卷积神经网络CNN提取关键图像块中至少一个图像子块的图像卷积特征；根据图像卷积特征预测至少一个图像子块的分类。分类包括文字区域类和非文字区域类；将分类为文字区域类的图像子块确定为文字区域；或者，利用CNN提取关键图像块的图像卷积特征，以在关键图像块中选定候选区域；继续利用CNN提取候选区域的图像卷积特征，以在候选区域中确定出文字区域。

其中，识别模块41在识别文字区域中的文字的过程中，可利用神经网络在文字区域中进行字符预测，以获得多个字符；基于CTC技术，将多个字符识别为文字。

另外，分割模块42可按照多个关键帧各自对应的演示文稿的标题信息，采用多种实现方式对待处理视频进行分割。在一种可选实现方式中，分割模块42可：

将多个关键帧划分为至少一个关键帧组，同一关键帧组内的关键帧对应的演示文稿的标题信息相同；

根据多个关键帧各自反映的演示文稿的翻页信息，分别确定至少一个关键帧组对应的视频分割点；

按照视频分割点，对待处理视频进行分割。

在此之前，分割模块42，还可以目标关键帧对应的视频时刻作为翻页开始时间，以目标关键帧的下一关键帧对应的视频时刻作为翻页结束时间；根据翻页开始时间和翻页结束时间，生成目标关键帧所反映的演示文稿的翻页信息。作为确定视频分割点的依据。

除此之外，分割模块42还可按照多个关键帧各自对应的演示文稿的标题信息，对多个关键帧进行标注，以获得多个关键帧各自关联的标签；对多个关键帧各自关联的标签进行分类，以生成待处理视频对应的索引信息。

至此，可实现对待处理视频的分割，并产生待处理视频对应的索引信息。基于上述视频分割产生的索引信息及分割出的视频部分，用户可对待处理视频进行分类、调序、拼接等各种操作。据此，本实施例中，可从待处理视频本身出发，生成索引信息，而不再需要依赖原始的演示文稿。实际应用中，索引信息可配置到待处理视频中，以浮窗或目录的形式展示给用户，对于用户来说，也不再需要访问原始的演示文稿，而是可直接基于索引信息对待处理视频进行各种操作，有效提高了便利性。尤其是在不变获取原始的演示文稿的情况下，可大大提高待处理视频的可编辑性。

值得说明的是，上述关于视频分割装置的各实施例中的技术细节或未尽事宜，可参考前述视频分割方法各实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成对本申请保护范围的损失。

上述的视频分割装置可以实现为软件或实现为软件和硬件的组合，该视频分割装置可集成设置在计算设备中。图5为本申请一示例性实施例提供的一种计算设备的结构示意图，参考图5，该计算设备包括：存储器50和处理器51。

存储器50，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器50可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器51，与存储器50耦合，用于执行存储器50中的计算机程序，以用于：

响应于视频分割指令，在待处理视频中确定多个关键帧，多个关键帧用于反映待处理视频中演示文稿的翻页信息；

在多个关键帧中，分别识别演示文稿的标题信息；

按照多个关键帧各自对应的演示文稿的标题信息，对待处理视频进行分割。

其中，处理器51可采用多种实现方式在待处理视频中确定多个关键帧。在一种可选的实现方式中，处理器51，可获取待处理视频中的光流信息；根据光流信息，在待处理视频中确定多个关键帧。

从像素的维度，光流信息中包含相邻帧中像素的运动信息。在此基础上，处理器51可根据光流信息，确定待处理视频中相邻帧包含的演示文稿区域中像素的运动信息；遍历待处理视频中的相邻帧，若存在像素的运动信息满足预设条件的目标相邻帧，则将目标相邻帧中的在后帧确定为关键帧。

为了确定出待处理视频中所有的关键帧，处理器51可根据当前遍历的相邻帧包含的演示文稿区域中像素的运动信息，确定当前遍历的相邻帧中位移大于第一阈值的像素的占比；若占比超过预设值，则确定当前遍历的相邻帧中像素的运动信息满足预设条件；继续遍历下一相邻帧，直至确定出待处理视频中所有的目标相邻帧，进而获得待处理视频中的多个关键帧。

在此之前，关处理器51还可对待处理视频的首帧画面进行边缘检测，以确定首帧画面包含的演示文稿区域；根据首帧画面包含的演示文稿区域，确定待处理视频中其它帧包含的演示文稿区域。从而，可确定出多个关键帧中各自包含的演示文稿区域。

其中，识处理器51可才采用多种实现方式在多个关键帧中，分别识别演示文稿的标题信息。在一可选实现方式中，处理器51可将目标关键帧分割为多个图像块；从多个图像块中，选择关键图像块；在关键图像块中进行字符识别，以获得目标关键帧对应的演示文稿的标题信息；其中，目标关键帧为多个关键帧中的任意一个。

在将目标关键帧分割为多个图像块之前，处理器51还可对目标关键帧进行人体轮廓检测；若检测到目标关键帧中包含人物区域，则生成人物区域对应的掩膜，以遮挡人物区域。从而处理器51可在目标关键帧中排除人物干扰之后的演示文稿区域，识别演示文稿的标题信息。可有效降低计算量，并提高识别准确度。

其中，处理器51在关键图像块中进行字符识别过程中，可检测关键图像块中的文字区域；识别文字区域中的文字；将识别到的文字，作为目标关键帧对应的演示文稿的标题信息。

可选地，处理器51在检测关键图像块中的文字区域的过程中，可利用卷积神经网络CNN提取关键图像块中至少一个图像子块的图像卷积特征；根据图像卷积特征预测至少一个图像子块的分类。分类包括文字区域类和非文字区域类；将分类为文字区域类的图像子块确定为文字区域；或者，利用CNN提取关键图像块的图像卷积特征，以在关键图像块中选定候选区域；继续利用CNN提取候选区域的图像卷积特征，以在候选区域中确定出文字区域。

其中，处理器51在识别文字区域中的文字的过程中，可利用神经网络在文字区域中进行字符预测，以获得多个字符；基于CTC技术，将多个字符识别为文字。

另外，处理器51可按照多个关键帧各自对应的演示文稿的标题信息，采用多种实现方式对待处理视频进行分割。在一种可选实现方式中，处理器51可：

按照视频分割点，对待处理视频进行分割。

在此之前，处理器51，还可以目标关键帧对应的视频时刻作为翻页开始时间，以目标关键帧的下一关键帧对应的视频时刻作为翻页结束时间；根据翻页开始时间和翻页结束时间，生成目标关键帧所反映的演示文稿的翻页信息。作为确定视频分割点的依据。

除此之外，处理器51还可按照多个关键帧各自对应的演示文稿的标题信息，对多个关键帧进行标注，以获得多个关键帧各自关联的标签；对多个关键帧各自关联的标签进行分类，以生成待处理视频对应的索引信息。

值得说明的是，上述关于计算设备的各实施例中的技术细节或未尽事宜，可参考前述视频分割方法各实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成对本申请保护范围的损失。

进一步，如图5所示，该计算设备还包括：通信组件52、显示器53、电源组件54、音频组件55等其它组件。图5中仅示意性给出部分组件，并不意味着计算设备只包括图5所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。

上述图5中的通信组件，被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图5中的显示器，包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图5中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图5中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

综上，根据本文公开的实施例，提供了如下方案，但不限于此：

1、一种包含演示文稿的教学视频分割方法，包括：

在所述多个关键帧中，分别识别演示文稿的标题信息；

2、根据方案1所述的方法，所述在待处理视频中确定多个关键帧，包括：

获取所述待处理视频中的光流信息；

根据所述光流信息，在所述待处理视频中确定多个关键帧。

3、根据方案2所述的方法，所述根据所述光流信息，在所述待处理视频中确定多个关键帧，包括：

根据所述光流信息，确定所述待处理视频中相邻帧包含的演示文稿区域中像素的运动信息；

遍历所述待处理视频中的相邻帧，若存在像素的运动信息满足预设条件的目标相邻帧，则将所述目标相邻帧中的在后帧确定为关键帧。

4、根据方案3所述的方法，还包括：

根据当前遍历的相邻帧包含的演示文稿区域中像素的运动信息，确定所述当前遍历的相邻帧中位移大于第一阈值的像素的占比；

若所述占比超过预设值，则确定所述当前遍历的相邻帧中像素的运动信息满足预设条件；

继续遍历下一相邻帧。

5、根据方案3所述的方法，还包括：

对所述待处理视频的首帧画面进行边缘检测，以确定所述首帧画面包含的演示文稿区域；

根据所述首帧画面包含的演示文稿区域，确定所述待处理视频中其它帧包含的演示文稿区域。

6、根据方案1所述的方法，所述在所述多个关键帧中，分别识别演示文稿的标题信息，包括：

将目标关键帧分割为多个图像块；

从所述多个图像块中，选择关键图像块；

在所述关键图像块中进行字符识别，以获得所述目标关键帧对应的演示文稿的标题信息；

其中，所述目标关键帧为所述多个关键帧中的任意一个。

7、根据方案6所述的方法，在将目标关键帧分割为多个图像块之前，还包括：

对所述目标关键帧进行人体轮廓检测；

若检测到所述目标关键帧中包含人物区域，则生成所述人物区域对应的掩膜，以遮挡所述人物区域。

8、根据方案6所述的方法，所述在所述关键图像块中进行字符识别，包括：

检测所述关键图像块中的文字区域；

识别文字区域中的文字；

将识别到的文字，作为所述目标关键帧对应的演示文稿的标题信息。

9、根据方案8所述的方法，所述检测所述关键图像块中的文字区域，包括：

利用卷积神经网络CNN提取所述关键图像块中至少一个图像子块的图像卷积特征；根据所述图像卷积特征预测所述至少一个图像子块所述的分类。所述分类包括文字区域类和非文字区域类；将分类为文字区域类的图像子块确定为所述文字区域；或者

利用CNN提取所述关键图像块的图像卷积特征，以在所述关键图像块中选定候选区域；继续利用所述CNN提取所述候选区域的图像卷积特征，以在所述候选区域中确定出文字区域。

10、根据方案1所述的方法，所述按照所述多个关键帧各自对应的演示文稿的标题信息，对所述待处理视频进行分割，包括：

将所述多个关键帧划分为至少一个关键帧组，同一关键帧组内的关键帧对应的演示文稿的标题信息相同；

根据所述多个关键帧各自反映的演示文稿的翻页信息，分别确定所述至少一个关键帧组对应的视频分割点；

按照所述视频分割点，对所述待处理视频进行分割。

11、根据方案10所述的方法，还包括：

以目标关键帧对应的视频时刻作为翻页开始时间，以所述目标关键帧的下一关键帧对应的视频时刻作为翻页结束时间；

根据所述翻页开始时间和所述翻页结束时间，生成所述目标关键帧所反映的所述演示文稿的翻页信息。

12、根据方案10所述的方法，还包括：

按照所述多个关键帧各自对应的演示文稿的标题信息，对所述多个关键帧进行标注，以获得所述多个关键帧各自关联的标签；

对所述多个关键帧各自关联的标签进行分类，以生成所述待处理视频对应的索引信息。

13、一种包含演示文稿的教学视频分割装置，包括：

14、一种计算设备，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

在所述多个关键帧中，分别识别演示文稿的标题信息；

15、一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行方案1-12任一项所述的包含演示文稿的教学视频分割方法。

Claims

1.一种包含演示文稿的教学视频分割方法，其特征在于，包括：

在所述多个关键帧中，分别识别演示文稿的标题信息；

2.根据权利要求1所述的方法，其特征在于，所述在待处理视频中确定多个关键帧，包括：

获取所述待处理视频中的光流信息；

根据所述光流信息，在所述待处理视频中确定多个关键帧。

3.根据权利要求2所述的方法，其特征在于，所述根据所述光流信息，在所述待处理视频中确定多个关键帧，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

继续遍历下一相邻帧。

5.根据权利要求3所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述在所述多个关键帧中，分别识别演示文稿的标题信息，包括：

将目标关键帧分割为多个图像块；

从所述多个图像块中，选择关键图像块；

其中，所述目标关键帧为所述多个关键帧中的任意一个。

7.根据权利要求1所述的方法，其特征在于，所述按照所述多个关键帧各自对应的演示文稿的标题信息，对所述待处理视频进行分割，包括：

按照所述视频分割点，对所述待处理视频进行分割。

8.一种包含演示文稿的教学视频分割装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

在所述多个关键帧中，分别识别演示文稿的标题信息；

10.一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-7任一项所述的包含演示文稿的教学视频分割方法。