CN114339375B

CN114339375B - 视频播放方法、生成视频目录的方法及相关产品

Info

Publication number: CN114339375B
Application number: CN202110944815.5A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2024-04-02
Anticipated expiration: 2041-08-17
Also published as: CN114339375A

Abstract

本申请实施例公开了一种视频播放方法、生成视频目录的方法及相关产品。为目标视频生成的视频目录包括多个目录标签，多个目录标签分别对应目标视频中不同的视频分段。响应于用户对目标视频施加的播放操作播放目标视频，并展示目标视频的视频目录；响应于对多个目录标签中目标目录标签的触发操作，通过将目标视频的播放进度调整至目标目录标签对应的视频播放节点，播放目标目录标签对应的视频分段。可见，本方案可依据用户的触发而跳转播放某一目录标签对应的视频分段，如此便可以精准播放某一视频分段，提升用户对视频内容的学习效率，降低播放视频时人工操作的复杂度，提升了视频定位的便捷性。

Description

视频播放方法、生成视频目录的方法及相关产品

技术领域

本申请涉及多媒体播放技术领域，尤其涉及一种视频播放方法、生成视频目录的方法及相关产品。

背景技术

随着互联网技术的不断发展，人们可以通过多种互联网平台发布视频以及消费视频。在诸多类型的视频中，知识分享类视频因具有针对性的分享内容和相对清晰的教程步骤而受到目标人群的关注。例如，对化妆方法具有学习需求的用户可以通过在互联网平台上搜索“美妆教程”等关键词，获得一系列美妆教程相关的知识分享类视频。用户依照视频中分享的化妆步骤一一模仿便可学习视频分享的化妆方法。目前，知识分享类视频分布于诸多领域，例如烹饪、手工制作、软件、舞蹈等领域均具有相关的知识分享类视频。

当用户对知识分享类视频中提及的步骤进行学习模仿时，常需要重复观看步骤相关的教学讲解或画面展示。重复观看特定的步骤需要用户重复多次地将视频的播放进度定位到特定的时间点，定位过程操作不便捷，手动定位常存在偏差，影响了用户的学习体验。例如，用户学习完某视频的第4个步骤后，忘却了第2个步骤如何实现，则需要重新回放第2个步骤，此时用户很可能已经忘却了第2个步骤的起始时间节点，需要尝试多次定位才能将播放进度调整到相对准确的位置。如此，阻碍了用户对视频中所分享教程的高效学习。如何提升用户观看视频时学习教程的效率和便捷性，已经成为当前领域亟待解决的技术问题。

发明内容

本申请实施例提供了一种视频播放方法、生成视频目录的方法及相关产品，以提升用户观看视频时学习教程的效率和便捷性。

有鉴于此，本申请第一方面提供了视频播放方法，方法包括：

响应于对目标视频的播放操作播放目标视频，并展示目标视频的视频目录；视频目录包括多个目录标签，多个目录标签分别对应目标视频中不同的视频分段；

响应于对多个目录标签中目标目录标签的触发操作，通过将目标视频的播放进度调整至目标目录标签对应的视频播放节点，播放目标目录标签对应的视频分段。

本申请第二方面提供一种生成视频目录的方法，方法包括：

基于目标视频的多个待识别步骤识别目标视频中的图像内容，确定目标视频中与多个待识别步骤分别对应的图像帧；

以待识别步骤作为依据，基于目标视频中图像帧与待识别步骤的对应关系，从目标视频中确定出多个第一类视频分段；

根据待识别步骤生成第一类视频分段的目录标签；

根据第一类视频分段的起始时间节点确定第一类视频分段的目录标签对应的视频播放节点；

根据目录标签与视频播放节点的对应关系生成目标视频的视频目录；视频目录包括多个目录标签，其中，目标目录标签用于在受到触发后，将目标视频的播放进度调整至目标目录标签对应的视频播放节点，以播放目标目录标签对应的第一类视频分段。

本申请第三方面提供了一种视频播放装置，包括：

播放单元，用于响应于对目标视频的播放操作播放目标视频；

展示单元，用于响应于对目标视频的播放操作展示目标视频的视频目录；视频目录包括多个目录标签，多个目录标签分别对应目标视频中不同的视频分段；

进度调整单元，用于响应于对多个目录标签中目标目录标签的触发操作，将目标视频的播放进度调整至目标目录标签对应的视频播放节点；

播放单元，还用于根据进度调整单元调整过的播放进度，播放目标目录标签对应的视频分段。

本申请第四方面提供了一种生成视频目录的装置，包括：

图像识别单元，用于基于目标视频的多个待识别步骤识别目标视频中的图像内容，确定目标视频中与多个待识别步骤分别对应的图像帧；

分段确定单元，用于以待识别步骤作为依据，基于目标视频中图像帧与待识别步骤的对应关系，从目标视频中确定出多个第一类视频分段；

标签生成单元，用于根据待识别步骤生成第一类视频分段的目录标签；

节点确定单元，用于根据第一类视频分段的起始时间节点确定第一类视频分段的目录标签对应的视频播放节点；

目录生成单元，用于根据目录标签与视频播放节点的对应关系生成目标视频的视频目录；视频目录包括多个目录标签，其中，目标目录标签用于在受到触发后，将目标视频的播放进度调整至目标目录标签对应的视频播放节点，以播放目标目录标签对应的第一类视频分段。

本申请第五方面提供一种计算机设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令，执行如上述第一方面的视频播放方法的步骤，或者执行如第二方面提供的生成视频目录的方法的步骤。

本申请第六方面提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述第一方面提供的视频播放方法，或者执行上述第二方面提供的的生成视频目录的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供的视频播放方法中，响应于用户对目标视频施加的播放操作播放目标视频，并展示目标视频的视频目录；视频目录包括多个目录标签，多个目录标签分别对应目标视频中不同的视频分段；响应于对多个目录标签中目标目录标签的触发操作，通过将目标视频的播放进度调整至目标目录标签对应的视频播放节点，播放目标目录标签对应的视频分段。可见，本方案可依据用户的触发而跳转播放某一目录标签对应的视频分段。如此便可以精准播放某一视频分段，提升用户对视频内容的学习效率，降低播放视频时人工操作的复杂度，提升了视频定位的便捷性。

附图说明

图1为本申请实施例提供的一种视频播放界面示意图；

图2为本申请实施例提供的一种视频播放方法的流程图；

图3为本申请实施例提供的一种触发视频目录中目录标签的示意图；

图4为本申请实施例提供的一种视频播放进度调整前后的对比图；

图5为本申请实施例提供的一种在播放进度条上展示视频目录的示意图；

图6为本申请实施例提供的一种在视频播放窗口内展示的播放模式选择模块的示意图；

图7为本申请实施例提供的一种生成视频目录的方法流程图；

图8A为一种包含文本内容的视频截图；

图8B为另一种包含文本内容的视频截图；

图8C为又一种包含文本内容的视频截图；

图9为本申请实施例提供的另一种生成视频目录的方法流程图；

图10为本申请实施例提供的一种包含子分段的目录标签的视频目录示意图；

图11为本申请实施例提供的一种视频播放装置的结构示意图；

图12为本申请实施例提供的一种生成视频目录的装置的结构示意图；

图13为本发明实施例提供的一种服务器的结构示意图；

图14为本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

目前知识分享类视频是用户学习知识的重要途径，用户通过观看知识分享类视频，能够获得分享者传达的知识，达到学习效果。海量视频中分享的知识难度不定，观看视频的用户的学习能力不定，在一些可能的场景中，用户需要反复观看视频才能达到其预期的学习效果，掌握视频中教授的相关技能。如果用户希望观看视频中关于某一操作步骤的教学内容，通常需要自己手工定位播放进度，存在准确度低、效率低的问题。例如，重复多次点击视频进度条才能够到达预期的播放进度，准确播放需要重复观看的内容。如此，给用户带来较多的不便，用户在观看视频时学习效率也受到影响。

基于以上问题，本申请提供了一种视频播放方法、生成视频目录的方法及相关产品。在本申请中，为视频生成视频目录，播放视频时自动显示视频目录。视频目录中包含多个目录标签，目录标签受到触发后能够使视频的播放进度调整到被触发的目录标签对应的视频播放节点。本方案通过生成的视频目录，实现了以触发目录标签自动调整视频播放进度的机制，从而能令用户调整视频进度的操作的便捷性得到极大提升，提升了用户在观看期间的学习效率。用户通过此方案提供的目录标签，能够高效观看视频的特定内容，更快熟悉视频中分享的知识。

本申请实施例提供的视频播放方法、生成视频目录的方法以及相关产品，能够应用多种视频类平台，并应用于多种领域的知识分享类视频。例如，烹饪、手工制作、软件、舞蹈、化妆等领域。本申请实施例中对于播放的视频涉及的视频平台、视频领域和内容不做限定。

本申请实施例提供的视频播放方法、生成视频目录的方法以及相关产品涉及到人工智能领域。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

本申请实施例涉及计算机视觉技术(Computer Vision,CV)和自然语言处理(Nature Language processing,NLP)。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的生成视频目录的方法和装置，具体可以应用计算机视觉技术识别图像内容，从而确定视频中与待识别步骤对应的图像帧，如此有利于从视频中确定待识别步骤对应的视频分段，并在此基础上建立视频的目录标签。此外，还可以应用计算机视觉技术和/或自然语言处理来识别视频中文字语义，借助识别出的文字从视频中识别出更加精确地视频分段，以此辅助生成更加精确调整视频进度的视频目录。

接下来介绍本申请实施例提供的视频播放方法。视频播放方法有终端设备执行，也可以应用于终端设备和服务器通信的网络场景，有服务器配合运行。例如，视频存储在终端设备本地，则无需服务器也可以实现该视频播放方法。如果视频是终端设备和服务器通信情况下才能够在终端设备播放，则视频播放方法的实现需要共同依托终端设备和提供该视频资源的服务器。终端设备可以为手机、台式计算机、个人数字助理(Personal DigitalAssistant，简称PDA)、平板电脑等设备。服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。终端设备可以是用户个人的终端设备，也可以是公共使用的终端设备。此处对于终端设备的归属不做限定。

图1以终端设备是手机100为例，展示了一种视频播放界面110。如图1所示，在视频播放界面110上包含视频播放窗口120，该视频播放窗口120可以如图1所示地占据整个视频播放界面110，也可以仅占据视频播放界面110的一部分区域。例如，窗口120最大化后占据整个视频播放界面110，窗口120缩小化时占据视频播放界面110的一部分区域。视频播放窗口120中，视频播放时展示有该视频的视频目录130。视频目录130包含多个目录标签。目录标签与视频内容相关，例如图1所示在视频播放窗口播放的是烹饪领域的知识分享类视频，在视频播放时视频目录130包括三个标签，分别是：1、材料准备；2、下锅；3、摆盘。如图1所示，视频已经播放到摆盘阶段，如果用户需要再次观看下锅阶段的视频内容，例如学习下锅时调料的放置顺序和下锅时铲子的翻炒动作等，无需人工在进度条上拖动或者点击，只需要触发视频目录130中的第二个标签“2、下锅”即可。

参见图2，该图为本申请实施例提供的一种视频播放方法的流程图。如图2所示的视频播放方法包括：

S201：终端设备响应于对目标视频的播放操作播放目标视频，并展示目标视频的视频目录；视频目录包括多个目录标签，多个目录标签分别对应目标视频中不同的视频分段。

在本申请实施例中，目标视频是指需要播放的视频，例如图1的视频播放窗口120中呈现的烹饪视频。终端设备会根据作用在屏幕上的对目标视频的播放操作来播放目标视频。例如，终端设备的屏幕上展示了包含多个视频的封面和标题，用户在手机100的屏幕上展示目标视频的封面或标题的位置上点击，点击操作即作为播放操作，随后从当前网址跳转到目标视频的播放网址，在视频播放界面110上展示视频播放窗口120，在视频播放窗口中播放目标视频。目标视频的播放效果如图1所示。

目标视频的视频目录130是预先生成的，后文中将通过实施例具体介绍生成视频目录的过程。本实施例主要介绍目标视频的视频目录中目录标签的触发和作用，因此对生成视频目录的方式暂不详述。结合图1示意，视频目录包括多个目录标签，每个目录标签具有不同的含义。每个目录标签对应着目标视频中不同的视频分段。例如目录标签“1、材料准备”对应着目标视频中展示材料准备过程的视频分段，目录标签“2、下锅”对应着目标视频中展示下锅过程的视频分段，目录标签“3、摆盘”对应着目标视频中展示摆盘过程的视频分段。

需要说明的是，本实施例中描述的视频分段位于整个目标视频之中，而非在目标视频基础上额外生成的视频。例如，整个目标视频的时间为10分钟，目录标签“1、材料准备”对应的视频分段，自时刻a1到时刻b1；目录标签“2、下锅”对应的视频分段，自时刻c1到时刻d1；目录标签“3、摆盘”对应的视频分段，自时刻e1开始到时刻f1结束。由于视频分段位于目标视频中，本申请实施例中视频播放期间只需要调整播放进度便可以从新的播放进度进行播放。

S202：终端设备响应于对多个目录标签中目标目录标签的触发操作，通过将目标视频的播放进度调整至目标目录标签对应的视频播放节点，播放目标目录标签对应的视频分段。

目标视频播放时，终端设备上还显示有前述的视频目录，视频目录罗列了多个目录标签。用户可以通过作用在屏幕中目标目录标签的触发操作(例如点击操作)，触发终端设备进行响应。触发操作可以根据实际需求进行设置，此处不做限定，例如也可以是滑动、双击、长按等。此处目标目录标签是指视频目录中被触发的目录标签。同一时间，终端设备仅响应对一个目录标签的触发操作。需要说明的是，S202不局限于视频播放时进行，例如视频暂停播放期间，视频播放界面上仍然可以显示目标视频的视频目录，视频目录中的各目录标签也仍旧可以受到触发。

图3为本申请实施例提供的一种触发视频目录中目录标签的示意图。如图3所示，当触控位置移动到目标视频的视频目录上，用户可以通过展示的箭头获知当前的触控位置，进而准确地触发目标目录标签。以目标目录标签是“2、下锅”为例，当箭头移动到该目标目录标签的有效触发区域内之后，用户通过点击之类的触发操作便可以触发该目标目录标签。

图4为本申请实施例提供的一种视频播放进度调整前后的对比图。在触发目标目录标签“2、下锅”之前，目标视频播放到摆盘环节，当前播放进度如图4中进度条上的圆点401所示。在目标目录标签“2、下锅”受到触发后，终端设备将播放进度向前调整至目标目录标签对应的视频播放节点，如图4中进度条上的圆点402所示，以播放目标目录标签对应的视频分段。从图4中触发前后视频画面的变化也可以得知，视频画面从摆盘的画面变换到了下锅炒菜的画面。由此可知，用户触发目标目录标签后，视频进度的确发生了调整，调整到了目标目录标签所指示的相应的视频分段中。达到了触发目标目录标签控制视频播放的目的。如此，用户能够在终端设备上重复播放视频中分享的某一操作步骤的示范动作和/或讲解，无需复杂、重复性、低效的手动定位方式完成。

为了便于用户直观看到受触发的目标目录标签被有效触发，在一种可能的实现方式中，可以通过预设展示方式展示被触发的目标目录标签。该预设展示方式区别于其他未被触发的目录标签的展示方式。如此，用户便可以直观看到目标目录标签已经被有效触发。作为一示例，未被触发的目标目录标签以白色展示，被触发的目标目录标签以红色展示。作为另一示例，未被触发的目录标签以某种字体展示，被触发的目标目录标签以加粗的该种字体展示。在实际应用中，可以基于实际需求设定预设展示方式和目录标签的默认展示方式。此处不进行限定。

在本申请实施例中，目标视频的视频目录展示在视频播放界面的预设区域中。例如，预设区域是视频播放窗口的内边缘，如图1所示，视频目录130展示在视频播放窗口120内的左边缘。当然也可以将预设区域设置在播放窗口120的上边缘或者右边缘等。此外，预设区域也可以设置为播放进度条。图5为本申请实施例提供的一种在播放进度条上展示视频目录的示意图。如图5所示，在播放进度条501上展示了视频目录中的多个目录标签，标识502所在的位置是指了当前播放进度。当然，实际应用中，预设区域还可以是播放进度条的上方或者下方。此外，预设区域也可以是播放窗口外部的目录展示窗口。例如，视频播放界面上展示有位于播放窗口外部的目录展示窗口，终端设备响应于对目标视频的播放操作播放目标视频，在目录展示窗口展示该目标视频的视频目录的多个目录标签。以上几种对预设区域的设置位置的举例仅为示例供理解，此处对具体的设置位置不加以限定。

总的来说，预设区域的设置位置可以依据实际需求选定。但是一个重要的设置原则是：避免视频目录占据视频画面的中心位置，如果需要在视频播放窗口内展示视频目录，要保证视频目录在视频播放窗口内占据尽可能少的面积或面积比例。以上示例的多种预设区域的实现位置，均可以满足上述设置原则，使用户在观看视频的同时能够随时依据需求触发可视的视频目录，同时防止视频目录的呈现阻碍观看视频重点传递的内容，提升用户的视觉体验，满足用户对视频播放便捷定位的需求。

下面介绍终端设备对目标目录标签的触发操作的两种示例响应方式。

在一种实现方式中，前述实施例介绍的S202包括：响应于对目标目录标签的触发操作，在预设时间内展示目标目录标签对应的视频分段的示意图，并在预设时间结束后将目标视频的播放进度调整至目标目录标签对应的视频播放节点，播放目标目录标签对应的视频分段。

在该实现方式中，终端设备检测到对目标目录标签的触发动作后，不是立刻调整视频的播放进度，而是展示出与目标目录标签对应的视频分段的示意图。例如，目标目录标签为“2、下锅”，则将下锅阶段的视频分段中一帧画面(例如锅中材料被翻炒的画面)作为该视频分段的示意图。作为示例，预设时间可以定为1秒或1.5秒。通过预设时间内展示的示意图，用户可以预览到即将播放的视频分段的内容，进而以便其提前确认所触发的目标目录标签是准确的，即将播放的的确是用户需要学习的视频内容。视频分段的示意图可以是视频分段中任意一帧画面的图像，也可以是由视频平台运营人员或者上传该目标视频的用户选定的图像。

在另一种实现方式中，前述实施例介绍的S202包括：响应于对目标目录标签的触发操作，展示目标目录标签对应的视频分段的示意图；响应于对示意图的确认操作，将目标视频的播放进度调整至目标目录标签对应的视频播放节点，播放目标目录标签对应的视频分段。

在该实现方式中，展示过目标目录标签对应的视频分段的示意图之后，也不是默认以调整后的播放进度播放目标视频，而是需要用户基于预览到的示意图之后提供确认操作，再以调整后的播放进度播放目标视频。作为示例，确认操作可以是作用在示意图上的点击操作。此处对后续步骤执行的确认操作具体形式不做限定。

在终端设备的以上两种响应实现方式中，通过在目标目录标签受到触发操作后展示该标签对应的视频分段的示意图，能够提升用户对后续即将播放的视频分段的预知能力，实现对待播放内容的预览效果。从而便于用户在发现预览效果和预期不符时，即时选择正确且所需的目标目录标签。这两种实现方式也提升了用户学习视频内容的效率，避免无效的播放。

实际应用中，用户对于所触发的目标目录标签对应的视频分段的播放需求可能有多种，例如要求播放一次这一视频分段后停止，以便用户在视频分段结束后，安静环境中实操视频分段讲授的步骤；另外，用户可能需要在终端设备播放目标目录标签对应的视频分段后继续播放下一阶段的操作内容，实现连贯的观看；此外，由于目标目录标签对应的视频分段讲授内容的重要性或难度，可能用户还需要循环播放这一视频分段，显然重复提供触发操作在循环播放的需求下也是比较繁琐的。

面对以上多种可能的需求，本申请实施例提供了S202的又一种实现方式。在该实现方式中，设置有播放模式选择模块，该模块展示了多种播放模式。作为示例，多种播放模式包括：单次播放模式、循环播放模式和依序播放模式中的至少两种。播放模式选择模块可以展示于视频播放窗口内，也可以展示在视频播放窗口外。可以将该播放模式选择模块视为一个可视化的功能组件。图6为本申请实施例提供的一种在视频播放窗口内展示的播放模式选择模块601的示意图。该实现方式中，S202包括：

响应于对目标目录标签的触发操作，展示播放模式选择模块；响应于对多种播放模式中目标播放模式的选择操作，将目标视频的播放进度调整至目标目录标签对应的视频播放节点后，依据目标播放模式播放目标目录标签对应的视频分段。

选择操作可以通过点击、长按等多种可选的操作中任意一个实现，具体根据设定确定选择操作的类型。此处对针对播放模式的选择操作的具体实现不做限定。在本方案中，调整视频播放进度的操作由用户选定目标播放模式后执行。例如用户通过选择操作选择单次播放模式为目标播放模式，则在用户提供对单次播放模式的选择操作后，即调整目标视频的播放进度，对目标目录标签的视频分段进行播放。此外，还可以再调整目标视频的播放进度的同时，或者目标目录标签对应的视频分段开始播放后，展示播放模式选择模块，以便用户通过施加选择操作选择出目标播放模式。随后，播放的视频分段将以选定好的目标播放模式进行播放。下面针对几种示例选择的播放模式介绍视频分段播放的实现方式。

1)当目标播放模式为单次播放模式时，依据目标播放模式播放目标目录标签对应的视频分段，包括：

从目标目录标签对应的视频播放节点开始播放，当目标视频的播放进度到达目标目录标签对应的视频停播节点后，停止播放目标视频。如此，满足用户对视频分段仅单次播放的需求，给用户提供了消化学习内容、实际操作的安静环境。

2)当目标播放模式为循环播放模式时，依据目标播放模式播放目标目录标签对应的视频分段，包括：

从目标目录标签对应的视频播放节点开始播放，当目标视频的播放进度到达目标目录标签对应的视频停播节点后，将目标视频的播放进度重新调整至目标目录标签对应的视频播放节点，如此循环。这样，满足了用户重复多次观看该视频分段的需求。

3)当目标播放模式为依序播放模式时，依据目标播放模式播放目标目录标签对应的视频分段，包括：

从目标目录标签对应的视频播放节点开始播放，当目标视频的播放进度到达目标目录标签对应的视频停播节点后，不停止播放目标视频。即，继续播放该视频分段之后的视频画面。如此，满足用户对视频教学内容连续观看的需求。

在前面的实施例中对基于视频目录播放视频的实现方式展开了较为详细的说明。为了便于理解视频目录的作用机理，下面结合附图介绍本申请实施例提供的生成视频目录的方法。

图7为本申请实施例提供的一种生成视频目录的方法的流程图。如图7所示，生成视频目录的方法包括：

S701：基于目标视频的多个待识别步骤识别目标视频中的图像内容，确定目标视频中与多个待识别步骤分别对应的图像帧。

本申请实施例中，为了生成视频目录，首先需要对视频中的图像内容进行识别。从而便于后续对视频进行分段，形成划分明确的多个分段。目标视频具体是指需要生成视频目录的任意一个视频。对于目标视频而言，在进行图像识别时，具有明确的多个待识别步骤。

目标视频的多个待识别步骤可以基于目标视频所属的领域确定。在一种可能的实现方式中，每个视频具有领域标签，该领域标签可以是视频平台运营人员基于视频内容为视频添加的，另外也可以会上传视频的用户为视频添加的，此外还可以是基于视频的标题通过语义识别确定出来的。此处对视频领域标签的添加方式不做限制。作为示例，多种可选的领域标签包括：“美妆”、“烹饪”、“手工制作”、“软件”等等。

领域标签与待识别步骤具有映射关系。例如领域标签“美妆”对应的多个待识别步骤包括：底妆、眼妆、修容等；领域标签“烹饪”对应的多个待识别步骤包括：材料准备、下锅、摆盘等。每一种领域标签对应的多个待识别步骤可以是运营人员认为基于某领域视频的共性设定出来的，也可以是通过对大量同领域的视频的内容以智能算法确定出来的。

在本申请实施例S701执行之前，该方法可以首先确定目标视频的领域标签；其后，根据领域标签与待识别步骤的映射关系，基于目标视频的领域标签确定目标视频的多个待识别步骤。作为示例，如果目标视频的领域标签是“烹饪”，则基于前述的领域标签与待识别步骤的映射关系，可以确定目标视频的多个待识别步骤包括：材料准备、下锅和摆盘。

目标视频的多个待识别步骤相当于给出了对目标视频进行图像内容识别的模板。本步骤的主要目的是构建出视频中图像与模板中各待识别步骤的联系。本方案的实现主体为视频后台，该视频后台可以是终端设备，也可以是服务器。视频后台可以通过调用成熟的用于图像识别的接口，以所调用的接口来进行图像内容的识别。在识别图像时，能够读取图像中的语义，从而，确定出与目标视频的多个待识别步骤分别对应的图像帧。对图像内容识别属于比较成熟的技术，可以应用多种算法实现，此处不展开详述。

S702：以待识别步骤作为依据，基于目标视频中图像帧与待识别步骤的对应关系，从目标视频中确定出多个第一类视频分段。

结合前面的示例，待识别步骤1(材料准备)对应于一系列图像帧，待识别步骤2(下锅)对应一系列图像帧，待识别步骤3(摆盘)对应一系列图像帧。可以根据不同的待识别步骤，从目标视频确定出3个第一类视频分段。此处第一类视频分段是指通过识别图像内容并基于给定的多个待识别步骤确定出的视频分段。举例而言，如果待识别步骤2对应的图像帧分布在整个目标视频的时刻c1到时刻d1，则确定出待识别步骤2对应的第一类视频分段从目标视频的时刻c1到时刻d1。

S703：根据待识别步骤生成第一类视频分段的目录标签。

在一种可能的实现方式中，将待识别步骤的文字描述作为所生成的第一类视频分段的目录标签。例如生成目录标签：“材料准备”、“下锅”和“摆盘”。

在另一种可能的实现方式中，在待识别步骤的文字描述的基础上添加步骤执行序号，生成目录标签。例如生成目录标签：“1、材料准备”、“2、下锅”和“3、摆盘”。

S704：根据第一类视频分段的起始时间节点确定第一类视频分段的目录标签对应的视频播放节点。

为了使生成的视频目录能够实现前述实施例中介绍的视频播放方法中，响应对目标目录标签的触发操作来调整视频的播放进度，在本申请实施例中，还需要确定出每一个第一类视频分段的目录标签对应的视频播放节点。

实际应用中，视频播放节点可以是这一第一类视频分段的起始时间节点(即第一帧的播放时间点)。另外，在一些可能的实现场景中，为了便于用户回顾该视频分段之前的一个操作的执行内容，还可以将视频播放节点设定为这一第一类视频分段的起始时间节点之前若干时间的位置。例如，若干时间取3秒钟。如此，用户在观看重点关注的步骤之前，还能够浏览到前一步骤的执行结果。进而提升了用户的观看体验。

S705：根据目录标签与视频播放节点的对应关系生成目标视频的视频目录。

在本申请实施例中，目录标签与视频播放节点是一一对应的关系。基于此对应关系便可以生成目标视频的视频目录。视频目录包括多个目录标签，目标目录标签为多个目录标签之一，具体是指被触发的目录标签。上述目录标签与视频播放节点的对应关系不但可以存储在视频后台，如果视频后台不在服务器，该对应关系还可以上传到服务器，以便在视频于终端设备播放期间调取服务器中目录标签与视频播放节点的对应关系，以备任何播放时机用户对目录标签可能产生的触发操作。目标目录标签能够在受到触发后，将目标视频的播放进度调整至目标目录标签对应的视频播放节点，以播放目标目录标签对应的第一类视频分段。

以上即为本申请实施例提供的一种生成视频目录的方法。该方法中，基于待识别步骤识别图像内容，找到图像与待识别步骤之间的联系，从而实现了基于待识别步骤的视频分段。在此基础上，通过生成目录标签和提取每一个第一类视频分段的视频播放节点，构建出二者之间的联系，并进一步生成了目标视频的视频目录。由于目录标签与第一类视频分段的视频播放节点具有一一对应关系，因此在目标目录标签受到触发后，本方案生成的视频目录能够使目标视频的播放进度准确调整到该目标目录标签对应的视频播放节点，从而播放出用户重点关注的目标目录标签指向的视频内容。该方案生成的视频目录通过提供多个与待识别步骤相关的目录标签，且目录标签能够在触发操作下，辅助实现对视频播放进度的调整，因此，便利用户观看视频时对视频分享的特定内容的准确定位，提升了用户学习视频内容的效率。

在一些知识分享类视频中，视频制作者(例如视频的上传者)为了提升用户的观感，增强观众对视频内容理解的准确性，通常会提供字幕。字幕可以是对操作步骤的介绍，也可以是与视频中讲解音同步出现的文字说明。图8A-图8C提供了视频中的三张截图，从图中可以看到文本内容。图上呈现的文本通常和图像内容具有紧密联系的，例如文本为“盐少许”，画面上也呈现出少许的盐调料。基于视频中的文本可以实现更加准确的视频划分，从而使生成的视频目录更加精确。以下结合实施例介绍另一种生成视频目录的方法。

参见图9，该图为本申请实施例提供的另一种生成视频目录的方法流程图。如图9所示的方法包括：

S901：基于目标视频的多个待识别步骤识别目标视频中的图像内容，确定目标视频中与多个待识别步骤分别对应的图像帧。

S902：以待识别步骤作为依据，基于目标视频中图像帧与待识别步骤的对应关系，从目标视频中确定出多个第一类视频分段。

S903：根据待识别步骤生成第一类视频分段的目录标签。

以上S901-S903的实现方式与前述实施例中S701-S703的实现方式基本相同，因此可参照前述实施例，此处对S901-S903不再赘述。

S904：通过目标视频中的文本内容进行识别，获得多个类型的语义信息。

本步骤可以通过光学字符识别(Optical Character Recognition,OCR)技术实现。在可能的实现方式中进行如下操作：

(1)对视频的图像进行预处理，例如对图像进行平滑、版面分析和倾斜度校正。预处理的目的是为后续操作提供更加便于准确识别文字的图像，改善原始图像的质量。

(2)确定出视频图像中的文字所在的区域或文字行。

(3)文字所在的区域或文字行作为字符点阵图像，将字符点帧图像转换为文本文字，以便文本处理。

(4)根据上下文利于语言句法约束关系，对识别出的文本进行后处理，

得到相对准确的文本内容识别结果。

通过以上操作，能够提取出每一帧图像的文字语义。这些语义信息的类型可能存在差别，例如，时间间距较远的两帧图像的语义可能相差较大，时间间距较近的两帧图像的语义可能比较接近。语义信息的类型依据文本内容可能存在多种可能，此处不做限定。具体实现时可以将识别出的语义信息进行相关性分析，从而划分为多个类别。

S905：从目标视频中确定与多个类型的语义信息分别对应的图像帧。

例如，在S904中获得了3个类型的语义信息，由于语义信息是基于图像帧的文本内容提取出来的，因此，很容易在目标视频中确定出每一种类型的语义信息分别对应的图像帧。

S906：以语义信息的类型作为依据，基于目标视频中图像帧与语义信息的类型的对应关系，从目标视频中确定出多个第二类视频分段。

例如三类语义信息对应的图像帧分别分布在时刻a2到时刻b2，时刻c2到时刻d2，时刻e2到时刻f2，如此，得到从时刻a2到时刻b2，时刻c2到时刻d2，时刻e2到时刻f2的3个第二类视频分段。此处第二类视频分段是指通过识别文本内容，基于语义信息的分类确定出的视频分段。

在本申请实施例中，由于第二类视频分段的划分依据与第一类视频分段的划分依据不同，且视频图像中文本内容通常是更加准确、出现的时机与视频分享的内容较为贴切的，因此，可以用第二类视频分段的相关信息去修正第一类视频分段的相关信息。为了实现准确的修正，通过S907的操作构建两种视频分段的关联。

S907：根据语义信息的类型与待识别步骤的关联，确定第二类视频分段与第一类视频分段的对应关系。

假设语义信息被划分为3类，分别是食材介绍类、烹饪条件类和菜品赏析类，则可以将这3类分别对应到3个待识别步骤。例如，食材介绍类对应于材料准备步骤，烹饪条件类对应于下锅步骤，菜品赏析类对应于摆盘步骤。由于第一类视频分段是基于待识别步骤确定的，第二类视频分段是基于寓意信息的类型确定的，因此相应地可以确定出两类视频分段的对应关系。

S908：利用第二类视频分段对具有对应关系的第一类视频分段进行时间修正。

此处，时间修正包括但不限于：视频分段的起始时间节点和/或结束时间节点。当相互对应的第二类视频分段和第一类视频分段的起始时间节点不一致时，通过第二类视频分段的起始时间节点修正第一类视频分段的起始时间节点；当相互对应的第二类视频分段和第一类视频分段的结束时间节点不一致时，通过第二类视频分段的结束时间节点修正第一类视频分段的结束时间节点。

在修正时，包含多种可选的修正方式。例如，可以首先确定在时间修正方面相互对应的第二类视频分段和第一类视频分段的相对优先级。其后基于优先级来决定如何实施修正。下面示例性地介绍两种修正方案：

(1)当第二类视频分段的优先级高于第一类视频分段的优先级时，以第二类视频分段的起始时间节点和结束时间节点分别替换第一类视频分段的起始时间节点和结束时间节点。例如c1≠c2，d1≠d2，则将第一类视频分段的起始时间节点c1替换为c2，将第一类视频分段的结束时间节点d1替换为d2。也就是说，在第二类视频分段的优先级高时，将第二类视频分段在时间修正方面的权重置1。

(2)当第二类视频分段的优先级与第一类视频分段的优先级相同时，将第二类视频分段的起始时间节点和第一类视频分段的起始时间节点取平均值，以替换第一类视频分段的起始时间节点；将第二类视频分段的结束时间节点和第一类视频分段的结束时间节点取平均值，以替换第一类视频分段的结束时间节点。例如c1≠c2，d1≠d2，则将第一类视频分段的起始时间节点c1替换为(c1+c2)/2，将第一类视频分段的结束时间节点d1替换为(d1+d2)/2。也就是说，在第二类视频分段的优先级与第一类视频分段的优先级相同时，将第二类视频分段和第一类视频分段在时间修正方面的权重均置为0.5。

下面介绍一种确定在时间修正方面相互对应的第二类视频分段和第一类视频分段的相对优先级的方式。

当第二类视频分段中文本内容的语义信息包含步骤执行序数(例如1、2、3等)时，表示第二类视频分段中文本内容的语义信息更加可信，此时确定第二类视频分段的优先级高于第一类视频分段的优先级。而当第二类视频分段中文本内容的语义信息未包含步骤执行序数时，无法确定在时间方面第二类视频分段具有高于第一类视频分段的优先级，此时，认为第二类视频分段的优先级与第一类视频分段的优先级相同。

S909：根据第一类视频分段的起始时间节点确定第一类视频分段的目录标签对应的视频播放节点。

在S908已经对时间进行了修正，因此S909具体可以是根据修正后的时间来确定第一类视频分段的目录标签对应的视频播放节点。

此外，还可以根据第一类视频分段的结束时间节点(指修正后的)来确定第一类视频分段的目录标签对应的视频停播节点。视频停播节点的作用是指示对第一类视频分段的单次播放完成。参见在前述实施例中介绍的视频播放方法中关于视频播放模式选择部分，关于视频停播节点的相关作用描述。

S910：根据目录标签与视频播放节点的对应关系生成目标视频的视频目录。

以上实施例中，通过从目标视频中分划出多个第二类视频分段，以第二类视频分段对具有对应关系的第一类视频分段进行时间修正，能够辅助生成更加准确的视频目录。从而在触发目标目录标签时，调整的播放进度更加精准。

此外，第二类视频分段不但可以用来校正第一类视频分段的时间，还可以用来修正目录标签，是目录标签包含更加准确地语义信息。这是因为第二类视频分段的语义信息是基于文本内容识别得到的，第一类视频分段的划分依据则是从图像而来，显然第二类视频分段的语义信息转换过程少，更加真实可信。因此可以利用第二类视频分段中文本内容的语义信息，对与第二类视频分段具有对应关系的第一类视频分段的目录标签进行修正。例如，依据第一类视频分段得到的目录标签是“肉”，而通过文本识别则可以得到更加准确地目录标签“鸡肉”。

在一些可能的实施例中，对于视频分段过长的情况，可以通过细分的方式，使视频目录中目录标签更加精准细致。具体实现时，根据待识别步骤生成第一类视频分段的目录标签，可以包括：

当第一类视频分段的长度超过预设时长时，根据第一类视频分段的图像帧中待识别步骤的作用对象，将第一类视频分段细分为多个子分段；

根据子分段对应的作用对象以及待识别步骤，生成子分段的目录标签。

例如，预设时长为40秒，“材料准备”这一待识别步骤对应的第一类视频分段的长度超出40秒，具体占据了1分钟，则可以识别步骤的作用对象。例如0-20秒在准备鸡蛋，21秒-45秒在准备肉，46秒-60秒在准备青菜。其中鸡蛋、肉和青菜分别为是那种材料准备的作用对象。因此，可以将第一类视频分段细分为3段子分段。形成3个子分段的目录标签：“鸡蛋材料准备”、“肉材料准备”和“青菜材料准备”。子分段的目录标签也可展示到视频目录中，此外也可以记录每个子分段的视频播放节点，子分段的目录标签受到触发操作也可以调整视频播放进度到子分段的目录标签对应的视频播放节点。图10展示了一种包含子分段的目录标签的视频目录示意图。

由于视频分段的细分，可能产生较多数量的子分段。而视频目录中不适合罗列过多数量的目录标签。这样一方面容易阻挡用户观看视频内容的视野，另一方面也不简洁，给用户呈现的信息量过于庞杂。为解决此问题，可以按照子分段的时长排序。例如，当目标视频中的子分段的总数超出预设数目时，保留目标视频中时长较长的预设数目个子分段的目录标签。例如，预设数目为6，如果子分段数量超出6，则在视频目录中保留6个时长较长的子分段的目录标签。

基于前述实施例提供的视频播放方法，相应地，本申请还提供了一种视频播放装置。

图11为一种视频播放装置的结构示意图。如图11所示的视频播放装置1100包括：

播放单元1101，用于响应于对目标视频的播放操作播放目标视频；

展示单元1102，用于响应于对目标视频的播放操作展示目标视频的视频目录；视频目录包括多个目录标签，多个目录标签分别对应目标视频中不同的视频分段；

进度调整单元1103，用于响应于对多个目录标签中目标目录标签的触发操作，将目标视频的播放进度调整至目标目录标签对应的视频播放节点；

播放单元1101，还用于根据进度调整单元1103调整过的播放进度，播放目标目录标签对应的视频分段。

可选地，展示单元1102还用于响应于对目标目录标签的触发操作，在预设时间内展示目标目录标签对应的视频分段的示意图；

进度调整单元1103，具体用于在预设时间结束后将目标视频的播放进度调整至目标目录标签对应的视频播放节点。

可选地，展示单元1102还用于响应于对目标目录标签的触发操作，展示目标目录标签对应的视频分段的示意图；

进度调整单元1103，具体用于响应于对示意图的确认操作，将目标视频的播放进度调整至目标目录标签对应的视频播放节点。

可选地，展示单元1102还用于响应于对目标目录标签的触发操作，展示播放模式选择模块；播放模式选择模块包括多种播放模式；

进度调整单元1103，具体用于响应于对多种播放模式中目标播放模式的选择操作，将目标视频的播放进度调整至目标目录标签对应的视频播放节点；

播放单元1101，具体用于依据目标播放模式播放目标目录标签对应的视频分段。

可选地，多种播放模式包括：单次播放模式、循环播放模式和依序播放模式中的至少两种；

当目标播放模式为单次播放模式时，播放单元1101，具体用于从目标目录标签对应的视频播放节点开始播放，当目标视频的播放进度到达目标目录标签对应的视频停播节点后，停止播放目标视频；

当目标播放模式为循环播放模式时，播放单元1101，具体用于从目标目录标签对应的视频播放节点开始播放，当目标视频的播放进度到达目标目录标签对应的视频停播节点后，将目标视频的播放进度重新调整至目标目录标签对应的视频播放节点，如此循环；

当目标播放模式为依序播放模式时，播放单元1101，具体用于从目标目录标签对应的视频播放节点开始播放，当目标视频的播放进度到达目标目录标签对应的视频停播节点后，不停止播放目标视频。

可选地，展示单元1102具体用于在预设区域展示视频目录；预设区域为以下任意一种：

目标视频的播放窗口内边缘、播放进度条或者播放窗口外部的目录展示窗口。

可选地，展示单元1102还用于以预设展示方式展示视频目录中被触发的目录标签，预设展示方式区别于多个目录标签中未被触发的目录标签的展示方式。

基于前述实施例提供的生成视频目录的方法，相应地，本申请还提供了一种生成视频目录的装置。

图12为一种生成视频目录的装置的结构示意图。如图12所示，生成视频目录的装置1200包括：

图像识别单元1201，用于基于目标视频的多个待识别步骤识别目标视频中的图像内容，确定目标视频中与多个待识别步骤分别对应的图像帧；

分段确定单元1202，用于以待识别步骤作为依据，基于目标视频中图像帧与待识别步骤的对应关系，从目标视频中确定出多个第一类视频分段；

标签生成单元1203，用于根据待识别步骤生成第一类视频分段的目录标签；

节点确定单元1204，用于根据第一类视频分段的起始时间节点确定第一类视频分段的目录标签对应的视频播放节点；

目录生成单元1205，用于根据目录标签与视频播放节点的对应关系生成目标视频的视频目录；视频目录包括多个目录标签，其中，目标目录标签用于在受到触发后，将目标视频的播放进度调整至目标目录标签对应的视频播放节点，以播放目标目录标签对应的第一类视频分段。

可选地，生成视频目录的装置1200还可以包括：

文本识别单元，用于通过目标视频中的文本内容进行识别，获得多个类型的语义信息；

分类单元，用于从目标视频中确定与多个类型的语义信息分别对应的图像帧；

分段确定单元1202，还用于以语义信息的类型作为依据，基于目标视频中图像帧与语义信息的类型的对应关系，从目标视频中确定出多个第二类视频分段；

生成视频目录的装置1200还可以包括：

视频分段对应关系确定单元，用于根据语义信息的类型与待识别步骤的关联，确定第二类视频分段与第一类视频分段的对应关系；

修正单元，用于利用第二类视频分段对具有对应关系的第一类视频分段进行时间修正。

可选地，生成视频目录的装置1200还可以包括：

节点确定单元1204，还用于根据第一类视频分段的结束时间节点确定第一类视频分段的目录标签对应的视频停播节点；第一类视频分段的目录标签对应的视频停播节点用于指示对第一类视频分段的单次播放完成；

修正单元，包括：

第一修正子单元，用于当相互对应的第二类视频分段和第一类视频分段的起始时间节点不一致时，通过第二类视频分段的起始时间节点修正第一类视频分段的起始时间节点；

第二修正子单元，用于当相互对应的第二类视频分段和第一类视频分段的结束时间节点不一致时，通过第二类视频分段的结束时间节点修正第一类视频分段的结束时间节点。

可选地，生成视频目录的装置1200还可以包括：

优先级确定单元，用于确定在时间修正方面相互对应的第二类视频分段和第一类视频分段的相对优先级；

修正单元，用于当第二类视频分段的优先级高于第一类视频分段的优先级时，以第二类视频分段的起始时间节点和结束时间节点分别替换第一类视频分段的起始时间节点和结束时间节点；当第二类视频分段的优先级与第一类视频分段的优先级相同时，将第二类视频分段的起始时间节点和第一类视频分段的起始时间节点取平均值，以替换第一类视频分段的起始时间节点；将第二类视频分段的结束时间节点和第一类视频分段的结束时间节点取平均值，以替换第一类视频分段的结束时间节点。

可选地，优先级确定单元用于当第二类视频分段中文本内容的语义信息包含步骤执行序数时，确定第二类视频分段的优先级高于第一类视频分段的优先级；当第二类视频分段中文本内容的语义信息未包含步骤执行序数时，确定第二类视频分段的优先级与第一类视频分段的优先级相同。

可选地，修正单元还用于利用第二类视频分段中文本内容的语义信息，对与第二类视频分段具有对应关系的第一类视频分段的目录标签进行修正。

可选地，生成视频目录的装置1200还可以包括：

领域标签确定单元，用于确定目标视频的领域标签；

待识别步骤确定单元，用于根据领域标签与待识别步骤的映射关系，基于目标视频的领域标签确定目标视频的多个待识别步骤。

可选地，标签生成单元1203用于当第一类视频分段的长度超过预设时长时，根据第一类视频分段的图像帧中待识别步骤的作用对象，将第一类视频分段细分为多个子分段；根据子分段对应的作用对象以及待识别步骤，生成子分段的目录标签。

可选地，生成视频目录的装置1200还可以包括：

标签筛选单元，用于当目标视频中的子分段的总数超出预设数目时，保留目标视频中时长较长的预设数目个子分段的目录标签。

图13是本申请实施例提供的一种服务器结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。

其中，CPU 922用于执行如下步骤：

根据待识别步骤生成第一类视频分段的目录标签；

本申请实施例还提供了另一种视频播放设备、一种生成视频目录的设备，如图14所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图14示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图14，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图14中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivision Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图14中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1080还具有以下功能：

或者，在本申请实施例中，该终端所包括的处理器1080还具有以下功能：

根据待识别步骤生成第一类视频分段的目录标签；

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例的一种视频播放方法或者生成视频目录的方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例的一种视频播放方法或者生成视频目录的方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频播放方法，其特征在于，包括：

响应于对目标视频的播放操作播放所述目标视频，并展示所述目标视频的视频目录；所述视频目录包括多个目录标签，所述多个目录标签分别对应所述目标视频中不同的视频分段；

响应于对所述多个目录标签中目标目录标签的触发操作，通过将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点，播放所述目标目录标签对应的视频分段；

其中，所述视频目录是通过以下方式生成的：

基于所述目标视频的多个待识别步骤识别所述目标视频中的图像内容，确定所述目标视频中图像帧与所述待识别步骤的对应关系，以从所述目标视频中确定出多个第一类视频分段，并根据所述待识别步骤生成所述第一类视频分段的目录标签；

通过对所述目标视频中的文本内容进行识别，获得多个类型的语义信息，并确定所述目标视频中图像帧与语义信息的类型的对应关系，以从所述目标视频中确定出多个第二类视频分段；

根据所述语义信息的类型与所述待识别步骤的关联，确定所述第二类视频分段与所述第一类视频分段的对应关系，并利用所述第二类视频分段对具有对应关系的所述第一类视频分段进行时间修正；

根据所述第一类视频分段的起始时间节点确定所述第一类视频分段的目录标签对应的视频播放节点，并根据目录标签与视频播放节点的对应关系生成所述目标视频的视频目录。

2.根据权利要求1所述的方法，其特征在于，所述响应于对所述多个目录标签中目标目录标签的触发操作，通过将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点，播放所述目标目录标签对应的视频分段，包括：

响应于对所述目标目录标签的触发操作，在预设时间内展示所述目标目录标签对应的视频分段的示意图，并在所述预设时间结束后将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点，播放所述目标目录标签对应的视频分段。

3.根据权利要求1所述的方法，其特征在于，所述响应于对所述多个目录标签中目标目录标签的触发操作，通过将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点，播放所述目标目录标签对应的视频分段，包括：

响应于对所述目标目录标签的触发操作，展示所述目标目录标签对应的视频分段的示意图；

响应于对所述示意图的确认操作，将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点，播放所述目标目录标签对应的视频分段。

4.根据权利要求1所述的方法，其特征在于，所述响应于对所述多个目录标签中目标目录标签的触发操作，通过将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点，播放所述目标目录标签对应的视频分段，包括：

响应于对所述目标目录标签的触发操作，展示播放模式选择模块；所述播放模式选择模块包括多种播放模式；

响应于对所述多种播放模式中目标播放模式的选择操作，将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点后，依据所述目标播放模式播放所述目标目录标签对应的视频分段。

5.根据权利要求4所述的方法，其特征在于，所述多种播放模式包括：单次播放模式、循环播放模式和依序播放模式中的至少两种；

当所述目标播放模式为所述单次播放模式时，所述依据所述目标播放模式播放所述目标目录标签对应的视频分段，包括：

从所述目标目录标签对应的视频播放节点开始播放，当所述目标视频的播放进度到达所述目标目录标签对应的视频停播节点后，停止播放所述目标视频；

当所述目标播放模式为所述循环播放模式时，所述依据所述目标播放模式播放所述目标目录标签对应的视频分段，包括：

从所述目标目录标签对应的视频播放节点开始播放，当所述目标视频的播放进度到达所述目标目录标签对应的视频停播节点后，将所述目标视频的播放进度重新调整至所述目标目录标签对应的视频播放节点，如此循环；

当所述目标播放模式为所述依序播放模式时，所述依据所述目标播放模式播放所述目标目录标签对应的视频分段，包括：

从所述目标目录标签对应的视频播放节点开始播放，当所述目标视频的播放进度到达所述目标目录标签对应的视频停播节点后，不停止播放所述目标视频。

6.根据权利要求1所述的方法，其特征在于，所述展示所述目标视频的视频目录，包括：

在预设区域展示所述视频目录；所述预设区域为以下任意一种：

所述目标视频的播放窗口内边缘、播放进度条或者所述播放窗口外部的目录展示窗口。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

以预设展示方式展示所述视频目录中被触发的目录标签，所述预设展示方式区别于所述多个目录标签中未被触发的目录标签的展示方式。

8.一种生成视频目录的方法，其特征在于，包括：

基于目标视频的多个待识别步骤识别目标视频中的图像内容，确定所述目标视频中与所述多个待识别步骤分别对应的图像帧；

以所述待识别步骤作为依据，基于所述目标视频中图像帧与所述待识别步骤的对应关系，从所述目标视频中确定出多个第一类视频分段；

根据所述待识别步骤生成所述第一类视频分段的目录标签；

通过对所述目标视频中的文本内容进行识别，获得多个类型的语义信息；

从所述目标视频中确定与所述多个类型的语义信息分别对应的图像帧；

以语义信息的类型作为依据，基于所述目标视频中图像帧与语义信息的类型的对应关系，从所述目标视频中确定出多个第二类视频分段；

根据所述语义信息的类型与所述待识别步骤的关联，确定所述第二类视频分段与所述第一类视频分段的对应关系；

利用所述第二类视频分段对具有对应关系的所述第一类视频分段进行时间修正；

根据所述第一类视频分段的起始时间节点确定所述第一类视频分段的目录标签对应的视频播放节点；

根据目录标签与视频播放节点的对应关系生成所述目标视频的视频目录；所述视频目录包括多个所述目录标签，其中，目标目录标签用于在受到触发后，将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点，以播放所述目标目录标签对应的第一类视频分段。

9.根据权利要求8所述的方法，其特征在于，还包括：根据所述第一类视频分段的结束时间节点确定所述第一类视频分段的目录标签对应的视频停播节点；所述第一类视频分段的目录标签对应的视频停播节点用于指示对所述第一类视频分段的单次播放完成；

所述利用所述第二类视频分段对具有对应关系的所述第一类视频分段进行时间修正，包括：

当相互对应的第二类视频分段和第一类视频分段的起始时间节点不一致时，通过第二类视频分段的起始时间节点修正第一类视频分段的起始时间节点；当相互对应的第二类视频分段和第一类视频分段的结束时间节点不一致时，通过第二类视频分段的结束时间节点修正第一类视频分段的结束时间节点。

10.根据权利要求9所述的方法，其特征在于，还包括：确定在时间修正方面相互对应的第二类视频分段和第一类视频分段的相对优先级；

通过第二类视频分段的起始时间节点修正第一类视频分段的起始时间节点，通过第二类视频分段的结束时间节点修正第一类视频分段的结束时间节点，包括：

当第二类视频分段的优先级高于第一类视频分段的优先级时，以第二类视频分段的起始时间节点和结束时间节点分别替换第一类视频分段的起始时间节点和结束时间节点；

当第二类视频分段的优先级与第一类视频分段的优先级相同时，将第二类视频分段的起始时间节点和第一类视频分段的起始时间节点取平均值，以替换第一类视频分段的起始时间节点；将第二类视频分段的结束时间节点和第一类视频分段的结束时间节点取平均值，以替换第一类视频分段的结束时间节点。

11.根据权利要求10所述的方法，其特征在于，所述确定在时间修正方面相互对应的第二类视频分段和第一类视频分段的相对优先级，包括：

当第二类视频分段中文本内容的语义信息包含步骤执行序数时，确定第二类视频分段的优先级高于第一类视频分段的优先级；当第二类视频分段中文本内容的语义信息未包含步骤执行序数时，确定第二类视频分段的优先级与第一类视频分段的优先级相同。

12.根据权利要求8所述的方法，其特征在于，还包括：

利用所述第二类视频分段中文本内容的语义信息，对与所述第二类视频分段具有对应关系的所述第一类视频分段的目录标签进行修正。

13.根据权利要求8所述的方法，其特征在于，在所述基于目标视频的多个待识别步骤识别目标视频中的图像内容，确定所述目标视频中与所述多个待识别步骤分别对应的图像帧之前，所述方法还包括：

确定所述目标视频的领域标签；

根据领域标签与待识别步骤的映射关系，基于所述目标视频的领域标签确定所述目标视频的多个待识别步骤。

14.根据权利要求8所述的方法，其特征在于，所述根据所述待识别步骤生成所述第一类视频分段的目录标签，包括：

当所述第一类视频分段的长度超过预设时长时，根据所述第一类视频分段的图像帧中所述待识别步骤的作用对象，将所述第一类视频分段细分为多个子分段；

根据所述子分段对应的作用对象以及所述待识别步骤，生成所述子分段的目录标签。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

当所述目标视频中的子分段的总数超出预设数目时，保留所述目标视频中时长较长的所述预设数目个子分段的目录标签。

16.一种视频播放装置，其特征在于，包括：

播放单元，用于响应于对目标视频的播放操作播放所述目标视频；

展示单元，用于响应于对目标视频的播放操作展示所述目标视频的视频目录；所述视频目录包括多个目录标签，所述多个目录标签分别对应所述目标视频中不同的视频分段；

进度调整单元，用于响应于对所述多个目录标签中目标目录标签的触发操作，将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点；

所述播放单元，还用于根据所述进度调整单元调整过的播放进度，播放所述目标目录标签对应的视频分段；

其中，所述视频目录是通过以下方式生成的：

17.一种生成视频目录的装置，其特征在于，包括：

图像识别单元，用于基于目标视频的多个待识别步骤识别目标视频中的图像内容，确定所述目标视频中与所述多个待识别步骤分别对应的图像帧；

分段确定单元，用于以所述待识别步骤作为依据，基于所述目标视频中图像帧与所述待识别步骤的对应关系，从所述目标视频中确定出多个第一类视频分段；

标签生成单元，用于根据所述待识别步骤生成所述第一类视频分段的目录标签；

文本识别单元，用于通过对所述目标视频中的文本内容进行识别，获得多个类型的语义信息；

分类单元，用于从所述目标视频中确定与所述多个类型的语义信息分别对应的图像帧；

所述分段确定单元，还用于以语义信息的类型作为依据，基于所述目标视频中图像帧与语义信息的类型的对应关系，从所述目标视频中确定出多个第二类视频分段；

视频分段对应关系确定单元，用于根据所述语义信息的类型与所述待识别步骤的关联，确定所述第二类视频分段与所述第一类视频分段的对应关系；

修正单元，用于利用所述第二类视频分段对具有对应关系的所述第一类视频分段进行时间修正；

节点确定单元，用于根据所述第一类视频分段的起始时间节点确定所述第一类视频分段的目录标签对应的视频播放节点；

目录生成单元，用于根据目录标签与视频播放节点的对应关系生成所述目标视频的视频目录；所述视频目录包括多个所述目录标签，其中，目标目录标签用于在受到触发后，将所述目标视频的播放进度调整至所述目标目录标签对应的视频播放节点，以播放所述目标目录标签对应的第一类视频分段。

18.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的视频播放方法，或者执行权利要求8-15任一项所述的生成视频目录的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任一项所述的视频播放方法，或者执行权利要求8-15任一项所述的生成视频目录的方法。