CN113411674A

CN113411674A - 视频的播放控制方法、装置、电子设备及存储介质

Info

Publication number: CN113411674A
Application number: CN202110172148.3A
Authority: CN
Inventors: 黄海兵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-09-17

Abstract

本申请提供了一种视频的播放控制方法、装置、电子设备及计算机可读存储介质；涉及云技术以及人工智能技术，方法包括：响应于视频播放操作，播放所述视频；当所述视频的播放进度处于所述视频中任一个播放时间段时，获取所述播放时间段的情节单元对应的播放倍速；根据所述播放倍速播放所述情节单元；其中，所述情节单元对应的播放倍速是基于所述情节单元的视频特征、字幕特征和音频特征中的至少之一确定的。通过本申请，能够在视频播放过程中实现高效的动态播放倍速，提升人机交互效率。

Description

视频的播放控制方法、装置、电子设备及存储介质

技术领域

本申请涉及云技术和人工智能技术，尤其涉及一种视频的播放控制方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

人工智能技术可以应用于视频处理领域，例如通过人工智能技术向用户推荐在线视频，相关技术提供了设置视频的播放倍速的功能，以满足用户有重点地观看视频内容的需求，但是这种方式需要借助于频繁的用户操作以控制视频播放倍速，影响了人机交互效率。

发明内容

本申请实施例提供一种视频的播放控制方法、装置、电子设备及计算机可读存储介质，能够在视频播放过程中实现高效的动态播放倍速，提升人机交互效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频的播放控制方法，包括：

响应于视频播放操作，播放所述视频；

当所述视频的播放进度处于所述视频中任一个播放时间段时，获取所述播放时间段的情节单元对应的播放倍速；

根据所述播放倍速播放所述情节单元；

其中，所述情节单元对应的播放倍速是基于所述情节单元的视频特征、字幕特征和音频特征中的至少之一确定的。

本申请实施例提供一种视频的播放控制装置，包括：。

播放模块，用于响应于视频播放操作，播放所述视频；

倍速模块，用于当所述视频的播放进度处于所述视频中任一个播放时间段时，获取所述播放时间段的情节单元对应的播放倍速；

所述播放模块，用于根据所述播放倍速播放所述情节单元；

在上述方案中，所述倍速模块，还用于将所述视频划分为多个情节单元，确定每个所述情节单元的视频特征、字幕特征和音频特征；基于每个所述情节单元的视频特征、字幕特征和音频特征，确定所述情节单元对应的播放倍速。

在上述方案中，所述倍速模块，还用于针对每个所述情节单元执行以下处理：从所述情节单元提取多个视频帧，并对所述多个视频帧进行特征提取处理，以获得与所述多个视频帧一一对应的多个视频帧特征，将所述多个视频帧特征进行融合处理，以获得所述情节单元的视频特征；从所述情节单元提取字幕信息，并对所述字幕信息进行特征提取处理，以获得所述情节单元的字幕特征；从所述情节单元提取多个音频帧，并对所述多个音频帧进行特征提取处理，以获得与所述多个音频帧一一对应的多个音频帧特征，将所述多个音频帧特征进行融合处理，以获得所述情节单元的音频特征。

在上述方案中，所述倍速模块，还用于针对每个所述音频帧执行以下处理：将所述音频帧进行傅里叶变化，以获得对应的频谱帧；将所述频谱帧映射为多个声谱特征；将所述多个声谱特征进行组帧处理，以获得对应的音频帧特征。

在上述方案中，所述倍速模块，还用于将所述字幕特征、所述音频特征、以及所述视频特征进行融合处理，以获得融合特征；将所述融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为所述情节单元对应的播放倍速。

在上述方案中，所述倍速模块，还用于获取登录账号的用户信息；对所述用户信息进行特征提取，获得用户特征；将所述用户特征、所述字幕特征、所述音频特征、以及所述视频特征进行融合处理，以获得用户融合特征；将所述用户融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为所述情节单元对应的播放倍速。

在上述方案中，所述倍速模块，还用于通过以下方式之一将所述视频划分为多个情节单元：按照场景对所述视频进行划分处理；按照对话对所述视频进行划分处理；按照内容对所述视频进行划分处理；按照感兴趣对象的出现频率对所述视频进行划分处理。

在上述方案中，所述倍速模块，还用于对所述视频中的每个视频帧进行场景识别处理，得到所述每个视频帧所属的场景；将属于相同场景、且播放时间连续的多个视频帧确定为属于同一个情节单元，并将所述多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为所述情节单元的播放时间段。

在上述方案中，所述倍速模块，还用于对所述视频中的每个音频帧的发声对象进行身份识别处理；将属于相同发声对象、且播放时间连续的多个音频帧确定为属于同一个情节单元，并将所述多个音频帧具有的最小时间戳和最大时间戳之间的时间段，确定为所述情节单元的播放时间段。

在上述方案中，所述倍速模块，还用于对所述视频中的每个视频帧进行内容识别处理，得到所述每个视频帧所属的内容类型，其中，所述内容类型包括：所述视频的原生内容、在所述视频中插入的推荐信息；将属于相同内容类型、且播放时间连续的多个视频帧确定为属于同一个情节单元，并将所述多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为所述情节单元的播放时间段。

在上述方案中，所述倍速模块，还用于对所述视频中的每个视频帧进行对象识别处理，确定包含所述感兴趣对象的多个目标视频帧；在所述视频中，将所述多个目标视频帧的分布密度高于分布密度阈值的播放时间段，确定为所述情节单元的播放时间段。

在上述方案中，所述倍速模块，还用于通过以下方式至少之一确定所述视频中的过渡单元：确定每个所述情节单元的信息量，将信息量小于信息量阈值的情节单元作为过渡单元；将多个所述情节单元中用于衔接不同场景的情节单元确定为过渡单元；将多个所述情节单元中用于衔接不同对话的情节单元确定为过渡单元。

在上述方案中，所述倍速模块，还用于针对每个所述过渡单元执行以下处理：提取所述过渡单元的视频特征、字幕特征和音频特征；基于所述视频特征、字幕特征和音频特征，确定所述过渡单元对应的播放倍速；当所述视频的播放进度处于所述视频中任一个过渡单元的播放时间段时，在所述过渡单元的播放时间段中应用与所述过渡单元对应的播放倍速。

在上述方案中，所述倍速模块，还用于响应于针对所述情节单元的倍速设定操作，确定对应所述情节单元的更新播放倍速，以在所述情节单元的播放时间段结束之前应用与所述情节单元对应的更新播放倍速；根据所述更新播放倍速，对所述视频中的后续情节单元的播放倍速进行更新；其中，所述后续情节单元的播放时间段位于所述情节单元的播放时间段之后。

在上述方案中，所述倍速模块，还用于确定所述后续情节单元的特征向量与所述情节单元的特征向量之间的相似度；当所述相似度大于相似度阈值时，将所述情节单元采取的更新播放倍速，作为后续情节单元的播放倍速。

在上述方案中，所述倍速模块，还用于响应于针对所述情节单元的互动操作，将所述互动操作所针对的播放时间段确定为互动时间段；确定所述情节单元的播放时间段和所述互动时间段之间的相似度；当所述相似度大于时间段相似度阈值时，将所述视频中对应所述互动时间段的内容确定为互动单元，并根据所述互动单元更新所述情节单元。

在上述方案中，所述倍速模块，还用于将所述情节单元替换为所述互动单元；或者，将所述情节单元的播放开始时间和所述互动单元的播放开始时间的平均值确定为更新后的情节单元的播放开始时间，以及将所述情节单元的播放结束时间和所述互动单元的播放结束时间的平均值确定为更新后的情节单元的播放结束时间。

在上述方案中，所述播放模块，还用于响应于倍速播放功能触发操作，呈现动态倍速控件；响应于针对所述动态倍速控件的触发操作，确定将执行根据所述播放倍速播放所述情节单元的操作。

在上述方案中，所述播放模块，还用于呈现固定倍速控件；响应于针对所述固定倍速控件的触发操作，基于所述固定倍速控件中被设置的固定播放倍速播放所述视频。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的视频的播放控制方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本申请实施例提供的视频的播放控制方法。

本申请实施例具有以下有益效果：

将视频按照情节单元的视频特征、字幕特征和音频特征中的至少之一采取动态的播放倍速，使得播放倍速和情节单元的内容之间相匹配，节省了用户人工介入调整播放倍速的操作，从而提高了人机交互效率。

附图说明

图1是本申请实施例提供的视频的播放控制系统100的架构示意图；

图2是本申请实施例提供的终端400的结构示意图；

图3是本申请实施例提供的视频的播放控制方法的流程示意图；

图4是本申请实施例提供的视频的播放控制方法的流程示意图；

图5是本申请实施例提供的视频的播放控制方法的流程示意图；

图6是本申请实施例提供的视频的播放控制方法的应用场景示意图；

图7是本申请实施例提供的视频的播放控制方法的流程示意图；

图8是本申请实施例提供的视频的播放控制方法的原理示意图；

图9是本申请实施例提供的视频的播放控制方法的原理示意图；

图10是本申请实施例提供的视频的播放控制方法的应用场景示意图；

图11是本申请实施例提供的视频的播放控制方法的原理示意图；

图12是本申请实施例提供的视频的播放控制方法的应用场景示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以包括所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)客户端，终端中运行的用于提供各种服务的应用程序，例如视频客户端和短视频客户端等。

2)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以包括实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

3)播放倍速，是相对于正常播放速度(即按照视频中设定的帧率播放的速度)的倍数，按照比例加快或减慢视频播放速度，例如播放倍速为2倍速，则可以在10秒时间内播放完按照视频的正常播放速度20秒播放的内容，即相当于快速播放；例如播放倍速为0.5倍速，则可以在10秒时间内播放完按照视频的正常播放速度5秒才能播放的内容，即相当于慢速播放。

相关技术通常是基于用户手动选择的固定倍速进行视频播放，在视频的播放过程中若用户对当前的播放速度不满意，则响应于用户的固定倍速选择操作，按照用户所选择的固定倍速继续播放视频，该过程中并不存在智能化的动态倍速功能。虽然相关技术中的固定倍速播放功能可以满足部分用户的使用需求，但是视频的完整内容所包括的情节通常是跌宕起伏的，用户在观看过程中通常希望在视频的精彩内容处正常倍速观看，而在视频的无聊内容(例如广告)处快速观看，基于相关技术中提供的固定倍速播放功能，无法满足上述灵活控制播放速度的观看需求。

针对上述技术问题，本申请实施例提供一种视频的播放控制方法、装置、电子设备和计算机可读存储介质，能够为每个视频在不同的情节单元的播放时间段推荐不同的播放倍速，从而提高人机交互效率，进而提升用户的观看体验。

本申请实施例提供的视频的播放控制方法可以由终端设备(下文简称为终端)独自实施，例如，终端对视频进行划分得到多个情节单元，并基于情节单元的视频特征、字幕特征和音频特征中的至少之一确定与多个情节单元一一对应的播放倍速，在视频的播放过程中将播放倍速应用于对应的情节单元，从而实现适应于不同情节单元的动态倍速播放功能。终端播放的视频可以包括离线场景下的本地视频，也可以包括在线场景下从服务器获取的视频。

在一些实施例中，终端的类型可以包括笔记本电脑、平板电脑、台式计算机、机顶盒、以及移动设备(例如，移动电话、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备)等。

本申请实施例提供的视频的播放控制方法也可以由终端和服务器协同实施。例如，服务器对视频进行划分得到多个情节单元，并基于情节单元的视频特征、字幕特征和音频特征中的至少之一确定与多个情节单元一一对应的播放倍速；终端从服务器获取视频中每个情节单元的播放时间段、以及每个情节单元的播放倍速，并在播放视频的过程中将播放倍速应用于对应的情节单元，从而实现适应于不同情节单元的动态倍速播放功能。

下面，以本申请实施例提供的视频的播放控制方法由终端和服务器协同实施为例进行详细说明。参见图1，图1是本申请实施例提供的视频的播放控制系统100的架构示意图。视频的播放控制系统100包括：服务器200、网络300、以及终端400，将分别进行说明。

服务器200，是视频客户端410的后台服务器，用于将视频划分为多个情节单元，并基于情节单元的视频特征、字幕特征和音频特征中的至少之一确定情节单元对应的播放倍速；还用于响应视频客户端410的视频播放请求，向视频客户端410发送视频、以及视频播放速度数据；其中，视频播放速度数据包括视频中每个情节单元的播放时间段和对应的播放倍速。

网络300，用于作为服务器200和终端400之间通信的媒介，可以包括广域网或者局域网，又或者是二者的组合。

终端400，用于运行视频客户端410，视频客户端410用于响应于用户的视频播放操作，向服务器200发送视频播放请求；还用于接收服务器200发送的视频和视频播放速度数据，并根据视频播放速度数据中的播放倍速播放视频。

在一些实施例中，终端400通过运行计算机程序来实现本申请实施例提供的视频的播放控制方法，例如，计算机程序可以包括操作系统中的原生程序或软件模块；也可以包括本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，例如视频APP(例如上文所述的视频客户端410)或短视频APP；也可以包括小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以包括能够嵌入至任意APP中的视频小程序。总而言之，上述计算机程序可以包括任意形式的应用程序、模块或插件。

本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，例如，视频的门户网站。

作为示例，服务器200可以包括独立的物理服务器，也可以包括多个物理服务器构成的服务器集群或者分布式系统，还可以包括提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

接下来说明图1中的终端400的结构。参见图2，图2是本申请实施例提供的终端400的结构示意图，图2所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以包括一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以包括微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以包括可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以包括只读存储器(ROM，Read Only Memory)，易失性存储器可以包括随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的视频的播放控制装置可以采用软件方式实现，图2示出了存储在存储器450中的视频的播放控制装置455，其可以包括程序和插件等形式的软件，包括以下软件模块：播放模块4551和倍速模块4552，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

下面，以由图1中的终端400执行本申请实施例提供的视频的播放控制方法为例说明。参见图3，图3是本申请实施例提供的视频的播放控制方法的流程示意图，将结合图3示出的步骤进行说明。

需要说明的是，图3示出的方法可以由终端400运行的各种形式计算机程序执行，并不局限于上述的视频客户端410，例如上文的操作系统451、软件模块和脚本，因此下文中以客户端为例的说明不应视为对本申请实施例的限定。

在步骤S101中，响应于视频播放操作，播放视频。

在一些实施例中，视频的类型可以包括在线视频，也可以包括终端本地预存储的视频。

以视频的类型是在线视频为例，终端响应于视频播放操作，向服务器发送视频获取请求；接收服务器发送的相应的视频，并在视频播放界面中播放视频。

在步骤S102中，当视频的播放进度处于视频中任一个播放时间段时，获取播放时间段的情节单元对应的播放倍速，根据播放倍速播放情节单元。

这里，情节单元对应的播放倍速是基于情节单元的视频特征、字幕特征和音频特征中的至少之一确定的。

作为示例，参见图10，图10是本申请实施例提供的视频的播放控制方法的应用场景示意图。图10中，按照视频播放时间轴将视频划分为情节单元Q1、情节单元Q2和情节单元Q3，在视频播放界面中显示动态倍速提示信息901，动态倍速提示信息901包括划分的情节单元，以及情节单元对应的播放倍速，例如，情节单元Q1对应1.5倍速，情节单元Q2对应2倍速，情节单元Q3对应1倍速。

如此，在一些实施例中，还可以响应于针对动态倍速提示信息的触发操作，呈现情节单元设置页面；响应于在情节单元设置页面接收到的设置操作，在设置的情节单元中应用设置的播放倍速。

作为示例，图10中，当用户点击对应情节单元Q1的动态倍速提示信息901时，显示情节单元Q1设置页面902，在情节单元Q1设置页面902中可以设置情节单元Q1的起始时间点、终止时间点和播放倍速。当用户设置完成后，可以按照用户设置的数据继续播放视频。如此，能够基于用户行为数据对情节单元或情节单元对应的播放倍速进行更新，使得更新后的情节单元或情节单元对应的播放倍速符合用户的实际偏好，从而提高了用户的观看体验、以及人机交互效率。

在一些实施例中，在情节单元的播放时间段中应用与情节单元对应的播放倍速之前，还可以获取视频中每个情节单元的播放时间段、以及与每个情节单元对应的播放倍速。

作为一个示例，终端可以调用终端中的相应服务(例如，倍速确定服务)确定视频中每个情节单元的播放时间段、以及与每个情节单元对应的播放倍速。如此，能够降低网络通信资源的消耗。

作为另一个示例，终端也可以调用服务器的相应服务(例如，倍速确定服务)，通过服务器确定视频中每个情节单元的播放时间段、以及与每个情节单元对应的播放倍速。如此，减少了终端的存储资源以及计算占用，并且由于服务器相对于终端来说计算能力强，运算速度快，因此能够节约视频播放的缓冲时间。

在一些实施例中，参见图4，图4是本申请实施例提供的视频的播放控制方法的流程示意图，基于图3，在步骤S102之前还可以包括步骤S103至步骤S104。需要说明的是，步骤S101与步骤S103至步骤S104之间可以不分先后顺序执行，也可以并行执行，图4中以步骤S103至步骤S104在步骤S101之前执行为例。

在步骤S103中，将视频划分为多个情节单元，确定每个情节单元的视频特征、字幕特征和音频特征。

在一些实施例中，将视频划分为多个情节单元，针对每个情节单元执行以下处理：从情节单元提取多个视频帧，并对多个视频帧进行特征提取处理，以获得与多个视频帧一一对应的多个视频帧特征，将多个视频帧特征进行融合处理，以获得情节单元的视频特征；从情节单元提取字幕信息，并对字幕信息进行特征提取处理，以获得情节单元的字幕特征；从情节单元提取多个音频帧，并对多个音频帧进行特征提取处理，以获得与多个音频帧一一对应的多个音频帧特征，将多个音频帧特征进行融合处理，以获得情节单元的音频特征。

作为示例，将情节单元进行视频抽帧处理，以获得包含多个视频帧的视频帧序列；通过深度神经网络模型(例如Inception-v3模型)对视频帧序列中的每个视频帧进行特征提取处理，以获得与多个视频帧一一对应的多个视频帧特征，将多个视频帧特征采用平均池化进行融合处理，以获得情节单元的视频特征；提取情节单元的字幕信息，并通过双向编码器表征(BERT，Bidirectional Encoder Representation from Transformers)模型对字幕信息进行特征提取处理，以获得情节单元的字幕特征；提取情节单元的音频信息，并对音频信息进行音频抽帧处理，以获得包含多个音频帧的音频帧序列；通过超分辨率测试序列网络(VGGish，Visual Geometry Group Network)模型对音频帧序列中的每个音频帧进行特征提取处理，以获得与多个音频帧一一对应的多个音频帧特征，将多个音频帧特征采用平均池化进行融合处理，以获得情节单元的音频特征。

作为示例，对多个音频帧进行特征提取处理，以获得与多个音频帧一一对应的多个音频帧特征可以包括：针对每个音频帧执行以下处理：将音频帧进行傅里叶变化，以获得对应的频谱帧；通过滤波器将频谱帧映射为多个声谱特征；将多个声谱特征进行组帧处理，以获得对应的音频帧特征。

在一些实施例中，将视频划分为多个情节单元可以在文件层面上将视频划分为多个文件，也可以是仅仅在逻辑层面上的划分，例如，不对视频文件本身进行分割，只将视频播放时间轴划分为多个片段，每一个片段对应一个情节单元。

作为示例，将每个情节单元包括的所有视频帧的时间戳进行排序，将最小时间戳作为情节单元的播放时间段的起点，将最大时间戳作为情节单元的播放时间段的终点。

下面，说明将视频划分为多个情节单元的具体实现方式。

在一些实施例中，按照视频播放时间轴将视频均匀或不均匀的划分为多个片段，其中，每一个片段对应一个情节单元，例如，将时长为50分钟的视频均分为5个片段，每个片段的时长是10分钟。也就是说，不考虑划分后的片段中的情节内容的完整性，从而能够提高情节单元划分的速度。

在一些实施例中，按照内容对视频进行划分处理。

作为示例，对视频中的每个视频帧进行内容识别处理，得到每个视频帧所属的内容类型，其中，内容类型包括：视频的原生内容(例如视频正片等)、在视频中插入的推荐信息(例如广告等)；将属于相同内容类型、且播放时间连续的多个视频帧确定为属于同一个情节单元，并将多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为情节单元的播放时间段。

以视频的原生内容是正片、且推荐信息是广告为例，广告可以独立于正片存在，也可以与正片融合。

当广告独立于正片存在时，将包含广告的视频帧所属的内容类型确定为推荐信息，将包含正片的视频帧所属的内容类型确定为原生内容。

当广告与正片融合时，确定广告标志(例如商品LOGO、商品标语或广告语等)在视频帧中占有的画面比例，将画面比例超过画面比例阈值的视频帧所属的内容类型确定为推荐信息，将画面比例不超过画面比例阈值(可以是缺省值，也可以是用户、终端或服务器设定的值)的视频帧所属的内容类型确定为原生内容，也就是说，将包含广告内容较多的视频帧所属的内容类型确定为推荐信息。后续可以针对包含推荐信息的情节单元和包含原生内容的情节单元设置不同的播放倍速(例如将包含原生内容的情节单元设置较小的播放倍速，将包含推荐信息的情节单元设置较大的播放倍速)，能够提高播放倍速和用户之间的匹配度，从而节省终端的操作资源。

在一些实施例中，按照场景对视频进行划分处理。

作为示例，通过场景识别模型对视频中的每个视频帧进行场景识别处理，得到每个视频帧所属的场景；将属于相同场景、且播放时间连续的多个视频帧确定为属于同一个情节单元，并将多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为情节单元的播放时间段。

举例来说，场景识别模型可以包括经过训练得到的神经网络模型，神经网络模型可以包括基于视频帧样本以及标记的场景训练得到的。假设视频中有120个视频帧，对120个视频帧进行场景识别处理，得到每个视频帧所属的场景，若存在30个视频帧处于相同场景、且播放时间连续，则将这30个视频帧确定为属于同一个情节单元(例如，对应室内场景的情节单元)，进而将多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为情节单元的播放时间段。通过基于场景划分视频得到情节单元的方式，可以确保每个情节单元的内容均发生在同一场景，既能够保证对应每个场景的情节单元内容播放的连贯性和情节单元中情节内容的完整性，还能够为用户提供稳定的观看体验。

在一些实施例中，按照对话对视频进行划分处理。

作为示例，通过语音识别模型对视频中的每个音频帧的发声对象进行身份识别处理；将属于相同发声对象、且播放时间连续的多个音频帧确定为属于同一个情节单元，并将多个音频帧具有的最小时间戳和最大时间戳之间的时间段，确定为情节单元的播放时间段。

举例来说，语音识别模型可以包括经过训练得到的神经网络模型，神经网络模型可以包括基于音频帧样本以及标记的发声对象身份训练得到的。假设视频中有120个音频帧，对120个音频帧进行语音识别处理，得到每个音频帧所属的发声对象的身份标识，若存在30个音频帧属于相同发声对象、且播放时间连续，则将这30个音频帧确定为属于同一个情节单元(例如，对应人物A的某次讲话的情节单元)，进而将多个音频帧具有的最小时间戳和最大时间戳之间的时间段，确定为情节单元的播放时间段，通过基于发声对象划分视频得到情节单元的方式可以确保每个情节单元均属于相同的发声对象，既能够保证对应情节单元的内容播放的连贯性和情节单元中对话的完整性，还能够从听觉维度为用户提供稳定的听觉体验。

在一些实施例中，按照感兴趣对象的出现频率对视频进行划分处理。

作为示例，感兴趣对象包括：感兴趣的角色(例如用户关注的角色、发表的社交信息中所包含的角色、互动(包括点赞、评论、回踩、转发)的社交信息中所包含的角色)、感兴趣的扮演者(例如用户关注的明星、发表的社交信息中所包含的明星、互动的社交信息中所包含的明星)、感兴趣的物品(例如用户收藏或加购的商品、发表的社交信息中所包含的物品、互动的社交信息中所包含的物品)等。

作为示例，对视频中的每个视频帧进行对象识别处理，确定包含感兴趣对象的多个目标视频帧；在视频中，将多个目标视频帧的分布密度高于分布密度阈值的播放时间段，确定为情节单元的播放时间段。后续可以针对分布密度不同的情节单元设置不同的播放倍速(例如将目标视频帧的分布密度较高的情节单元设置较小的播放倍速)，能够提高播放倍速和用户之间的匹配度，从而节省终端的操作资源。

举例来说，分布密度阈值可以是缺省值，也可以是用户、终端或服务器设定的值，还可以是根据所有目标视频帧在整个视频中的分布密度所确定的，例如，将目标视频帧在整个视频中的分布密度均值作为分布密度阈值。

举例来说，可以使用滑窗法对视频进行划分处理，例如，通过不同时间段大小的滑窗，在视频中依次选取多个候选片段，针对每个候选片段执行以下处理：对候选片段的每个视频帧进行对象识别处理，确定包含感兴趣对象的多个目标视频帧；在多个候选片段中，选取多个目标视频帧的分布密度高于分布密度阈值的候选片段，并作为情节单元。

在步骤S104中，基于每个情节单元的视频特征、字幕特征和音频特征，确定情节单元对应的播放倍速。

在一些实施例中，针对每个情节单元执行以下处理：将情节单元的字幕特征、音频特征、以及视频特征进行融合处理，以获得融合特征；通过全连接层将融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为情节单元对应的播放倍速。

作为步骤S103和步骤S104的示例，通过机器学习模型将视频划分为多个情节单元，确定每个情节单元的视频特征、字幕特征和音频特征；基于每个情节单元的视频特征、字幕特征和音频特征，确定情节单元对应的播放倍速。其中，机器学习模型的训练样本是：样本情节单元、以及对应样本情节单元标注的播放倍速。机器学习模型可以包括各种类型，例如，卷积神经网络(CNN，Convolutional Neural Networks)模型、循环神经网络(RNN，Recurrent Neural Network)模型、以及多层前馈神经网络模型等。可以结合有监督的方式来训练上述机器学习模型，其中，用于训练机器学习模型的损失函数用于表示预测值与实际标记数据之间的差异，损失函数可以包括0-1损失函数、感知损失函数或交叉熵损失函数等。

本申请实施例通过视频内容理解技术将视频按照情节单元的视频特征、字幕特征和音频特征采取动态的播放倍速，使得播放倍速和情节单元的内容之间相匹配，使得视频在不同内容情节下有不同的倍速播放效果，能够帮助用户解放双手，增加用户观看视频体验。

上述实施例是基于情节单元的视频特征、字幕特征和音频特征，确定情节单元对应的播放倍速，下面说明基于情节单元的视频特征、字幕特征和音频特征中的任一个，确定情节单元对应的播放倍速的具体实现方式。

以基于情节单元的视频特征确定情节单元对应的播放倍速为例，从情节单元提取多个视频帧，并对多个视频帧进行特征提取处理，以获得与多个视频帧一一对应的多个视频帧特征，将多个视频帧特征进行融合处理，以获得情节单元的视频特征；确定情节单元的视频特征所对应的目标对象(例如场景或人物等)；根据目标对象的类型查询映射表，将映射表中对应目标对象的类型的目标倍速，确定为情节单元对应的播放倍速。

以基于情节单元的音频特征确定情节单元对应的播放倍速为例，从情节单元提取多个音频帧，并对多个音频帧进行特征提取处理，以获得与多个音频帧一一对应的多个音频帧特征，将多个音频帧特征进行融合处理，以获得情节单元的音频特征；确定情节单元的音频特征所对应的发声对象；根据发声对象的类型查询映射表，将映射表中对应发声对象的类型的目标倍速，确定为情节单元对应的播放倍速。

以基于情节单元的字幕特征确定情节单元对应的播放倍速为例，从情节单元提取字幕信息，并对字幕信息进行特征提取处理，以获得情节单元的字幕特征；确定情节单元中的字幕特征所对应的情景类型；根据情景类型查询映射表，将映射表中对应情景类型的目标倍速，确定为情节单元对应的播放倍速。

本申请实施例通过映射关系确定与情节单元的内容之间相匹配的播放倍速的速度较快，且所耗费的计算资源较少。

在一些实施例中，分别确定情节单元中视频特征、字幕特征和音频特征的完整程度，选取完整程度最高的特征；基于完整程度最高的特征，确定情节单元对应的播放倍速。

作为示例，视频特征的完整程度用于表征视频中包括的多个视频帧的清晰程度或缺失程度(或称损坏程度)；音频特征的完整程度用于表征视频中包括的多个音频帧的清晰程度或缺失程度；字幕特征的完整程度用于表征视频中包括的字幕信息的清晰程度或缺失程度。

举例来说，当情节单元中的音频信息受到损坏，且没有字幕信息时，表征情节单元中的字幕特征和音频特征的完整程度较低，因此，可以基于情节单元中包括的多个视频帧确定对应的视频特征，并根据视频特征确定情节单元对应的播放倍速，如此，能够提高确定情节单元对应的视频倍速的准确性。

下面说明基于每个情节单元的视频特征、字幕特征和音频特征中的任两个，确定情节单元对应的播放倍速的具体实现方式。

在一些实施例中，将情节单元的字幕特征、音频特征、以及视频特征中的任意两个特征进行融合处理，以获得融合特征；通过全连接层将融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为情节单元对应的播放倍速。

本申请实施例将视频按照情节单元的视频特征、字幕特征和音频特征中的任两个特征采取动态的播放倍速，使得播放倍速和情节单元的内容之间相匹配，使得视频在不同内容情节下有不同的倍速播放效果。

上述实施例是基于视频本身的信息(例如字幕、音频、视频)确定情节单元对应的播放倍速，在另一些实施例中，还可以基于视频本身的信息和用户信息确定情节单元对应的播放倍速，具体包括：基于用户信息、以及情节单元的视频特征、字幕特征和音频特征，确定情节单元对应的播放倍速。

作为示例，获取登录账号的用户信息；对用户信息进行特征提取，获得用户特征；将用户特征、字幕特征、音频特征、以及视频特征进行融合处理，以获得用户融合特征；将用户融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为情节单元对应的播放倍速。

举例来说，用户信息包括用户历史观看的视频、用户收藏的视频、用户点赞的视频、用户回踩的视频、用户评论的视频、用户转发的视频等。

本申请实施例根据视频本身的信息和用户信息确定情节单元对应的播放倍速，使得播放倍速不仅和情节单元的内容相匹配，还与用户偏好相匹配，能够提高播放倍速和用户之间的匹配度，从而节省终端的操作资源。

在一些实施例中，视频可以被划分为连续的多个情节单元；在另一些实施例中，视频中除了包括多个情节单元，还包括情节单元之间的过渡单元，可以通过以下方式至少之一确定视频中的过渡单元：确定每个情节单元的信息量，将信息量小于信息量阈值的情节单元作为过渡单元；将多个情节单元中用于衔接不同场景的情节单元确定为过渡单元；将多个情节单元中用于衔接不同对话的情节单元确定为过渡单元。

举例来说，参见图11，图11是本申请实施例提供的视频的播放控制方法的原理示意图。图11中，将视频划分为情节单元Q1、情节单元Q2、过渡单元P1和情节单元Q3，情节单元Q1、情节单元Q2、过渡单元P1和情节单元Q3中的场景并不相同，例如，情节单元Q1对应的场景是室内、情节单元Q2对应的场景是火车站、过渡单元P1对应的场景是从火车站去往飞机场的路途，情节单元Q3对应的场景是飞机场，因此可以将过渡单元P1用于衔接情节单元Q2和情节单元Q3。

当视频被划分为穿插有过渡单元的多个情节单元时，由于过渡单元的引入，使得情节单元的划分更加合理，使得情节单元中的内容更加符合用户期望，例如，室内场景与室外场景之间的场景切换过程的视频帧属于过渡单元。

作为示例，将多个情节单元中用于衔接不同场景的情节单元确定为过渡单元时，例如，可以将衔接第一情节单元(第一情节单元包括第一场景)和第二情节单元(第二情节单元包括第二场景)的第三情节单元确定为过渡单元，第一情节单元、第三情节单元和第二情节单元的播放时间段依次衔接。

作为示例，将多个情节单元中用于衔接不同对话的情节单元确定为过渡单元，例如，可以将衔接第一情节单元(第一情节单元包括第一对话)和第二情节单元(第二情节单元包括第二对话)的第三情节单元确定为过渡单元，第一情节单元、第三情节单元和第二情节单元的播放时间段依次衔接。

作为示例，情节单元的信息量可以包括情节单元中对话语句的数量、字幕中文字的数量和不同的视频帧的数量等，其中，不同的视频帧是指视频帧之间的相似度超过视频帧相似度阈值，视频帧相似度阈值可以包括缺省值，也可以包括用户、终端或服务器设定的值。

作为示例，信息量阈值可以包括缺省值，也可以包括用户、终端或服务器设定的值，还可以包括根据所有情节单元对应的信息量所确定的，例如，将所有情节单元对应的信息量的平均值作为信息量阈值。将信息量小于信息量阈值的情节单元作为过渡单元，可以后续针对信息量丰富的情节单元实施动态倍速，从而提高动态倍速实施的准确性。

作为示例，在确定视频中的过渡单元之后，还可以通过机器学习模型针对每个过渡单元执行以下处理：提取过渡单元的视频特征、字幕特征和音频特征；基于视频特征、字幕特征和音频特征，确定过渡单元对应的播放倍速；当视频的播放进度处于视频中任一个过渡单元的播放时间段时，在过渡单元的播放时间段中应用与过渡单元对应的播放倍速。

举例来说，机器学习模型的训练样本是：样本过渡单元、以及对应样本过渡单元标注的播放倍速。通过机器学习模型针对每个过渡单元执行的处理过程和上述针对每个情节单元执行的处理过程类似，在此处不再进行赘述。

举例来说，也可以在过渡单元的播放时间段中应用固定播放倍速，例如1.5倍速或2倍速等；还可以在过渡单元的播放时间段中应用与过渡单元衔接且位于过渡单元之前的情节单元的播放倍速。

本申请实施例按照过渡单元的视频特征、字幕特征和音频特征采取动态的播放倍速，使得播放倍速和过渡单元的内容之间相匹配，节省了用户人工介入调整播放倍速的操作，从而提高了人机交互效率。

在一些实施例中，在步骤S101之后还可以响应于针对情节单元的倍速设定操作，确定对应情节单元的更新播放倍速，以在情节单元的播放时间段结束之前应用与情节单元对应的更新播放倍速；根据更新播放倍速，对视频中的后续情节单元的播放倍速进行更新；其中，后续情节单元的播放时间段位于情节单元的播放时间段之后。

作为示例，根据更新播放倍速，对视频中的后续情节单元的播放倍速进行更新可以包括：确定后续情节单元的特征向量与情节单元的特征向量之间的相似度；当相似度大于相似度阈值时，将情节单元采取的更新播放倍速，作为后续情节单元的播放倍速。

举例来说，相似度阈值可以包括缺省值，也可以包括用户、终端或服务器设定的值。

举例来说，假设播放至某一个情节单元时，该情节单元正在以对应的播放倍速进行播放，但是用户对该情节单元的播放倍速不满意，因此终端会接收到针对情节单元的倍速设定操作，倍速设定操作中携带有更新播放倍速，因此终端可以确定对应情节单元的更新播放倍速，并在正在播放的情节单元的播放时间段结束之前应用该更新播放倍速。如此，用户的倍速设定操作可以对相似度高的后续情节单元(即未播放的情节单元)的播放倍速进行修正。

例如，假设用户针对正在播放的情节单元Q存在倍速设定操作，即表征用户对情节单元Q对应的播放倍速不满意，因此可以确定后续情节单元Q1的特征向量与情节单元Q的特征向量之间的相似度，当情节单元Q1与情节单元Q的特征向量之间的相似度大于相似度阈值时，将情节单元Q采取的更新播放倍速，作为对应后续情节单元Q1的播放倍速，从而保证相似度高的后续情节单元的播放倍速与用户最新的倍速设定操作相对应。

举例来说，参见图12，图12是本申请实施例提供的视频的播放控制方法的应用场景示意图。图12中，当用户在情节单元Q1设置页面902中将情节单元Q1的播放倍速更新为2倍速时，可以在情节单元Q1的播放时间段结束之前采取2倍速播放，并且判断后续情节单元(例如情节单元Q2和情节单元Q3)和情节单元Q1之间的相似度。当情节单元Q3的特征向量与情节单元Q1的特征向量之间的相似度大于相似度阈值时，将情节单元Q3对应的1倍速更新为2倍速，并显示更新后的动态倍速提示信息903。

在一些实施例中，在步骤S101之后还可以响应于针对情节单元的互动操作，将互动操作所针对的播放时间段确定为互动时间段；确定情节单元的播放时间段和互动时间段之间的相似度；当相似度大于时间段相似度阈值时，将视频中对应互动时间段的内容确定为互动单元，并根据互动单元更新情节单元。

作为示例，时间段相似度阈值可以包括缺省值，也可以包括用户、终端或服务器设定的值。以时间段相似度阈值为0.2为例，当情节单元的播放时间段是00:10:00至00:20:00、且互动时间段是00:15:00至00:25:00时，可以确定播放时间段和互动时间段之间相似的时间段是00:15:00至00:20:00(即5分钟)，这5分钟占互动时间段(10分钟)的0.5，这里确定的0.5就是播放时间段和互动时间段之间的相似度，此时，确定的相似度大于相似度阈值0.2，如此，可以将互动时间段00:15:00至00:25:00中的内容确定为更新后的情节单元，或者将(00:10:00+00:15:00)/2＝00:12:30至(00:20:00+00:25:00)/2＝00:22:30中的内容确定为更新后的情节单元。

作为示例，根据互动单元更新情节单元可以包括将情节单元替换为互动单元。如此，可以将用户在视频中进行倍速操作的单元自动更新为情节单元，能够提高更新后的情节单元和用户操作之间的匹配度。

作为示例，根据互动单元更新情节单元可以包括将情节单元的播放开始时间和互动单元的播放开始时间的平均值确定为更新后的情节单元的播放开始时间，以及将情节单元的播放结束时间和互动单元的播放结束时间的平均值确定为更新后的情节单元的播放结束时间。

举例来说，可以基于用户行为数据进一步对划分视频得到的情节单元进行更新，参见图9，图9是本申请实施例提供的视频的播放控制方法的原理示意图。视频播放时间轴T上存在划分得到的情节单元Q1，情节单元Q1的播放时间段是t1至t2之间的时间段。用户针对情节单元Q1有互动操作，例如快进操作，图9中t3至t4之间的时间段是互动操作所对应的互动时间段。视频中对应互动时间段的内容是互动单元，因此，可以基于互动单元对划分得到的情节单元Q1进行更新。这里，更新时可以直接将互动时间段替换对应的情节单元Q1的播放时间段，并适应性调整与情节单元Q1相邻的情节单元；还可以将情节单元Q1的播放开始时间t1和互动单元的播放开始时间t3的平均值(t1+t3)/2确定为更新后的情节单元的播放开始时间，以及将情节单元Q1的播放结束时间t2和互动单元的播放结束时间t4的平均值(t2+t4)/2确定为更新后的情节单元的播放结束时间。

本申请实施例中，由于基于用户行为数据对情节单元进行更新，使得更新后的情节单元符合用户的实际偏好，从而提高了用户的观看体验、以及人机交互效率。

在一些实施例中，参见图5，图5是本申请实施例提供的视频的播放控制方法的流程示意图，基于图3，在步骤S102之前可以包括步骤S105至步骤S106。

在步骤S105中，响应于倍速播放功能触发操作，呈现动态倍速控件。

在一些实施例中，当呈现动态倍速控件时，还可以呈现固定倍速控件；响应于针对固定倍速控件的触发操作，基于固定倍速控件中被设置的固定播放倍速播放视频。

作为示例，图6中，倍速播放功能触发操作可以包括针对倍速播放功能控件602的触发操作，当用户点击倍速播放功能控件602后，呈现动态倍速控件603，当呈现动态倍速控件603时，还会呈现固定倍速控件，例如0.5倍速控件、1倍速控件、1.25倍速控件和1.5倍速控件等。

在步骤S106中，响应于针对动态倍速控件的触发操作，确定将执行根据播放倍速播放情节单元的操作。

作为示例，图6中，当用户点击动态倍速控件603时，在情节单元的播放时间段中自动应用与情节单元对应的播放倍速；当用户点击1.5倍速的固定倍速控件时，基于1.5倍速播放视频。

在一些实施例中，还可以呈现咨询弹窗，咨询弹窗用于咨询用户是否满意当前的播放倍速；响应于在咨询弹窗接收到的针对播放倍速的反馈信息，当反馈信息表征用户不满意当前的播放倍速时，呈现固定倍速控件和动态倍速控件。如此，能够提供用户重新设置播放倍速的入口，即不需要接收倍速播放功能触发操作，就可以呈现固定倍速控件和动态倍速控件，有利于提高用户人机交互的效率，从而提高用户观看体验。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例基于视频内容为视频中的每个子视频(即上述的情节单元)在不同的时间段推荐不同的播放倍速，从而提升用户观剧的观看体验。参见图6，图6是本申请实施例提供的视频的播放控制方法的应用场景示意图。在视频播放页面601中呈现倍速播放功能控件602，响应于针对倍速播放功能控件602的点击操作，呈现动态倍速控件603；响应于针对动态倍速控件603的触发操作，可以使视频在不同情节下具有不同的播放倍速，例如，广告阶段对应的情节单元能够以较快的播放速度(倍速大于1)进行跳跃播放，视频精彩部分对应的情节单元能够以原速(倍速为1)播放。客户端(即上述的视频客户端)可以通过网络请求获取不同播放时间段的倍速数据来实现客户端的动态倍速播放功能，视频的动态倍速播放功能可以减少用户手动控制播放倍速的次数，从而可以提高用户观看视频的人机交互效率，进而提升用户观看视频的观看体验。

在一些实施例中，参见图7，图7是本申请实施例提供的视频的播放控制方法的流程示意图。首先，响应于用户针对某个视频的点击操作，进入点击操作所选择的视频的视频播放页面，进入视频播放页面后，默认以正常倍速(即倍速为1)播放视频，例如，视频的原始播放时间是10秒，则利用10秒时间播放该视频。然后，当用户希望进行倍速播放时，可以选择点击倍速选项，即响应于用户针对倍速播放功能触发操作，呈现动态倍速控件和固定倍速控件。最后，响应于针对固定倍速控件的触发操作，例如，1.5倍速播放、2倍速播放，确定播放视频所采取的固定倍速，并基于固定倍速控件中被设置的固定播放倍速播放视频；还可以响应于针对动态倍速控件的触发操作，确定将执行根据播放倍速播放情节单元的操作，并从服务器获取视频动态倍速数据作为视频播放速度数据，其中，动态倍速数据包括针对不同播放时间段采取不同的播放速度，动态倍速数据可以经过离线计算得到，并存储在服务器；响应于上述用户的操作，生成视频播放速度数据；运行在终端的视频客户端基于视频播放速度数据进行倍速播放，若用户对于当前的播放倍速不满意，可以响应于用户针对固定倍速控件的触发操作，重新确定播放视频所采取的固定倍速。

在一些实施例中，当用户重新确定播放视频所采取的固定倍速时，获取用户重新选取的固定倍速、以及对应固定倍速的情节单元；将对应固定倍速的情节单元作为样本情节单元，以及将用户重新选取的固定倍速作为针对样本情节单元的标注数据，基于样本情节单元和标注数据训练神经网络模型；基于神经网络模型，更新视频中未播放的情节单元的播放倍速，并在后续的视频播放过程中根据更新后的播放倍速播放情节单元。

下面说明本申请实施例提供的视频的播放控制方法的具体实现方式，参见图8，图8是本申请实施例提供的视频的播放控制方法的原理示意图。

(1)视频切分

因为需要对整个视频进行动态倍速播放，所以视频切分的目的是将视频切分为许多视频片段(或称子视频)进行倍速分类。可以通过基于场景分割视频的工具(例如PyScreenDetect)切分视频。基于场景分割视频的工具可以通过split-video命令自动将视频切分为多个子视频。基于场景分割视频的工具的具体切分方法包括基于阈值检测的切分和基于内容检测的切分。本申请实施例选用基于内容检测的切分方法，因为基于内容检测的切分方法是基于视频场景之间切换进行分割的。

(2)视频倍速分类

本申请实施例针对视频倍速分类选用基于多模态的视频分类算法。

1)视频分类算法所采用的机器学习模型的结构

在一些实施例中，图8中，将子视频的视频帧序列(例如一帧一帧的图片)、字幕文本(即上述的字幕信息)、以及音频信息作为模型输入。首先，对子视频的视频帧序列、字幕文本、以及音频信息先通过各自的表示方法找到相应的嵌入(Embedding)表示；然后，通过一个聚类和残差的多模态视频分类(NeXt VLAD，NeXt Vector of Local AggregatedDescriptors)融合网络得到子视频的视频特征(或称图片特征)、字幕特征(或称文本特征)、以及音频特征，接着通过融合(Concat)操作将视频特征、字幕特征、以及音频特征进行融合表示得到整个子视频的特征表示(即上述的融合特征)；最后，将整个子视频的特征表示输入至全连接层(FC，Fully Connected Lyers)进行映射，得到子视频对应的播放倍速。

作为示例，还可以加入门限处理(Gating)过程，以发掘各个特征之间的关联信息，选择性增强一些特征，以及削弱一些无关的特征，最后输入多专家系统(MoE，Mixture ofExperts)分类网络，进行多分类训练。

作为示例，视频特征的提取过程可以包括：针对子视频按照1FPS的帧率进行抽帧处理，以获得包含多个视频帧的视频帧序列；将每个视频帧输入至Inception-v3模型中，将Inception-v3模型的最后一个FC的输出作为该视频帧对应的视频帧特征；将多个视频帧对应的视频帧特征采用平均池化(Average Pooling)进行信息融合，得到子视频的视频特征。

举例来说，Inception-v3模型是预先在ImageNet上训练好的模型，Inception-v3模型可以不用更新，可以仅用来抽取视频帧序列的特征。

作为示例，字幕特征的提取过程可以包括：将子视频的字幕文本输入至中文BERT模型中，获得字幕特征。

作为示例，音频特征的提取过程可以包括：针对子视频的音频信息按照1FPS的帧率进行抽音频帧处理，以获得包含多个音频帧的音频帧序列；将每个音频帧采用短时傅里叶变换，转成梅尔空间的频谱帧，并且将转换后的每个频谱帧输入至VGGish模型中，将VGGish模型的最后一个FC的输出作为该音频帧对应的音频帧特征；将多个音频帧对应的音频帧特征采用平均池化(Average Pooling)进行信息融合，得到子视频的音频特征。

举例来说，VGGish模型是预先在Audioset上训练好的模型，VGGish模型可以不用更新，可以仅用来抽取音频特征。

2)训练数据的构建

本申请实施例中的模型是有监督式模型，所以需要收集训练数据、以及对应的标签。对此，可以通过收集用户播放行为数据，选取用户进行切换播放倍速的视频片段作为训练数据，如表1所示，表1是训练数据样例。

表1训练数据样例

训练数据	训练标签
		视频片段i	2倍速播放
视频片段j	1.5倍速播放
		…	…

(a)训练方法

采用深度学习中小批的梯度下降(Mini-Batch Gradient Decent)方式进行训练，每一次利用一小批样本进行训练，即利用n个样本计算损失(Loss)和误差反向传播，也可以采用Adam优化算法。

(b)预测及动态倍速数据生成

基于以上模型、训练数据及训练方法，可以训练得到倍速分类模型，通过倍速分类模型可以对视频进行动态倍速预测，得到视频在不同时间段的倍速数据。为了减少数据存储，可以只存储大于1倍倍速的数据，存储格式可以包括Video_1:[T1-T2:2倍，T3-T4:3倍，……]。

本申请实施例通过视频内容理解技术进行视频动态倍速播放，使得视频在不同内容情节下有不同的倍速播放效果，能够帮助用户解放双手(省去用户自己来回切换)，增加用户观看视频体验。

下面继续说明本申请实施例提供的视频的播放控制装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的视频的播放控制装置455中的软件模块可以包括：播放模块4551，用于响应于视频播放操作，播放视频；倍速模块4552，用于当视频的播放进度处于视频中任一个播放时间段时，获取播放时间段的情节单元对应的播放倍速；播放模块4551，用于根据播放倍速播放情节单元；其中，情节单元对应的播放倍速是基于情节单元的视频特征、字幕特征和音频特征中的至少之一确定的。

在上述方案中，倍速模块4552，还用于将视频划分为多个情节单元，确定每个情节单元的视频特征、字幕特征和音频特征；基于每个情节单元的视频特征、字幕特征和音频特征，确定情节单元对应的播放倍速。

在上述方案中，倍速模块4552，还用于针对每个情节单元执行以下处理：从情节单元提取多个视频帧，并对多个视频帧进行特征提取处理，以获得与多个视频帧一一对应的多个视频帧特征，将多个视频帧特征进行融合处理，以获得情节单元的视频特征；从情节单元提取字幕信息，并对字幕信息进行特征提取处理，以获得情节单元的字幕特征；从情节单元提取多个音频帧，并对多个音频帧进行特征提取处理，以获得与多个音频帧一一对应的多个音频帧特征，将多个音频帧特征进行融合处理，以获得情节单元的音频特征。

在上述方案中，倍速模块4552，还用于针对每个音频帧执行以下处理：将音频帧进行傅里叶变化，以获得对应的频谱帧；将频谱帧映射为多个声谱特征；将多个声谱特征进行组帧处理，以获得对应的音频帧特征。

在上述方案中，倍速模块4552，还用于将字幕特征、音频特征、以及视频特征进行融合处理，以获得融合特征；将融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为情节单元对应的播放倍速。

在上述方案中，倍速模块4552，还用于获取登录账号的用户信息；对用户信息进行特征提取，获得用户特征；将用户特征、字幕特征、音频特征、以及视频特征进行融合处理，以获得用户融合特征；将用户融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为情节单元对应的播放倍速。

在上述方案中，倍速模块4552，还用于通过以下方式之一将视频划分为多个情节单元：按照场景对视频进行划分处理；按照对话对视频进行划分处理；按照内容对视频进行划分处理；按照感兴趣对象的出现频率对视频进行划分处理。

在上述方案中，倍速模块4552，还用于对视频中的每个视频帧进行场景识别处理，得到每个视频帧所属的场景；将属于相同场景、且播放时间连续的多个视频帧确定为属于同一个情节单元，并将多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为情节单元的播放时间段。

在上述方案中，倍速模块4552，还用于对视频中的每个音频帧的发声对象进行身份识别处理；将属于相同发声对象、且播放时间连续的多个音频帧确定为属于同一个情节单元，并将多个音频帧具有的最小时间戳和最大时间戳之间的时间段，确定为情节单元的播放时间段。

在上述方案中，倍速模块4552，还用于对视频中的每个视频帧进行内容识别处理，得到每个视频帧所属的内容类型，其中，内容类型包括：视频的原生内容、在视频中插入的推荐信息；将属于相同内容类型、且播放时间连续的多个视频帧确定为属于同一个情节单元，并将多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为情节单元的播放时间段。

在上述方案中，倍速模块4552，还用于对视频中的每个视频帧进行对象识别处理，确定包含感兴趣对象的多个目标视频帧；在视频中，将多个目标视频帧的分布密度高于分布密度阈值的播放时间段，确定为情节单元的播放时间段。

在上述方案中，倍速模块4552，还用于通过以下方式至少之一确定视频中的过渡单元：确定每个情节单元的信息量，将信息量小于信息量阈值的情节单元作为过渡单元；将多个情节单元中用于衔接不同场景的情节单元确定为过渡单元；将多个情节单元中用于衔接不同对话的情节单元确定为过渡单元。

在上述方案中，倍速模块4552，还用于针对每个过渡单元执行以下处理：提取过渡单元的视频特征、字幕特征和音频特征；基于视频特征、字幕特征和音频特征，确定过渡单元对应的播放倍速；当视频的播放进度处于视频中任一个过渡单元的播放时间段时，在过渡单元的播放时间段中应用与过渡单元对应的播放倍速。

在上述方案中，倍速模块4552，还用于响应于针对情节单元的倍速设定操作，确定对应情节单元的更新播放倍速，以在情节单元的播放时间段结束之前应用与情节单元对应的更新播放倍速；根据更新播放倍速，对视频中的后续情节单元的播放倍速进行更新；其中，后续情节单元的播放时间段位于情节单元的播放时间段之后。

在上述方案中，倍速模块4552，还用于确定后续情节单元的特征向量与情节单元的特征向量之间的相似度；当相似度大于相似度阈值时，将情节单元采取的更新播放倍速，作为后续情节单元的播放倍速。

在上述方案中，倍速模块4552，还用于响应于针对情节单元的互动操作，将互动操作所针对的播放时间段确定为互动时间段；确定情节单元的播放时间段和互动时间段之间的相似度；当相似度大于时间段相似度阈值时，将视频中对应互动时间段的内容确定为互动单元，并根据互动单元更新情节单元。

在上述方案中，倍速模块4552，还用于将情节单元替换为互动单元；或者，将情节单元的播放开始时间和互动单元的播放开始时间的平均值确定为更新后的情节单元的播放开始时间，以及将情节单元的播放结束时间和互动单元的播放结束时间的平均值确定为更新后的情节单元的播放结束时间。

在上述方案中，播放模块4551，还用于响应于倍速播放功能触发操作，呈现动态倍速控件；响应于针对动态倍速控件的触发操作，确定将执行根据播放倍速播放情节单元的操作。

在上述方案中，播放模块4551，还用于呈现固定倍速控件；响应于针对固定倍速控件的触发操作，基于固定倍速控件中被设置的固定播放倍速播放视频。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的视频的播放控制方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的视频的播放控制方法，例如，如图3、图4、图5或图7示出的视频的播放控制方法。

在一些实施例中，计算机可读存储介质可以包括FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以包括包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例将视频按照情节单元进行划分，并针对不同情节单元采取不同的播放倍速，因此在视频的播放过程中，在不需要接收用户任何操作的情况下，即以不同的播放倍速播放不同的情节，降低了用户的播放控制操作的次数，从而提高了人机交互效率，又因为是按照不同情节单元进行倍速，使得对应同一情节单元的内容采取相同倍速播放，既确保了用户的连贯性观看体验，又提高了视频播放效率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频的播放控制方法，其特征在于，包括：

响应于视频播放操作，播放所述视频；

根据所述播放倍速播放所述情节单元；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述视频划分为多个情节单元，确定每个所述情节单元的视频特征、字幕特征和音频特征；

基于每个所述情节单元的视频特征、字幕特征和音频特征，确定所述情节单元对应的播放倍速。

3.根据权利要求2所述的方法，其特征在于，所述确定每个所述情节单元的视频特征、字幕特征和音频特征，包括：

针对每个所述情节单元执行以下处理：

从所述情节单元提取多个视频帧，并对所述多个视频帧进行特征提取处理，以获得与所述多个视频帧一一对应的多个视频帧特征，将所述多个视频帧特征进行融合处理，以获得所述情节单元的视频特征；

从所述情节单元提取字幕信息，并对所述字幕信息进行特征提取处理，以获得所述情节单元的字幕特征；

从所述情节单元提取多个音频帧，并对所述多个音频帧进行特征提取处理，以获得与所述多个音频帧一一对应的多个音频帧特征，将所述多个音频帧特征进行融合处理，以获得所述情节单元的音频特征。

4.根据权利要求3所述的方法，其特征在于，所述对所述多个音频帧进行特征提取处理，以获得与所述多个音频帧一一对应的多个音频帧特征，包括：

针对每个所述音频帧执行以下处理：

将所述音频帧进行傅里叶变化，以获得对应的频谱帧；

将所述频谱帧映射为多个声谱特征；

将所述多个声谱特征进行组帧处理，以获得对应的音频帧特征。

5.根据权利要求2所述的方法，其特征在于，所述基于每个所述情节单元的视频特征、字幕特征和音频特征，确定所述情节单元对应的播放倍速，包括：

将所述字幕特征、所述音频特征、以及所述视频特征进行融合处理，以获得融合特征；

将所述融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为所述情节单元对应的播放倍速。

6.根据权利要求2所述的方法，其特征在于，所述基于每个所述情节单元的视频特征、字幕特征和音频特征，确定所述情节单元对应的播放倍速，包括：

获取登录账号的用户信息；

对所述用户信息进行特征提取，获得用户特征；

将所述用户特征、所述字幕特征、所述音频特征、以及所述视频特征进行融合处理，以获得用户融合特征；

将所述用户融合特征分别映射为对应多个候选播放倍速的概率，并将最大概率所对应的候选播放倍速确定为所述情节单元对应的播放倍速。

7.根据权利要求2所述的方法，其特征在于，所述将所述视频划分为多个情节单元，包括：

通过以下方式之一将所述视频划分为多个情节单元：

按照场景对所述视频进行划分处理；

按照对话对所述视频进行划分处理；

按照内容对所述视频进行划分处理；

按照感兴趣对象的出现频率对所述视频进行划分处理。

8.根据权利要求7所述的方法，其特征在于，所述按照场景对所述视频进行划分处理，包括：

对所述视频中的每个视频帧进行场景识别处理，得到所述每个视频帧所属的场景；

将属于相同场景、且播放时间连续的多个视频帧确定为属于同一个情节单元，并将所述多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为所述情节单元的播放时间段。

9.根据权利要求7所述的方法，其特征在于，所述按照对话对所述视频进行划分处理，包括：

对所述视频中的每个音频帧的发声对象进行身份识别处理；

将属于相同发声对象、且播放时间连续的多个音频帧确定为属于同一个情节单元，并将所述多个音频帧具有的最小时间戳和最大时间戳之间的时间段，确定为所述情节单元的播放时间段。

10.根据权利要求7所述的方法，其特征在于，所述按照内容对所述视频进行划分处理，包括：

对所述视频中的每个视频帧进行内容识别处理，得到所述每个视频帧所属的内容类型，其中，所述内容类型包括：所述视频的原生内容、在所述视频中插入的推荐信息；

将属于相同内容类型、且播放时间连续的多个视频帧确定为属于同一个情节单元，并将所述多个视频帧具有的最小时间戳和最大时间戳之间的时间段，确定为所述情节单元的播放时间段。

11.根据权利要求7所述的方法，其特征在于，所述按照感兴趣对象的出现频率对所述视频进行划分处理，包括：

对所述视频中的每个视频帧进行对象识别处理，确定包含所述感兴趣对象的多个目标视频帧；

在所述视频中，将所述多个目标视频帧的分布密度高于分布密度阈值的播放时间段，确定为所述情节单元的播放时间段。

12.根据权利要求1所述的方法，其特征在于，所述视频中还包括过渡单元，所述方法还包括：

通过以下方式至少之一确定所述视频中的过渡单元：

确定每个所述情节单元的信息量，将信息量小于信息量阈值的情节单元作为过渡单元；

将多个所述情节单元中用于衔接不同场景的情节单元确定为过渡单元；

将多个所述情节单元中用于衔接不同对话的情节单元确定为过渡单元。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

针对每个所述过渡单元执行以下处理：提取所述过渡单元的视频特征、字幕特征和音频特征；基于所述视频特征、字幕特征和音频特征，确定所述过渡单元对应的播放倍速；

当所述视频的播放进度处于所述视频中任一个过渡单元的播放时间段时，在所述过渡单元的播放时间段中应用与所述过渡单元对应的播放倍速。

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于针对所述情节单元的倍速设定操作，确定对应所述情节单元的更新播放倍速，以在所述情节单元的播放时间段结束之前应用与所述情节单元对应的更新播放倍速；

根据所述更新播放倍速，对所述视频中的后续情节单元的播放倍速进行更新；

其中，所述后续情节单元的播放时间段位于所述情节单元的播放时间段之后。

15.根据权利要求14所述的方法，其特征在于，所述根据所述更新播放倍速，对所述视频中的后续情节单元的播放倍速进行更新，包括：

确定所述后续情节单元的特征向量与所述情节单元的特征向量之间的相似度；

当所述相似度大于相似度阈值时，将所述情节单元采取的更新播放倍速，作为后续情节单元的播放倍速。

16.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于针对所述情节单元的互动操作，将所述互动操作所针对的播放时间段确定为互动时间段；

确定所述情节单元的播放时间段和所述互动时间段之间的相似度；

当所述相似度大于时间段相似度阈值时，将所述视频中对应所述互动时间段的内容确定为互动单元，并根据所述互动单元更新所述情节单元。

17.根据权利要求16所述的方法，其特征在于，所述根据所述互动单元更新所述情节单元，包括：

将所述情节单元替换为所述互动单元；或者，

将所述情节单元的播放开始时间和所述互动单元的播放开始时间的平均值确定为更新后的情节单元的播放开始时间，以及将所述情节单元的播放结束时间和所述互动单元的播放结束时间的平均值确定为更新后的情节单元的播放结束时间。

18.根据权利要求1所述的方法，其特征在于，在所述根据所述播放倍速播放所述情节单元之前，所述方法还包括：

响应于倍速播放功能触发操作，呈现动态倍速控件；

响应于针对所述动态倍速控件的触发操作，确定将执行根据所述播放倍速播放所述情节单元的操作。

19.根据权利要求18所述的方法，其特征在于，当呈现动态倍速控件时，所述方法还包括：

呈现固定倍速控件；

响应于针对所述固定倍速控件的触发操作，基于所述固定倍速控件中被设置的固定播放倍速播放所述视频。

20.一种视频的播放控制装置，其特征在于，包括：

播放模块，用于响应于视频播放操作，播放所述视频；

所述播放模块，用于根据所述播放倍速播放所述情节单元；

21.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至19任一项所述的视频的播放控制方法。

22.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至19任一项所述的视频的播放控制方法。