CN110602526A

CN110602526A - 视频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110602526A
Application number: CN201910859609.7A
Authority: CN
Inventors: 崔志鹏; 王亚彪; 罗栋豪; 李剑; 汪铖杰; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2019-12-20
Anticipated expiration: 2039-09-11
Also published as: CN110602526B

Abstract

本申请公开了一种视频处理方法、装置、计算机设备及存储介质，属于多媒体技术领域。本申请通过获取视频中多个视频片段，从而将多个视频片段输入特征提取网络，通过该特征提取网络对该多个视频片段进行基于残差结构的三维卷积处理，得到该多个视频片段的多个时空特征，从而确定出视频中各个动作片段以及各个动作片段的动作类别，能够在不损失时空特征的表达能力的基础上，缩短视频处理的耗时，提升视频处理过程的效率。

Description

视频处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及多媒体技术领域，特别涉及一种视频处理方法、装置、计算机设备及存储介质。

背景技术

随着多媒体技术的发展，计算机设备可以对视频执行一些分析和处理操作，例如对视频进行时序动作检测等。在时序动作检测中，通常可以包括三个部分：动作识别、时序动作提名(确定出视频中动作发生的起止时间)以及动作分类(确定出动作的类别)。

目前，通常可以将视频和视频的光流信息输入双流网络，通过双流网络提取出视频的时空特征，基于视频的时空特征进行时序动作提名，也即是确定出视频中动作发生的起止时间，从而得到视频中的动作片段，再对视频的动作片段进行分类。

在上述过程中，双流网络需要以视频的光流信息作为一个输入项，然而提取视频的光流信息通常耗时较长，使得整体时序动作检测过程的速度较慢，从而导致视频处理效率低。

发明内容

本申请实施例提供了一种视频处理方法、装置、计算机设备及存储介质,能够解决视频处理效率低的问题。该技术方案如下：

一方面，提供了一种视频处理方法，该方法包括：

获取视频中的多个视频片段；

将所述多个视频片段输入特征提取网络，通过所述特征提取网络对所述多个视频片段进行基于残差结构的三维卷积处理，得到所述多个视频片段的多个时空特征，一个时空特征用于表示一个视频片段在时间和空间上的联合特征；

基于所述多个时空特征，确定所述视频中的一个或多个动作片段以及所述一个或多个动作片段的动作类别。

一方面，提供了一种视频处理装置，该装置包括：

获取模块，用于获取视频中的多个视频片段；

三维卷积模块，用于将所述多个视频片段输入特征提取网络，通过所述特征提取网络对所述多个视频片段进行基于残差结构的三维卷积处理，得到所述多个视频片段的多个时空特征，一个时空特征用于表示一个视频片段在时间和空间上的联合特征；

确定模块，用于基于所述多个时空特征，确定所述视频中的一个或多个动作片段以及所述一个或多个动作片段的动作类别。

在一种可能实施方式中，所述确定模块包括：

合并子模块，用于将所述多个时空特征合并为时空特征序列；

确定子模块，用于将所述时空特征序列输入片段识别网络，通过所述片段识别网络，确定所述视频中的一个或多个动作片段；

分类子模块，用于对所述一个或多个动作片段进行分类处理，得到所述一个或多个动作片段的动作类别。

在一种可能实施方式中，所述确定子模块包括：

一维卷积单元，用于将所述时空特征序列输入所述片段识别网络中的多个一维卷积层，通过所述多个一维卷积层对所述时空特征序列进行一维卷积处理，得到第一概率序列、第二概率序列和第三概率序列，其中，所述第一概率序列用于表示所述时空特征序列中各个时空特征为开始动作的概率，所述第二概率序列用于表示所述时空特征序列中各个时空特征为结束动作的概率，所述第三概率序列用于表示所述时空特征序列中各个时空特征为动作的概率；

第一确定单元，用于基于所述第一概率序列、所述第二概率序列和所述第三概率序列，确定所述视频中的一个或多个候选片段；

评估单元，用于对所述一个或多个候选片段进行置信度评估，得到所述一个或多个候选片段的置信度；

第二确定单元，用于按照置信度从大到小的顺序对所述一个或多个候选片段进行排序，将排序位于前第一目标数量的候选片段确定为所述一个或多个动作片段。

在一种可能实施方式中，所述第一确定单元用于：

基于所述第一概率序列、所述第二概率序列和所述第三概率序列，确定所述视频中的多个参考片段；

获取参考片段个数乘以目标比例并取整后所得的数值，将所述数值与固定值之间的最小值确定为第二目标数量；

从所述多个参考片段中筛选得到第二目标数量个参考片段，将所述第二目标数量个参考片段确定为所述一个或多个候选片段。

在一种可能实施方式中，所述评估单元包括：

生成子单元，用于对所述一个或多个候选片段，生成所述一个或多个候选片段的边界敏感概率特征；

获取子单元，用于基于所述一个或多个候选片段的边界敏感概率特征，获取所述一个或多个候选片段的置信度。

在一种可能实施方式中，所述生成子单元用于：

对任一候选片段，当所述候选片段的帧数小于第一目标阈值时，为所述候选片段生成具有第一目标长度的边界敏感概率特征；

当所述候选片段的帧数大于或等于所述第一目标阈值且小于或等于第二目标阈值时，为所述候选片段生成具有第二目标长度的边界敏感概率特征；

当所述候选片段的帧数大于所述第二目标阈值时，为所述候选片段生成具有第三目标长度的边界敏感概率特征。

在一种可能实施方式中，所述装置还用于：

基于第一训练样本集，对第一初始网络进行训练，得到所述片段识别网络，所述第一训练样本集中包括多个样本视频，每个样本视频中携带动作开始标签和动作结束标签。

在一种可能实施方式中，所述装置还用于：

获取第二训练样本集，所述第二训练样本集中包括多个截取视频，每个截取视频中包括至少一个动作片段；

根据所述多个截取视频中各个类型的动作片段所占的比例，确定目标帧率；

基于所述目标帧率对所述多个截取视频进行抽帧处理，得到多个截取视频片段；

基于所述多个截取视频片段，对第二初始网络进行训练，得到所述特征提取网络。

在一种可能实施方式中，所述视频为教育视频，对所述教育视频执行视频处理方法，得到所述教育视频中的一个或多个动作片段以及所述一个或多个动作片段的动作类别。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的视频处理方法所执行的操作。

一方面，提供了一种存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现如上述任一种可能实现方式的视频处理方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取视频中多个视频片段，从而将多个视频片段输入特征提取网络，通过该特征提取网络对该多个视频片段进行基于残差结构的三维卷积处理，得到该多个视频片段的多个时空特征，基于各个时空特征，确定出视频中各个动作片段以及各个动作片段的动作类别，由于三维卷积处理无需以光流信息作为输入项，也就无需花费较长时间计算各个视频片段的光流信息，能够缩短视频处理的耗时，而残差结构能够保证输出的时空特征具有较好的表达能力，从而在不损失时空特征的表达能力的基础上，大大提升整个视频处理过程的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频处理方法的实施环境示意图；

图2是本申请实施例提供的一种视频处理方法的流程图；

图3是本申请实施例提供的一种抽帧处理的原理性示意图；

图4是本申请实施例提供的一种三维残差网络的结构示意图；

图5是本申请实施例提供的一种片段识别网络的结构示意图；

图6是本申请实施例提供的一种片段识别网络的原理性示意图；

图7是本申请实施例提供的一种片段识别网络的原理性示意图；

图8是本申请实施例提供的一种结构化的段网络的原理性示意图；

图9是本申请实施例提供的一种课堂行为分析过程的流程图；

图10是本申请实施例提供的一种特征提取网络的训练流程图；

图11是本申请实施例提供的一种片段识别网络的训练流程图；

图12是本申请实施例提供的一种视频处理装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在AI领域内，视频处理及分析是一个重要分支，目前，基于深度学习的视频分析任务可以包括时序动作检测，时序动作检测中通常可以包括三个部分：动作识别、时序动作提名和动作分类。

在上述过程中，动作识别阶段通常用于提取视频的时空特征，基于视频的时空特征进行时序动作提名，从而可以确定出视频中动作发生的起止时间，从而得到视频中的动作片段，进而对视频中的动作片段进行分类处理，即可得到各个动作片段的类别。

在相关技术中，动作识别阶段采用双流网络(two-stream)，来提取视频的时空特征，然而双流网络需要以视频的光流信息作为一个输入项，由于提取视频的光流信息通常耗时较长，导致整体时序动作检测过程的速度较慢，导致视频处理效率低。有鉴于此，本申请实施例提供一种视频处理方法，能够提升视频处理效率，将在下面的各个实施例中进行详述。

图1是本申请实施例提供的一种视频处理方法的实施环境示意图。参见图1，在该实施环境中可以包括终端101和服务器102。

其中，该终端101可以用于录制视频，当录制完成后将视频上传至服务器102，该视频可以是任一内容的视频，例如网络课堂视频(又称为“教育视频”)、监控视频、体育赛事视频等，本申请实施例不对视频的内容进行具体限定。

其中，该服务器102可以用于视频处理，服务器102接收终端101发送的视频后，可以对视频执行时序动作检测等视频处理操作，由于视频处理需要较高的GPU(GraphicsProcessing Unit，图形处理器)处理能力，因此服务器102可以部署为后台的GPU服务器。

示意性的，本申请实施例可以应用于课堂行为分析场景，教师可以基于终端101录制教育视频，通过终端101将已录制的教育视频上传至服务器102，由服务器102对教育视频进行时序动作检测，即可以确定出教育视频中的正面讲解、指黑板、写板书等一系列动作片段以及各个动作片段的起止时间，进一步地，服务器102可以将各个动作片段推送至观看教育视频的观众所对应的终端，由于动作视频能够反映出教育在网络课堂上的积极度，从而能够帮助观众快速、直观地判断出教师在网络课堂上的表现优劣，对于教育的智能化有着重要的意义。

在一些实施例中，已录制的教育视频中可能并非仅由教师独自讲解，还包括教师与学生的互动行为，此时服务器102还可以对学生的动作进行分析处理，从而还能够衡量出学生在课堂上的积极度，当然，本申请实施例不局限于课堂行为分析场景，还可以应用在安防场景，例如对商超的监控视频进行时序动作检测等，这里不做赘述。

图2是本申请实施例提供的一种视频处理方法的流程图。参见图2，该实施例应用于计算机设备，以计算机设备为上述实施环境中服务器为例进行说明，该实施例可以包括下述步骤：

201、服务器获取视频中的多个视频片段。

在上述过程中，服务器可以按照固定帧率对该视频进行多次抽帧处理，从而得到该多个视频片段。其中，每个视频均由从视频中抽取的多个视频帧(frame)构成，不同视频片段的帧数可以相同，也可以不同。

在进行抽帧处理时，服务器可以抽取连续的多个视频帧，也可以按照一定的间隔抽取多个视频帧，本申请实施例不对抽帧的方式进行具体限定。例如，服务器可以抽取连续的64个视频帧作为一个视频片段。

通过上述步骤201，能够将视频转换成可以用于输入特征提取网络的多个视频片段，需要说明的是，不同的视频片段之间可以具有一些重叠部分，从而能够避免后续特征提取时，丢失掉各个视频片段在边缘部分的语义信息。

图3是本申请实施例提供的一种抽帧处理的原理性示意图，参见图3，在对视频300进行抽帧处理的过程中，以每个视频片段包含64帧为例，此时相邻视频片段之间可以相隔5帧，图中仅示出了第1个视频片段与第2个视频片段之间相隔5帧，实际上后续各个相邻的视频片段之间可以均相隔5帧。对最后一个视频片段而言，如果最后一个视频片段不足64帧，可以将最后一帧不断重复直至补全为64帧，从而形成最后一个视频片段，这种情况下，假设整个视频的帧数为N，那么视频片段的个数可以表示为(N-64)/5+1。

202、服务器将该多个视频片段输入特征提取网络，通过该特征提取网络对该多个视频片段进行基于残差结构的三维卷积处理，得到该多个视频片段的多个时空特征，一个时空特征用于表示一个视频片段在时间和空间上的联合特征。

可选地，该特征提取网络中可以包括多个三维卷积层，该多个三维卷积层中相邻的三维卷积层串联连接，且该多个三维卷积层中存在不相邻的三维卷积层基于残差结构进行跳跃连接(skip connection，通常也可以称之为short-cut)，这些三维卷积层中的卷积核均为三维卷积核。

例如，在该多个三维卷积层中，可以每间隔一个三维卷积层进行一次跳跃连接，也可以每间隔多个三维卷积层进行一次跳跃连接，当然，还可以是所有不相邻的各个三维卷积层均进行跳跃连接，本发明实施例不对残差结构的连接方式进行具体限定。

需要说明的是，在上述过程中，当任意两个三维卷积层的输出图进行残差连接时，是将上述两个三维卷积层的输出图进行融合，这里的融合可以为将该两个三维卷积层的输出图中对应位置的特征值直接相加。

在上述过程中，服务器将各个视频片段输入特征提取网络中多个三维卷积层，并基于该多个三维卷积层对多个视频片段进行基于残差结构的三维卷积处理，得到各个视频片段的时空特征，这里的三维包括视频帧本身的二维图像以及时间维度。

由于三维卷积处理本身就比双流网络的速度更快，并且三维卷积处理还无需输入各个视频片段的光流信息，因此在本申请实施例中可以大大提升特征提取过程的速度。另外，这种基于残差结构的三维卷积处理，能够保证提取出的时空特征在时间维度上具有更丰富的语义信息，也即是说具有更丰富的表达能力，从而能够在不降低时空特征表达能力的基础上，大大提升整个视频处理过程的效率。

在一些实施例中，该特征提取网络可以称为3D-Resnet(三维残差)网络，在该三维残差网络中每间隔多个三维卷积层进行一次跳跃连接。由于三维残差网络可以在kinetics数据集(一个公开的视频数据集)上进行预训练，而双流网络是基于ImageNet数据集(一个公开的图像数据集)上进行预训练的，因此三维残差网络比双流网络更加适用于视频处理，使得视频处理的准确率更高。

图4是本申请实施例提供的一种三维残差网络的结构示意图，参见图4，在一种三维残差网络中，每间隔3个三维卷积层(也即是图中的Conv层)进行一次跳跃连接，以一个残差结构为例，第一个三维卷积层中的三维卷积核尺寸为1×1×1(也即是1³)、输出的特征图个数为F(F≥1)，第二个三维卷积层中的三维卷积核尺寸为3×3×3(也即是3³)、输出的特征图个数为F，最后一个三维卷积层中的三维卷积核尺寸为1×1×1(也即是1³)、输出的特征图个数为4F。每个三维卷积层后面可以串接一个BN(Batch Normalization，批量归一化)层和一个激活层，在激活层中可以以ReLU函数作为激活函数，当然，在激活层中还可以使用sigmoid、tanh等激活函数，本申请实施例不对激活函数的选取进行具体限定。

203、服务器将该多个时空特征合并为时空特征序列。

其中，一个时空特征对应于一个视频片段。

在上述过程中，服务器可以对上述多个时空特征进行拼接(concat)操作，将该多个时空特征拼接成一个时空特征序列，使得该时空特征序列可以用于表示整个视频的时空特征。

例如，假设视频片段的个数为(N-64)/5+1，特征提取网络所输出的每个视频片段的时空特征均具有512维，那么拼接得到的时空特征序列的长度即为[(N-64)/5+1]*512。

204、服务器将该时空特征序列输入片段识别网络中的多个一维卷积层，通过该多个一维卷积层对该时空特征序列进行一维卷积处理，得到第一概率序列、第二概率序列和第三概率序列。

其中，该第一概率序列用于表示该时空特征序列中各个时空特征为开始动作的概率，该第二概率序列用于表示该时空特征序列中各个时空特征为结束动作的概率，该第三概率序列用于表示该时空特征序列中各个时空特征为动作的概率。

在上述过程中，服务器通过片段识别网络中多个一维卷积层，能够将时空特征序列卷积形成三个概率序列，在这三个概率序列中，每个概率序列中一个概率值对应于时空特征序列中的一个视频片段的时空特征。

例如，第一概率序列中第i个概率值用于表示时空特征序列中第i个视频片段的时空特征为开始动作的概率，第二概率序列中第i个概率值用于表示时空特征序列中第i个视频片段的时空特征为结束动作的概率，第三概率序列中第i个概率值用于表示时空特征序列中第i个视频片段的时空特征为动作的概率，其中i为任一大于或等于1且小于或等于视频片段个数的整数。

在相关技术中，通常会对各个视频片段的时空特征归一化到一个固定的长度(例如100)，这样会导致时空特征序列中各个归一化后的时空特征对应于视频中多个视频片段，从而在多个视频片段中有可能包括多个动作，这些动作无法被一一识别出来，引发视频中动作漏检的问题。因此，在本申请实施例中，不对各个视频片段的时空特征进行归一化，而是直接拼接成时空特征序列，能够尽可能地保证视频中的所有动作均被识别出来，避免视频中动作漏检的问题，具有更高的视频处理准确率。

205、服务器基于该第一概率序列、该第二概率序列和该第三概率序列，确定该视频中的一个或多个候选片段。

在上述步骤205中，服务器可以通过下述子步骤来确定各个候选片段：

2051、服务器基于该第一概率序列、该第二概率序列和该第三概率序列，确定该视频中的多个参考片段。

在上述过程中，服务器可以根据第一概率序列获取多个候选开始节点，根据第二概率序列获取多个候选结束节点，基于多个候选开始节点、多个候选结束节点以及第三概率序列，确定上述一个或多个参考片段。

在一些实施例中，服务器可以将第一概率序列中满足下述任一条件的节点确定为候选开始节点：(1)概率值大于第一概率阈值；(2)概率值为局部概率峰值。其中，该第一概率阈值可以为任一大于0的数值，例如，该第一概率阈值可以设置为0.9。

在一些实施例中，服务器可以将第二概率序列中满足下述任一条件的节点确定为候选结束节点：(1)概率值大于第二概率阈值；(2)概率值为局部概率峰值。其中，该第二概率阈值可以为任一大于0的数值，该第二概率阈值可以与第一概率阈值相同，也可以不同，例如，该第二概率阈值也可以设置为0.9。

在一些实施例中，服务器在确定参考片段时，根据该多个候选开始节点和多个候选结束节点，按照开始节点在先、结束节点在后的顺序可以组成多个片段，对任一片段，如果在第三概率序列中该片段内各个概率值满足目标条件，将该片段确定为一个参考片段，对多个片段重复执行上述步骤，即可得到多个参考片段。

可选地，该目标条件可以为下述各个条件中的任一个或者至少两个：(1)第三概率序列中该片段内各个概率值的平均概率值大于第三概率阈值；(2)第三概率序列中该片段内超过目标比例的概率值大于第三概率阈值；(3)第三概率序列中该片段内超过目标个数的概率值大于第三概率阈值。其中，该第三概率阈值可以为任一大于0的数值，例如该第三概率阈值可以设置为0.8。

2052、服务器获取参考片段个数乘以目标比例并取整后所得的数值，将该数值与固定值之间的最小值确定为第二目标数量。

其中，该目标比例是任一大于或等于0且小于或等于1的数值，该固定值可以是任一正整数，例如，该目标比例可以是1/20，该固定值可以是10000。

基于上述示例，服务器获取参考片段个数N_proposal，将N_proposal乘以目标比例(例如1/20)并取整得到N_proposal/20，将N_proposal/20与固定值(例如10000)之间的最小值确定为第二目标数量，因此，第二目标数量可以表示为min(10000，N_proposal/20)。

在上述步骤2052中，能够根据参考片段的个数以及固定值来确定第二目标数量，当参考片段个数较大时，则第二目标数量通常会随之增大，但是为保证视频处理效率，所以为第二目标数量设置一个固定值上限，当参考片段个数乘以目标比例大于固定值时，则直接确定固定值为第二目标数量，能够在保证视频处理效率的同时，动态地对候选片段的数量进行调整，更加具有灵活性和可控性。

2053、服务器从该多个参考片段中筛选得到第二目标数量个参考片段，将该第二目标数量个参考片段确定为一个或多个候选片段。

在上述过程中，服务器可以根据各个参考片段在第三概率序列中的平均概率值来进行筛选，按照平均概率值从大到小的顺序对各个参考片段进行排序，将排序在前第二目标数量的参考片段确定为候选片段。

服务器通过上述步骤2052能够确定出待筛选的候选片段的数量(第二目标数量)，从而在上述步骤2053中，对多个参考片段进行筛选，筛选出第二目标数量个候选片段作为一个或多个候选片段。

在一些实施例中，服务器还可以不执行上述步骤2052，而是直接从多个参考片段中筛选出固定数量的候选片段，该固定数量为任一正整数，例如，该固定数量可以是500，本申请实施例不对固定数量的取值进行具体限定。

206、对该一个或多个候选片段，服务器生成该一个或多个候选片段的边界敏感概率特征。

在上述过程中，以生成一个边界敏感概率特征为例进行说明，对任一候选片段，可以将该候选片段本身对应的时序区间作为中心区域(center region)，将该候选片段的开始节点附近的一段时序区间作为开始区域(starting region)，将该候选片段的结束节点附近的一段时序区间作为结束区域(ending region)，在第三概率序列上根据中心区域、开始区域和结束区域所处的区间进行对应区间的采样，将采样到的各个采样值(也即是第三概率序列中的概率值)拼接后即可得到一个边界敏感概率特征。

在一些实施例中，服务器可以对所有的候选片段均构建相同长度的边界敏感概率(Boundary-Sensitive Proposal，BSP)特征，从而能够简化生成边界敏感概率特征的流程。例如，对每个候选片段而言，可以将开始区域、中心区域、结束区域的长度分别设置为4、8、4，也即是说，各个边界敏感概率特征的长度均为16。

在一些实施例中，服务器还可以对不同的候选片段构建不同长度的边界敏感概率特征。可选地，对该一个或多个候选片段中任一候选片段，服务器可以在当该候选片段的帧数小于第一目标阈值时，为该候选片段生成具有第一目标长度的边界敏感概率特征；当该候选片段的帧数大于或等于该第一目标阈值且小于或等于第二目标阈值时，为该候选片段生成具有第二目标长度的边界敏感概率特征；当该候选片段的帧数大于该第二目标阈值时，为该候选片段生成具有第三目标长度的边界敏感概率特征。其中，该第一目标阈值、第二目标阈值可以为任一大于0的整数，例如，该第一目标阈值可以是100，该第二目标阈值可以是1000。

基于上述示例，假设第一目标阈值为100，第二目标阈值为1000，那么服务器对帧数小于100帧的候选片段，可以将开始区域、中心区域、结束区域的长度分别设置为2、4、2，也即是说第一目标长度为8，从而为小于100帧的候选片段生成长度为8的边界敏感概率特征；对帧数位于100-1000帧之间的候选片段，可以将开始区域、中心区域、结束区域的长度分别设置为4、8、4，也即是说第二目标长度为16，从而为100-1000帧之间的候选片段生成长度为16的边界敏感概率特征；对帧数大于1000帧的候选片段，可以将开始区域、中心区域、结束区域的长度分别设置为8、16、8，也即是说第一目标长度为32，从而为大于1000帧的候选片段生成长度为32的边界敏感概率特征。

207、服务器基于该一个或多个候选片段的边界敏感概率特征，获取该一个或多个候选片段的置信度。

在上述过程中，可以服务器将各个候选片段的边界敏感概率特征输入一个多层感知机(Multi-Layer Perception，MLP)，通过该多层感知机对各个候选片段的边界敏感概率特征进行加权处理，输出各个候选片段的置信度。

其中，一个候选片段的置信度可以用于衡量一个候选片段与真实动作片段之间的重叠率(intersection over union，IOU，也称为交并比)，当一个候选片段的置信度越高时，意味着候选片段与真实动作片段之间的重叠率越高，反之，当置信度越低时，意味着候选片段与真实动作片段之间的重叠率越低。

在上述步骤206-207中，服务器通过对该一个或多个候选片段进行置信度评估，得到该一个或多个候选片段的置信度，从而能够在下述步骤208中，根据置信度从候选片段中筛选出动作片段。

208、服务器按照置信度从大到小的顺序对该一个或多个候选片段进行排序，将排序位于前第一目标数量的候选片段确定为该视频中的一个或多个动作片段。

其中，该第一目标数量可以为任一正整数。

在上述步骤204-208中，服务器将该时空特征序列输入片段识别网络，通过该片段识别网络，确定该视频中的一个或多个动作片段，从而相当于基于时空特征序列和片段识别网络，对视频完成了时序动作提名，确定出了各个动作片段的起止时间。

在一些实施例中，由于机器有可能对同一个动作片段检测出了多个候选片段，这些候选片段相互之间是冗余重复的，仅保留一个即可，因此服务器可以通过非极大值抑制(Non-Maximum Suppression，NMS)算法对一个或多个动作片段进行重叠抑制，输出最终的各个动作片段。例如，该非极大值抑制算法可以采用soft-nms算法。

图5是本申请实施例提供的一种片段识别网络的结构示意图，参见图5，在片段识别网络中，在逻辑上可以划分时序评估模块501、候选片段生成模块502和候选片段评估模块503。服务器将长度为L的时空特征序列输入时序评估模块501，该时序评估模块501中包括上述步骤204中所涉及的多个一维卷积层，通过时序评估模块501对时空特征序列进行一维卷积处理，输出第一概率序列、第二概率序列和第三概率序列，这三个概率序列能够表示出各个时空特征为开始动作的概率、为结束动作的概率以及是动作的概率。接下来服务器基于时序评估模块501输出的三个概率序列，通过候选片段生成模块502执行上述步骤205所执行的操作，确定出视频中的一个或多个候选片段，将该一个或多个候选片段输入候选片段评估模块503，通过候选片段评估模块503执行上述步骤206-208所执行的操作，也即是评估各个候选片段的置信度，基于置信度筛选出一个或多个动作片段，进一步地，还可以通过soft-nms算法进行非极大值抑制，去掉一个或多个动作片段中的重叠部分，输出最终的各个动作片段。

图6是本申请实施例提供的一种片段识别网络的原理性示意图，参见图6，在图5的框架基础上详细地绘制出各个模块内部的一种示意性结构。片段识别网络也可以称为边界敏感网络(Boundary-Sensitive Network，BSN)，将各个视频片段的时空特征拼接形成时空特征序列，该时空特征序列也即是图中的输入特征序列(input feature sequence)，将时空特征序列输入时序评估模块(temporal evaluation module)501中的三个一维卷积层(也即是图中的Conv层)，输出三个概率序列(probabilities sequence)。

其中，上述三个一维卷积层之后可以分别串接ReLU、ReLU和sigmoid激活函数，上述三个概率序列包括第一概率序列(starting)、第二概率序列(ending)、第三概率序列(actionness)，进一步地，以时间为横轴、以概率值为纵轴可以绘制出如图6中所示的三条概率曲线，能够更加直观地显示出各个概率序列中的概率峰值。

在上述三个概率序列的基础上，通过候选片段生成模块(proposal generationmodule)502构建各个候选片段的边界敏感概率特征，并在候选片段评估模块(proposalevaluation module)503中，将各个候选片段的边界敏感概率特征依次输入两个全连接(Full Connection，FC)层，通过上述两个FC层输出各个候选片段的置信度(也即是图中的置信分数score)，基于置信度完成对候选片段中动作片段的筛选。

图7是本申请实施例提供的一种片段识别网络的原理性示意图，参见图7，以某一视频中“长跳(long jump)”动作片段为例，在第一概率序列中分别有两个概率峰值可以确定为候选开始节点，在第二概率序列中仅有一个概率峰值可以确定为候选结束节点，那么上述两个候选开始节点和一个候选结束节点可以构成两个可能的候选片段，对上述两个候选片段进行置信度估计，可以看到一个候选片段的置信度为0.95，一个候选片段的置信度为0.73，那么最终可以将置信度为0.95的候选片段确定为一个动作片段，同时丢弃置信度为0.73的候选片段。

209、服务器对该一个或多个动作片段进行分类处理，得到该一个或多个动作片段的动作类别。

服务器将时空特征序列输入片段识别网络后，输出一个或多个动作片段，从而对上述一个或多个动作片段可以进行回归和分类处理，分类处理能够确定各个动作片段的动作类别，回归处理则能够对各个动作片段的边界进行更加精细的调整，使得最终确定出的各个动作片段具有更佳准确的开始节点和结束节点，增加视频处理的准确率。

在一些实施例中，服务器在进行分类处理时，可以将该一个或多个动作片段输入结构化的段网络(Structured Segment Network，SSN)，通过SSN对各个动作片段提取出时序结构金字塔特征，并将各个动作片段的时序结构金字塔特征输入两个分类器，该两个分类器包括动作分类器和片段完整度分类器，通过这两个分类器来对各个动作片段进行分类处理，得到各个动作片段的动作类别。

其中，上述动作分类器用于判断动作片段属于哪个动作类别，例如，当视频为教育视频时，动作类别可以包括正面讲解、指黑板、写板书等。上述片段完整度分类器用于判断动作片段是否为一个完整片段，当动作片段的长度过小时，该片段完整度分类器会将该动作片段判断为背景片段或者不完整片段，对于背景片段或者不完整片段，服务器则可以直接进行舍弃，从而能够在分类处理的过程中进一步地去除掉动作片段中的噪声。

在一些实施例中，对任一动作片段，可以将该动作片段在视频中划分为开始阶段、动作阶段和结束阶段，每个阶段中均包括多个视频帧，将各个阶段所包括的各个视频帧分别到输入不同的CNN(Convolutional Neural Network，卷积神经网络)子网络中，得到各个视频帧的图像特征，进而将不同阶段中各个视频帧的图像特征进行融合，可以分别得到各个阶段的时序结构特征，将各个阶段的时序结构特征进行融合，即可得到整个动作片段的时序结构金字塔特征。可选地，在进行特征融合时，可以采用拼接(concat)操作。

图8是本申请实施例提供的一种结构化的段网络的原理性示意图，参见图8，对于任一个动作片段而言，确定该动作片段对应的开始阶段、动作阶段和结束阶段，以该动作片段包括5个视频帧(803-807)为例进行说明，将视频帧803-807确定为动作阶段，将视频帧801-803确定为开始阶段，将视频帧807-809确定为结束阶段，服务器分别将视频帧801-809输入各自的CNN子网络内，通过各自的CNN子网络提取各个视频帧的图像特征，将视频帧801-803的图像特征融合为开始阶段的时序结构特征810，将视频帧803-807的图像特征融合为动作阶段的时序结构特征811，将视频帧807-809的图像特征融合为结束阶段的时序结构特征812，此外，还可以将视频帧803-805的图像特征融合为上半动作阶段的时序结构特征813，将视频帧805-807的图像特征融合为下半动作阶段的时序结构特征814，将上述五个时序结构特征810-814分别进行拼接操作，即可得到整个动作片段的时序结构金字塔特征815，将上述动作片段的时序结构金字塔特征815输入片段完整度分类器820，通过片段完整度分类器820判断该动作片段是否为完整片段，如果片段完整度分类器820将该动作片段判断为背景片段或者不完整片段，丢弃该动作片段，如果片段完整度分类器820将该动作判断为完整片段，再将该动作片段的时序结构金字塔特征输入动作分类器830，通过动作分类器830判断出该动作片段所属的动作类别，对每个动作片段均重复执行上述过程，即可得到一个或多个动作片段的动作类别。

在上述步骤203-209中，相当于服务器基于该多个时空特征，确定该视频中的一个或多个动作片段以及该一个或多个动作片段的动作类别。在一些实施例中，为了对各个动作片段进行进一步地精准定位，还可以将一个或多个动作片段输入回归器中，通过回归器对各个动作片段的开始节点和结束节点进行精细调整，从而使得各个动作片段的边界范围准确率更高。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请实施例提供的方法，通过获取视频中多个视频片段，从而将多个视频片段输入特征提取网络，通过该特征提取网络对该多个视频片段进行基于残差结构的三维卷积处理，得到该多个视频片段的多个时空特征，基于各个时空特征，确定出视频中各个动作片段以及各个动作片段的动作类别，由于三维卷积处理无需以光流信息作为输入项，也就无需花费较长时间计算各个视频片段的光流信息，能够缩短视频处理的耗时，而残差结构能够保证输出的时空特征具有较好的表达能力，从而在不损失时空特征的表达能力的基础上，大大提升整个视频处理过程的效率。

随着5G(the 5th Generation mobile communication technology，第五代移动通信技术)时代的到来，视频将逐渐成为人们接收信息的一个不可或缺的载体，使得视频分析愈发重要。

示意性地，在一些课堂行为分析场景中，上述视频可以为教育视频，由于教育视频本身视频长度的跨度较大，有可能是几分钟的解题视频，也有可能是几小时的串讲视频，对各个教育视频的内容而言，教育视频中动作片段的跨度通常也较大，例如，有可能正面讲解动作持续长达十几分钟，而擦黑板动作可以短至几秒钟。

有鉴于此，服务器可以对教育视频执行上述实施例中的视频处理方法，从而可以得到教育视频中的一个或多个动作片段以及该一个或多个动作片段的动作类别。

具体地，服务器可以获取教育视频中的多个教育视频片段，将该多个教育视频片段输入特征提取网络，通过该特征提取网络对该多个教育视频片段进行基于残差结构的三维卷积处理，得到该多个教育视频片段的多个时空特征，其中，一个时空特征用于表示一个教育视频片段在时间和空间上的联合特征。能够在保证时空特征表达能力的同时，加快视频处理的效率。

进而，服务器将该多个教育视频片段的多个时空特征合并为时空特征序列，将该时空特征序列输入片段识别网络中的多个一维卷积层，通过该多个一维卷积层对该时空特征序列进行一维卷积处理，得到第一概率序列、第二概率序列和第三概率序列。服务器基于该第一概率序列、第二概率序列和第三概率序列，确定教育视频中的一个或多个参考片段，由于教育视频中有可能包含十几个参考片段，也有可能包含成百上千个参考片段，因此，从参考片段中选取固定数量的候选片段不适用于教育视频的分析任务，此时，服务器可以获取参考片段个数乘以目标比例并取整后所得的数值，将该数值与固定值之间的最小值确定为第二目标数量，从而在参考片段中筛选出第二目标数量个参考片段，将上述第二目标数量个参考片段确定为一个或多个候选片段，从而能够根据参考片段的个数，动态调整选取的候选片段的个数，提升视频处理过程的灵活性。

进而，对于不同类型的候选片段，服务器生成不同长度的边界敏感概率特征，基于该一个或多个候选片段的边界敏感概率特征，获取该一个或多个候选片段的置信度，按照置信度从大到小的顺序对该一个或多个候选片段进行排序，将排序位于前第一目标数量的候选片段确定为教育视频中的一个或多个动作片段，对该一个或多个动作片段进行分类处理，得到该一个或多个动作片段的动作类别，能够更加灵活地适应于课堂行为分析场景，使得对教育视频的处理更加精细和准确，提升了教育视频处理过程的效率和准确率。

在上述过程中，特征提取网络、片段识别网络以及分类处理时可以采用的SSN网络可以构成一个用于视频处理的“多级结构”网络，相较于一些端到端的视频处理而言，具有视频处理速度快、效率高、准确率高的优势。

图9是本申请实施例提供的一种课堂行为分析过程的流程图，图9中以特征提取网络为3D-Resnet网络、片段识别网络为边界敏感网络为例，展示了上述基于教育视频进行课堂行为分析的流程，对教育视频进行抽帧处理(也即是图中的预处理)，得到多个教育视频片段，将多个教育视频片段输入3D-Resnet网络，通过3D-Resnet网络提取多个教育视频片段的多个时空特征，将多个教育视频片段的多个时空特征输入边界敏感网络，通过边界敏感网络识别教育视频中的一个或多个动作片段，最后，对各个动作片段进行分类和回归，得到最终的动作片段以及对应的动作类别。

例如，对该多个动作片段进行分类，分别区分出擦黑板的动作片段、正面讲解的动作片段、写板书的动作片段等，然后对各个动作类别的动作片段进行回归，从而能够对各个动作类别的动作片段的时间边界进行更加精细的调整，使得最终确定出的各个动作片段具有更加准确的开始节点和结束节点，增加视频处理的准确率。

进一步地，在经过分类和回归之后，得到已知动作类别并且具有精准的时间边界的动作片段，例如，正面讲解的动作片段可以作为精选片段投入到教育视频的预览界面中，能够帮助观众快速地了解教育视频的讲课质量，另外，还可以在教育视频的播放界面中添加筛选动作片段的筛选选项，当用户点击该筛选选项时，用户可以选择观看感兴趣的动作片段，跳过擦黑板、写板书等不感兴趣的动作片段，能够提升用户对教育视频的观看体验。

图10是本申请实施例提供的一种特征提取网络的训练流程图，参见图10，可以看出，在执行上述实施例之前，服务器可以基于第二训练样本集对第二初始网络进行训练，训练过程如下：

1001、服务器获取第二训练样本集，该第二训练样本集中包括多个截取视频，每个截取视频中包括至少一个动作片段。

在上述过程中，该第二训练样本集可以是服务器的本地数据库中预存的数据集，也可以是服务器从不在本地的数据库(俗称“云端数据库”)中下载的数据集，本申请实施例不对第二训练样本集的来源进行具体限定。

需要说明的是，为了方便后续的训练过程，每个截取视频中可以仅包括一个动作片段，也即使得各个截取视频能够唯一对应于一个动作类别，从而便于计算损失函数，能够简化训练流程。

1002、服务器根据该多个截取视频中各个类型的动作片段所占的比例，确定目标帧率。

由于在抽帧过程中，帧率(Frames Per Second，FPS，全称每秒传输帧数，简称帧率)对各个截取视频片段的最终效果会造成较大影响，比如，当帧率过小时，对截取视频中一些持续时间较短的动作而言，由于抽取的帧数会很少，机器通常无法识别出来该动作所在的动作片段，反之，当帧率过大时，会导致后续获取到的各个截取视频片段的时空特征所构成的时空特征序列的长度太大，使得视频处理的计算量成倍增加。

有鉴于此，在本申请实施例中，服务器可以基于上述步骤1002来确定抽帧时采用的目标帧率，也即是说，对每个截取视频，服务器确定该截取视频中各个类型的动作片段所占的比例，再基于各个类型的动作片段所占的比例来确定目标帧率。

例如，截取视频中的动作片段可以分为三类：短动作片段、一般动作片段以及长动作片段，其中，将动作片段小于100帧的称为短动作片段，将动作片段位于100-1000帧的称为一般动作片段，将动作片段大于1000帧的称为长动作片段。

对某一截取视频，获取该截取视频中各个动作片段的平均帧数L(L＞0)，如果该截取视频中60％以上的动作片段为短动作片段，那么可以将目标帧率确定为FPS＝(30.0*100)/L，如果该截取视频中60％以上的动作片段为一般动作片段，那么可以将目标帧率确定为FPS＝30，如果该截取视频中60％以上的动作片段为长动作片段，那么目标帧率可以确定为FPS＝(30.0*1000)/L。

可选地，如果该截取视频中短动作片段、一般动作片段和长动作片段所占的比例均在30％以上，服务器可以根据动作片段在截取视频中所处的位置，对该截取视频进行无重叠部分的截取操作，得到一系列的短视频，为了保证后续抽帧处理的简便性，可以通过控制短视频的长度，保证每个短视频中仅包含一个动作，进而对每个短视频基于不同的目标帧率进行抽帧处理，每个短视频的抽帧过程同上述整个截取视频的抽帧过程类似，这里不做赘述。

需要说明的是，在上述过程中，如果截取视频中包括多个不同类型的动作片段，那么可以基于上述示例中的方式确定目标帧率。在一些实施例中，如果每个截取视频中仅包含一个动作片段，那么服务器可以直接根据该截取视频所包含的动作片段的类型来确定目标帧率，能够大大提升确定目标帧率过程的速度。

通过上述步骤1002，能够根据截取视频中各个类型的动作片段所占的比例不同，选取不同的目标帧率进行下述步骤1003中的抽帧处理，能够提升视频处理的准确率。需要说明的是，不同的截取视频片段之间可以具有一些重叠部分，从而能够避免后续特征提取时，丢失掉各个截取视频片段在边缘部分的语义信息。

1003、服务器基于该目标帧率对该多个截取视频进行抽帧处理，得到多个截取视频片段。

上述步骤1003与上述步骤201类似，这里不做赘述。

1004、服务器将该多个截取视频片段输入第二初始网络，通过该第二初始网络对该多个截取视频片段进行基于残差结构的三维卷积处理，得到该多个截取视频片段的多个时空特征，一个时空特征用于表示一个截取视频片段在时间和空间上的联合特征。

上述步骤1004与上述步骤202类似，这里不做赘述。

1005、服务器将该多个截取视频片段的多个时空特征输入动作分类器，通过该动作分类器确定该多个截取视频片段的预测动作类别。

在上述过程中，服务器将多个截取视频片段的多个时空特征输入动作分类器，通过该动作分类器可以预测出该多个截取视频片段属于各个动作类别的概率值，服务器可以将最大概率值所对应的动作类别确定为各个截取视频片段的预存动作类别。

上述动作分类器与上述步骤209中所介绍的动作分类器类似，这里不做赘述。需要说明的是，此处的动作分类器仅为训练特征提取网络的过程用来辅助训练的，当训练完毕后该特征提取网络的结构中实际上不包含动作分类器。

1006、服务器根据该多个截取视频片段的预测动作类别和真实动作类别，获取本次训练过程的损失函数值。

在一些实施例中，服务器可以采用交叉熵损失作为第二初始网络的损失函数，交叉熵损失的表达式如下：

在上述公式中，L₂表示第二初始网络的交叉熵损失，n表示截取视频的数量，y_i表示第i个截取视频的真实动作类别，f(x_i，θ)表示动作分类器预测出的多个概率值，x_i表示输入到第二初始网络的第i个截取视频，θ表示第二初始网络的权重，其中，i为大于或等于1且小于或等于n的任一整数。

1007、当该损失函数值大于或等于第三目标阈值时，服务器对第二初始网络进行参数调整，迭代执行上述步骤1004-1006所执行的操作，直到该损失函数值小于该第三目标阈值，得到特征提取网络。

其中，该第三目标阈值为任一大于或等于0且小于或等于1的数值。

在上述步骤1004-1007中，相当于服务器基于该多个截取视频片段，对第二初始网络进行训练，得到特征提取网络，当训练完毕后，服务器还可以将特征提取网络投入到后续对片段识别网络的训练过程中，将在下一个实施例中进行详述。

本申请实施例提供的方法，对于不同的截取视频，按照截取视频中各个类型的动作片段所占的比例不同，采用不同的目标帧率进行抽帧处理，得到多个截取视频片段，并基于截取视频片段训练第二初始网络，从而得到特征提取网络，由于动态调整抽帧采取的目标帧率，能够提升训练得到的特征提取网络的准确率，从而提升视频处理过程的准确率。

图11是本申请实施例提供的一种片段识别网络的训练流程图，参见图11，可以看出，在执行上述实施例之前，服务器可以基于第一训练样本集对第一初始网络进行训练，训练过程如下：

1100、服务器获取第一训练样本集，该第一训练样本集中包括多个样本视频，每个样本视频中携带动作开始标签和动作结束标签。

上述步骤1100与上述步骤901类似，这里不做赘述。

需要说明的是，在第一训练样本集中各个样本视频中可以包括至少一个动作片段，每个动作片段均携带有动作开始标签和动作结束标签，上述动作开始标签和动作结束标签可以由用户进行人工标注。

1101、对每个样本视频，服务器获取该样本视频的多个样本视频片段。

上述步骤1101与上述步骤201类似，这里不做赘述。

1102、服务器将该多个样本视频片段输入特征提取网络，通过该特征提取网络对该多个样本视频片段进行基于残差结构的三维卷积处理，得到该多个样本视频片段的多个时空特征，一个时空特征用于表示一个样本视频片段在时间和空间上的联合特征。

上述步骤1102与上述步骤202类似，这里不做赘述。

在上述过程中，服务器根据上述实施例中训练得到的特征提取网络，获取各个样本视频片段的时空特征。

1103、服务器将该多个样本视频片段的多个时空特征合并为时空特征序列。

上述步骤1103与上述步骤203类似，这里不做赘述。

1104、服务器将该时空特征序列输入第一初始网络中的多个一维卷积层，通过该多个一维卷积层对该时空特征序列进行一维卷积处理，得到第一概率序列、第二概率序列和第三概率序列。

上述步骤1104与上述步骤204类似，这里不做赘述。

1105、服务器基于该第一概率序列、该第二概率序列和该第三概率序列，确定该样本视频中的一个或多个候选片段。

上述步骤1105与上述步骤205类似，这里不做赘述。

1106、对该一个或多个候选片段，服务器生成该一个或多个候选片段的边界敏感概率特征。

上述步骤1106与上述步骤206类似，这里不做赘述。

1107、服务器基于该一个或多个候选片段的边界敏感概率特征，获取该一个或多个候选片段的置信度。

上述步骤1107与上述步骤207类似，这里不做赘述。

1108、服务器按照置信度从大到小的顺序对该一个或多个候选片段进行排序，将排序位于前第一目标数量的候选片段确定为该样本视频中的一个或多个动作片段。

上述步骤1108与上述步骤208类似，这里不做赘述。

1109、服务器对每个样本视频重复执行上述步骤1101-1108所执行的操作，得到各个样本视频中的各个动作片段。

1110、服务器基于各个样本视频中的各个动作片段与真实动作片段之间的误差，获取本次训练过程的损失函数值。

在一些实施例中，假设各个样本视频的动作开始标签为t_s(t_s＞0)，动作结束标签为t_e(t_e＞0)，而每个时空特征实际上对应的是样本视频中的一个长度为L_s(L_s＞0)的视频片段，那么对时空特征序列中位置为t_n(0＜t_n＜时空特征序列的长度)的时空特征而言，该时空特征在样本视频中对应的动作阶段可以表示为[t_n-L_s/2，t_n+L_s/2]，相应地，对动作开始标签t_s也进行同理转换，可以得到开始阶段[t_s-L_s/2，t_s+L_s/2]，对动作结束标签为t_e也进行同理转换，可以得到结束阶段[t_e-L_e/2，t_e+L_e/2]。

那么对于上述步骤1109中预测出的各个动作片段而言，通过计算预测出的开始阶段、动作阶段和结束阶段与真实开始阶段、真实动作阶段和真实结束阶段之间的重叠率，就可以得到相应的损失函数。

例如，该第一初始网络的损失函数可以具有如下表达式：

b_i＝sign(g_i-θ)

在上述公式中，L₁表示第一初始网络的训练损失，L表示时空特征序列的长度，p_i表示第i个节点在某一概率序列上的概率值。

其中，b_i表示二值化的重叠度指数，在b_i的表达式中，g_i表示第i个节点预测出的动作片段与真实动作片段之间的重叠率，sign函数为一种二值化的符号函数，θ为预设的重叠度阈值，例如θ可以取0.5。

需要说明的是，由于p_i表示第i个节点在某一概率序列上的概率值，因此，对第一概率序列、第二概率序列和第三概率序列，均可以求得各个概率对应的L₁函数值，将三个概率序列对应的L₁函数值相加，即可得到最终的本次训练过程的损失函数值。

1111、当该损失函数值大于或等于第四目标阈值时，服务器对第一初始网络进行参数调整，迭代执行上述步骤1101-1110所执行的操作，直到该损失函数值小于该第四目标阈值，得到片段识别网络。

其中，该第四目标阈值为任一大于或等于0且小于或等于1的数值。

上述步骤1111与上述步骤907类似，这里不做赘述。

本申请实施例提供的方法，服务器基于第一训练样本集，对第一初始网络进行训练，得到该片段识别网络，在训练过程中，采用训练完毕的特征提取网络来提取各个样本视频的时空特征序列。进一步地，当服务器对片段识别网络训练完毕时，可以将特征提取网络、片段识别网络投入到分类网络(例如SSN网络)以及回归网络的训练过程中，这里不做赘述。

在一种可能实施方式中，假设片段识别网络输出了N(N≥1)个动作片段，那么经过SSN网络的分类，最终将会输出一个N*2*K维的向量，K表示的是动作类别的个数，也即是说，对每个动作片段，分别计算动作片段的开始节点和结束节点对应于每个动作类别的概率，将概率最大的动作类别确定为该动作片段的动作类别。

图12是本申请实施例提供的一种视频处理装置的结构示意图，参见图12，该装置包括：

获取模块1201，用于获取视频中的多个视频片段；

三维卷积模块1202，用于将该多个视频片段输入特征提取网络，通过该特征提取网络对该多个视频片段进行基于残差结构的三维卷积处理，得到该多个视频片段的多个时空特征，一个时空特征用于表示一个视频片段在时间和空间上的联合特征；

确定模块1203，用于基于该多个时空特征，确定该视频中的一个或多个动作片段以及该一个或多个动作片段的动作类别。

本申请实施例提供的装置，通过获取视频中多个视频片段，从而将多个视频片段输入特征提取网络，通过该特征提取网络对该多个视频片段进行基于残差结构的三维卷积处理，得到该多个视频片段的多个时空特征，基于各个时空特征，确定出视频中各个动作片段以及各个动作片段的动作类别，由于三维卷积处理无需以光流信息作为输入项，也就无需花费较长时间计算各个视频片段的光流信息，能够缩短视频处理的耗时，而残差结构能够保证输出的时空特征具有较好的表达能力，从而在不损失时空特征的表达能力的基础上，大大提升整个视频处理过程的效率。

在一种可能实施方式中，基于图12的装置组成，该确定模块1203包括：

合并子模块，用于将该多个时空特征合并为时空特征序列；

确定子模块，用于将该时空特征序列输入片段识别网络，通过该片段识别网络，确定该视频中的一个或多个动作片段；

分类子模块，用于对该一个或多个动作片段进行分类处理，得到该一个或多个动作片段的动作类别。

在一种可能实施方式中，基于图12的装置组成，该确定子模块包括：

一维卷积单元，用于将该时空特征序列输入该片段识别网络中的多个一维卷积层，通过该多个一维卷积层对该时空特征序列进行一维卷积处理，得到第一概率序列、第二概率序列和第三概率序列，其中，该第一概率序列用于表示该时空特征序列中各个时空特征为开始动作的概率，该第二概率序列用于表示该时空特征序列中各个时空特征为结束动作的概率，该第三概率序列用于表示该时空特征序列中各个时空特征为动作的概率；

第一确定单元，用于基于该第一概率序列、该第二概率序列和该第三概率序列，确定该视频中的一个或多个候选片段；

评估单元，用于对该一个或多个候选片段进行置信度评估，得到该一个或多个候选片段的置信度；

第二确定单元，用于按照置信度从大到小的顺序对该一个或多个候选片段进行排序，将排序位于前第一目标数量的候选片段确定为该一个或多个动作片段。

在一种可能实施方式中，该第一确定单元用于：

基于该第一概率序列、该第二概率序列和该第三概率序列，确定该视频中的多个参考片段；

获取参考片段个数乘以目标比例并取整后所得的数值，将该数值与固定值之间的最小值确定为第二目标数量；

从该多个参考片段中筛选得到第二目标数量个参考片段，将该第二目标数量个参考片段确定为该一个或多个候选片段。

在一种可能实施方式中，基于图12的装置组成，该评估单元包括：

生成子单元，用于对该一个或多个候选片段，生成该一个或多个候选片段的边界敏感概率特征；

获取子单元，用于基于该一个或多个候选片段的边界敏感概率特征，获取该一个或多个候选片段的置信度。

在一种可能实施方式中，该生成子单元用于：

对任一候选片段，当该候选片段的帧数小于第一目标阈值时，为该候选片段生成具有第一目标长度的边界敏感概率特征；

当该候选片段的帧数大于或等于该第一目标阈值且小于或等于第二目标阈值时，为该候选片段生成具有第二目标长度的边界敏感概率特征；

当该候选片段的帧数大于该第二目标阈值时，为该候选片段生成具有第三目标长度的边界敏感概率特征。

在一种可能实施方式中，基于图12的装置组成，该装置还用于：

基于第一训练样本集，对第一初始网络进行训练，得到该片段识别网络，该第一训练样本集中包括多个样本视频，每个样本视频中携带动作开始标签和动作结束标签。

获取第二训练样本集，该第二训练样本集中包括多个截取视频，每个截取视频中包括至少一个动作片段；

根据该多个截取视频中各个类型的动作片段所占的比例，确定目标帧率；

基于该目标帧率对该多个截取视频进行抽帧处理，得到多个截取视频片段；

基于该多个截取视频片段，对第二初始网络进行训练，得到该特征提取网络。

在一种可能实施方式中，该视频为教育视频，对该教育视频执行视频处理方法，得到该教育视频中的一个或多个动作片段以及该一个或多个动作片段的动作类别。

需要说明的是：上述实施例提供的视频处理装置在处理视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理装置与视频处理方法实施例属于同一构思，其具体实现过程详见视频处理方法实施例，这里不再赘述。

图13是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)1301和一个或一个以上的存储器1302，其中，该存储器1302中存储有至少一条程序代码，该至少一条程序代码由该处理器1301加载并执行以实现上述各个实施例提供的视频处理方法。当然，该计算机设备1300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备1300还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码可由终端中的处理器执行以完成上述实施例中视频处理方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取视频中的多个视频片段；

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个时空特征，确定所述视频中的一个或多个动作片段以及所述一个或多个动作片段的动作类别包括：

将所述多个时空特征合并为时空特征序列；

将所述时空特征序列输入片段识别网络，通过所述片段识别网络，确定所述视频中的一个或多个动作片段；

对所述一个或多个动作片段进行分类处理，得到所述一个或多个动作片段的动作类别。

3.根据权利要求2所述的方法，其特征在于，所述将所述时空特征序列输入片段识别网络，通过所述片段识别网络，确定所述视频中的一个或多个动作片段包括：

将所述时空特征序列输入所述片段识别网络中的多个一维卷积层，通过所述多个一维卷积层对所述时空特征序列进行一维卷积处理，得到第一概率序列、第二概率序列和第三概率序列，其中，所述第一概率序列用于表示所述时空特征序列中各个时空特征为开始动作的概率，所述第二概率序列用于表示所述时空特征序列中各个时空特征为结束动作的概率，所述第三概率序列用于表示所述时空特征序列中各个时空特征为动作的概率；

基于所述第一概率序列、所述第二概率序列和所述第三概率序列，确定所述视频中的一个或多个候选片段；

对所述一个或多个候选片段进行置信度评估，得到所述一个或多个候选片段的置信度；

按照置信度从大到小的顺序对所述一个或多个候选片段进行排序，将排序位于前第一目标数量的候选片段确定为所述一个或多个动作片段。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一概率序列、所述第二概率序列和所述第三概率序列，确定所述视频中的一个或多个候选片段包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述一个或多个候选片段进行置信度评估，得到所述一个或多个候选片段的置信度包括：

对所述一个或多个候选片段，生成所述一个或多个候选片段的边界敏感概率特征；

基于所述一个或多个候选片段的边界敏感概率特征，获取所述一个或多个候选片段的置信度。

6.根据权利要求5所述的方法，其特征在于，所述对所述一个或多个候选片段，生成所述一个或多个候选片段的边界敏感概率特征包括：

7.根据权利要求2所述的方法，其特征在于，所述将所述时空特征序列输入片段识别网络，通过所述片段识别网络，确定所述视频中的一个或多个动作片段之前，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述将所述多个视频片段输入特征提取网络，通过所述特征提取网络对所述多个视频片段进行基于残差结构的三维卷积处理，得到所述多个视频片段的多个时空特征之前，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述视频为教育视频，对所述教育视频执行所述视频处理方法，得到所述教育视频中的一个或多个动作片段以及所述一个或多个动作片段的动作类别。

10.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取视频中的多个视频片段；

11.根据权利要求10所述的装置，其特征在于，所述确定模块包括：

12.根据权利要求11所述的装置，其特征在于，所述确定子模块包括：

13.根据权利要求12所述的装置，其特征在于，所述第一确定单元用于：

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的视频处理方法所执行的操作。

15.一种存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的视频处理方法所执行的操作。