CN109948446A

CN109948446A - 一种视频片段处理方法、装置及计算机可读存储介质

Info

Publication number: CN109948446A
Application number: CN201910126988.9A
Authority: CN
Inventors: 王影影
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-06-28
Anticipated expiration: 2039-02-20
Also published as: CN109948446B

Abstract

本发明提供了一种视频片段处理方法、装置及计算机可读存储介质，包括：提取视频样本的视频特征，及视频特征对应的视频时间序列；根据视频特征和预设的行为片段生成模型，生成目标视频片段，目标视频片段包括片段时间序列；根据片段时间序列和视频时间序列的匹配，从视频特征中确定与目标视频片段对应的目标视频特征；将目标视频特征输入预设的行为类别分类器，得到目标视频片段中动作行为的分类类别，本发明利用了视频特征中对应的时间序列，找到目标视频片段对应的目标视频特征输入分类器，避免了重复对目标视频片段进行特征提取，提高了分类效率。

Description

一种视频片段处理方法、装置及计算机可读存储介质

技术领域

本发明属于计算机技术领域，特别是涉及一种视频片段处理方法、装置及计算机可读存储介质。

背景技术

从未经处理的长视频中提取出用户感兴趣的行为片段，及确定行为片段的行为类别，对后续的视频分析具有重要意义。在实际应用中，可以为用户提供更丰富的个性化服务。

现有技术中，通常采用基于边界敏感网络的双流网络模型，分别提取视频样本的图像特征和光流特征，并将图像特征和光流特征进行融合，得到融合特征。其中，光流特征是由于视频样本中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的，表述了视频样本中运动特征的相关规律。在得到融合特征后，可以将融合特征输入行为片段生成模型，并输出行为片段，并将整个行为片段作为分类模型的输入，输出该行为片段的类别信息。

但是，在进行行为片段的类别确定时，需将整个行为片段作为视频输入，重新提取特征并对其分类，增加了时间消耗。

发明内容

有鉴于此，本发明提供一种视频片段处理方法、装置及计算机可读存储介质，在一定程度上解决了目前方案中在进行行为片段的类别确定时，需将整个行为片段作为视频输入，重新提取特征并对其分类，增加了时间消耗的问题。

依据本发明的第一方面，提供了一种视频片段处理方法，该方法可以包括：

提取视频样本的视频特征，及所述视频特征对应的视频时间序列；

根据所述视频特征和预设的行为片段生成模型，生成目标视频片段，所述目标视频片段包括片段时间序列；

根据所述片段时间序列和所述视频时间序列的匹配，从所述视频特征中确定与所述目标视频片段对应的目标视频特征；

将所述目标视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

依据本发明的第二方面，提供了一种视频片段处理装置，该装置可以包括：

提取模块，用于提取视频样本的视频特征，及所述视频特征对应的视频时间序列；

生成模块，用于根据所述视频特征和预设的行为片段生成模型，生成目标视频片段，所述目标视频片段包括片段时间序列；

确定模块，用于根据所述片段时间序列和所述视频时间序列的匹配，从所述视频特征中确定与所述目标视频片段对应的目标视频特征；

分类模块，用于将所述目标视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

第三方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的视频片段处理方法的步骤。

针对在先技术，本发明具备如下优点：

本发明提供的一种视频片段处理方法，通过提取视频样本的视频特征，及视频特征对应的视频时间序列；根据视频特征和预设的行为片段生成模型，生成目标视频片段，目标视频片段包括片段时间序列；根据片段时间序列和视频时间序列的匹配，从视频特征中确定与目标视频片段对应的目标视频特征；将目标视频特征输入预设的行为类别分类器，得到目标视频片段中动作行为的分类类别，本发明利用了提取的视频特征中包含的时间序列，找到目标视频片段对应的目标视频特征输入分类器，避免了重复对目标视频片段进行特征提取，提高了分类效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种视频片段处理方法的步骤流程图；

图2是本发明实施例提供的另一种视频片段处理方法的步骤流程图；

图3是本发明实施例提供一种视频特征提取的架构图；

图4是本发明实施例提供的一种视频片段处理装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种视频片段处理方法的步骤流程图，应用于终端，如图1所示，该方法可以包括：

步骤101、提取视频样本的视频特征，及所述视频特征对应的视频时间序列。

在本发明实施例中，视频文件为维度较高的文件格式，为了降低对视频样本的处理难度，首先需要对视频样本进行视频特征提取，以降低视频样本的处理维度。具体的，提取的视频特征可以包括：图像特征及运动特征，视频特征的提取可以采用相关的端到端(end-to-end)模型实现。

需要说明的是，特征是某一类对象区别于其他类对象的相应特点或特性，或是这些特点和特性的集合，特征是通过测量或处理能够抽取的数据，特征提取的主要目的是降维，且其主要思想是将原始样本投影到一个低维特征空间，得到最能反应样本本质或进行样本区分的低维样本特征。图像特征可以为视频样本的RGB(红(R)、绿(G)、蓝(B))图像特征，用于表示视频样本包含的视频帧图像的直观特征。另外，视频数据区别于其它媒体数据的一个重要特征是它包含有丰富的运动信息，可以提取视频的运动信息作为运动特征，使得这些运动信息广泛应用在视频分类和剪辑等领域。

进一步的，由于视频样本包含了多个连续的视频帧图像，而且多个连续的视频帧图像是基于一个固定的视频时间序列进行排列的，在实际应用中，该时间序列可以表达为视频播放时的时间进度条。视频时间序列对于视频样本中相关信息的定位具有重要作用。如，确定视频样本中的某一片段，或确定该片段对应的视频特征。

因此，由于视频样本的多个连续的视频帧图像是基于一个固定的视频时间序列进行排列的，本发明实施例可以在提取每一帧视频帧图像的视频特征的同时，记录该视频特征在视频时间序列上所对应的时间点，当视频样本中所有视频帧图像的视频特征都被提取完毕时，即获取到了视频样本的视频特征，及视频特征对应的视频时间序列。

步骤102、根据所述片段时间序列和所述视频时间序列的匹配，从所述视频特征中确定与所述目标视频片段对应的目标视频特征。

在视频应用领域中，视频样本通常由多个动作行为组成，如，跑步、跳跃、哭泣、欢笑等，动作行为有长有短，且内容各不相同。而通过对用户的大量用户行为分析，发现用户通常会对某几类动作行为感兴趣。

例如，假设用户是一个科比布莱恩特的粉丝，若用户突然想回顾科比退役前最后一场比赛的所有精彩防守片段，则用户肯定不愿意再花2个小时连同中场休息的广告一起把比赛视频再看一遍，更好的方式是将该比赛视频中广告等不相关内容进行剔除，而将精彩防守片段进行单独提取并提供给用户。

因此，在本发明实施例中，可以预设一个或多个动作行为，并将大量的用户历史行为数据作为训练数据，训练得到行为片段生成模型，该行为片段生成模型以视频样本的视频特征为输入，该行为片段生成模型的输出则包括：视频时间序列中的时间点被确定为片段起始点的概率，以及该时间点附近的若干帧视频帧包含动作行为的概率。

根据行为片段生成模型的输出，可以进行起始点构建，得到包含了多个片段的集合，进一步可以对该集合中的片段进行筛选，将包含有完整的预设动作行为的片段确定为目标视频片段，同时，保存目标视频片段的片段时间序列。其中，预设动作行为通常由多帧连续的视频帧画面组成。

步骤103、根据所述片段时间序列和所述视频时间序列的匹配，从所述视频特征中确定与所述目标视频片段对应的目标视频特征。

本发明实施例中，目标视频片段是视频样本的一部分，同样的，片段时间序列也是视频时间序列的一部分。基于步骤101中建立的时间序列—视频特征的对应关系，可以确定目标视频片段对应的目标视频特征。

例如，假设视频样本的时间序列轴为起始点0:00至终点3:20，则视频样本包括从0:00至3:20的所有视频帧图像，且提取了所有视频帧图像的视频特征，这些视频特征中的每一个特征，都与视频时间序列0:00至3:20中的每一个时间点相对应。目标视频片段的时间序列轴为起始点2:20至终点2:40，则目标视频片段包括从2:20至2:40的所有视频帧图像，因此，将目标视频片段的时间序列映射至视频样本的时间序列，可以从视频样本的所有视频帧图像中，找到2:20至2:40的视频帧图像，和2:20至2:40的视频帧图像所对应的视频特征，这些视频特征即可确定为目标视频片段的目标视频特征。

步骤104、将所述目标视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

分类是数据挖掘的一种非常重要的方法，分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类器(Classifier)模型。该函数或模型能够把输入数据映射到给定类别中的某一个，从而可以应用于数据预测。分类器是数据挖掘中对样本进行分类的方法的统称，可以包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

本发明实施例中，可以预设一个或多个动作行为及其分类类别，并将大量的历史视频特征作为训练数据，训练得到类别分类器，该类别分类器以视频特征为输入，以视频特征对应的分类类别为输出。

因此，本发明实施例避免了将目标视频片段输入分类器，重复对目标视频片段进行特征提取，而是利用步骤101中提取的视频特征，找到目标视频片段对应的目标视频特征输入分类器，提高了分类效率。

综上所述，本发明实施例提供的视频片段处理方法，包括：提取视频样本的视频特征，及视频特征对应的视频时间序列；根据视频特征和预设的行为片段生成模型，生成目标视频片段，目标视频片段包括片段时间序列；根据片段时间序列和视频时间序列的匹配，从视频特征中确定与目标视频片段对应的目标视频特征；将目标视频特征输入预设的行为类别分类器，得到目标视频片段中动作行为的分类类别，本发明利用了提取的视频特征中包含的时间序列，找到目标视频片段对应的目标视频特征输入分类器，避免了重复对目标视频片段进行特征提取，提高了分类效率。

图2是本发明实施例提供的另一种视频片段处理方法的步骤流程图，如图2所示，该方法可以包括：

步骤201、提取视频样本的视频特征，及所述视频特征对应的视频时间序列。

具体的，在本发明实施例的一种实现方式中，可以通过3D卷积神经网络模型，提取所述视频样本的视频特征，及所述视频特征对应的视频时间序列来实现本步骤。

在本发明实施例中，2013年提出的3D卷积神经网络(Convolutional NeuralNetworks，CNN)是单流(single-stream)处理方法中比较成功的一种基础网络，其通过构建3D卷积神经网络提取空间信息和特征，广泛应用于动作识别、场景识别和视频相似度分析等领域。

3D卷积神经网络模型通过采用3D卷积核而不是跨帧使用2D卷积的方式，从一组连续视频帧图像上按照时序获取特征。区别于2D卷积核获取的图像特征，3D卷积核获取的特征不但包括每一帧视频帧图像的图像特征，还包括了每一帧视频帧图像的运动特征，并且，在提取每一帧视频帧图像的运动特征的同时，记录该运动特征在视频时间序列上所对应的时间点，视频特征包括了图像特征和运动特征，该提取视频特征的方法通常可以叫做视频特征的单路混合提取法。因此，本发明实施例可以采用3D卷积神经网络模型，提取视频样本的视频特征，相较于现有技术中通过双流模型提取的视频特征，本发明实施例省去了对光流特征的单独提取过程，且特征提取方式也非双流模型的双路并行处理模式，而是采用了单路混合提取视频特征的方式，即在一组连续画面上按照时序获取视频特征，提高了视频特征的提取效率。

需要说明的是，3D卷积神经网络使用视觉几何组网络(VGG，Visual GeometryGroup Network)结构，运算复杂度较高。因此，有大量的研究团队正在寻求更简洁的方法，最直接的想法就是把3D卷积分解为空间方向2D卷积和时间方向1D卷积，来减少直接在三个维度上进行卷积计算的复杂度。在实际应用中，提出基于2D卷积(2D ConvNet)ConvNet是一个基于GPU实现的卷积神经网络开源代码，是由多伦多大学的Geoffrey Hinton深度学习团队编写的)的膨胀3D卷积(I3D，Inflated 3D ConvNet)模型。I3D模型为了利用到现已成熟的图像分类网络结构，直接加入时序信息，将原本的2D卷积核和池化核扩展为3D，在模拟原本C3D的卷积核功能的同时，减少参数数量并提高运算速度。

因此，本发明实施例还可以进一步采用I3D卷积神经网络模型，提取视频样本的视频特征，提高提取效率。

例如，参照图3，示出了本发明实施例提供的一种视频特征提取的架构图，其中，时间轴10可以为视频时间序列的可视化表达，假设每隔20秒设置一个时间点，则可以在时长为1分40秒的视频样本的时间轴10上确定6个时间点，每隔时间点可以包括该时间点周围的多帧连续视频帧图像20，相邻时间点之间的视频帧相互连接。基于6个时间点，将其包含的视频帧图像20输入3D卷积神经网络模型，输出对应的视频特征30，且每一个视频特征30在时间轴10上都有对应的时间点，因此，可以通过视频时间序列，确定视频样本中某一片段的视频特征。

步骤202、根据所述视频特征和预设的行为片段生成模型，获取至少一个候选片段。

在本发明实施例中，行为片段生成模型以视频特征为输入，以视频样本的时间序列中的时间点作为片段起始点的概率，以及时间点包含动作行为的概率为输出。

因此，基于时间点作为片段起点和结束点的概率，可以对各个时间点进行组合，从而得到至少一个候选片段。候选片段的建立方式包括：首先确定一个时间点为起点，再确定该起点之后的一个时间点为结束点，利用该原则，得到多个候选片段。

可选的，在本发明实施例的一种实现方式中，步骤202具体可以包括：

子步骤2021：在所述视频样本中确定多个时间点。

在该步骤中，可以在视频样本的视频时间序列中选取多个时间点。

例如，在图3中，可以在视频样本的时间轴10上确定6个时间点，这6个时间点之间可以具有相等距离。

子步骤2022：将所述视频特征输入所述行为片段生成模型，输出所述视频样本的时间点属于起始点的第一概率、所述时间点属于结束点的第二概率以及所述时间点包括所述动作行为的第三概率。

可选的，在本发明实施例的另一种实现方式中，时间点关联有所述视频样本中的多帧连续视频帧，且所述多帧连续视频帧中，存在一帧视频帧与所述时间点对应。则确定所述时间点包括所述动作行为的第三概率，包括：在所述行为片段生成模型中，根据所述时间点关联的多帧连续视频帧，确定所述时间点包括所述动作行为的第三概率。

本步骤中，将视频样本的视频特征输入行为片段生成模型，可以输出视频样本的每个时间点属于起始点的第一概率、每个时间点属于结束点的第二概率以及每个时间点包括动作行为的第三概率。

优选的，时间点可以包括视频样本的多帧连续视频帧，如图3中，6个时间点分别关联了视频样本中的多帧连续视频帧，基于每个时间点关联的视频帧，都可以进一步提取得到对应的视频特征，因此基于通过大量用户历史行为数据训练得到的行为片段生成模型，可以根据每个时间点所关联的视频特征，来确定该时间点属于起始点的第一概率、及该时间点属于结束点的第二概率，该过程具体为，预设一个起始点视频帧集合和一个结束点视频帧集合，起始点视频帧集合中可以包括多个起点帧序列，起点帧序列包括了多帧图像，这些起点帧序列可以与时间点所关联的多帧连续视频帧进行匹配，当二者完全匹配时，则可以确定该时间点属于起始点的第一概率为100％；当二者不完全匹配时，则可以根据二者之间的重合百分比，来确定该时间点属于起始点的第一概率。通过结束点视频帧集合确定每个时间点属于结束点的第二概率同理。

在视频应用领域，针对不同类型的视频应用，可以建立不同的行为片段生成模型，例如，体育相关的视频应用中，可以建立与体育运动相关的行为片段生成模型，对于篮球比赛视频，用户习惯在中场广告时间去停止观看视频，而去做其他事情，在广告结束后，返回观看比赛，因此在视频片段选取中，用户也习惯于在选取的片段中剔除广告片段，另外，用户也习惯于观看赛事回放片段，以观赏比赛中的精彩攻防，并且，根据视频剪辑习惯，在广告与精彩片段之间通常有较长时间的转接画面，这些转接画面通常可以包括解说员播报广告结束的相关画面。基于这种用户习惯，可以大量收集解说员播报广告结束的相关画面，并将解说员播报广告结束的相关画面作为训练数据，训练得到的行为片段生成模型，当同类型的篮球比赛视频的视频特征输入行为片段生成模型时，可以判断篮球比赛视频中每个时间点所关联的多帧连续视频帧中，是否包含上述解说员播报广告结束的相关画面，并根据时间点所关联的多帧连续视频帧与解说员播报广告结束的相关画面之间的重合程度，确定出精彩攻防回放片段的起始点和结束点。如，当行为片段生成模型输出精彩攻防回放片段的起点作为片段起始点的第一概率的值较大，行为片段生成模型输出精彩攻防回放片段的终点作为片段结束点的第二概率的值较大时，可以确定该行为片段生成模型表现效果较好。

进一步的，判断每个时间点包括动作行为的第三概率，可以包括：预设一个动作行为视频帧集合，动作行为视频帧集合中可以包括多个动作行为帧序列，动作行为帧序列包括了多帧图像，如，动作“哭”对应的几帧图像，动作“笑”对应的几帧图像等，这些动作行为帧序列可以与时间点所关联的多帧连续视频帧进行匹配，当二者完全匹配时，则可以确定该时间点包括动作行为的第三概率为100％；当二者不完全匹配时，则可以根据二者之间的重合百分比，来确定该时间点包括动作行为的第三概率。

子步骤2023：在所述时间点中，确定所述第一概率大于第一预设阈值的候选起始点和所述第二概率大于第二预设阈值的候选结束点。

在实际应用中，对于时长较长的视频样本来说，可以会包含有数量巨大的时间点，且不同时间点的第一概率和第二概率的大小差距会很大，因此为了提高视频片段的精度，可以设定第一预设阈值及第二预设阈值，将第一概率大于第一预设阈值的时间点确定为候选起始点，将第二概率大于第二预设阈值的时间点确定为候选结束点，通过初步筛选，可以除去概率较低的起始点和结束点，提高了生成片段的精度，并降低了后续的数据处理量。

子步骤2024：将每个所述候选起始点分别和每个所述候选结束点进行组合，生成至少一个候选片段。

在该步骤中，确定了候选起始点和候选结束点，则可以对候选起始点和候选结束点两两组合，得到包括候选片段的至少一个候选片段。候选片段的建立方式包括：首先确定一个候选起始点为起点，再确定该候选起始点之后的一个时间点为结束点，利用该原则，得到多个候选片段。

可选的，在本发明实施例的另一种实现方式中，步骤202具体可以包括：

子步骤2025：按照主成分分析降维算法，对所述视频特征进行降维处理，得到所述降维特征。

在本发明实施例中，降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。

初步提取得到的视频特征由于维度较高，会使得后续计算过程繁琐复杂，因此，在提取得到视频特征后，可以对视频特征进行降维处理，得到保留了有效特征且维度较低的降维特征，将降维特征输入到后续模型中，降低了计算复杂度，提高了计算效率。

具体的，降维操作的具体实现包括：采用主成分分析降维算法，对视频特征进行降维处理，得到降维特征。

在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观测，收集大量数据后进行分析寻找规律，多变量大数据集无疑会为研究和应用提供丰富的信息，但是也在一定程度上增加了数据采集的工作量，更重要的是在很多情形下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性。如果分别对每个指标进行分析，分析往往是孤立的，不能完全利用数据中的信息，因此盲目减少指标会损失很多有用的信息，从而产生错误的结论。

因此需要找到一种合理的方法，在减少需要分析的指标同时，尽量减少原指标包含信息的损失，并降低噪声数据，以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系，因此可以考虑将关系紧密的变量变成尽可能少的新变量，使这些新变量是两两不相关的，那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法。

在本发明实施例中，可以采用主成分分析(PCA，Principal Component Analysis)降维算法，实现对视频特征进行降维处理，由于在处理过程中产生的新变量特征两两不相关，从而避免了一个特征中存在的噪声数据对另一个特征造成影响，使得最终输出的降维特征中无价值的噪声数据较少，同时减少了特征的冗余度。

子步骤2026：根据所述降维特征和所述预设的行为片段生成模型，获取至少一个候选片段。

将降维特征输入到行为片段生成模型中，降低了噪声数据的干扰和计算的复杂度，提高了计算效率和精度，使得至少一个候选片段中的候选片段的初始精度较高。

步骤203、在所述至少一个候选片段中确定目标视频片段，所述目标视频片段还包括完整的预设动作行为。

在本发明实施例中，至少一个候选片段中依然包含了较多数量的视频片段，为了进一步提高最终输出的视频片段的精度，可以对至少一个候选片段进行进一步筛选，确定其中的目标视频片段。

具体的，对于视频片段来说，用户感兴趣的内容通常为该视频片段中存在的一些动作行为相关画面，目标视频片段的完整性通常可以根据该视频片段中存在的一些动作行为相关画面的完整程度来确定，若一个视频片段中存在一个完整的预设动作行为，则可以确定该视频片段中包含用户感兴趣的内容。如在篮球比赛视频中，选取的一个精彩攻防片段需要具有完整的内容，而不能出现关键画面缺失的情况。

进一步的，可以预设动作行为与多帧连续视频帧画面的对应关系集合，判断片段是否包含有完整的预设动作行为，是指判断该片段中是否存在动作行为对应的多帧连续视频帧画面。

可选的，在本发明实施例的一种实现方式中，步骤203具体可以包括：

子步骤2031：将所述候选片段包括的时间点的第三概率，输入预设的片段评价模型，输出所述候选片段包括所述动作行为的第四概率。

在本发明实施例中，一个候选片段通常可以包括多个时间点，并确定了每个时间点包括动作行为的第三概率。在该步骤中，可以将候选片段包括的时间点的第三概率，输入预设的片段评价模型，输出候选片段包括动作行为的第四概率，第四概率用于表达候选片段包括动作行为的几率大小。

具体的，片段评价模型可以为全连接神经网络模型，全连接神经网络本质上是把所有的输入与输出连接起来的单个交换机，在全连接神经网络中,每两层之间的节点都有边相连，因此，片段评价模型可以将输入的多个时间点包括动作行为的第三概率进行加权求和，得到多个时间点对应的候选片段包括动作行为的第四概率。简单来说，例如，假设一个候选片段包括了3个时间点，以及3个时间点各自对应的第三概率，则将3个第三概率加权求和可以得到第四概率。

子步骤2032：将所述候选片段包括的时间点的第三概率，以及相邻片段包括的时间点的第三概率，输入预设的完整性判断模型，输出所述候选片段包括所述完整的预设动作行为的第五概率，所述相邻片段为与所述候选片段相邻的视频片段。

在确定候选片段包括动作行为的几率后，需进一步确定候选片段包括的动作行为的完整性，该完整性是指该视频片段包括完整的预设动作行为，即视频片段包含完整的用户感兴趣的内容。如在篮球比赛视频中，选取的一个精彩攻防片段需要具有完整的内容，而不能出现关键画面缺失的情况。

具体的，实现候选片段完整性判断，不能仅仅依据候选片段自身，还要进一步考虑候选片段的相邻片段，即候选片段前后衔接的片段，而通过行为片段生成模型，确定了视频样本的时间序列上所有时间点的第三概率，因此可以根据实际需求，确定候选片段前后衔接的片段的长度，并将候选片段和相邻片段包括的时间点的第三概率，输入预设的完整性判断模型，从而输出候选片段包括完整的预设动作行为的第五概率。如，在完整性判断模型确定相邻片段包括的时间点的第三概率都小于预设的一个概率值，且确定目标视频片段包括的时间点的第三概率都大于或等于预设的另一个概率值时，则可以输出候选片段包括完整的预设动作行为的第五概率的值较大。

因此，该步骤的目的是在至少一个候选片段中筛选出包括了完整动作行为的片段，如，篮球比赛视频中，广告内容可以理解为不是用户所感兴趣的内容，即不是预设动作行为，则在篮球比赛视频中选取了精彩攻防片段，且精彩攻防片段的相邻片段都是广告内容时，可以确定精彩攻防片段包含了完整动作行为，不存在精彩画面缺失，同时也不存在不相关的画面。

子步骤2033：将所述第四概率和所述第五概率进行加权求和，得到所述候选片段的初始得分。

在本发明实施例中，为了将候选片段的第四概率和第五概率整合，以便于简化后续的参数输出，可以将第四概率和第五概率进行加权求和，得到候选片段的初始得分，该初始得分可以用于表达该候选片段作为最终输出片段的几率。

子步骤2034：根据所述初始得分，在所述至少一个候选片段中确定目标视频片段。

在本发明实施例中，由于候选片段的生成是基于候选起始点和后续结束点两两组合的实现的，因此，候选片段和候选片段之间难免会发生重叠或重合，因此，可以在相互重合或重叠的候选片段中，选择初始得分相对更高的候选片段作为目标视频片段。

可选的，在本发明实施例的一种实现方式中，步骤2034具体可以包括：

子步骤20341：在多个所述候选片段中，确定任意两个候选片段之间的重合度。

本步骤中，可以利用非极大值抑制(Non-Maximum Suppression，NMS)算法，计算候选片段之间的重合度。NMS算法，顾名思义就是抑制不是极大值的元素，可以理解为局部最大搜索，这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小，即NMS可以将至少一个候选片段中，初始得分不是局部的最大值的候选片段进行剔除，从而保留更有价值的候选片段。

如，重合度为0可以表示两个候选片段完全不重合；重合度为1可以表示两个候选片段完全重合；重合度大于0小于1则可以表示两个候选片段部分重合。

子步骤20342：在所述两个候选片段的重合度大于或等于预设阈值时，将所述两个候选片段中初始得分最高的候选片段确定为所述目标视频片段。

在该步骤中，可以根据实际应用需求，设定一个预设阈值，将重合度大于预设阈值的两个候选片段中，将初始得分最高的候选片段确定为所述目标视频片段。例如，在篮球比赛视频中，第一片段包含了广告及广告之后的精彩攻防画面，第二片段仅包含了广告之后的精彩攻防画面，两个片段之间重合，因此基于广告画面的价值较低的情况，可以认为第二片段的价值更高，则可以将第二片段作为最终输出的片段。

步骤204、根据所述片段时间序列和所述视频时间序列的匹配，从所述视频特征中确定与所述目标视频片段对应的目标视频特征。

具体的，本步骤的实现方式与上述步骤103类似，可以参照上述步骤103来实现，本发明实施例在此不做赘述。

步骤205、将所述目标视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

具体的，本步骤的实现方式与上述步骤104类似，可以参照上述步骤104来实现，本发明实施例在此不做赘述。

可选的，在本发明实施例的一种实现方式中，还可以将目标视频特征以特征金字塔结构输入行为类别分类器，得到目标视频片段中动作行为的分类类别。因此，具体的，步骤205具体可以包括：

子步骤2051、确定所述目标视频片段拆分得到的多个子片段，以及与所述目标视频片段相邻的相邻子片段。

特征金字塔结构是用于检测不同尺度的对象的模型中的基本组成要素，可以使得模型能够适用于不同尺度的输入特征，金字塔结构可以分为多层，不同层可以包含不同尺度的特征。

在本发明实施例中，可以将行为类别分类器的输入按照特征金字塔结构进行构建，构建特征金字塔结构的第一步是将目标视频片段拆分为多个子片段，以及获取与目标视频片段相邻的相邻子片段。

例如，通过细分目标视频片段的特征和添加相邻片段的特征，将特征金字塔结构分为三个层级，层级1包含目标视频片段的视频特征，层级2包含目标视频片段中两个子片段的视频特征，层级3包含目标视频片段前后相邻的两个相邻子片段的视频特征。采用特征金字塔结构实现模型的输入，虽然增加了模型的数据处理量，但是大幅度提升了模型的输出精度。

可选的，在本发明实施例的一种实现方式中，步骤2051具体可以包括：

子步骤20511：从所述目标视频片段的中点，将所述目标视频片段剪切为第一子片段和第二子片段。

在该步骤中，可以将从目标视频片段的中点，将目标视频片段剪切为第一子片段和第二子片段，以供利用第一子片段和第二子片段的视频特征构建特征金字塔结构的层级2。

子步骤20512、根据所述片段时间序列和所述视频时间序列的匹配，从所述视频样本中确定与所述目标视频片段前后相邻的第一相邻子片段和第二相邻子片段。

在该步骤中，可以将根据视频时间序列，从视频样本中确定目标视频片段左右两边的第一相邻子片段和第二相邻子片段，以供利用第一相邻子片段和第二相邻子片段的视频特征构建特征金字塔结构的层级3。

子步骤2052、将所述目标视频片段对应的目标视频特征、所述子片段对应的子视频特征、所述相邻子片段对应的相邻视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

通过目标视频片段的片段时间序列和视频时间序列的匹配、子片段的片段时间序列和视频时间序列的匹配，相邻子片段的片段时间序列和视频时间序列的匹配，可以从视频特征中分别确定与目标视频片段对应的目标视频特征、子片段对应的子视频特征、相邻子片段对应的相邻视频特征。

可选的，在本发明实施例的一种实现方式中，步骤2052具体可以包括：

子步骤20521：根据所述目标视频片段对应的目标视频特征，计算得到第一平均向量。

在该步骤中，可以用目标视频片段对应的目标视频特征，除以目标视频片段包括的目标视频特征的数量，计算得到目标视频片段的第一平均向量，构建特征金字塔结构的层级1。

子步骤20522：根据所述第一子片段对应的第一子视频特征和所述第二子片段对应的第二子视频特征，计算得到所述第一子片段对应的第二平均向量，以及所述第二子片段对应的第三平均向量。

在该步骤中，同理，可以计算得到两个等份的第一子片段和第二子片段对应的第二平均向量和第三平均向量，构建特征金字塔结构的层级2。

子步骤20523：根据所述第一相邻子片段对应的第一相邻视频特征和所述第二相邻子片段对应的第二相邻视视频特征，计算得到所述第一相邻子片段对应的第四平均向量，以及所述第二相邻子片段对应的第五平均向量。

在该步骤中，同理，可以计算得到第一相邻子片段和第二相邻子片段对应的第四平均向量和第五平均向量，构建特征金字塔结构的层级3。

子步骤20524：将所述第一平均向量、所述第二平均向量、所述第三平均向量、所述第四平均向量和所述第五平均向量输入所述行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

在该步骤中，将第一平均向量、第二平均向量、第三平均向量、第四平均向量和第五平均向量按照上述的三个层级输入行为类别分类器，可以得到更精确的目标视频片段中动作行为的分类类别。

例如，对于篮球比赛视频中的一个精彩攻防片段，基于该精彩攻防片段的进一步细分以及精彩攻防片段前后相邻的片段的分析，可以准确得出该精彩攻防片段对应的分类类别为篮球比赛，或更精确的推算出分类类别为篮球攻防剪辑。

综上所述，本发明实施例提供的视频片段处理方法，包括：提取视频样本的视频特征，及视频特征对应的视频时间序列；根据视频特征和预设的行为片段生成模型，生成目标视频片段，目标视频片段包括完整的预设动作行为和片段时间序列；根据片段时间序列和视频时间序列的匹配，从视频特征中确定与目标视频片段对应的目标视频特征；将目标视频特征输入预设的行为类别分类器，得到目标视频片段中动作行为的分类类别，本发明省去了对光流特征的单独提取过程，而是采用了单路特征提取方式，提高了特征提取效率，并且利用了提取的视频特征中包含的时间序列，找到目标视频片段对应的目标视频特征输入分类器，避免了重复对目标视频片段进行特征提取，提高了分类效率。另外，本发明采用了PCA降维算法，对视频特征进行了进一步的降维操作，在降低了特征冗余度和噪声数据的前提下保留了特征的有效内容。并且增加了完整性判定操作，保留了包含完整动作行为的视频片段。

图4是本发明实施例提供的一种视频片段处理装置的框图，如图4所示，该装置40可以包括：

提取模块401，用于提取视频样本的视频特征，及所述视频特征对应的视频时间序列；

可选的，提取模块401，包括：

模型提取子模块，用于通过3D卷积神经网络模型，提取所述视频样本的视频特征，及所述视频特征对应的视频时间序列。

生成模块402，用于根据所述视频特征和预设的行为片段生成模型，生成目标视频片段，所述目标视频片段包括片段时间序列；

可选的，生成模块402，包括：

片段获取子模块，用于根据所述视频特征和预设的行为片段生成模型，获取至少一个候选片段；

可选的，片段获取子模块包括：

选取单元，用于在所述视频样本中确定多个时间点；

第一确定单元，用于将所述视频特征输入所述行为片段生成模型，输出所述视频样本的时间点属于起始点的第一概率、所述时间点属于结束点的第二概率以及所述时间点包括所述动作行为的第三概率；

可选的，所述时间点关联有所述视频样本中的多帧连续视频帧，且所述多帧连续视频帧中，存在一帧视频帧与所述时间点对应；所述第一确定单元，还用于在所述行为片段生成模型中，根据所述时间点关联的多帧连续视频帧，确定所述时间点包括所述动作行为的第三概率。

筛选单元，用于在所述时间点中，确定所述第一概率大于第一预设阈值的候选起始点和所述第二概率大于第二预设阈值的候选结束点；

生成单元，用于将每个所述候选起始点分别和每个所述候选结束点进行组合，生成至少一个候选片段。

可选的，片段获取子模块包括：

降维处理单元，用于按照主成分分析降维算法，对所述视频特征进行降维处理，得到所述降维特征；

片段集获取单元，用于根据所述降维特征和所述预设的行为片段生成模型，获取至少一个候选片段。

确定子模块，用于在所述至少一个候选片段中确定目标视频片段，所述目标视频片段还包括完整的预设动作行为。

可选的，确定子模块，包括：

第二确定单元，用于将所述候选片段包括的时间点的第三概率，输入预设的片段评价模型，输出所述候选片段包括所述动作行为的第四概率；

第三确定单元，用于将所述候选片段包括的时间点的第三概率，以及相邻片段包括的时间点的第三概率，输入预设的完整性判断模型，输出所述候选片段包括所述完整的预设动作行为的第五概率，所述相邻片段为与所述候选片段相邻的视频片段；

计算单元，用于将所述第四概率和所述第五概率进行加权求和，得到所述候选片段的初始得分；

第四确定单元，用于根据所述初始得分，在所述至少一个候选片段中确定目标视频片段。

可选的，第四确定单元，包括:

重合度确定子单元，用于在多个所述候选片段中，确定任意两个候选片段之间的重合度；

选择子单元，用于在所述两个候选片段的重合度大于或等于预设阈值时，将所述两个候选片段中初始得分最高的候选片段确定为所述目标视频片段。

确定模块403，用于根据所述片段时间序列和所述视频时间序列的匹配，从所述视频特征中确定与所述目标视频片段对应的目标视频特征；

分类模块404，用于将所述目标视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

可选的，分类模块404，包括:

划分子模块，用于确定所述目标视频片段拆分得到的多个子片段，以及与所述目标视频片段相邻的相邻子片段。

可选的，划分子模块，包括:

第一划分单元，用于从所述目标视频片段的中点，将所述目标视频片段剪切为第一子片段和第二子片段；

第二划分单元，用于根据所述片段时间序列和所述视频时间序列的匹配，从所述视频样本中确定与所述目标视频片段前后相邻的第一相邻子片段和第二相邻子片段。

分类子模块，用于将所述目标视频片段对应的目标视频特征、所述子片段对应的子视频特征、所述相邻子片段对应的相邻视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

可选的，分类子模块，包括:

第一计算单元，用于根据所述目标视频片段对应的目标视频特征，计算得到第一平均向量；

第二计算单元，用于根据所述第一子片段对应的第一子视频特征和所述第二子片段对应的第二子视频特征，计算得到所述第一子片段对应的第二平均向量，以及所述第二子片段对应的第三平均向量；

第三计算单元，用于根据所述第一相邻子片段对应的第一相邻视频特征和所述第二相邻子片段对应的第二相邻视视频特征，计算得到所述第一相邻子片段对应的第四平均向量，以及所述第二相邻子片段对应的第五平均向量；

分类单元，用于将所述第一平均向量、所述第二平均向量、所述第三平均向量、所述第四平均向量和所述第五平均向量输入所述行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

综上所述，本发明实施例提供的视频片段处理装置，包括：提取视频样本的视频特征，及视频特征对应的视频时间序列；根据视频特征和预设的行为片段生成模型，生成目标视频片段，目标视频片段包括片段时间序列；按照视频时间序列和片段时间序列，确定与目标视频片段对应的目标视频特征；将目标视频特征输入预设的行为类别分类器，得到目标视频片段中动作行为的分类类别，本发明利用了提取的视频特征中包含的时间序列，找到目标视频片段对应的目标视频特征输入分类器，避免了重复对目标视频片段进行特征提取，提高了分类效率。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

优选的，本发明实施例还提供一种终端，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述视频片段处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频片段处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的视频片段处理方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频片段处理方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种视频片段处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述视频特征和预设的行为片段生成模型，生成目标视频片段，包括：

根据所述视频特征和预设的行为片段生成模型，获取至少一个候选片段；

在所述至少一个候选片段中确定目标视频片段，所述目标视频片段还包括完整的预设动作行为。

3.根据权利要求2所述的方法，其特征在于，所述根据所述视频特征和预设的行为片段生成模型，获取至少一个候选片段，包括：

在所述视频样本中确定多个时间点；

将所述视频特征输入所述行为片段生成模型，输出所述视频样本的时间点属于起始点的第一概率、所述时间点属于结束点的第二概率以及所述时间点包括所述动作行为的第三概率；

在所述时间点中，确定所述第一概率大于第一预设阈值的候选起始点和所述第二概率大于第二预设阈值的候选结束点；

将每个所述候选起始点分别和每个所述候选结束点进行组合，生成至少一个候选片段。

4.根据权利要求3所述的方法，其特征在于，所述时间点关联有所述视频样本中的多帧连续视频帧，且所述多帧连续视频帧中，存在一帧视频帧与所述时间点对应；

所述确定所述时间点包括所述动作行为的第三概率，包括：

在所述行为片段生成模型中，根据所述时间点关联的多帧连续视频帧，确定所述时间点包括所述动作行为的第三概率。

5.根据权利要求3所述的方法，其特征在于，所述在所述至少一个候选片段中确定目标视频片段，包括：

将所述候选片段包括的时间点的第三概率，输入预设的片段评价模型，输出所述候选片段包括所述动作行为的第四概率；

将所述候选片段包括的时间点的第三概率，以及相邻片段包括的时间点的第三概率，输入预设的完整性判断模型，输出所述候选片段包括所述完整的预设动作行为的第五概率，所述相邻片段为与所述候选片段相邻的视频片段；

将所述第四概率和所述第五概率进行加权求和，得到所述候选片段的初始得分；

根据所述初始得分，在所述至少一个候选片段中确定目标视频片段。

6.根据权利要求5所述的方法，其特征在于，所述根据所述初始得分，在所述至少一个候选片段中确定目标视频片段，包括：

在多个所述候选片段中，确定任意两个候选片段之间的重合度；

在所述两个候选片段的重合度大于或等于预设阈值时，将所述两个候选片段中初始得分最高的候选片段确定为所述目标视频片段。

7.根据权利要求1所述的方法，其特征在于，所述将所述目标视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别，包括：

确定所述目标视频片段拆分得到的多个子片段，以及与所述目标视频片段相邻的相邻子片段；

将所述目标视频片段对应的目标视频特征、所述子片段对应的子视频特征、所述相邻子片段对应的相邻视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

8.根据权利要求7所述的方法，其特征在于，所述确定所述目标视频片段拆分得到的多个子片段，以及与所述目标视频片段相邻的相邻子片段，包括：

从所述目标视频片段的中点，将所述目标视频片段剪切为第一子片段和第二子片段；

根据所述片段时间序列和所述视频时间序列的匹配，从所述视频样本中确定与所述目标视频片段前后相邻的第一相邻子片段和第二相邻子片段。

9.根据权利要求8所述的方法，其特征在于，所述将所述目标视频片段对应的目标视频特征、所述子片段对应的子视频特征、所述相邻子片段对应的相邻视频特征输入预设的行为类别分类器，得到所述目标视频片段中动作行为的分类类别，包括：

根据所述目标视频片段对应的目标视频特征，计算得到第一平均向量；

根据所述第一子片段对应的第一子视频特征和所述第二子片段对应的第二子视频特征，计算得到所述第一子片段对应的第二平均向量，以及所述第二子片段对应的第三平均向量；

根据所述第一相邻子片段对应的第一相邻视频特征和所述第二相邻子片段对应的第二相邻视视频特征，计算得到所述第一相邻子片段对应的第四平均向量，以及所述第二相邻子片段对应的第五平均向量；

将所述第一平均向量、所述第二平均向量、所述第三平均向量、所述第四平均向量和所述第五平均向量输入所述行为类别分类器，得到所述目标视频片段中动作行为的分类类别。

10.根据权利要求2所述的方法，其特征在于，所述根据所述视频特征和预设的行为片段生成模型，获取至少一个候选片段；

按照主成分分析降维算法，对所述视频特征进行降维处理，得到所述降维特征；

根据所述降维特征和所述预设的行为片段生成模型，获取至少一个候选片段。

11.根据权利要求1所述的方法，其特征在于，所述提取视频样本的视频特征，及所述视频特征对应的视频时间序列，包括：

通过3D卷积神经网络模型，提取所述视频样本的视频特征，及所述视频特征对应的视频时间序列。

12.一种视频片段处理装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述生成模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述片段获取子模块包括：

选取单元，用于在所述视频样本中确定多个时间点；

15.根据权利要求14所述的装置，其特征在于，所述时间点关联有所述视频样本中的多帧连续视频帧，且所述多帧连续视频帧中，存在一帧视频帧与所述时间点对应；

所述第一确定单元，还用于在所述行为片段生成模型中，根据所述时间点关联的多帧连续视频帧，确定所述时间点包括所述动作行为的第三概率。

16.根据权利要求14所述的装置，其特征在于，所述确定子模块，包括：

17.根据权利要求16所述的装置，其特征在于，所述第四确定单元，包括:

18.根据权利要求12所述的装置，其特征在于，所述分类模块，包括：

划分子模块，用于确定所述目标视频片段拆分得到的多个子片段，以及与所述目标视频片段相邻的相邻子片段；

19.根据权利要求18所述的装置，其特征在于，所述划分子模块，包括：

20.根据权利要求18所述的装置，其特征在于，所述分类子模块，包括：

21.根据权利要求13所述的装置，其特征在于，所述片段获取子模块包括：

22.根据权利要求12所述的装置，其特征在于，所述提取模块，包括：

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11任一所述的视频片段处理方法。