CN111523566A

CN111523566A - 目标视频片段定位方法和装置

Info

Publication number: CN111523566A
Application number: CN202010245339.3A
Authority: CN
Inventors: 陈搏; 蒋文; 邓卉
Original assignee: Ysten Technology Co ltd
Current assignee: Ysten Technology Co ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-08-11

Abstract

本发明为了解决目标视频片段定位过程中需要大量的视频音频数据造成计算量大问题，提供了一种目标视频片段定位方法，包括的步骤：获取目标视频，进行分割获取一个或多个视频片段，并记录时间戳信息；抽帧处理，获取与单个视频片段对应的视频帧组；视频片段对应的视频帧组输入到训练好的视频处理模型中，以获取各个视频片段的类型信息；当当前视频片段的类型信息属于目标视频片段的种类中的一个时，根据所述当前视频片段获取目标视频片段，输出所述目标视频片段的类型信息和对应的时间戳信息。计算量小，能够快速生成分类信息和对应时间戳信息。同时提供了相应的装置、设备和介质。

Description

目标视频片段定位方法和装置

技术领域

本发明属于图像处理技术领域，具体而言，涉及一种目标视频片段定位方法方法、定位装置、计算机可读介质及电子设备。

背景技术

当前互联网电视迅猛发展，互联网电视已经是家庭必备。同时，社会快速发展，人们忙于工作，观看电视时间有限，更多的是选择性的看一些电影电视的精彩部分，快进或翻找会很繁琐，如果能直接给用户呈现电影电视中的精彩片段，可以更好的符合观众需求，提升观众的观看体验，精彩片段例如有打斗、战争、枪战、追逐、床吻等片段。

视频分类/行为识别是计算机视觉领域中非常重要的研究方向，因为其不仅仅要分析目标体的空间信息，还要分析时间维度上的信息，如何更好的提取出空间-时间特征是问题的关键。视频分类/行为识别算法主要有传统的特征提取和稠密轨迹等算法，深度学习方向主要有2D/3D卷积、RNN/LSTM以及two stream等方法，传统的算法一般需要的数据量小，但是效果不如深度学习。

目前视频精彩片段的检测方法需要抓取大量的特征信息(视频、音频、弹幕等信息)，只是展示是否是精彩片段，没有具体类别信息，观众不能根据偏好选择。

发明内容

本发明为了解决上述精彩视频片段抓取计算量大，用户体验较差的问题，本发明实施例，第一方面，提供了一种目标视频片段定位方法，包括如下步骤：

S110、获取目标视频，将所述目标视频进行分割获取一个或多个视频片段，并记录所述一个或多个视频片段的时间戳信息；

S120、对所述一个或多个视频片段进行抽帧处理，获取与单个视频片段对应的视频帧组；

S130、将所述一个或多个视频片段对应的视频帧组输入到训练好的视频处理模型中，以获取各个视频片段的类型信息，所述类型信息包括：非目标视频和一个或多个目标视频片段的种类；

S140、当当前视频片段的类型信息属于所述一个或多个目标视频片段的种类中的一个时，根据所述当前视频片段获取目标视频片段，输出所述目标视频片段的类型信息和对应的时间戳信息。

进一步地，所述根据所述当前视频片段获取目标视频片段的步骤包括，

当所述当前视频片段的类型信息与所述当前视频片段所在时间前后第一阈值内的其他视频片段的类型信息不同时，修改当前视频片段的类型信息为非目标视频；

当所述当前视频片段的类型信息与所述当前视频片段所在时间前后第二阈值内的其他视频片段的类型信息相同时，将所述当前视频片段和当前视频片段所在时间前后第二阈值内的其他视频共同作为所述目标视频片段。

进一步地，还包括，响应于目标视频播放请求，发送所述目标视频和对应的所述目标视频片段的类型信息和对应的时间戳信息，以使所述目标视频被播放时，所述目标视频片段的类型信息和对应的时间戳信息在所述目标视频的播放界面中被展示。

进一步地，所述步骤S110包括，获取目标视频，当所述目标视频为完整的电影或者电视时，检测所述目标视频的片头和片尾，从所述目标视频中去除所述片头和片尾部分，对剩余的目标视频进行等间隔分割形成一个或多个视频片段，并记录所述一个或多个视频片段的时间戳信息。

进一步地，所述步骤S120包括，对每段视频片段进行等间隔均匀抽帧获取与视频片段对应的视频帧组；或者，

对每段视频片段进行随机抽帧获取与视频片段对应的视频帧组；或者，

利用筛选特征值大于阈值的视频帧组成所述与视频片段对应的视频帧组。

进一步地，所述步骤S120包括，

获取视频片段的图形帧集，对所述图像帧集中的每帧图像帧进行图像分块，形成N块图像块；

计算每块图像块的信息熵H，形成每帧图像的N维特征向量F＝{H_j|j＝1,2,3,...,N}；

根据每帧图像的N维特征向量F，形成所述视频片段的特征向量样本空间(F₁,F₂,...,F_n)，其中n为所述视频片段中图像帧的数量；

设定聚类中心的数量为k，以最小化平方误差为目标进行聚类，获取特征向量样本空间(F₁,F₂,...,F_n)所对应的k个聚类中心；

将离所述k个聚类中心最近的N维特征向量对应的图像帧选入所述视频帧集。

进一步地，根据如下公式获取每块图像块的信息熵，

p(x_i)表示一帧图像中当灰度值等于i时出现的概率。

进一步地，所述视频处理模型包括TSM模型或者SlowFast模型。

本发明第二方面，提供了一种目标视频片段定位装置，包括：

分割模块，用于获取目标视频，将所述目标视频进行分割获取一个或多个视频片段，并记录所述一个或多个视频片段的时间戳信息；

抽取模块，用于对所述一个或多个视频片段进行抽帧处理，获取与单个视频片段对应的视频帧组；

视频分析模块，用于将所述一个或多个视频片段对应的视频帧组输入到训练好的视频处理模型中，以获取各个视频片段的类型信息，所述类型信息包括：非目标视频和一个或多个目标视频片段的种类；

输出模块，用于当当前视频片段的类型信息属于一个或多个目标视频片段的种类中的一个时，根据所述当前视频片段获取目标视频片段，输出所述目标视频片段的类型信息和对应的时间戳信息。

本发明第三方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一所述的方法。

本发明第四方面，提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现上述任一所述的方法。

本发明实施例提供的快速检测视频中精彩片段(目标视频片段)，并定位具体的时间段和类型展示给用户，用户根据自己的喜好和需求，快速翻看自己喜爱的片段，节省用户的时间，提升用户的观看体验。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明一些实例中的目标视频片段定位方法、定位装置运行的系统架构示意图；

图2为本发明一些实例中的目标视频片段定位方法流程图；

图3为本发明一些实施例中的目标视频片段定位方法算法模块图示意图；

图4为本发明一些实施例中的目标视频片段定位方法中TSM模型数据流转流程示意图；

图5为本发明另一些实施例中的目标视频片段定位方法流程示意图；

图6为本发明一些实施例中的用户播放目标视频时类型信息和时间戳信息展示界面的示意图；

图7为本发明一些实施例中的基于上述附图中的目标视频片段定位方法所实现的目标视频片段定位装置的系统示意图；

图8为本发明一些实施例中目标视频片段定位方法或者提取装置运行的计算机系统结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了可以应用本申请实施例的目标视频片段定位方法或目标视频片段定位装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据(例如视频)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频播放软件、视频处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持数据传输的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的视频提供支持的后台服务器。后台服务器可以对接收到的图像处理请求等数据进行分析等处理，并将处理结果(例如对视频进行分割后得到的视频片段或其他数据)反馈给与其通信连接的电子设备(例如终端设备)。

需要说明的是，本申请实施例所提供的目标视频片段定位方法可以由服务器105执行，相应地，目标视频片段定位装置可以设置于服务器105中。此外，本申请实施例所提供的目标视频片段定位方法也可以由终端设备101、102、103执行，相应地，目标视频片段定位装置也可以设置于终端设备101、102、103中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当目标视频片段定位方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括用于分割视频方法运行于其上的电子设备(例如终端设备101、102、103或服务器105)。

本发明实施例的目的是提供一种快速检测电影电视中精彩片段，并定位具体的时间段和具体类型展示给用户，用户根据自己的喜好和需求，快速翻看自己喜爱的片段，节省用户的时间，提升用户的观看体验。上述精彩片段可以作为本发明一些实施例中的目标片段。

图2示出了依照本发明实施例的一种目标视频片段定位算法的一般流程，图3示出了系统包含的主要算法模块，其具体步骤如下：

S1、待处理视频分割为视频片段，同时记录各时间片段的时间戳；将一部电影/电视分割成若干短的视频片段，记录下每个短的视频片段的时间戳，以便最后精彩片段的结果展示。

S2、视频片段抽帧组成视频帧组；短视频进行抽帧，可以是随机抽帧，均匀抽帧或者选择特定帧，抽取的帧数可以是8，16，32等帧数，组成视频帧组。

S3、视频帧组输入训练好的时序转换模型得到精彩片段的分类结果；将视频帧组输入训练好的视频处理模型，模型可以是TSM或SlowFast模型，TSM是一种2D卷积复杂度通过时序转换达到3D卷积效果的模型；SlowFast是用两个平行的一快一慢的卷积网络提升效果的模型。其中模型是用大量有标签的精彩视频片段训练得来，模型可以输出该视频是否是精彩片段，如果是精彩片段输出具体的类型，精彩片段类型包括但不限于打斗、战争、枪战、追逐、床吻等常见的精彩片段。

S4、对分类结果进行过滤合并，将记录的时间戳和精彩片段展示；对输出段视频的标签结果进行算法过滤和一定时间内结果段合并，最终将段视频的标签和记录的时间戳展示到完整视频上。

上述实施例可以利用视频处理模型，对视频帧组进行识别获取目标类型，然后定位相应的时间戳信息，播放时返回给客户端，让客户端进行展示。

具体地，对于步骤S1中，视频片段生成的步骤可以采用如下步骤：

对于一个完整的电影或视频，可以先用算法检测出片头和片尾，片头和片尾不需要检测精彩片段，可以提高检测速度和精度，去除片头和片尾的视频进行等间隔分为小片段视频，间隔例如5秒。同时记录下每一段的时间，实际使用时分段只是概念上的，抽取一定的帧数即达到了分段，不需要存储分段视频。

具体地，对于步骤S2中，视频抽帧的步骤可以采用如下步骤：

a、对每一段小视频进行抽帧，抽取的帧数为8，16，32等，一般的电影或电视帧率为25-30，如视频片段长5秒，那么该段视频的总帧数为150帧(30帧算)，抽帧即从150帧中抽取8帧，抽取的帧数越多准确率也会越高，消耗的时间和资源也越多。抽帧方式可以是均匀抽帧-如5秒一段视频，抽取8帧，则0.6秒抽取一帧。随机抽帧是从5秒内随机抽取8帧，但是要保证时间顺序，选择抽帧是利用算法或人工筛选出认为特征明显的帧。将抽取的帧组成视频帧组输入到训练好的模型中。

b、还有一种选择抽帧的算法是：计算每一帧图像的信息熵，然后再将信息熵组成的特征向量进行聚类，类别为模型要输入的帧数，选取每类中心最近的帧组成视频帧组，以保证输入的视频帧组信息最大化。具体的，首先将每个图像分为N块，每一帧为256级灰度图像，每块按照如下式(1)计算信息熵：

其中，p(x_i)表示一帧图像中当灰度值等于i时出现的概率，一帧图像的特征向量由N个图像块的信息熵组成，特征向量F如下式(2)：

F＝{H_j|j＝1,2,3,...,N} 式(2)

式中，H_j表示该帧图像中第j块的信息熵。

将视频的每一帧的特征向量F组合为一个样本空间(F₁,F₂,...,F_n)，将样本聚类为k，如8，设簇划分为(C₁,C₂,...,C_k)聚类的目标是最小化平方误差E如下式(3)：

其中μ_i是簇C_i的均值向量

使用迭代法聚类K个类型，取K帧输入模型。

具体地，所述步骤S3具体包括，采用TSM模型进行分类，具体流程如图4所示，TSM(Temporal Shift Module)是一种通过在2D卷积上进行时间转换的模型，能够实现在2D卷积简单的模型下实现3D卷积的效果，实现视频快速高效的处理。

具体要点如下：

A、在视频抽帧后的视频帧组，如视频帧数为8，RGB三通道图像，图像大小为224*224，那么输入为(8*batchsize,3,224,224)，一般的深度学习模型预测时batchsize是一次所选取的样本数，该参数和电脑的配置有关，越大预测一批数据就会越快，不会影响预测精度，将8帧的视频压缩到batchsize维度上，就可以用2D卷积处理视频了。

B、模型的基础网络模型可以是RseNet、Mobilenet等，在基础网络中加入时序转换(Temporal Shift)达到时序混合的效果，用2D体现出3D时序。时序转换后的特征图再经过卷积、池化、全连接分类输出得到精彩片段的种类。

C、如基础网络选择RseNet，可选的，在基础网络的残差块中加入非局部操作(Non-local)，一种自注意力机制Self-attention，通过关注所有位置并在空间中取其加权平均值来计算该处特征在总体位置中的的响应，通过这种全局操作，提升全局信息特征融合，提升网络的效果。具体的Non-local操作定义如下式(4)：

其中x表示信号的输入，y表示信号的输出，其维度和x相同。f(x_i,x_j)用来计算信号位置i处和所有可能关联的位置j之间关系函数。g(x_j)计算信号在j位置的特征值，采用1x1卷积，代表线性嵌入，其形式为g(x_j)＝W_gx_j，式中W_g表示卷积操作的权重，x_j表示信号的输入，C(x)是归一化参数

典型的，关系函数f(x_i,x_j)选用嵌入型高斯函数(Embedded Gaussian)，形式如下式(5)：

式中θ(x_i)＝W_θx_i，W_θ是卷积操作的权重，x_i是输入信号，φ(x_j)＝W_φx_j，

是卷积操作的权重，x_j是输入信号，设归一化参数

对于给定的

就变成了计算所有j处的softmax，具体的，softmax定义为：

输入是一个向量，将输入的每个元素取指数，分母每个元素取指数求和，每个输入元素指数为分子，输出为该元素的指数与所有元素指数和的比值，那么

即定义式(4)输出

为式5中的指数部分，将网络构造成残差形式插入现有的基础网络中，直接调用即可，残差形式为z_i＝W_zy_i+x_i，其中y_i表示Non-local操作的输出，W_z表示卷积操作的权重，x_i表示原输入信号，即将原输入信号和Non-local操作的输出进行残差连接。

D、对于网络的损失函数，可选的，使用Focal loss关注类别不平衡。

E、模型的训练数据需要在大量(如2000部)电影电视中收集常见的精彩片段类型包括但不限于打斗、战争、枪战、追逐、床吻等常见的精彩片段。将收集的训练数据预处理成标准的视频数据集格式用于训练。

通过采用TSM模型进行处理，能够快速理解视频类容进行分类。

所述步骤S4中，具体包括：对于模型输出的精彩片段类型进行算法过滤和合并，若某一分段的预测结果为某类精彩片段且与前后固定M分段预测结果都不同，考虑到精彩片段的连续性，认为该段预测结果有误，将结果修正为非精彩片段，将可能的错误预测结果过滤掉,对于过滤修正后的结果与前后固定T分段内的预测结果相同，则认为这是一个精彩场景的延续，将该T段内的预测结果都修正为该类精彩片段，结果合并后，再结合视频分段时记录的视频时间戳，将最终的整个电影电视的精彩片段类型和时间段呈现给用户，用户根据自身喜欢选择观看，极大提升用户观看体验。

本发明实施例可以实现在互联网电视播放时用户可以直接选择自己感兴趣的精彩片段观看，节约了观看时间，提升观看体验。

基于类似原理，本发明实施例还提供了一种目标视频片段定位方法，如图5所示，包括如下步骤：

S110、获取目标视频，将所述目标视频进行分割获取一个或多个视频片段，并记录所述一个或多个视频片段的时间戳信息；所述时间戳信息可以包括，初始的时间戳信息，或者时间段信息。分割的方式可以采用均匀分割的方式。

S120、对所述一个或多个视频片段进行抽帧处理，获取与单个视频片段对应的视频帧组；抽取帧可以采用均匀抽取或者随机抽取，或者抽取代表帧，或者抽取特征明显的帧，如特征值(平均亮度、饱和度、色彩丰富度)大于一定阈值的帧。

S130、将所述一个或多个视频片段对应的视频帧组输入到训练好的视频处理模型中，以获取各个视频片段的类型信息，所述类型信息包括：非目标视频和一个或多个目标视频片段的种类；所述训练好的视频处理模型预先通过标注视频进行训练。所述一个或多个目标视频根据设定，可以为打斗、战争、枪战、追逐、床吻等类型中的一种或多种。

S140、当当前视频片段的类型信息属于所述一个或多个目标视频片段的种类中的一个或者多个时，根据所述当前视频片段获取目标视频片段，输出所述目标视频片段的类型信息和对应的时间戳信息。可以直接输出当前视频片段作为所述目标视频片段，也可以通过临近视频片段的类别信息进行校验过滤，检验过滤后的视频片段作为目标视频片段，还可以进行合并，然后将合并后的视频片段作为所述目标视频片段，同时记录对应的时间戳信息，将类别和时间戳信息输出。

本发明实施例中的目标视频片段进行进行分类时由于处理的是抽取出来的视频帧组，计算量少，计算速度快，同时保证了视频内容不丢失，分类结果可靠。

当所述当前视频片段的类型信息与所述当前视频片段所在时间前后第一阈值内的其他视频片段的类型信息不同时，修改当前视频片段的类型信息为非目标视频；例如第一阈值可以采用3。上述步骤进行过滤是基于视频连续性进行。

当所述当前视频片段的类型信息与所述当前视频片段所在时间前后第二阈值内的其他视频片段的类型信息相同时，将所述当前视频片段和当前视频片段所在时间前后第二阈值内的其他视频共同作为所述目标视频片段。例如第二阈值可以采用5，将前后5段和当前段进行合并形成目标视频片段。上述视频进行合并，使得输出的目标视频尽量完整。

需要说明的是，上述过滤和合并的步骤可以循环进行，也可设定循环执行的次数，在一些实施方式中，循环执行的次数为1。

进一步地，所述定位方法还包括，S150、响应于目标视频播放请求，发送所述目标视频和对应的所述目标视频片段的类型信息和对应的时间戳信息，以使所述目标视频被播放时，所述目标视频片段的类型信息和对应的时间戳信息在所述目标视频的播放界面中被展示。如图6所示。这样能够方便用户获取目标视频的目标视频片段，给用户更加直接快捷的观影感受。

进一步地，所述步骤S120包括，

进一步地，根据如下公式获取每块图像块的信息熵，

p(x_i)表示一帧图像中当灰度值等于i时出现的概率。

进一步地，所述视频处理模型包括TSM模型或者SlowFast模型。采用TSM模型进行处理，能够实现在2D卷积简单的模型下实现3D卷积的效果，实现视频快速高效的处理。

本发明实施例中目标视频片段定位方法能够快速有效的定位目标视频片段并能输出相应的类型和时间戳信息，反馈给用户，使得用户能够快速获取到目标视频片段。

本发明中也可以采用深度学习的方式获取视频处理模型。具体流程如下。

深度学习方法的主要流程有：

准备训练数据，可以自己收集也可以找公开的数据集，并进行数据预处理。

自己定义网络模型，或使用开源的模型进行修改，模型是整个算法的核心，好的模型可以达到更好的效果。

定义分类函数与损失函数，分类函数用于模型输出特征分类成具体的类别，损失函数是训练数据的原始类标签和预测标签差的一种度量。

定义优化器，优化器是通过将模型权重的梯度进行反向传递，更新模型的权重，达到损失函数值变小的目的。

将准备好的训练数据输入定义好的模型中，通过调整超参数以及上述的模型和损失函数等，训练模型到一个理想的结果。

基于上述的目标视频片段定位方法，本发明另外一些实施例如图7所示，提供了一种目标视频片段定位装置100，包括：

分割模块110，用于获取目标视频，将所述目标视频进行分割获取一个或多个视频片段，并记录所述一个或多个视频片段的时间戳信息；

抽取模块120，用于对所述一个或多个视频片段进行抽帧处理，获取与单个视频片段对应的视频帧组；

视频分析模块130，用于将所述一个或多个视频片段对应的视频帧组输入到训练好的视频处理模型中，以获取各个视频片段的类型信息，所述类型信息包括：非目标视频和一个或多个目标视频片段的种类；

输出模块140，用于当当前视频片段的类型信息属于一个或多个目标视频片段的种类中的一个时，根据所述当前视频片段获取目标视频片段，输出所述目标视频片段的类型信息和对应的时间戳信息。

上述各个模块的具体执行步骤在目标视频片段定位方法中对应的步骤中已进行详细叙述，在此不做过多赘述。

下面参考图8，其示出了适于用来实现本申请实施例的控制设备的计算机系统800的结构示意图。图8示出的控制设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向目标的程序设计语言—诸如Python、Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、分割单元、确定单元和选择单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待处理绘本图像的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取目标视频，将所述目标视频进行分割获取一个或多个视频片段，并记录所述一个或多个视频片段的时间戳信息；对所述一个或多个视频片段进行抽帧处理，获取与单个视频片段对应的视频帧组；将所述一个或多个视频片段对应的视频帧组输入到训练好的视频处理模型中，以获取各个视频片段的类型信息，所述类型信息包括：非目标视频和一个或多个目标视频片段的种类；当当前视频片段的类型信息属于所述一个或多个目标视频片段的种类中的一个时，根据所述当前视频片段获取目标视频片段，输出所述目标视频片段的类型信息和对应的时间戳信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种目标视频片段定位方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的目标视频片段定位方法，其特征在于，所述根据所述当前视频片段获取目标视频片段的步骤包括，

3.根据权利要求1或2所述的目标视频片段定位方法，其特征在于，还包括，响应于目标视频播放请求，发送所述目标视频和对应的所述目标视频片段的类型信息和对应的时间戳信息，以使所述目标视频被播放时，所述目标视频片段的类型信息和对应的时间戳信息在所述目标视频的播放界面中被展示。

4.根据权利要求1或2所述的目标视频片段定位方法，其特征在于，所述步骤S110包括，获取目标视频，当所述目标视频为完整的电影或者电视时，检测所述目标视频的片头和片尾，从所述目标视频中去除所述片头和片尾部分，对剩余的目标视频进行等间隔分割形成一个或多个视频片段，并记录所述一个或多个视频片段的时间戳信息。

5.根据权利要求1或2所述的目标视频片段定位方法，其特征在于，所述步骤S120包括，对每段视频片段进行等间隔均匀抽帧获取与视频片段对应的视频帧组；或者，

6.根据权利要求1或2所述的目标视频片段定位方法，其特征在于，所述步骤S120包括，

7.根据权利要求6所述的目标视频片段定位方法，其特征在于，根据如下公式获取每块图像块的信息熵，

p(x_i)表示一帧图像中当灰度值等于i时出现的概率。

8.根据权利要求1或2所述的目标视频片段定位方法，其特征在于，所述视频处理模型包括TSM模型或者SlowFast模型。

9.一种目标视频片段定位装置，其特征在于，包括：

10.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。