CN111753735B

CN111753735B - 视频片段检测方法、装置、电子设备及存储介质

Info

Publication number: CN111753735B
Application number: CN202010591665.XA
Authority: CN
Inventors: 卜琪; 王红宇; 王涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2023-06-06
Anticipated expiration: 2040-06-24
Also published as: CN111753735A

Abstract

本申请实施例提供了视频片段检测方法、装置、电子设备及存储介质，将疑似侵权视频段的置信度分数小于预设置信度阈值的待检测视频视为检测结果不准确的视频，利用第二深度学习网络将不准确的待检测视频的深度学习特征转换为更加接近其所侵权的样本版权视频的深度学习特征的转换特征，从而使得利用第二深度学习网络得到的转换特征表达性能更好，以增加帧特征检索和时间对齐时边界的准确度，增加细粒度边界检测的准确度，增加针对一些种类的易错待检测视频的召回率，以实现增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。

Description

视频片段检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及视频片段检测方法、装置、电子设备及存储介质。

背景技术

随着计算视觉技术的发展，特别是深度学习网络的出现，使得计算机自动进行视频侵权检测成为可能。相关技术中，利用预先训练的深度学习网络，将待检测视频与样本视频转化为深度学习特征，例如特征矩阵等，并通过比对二者的特征矩阵，检索出相似的视频片段，并输出这些相似的视频片段，以作为视频侵权判定的证据。然而，在实际执行过程中，会存在部分待检测视频的深度学习特征表达性能不好的情况，从而导致相似的视频片段检索不准确，影响视频侵权判定的准确度。

发明内容

本申请实施例的目的在于提供一种视频片段检测方法、装置、电子设备及存储介质，以实现增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。具体技术方案如下：

第一方面，本申请实施例提供了一种视频片段检测方法，所述方法包括：

通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用所述待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段；

若所述疑似侵权视频段的置信度分数小于预设置信度阈值，将所述待检测视频的深度学习特征聚类为两类，分别确定每个类对应的候选拷贝片段；并通过预先训练的第二深度学习网络对所述待检测视频各视频帧的深度学习特征进行转换，得到所述待检测视频的各视频帧的转换特征，其中，所述第二深度学习网络是根据样本侵权视频段的深度学习特征及样本侵权视频段所侵权的样本版权视频段的深度学习特征训练得到的，所述疑似侵权视频段的置信度分数表示所述疑似侵权视频段与其侵权的样本版权视频段的相似度；

根据所述待检测视频的各视频帧的转换特征，分别提取各所述候选拷贝片段中各视频帧的转换特征；

利用各所述候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各所述候选拷贝片段的视频拷贝检测结果；

在各所述候选拷贝片段的视频拷贝检测结果中，选取置信度分数最高的视频拷贝检测结果对应的所述待检测视频中的视频段作为目标侵权视频段，选取置信度分数最高的视频拷贝检测结果对应的样本版权视频中的视频段作为目标样本版权视频段。

在一种可能的实施方式中，所述利用各所述候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各所述候选拷贝片段的视频拷贝检测结果，包括：

获取预先生成的样本版权视频的倒排索引矩阵数据，其中，所述倒排索引矩阵数据是由所述样本版权视频的深度学习特征聚类后添加倒排索引得到的；

针对各所述候选拷贝片段中的任一视频帧，在所述样本版权视频的倒排索引矩阵数据中对该视频帧的转换特征进行检索，确定与该视频帧的相似度最高的K帧样本版权视频帧，从而分别得到各所述候选拷贝片段中各视频帧的相似度最高的K帧样本版权视频帧；

针对任一候选拷贝片段，生成该候选拷贝片段中各视频帧的相似度最高的K帧样本版权视频帧的有向无环图，从而分别得到各所述候选拷贝片段的有向无环图，其中，所述有向无环图仅有一个源点和一个汇点，所述候选拷贝片段的有向无环图中样本版权视频帧的权重为该样本版权视频帧与其对应的候选拷贝片段视频帧的相似度；

针对任一候选拷贝片段，将该候选拷贝片段的有向无环图中置信度分数最高的路径，作为该候选拷贝片段的视频拷贝检测结果，从而分别得到各所述候选拷贝片段的视频拷贝检测结果，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

在一种可能的实施方式中，所述将所述待检测视频的深度学习特征聚类为两类，分别确定每个类对应的候选拷贝片段，包括：

通过K-Means聚类将所述待检测视频的各视频帧的深度学习特征聚类为两类，得到各所述类的聚类结果，其中，所述类的聚类结果包括该类中起始视频帧及结束视频帧在所述待检测视频中的位置；

根据各所述类中起始视频帧及结束视频帧在所述待检测视频中的位置，得到各所述类对应的候选拷贝片段。

在一种可能的实施方式中，预先训练第二深度学习网络的步骤包括：

获取待训练的第二深度学习网络及深度学习特征集，其中，所述深度学习特征集包括多个样本侵权视频段的深度学习特征，各所述样本侵权视频段的深度学习特征均各自标记有其样本侵权视频段所侵权的样本版权视频段的深度学习特征；

在所述深度学习特征集中选取深度学习特征输入到第二深度学习网络中，得到该深度学习特征的预测特征；

计算选取的深度学习特征的预测特征与其样本侵权视频段所侵权的样本版权视频段的深度学习特征的损失，得到第二深度学习网络的损失；

若第二深度学习网络的损失不收敛，返回执行上述步骤：在所述深度学习特征集中选取深度学习特征输入到第二深度学习网络中，得到该深度学习特征的预测特征，直至第二深度学习网络的损失收敛，得到训练好的第二深度学习网络。

在一种可能的实施方式中，所述通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用所述待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段，包括：

通过预先训练的第一深度学习网络对待检测视频进行特征提取，得到所述待检测视频的各视频帧的深度学习特征；

针对所述待检测视频中的任一视频帧，在所述样本版权视频的倒排索引矩阵数据中对该视频帧的深度学习特征进行检索，确定与该视频帧的相似度最高的K帧样本版权视频帧，从而分别得到所述待检测视频中各视频帧的相似度最高的K帧样本版权视频帧；

生成所述待检测视频中各视频帧的相似度最高的K帧样本版权视频帧的有向无环图，得到所述待检测视频的有向无环图，其中，所述有向无环图仅有一个源点和一个汇点，所述待检测视频的有向无环图中样本版权视频帧的权重为该样本版权视频帧与其对应的待检测视频视频帧的相似度；

将所述待检测视频的有向无环图中置信度分数最高的路径对应的所述待检测视频中的视频段，作为疑似侵权视频段，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

在一种可能的实施方式中，预先生成各样本版权视频的倒排索引矩阵数据的步骤包括：

通过预先训练的第一深度学习网络对样本版权视频进行特征提取，得到所述样本版权视频的二维样本特征矩阵，其中，所述二维样本特征矩阵为所述样本版权视频中多帧样本版权视频帧的特征矩阵的集合；

将所述样本特征矩阵进行聚类，得到多个目标类及各所述目标类的聚类中心；

针对每个所述目标类及每个所述目标类的聚类中心分别建立倒排索引，得到倒排索引矩阵数据。

第二方面，本申请实施例提供了一种视频片段检测装置，所述装置包括：

初级视频拷贝检测模块，用于通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用所述待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段；

候选拷贝片段确定模块，用于若所述疑似侵权视频段的置信度分数小于预设置信度阈值，将所述待检测视频的深度学习特征聚类为两类，分别确定每个类对应的候选拷贝片段，其中，所述疑似侵权视频段的置信度分数表示所述疑似侵权视频段与其侵权的样本版权视频段的相似度；

深度学习特征转换模块，用于若所述疑似侵权视频段的置信度分数小于预设置信度阈值，通过预先训练的第二深度学习网络对所述待检测视频各视频帧的深度学习特征进行转换，得到所述待检测视频的各视频帧的转换特征，其中，所述第二深度学习网络是根据样本侵权视频段的深度学习特征及样本侵权视频段所侵权的样本版权视频段的深度学习特征训练得到的；

片段转换特征确定模块，用于根据所述待检测视频的各视频帧的转换特征，分别提取各所述候选拷贝片段中各视频帧的转换特征；

次级视频拷贝检测模块，用于利用各所述候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各所述候选拷贝片段的视频拷贝检测结果；

拷贝检测结果输出模块，用于在各所述候选拷贝片段的视频拷贝检测结果中，选取置信度分数最高的视频拷贝检测结果对应的所述待检测视频中的视频段作为目标侵权视频段，选取置信度分数最高的视频拷贝检测结果对应的样本版权视频中的视频段作为目标样本版权视频段。

在一种可能的实施方式中，所述次级视频拷贝检测模块，具体用于：

在一种可能的实施方式中，所述候选拷贝片段确定模块，具体用于：若所述疑似侵权视频段的置信度分数最高小于预设置信度阈值，通过K-Means聚类将所述待检测视频的各视频帧的深度学习特征聚类为两类，得到各所述类的聚类结果，其中，所述类的聚类结果包括该类中起始视频帧及结束视频帧在所述待检测视频中的位置；根据各所述类中起始视频帧及结束视频帧在所述待检测视频中的位置，得到各所述类对应的候选拷贝片段。

在一种可能的实施方式中，所述装置还包括：

样本数据获取模块，用于获取待训练的第二深度学习网络及深度学习特征集，其中，所述深度学习特征集包括多个样本侵权视频段的深度学习特征，各所述样本侵权视频段的深度学习特征均各自标记有其样本侵权视频段所侵权的样本版权视频段的深度学习特征；

学习网络训练模块，用于在所述深度学习特征集中选取深度学习特征输入到第二深度学习网络中，得到该深度学习特征的预测特征；

网络损失计算模块，用于计算选取的深度学习特征的预测特征与其样本侵权视频段所侵权的样本版权视频段的深度学习特征的损失，得到第二深度学习网络的损失；

结束条件判断模块，用于若第二深度学习网络的损失不收敛，返回上述学习网络训练模块继续运行，直至第二深度学习网络的损失收敛，得到预先训练的第二深度学习网络。

在一种可能的实施方式中，所述初级视频拷贝检测模块，具体用于：通过预先训练的第一深度学习网络对待检测视频进行特征提取，得到所述待检测视频的各视频帧的深度学习特征；获取预先生成的样本版权视频的倒排索引矩阵数据，其中，所述倒排索引矩阵数据是由所述样本版权视频的深度学习特征聚类后添加倒排索引得到的；针对所述待检测视频中的任一视频帧，在所述样本版权视频的倒排索引矩阵数据中对该视频帧的深度学习特征进行检索，确定与该视频帧的相似度最高的K帧样本版权视频帧，从而分别得到所述待检测视频中各视频帧的相似度最高的K帧样本版权视频帧；生成所述待检测视频中各视频帧的相似度最高的K帧样本版权视频帧的有向无环图，得到所述待检测视频的有向无环图，其中，所述有向无环图仅有一个源点和一个汇点，所述待检测视频的有向无环图中样本版权视频帧的权重为该样本版权视频帧与其对应的待检测视频视频帧的相似度；将所述待检测视频的有向无环图中置信度分数最高的路径对应的所述待检测视频中的视频段，作为疑似侵权视频段，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

在一种可能的实施方式中，所述装置还包括：倒排索引矩阵数据生成模块，用于通过预先训练的第一深度学习网络对样本版权视频进行特征提取，得到所述样本版权视频的二维样本特征矩阵，其中，所述二维样本特征矩阵为所述样本版权视频中多帧样本版权视频帧的特征矩阵的集合；将所述样本特征矩阵进行聚类，得到多个目标类及各所述目标类的聚类中心；针对每个所述目标类及每个所述目标类的聚类中心分别建立倒排索引，得到倒排索引矩阵数据。

第三方面，本申请实施例提供了一种电子设备，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的视频片段检测方法。

第四方面，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的视频片段检测方法。

本申请实施例提供的视频片段检测方法、装置、电子设备及存储介质，通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段；若疑似侵权视频段的置信度分数小于预设置信度阈值，将待检测视频的深度学习特征聚类为两类，分别确定每个类对应的候选拷贝片段；并通过预先训练的第二深度学习网络对待检测视频各视频帧的深度学习特征进行转换，得到待检测视频的各视频帧的转换特征，其中，第二深度学习网络是根据样本侵权视频段的深度学习特征及样本侵权视频段所侵权的样本版权视频段的深度学习特征训练得到的，疑似侵权视频段的置信度分数表示该疑似侵权视频段与其侵权的样本版权视频段的相似度；根据待检测视频的各视频帧的转换特征，分别提取各候选拷贝片段中各视频帧的转换特征；利用各候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各候选拷贝片段的视频拷贝检测结果；在各候选拷贝片段的视频拷贝检测结果中，选取置信度分数最高的视频拷贝检测结果对应的待检测视频中的视频段作为目标侵权视频段，选取置信度分数最高的视频拷贝检测结果对应的样本版权视频中的视频段作为目标样本版权视频段。

本申请实施例中，将置信度分数小于预设置信度阈值的待检测视频视为检测结果不准确的视频，利用第二深度学习网络将待检测视频的深度学习特征转换为更加接近其所侵权的样本版权视频的深度学习特征的转换特征，从而使得利用第二深度学习网络得到的转换特征表达性能更好，从而增加帧特征检索和时间对齐时边界的准确度，增加细粒度边界检测的准确度，增加针对一些种类的易错待检测视频的召回率，以实现增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的视频片段检测方法的一种示意图；

图2为本申请实施例的疑似侵权视频段方法的一种示意图；

图3为本申请实施例的倒排索引矩阵数据建立方法的一种示意图；

图4为本申请实施例的候选拷贝片段确定方法的一种示意图；

图5为本申请实施例的第二深度学习网络训练方法的一种示意图；

图6为本申请实施例的视频拷贝检测结果确定方法的一种示意图；

图7为本申请实施例的视频片段检测装置的第一种示意图；

图8为本申请实施例的初级视频拷贝检测器模块执行流程的一种示意图；

图9为本申请实施例的易错视频选取模块执行流程的一种示意图；

图10为本申请实施例的易错视频特征训练模块执行流程的一种示意图；

图11为本申请实施例的次级视频拷贝检测器模块执行流程的一种示意图；

图12为本申请实施例的视频片段检测装置的第二种示意图；

图13为本申请实施例的视频片段检测装置的第三种示意图；

图14为本申请实施例的视频片段检测装置的第四种示意图；

图15为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于每天互联网上的版权视频数量数以万计，存储这些视频索引时需要考虑到特征的大小和特征的表达性能，同时还要考虑检索的速度与准确度，因此，特征的维度和视频帧采样率均被控制在了较低的水平。现有技术中，为了保持低维度和低采样率，特征的提取方法一般采用特征点检测和pHash(PerceptualHash，感知哈希)方法等。现有技术会而导致深度学习特征表达性能不好的情况，从而导致在帧特征检索和时间对齐时边界准确度降低，造成细粒度边界检测不准确的问题，并且针对一些种类的易错待检测视频，召回率较低。

有鉴于此，本申请实施例提供了一种视频片段检测方法，该方法包括：

通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用上述待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段；

若上述疑似侵权视频段的置信度分数小于预设置信度阈值，将上述待检测视频的深度学习特征聚类为两类，分别确定每个类对应的候选拷贝片段；并通过预先训练的第二深度学习网络对上述待检测视频各视频帧的深度学习特征进行转换，得到上述待检测视频的各视频帧的转换特征，其中，上述第二深度学习网络是根据样本侵权视频段的深度学习特征及样本侵权视频段所侵权的样本版权视频段的深度学习特征训练得到的，上述疑似侵权视频段的置信度分数表示上述疑似侵权视频段与其侵权的样本版权视频段的相似度；

根据上述待检测视频的各视频帧的转换特征，分别提取各上述候选拷贝片段中各视频帧的转换特征；

利用各上述候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各上述候选拷贝片段的视频拷贝检测结果；

在各上述候选拷贝片段的视频拷贝检测结果中，选取置信度分数最高的视频拷贝检测结果对应的上述待检测视频中的视频段作为目标侵权视频段，选取置信度分数最高的视频拷贝检测结果对应的样本版权视频中的视频段作为目标样本版权视频段。

在本申请实施例中，将置信度分数小于预设置信度阈值的待检测视频视为检测结果不准确的视频，利用第二深度学习网络将待检测视频的深度学习特征转换为更加接近其所侵权的样本版权视频的深度学习特征的转换特征，从而使得利用第二深度学习网络得到的转换特征表达性能更好，从而增加帧特征检索和时间对齐时边界的准确度，增加细粒度边界检测的准确度，增加针对一些种类的易错待检测视频的召回率，以实现增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。

下面进行具体说明，参见图1，图1为本申请实施例的视频片段检测方法的第一种示意图，该方法包括：

S11，通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用上述待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段。

本申请实施例的视频片段检测方法可以通过电子设备实现，具体的，该电子设备可以为服务器、个人电话或智能手机等。电子设备的运行环境包括但不限于linux系统、Python(一种跨平台的计算机程序设计语言)2.7、Python3.5、PyTorch(一种机器学习库)1.0、Faiss(一种针对聚类和相似性搜索库)。

预先训练的第一深度学习网络用于对视频中各视频帧进行深度学习特征的提取，将视频帧的深度学习特征通过特征矩阵的形式进行表示。通过将待检测视频的深度学习特征与样本版权视频的深度学习特征进行比对，确定待检测视频中与样本版权视频中相似的片段，作为待检测视频中的疑似侵权视频段。样本版权视频是指具有版权的、需要验证是否被侵权的视频，待检测视频是指需要验证是否构成侵权的视频。

S12，若上述疑似侵权视频段的置信度分数小于预设置信度阈值，将上述待检测视频的深度学习特征聚类为两个类，分别确定每个类对应的候选拷贝片段；并通过预先训练的第二深度学习网络对上述待检测视频各视频帧的深度学习特征进行转换，得到上述待检测视频的各视频帧的转换特征，其中，上述第二深度学习网络是根据样本侵权视频段的深度学习特征及样本侵权视频段所侵权的样本版权视频段的深度学习特征训练得到的，上述疑似侵权视频段的置信度分数表示上述疑似侵权视频段与其侵权的样本版权视频段的相似度。

若疑似侵权视频段的置信度分数小于预设置信度阈值，则认为选取的疑似侵权视频段并不准确。此时对待检测视频的各视频帧的深度学习特征进行聚类，得到两个类。在待检测视频中分别确定每个类对应的视频片段，作为这两个类各自对应的候选拷贝片段。

第二深度学习网络是利用样本侵权视频段的深度学习特征及样本侵权视频段所侵权的样本版权视频段的深度学习特征训练得到的，用于将待检测视频的深度学习特征转化为更加接近其所侵权的样本版权视频的深度学习特征的转换特征，从而使得到的转换特征的表达性能更好。通过第二深度学习网络提取待检测视频的各视频帧的转换特征。

疑似侵权视频段的置信度分数表示该疑似侵权视频段与其侵权的样本版权视频段的相似度，疑似侵权视频段与其侵权的样本版权视频段的相似度越高，则该疑似侵权视频段的置信度分数也就越大。预设置信度阈值可以按照实际情况自定义设置，具体与置信度分数的计算方式有关，在一种可能的实施方式中，置信度分数为归一化后的数值，此时预设置信度阈值，可以设置为0.5、0.6、0.7或0.8等。

S13，根据上述待检测视频的各视频帧的转换特征，分别提取各上述候选拷贝片段中各视频帧的转换特征。

在上述步骤中已经获取了待检测视频的各视频帧的转换特征，候选拷贝片段为待检测视频中的一段视频段，显然可以得到各候选拷贝片段中各视频帧的转换特征。

S14，利用各上述候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各上述候选拷贝片段的视频拷贝检测结果。

利用候选拷贝片段中各视频帧的转换特征，分别对每个候选拷贝片段进行视频拷贝检测，得到各候选拷贝片段的视频拷贝检测结果。具体的，可以将候选拷贝片段中各视频帧的转换特征与各样本版权视频的深度学习特征进行比对，从而得到各候选拷贝片段的视频拷贝检测结果。

S15，在各上述候选拷贝片段的视频拷贝检测结果中，选取置信度分数最高的视频拷贝检测结果对应的上述待检测视频中的视频段作为目标侵权视频段，选取置信度分数最高的视频拷贝检测结果对应的样本版权视频中的视频段作为目标样本版权视频段。

输出置信度分数最高的视频拷贝检测结果对应的待检测视频中的视频段作为目标侵权视频段，输出置信度分数最高的视频拷贝检测结果对应的样本版权视频中的视频段作为目标样本版权视频段，作为视频侵权判定的证据。

在本申请实施例中，将置信度分数最高小于预设置信度阈值的待检测视频视为检测结果不准确的视频，利用第二深度学习网络将待检测视频的深度学习特征转换为更加接近其所侵权的样本版权视频的深度学习特征的转换特征，从而使得利用第二深度学习网络得到的转换特征表达性能更好，能够增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。

在一种可能的实施方式中，参见图2，上述通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用上述待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段，包括：

S111，通过预先训练的第一深度学习网络对待检测视频进行特征提取，得到上述待检测视频的各视频帧的深度学习特征。

可以通过预先训练的第一深度学习网络对待检测视频的每帧视频均进行特征提取，但是这样计算量会很多，实际操作过程中，可以对待检测视频进行抽帧，仅对抽取的视频帧进行特征提取，从而可以节约计算资源。例如，可以对待检测视频进行每秒8帧的均匀抽帧。

具体的，待检测视频的各视频帧的深度学习特征可以采用二维待检测特征矩阵的形式进行表示。可以通过预先训练的第一深度学习网络，提取待检测视频的SE-ResNeXt网络Layer3的8192维特征

并提取待检测视频的DenseNet网络Layer3的5120维特征/>

将同一帧视频帧的/>

和/>

特征拼接成13312维特征/>

作为该帧视频帧的深度学习特征，则待检测视频的视频帧的深度学习特征可以表示为：/>

其中，/>

为待检测视频的第j帧视频的深度学习特征，具体为一个13312维的特征矩阵，L表示待检测视频的帧数。待检测视频的二维待检测特征矩阵为各帧视频的深度学习特征拼接成的二维M*L的特征矩阵Q，其中，M表示视频帧的特征维度。

S112，获取预先生成的样本版权视频的倒排索引矩阵数据，其中，上述倒排索引矩阵数据是由上述样本版权视频的深度学习特征聚类后添加倒排索引得到的。

样本版权视频的倒排索引矩阵数据为预先生成的，可以存储在数据库中，在使用时直接访问数据库即可。样本版权视频的倒排索引矩阵数据是利用样本版权视频的深度学习特征得到的，对样本版权视频的深度学习特征进行聚类，并对聚类后的各视频帧对应的数据添加倒排索引，从而得到倒排索引矩阵数据。

S113，针对上述待检测视频中的任一视频帧，在上述样本版权视频的倒排索引矩阵数据中对该视频帧的深度学习特征进行检索，确定与该视频帧的相似度最高的K帧样本版权视频帧，从而分别得到上述待检测视频中各视频帧的相似度最高的K帧样本版权视频帧。

对于待检测特征矩阵中的每一帧的特征矩阵，在倒排索引矩阵数据中检索得到与其相似度最高的K帧样本视频帧，从在待检测特征矩阵中的各视频均检索完毕后，得到待检测视频中每帧视频帧(如果有抽帧操作，则为待检测视频抽取的各视频帧)的相似度最高的K帧样本视频帧，例如，待检测特征矩阵对应L帧视频帧时，则得到的L帧×K个结果。其中，K可以根据实际情况自定义设置，例如，K可以设置为3、5、7或10等。

以待检测视频中的一帧视频帧为例，为方便区分称为第一视频帧。在样本版权视频的倒排索引矩阵数据中对第一视频帧的深度学习特征进行检索，得到第一视频帧的深度学习特征与样本版权视频中视频帧的深度学习特征的相似度，以下将样本版权视频的视频帧称为样本版权视频帧，选取相似度Top-K的样本版权视频帧，即得到与第一视频帧的相似度最高的K帧样本版权视频帧。具体的，可以按照第一视频帧的深度学习特征与样本版权视频帧的深度学习特征的相似度由高到低的顺序，对各样本版权视频帧进行排序，选取序列中前K个样本版权视频帧，即得到与第一视频帧的相似度最高的K帧样本版权视频帧。针对待检测视频中的每一帧视频帧均进行上述操作，从而可以分别得到待检测视频中各视频帧的相似度最高的K帧样本版权视频帧。

S114，生成上述待检测视频中各视频帧的相似度最高的K帧样本版权视频帧的有向无环图，得到上述待检测视频的有向无环图，其中，上述有向无环图仅有一个源点和一个汇点，上述待检测视频的有向无环图中样本版权视频帧的权重为该样本版权视频帧与其对应的待检测视频视频帧的相似度。

将查找到的L帧的K个结果连接成只有一个源点和一个汇点的有向无环图。具体的，设定一个源点和一个汇点，对于检测得到的L×K个样本版权视频帧(在有向无环图中也称为节点)来说，每个节点都对应有的待检测视频视频帧的时间戳t1和样本版权视频帧的时间戳t2，每个节点在与其他节点连接时，只能与t1大于自身t1、且t2大于自身t2的节点连接，节点的权重(或等效为连接线的权重)为该节点与其对应的待检测视频视频帧的相似度。

S115，确定上述待检测视频的有向无环图中置信度分数最高的路径对应的上述待检测视频中的视频段，作为疑似侵权视频段，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

有向无环图中路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关，路径上所有样本版权视频帧权重的和越大，该路径的置信度分数越高。例如，针对任一路径，可以将该路径上所有样本版权视频帧权重的和作为其置信度分数。在一种可能的实施方式中，为了方便预设置信度阈值的设定，还可以对路径上所有样本版权视频帧权重的和进行归一化，作为该路径的置信度分数。

例如，可以选取多个待检测视频的有向无环图中所有路径的集合P，分别选取每个有向无环图中节点权重的和最大的路径，作为各目标路径，令节点权重的和最大的目标路径的节点权重的和为Pmax，令节点权重的和最小的目标路径的节点权重的和为Pmin。则对于集合P中的任一路径i，其置信度分数为Si＝(Pi-Pmin)/(Pmax-Pmin)。其中，Pi为路径i中所有节点权重的和。

在本申请实施例中，利用倒排索引矩阵数据进行特征检索，能够有效增加特征比对的效率，从而提高整体的速度。利用有向无环图来确定侵权视频段及目标样本视频段，能够有效增加比对的准确性，从而增加侵权判定过程中检测出的视频片段的准确性，增加视频侵权判定的准确度。

倒排索引矩阵数据是由上述样本版权视频的深度学习特征聚类后添加倒排索引得到的，在一种可能的实施方式中，参见图3，预先生成各样本版权视频的倒排索引矩阵数据的步骤包括：

S21，通过预先训练的第一深度学习网络对样本版权视频进行特征提取，得到上述样本版权视频的二维样本特征矩阵，其中，上述二维样本特征矩阵为上述样本版权视频中多帧样本版权视频帧的特征矩阵的集合。

可以通过预先训练的第一深度学习网络对样本版权视频的每帧视频均进行特征提取，但是这样计算量会很多，实际操作过程中，可以对样本版权视频进行抽帧，仅对抽取的视频帧进行特征提取，从而可以节约计算资源。具体的，可以对样本版权视频进行每秒8帧的均匀抽帧。样本版权视频的二维样本特征矩阵的生成方式可以参见上述待检测视频的二维待检测特征矩阵的生成方式，此处不再赘述。

S22，将上述样本特征矩阵进行聚类，得到多个目标类及各上述目标类的聚类中心。

此处的聚类方法可以按照实际情况自定义选取，例如，可以对样本特征矩阵中各帧的特征矩阵进行K-Means聚类，获得n个Centriods(聚类中心)。

S23，针对每个上述目标类及每个上述目标类的聚类中心分别建立倒排索引，得到倒排索引矩阵数据。

针对每一类建立倒排索引，并对每个聚类中心建立倒排索引，得到倒排索引矩阵数据。

在本申请实施例中，给出了倒排索引矩阵数据的建立过程，利用倒排索引矩阵数据进行特征检索，能够有效增加特征比对的效率，从而提高整体的速度。

在一种可能的实施方式中，参见图4，上述将上述待检测视频的深度学习特征聚类为两类，分别确定每个类对应的候选拷贝片段，包括：

S121，通过K-Means聚类将上述待检测视频的各视频帧的深度学习特征聚类为两类，得到各上述类的聚类结果，其中，上述类的聚类结果包括该类中起始视频帧及结束视频帧在上述待检测视频中的位置。

在疑似侵权视频段的视频帧数量小于预设置信度阈值时，利用K-Means聚类算法，将待检测视频的各视频帧的深度学习特征聚类为两类，得到各类的聚类结果。此处类的数量设置为二，即通过K-Means聚类将待检测视频的各视频帧的深度学习特征聚类为两类。在聚类为两类时，认为可以获得未知的背景视频片段和侵权视频片段。

类的聚类结果包括该类中起始视频帧及结束视频帧在待检测视频中的位置。类的起始视频帧是指时序上该类的第一帧视频帧，类的结束视频帧是指时序上该类的最后帧视频帧。视频帧在待检测视频中的位置可以为视频帧的在时序上的帧号，即待检测视频中的第几帧视频。当然，视频帧在待检测视频中的位置也可以通过视频帧的时间戳进行表示，均在本申请的保护范围内。

S122，根据各上述类中起始视频帧及结束视频帧在上述待检测视频中的位置，得到各上述类对应的候选拷贝片段。

以位置表示方式采用时序上的帧号为例，针对一个类，该类的起始视频帧的帧号为S，该类的结束视频帧的帧号为E，则该类对应的候选拷贝片段的起始视频帧的帧号可以为max(0,S-Thre)，该类对应的候选拷贝片段的结束视频帧的帧号可以为min(E+Thre,length_of_query)，该类对应的候选拷贝片段包括待检测视频中从该类对应的候选拷贝片段的起始视频帧开始，到该类对应的候选拷贝片段的结束视频帧结束的所有视频帧。其中，Thre为预设帧数阈值，可以按照实际情况进行设定，例如，Thre可以设置为5帧、10帧或20帧等，通过设置Thre，能够增加真实的侵权视频段落在由聚类所生成的候选拷贝片段内的概率。length_of_query表示待检测视频帧的最后一帧视频帧的帧号。针对每一类均进行上述操作，可以得到各类对应的候选拷贝片段。

在本申请实施例中，利用K-Means聚类算法进行聚类，得到的类中的各视频帧的深度学习特征根据接近，从而各类对应的候选拷贝片段在视觉上也更加接近，也就是说类对应的候选拷贝片段更接近于一个场景的片段，从而方便后续的特征检测，准确性更高。通过先验知识粗定位候选拷贝片段，能够提升召回率，有益于检测拷贝片段的边界精细化。

第二深度学习网络是根据样本侵权视频段的深度学习特征及样本侵权视频段所侵权的样本版权视频段的深度学习特征训练得到的，在一种可能的实施方式中，参见图5，预先训练第二深度学习网络的步骤包括：

S31，获取待训练的第二深度学习网络及深度学习特征集，其中，上述深度学习特征集包括多个样本侵权视频段的深度学习特征，各上述样本侵权视频段的深度学习特征均各自标记有其样本侵权视频段所侵权的样本版权视频段的深度学习特征。

待训练的第二深度学习网络可以包括SE-Resnext layer4层，用于对输入的深度学习特征进行转换。深度学习特征集包括多个样本侵权视频段的深度学习特征，每一个深度学习特征都对应标记有其样本侵权视频段所侵权的样本版权视频段的深度学习特征。样本侵权视频段的深度学习特征可以通过第一深度学习网络进行提取。

S32，在上述深度学习特征集中选取深度学习特征输入到第二深度学习网络中，得到该深度学习特征的预测特征。

S33，计算选取的深度学习特征的预测特征与其样本侵权视频段所侵权的样本版权视频段的深度学习特征的损失，得到第二深度学习网络的损失。

可以利用任意相关的损失函数计算第二深度学习网络的损失。具体的，可以计算选取的深度学习特征的预测特征与其标记的样本版权视频段的深度学习特征的欧式距离，作为第二深度学习网络的损失。

S34，若第二深度学习网络的损失不收敛，返回执行上述步骤：在上述样本侵权视频段集中选取样本侵权视频段输入到第二深度学习网络中，得到该样本侵权视频段的预测特征，直至第二深度学习网络的损失收敛，得到预先训练的第二深度学习网络。

若第二深度学习网络的损失不收敛，则返回S32继续执行；若第二深度学习网络的损失收敛，则训练结束，得到预先训练的第二深度学习网络。本领域技术人员可以理解的是，第二深度学习网络的损失收敛是一种理想的训练结束的情况，在实际训练过程中，由于样本数量的限制以及网络本身的限制，第二深度学习网络训练结束的条件还可以为达到预设的训练次数或第二深度学习网络过拟合等，其均在本申请的保护范围内。

可选的，为了增加第二深度学习网络的针对性，可以对各样本侵权视频段进行删选。可以通过预先训练的第一深度学习网络提取样本侵权视频的深度学习特征，利用样本侵权视频的深度学习特征进行视频拷贝检测，确定样本侵权视频的侵权视频段。在视频拷贝检测的侵权视频段中，将置信度分数小于预设置信度阈值的侵权视频段所属的样本侵权视频作为易错样本侵权视频，将易错样本侵权视频作为样本侵权视频段集中的样本侵权视频段。

例如，可以通过预先训练的第一深度学习网络及视频拷贝检测筛选易错样本侵权视频，并获取易错样本侵权视频和其侵权的样本版权视频中对应的拷贝帧的SE-ResNeXtlayer3特征对

获取包括SE-ResNeXt layer4层第二深度学习网络，使用特征之间的欧氏距离作为损失函数，输入易错样本侵权视频的特征

其对应的真值为/>

训练结束后获得预先训练的第二深度学习网络。

在本申请实施例中，给出了第二深度学习网络的训练方法，利用第二深度学习网络将待检测视频的深度学习特征转换为更加接近其所侵权的样本版权视频的深度学习特征的转换特征，从而使得利用第二深度学习网络得到的转换特征表达性能更好，能够增加召回率，提升检测指标F1值，能够增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。

在一种可能的实施方式中，参见图6，上述利用各上述候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各上述候选拷贝片段的视频拷贝检测结果，包括：

S141，获取预先生成的样本版权视频的倒排索引矩阵数据，其中，上述倒排索引矩阵数据是由上述样本版权视频的深度学习特征聚类后添加倒排索引得到的。

样本版权视频的倒排索引矩阵数据的生成过程在上文中已经进行了说明，此处不再赘述。

S142，针对各上述候选拷贝片段中的任一视频帧，在上述样本版权视频的倒排索引矩阵数据中对该视频帧的转换特征进行检索，确定与该视频帧的相似度最高的K帧样本版权视频帧，从而分别得到各上述候选拷贝片段中各视频帧的相似度最高的K帧样本版权视频帧。

以各候选拷贝片段中的一帧视频帧为例，为方便区分称为第二视频帧。在样本版权视频的倒排索引矩阵数据中对第二视频帧的深度学习特征进行检索，得到第二视频帧的深度学习特征与样本版权视频中视频帧的深度学习特征的相似度，以下将样本版权视频的视频帧称为样本版权视频帧，选取相似度top-K的样本版权视频帧，即得到与第二视频帧的相似度最高的K帧样本版权视频帧。具体的，可以按照第二视频帧的深度学习特征与样本版权视频帧的深度学习特征的相似度由高到低的顺序，对各样本版权视频帧进行排序，选取序列中前K个样本版权视频帧，即得到与第二视频帧的相似度最高的K帧样本版权视频帧。针对各候选拷贝片段中的每一帧视频帧均进行上述操作，从而可以分别得各候选拷贝片段中各视频帧的相似度最高的K帧样本版权视频帧。

S143，针对任一候选拷贝片段，生成该候选拷贝片段中各视频帧的相似度最高的K帧样本版权视频帧的有向无环图，从而分别得到各上述候选拷贝片段的有向无环图，其中，上述有向无环图仅有一个源点和一个汇点，上述候选拷贝片段的有向无环图中样本版权视频帧的权重为该样本版权视频帧与其对应的候选拷贝片段视频帧的相似度。

以一个候选拷贝片段为例，假设该候选拷贝片段中视频帧的数量为L，则将该候选拷贝片段的L帧视频帧之间的各相似度最高的K帧样本版权视频帧连接成只有一个源点和一个汇点的有向无环图，得到该候选拷贝片段的有向无环图。具体的，候选拷贝片段有向无环图的生成方法可以参见待检测视频的有向无环图的生成方法，此处不再赘述。针对每个候选拷贝片段均进行上述操作，从而可以得到各候选拷贝片段的有向无环图。

S144，针对任一候选拷贝片段，将该候选拷贝片段的有向无环图中置信度分数最高的路径，作为该候选拷贝片段的视频拷贝检测结果，从而分别得到各上述候选拷贝片段的视频拷贝检测结果，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

候选拷贝片段的有向无环图中各路径的置信度分数的计算方法，可以参见待检测视频的有向无环图中各路径的置信度分数的计算方法，此处不再赘述。

在本申请实施例中，选取选拷贝片段的有向无环图中的置信度分数最高的路径，作为候选拷贝片段的视频拷贝检测结果，能够增加检测出的视频片段的准确性，增加视频侵权判定的准确度。

本申请实施例还提供了一种视频片段检测装置，参见图7，该装置包括：

初级视频拷贝检测器模块101、易错视频选取模块102、易错视频特征训练模块103及次级视频拷贝检测器模块104。

初级视频拷贝检测器模块101用于提取待检测视频的深度学习特征，并利用待检测视频的深度学习特征进行视频拷贝检测。

初级视频拷贝检测器模块101可以包括：特征提取子模块、索引建立子模块及查询与时间对齐子模块。特征提取子模块用于提取视频的深度学习特征，索引建立子模块用于建立倒排索引矩阵数据，时间对齐子模块用于确定待检测视频中的疑似侵权视频段。

具体的，初级视频拷贝检测器模块101的执行流程可以如图8所示。分别对样本版权视频和待检测视频进行每秒8帧的均匀抽帧。提取视频帧的SE-resnext网络Layer3的8192维特征

提取视频帧的Densenet网络Layer3的5120维特征/>

将同一视频帧的/>

和/>

特征拼接成13312维特征/>

作为该视频帧的深度学习特征。

将检索库中的样本版权视频的视频帧特征

拼接成二维M*N的特征矩阵/>

M表示视频帧特征维度，N表示样本版权视频的帧数。对该矩阵中的帧进行K-Means聚类，获得n个聚类中心，针对每一类建立倒排索引，并对聚类中心建立倒排索引，得到倒排索引矩阵数据。

将待检测视频的视频帧特征

拼接成二维M*L的特征矩阵

M表示视频帧特征维度，L表示该待检测视频的帧数。对于/>

中的每一帧，在倒排索引矩阵数据中检索得到与其相似度最高的K帧，待所有L个视频帧特征检索完毕后，得到L帧×K个结果。将查找到的L帧的K个结果连接成只有一个源点和一个汇点的有向无环图，关键路径对应的片段即为疑似侵权片段，关键路径对应的样本版权视频即为侵权视频ID。

易错视频选取模块102用于通过预设置信度阈值将初级视频拷贝检测器模块101中给出的结果中的疑似侵权视频段筛选出来。具体的，例如图9所示，易错视频选取模块102可以将初级视频拷贝检测器模块101中给出的置信度分数小于预设置信度阈值的结果筛选出来，进行二次检测。由于置信度分数能够一定程度代表待检测视频是否查询正确，因此如果疑似侵权视频段的置信度分数小于预设置信度阈值，则将该疑似侵权视频段所属的待检测视频送入次级视频拷贝检测器模块104再次检测。

易错视频特征训练模块103用于对第二深度学习网络进行训练，使得经过第二深度学习网络转换后的待检测视频的深度学习特征，其真值样本版权视频的深度学习特征更相似，其中，真值是指待检测视频所侵权的样本版权视频。

例如图10所示，可以通过预先训练的第一深度学习网络提取样本侵权视频的深度学习特征，利用样本侵权视频的深度学习特征进行视频拷贝检测，确定样本侵权视频的侵权视频段。在视频拷贝检测的侵权视频段中，将置信度分数小于预设置信度阈值的侵权视频段所属的样本侵权视频作为易错样本侵权视频，用于对第二深度学习网络进行训练。具体的，可以通过预先训练的第一深度学习网络及视频拷贝检测筛选易错样本侵权视频，并获取易错样本侵权视频和其侵权的样本版权视频中对应的拷贝帧的SE-Resnext layer3特征对

其对应的真值为/>

训练结束后获得预先训练的第二深度学习网络。

次级视频拷贝检测器模块104，用于对易错视频选取模块102删选出的易错视频进行再次检测。

次级视频拷贝检测器模块104包括：待检测视频K-Means聚类子模块用于对待检测视频的各视频帧的深度学习特征进行聚类。待检测视频侵权段粗选取子模块用于对通过第二深度学习网络将待检测视频的各视频帧的深度学习特征转化为转换特征，并利用转换特征进行查询与时间对齐。

具体的，例如图11所示，针对从易错视频选取模块102输出的待检测视频，使用K-Means将其聚为两类，第一类，记该类的起始视频帧的帧号为S，该类的结束视频帧的帧号为E，那么该类对应的候选拷贝片段C₁的起始帧为max(0,S-Thre)，结束帧为min(E+Thre,length_of_query)。另一类同样能够获得一个候选拷贝片段C₂。

将待检测视频的各视频帧的深度学习特征送入训练好的第二深度学习网络进行特征转换，得到待检测视频各视频帧的转换特征。分别按照C₁和C₂裁剪出转换特征段V₁和V₂。V₁和V₂中每一帧的转换特征分别在倒排索引矩阵数据中检索得到与其相似度最高的K帧，待所有视频帧的转换特征检索完毕后，得到C₁和C₂中各视频帧的检测结果。

针对C₁，在C₁的各视频帧之间将各帧视频的K个结果分别连接成只有一个源点和一个汇点的有向无环图，针对C₁进行相同操纵，也得到一个有向无环图，在这两个有向无环图中关键路径中，选取置信度分数最高的路径对应的待检测视频中的视频段，即为目标侵权视频段，选取最长的关键路径对应的样本版权视频中的视频段，即为被侵权的目标样本版权视频段。

本申请实施例还提供了一种视频片段检测装置，参见图12，该装置包括：

初级视频拷贝检测模块201，用于通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用所述待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段；

候选拷贝片段确定模块202，用于若所述疑似侵权视频段的置信度分数小于预设置信度阈值，将所述待检测视频的深度学习特征聚类为两类，分别确定每个类对应的候选拷贝片段，其中，所述疑似侵权视频段的置信度分数表示所述疑似侵权视频段与其侵权的样本版权视频段的相似度；

深度学习特征转换模块203，用于若所述疑似侵权视频段的置信度分数小于预设置信度阈值，通过预先训练的第二深度学习网络对所述待检测视频各视频帧的深度学习特征进行转换，得到所述待检测视频的各视频帧的转换特征，其中，所述第二深度学习网络是根据样本侵权视频段的深度学习特征及样本侵权视频段所侵权的样本版权视频段的深度学习特征训练得到的；

片段转换特征确定模块204，用于根据所述待检测视频的各视频帧的转换特征，分别提取各所述候选拷贝片段中各视频帧的转换特征；

次级视频拷贝检测模块205，用于利用各所述候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各所述候选拷贝片段的视频拷贝检测结果；

拷贝检测结果输出模块206，用于在各所述候选拷贝片段的视频拷贝检测结果中，选取置信度分数最高的视频拷贝检测结果对应的所述待检测视频中的视频段作为目标侵权视频段，选取置信度分数最高的视频拷贝检测结果对应的样本版权视频中的视频段作为目标样本版权视频段。

在一种可能的实施方式中，所述次级视频拷贝检测模块205，具体用于：获取预先生成的样本版权视频的倒排索引矩阵数据，其中，所述倒排索引矩阵数据是由所述样本版权视频的深度学习特征聚类后添加倒排索引得到的；针对各所述候选拷贝片段中的任一视频帧，在所述样本版权视频的倒排索引矩阵数据中对该视频帧的转换特征进行检索，确定与该视频帧的相似度最高的K帧样本版权视频帧，从而分别得到各所述候选拷贝片段中各视频帧的相似度最高的K帧样本版权视频帧；针对任一候选拷贝片段，生成该候选拷贝片段中各视频帧的相似度最高的K帧样本版权视频帧的有向无环图，从而分别得到各所述候选拷贝片段的有向无环图，其中，所述有向无环图仅有一个源点和一个汇点，所述候选拷贝片段的有向无环图中样本版权视频帧的权重为该样本版权视频帧与其对应的候选拷贝片段视频帧的相似度；针对任一候选拷贝片段，将该候选拷贝片段的有向无环图中置信度分数最高的路径，作为该候选拷贝片段的视频拷贝检测结果，从而分别得到各所述候选拷贝片段的视频拷贝检测结果，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

在一种可能的实施方式中，所述候选拷贝片段确定模块202，具体用于：若所述疑似侵权视频段的置信度分数最高小于预设置信度阈值，通过K-Means聚类将所述待检测视频的各视频帧的深度学习特征聚类为两类，得到各所述类的聚类结果，其中，所述类的聚类结果包括该类中起始视频帧及结束视频帧在所述待检测视频中的位置；根据各所述类中起始视频帧及结束视频帧在所述待检测视频中的位置，得到各所述类对应的候选拷贝片段。

在一种可能的实施方式中，参见图13，所述装置还包括：

样本数据获取模块207，用于获取待训练的第二深度学习网络及深度学习特征集，其中，所述深度学习特征集包括多个样本侵权视频段的深度学习特征，各所述样本侵权视频段的深度学习特征均各自标记有其样本侵权视频段所侵权的样本版权视频段的深度学习特征；

学习网络训练模块208，用于在所述深度学习特征集中选取深度学习特征输入到第二深度学习网络中，得到该深度学习特征的预测特征；

网络损失计算模块209，用于计算选取的深度学习特征的预测特征与其样本侵权视频段所侵权的样本版权视频段的深度学习特征的损失，得到第二深度学习网络的损失；

结束条件判断模块210，用于若第二深度学习网络的损失不收敛，返回上述学习网络训练模块208继续运行，直至第二深度学习网络的损失收敛，得到预先训练的第二深度学习网络。

在一种可能的实施方式中，所述初级视频拷贝检测模块201，具体用于：通过预先训练的第一深度学习网络对待检测视频进行特征提取，得到所述待检测视频的各视频帧的深度学习特征；获取预先生成的样本版权视频的倒排索引矩阵数据，其中，所述倒排索引矩阵数据是由所述样本版权视频的深度学习特征聚类后添加倒排索引得到的；针对所述待检测视频中的任一视频帧，在所述样本版权视频的倒排索引矩阵数据中对该视频帧的深度学习特征进行检索，确定与该视频帧的相似度最高的K帧样本版权视频帧，从而分别得到所述待检测视频中各视频帧的相似度最高的K帧样本版权视频帧；生成所述待检测视频中各视频帧的相似度最高的K帧样本版权视频帧的有向无环图，得到所述待检测视频的有向无环图，其中，所述有向无环图仅有一个源点和一个汇点，所述待检测视频的有向无环图中样本版权视频帧的权重为该样本版权视频帧与其对应的待检测视频视频帧的相似度；将所述待检测视频的有向无环图中置信度分数最高的路径对应的所述待检测视频中的视频段，作为疑似侵权视频段，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

在一种可能的实施方式中，参见图14，所述装置还包括：倒排索引矩阵数据生成模块211，用于通过预先训练的第一深度学习网络对样本版权视频进行特征提取，得到所述样本版权视频的二维样本特征矩阵，其中，所述二维样本特征矩阵为所述样本版权视频中多帧样本版权视频帧的特征矩阵的集合；将所述样本特征矩阵进行聚类，得到多个目标类及各所述目标类的聚类中心；针对每个所述目标类及每个所述目标类的聚类中心分别建立倒排索引，得到倒排索引矩阵数据。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器用于执行上述存储器存放的计算机程序时，实现如下步骤：

可选的，参见图15，本申请实施例的电子设备还包括通信接口902和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。

可选的，上述处理器用于执行上述存储器存放的计算机程序时，还能够实现上述任一视频片段检测方法。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一视频片段检测方法。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种视频片段检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用各所述候选拷贝片段中各视频帧的转换特征进行视频拷贝检测，得到各所述候选拷贝片段的视频拷贝检测结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述待检测视频的深度学习特征聚类为两类，分别确定每个类对应的候选拷贝片段，包括：

4.根据权利要求1所述的方法，其特征在于，预先训练第二深度学习网络的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述通过预先训练的第一深度学习网络提取待检测视频的深度学习特征，利用所述待检测视频的深度学习特征进行视频拷贝检测，确定待检测视频中的疑似侵权视频段，包括：

6.根据权利要求2或5所述的方法，其特征在于，预先生成各样本版权视频的倒排索引矩阵数据的步骤包括：

7.一种视频片段检测装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述次级视频拷贝检测模块，具体用于：

9.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一所述的视频片段检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的视频片段检测方法。