CN111738171A

CN111738171A - 视频片段检测方法、装置、电子设备及存储介质

Info

Publication number: CN111738171A
Application number: CN202010591764.8A
Authority: CN
Inventors: 卜琪; 王涛; 李�杰; 王红宇
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-02
Anticipated expiration: 2040-06-24
Also published as: CN111738171B

Abstract

本申请实施例提供了视频片段检测方法、装置、电子设备及存储介质，应用于图像处理技术领域，将多帧时序上连续的视频帧作为一个单位视频段，利用单位视频段的深度学习特征进行比对，相比于利用单帧视频帧进行比对，增加了视频帧之间的联系，并且相比于现有技术中的视觉特征，本申请中的深度学习特征中还增加了时序特征，提高了视频帧之间的关联性，能够增加召回率，从而增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。

Description

视频片段检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及视频片段检测方法、装置、电子设备及存储介质。

背景技术

随着计算视觉技术的发展，特别是深度学习网络的出现，使得计算机自动进行视频侵权检测成为可能。现有技术中，利用预先训练的深度学习网络，提取待检测视频的二维视觉深度学习特征，并与各样本版权视频的二维视觉深度学习特征进行比对，检索出相似的视频帧，从而得到相似的视频片段，并输出这些相似的视频片段，以作为视频侵权判定的证据。

然而，发明人在研究中发现，采用上述检测发法，仅针对单帧视频帧之间的相似性进行分析，忽略了视频中各视频帧之间的联系，从而导致相似的视频片段检索不准确，影响视频侵权判定的准确度。

发明内容

本申请实施例的目的在于提供一种视频片段检测方法、装置、电子设备及存储介质，以实现增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。具体技术方案如下：

第一方面，本申请实施例提供了一种视频片段检测方法，所述方法包括：

通过预先训练的深度学习网络对待检测视频进行特征提取，得到所述待检测视频的各待检测单位视频段的深度学习特征，其中，所述待检测单位视频段包括所述待检测视频中多帧时序上连续的视频帧，针对任一待检测单位视频段，该待检测单位视频段的深度学习特征表示该待检测单位视频段中各视频帧的视觉特征及时序特征；

获取预先生成的样本版权视频的倒排索引矩阵数据，其中，所述倒排索引矩阵数据是由所述样本版权视频的各版权单位视频段的深度学习特征聚类后添加倒排索引得到的，所述版权单位视频段包括所述样本版权视频中多帧时序上连续的视频帧，针对任一版权单位视频段，该版权单位视频段的深度学习特征表示该版权单位视频段中各视频帧的视觉特征及时序特征；

在所述倒排索引矩阵数据中，对所述待检测视频的各待检测单位视频段的深度学习特征进行检索，得到所述待检测视频的目标侵权视频段及所述目标侵权视频段所侵权的目标版权视频段，其中，所述目标侵权视频段包括多个待检测单位视频段，所述目标版权视频段包括多个版权单位视频段。

在一种可能的实施方式中，所述在所述倒排索引矩阵数据中，对所述待检测视频的各待检测单位视频段的深度学习特征进行检索，得到所述待检测视频的目标侵权视频段及所述目标侵权视频段所侵权的目标版权视频段，包括：

针对所述待检测视频中的任一待检测单位视频段，在所述倒排索引矩阵数据中对该待检测单位视频段的深度学习特征进行检索，确定与该待检测单位视频段的相似度最高的K个版权单位视频段，从而分别得到所述待检测视频中各待检测单位视频段的相似度最高的K个版权单位视频段；

将所述待检测视频的各待检测单位视频段的相似度最高的K个版权单位视频段连接为一个有向无环图，其中，所述有向无环图仅有一个源点和一个汇点，所述待检测视频的有向无环图中版权单位视频段的权重表示该版权单位视频段与其对应的待检测单位视频段的相似度；

确定所述有向无环图中置信度分数最高的路径对应的所述待检测视频中的视频段，作为目标侵权视频段；确定所述有向无环图中置信度分数最高的路径对应的所述样本版权视频中的视频段，作为目标版权视频段，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

在一种可能的实施方式中，所述待检测视频中任意时序上相邻的两个待检测单位视频段之间有N帧的视频帧重叠，所述样本版权视频中任意时序上相邻的两个版权单位视频段之间有N帧的视频帧重叠，其中，N为正整数。

在一种可能的实施方式中，预先生成各样本版权视频的倒排索引矩阵数据的步骤包括：

通过预先训练的深度学习网络对样本版权视频进行特征提取，得到所述样本版权视频中各版权单位视频段的深度学习特征；

将所述样本版权视频的各版权单位视频段的深度学习特征转换为二维样本特征矩阵；

将所述二维样本特征矩阵进行聚类，得到多个目标类及各所述目标类的聚类中心；

针对每个所述目标类及每个所述目标类的聚类中心分别建立倒排索引，得到倒排索引矩阵数据。

在一种可能的实施方式中，预先训练深度学习网络的步骤包括：

获取待训练的深度学习网络及样本对集，其中，所述样本对集包括多个样本视频段对，所述样本视频段对包括样本侵权视频段及该样本侵权视频段所侵权的样本版权视频段；

在所述样本对集中选取样本视频段对，将选取的样本视频段对中的样本侵权视频段及样本版权视频段分别输入到深度学习网络中，得到选取的样本侵权视频段中各侵权单位视频段的深度学习特征及选取的样本版权视频段中各版权单位视频段的深度学习特征，其中，所述样本侵权视频段包括多个侵权单位视频段，所述样本版权视频段包括对个版权单位视频段，针对任一侵权单位视频段，该侵权单位视频段的深度学习特征表示该侵权单位视频段中各视频帧的视觉特征及时序特征；

计算选取的样本侵权视频段与样本版权视频段中各时序上对应的单位视频段之间的深度学习特征的损失，得到深度学习网络的损失；

根据深度学习网络的损失，判断深度学习网络是否收敛，若深度学习网络不收敛，返回执行上述步骤：在所述样本对集中选取样本视频段对，将选取的样本视频段对中的样本侵权视频段及样本版权视频段分别输入到深度学习网络中，得到选取的样本侵权视频段中各侵权单位视频段的深度学习特征及选取的样本版权视频段中各版权单位视频段的深度学习特征，直至深度学习网络收敛，得到训练好的深度学习网络。

第二方面，本申请实施例提供了一种视频片段检测装置，所述装置包括：

深度学习特征提取模块，用于通过预先训练的深度学习网络对待检测视频进行特征提取，得到所述待检测视频的各待检测单位视频段的深度学习特征，其中，所述待检测单位视频段包括所述待检测视频中多帧时序上连续的视频帧，针对任一待检测单位视频段，该待检测单位视频段的深度学习特征表示该待检测单位视频段中各视频帧的视觉特征及时序特征；

倒排索引矩阵数据获取模块，用于获取预先生成的样本版权视频的倒排索引矩阵数据，其中，所述倒排索引矩阵数据是由所述样本版权视频的各版权单位视频段的深度学习特征聚类后添加倒排索引得到的，所述版权单位视频段包括所述样本版权视频中多帧时序上连续的视频帧，针对任一版权单位视频段，该版权单位视频段的深度学习特征表示该版权单位视频段中各视频帧的视觉特征及时序特征；

目标侵权视频段确定模块，用于在所述倒排索引矩阵数据中，对所述待检测视频的各待检测单位视频段的深度学习特征进行检索，得到所述待检测视频的目标侵权视频段及所述目标侵权视频段所侵权的目标版权视频段，其中，所述目标侵权视频段包括多个待检测单位视频段，所述目标版权视频段包括多个版权单位视频段。

在一种可能的实施方式中，所述目标侵权视频段确定模块，具体用于：

在一种可能的实施方式中，所述装置还包括倒排索引矩阵数据建立模块，用于：

在一种可能的实施方式中，所述装置还包括深度学习网络训练模块，用于：

根据深度学习网络的损失，判断深度学习网络是否收敛，若深度学习网络不收敛，根据深度学习网络的损失调整深度学习网络的参数，返回执行所述步骤：在所述样本对集中选取样本视频段对，将选取的样本视频段对中的样本侵权视频段及样本版权视频段分别输入到深度学习网络中，得到选取的样本侵权视频段中各侵权单位视频段的深度学习特征及选取的样本版权视频段中各版权单位视频段的深度学习特征，直至深度学习网络收敛，得到预先训练的深度学习网络。

第三方面，本申请实施例提供了一种电子设备，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的视频片段检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的视频片段检测方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频片段检测方法。

本申请实施例提供的视频片段检测方法、装置、电子设备及存储介质，通过预先训练的深度学习网络对待检测视频进行特征提取，得到待检测视频的各待检测单位视频段的深度学习特征，其中，待检测单位视频段包括待检测视频中多帧时序上连续的视频帧，针对任一待检测单位视频段，该待检测单位视频段的深度学习特征表示该待检测单位视频段中各视频帧的视觉特征及时序特征；获取预先生成的样本版权视频的倒排索引矩阵数据，其中，倒排索引矩阵数据是由样本版权视频的各版权单位视频段的深度学习特征聚类后添加倒排索引得到的，版权单位视频段包括样本版权视频中多帧时序上连续的视频帧，针对任一版权单位视频段，该版权单位视频段的深度学习特征表示该版权单位视频段中各视频帧的视觉特征及时序特征；在倒排索引矩阵数据中，对待检测视频的各待检测单位视频段的深度学习特征进行检索，得到待检测视频的目标侵权视频段及目标侵权视频段所侵权的目标版权视频段，其中，目标侵权视频段包括多个待检测单位视频段，目标版权视频段包括多个版权单位视频段。

在本申请实施例中，将多帧时序上连续的视频帧作为一个单位视频段，利用单位视频段的深度学习特征进行比对，相比于利用单帧视频帧进行比对，增加了视频帧之间的联系，并且相比于现有技术中的视觉特征，本申请中的深度学习特征中还提取了时序特征，提高了视频帧之间的关联性，能够增加召回率，从而增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本申请实施例的视频片段检测方法的第一种示意图；

图2为本申请实施例的深度学习网络训练方法的一种示意图；

图3为本申请实施例的倒排索引矩阵数据建立方法的一种示意图；

图4为申请实施例的视频片段检测方法的第二种示意图；

图5为本申请实施例的视频片段检测装置的第一种示意图；

图6为本申请实施例的深度学习特征提取模块执行方法的一种示意图；

图7为本申请实施例的倒排索引矩阵数据获取模块执行方法的一种示意图；

图8为本申请实施例的目标侵权视频段确定模块执行方法的一种示意图；

图9为本申请实施例的视频片段检测装置的第二种示意图；

图10为本申请实施例的视频片段检测装置的第三种示意图；

图11为本申请实施例的视频片段检测装置的第四种示意图；

图12为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中，在进行视频侵权检测时，利用深度学习网络提取待检测视频的二维视觉深度学习特征，并与各样本版权视频的二维视觉深度学习特征进行比对，检索出相似的视频帧，从而得到相似的视频片段。因为现有技术中为单帧视频帧之间的比对，为了防止漏帧的情况，需要密集抽帧，并且为了保证二维视觉深度学习特征的比对质量，二维视觉深度学习特征的数据量需要维持在一个较高的水平，导致数据存储量大。并且现有技术中，仅针对单帧视频帧之间的相似性进行分析，忽略了视频中各视频帧之间的联系，从而导致相似的视频片段检索不准确。

有鉴于此，本申请实施例提供了一种视频片段检测方法，该方法包括：

通过预先训练的深度学习网络对待检测视频进行特征提取，得到上述待检测视频的各待检测单位视频段的深度学习特征，其中，上述待检测单位视频段包括上述待检测视频中多帧时序上连续的视频帧，针对任一待检测单位视频段，该待检测单位视频段的深度学习特征表示该待检测单位视频段中各视频帧的视觉特征及时序特征；

获取预先生成的样本版权视频的倒排索引矩阵数据，其中，上述倒排索引矩阵数据是由上述样本版权视频的各版权单位视频段的深度学习特征聚类后添加倒排索引得到的，上述版权单位视频段包括上述样本版权视频中多帧时序上连续的视频帧，针对任一版权单位视频段，该版权单位视频段的深度学习特征表示该版权单位视频段中各视频帧的视觉特征及时序特征；

在上述倒排索引矩阵数据中，对上述待检测视频的各待检测单位视频段的深度学习特征进行检索，得到上述待检测视频的目标侵权视频段及上述目标侵权视频段所侵权的目标版权视频段，其中，上述目标侵权视频段包括多个待检测单位视频段，上述目标版权视频段包括多个版权单位视频段。

在本申请实施例中，将多帧时序上连续的视频帧作为一个单位视频段，利用单位视频段的深度学习特征进行比对，相比于利用单帧视频帧进行比对，增加了视频帧之间的联系，并且相比于现有技术中的视觉特征，本申请中的深度学习特征中还增加了时序特征，提高了视频帧之间的关联性，能够增加召回率，从而增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。

下面进行具体说明，参见图1，图1为本申请实施例的视频片段检测方法的第一种示意图，该方法包括：

S11，通过预先训练的深度学习网络对待检测视频进行特征提取，得到上述待检测视频的各待检测单位视频段的深度学习特征，其中，上述待检测单位视频段包括上述待检测视频中多帧时序上连续的视频帧，针对任一待检测单位视频段，该待检测单位视频段的深度学习特征表示该待检测单位视频段中各视频帧的视觉特征及时序特征。

本申请实施例的视频片段检测方法可以通过电子设备实现，具体的，该电子设备可以为服务器、个人电话或智能手机等。电子设备的运行环境包括但不限于linux系统、Python(一种跨平台的计算机程序设计语言)2.7、Python3.5、PyTorch(一种机器学习库)1.0、Faiss(一种针对聚类和相似性搜索库)。

待检测视频是指需要验证是否构成侵权的视频。预先训练的深度学习网络用于对视频中各单位视频段的深度学习特征进行提取。通过预先训练的深度学习网络对待检测视频的各待检测单位视频段进行特征提取，得到待检测视频的各待检测单位视频段的深度学习特征。每个待检测单位视频段均可以包括预设数量的视频帧，此处的预设数量可以按照实际情况进行设定，例如可以设置为8帧、16帧或32帧等。其中，若最后一个待检测单位视频段的视频帧不足预设数量，可以在时序上向前选取指定的帧数补足。

待检测单位视频段的深度学习特征既能表达该待检测单位视频段中各视频帧的视觉特性，又能表达该待检测单位视频段中各视频帧的时序特性，待检测单位视频段中各视频帧的时序特性用于表示该待检测单位视频段中视频帧之间的时序关系。具体的，可以将多帧视频帧堆叠起来的3维的待检测单位视频段送入深度学习网络中进行提取特征，其中，此处的堆叠是指将待检测单位视频段中的各视频帧按照时序进行排列，此处的3维包括1维的时间维度及2维的空间维度，1维的时间维度具体表示待检测单位视频段内各视频帧的顺序信息，2维的空间维度具体表示各视频帧中的像素信息。空间维度上可以获得视觉特征，时间维度上可以获得时序特征，经过特征提取后得到的深度学习特征既能表达视觉特性又能表达时序特性。

S12，获取预先生成的样本版权视频的倒排索引矩阵数据，其中，上述倒排索引矩阵数据是由上述样本版权视频的各版权单位视频段的深度学习特征聚类后添加倒排索引得到的，上述版权单位视频段包括上述样本版权视频中多帧时序上连续的视频帧，针对任一版权单位视频段，该版权单位视频段的深度学习特征表示该版权单位视频段中各视频帧的视觉特征及时序特征。

样本版权视频是指具有版权的、需要验证是否被侵权的视频。样本版权视频的倒排索引矩阵数据为预先生成的，可以存储在数据库中，在使用时直接访问数据库即可。样本版权视频的倒排索引矩阵数据是利用样本版权视频中各版权单位视频段的深度学习特征得到的，对样本版权视频的深度学习特征进行聚类，并对聚类后的各视频帧对应的数据添加倒排索引，从而得到倒排索引矩阵数据。

每个版权单位视频段均包括预设数量的视频帧，此处的预设数量可以按照实际情况进行设定，例如可以设置为8帧、16帧或32帧等，但是每个版权单位视频段及每个待检测单位视频段内包含的视频帧的帧数应当相同。版权单位视频段的深度学习特征既能表达该版权单位视频段的视觉特征，又能表达该版权单位视频段的时序特征。版权单位视频段的深度学习特征的具体提取过程可以参见上述待检测单位视频段的深度学习特征的提取过程，此处不再赘述。

S13，在上述倒排索引矩阵数据中，对上述待检测视频的各待检测单位视频段的深度学习特征进行检索，得到上述待检测视频的目标侵权视频段及上述目标侵权视频段所侵权的目标版权视频段，其中，上述目标侵权视频段包括多个待检测单位视频段，上述目标版权视频段包括多个版权单位视频段。

目标侵权视频段是由多个待检测单位视频段组成的，目标版权视频段是由多个版权单位视频段组成的，目标版权视频段的版权单位视频段是由目标侵权视频段的待检测单位视频段检索得到的。在倒排索引矩阵数据中，分别对各待检测单位视频段的深度学习特征进行检索，分别找到与各待检测单位视频段相似的版权单位视频段，从而得到待检测视频中的目标侵权视频段，以及目标侵权视频段所侵权的目标版权视频段。

在一种可能的实施方式中，上述待检测视频中任意时序上相邻的两个待检测单位视频段之间有N帧的视频帧重叠，上述样本版权视频中任意时序上相邻的两个版权单位视频段之间有N帧的视频帧重叠，其中，N为正整数。

同一视频中，任意时序上相邻的两个单位视频段(包括待检测单位视频段及版权单位视频段)之间，存在N帧重复的视频帧。N为正整数，且N小于单位视频段内视频帧的总数量。在一些情况下，视频中最后一个单位视频段与其相邻的单位视频段中视频帧重复的数量时大于N帧的，这是因为当划分至最后一个单位视频段时，若其视频帧的数量不足预设数量，需要在时序上向前选取视频帧进行补足。

可选的，对于一个视频V，分别从第{L*k,k＝0,1,2……M}帧开始(不包括该帧)，向后选取L+N帧得到各单位视频段，也就是说两个相邻的单位视频段之间都有N帧的重叠，其中，M为单位视频段的数量，L+N为一个单位视频段内包含的视频帧帧数。其中，若第M个单位视频段中视频帧的总数不足L+N帧，可以在时序上向前选取视频帧补足至L+N帧。实际情况中，视频中是没有第0帧视频帧的，此处是为了方便计算，假设第1帧视频帧前为第0帧视频帧。当然，也可以在本申请实施例的基础之上，通过相应的数学变换得到各单位视频段，例如对于一个视频V，分别从第{L*k+1,k＝0,1,2……M}帧开始(包括该帧)，向后选取L+N-1帧得到各单位视频段，均在本申请的保护范围内。

具体的，对于一个样本版权视频，假设其包括100帧视频帧，N＝8，每个版权单位视频段包括32帧视频帧，则从分别从第0帧、24帧、48帧、72帧开始(不包括该帧)，向后选取32帧视频帧作为一个版权单位视频段，得到版权单位视频段一，包括样本版权视频中1-32帧的视频帧；得到版权单位视频段二，包括样本版权视频中25-56帧的视频帧；得到版权单位视频段三，包括样本版权视频中49-80帧的视频帧；得到版权单位视频段四，包括样本版权视频中69-100帧的视频帧。其中，按照计算规则版权单位视频段四从第73帧开始到100帧，仅有28帧，所以需要向前在选取4帧以补足32帧，因此版权单位视频段四包括样本版权视频中69-100帧的视频帧。

在本申请实施例中，相邻单位视频段之间存在视频帧的重叠，能够增加单位视频段之间的联系，提高了视频帧之间的关联性，能够增加召回率，从而增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。

在一种可能的实施方式中，参见图2，预先训练深度学习网络的步骤包括：

S21，获取待训练的深度学习网络及样本对集，其中，上述样本对集包括多个样本视频段对，上述样本视频段对包括样本侵权视频段及该样本侵权视频段所侵权的样本版权视频段。

待训练的深度学习网络为任意用于提取三维深度学习特征的网络，例如，可以采用I3D网络(Inflated 3D ConvNet，膨胀三维卷积网络)及池化层组成的复合网络，具体的，可在I3D网络的全连接层后面增加一个自适应最大池化层：Adaptive Max Pool 3D。

S22，在上述样本对集中选取样本视频段对，将选取的样本视频段对中的样本侵权视频段及样本版权视频段分别输入到深度学习网络中，得到选取的样本侵权视频段中各侵权单位视频段的深度学习特征及选取的样本版权视频段中各版权单位视频段的深度学习特征，其中，上述样本侵权视频段包括多个侵权单位视频段，上述样本版权视频段包括对个版权单位视频段，针对任一侵权单位视频段，该侵权单位视频段的深度学习特征表示该侵权单位视频段中各视频帧的视觉特征及时序特征。

将样本侵权视频段划分为多个侵权单位视频段，将样本版权视频段划分为多个版权单位视频段，其划分方法可以参见上述单位视频段的划分方法。利用深度学习网络分别对各侵权单位视频段及各版权单位视频段进行特征提取，得到各侵权单位视频段的深度学习特征及各版权单位视频段的深度学习特征。深度学习特征包括视觉特征及时序特征。侵权单位视频段的深度学习特征的具体提取过程可以参见上述待检测单位视频段的深度学习特征的提取过程，此处不再赘述。

例如，对于样本侵权视频段及样本版权视频段，分别从第{L*k,k＝0,1,2……M}帧开始(不包括该帧)，向后选取L+N帧得到各相应的单位视频段，也就是说两个相邻的单位视频段之间都有N帧的重叠，其中，M为单位视频段的数量，L+N为一个单位视频段内包含的视频帧帧数。将各单位视频段分别输入到深度学习网络中，得到各单位视频段的包括时序特征与视觉特征的深度学习特征。单位视频段的深度学习特征可以通过特征矩阵的形式进行表示，例如，池化后特征在T*W*H维度的大小为2*1*1，在C维度上的大小为1024，因此每单位视频段能够获得一个2048维特征

其中，C表示特征通道数，T表示时间维度大小，W*H表示空间维度大小。

S23，计算选取的样本侵权视频段与样本版权视频段中各时序上对应的单位视频段之间的深度学习特征的损失，得到深度学习网络的损失。

侵权单位视频段及版权单位视频段的划分方法相同，因此时序上相同的侵权单位视频段与版权单位视频段相互对应，即样本侵权视频段中的第i个侵权单位视频段对应样本版权视频段中的第i个版权单位视频段。分别计算选取的样本侵权视频段与样本版权视频段中对应的单位视频段之间的深度学习特征的损失，例如欧式距离等，得到深度学习网络的损失。

S24，根据深度学习网络的损失，判断深度学习网络是否收敛，若深度学习网络不收敛，根据深度学习网络的损失调整深度学习网络的参数，返回执行上述步骤：在上述样本对集中选取样本视频段对，将选取的样本视频段对中的样本侵权视频段及样本版权视频段分别输入到深度学习网络中，得到选取的样本侵权视频段中各侵权单位视频段的深度学习特征及选取的样本版权视频段中各版权单位视频段的深度学习特征，直至深度学习网络收敛，得到预先训练的深度学习网络。

若深度学习网络不收敛，则根据深度学习网络的损失调整深度学习网络的参数，并返回S22继续执行；若深度学习网络收敛，则训练结束，得到预先训练的深度学习网络。本领域技术人员可以理解的是，深度学习网络收敛是一种理想的训练结束的情况，在实际训练过程中，由于样本数量的限制以及网络本身的限制，深度学习网络训练结束的条件还可以为达到预设的训练次数或深度学习网络拟合等，其均在本申请的保护范围内。

在本申请实施例中，给出了深度学习网络的训练方法，利用深度学习网络提取待检测视频的包括时序特征与视觉特征的深度学习特征，从而在深度学习特征中加强了各视频帧之间的联系，能够增加召回率，提升检测指标F1值，能够增加侵权判定过程中检测出的视频片段的准确性，从而增加视频侵权判定的准确度。

在一种可能的实施方式中，参见图3，上述在上述倒排索引矩阵数据中，对上述待检测视频的各待检测单位视频段的深度学习特征进行检索，得到上述待检测视频的目标侵权视频段及上述目标侵权视频段所侵权的目标版权视频段，包括：

S131，针对上述待检测视频中的任一待检测单位视频段，在上述倒排索引矩阵数据中对该待检测单位视频段的深度学习特征进行检索，确定与该待检测单位视频段的相似度最高的K个版权单位视频段，从而分别得到上述待检测视频中各待检测单位视频段的相似度最高的K个版权单位视频段。

对于任一待检测单位视频段的深度学习特征，在倒排索引矩阵数据中检索得到与其相似度最高的K个版权单位视频段，在各待检测单位视频段均检索完毕后，分别得到各待检测单位视频段的相似度最高的K个版权单位视频段，例如，待检测单位视频段的数量为M时，则得到的M×K个结果。其中，K可以根据实际情况自定义设置，例如，K可以设置为3、5、7或10等。

S132，将上述待检测视频的各待检测单位视频段的相似度最高的K个版权单位视频段连接为一个有向无环图，其中，上述有向无环图仅有一个源点和一个汇点，上述待检测视频的有向无环图中版权单位视频段的权重表示该版权单位视频段与其对应的待检测单位视频段的相似度。

将查找到的M×K个版权单位视频段连接成只有一个源点和一个汇点的有向无环图。具体的，设定一个源点和一个汇点，对于检测得到的M×K个版权单位视频段(在有向无环图中也称为节点)来说，每个节点都对应有待检测视频的时段t1和样本版权视频的时段t2，每个节点在与其他节点连接时，只能与t1大于自身t1、且t2大于自身t2的节点连接，节点的权重(或等效为连接线的权重)为该节点与其对应的待检测单位视频段的相似度。

S133，确定上述有向无环图中置信度分数最高的路径对应的上述待检测视频中的视频段，作为目标侵权视频段；确定上述有向无环图中置信度分数最高的路径对应的上述样本版权视频中的视频段，作为目标版权视频段，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关，该路径上所有样本版权视频帧权重越高，则该路径的置信度分数也就越大。具体的，可以直接将路径上所有样本版权视频帧权重的和作为该路径的置信度分数。

在本申请实施例中，利用倒排索引矩阵数据进行特征检索，能够有效增加特征比对的效率，从而提高整体的速度。利用有向无环图来确定目标侵权视频段及目标样本视频段，能够有效增加比对的准确性，从而增加侵权判定过程中检测出的视频片段的准确性，增加视频侵权判定的准确度。

在一种可能的实施方式中，参见图4，预先生成各样本版权视频的倒排索引矩阵数据的步骤包括：

S31，通过预先训练的深度学习网络对样本版权视频进行特征提取，得到上述样本版权视频中各版权单位视频段的深度学习特征。

版权单位视频段的深度学习特征既能表达该版权单位视频段的视觉特征，又能表达该版权单位视频段的时序特征，深度学习网络的训练方法可参见图2的训练方法，此处不再赘述。

S32，将上述样本版权视频的各版权单位视频段的深度学习特征转换为二维样本特征矩阵。

将样本版权视频的各版权单位视频段的深度学习特征，拼接一个二维样本特征矩阵。具体的，将各版权单位视频段的深度学习特征

拼接成二维M*N的特征矩阵

其中，M表示视频帧特征维度，N表示所有版权单位视频段的数量，

表示第i个版权单位视频段的深度学习特征，F为版权单位视频段的深度学习特征的集合。

S33，将上述二维样本特征矩阵进行聚类，得到多个目标类及各上述目标类的聚类中心。

此处的聚类方法可以按照实际情况自定义选取，例如，可以对样本特征矩阵中各帧的特征矩阵进行K-Means聚类，获得n个Centriods(聚类中心)。

S34，针对每个上述目标类及每个上述目标类的聚类中心分别建立倒排索引，得到倒排索引矩阵数据。

针对每一类建立倒排索引，并对每个聚类中心建立倒排索引，得到倒排索引矩阵数据。

在本申请实施例中，给出了排索引矩阵数据的建立过程，利用倒排索引矩阵数据进行特征检索，能够有效增加特征比对的效率，从而提高整体的速度。

本申请实施例还提供了一种视频片段检测装置，参见图5，该装置包括：

三维卷积特征提取模块101，检索模块102，时间对齐模块103。

三维卷积特征提取模块101用于采集输入的视频中各单位视频段的深度学习特征，此处的深度学习特征即能表达时序特征又能表达视觉特征。

具体的，例如图6所示，可以对待检测视频进行逐帧抽帧，并生成各视频的标签，其中，视频帧的标签用于唯一标识视频帧。分别从第{L*k,k＝0,1,2……M}帧开始(不包括该帧)，向后选取L+N帧得到各相应的待检测单位视频段，也就是说两个相邻的待检测单位视频段之间都有N帧的重叠，其中，M为待检测单位视频段的数量，L+N为一个待检测单位视频段内包含的视频帧帧数。将各待检测单位视频段分别输入到深度学习网络中，分别得到各待检测单位视频段的同时包括有时序特征与视觉特征的深度学习特征。分别确定各待检测单位视频段的深度学习特征的标签。其中，待检测单位视频段的深度学习特征的标签为该待检测单位视频段内各视频帧的标签的集合。深度学习网络的架构可以为在I3D网络的全连接层后面增加一个自适应最大池化层。单位视频段的深度学习特征可以通过特征矩阵的形式进行表示，例如，池化后的特征在T*W*H维度的大小为2*1*1，在C维度上的大小为1024，因此每单位视频段能够获得一个2048维特征

检索模块102用于在预先生成的样本版权视频的倒排索引矩阵数据中，对待检测视频的各待检测单位视频段的深度学习特征进行检索，分别得到每个待检测单位视频段的相似度最高的K个版权单位视频段。

具体的，例如图7所示，针对待检测视频中的任一待检测单位视频段，在倒排索引矩阵数据中对该待检测单位视频段的深度学习特征进行检索，确定与该待检测单位视频段的相似度最高的K个版权单位视频段，从而分别得到待检测视频中各待检测单位视频段的相似度最高的K个版权单位视频段。

时间对齐模块103用于将同一待检测视频的所有待检测单位视频段的相似度最高的K个版权单位视频段，连接为一个有向无环图，并根据该有向无环图确定待检测视频的目标侵权视频段及目标侵权视频段所侵权的目标版权视频段。

具体的，例如图8所示，将待检测视频的各待检测单位视频段的相似度最高的K个版权单位视频段连接为一个仅有一个源点和一个汇点有向无环图，有向无环图中各节点的权重为该节点表示的版权单位视频段与其对应的待检测单位视频段的相似度，其中，待检测单位视频段与其检索得到的相似度最高的K个版权单位视频段相互对应。计算分别计算每个路径中节点的权重的和，作为各路径的置信度分数。确定有向无环图中的置信度分数最高的路径对应的待检测视频中的视频段，作为目标侵权视频段；确定有向无环图中的置信度分数最高的路径对应的样本版权视频中的视频段，作为目标版权视频段。其中，目标侵权视频段与目标版权视频段即为时间对齐结果。

本申请实施例还提供了一种视频片段检测装置，参见图9，该装置包括：

深度学习特征提取模块201，用于通过预先训练的深度学习网络对待检测视频进行特征提取，得到上述待检测视频的各待检测单位视频段的深度学习特征，其中，上述待检测单位视频段包括上述待检测视频中多帧时序上连续的视频帧，针对任一待检测单位视频段，该待检测单位视频段的深度学习特征表示该待检测单位视频段中各视频帧的视觉特征及时序特征；

倒排索引矩阵数据获取模块202，用于获取预先生成的样本版权视频的倒排索引矩阵数据，其中，上述倒排索引矩阵数据是由上述样本版权视频的各版权单位视频段的深度学习特征聚类后添加倒排索引得到的，上述版权单位视频段包括上述样本版权视频中多帧时序上连续的视频帧，针对任一版权单位视频段，该版权单位视频段的深度学习特征表示该版权单位视频段中各视频帧的视觉特征及时序特征；

目标侵权视频段确定模块203，用于在上述倒排索引矩阵数据中，对上述待检测视频的各待检测单位视频段的深度学习特征进行检索，得到上述待检测视频的目标侵权视频段及上述目标侵权视频段所侵权的目标版权视频段，其中，上述目标侵权视频段包括多个待检测单位视频段，上述目标版权视频段包括多个版权单位视频段。

在一种可能的实施方式中，上述目标侵权视频段确定模块203，具体用于：

针对上述待检测视频中的任一待检测单位视频段，在上述倒排索引矩阵数据中对该待检测单位视频段的深度学习特征进行检索，确定与该待检测单位视频段的相似度最高的K个版权单位视频段，从而分别得到上述待检测视频中各待检测单位视频段的相似度最高的K个版权单位视频段；

将上述待检测视频的各待检测单位视频段的相似度最高的K个版权单位视频段连接为一个有向无环图，其中，上述有向无环图仅有一个源点和一个汇点，上述待检测视频的有向无环图中版权单位视频段的权重表示该版权单位视频段与其对应的待检测单位视频段的相似度；

确定上述有向无环图中置信度分数最高的路径对应的上述待检测视频中的视频段，作为目标侵权视频段；确定上述有向无环图中置信度分数最高的路径对应的上述样本版权视频中的视频段，作为目标版权视频段，其中，针对任一路径，该路径的置信度分数与该路径上所有样本版权视频帧权重的和正相关。

在一种可能的实施方式中，参见图10，上述装置还包括倒排索引矩阵数据建立模块204，用于：

通过预先训练的深度学习网络对样本版权视频进行特征提取，得到上述样本版权视频中各版权单位视频段的深度学习特征；

将上述样本版权视频的各版权单位视频段的深度学习特征转换为二维样本特征矩阵；

将上述二维样本特征矩阵进行聚类，得到多个目标类及各上述目标类的聚类中心；

针对每个上述目标类及每个上述目标类的聚类中心分别建立倒排索引，得到倒排索引矩阵数据。

在一种可能的实施方式中，参见图11，上述装置还包括深度学习网络训练模块205，用于：

获取待训练的深度学习网络及样本对集，其中，上述样本对集包括多个样本视频段对，上述样本视频段对包括样本侵权视频段及该样本侵权视频段所侵权的样本版权视频段；

在上述样本对集中选取样本视频段对，将选取的样本视频段对中的样本侵权视频段及样本版权视频段分别输入到深度学习网络中，得到选取的样本侵权视频段中各侵权单位视频段的深度学习特征及选取的样本版权视频段中各版权单位视频段的深度学习特征，其中，上述样本侵权视频段包括多个侵权单位视频段，上述样本版权视频段包括对个版权单位视频段，针对任一侵权单位视频段，该侵权单位视频段的深度学习特征表示该侵权单位视频段中各视频帧的视觉特征及时序特征；

根据深度学习网络的损失，判断深度学习网络是否收敛，若深度学习网络不收敛，根据深度学习网络的损失调整深度学习网络的参数，返回执行上述步骤：在上述样本对集中选取样本视频段对，将选取的样本视频段对中的样本侵权视频段及样本版权视频段分别输入到深度学习网络中，得到选取的样本侵权视频段中各侵权单位视频段的深度学习特征及选取的样本版权视频段中各版权单位视频段的深度学习特征，直至深度学习网络收敛，得到预先训练的深度学习网络。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器用于执行上述存储器存放的计算机程序时，实现如下步骤：

可选的，参见图12，本申请实施例的电子设备还包括通信接口902和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。

可选的，上述处理器用于执行上述存储器存放的计算机程序时，还能够实现上述任一视频片段检测方法。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一视频片段检测方法。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种视频片段检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述在所述倒排索引矩阵数据中，对所述待检测视频的各待检测单位视频段的深度学习特征进行检索，得到所述待检测视频的目标侵权视频段及所述目标侵权视频段所侵权的目标版权视频段，包括：

3.根据权利要求1所述的方法，其特征在于，所述待检测视频中任意时序上相邻的两个待检测单位视频段之间有N帧的视频帧重叠，所述样本版权视频中任意时序上相邻的两个版权单位视频段之间有N帧的视频帧重叠，其中，N为正整数。

4.根据权利要求1所述的方法，其特征在于，预先生成各样本版权视频的倒排索引矩阵数据的步骤包括：

5.根据权利要求1所述的方法，其特征在于，预先训练深度学习网络的步骤包括：

6.一种视频片段检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述目标侵权视频段确定模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括倒排索引矩阵数据建立模块，用于：

9.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-5任一所述的视频片段检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的视频片段检测方法。