CN111444826A

CN111444826A - 视频检测方法、装置、存储介质及计算机设备

Info

Publication number: CN111444826A
Application number: CN202010218970.4A
Authority: CN
Inventors: 方杨; 徐敘遠; 杨喻茸; 龚国平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-24
Anticipated expiration: 2040-03-25
Also published as: CN111444826B

Abstract

本申请实施例公开了一种视频检测方法、装置、存储介质及计算机设备，其中，该方法包括：从待检测视频中获取目标视频图像，然后检测目标视频图像的显著区域和显著区域对应的显著程度，并根据显著区域和显著区域对应的显著程度，提取目标视频图像的全局特征和细节特征，接着根据全局特征和所述细节特征，生成待检测视频的视频指纹特征，最后将视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配，可以有效识别具有边框、黑边、毛玻璃等复杂场景的视频以及背景相似而主体不同的视频，提升视频识别的准确率。

Description

视频检测方法、装置、存储介质及计算机设备

技术领域

本申请涉及计算机技术领域，具体涉及一种视频检测方法、装置、存储介质及计算机设备。

背景技术

随着互联网计算的发展以及短视频业务飞速发展，视频生产者越来越多，导致视频的内容越来越复杂。而短视频中往往具有较多边框、黑边、毛玻璃的复杂场景，或者背景相似而主体不同的视频。

在目前的视频识别技术中，大部分采用深度学习网络来进行视频识别，但是目前的网络模型对复杂场景或背景相似的短视频很难有效识别。

发明内容

本申请实施例提供一种视频检测方法、装置、存储介质及计算机设备，可以有效识别具有边框、黑边、毛玻璃等复杂场景的视频以及背景相似而主体不同的视频，提升视频识别的准确率率，降低视频库中的视频重复率，减少数据存储成本。

本申请实施例提供了一种视频检测方法，所述方法包括：

从待检测视频中获取目标视频图像；

检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；

根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征；

根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征；

将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。

本申请实施例还提供一种视频检测装置，所述装置包括：

获取单元，用于从待检测视频中获取目标视频图像；

检测单元，用于检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；

提取单元，用于根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征；

生成单元，用于根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征；

处理单元，用于将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。

在一些实施例中，所述检测单元，具体用于通过训练后的指纹提取模型中的显著区域检测模块，检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；

所述提取单元，具体用于根据所述显著区域和所述显著区域对应的显著程度，通过训练后的指纹提取模型中的全局特征提取模块和细节特征提取模块，对应提取所述目标视频图像的全局特征和细节特征；

其中，所述训练后的指纹提取模型为采用从训练样本集中获取的三元组样本图像进行训练后得到的模型，所述三元组样本图像包括类别相同的第一样本图像和第二样本图像，以及类别与所述第一样本图像不同的第三样本图像。

在一些实施例中，所述检测单元，包括：

第一训练子单元，用于将所述三元组样本图像输入所述显著区域检测模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的显著区域检测模块；

检测子单元，用于通过所述训练后的显著区域检测模块，检测所述目标视频图像的显著区域；

输出子单元，用于控制所述训练后的显著区域检测模块输出所述显著区域的权重矩阵，以得到所述显著区域对应的显著程度。

在一些实施例中，所述第一训练子单元，还用于：

根据裁剪处理、旋转处理和滤镜处理中的任一种或多种处理方式，随机对所述三元组样本图像进行图像处理；

将处理后的所述三元组样本图像输入所述显著区域检测模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的显著区域检测模块。

在一些实施例中，所述提取单元，包括：

第一提取子单元，用于通过所述训练后的全局特征提取模块，提取所述目标视频图像的原始特征；

加权子单元，用于通过所述训练后的全局特征提取模块，将所述显著区域对应的显著程度与所述原始特征进行加权，以得到所述目标视频图像的中间层特征；

第二提取子单元，用于通过所述训练后的全局特征提取模块，从所述中间层特征中提取所述目标视频图像的全局特征；

第三提取子单元，用于通过所述训练后的细节特征提取模块，从所述中间层特征和所述全局特征中提取所述目标视频图像的细节特征。

在一些实施例中，所述加权子单元，用于将所述显著区域对应的显著程度与所述原始特征输入所述训练后的全局特征提取模块中进行加权，通过提高所述目标视频图像中所述显著区域对应的权重值，及降低所述目标视频图像中的非显著区域的权重值，得到所述目标视频图像的中间层特征，其中所述非显著区域为所述目标视频图像中所述显著区域之外的区域。

在一些实施例中，所述第三提取子单元，用于采用自顶向下的连接方式，将所述全局特征输入所述训练后的细节特征提取模块的深层中进行处理，以及将所述中间层特征输入所述训练后的细节特征提取模块的浅层中进行处理，以提取所述目标视频图像的细节特征。

在一些实施例中，所述第三提取子单元，用于：

将所述三元组样本图像输入所述全局特征提取模块中进行处理，以得到所述三元组样本图像中每一所述样本图像的中间层特征和全局特征；

将所述三元组样本图像中每一所述样本图像的中间层特征和全局特征输入所述细节特征提取模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的细节特征提取模块；

根据所述训练后的细节特征提取模块，从所述目标视频图像的中间层特征和全局特征中提取所述目标视频图像的细节特征。

在一些实施例中，所述第三提取子单元，用于所述将所述三元组样本图像中每一所述样本图像的中间层特征和全局特征输入所述细节特征提取模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的细节特征提取模块时，具体包括：

基于所述三元组样本图像中每一所述样本图像的中间层特征和全局特征，训练所述细节特征提取模块中的三元损失函数，以更新所述细节特征提取模块的模块参数，生成训练后的细节特征提取模块。

在一些实施例中，所述处理单元，包括：

计算子单元，用于通过计算所述视频指纹特征与特征数据库中的模板指纹特征之间的欧式距离来进行相似度匹配；

第一确定子单元，用于若所述欧式距离小于预设阈值，则确定所述目标视频图像为相似图像；

第二确定子单元，用于若所述待检测视频中的相似图像的数量大于预设数量，则将所述待检测视频确定为相似视频。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的视频检测方法中的步骤。

本申请实施例还提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的视频检测方法中的步骤。

本申请实施例通过从待检测视频中获取目标视频图像，然后检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，并根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征，接着根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征，最后将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。本申请实施例通过结合图像的显著区域来提取待检测视频的全局特征和所述细节特征，然后与预设的模板指纹特征进行相似度匹配，可以有效识别具有边框、黑边、毛玻璃等复杂场景的视频以及背景相似而主体不同的视频，提升视频识别的准确率，降低视频库中的视频重复率，减少数据存储成本，便于提供原创视频版权保护，以及打击盗版视频。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为申请实施例提供的视频检测方法的应用场景示意图。

图2为本申请实施例提供的指纹提取模型的框架示意图。

图3为本申请实施例提供的视频检测方法的流程示意图。

图4为本申请实施例提供的视频检测方法的另一应用场景示意图。

图5为本申请实施例提供的视频检测方法的另一流程示意图。

图6为本申请实施例提供的视频检测方法的又一应用场景示意图。

图7为本申请实施例提供的视频检测方法的又一流程示意图。

图8为本申请实施例提供的视频检测方法的再一流程示意图。

图9为本申请实施例提供的视频检测装置的结构示意图。

图10为本申请实施例提供的视频检测装置的另一结构示意图。

图11为本申请实施例提供的视频检测装置的又一结构示意图。

图12为本申请实施例提供的视频检测装置的再一结构示意图。

图13为本申请实施例提供的计算机设备的结构示意图。

图14为本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频检测方法、装置、计算机设备和存储介质。具体地，本申请实施例的视频检测方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例采用机器学习的方式来训练指纹提取模型，使得训练后的指纹提取模型来实现计算机视觉技术，对用户上传的待检测视频进行有效识别。

请参阅图1及图2，图1为本申请实施例提供的视频检测方法的应用场景示意图，图2为本申请实施例提供的指纹提取模型的框架示意图。以该视频检测方法由计算机设备100执行为例，其中，该计算机设备100可以为终端或者服务器等设备，该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机(PC，PersonalComputer)等设备，终端还可以包括客户端，该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。该视频检测方法在由计算机设备100执行的过程中，包含了指纹提取模型10的训练过程和利用指纹提取模型10检测待测视频的检测过程。本申请实施例提供的指纹提取模型10为深度学习模型，该指纹提取模型10可以包括显著区域检测模块A、全局特征提取模块B和细节特征提取模块C。在进行模型的训练时，计算机设备100预先采用从训练样本集中获取的三元组样本图像对该指纹提取模型10进行学习训练，具体为对该指纹提取模型10中的显著区域检测模块A、全局特征提取模块B和细节特征提取模块C进行学习训练，以得到训练后的指纹提取模型10。在进行模型的检测时，用户可以通过计算机设备100中安装的视频客户端、浏览器客户端或即时通信客户端上传待检测视频，计算机设备100获取用户上传的待检测视频后，从待检测视频中获取目标视频图像，然后通过训练后的显著区域检测模块A检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，并根据所述显著区域和所述显著区域对应的显著程度，通过训练后的全局特征提取模块B和细节特征提取模块C，对应提取所述目标视频图像的全局特征和细节特征，接着根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征，最后将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配，以得到匹配结果，最后根据匹配结果识别所述待检测视频是否为相似视频。本申请实施例结合图像的显著区域来提取待检测视频的全局特征和所述细节特征，然后与预设的模板指纹特征进行相似度匹配，可以有效识别具有边框、黑边、毛玻璃等复杂场景的视频以及背景相似而主体不同的视频，提升视频识别的准确率，降低视频库中的视频重复率，减少数据存储成本，便于提供原创视频版权保护，以及打击盗版视频。

如图2所示，在特征入库阶段，对于需要特征入库的样本视频进行抽帧采样，得到视频的多个样本图像，对于每一个样本图像，通过训练后的指纹提取模型中的显著区域检测模块A检测每一样本图像的显著区域和所述显著区域对应的显著程度，并根据所述显著区域和所述显著区域对应的显著程度，通过训练后的全局特征提取模块B和细节特征提取模块C，对应提取每一样本图像的全局特征和细节特征，并将提取到的全局特征和细节特征作为模板指纹特征加入到特征数据库中。

在特征匹配阶段，对于需要进行特征匹配的待检测视频进行如特征入库阶段相同的抽帧采样、显著区域的检测、全部特征和细节特征的特征提取步骤，即从待检测视频中进行抽帧采样，以得到待检测视频的目标视频图像，然后通过训练后的显著区域检测模块A检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，并根据所述显著区域和所述显著区域对应的显著程度，通过训练后的全局特征提取模块B和细节特征提取模块C，对应提取所述目标视频图像的全局特征和细节特征，将提取到的全部特征和细节特征作为待检测视频的视频指纹特征，最后对提取到的视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配，以得到匹配结果，根据匹配结果以识别待检测视频。

需要说明的是，指纹提取模型的训练过程、实际检测过程可以在服务器中完成，也可以在终端中完成。当指纹提取模型的训练过程、实际检测过程都在服务器中端完成时，需要使用训练后的指纹提取模型时，可以将待检测视频中获取的目标视频图像输入到服务器，服务器实际检测(特征匹配)完成后，将得到的匹配结果发送至终端，终端再根据匹配结果确定待检测视频是否为相似视频。

当指纹提取模型的训练过程、实际检测过程都在终端中完成时，需要使用训练后的指纹提取模型时，可以将待检测视频中获取的目标视频图像输入到终端，终端实际检测(特征匹配)完成后，终端根据匹配结果确定待检测视频是否为相似视频。

当指纹提取模型的训练过程在服务器中完成，指纹提取模型的实际检测过程在终端中完成时，需要使用训练后的指纹提取模型时，可以将待检测视频中提取的目标视频图像输入到终端，终端实际检测完成后，终端根据匹配结果确定待检测视频是否为相似视频。可选的，可以将服务器中训练好的指纹提取模型文件(model文件)移植到终端上，若需要对输入待检测视频进行检测(特征匹配)，则将待检测视频输入到训练好的指纹提取模型文件(model文件)，通过计算即可得到匹配结果。

其中，利用训练后的指纹提取模型进行特征入库和特征匹配的过程可以在服务器中完成也可以在终端中完成。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

本申请各实施例提供了一种视频检测方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以视频检测方法由服务器执行为例来进行说明。

一种视频检测方法，包括：从待检测视频中获取目标视频图像，然后检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，并根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征，接着根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征，最后将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。

请参阅图3至图8，图3、图5、图7和图8均为本申请实施例提供的视频检测方法的流程示意图，图4和图6为本申请实施例提供的视频检测方法的应用场景示意图。该视频检测方法的具体流程可以如下：

步骤101，从待检测视频中获取目标视频图像。

目前，单纯基于深度卷积神经网络提取特征的指纹方案可以基于整个视频画面提取指纹特征，但随着越来越复杂的短视频场景，该特征的区分度越来越困难。如下图4所示，视频a和视频b具有相同的视频内容，但是由于其边框的原因，导致主体内容只占了整个画面的1/3，并且无关内容的差异很大，目前单纯基于深度卷积神经网络提取特征的指纹方案很难检测出这种内容重复的视频。另一方面，对于背景相同，但是主体不同的视频也难以进行区分，例如图4中的视频c和视频d，由于背景相同，导致画面的整体内容非常相似，上述单纯基于深度卷积神经网络提取特征的指纹方案很难获取人物位置的区分信息。因此很有必要针对这种复杂场景或者背景相似而主体不同的视频采用一种新的指纹提取模型进行视频检测和识别。

首先，对待检测视频进行抽帧采样，例如，可以为随机的从所述待检测视频中抽取出一个或多个目标视频图像。在抽帧采用过程中还可以结合待检测视频的视频时长、镜头被切换的场景数以及每个场景片段的片段时长来抽取预设数量的目标视频图像帧。

步骤102，检测所述目标视频图像的显著区域和所述显著区域对应的显著程度。

具体的，可以通过训练后的指纹提取模型中的显著区域检测模块，检测所述目标视频图像的显著区域和所述显著区域对应的显著程度。

在一些实施例中，如图5所示，步骤102可以通过步骤1021至步骤1023来实现，具体为：

步骤1021，将三元组样本图像输入显著区域检测模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的显著区域检测模块。

在一些实施例中，所述将所述三元组样本图像输入所述显著区域检测模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的显著区域检测模块，还包括：

例如，在训练样本集构建过程中，由于显著区域检测模块需要检测出视频中的主体内容，去除无关信息的干扰，因此本申请实施例可以从一系列无标签的视频帧中构建三元组样本图像，三元组样本图像包含一对相似图像对和一张无关图像，例如，该三元组样本图像包括第一样本图像、第二样本图像和第三样本图像，其中第一样本图像和第二样本图像的类别相同，第一样本图像与第三样本图像的类别不同。该三元组样本图像对中的相似图像对可以由一张无边框图像和一张边框图像构成，用于训练显著区域检测模块，以检测图像中的重要内容区域，该重要内容区域可以称为显著区域。同时在训练中，可以随机对作为训练数据的三元组样本图像增加裁剪、旋转、滤镜等攻击，用于提升模型的鲁棒性。

例如，如图2所示，显著区域检测模块A主要由注意力模型(Attention Model)构成。该注意力模型包括卷积层A1、下采样层A2和上采样层A3，其中，上采样层A3的后面还连接有其他的卷积层。其中，下采样层用于压缩特征的信息；上采样层用于恢复特征的大小，使得上采样层输出的参数与下采样层之前输入的参数大小一致；而卷积层用于提取卷积特征。由于该注意力模型的网络模型小，并且不会改变网络的输入大小，因此该注意力模型可以很方便的和其他特征提取网络结合。例如，其他特征提取网络可以为GoogleNet、ResNet、VGG等网络。

例如，显著区域可以指视频中用户感兴趣目标所在的区域，比如人体、车辆、建筑等区别于视频的环境背景，具有更有价值的特征信息。其中，显著区域只是图像中的一些区域，本身并不包含特征。

在显著区域检测模块中，一般通过有监督或无监督的方法学习图像中用户感兴趣的区域，有监督的方式即采用标注出显著区域的图像进行训练；无监督的方式即给予模型训练样本对，如图4中的视频样例，训练样本对视频a和视频b给予相同的标签，训练样本对视频c和视频d给予不同的标签，让模型学习对预测结果影响最大的区域，即确定为显著区域。

步骤1022，通过所述训练后的显著区域检测模块，检测所述目标视频图像的显著区域。

例如，通过注意力模型组成的显著区域检测模块，可以检测到目标视频图像的显著区域。

步骤1023，控制所述训练后的显著区域检测模块输出所述显著区域的权重矩阵，以得到所述显著区域对应的显著程度。

例如，通过注意力模型组成的显著区域检测模块，检测到目标视频图像的显著区域后，对应输出显著区域对应位置的显著程度，如图6所示，目标视频图像P上的视频主体内容位于T区，该目标视频图像P经过注意力模型检测后，得到特征图P’，特征图P’的显著区域主要位于T’区内，T’区内颜色较深的色块代表显著区域对应位置的显著程度。结合其他特征提取网络，可以获得图像的显著特征，从而得到更加鲁棒的特征。

其中，所述显著区域对应的显著程度可以用权重矩阵来表示。

步骤103，根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征。

具体的，根据所述显著区域和所述显著区域对应的显著程度，通过训练后的指纹提取模型中的全局特征提取模块和细节特征提取模块，对应提取所述目标视频图像的全局特征和细节特征。其中，所述全局特征和细节特征带有所述目标视频图像的显著信息。例如，所述显著信息为所述显著区域对应的权重值较高的图像特征。

在一些实施例中，如图7所示，步骤103可以通过步骤1031至步骤1034来实现，具体为：

步骤1031，通过训练后的全局特征提取模块，提取所述目标视频图像的原始特征。

其中，该原始特征也是包含了目标视频图像的全部特征，但是该原始特征中没有针对主体内容对应位置特别关注，该原始特征的区分度不够明显。

如图2所示，通过训练后的全局特征提取模块B中的卷积层B1至卷积层Bn-m对目标视频图像进行处理后得到目标视频图像的原始特征。

步骤1032，通过所述训练后的全局特征提取模块，将所述显著区域对应的显著程度与所述原始特征进行加权，以得到所述目标视频图像的中间层特征。

在一些实施例中，所述通过所述训练后的全局特征提取模块，将所述显著区域对应的显著程度与所述原始特征进行加权，以得到所述目标视频图像的中间层特征，包括：

将所述显著区域对应的显著程度与所述原始特征输入所述训练后的全局特征提取模块中进行加权，通过提高所述目标视频图像中所述显著区域对应的权重值，及降低所述目标视频图像中的非显著区域的权重值，得到所述目标视频图像的中间层特征，其中所述非显著区域为所述目标视频图像中所述显著区域之外的区域。

其中，注意力模型会根据目标视频图像内容输出权重矩阵，用该权重矩阵来表示显著区域对应的显著程度，通过该权重矩阵和目标视频图像原始特征的加权，将显著区域赋予更高的权重，其他区域赋予更低的权重，以此提升特征图中视频主体内容的区别度。该中间层特征包含了目标视频图像中的显著区域对应的权重值较高的特征向量，以及非显著区域对应的权重值较低的特征向量。

步骤1033，通过所述训练后的全局特征提取模块，从所述中间层特征中提取所述目标视频图像的全局特征。

在一些实施例中，所述通过所述训练后的全局特征提取模块，从所述中间层特征中提取所述目标视频图像的全局特征，包括：

将所述三元组样本图像输入所述全局特征提取模块中进行处理，提取所述三元组样本图像中每一所述样本图像的原始特征；

通过所述全局特征提取模块，将所述三元组样本图像中每一所述样本图像的显著区域对应的显著程度与所述三元组样本图像中每一所述样本图像的原始特征进行加权，以得到所述三元组样本图像中每一所述样本图像的中间层特征；

将所述三元组样本图像中每一所述样本图像的中间层特征输入所述全局特征提取模块进行学习训练，以更新所述全局特征提取模块的模块参数，生成所述训练后的全局特征提取模块；

根据所述训练后的全局特征提取模块，从所述目标视频图像的中间层特征中提取所述目标视频图像的全局特征。

在一些实施例中，所述将所述三元组样本图像中每一所述样本图像的中间层特征输入所述全局特征提取模块进行学习训练，以更新所述全局特征提取模块的模块参数，生成所述训练后的全局特征提取模块，包括：

基于所述三元组样本图像中每一所述样本图像的中间层特征，训练所述全局特征提取模块中的三元损失函数，以更新所述全局特征提取模块的模块参数，生成所述训练后的全局特征提取模块。

例如，全局特征提取模块可以采用GoogleNet、ResNet、VGG等深度网络结构，同时对其进行一些修改后使之更加适合指纹提取任务。其中，可以通过测试集验证选取性能较好的深度网络结构，比如，主要是通过修改损失函数和部分网络层使之更加适合指纹任务。以GoogleNet中的GoogleNet-V1为例，可以移除inception_4a/output后续网络层，以构成本申请实施例的全局特征提取模块，在保证性能的同时减少了大量的计算量。同时，为了保证特征的区分度，可以移除网络最后的Relu层后，再增加归一化层。

如图2所示，全局特征提取模块B中的加权单元通过对该权重矩阵和目标视频图像原始特征的加权，将显著区域赋予更高的权重值，其他区域赋予更低的权重值，以此得到特征图中视频主体内容的区别度较高的中间层特征，然后再通过加权单元之后的卷积层(如卷积层Bn-m+1，……，卷积层Bn-1，卷积层Bn)对上述中间层特征进行处理，最终得到一个对边框、黑边、毛玻璃等复杂场景的视频更加鲁棒的全局特征。其中，全局特征包含了图像的整体特征，且全局特征中包含权重值较大的显著区域的特征，以及权重值较小的非显著区域的特征。使得全局特征中显著区域对应特征和非显著区域对应特征的区分度更高。

例如，与训练样本集中的三元组样本图像对应，全局特征提取模块可以采用三元损失函数(TripletLoss)作为目标函数来优化深度网络。例如，三元损失函数可以采用如下公式一表示：

其中，

表示原样本(anchor)的特征向量，

表示正样本(positive)的特征向量，

表示负样本(negative)的特征向量，

表示原样本与正样本之间的距离，

表示原样本与负样本之间的距离，margin表示间隔阈值，即

与

之间的距离，以及

与

之间的距离存在一个最小间隔margin，margin为常量。

该三元损失函数能够保证原样本与正样本之间的距离小于原样本与负样本之间的距离，非常适合无标签的指纹模型训练。例如，可以通过工具生成和/人工验证构建来得到正样本和负样本。

通过训练三元损失函数，来优化和更新全局特征提取模块中的模块参数。

步骤1034，通过训练后的细节特征提取模块，从所述中间层特征和所述全局特征中提取所述目标视频图像的细节特征。

在一些实施例中，所述过所述训练后的细节特征提取模块，从所述中间层特征和所述全局特征中提取所述目标视频图像的细节特征，包括：

将所述三元组样本图像中每一所述样本图像的中间层特征和全局特征输入所述细节特征提取模块中进行学习训练，以更新所述细节特征提取模块的模块参数，生成训练后的细节特征提取模块；

在一些实施例中，所述将所述三元组样本图像中每一所述样本图像的中间层特征和全局特征输入所述细节特征提取模块中进行学习训练，以更新所述细节特征提取模块的模块参数，生成训练后的细节特征提取模块，包括：

在一些实施例中，所述通过所述训练后的细节特征提取模块，从所述中间层特征和所述全局特征中提取所述目标视频图像的细节特征，包括：

采用自顶向下的连接方式，将所述全局特征输入所述训练后的细节特征提取模块的深层中进行处理，以及将所述中间层特征输入所述训练后的细节特征提取模块的浅层中进行处理，以提取所述目标视频图像的细节特征。

例如，细节特征提取模块可以由特征金字塔网络组成，特征金字塔网络采用自顶向下的连接方式，如图2所示，从顶层(深层Cn)到底层(浅层C1)的过程中，每一层都采用上采样使前后两层的特征图大小一致，并且采用横向连接方式将上采样的特征图和原自底向上的特征图融合。通过这种连接方式，使得底层的特征图也具有高层语义信息，最后输出最底层(浅层C1)的特征图作为最终的细节特征。高层语义信息一般指的是图像所表达的对象、行为、场景等，如分类任务中的物体类别，行为识别中的动作等。细节特征一般包括图像的轮廓、纹理、颜色等特征。

其中，细节特征是特征金字塔网络中的浅层所提取的特征，具有更丰富的纹理、细节信息。其中，特征金字塔网络中的深层指导浅层进行特征的提取，以使得浅层输出的特征也具有高层语义信息。

例如，与训练样本集中的三元组样本图像对应，细节特征提取模块也可以采用三元损失函数(TripletLoss)作为目标函数来优化特征金字塔网络。例如，三元损失函数可以采用如下公式一表示：

其中，

表示原样本(anchor)的特征向量，

表示正样本(positive)的特征向量，

表示负样本(negative)的特征向量，

表示原样本与正样本之间的距离，

表示原样本与负样本之间的距离，margin表示间隔阈值，即

与

之间的距离，以及

与

之间的距离存在一个最小间隔margin，margin为常量。

该三元损失函数能够保证原样本与正样本之间的距离小于原样本与负样本之间的距离，非常适合无标签的指纹模型训练。例如，可以通过工具生成和/或人工验证构建来得到正样本和负样本。

通过训练三元损失函数，来优化和更新细节特征提取模块中的模块参数。

步骤104，根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征。

其中，结合特征区分度更高的全局特征和语义更丰富的细节特征来生成所述待检测视频的视频指纹特征，将视频指纹特征存入特征数据库中，通过这种方式获取的视频指纹特征，不仅能够区分边框、黑边、毛玻璃等复杂场景的视频，对于背景相似而主体不同的视频，也能通过细节特征进行区分。

步骤105，将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。

在一些实施例中，如图8所示，步骤105可以通过步骤1051至步骤1053来实现，具体为：

步骤1051，通过计算所述视频指纹特征与特征数据库中的模板指纹特征之间的欧式距离来进行相似度匹配。

步骤1052，若所述欧式距离小于预设阈值，则确定所述目标视频图像为相似图像。

其中，若所述视频指纹特征与特征数据库中的模板指纹特征之间的欧式距离小于预设阈值，则说明目标视频图像的视频指纹特征与特征数据库中存储的匹配帧的模板指纹特征的特征相似度较高，则可以确定所述目标视频图像为该匹配帧的相似图像。若所述视频指纹特征与特征数据库中的模板指纹特征之间的欧式距离大于或等于预设阈值，则说明目标视频图像的视频指纹特征与特征数据库中存储的匹配帧的模板指纹特征的特征相似度不高，则可以确定所述目标视频图像与匹配帧不相似。

步骤1053，若所述待检测视频中的相似图像的数量大于预设数量，则将所述待检测视频确定为相似视频。

其中，若所述待检测视频中的相似图像的数量大于预设数量，则说明待检测视频中的视频帧与视频库中存储的某个视频中的匹配帧大部分相同，则将所述待检测视频确定为视频库中视频的相似视频。若所述待检测视频中的相似图像的数量小于或等于预设数量，则说明待检测视频中的视频帧与视频库中存储的某个视频中的匹配帧大部分不相同，则将所述待检测视频与匹配视频不相似。

例如，服务器的视频库中存储有许多视频，该存储的视频可能是具有版权归属的视频，视频库中的视频对应的视频指纹特征存储在特征数据库中，以此作为进行特征匹配的模板指纹特征。

例如，当需要查询视频库中是否存在与待检测视频相同的视频，首先抽取待检测视频的视频帧作为目标帧，并结合目标帧的显著区域来提取待检测视频的全局特征和细节特征，然后与特征数据库中匹配帧的模板指纹特征计算特征相似度。特征相似度计算主要包括余弦相似度和欧式距离。例如，采用欧式距离，计算公式如下公式二：

其中，x和y分别表示目标帧与匹配帧的特征，n表示维度，x_i和y_i分别表示x和y的第i维特征的值，其中0＜i≤n。

对于目标帧与匹配帧，若欧式距离小于预设阈值，则将目标帧视为相似帧；若欧式距离大于或等于预设阈值，则将目标帧视为非相似帧。对于待检测视频片段，若待检测视频片段中的相似帧的数量大于预设数量，则将待检测视频片段视为相似视频片段；若待检测视频片段中的相似帧的数量小于或等于预设数量，则将待检测视频片段视为非相似视频片段。

例如，在应用于版权保护场景时，当待检测视频根据匹配结果判定该待检测视频为视频库中某个版权视频的相似视频片段时，可以生成提示信息，以提示该待检测视频为相似视频；进一步的可以禁止该待检测视频投放到相关视频平台或网站。当待检测视频根据匹配结果判定为非相似视频片段时，可以允许该待检测视频投放到相关视频平台或网站，以存入对应视频库中；进一步的，还将该待检测视频的视频指纹特征存入特征数据库中。

例如，应用于视频推荐时，可以当待检测视频根据匹配结果判定该待检测视频为视频库中某个已推荐视频的相似视频片段时，可以生成提示信息，过滤该待检测视频。当待检测视频根据匹配结果判定为非相似视频片段时，可以推荐该待检测视频；进一步的，还将该待检测视频存入对应视频库中，以及将该待检测视频的视频指纹特征存入特征数据库中。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

为便于更好的实施本申请实施例的视频检测方法，本申请实施例还提供一种视频检测装置。请参阅图9至图12，图9至图12均为本申请实施例提供的视频检测装置的结构示意图。其中，该视频检测装置300可以包括：获取单元301、检测单元302、提取单元303、生成单元304、以及处理单元305，具体可以如下：

获取单元301，用于从待检测视频中获取目标视频图像；

检测单元302，用于检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；

提取单元303，用于根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征；

生成单元304，用于根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征；

处理单元305，用于将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。

在一些实施例中，所述检测单元302，具体用于通过训练后的指纹提取模型中的显著区域检测模块，检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；

所述提取单元302，具体用于根据所述显著区域和所述显著区域对应的显著程度，通过训练后的指纹提取模型中的全局特征提取模块和细节特征提取模块，对应提取所述目标视频图像的全局特征和细节特征；

在一些实施例中，如图10所示，所述检测单元302，包括：

第一训练子单元3021，用于将所述三元组样本图像输入所述显著区域检测模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的显著区域检测模块；

检测子单元3022，用于通过所述训练后的显著区域检测模块，检测所述目标视频图像的显著区域；

输出子单元3023，用于控制所述训练后的显著区域检测模块输出所述显著区域的权重矩阵，以得到所述显著区域对应的显著程度。

在一些实施例中，所述第一训练子单元3021，还用于：

在一些实施例中，如图11所示，所述提取单元303，包括：

第一提取子单元3031，用于通过所述训练后的全局特征提取模块，提取所述目标视频图像的原始特征；

加权子单元3032，用于通过所述训练后的全局特征提取模块，将所述显著区域对应的显著程度与所述原始特征进行加权，以得到所述目标视频图像的中间层特征；

第二提取子单元3033，用于通过所述训练后的全局特征提取模块，从所述中间层特征中提取所述目标视频图像的全局特征；

第三提取子单元3034，用于通过所述训练后的细节特征提取模块，从所述中间层特征和所述全局特征中提取所述目标视频图像的细节特征。

在一些实施例中，所述加权子单元3032，用于将所述显著区域对应的显著程度与所述原始特征输入所述训练后的全局特征提取模块中进行加权，通过提高所述目标视频图像中所述显著区域对应的权重值，及降低所述目标视频图像中的非显著区域的权重值，得到所述目标视频图像的中间层特征，其中所述非显著区域为所述目标视频图像中所述显著区域之外的区域。

在一些实施例中，所述第二提取子单元3033，用于：

在一些实施例中，所述第二提取子单元3033，用于所述将所述基于所述三元组样本图像得到的每一所述样本图像的中间层特征输入所述全局特征提取模块进行学习训练，以更新所述全局特征提取模块的模块参数，生成所述训练后的全局特征提取模块时，具体包括：

基于所述三元组样本图像得到的每一所述样本图像的中间层特征，训练所述全局特征提取模块中的三元损失函数，以更新所述全局特征提取模块的模块参数，生成所述训练后的全局特征提取模块。

在一些实施例中，所述第三提取子单元3034，用于采用自顶向下的连接方式，将所述全局特征输入所述训练后的细节特征提取模块的深层中进行处理，以及将所述中间层特征输入所述训练后的细节特征提取模块的浅层中进行处理，以提取所述目标视频图像的细节特征。

在一些实施例中，所述第三提取子单元3034，用于：

在一些实施例中，所述第三提取子单元3034，用于所述将所述三元组样本图像中每一所述样本图像的中间层特征和全局特征输入所述细节特征提取模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的细节特征提取模块时，具体包括：

在一些实施例中，如图12所示，所述处理单元305，包括：

计算子单元3051，用于通过计算所述视频指纹特征与特征数据库中的模板指纹特征之间的欧式距离来进行相似度匹配；

第一确定子单元3052，用于若所述欧式距离小于预设阈值，则确定所述目标视频图像为相似图像；

第二确定子单元3053，用于若所述待检测视频中的相似图像的数量大于预设数量，则将所述待检测视频确定为相似视频。

本申请实施例提供的视频检测装置300，通过获取单元301从待检测视频中获取目标视频图像，然后检测单元302检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，提取单元303根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征，接着生成单元304根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征，最后处理单元305将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。本申请实施例通过结合图像的显著区域来提取待检测视频的全局特征和所述细节特征，然后与预设的模板指纹特征进行相似度匹配，可以有效识别具有边框、黑边、毛玻璃等复杂场景的视频以及背景相似而主体不同的视频，提升视频识别的准确率，降低视频库中的视频重复率，减少数据存储成本，便于提供原创视频版权保护，以及打击盗版视频。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为图1对应实施例中所述的终端，该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机(PC，Personal Computer)等设备。如图13所示，该电子设备可以包括射频(RF，Radio Frequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(WiFi，Wireless Fidelity)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解，图13中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器408处理；另外，将涉及上行的数据发送给基站。此外，RF电路401还可以通过无线通信与网络和其他设备通信。

存储器402可用于存储软件程序以及模块，处理器408通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如视频数据、电话本等)等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器408和输入单元403对存储器402的访问。

输入单元403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

显示单元404可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板。

电子设备还可包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。

音频电路406、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路406接收后转换为音频数据，再将音频数据输出处理器408处理后，经RF电路401以发送给比如另一电子设备，或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块407，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器408是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器408可包括一个或多个处理核心；优选的，处理器408可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器408中。

电子设备还包括给各个部件供电的电源409(比如电池)，优选的，电源可以通过电源管理系统与处理器408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备中的处理器408会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中，并由处理器408来运行存储在存储器402中的计算机程序，从而实现各种功能：

从待检测视频中获取目标视频图像；检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征；根据所述全局特征和所述细节特征，确定所述待检测视频的视频指纹特征；将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例提供的电子设备，通过从待检测视频中获取目标视频图像，然后检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，并根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征，接着根据所述全局特征和所述细节特征，确定所述待检测视频的视频指纹特征，最后将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。本申请实施例通过结合图像的显著区域来提取待检测视频的全局特征和所述细节特征，然后与预设的模板指纹特征进行相似度匹配，可以有效识别具有边框、黑边、毛玻璃等复杂场景的视频以及背景相似而主体不同的视频，提升视频识别的准确率，降低视频库中的视频重复率，减少数据存储成本，便于提供原创视频版权保护，以及打击盗版视频。

本申请实施例还提供一种计算机设备，该计算机设备可以为图1对应实施例中所述的服务器，如图14所示，其示出了本申请实施例所涉及的服务器的结构示意图，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。具体来讲：该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图14中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中：

处理器501是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

服务器还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器501会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的计算机程序，从而实现各种功能，如下：

从待检测视频中获取目标视频图像；检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征；根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征；将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。

由上可知，本实施例提供的服务器，通过从待检测视频中获取目标视频图像，然后检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，并根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征，接着根据所述全局特征和所述细节特征，生成所述待检测视频的视频指纹特征，最后将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配。本申请实施例通过结合图像的显著区域来提取待检测视频的全局特征和所述细节特征，然后与预设的模板指纹特征进行相似度匹配，可以有效识别具有边框、黑边、毛玻璃等复杂场景的视频以及背景相似而主体不同的视频，提升视频识别的准确率，降低视频库中的视频重复率，减少数据存储成本，便于提供原创视频版权保护，以及打击盗版视频。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种视频检测方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种视频检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频检测方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频检测方法，其特征在于，所述方法包括：

从待检测视频中获取目标视频图像；

2.如权利要求1所述的视频检测方法，其特征在于，所述检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，包括：

通过训练后的指纹提取模型中的显著区域检测模块，检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；

所述根据所述显著区域和所述显著区域对应的显著程度，提取所述目标视频图像的全局特征和细节特征，包括：

根据所述显著区域和所述显著区域对应的显著程度，通过训练后的指纹提取模型中的全局特征提取模块和细节特征提取模块，对应提取所述目标视频图像的全局特征和细节特征；

3.如权利要求2所述的视频检测方法，其特征在于，所述通过训练后的指纹提取模型中的显著区域检测模块，检测所述目标视频图像的显著区域和所述显著区域对应的显著程度，包括：

将所述三元组样本图像输入所述显著区域检测模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的显著区域检测模块；

通过所述训练后的显著区域检测模块，检测所述目标视频图像的显著区域；

控制所述训练后的显著区域检测模块输出所述显著区域的权重矩阵，以得到所述显著区域对应的显著程度。

4.如权利要求3所述的视频检测方法，其特征在于，所述将所述三元组样本图像输入所述显著区域检测模块中进行学习训练，以更新所述显著区域检测模块的模块参数，生成训练后的显著区域检测模块，包括：

5.如权利要求2所述的视频检测方法，其特征在于，所述根据所述显著区域和所述显著区域对应的显著程度，通过训练后的指纹提取模型中的全局特征提取模块和细节特征提取模块，对应提取所述目标视频图像的全局特征和细节特征，包括：

通过所述训练后的全局特征提取模块，提取所述目标视频图像的原始特征；

通过所述训练后的全局特征提取模块，将所述显著区域对应的显著程度与所述原始特征进行加权，以得到所述目标视频图像的中间层特征；

通过所述训练后的全局特征提取模块，从所述中间层特征中提取所述目标视频图像的全局特征；

通过所述训练后的细节特征提取模块，从所述中间层特征和所述全局特征中提取所述目标视频图像的细节特征。

6.如权利要求5所述的视频检测方法，其特征在于，所述通过所述训练后的全局特征提取模块，将所述显著区域对应的显著程度与所述原始特征进行加权，以得到所述目标视频图像的中间层特征，包括：

7.如权利要求5所述的视频检测方法，其特征在于，所述通过所述训练后的细节特征提取模块，从所述中间层特征和所述全局特征中提取所述目标视频图像的细节特征，包括：

8.如权利要求5所述的视频检测方法，其特征在于，所述过所述训练后的细节特征提取模块，从所述中间层特征和所述全局特征中提取所述目标视频图像的细节特征，包括：

9.如权利要求8所述的视频检测方法，其特征在于，所述将所述三元组样本图像中每一所述样本图像的中间层特征和全局特征输入所述细节特征提取模块中进行学习训练，以更新所述细节特征提取模块的模块参数，生成训练后的细节特征提取模块，包括：

10.如权利要求1所述的视频检测方法，其特征在于，所述将所述视频指纹特征与特征数据库中的模板指纹特征进行相似度匹配，包括：

通过计算所述视频指纹特征与特征数据库中的模板指纹特征之间的欧式距离来进行相似度匹配；

若所述欧式距离小于预设阈值，则确定所述目标视频图像为相似图像；

若所述待检测视频中的相似图像的数量大于预设数量，则将所述待检测视频确定为相似视频。

11.一种视频检测装置，其特征在于，所述装置包括：

获取单元，用于从待检测视频中获取目标视频图像；

12.如权利要求11所述的视频检测装置，其特征在于，所述检测单元，具体用于通过训练后的指纹提取模型中的显著区域检测模块，检测所述目标视频图像的显著区域和所述显著区域对应的显著程度；

13.如权利要求12所述的视频检测装置，其特征在于，所述提取单元，包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-10任一项所述的视频检测方法中的步骤。

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1-10任一项所述的视频检测方法中的步骤。