CN110659604A

CN110659604A - 视频检测方法、装置、服务器及存储介质

Info

Publication number: CN110659604A
Application number: CN201910895011.3A
Authority: CN
Inventors: 申世伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-07

Abstract

本公开关于一种视频检测方法、装置、服务器及存储介质，涉及多媒体技术领域。方法包括：从待检测视频中获取多个视频图像，确定每个视频图像的频域特征图，所述频域特征图包括所述视频图像的至少一种频域特征；将所述多个视频图像的多个频域特征图输入图像识别模型，由所述图像识别模型对所述多个视频图像属于目标图像类型的概率进行预测，输出所述多个视频图像的预测概率，所述目标图像类型是指视频图像是通过对任一电子设备上播放的视频进行拍摄得到；根据所述预测概率，确定所述待检测视频的检测结果，所述检测结果用于指示所述待检测视频是否属于目标视频类型，所述目标视频类型是指视频是通过对任一电子设备上播放的视频进行拍摄得到。

Description

视频检测方法、装置、服务器及存储介质

技术领域

本公开涉及多媒体技术领域，尤其涉及一种视频检测方法、装置、服务器及存储介质。

背景技术

短视频是一种新兴的互联网内容传播方式，由于短视频具有短小、便捷、人人都能参与的特点，目前已经拥有了大量的视频作者。随着短视频的数量不断增加，有些视频作者为了吸引观众会上传一些非原创视频，这既侵犯了原创视频作者的权益又不利于短视频的发展。例如，有些视频作者会通过一台电子设备拍摄另一台电子设备正在播放的其他视频作者的原创视频，然后将拍摄到的非原创视频作为自己的视频进行发布。通过上述过程所得到的视频也称为拍屏视频。

目前，通常是由审核人员对视频作者上传的短视频进行审核，若审核人员确定视频作者上传的短视频为拍屏视频，则驳回该短视频；若审核人员确定视频作者上传的短视频不是拍屏视频，则将该短视频发布以供观众观看。

上述技术方案存在的问题是，由于拍屏视频与正常的短视频的视觉差异较小，导致审核人员需要仔细观看短视频的内容才能确定该短视频是否为拍屏视频，从而审核的效率低，准确性不高。

发明内容

本公开提供一种视频检测方法、装置、服务器及存储介质，用于解决由于拍屏视频与正常的短视频的视觉差异较小，导致审核人员需要仔细观看短视频的内容才能确定该短视频是否为拍屏视频，从而审核的效率低，准确性不高的问题。本公开的技术方案如下：

根据本公开实施例的一方面，提供一种视频检测方法，包括：

从待检测视频中获取多个视频图像，确定每个视频图像的频域特征图，所述频域特征图包括所述视频图像的至少一种频域特征；

将所述多个视频图像的多个频域特征图输入图像识别模型，由所述图像识别模型对所述多个视频图像属于目标图像类型的概率进行预测，输出所述多个视频图像的预测概率，所述目标图像类型是指视频图像是通过对任一电子设备上播放的视频进行拍摄得到；

根据所述预测概率，确定所述待检测视频的检测结果，所述检测结果用于指示所述待检测视频是否属于目标视频类型，所述目标视频类型是指视频是通过对任一电子设备上播放的视频进行拍摄得到。

在一种可能的实现方式中，所述从待检测视频中获取多个视频图像，包括：当所述待检测视频为拼接视频时，从每个视频片段中获取目标数量个视频图像，得到多个视频图像。

在一种可能的实现方式中，所述从待检测视频中获取多个视频图像，包括：当所述待检测视频为非拼接视频时，从所述待检测视频中获取目标数量个视频图像，得到多个视频图像。

在一种可能的实现方式中，所述确定每个视频图像的频域特征图，包括：

对于每个视频图像，确定所述视频图像的第一频域特征图和第二频域特征图，所述第一频域特征图由所述视频图像经傅里叶变换得到，所述第二频域特征图由所述视频图像经离散余弦变换得到；

根据所述第一频域特征图和所述第二频域特征图，确定所述视频图像的频域特征图。

在一种可能的实现方式中，所述根据所述第一频域特征图和所述第二频域特征图，确定所述视频图像的频域特征图，包括：

对所述第一频域特征图和所述第二频域特征图分别进行滤波，得到目标频率范围内的第三频域特征图和第四频域特征图，所述目标频率范围为产生摩尔纹的频率范围；

将所述第三频域特征图和所述第四频域特征图进行组合，得到所述视频图像的三维的频域特征图。

在一种可能的实现方式中，所述将所述多个视频图像的多个频域特征图输入图像识别模型之前，所述方法还包括:

对所述多个视频图像进行边缘检测；

当任一视频图像中包含电子设备的边缘时，确定所述视频图像属于目标图像类型。

对所述多个视频图像进行水印检测；

当任一视频图像中包含水印时，确定所述视频图像属于目标图像类型。

在另一种可能的实现方式中，所述根据所述预测概率，确定所述待检测视频的检测结果，包括：

当任一视频图像的预测概率大于目标概率阈值时，确定所述视频图像属于目标图像类型；

当所述多个视频图像中有超过目标比例的视频图像属于目标图像类型时，确定所述待检测视频属于目标视频类型。

根据本公开实施例的另一方面，提供一种视频检测装置，包括：

获取单元，被配置为从待检测视频中获取多个视频图像，确定每个视频图像的频域特征图，所述频域特征图包括所述视频图像的至少一种频域特征；

输入单元，被配置为将所述多个视频图像的多个频域特征图输入图像识别模型，由所述图像识别模型对所述多个视频图像属于目标图像类型的概率进行预测，输出所述多个视频图像的预测概率，所述目标图像类型是指视频图像是通过对任一电子设备上播放的视频进行拍摄得到；

第一确定单元，被配置为根据所述预测概率，确定所述待检测视频的检测结果，所述检测结果用于指示所述待检测视频是否属于目标视频类型，所述目标视频类型是指视频是通过对任一电子设备上播放的视频进行拍摄得到。

在一种可能的实现方式中，所述获取单元，还被配置为当所述待检测视频为拼接视频时，从每个视频片段中获取目标数量个视频图像，得到多个视频图像。

在一种可能的实现方式中，所述获取单元，还被配置为当所述待检测视频为非拼接视频时，从所述待检测视频中获取目标数量个视频图像，得到多个视频图像。

在一种可能的实现方式中，所述获取单元，还被配置为对于每个视频图像，确定所述视频图像的第一频域特征图和第二频域特征图，所述第一频域特征图由所述视频图像经傅里叶变换得到，所述第二频域特征图由所述视频图像经离散余弦变换得到；根据所述第一频域特征图和所述第二频域特征图，确定所述视频图像的频域特征图。

在一种可能的实现方式中，所述获取单元，还被配置为对所述第一频域特征图和所述第二频域特征图分别进行滤波，得到目标频率范围内的第三频域特征图和第四频域特征图，所述目标频率范围为产生摩尔纹的频率范围；将所述第三频域特征图和所述第四频域特征图进行组合，得到所述视频图像的三维的频域特征图。

在一种可能的实现方式中，所述装置还包括:

第一检测单元，被配置为对所述多个视频图像进行边缘检测；

第二确定单元，被配置为当任一视频图像中包含电子设备的边缘时，确定所述视频图像属于目标图像类型。

在一种可能的实现方式中，所述装置还包括:

第二检测单元，被配置为对所述多个视频图像进行水印检测；

第三确定单元，被配置为当任一视频图像中包含水印时，确定所述视频图像属于目标图像类型。

在一种可能的实现方式中，所述第一确定单元，还被配置为当任一视频图像的预测概率大于目标概率阈值时，确定所述视频图像属于目标图像类型；当所述多个视频图像中有超过目标比例的视频图像属于目标图像类型时，确定所述待检测视频属于目标视频类型。

根据本公开实施例的另一方面，提供一种服务器，包括处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述视频检测方法。

根据本公开实施例的另一方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述视频检测方法。

根据本公开实施例的另一方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行上述视频检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开提供的实施例，通过从待检测视频中获取多个视频图像，确定每个视频图像的频域特征图，将该多个视频图像的多个频域特征图输入图像识别模型，来预测视频图像是目标图像类型的预测概率，从而根据该预测概率确定待检测视频是否为目标视频类型。由于是通过图像识别模型对待检测视频进行检测，因此视频检测的执行效率高，且准确性高，解决了审核人员审核的效率低以及准确率不高的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频检测系统100的结构框图。

图2是根据一示例性实施例示出的一种视频检测方法的流程图。

图3是根据一示例性实施例示出的另一种视频检测方法的流程图。

图4是根据一示例性实施例示出的一种视频检测装置的框图。

图5是根据一示例性实施例示出的一种服务器的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的本公开的一些方面相一致的装置和方法的例子。

本公开提供的实施例的应用场景为视频检测的场景。如视频作者在发布新的短视频作品时，需要先将短视频上传到服务器中。上传的短视频经过审核人员的审核后才能发布，以供观众观看。短视频的审核项目中有一项是原创性审核，目的是保护原创视频作者的权益，审核的原则是确定视频作者上传的短视频是否是拍摄其他视频作者已发布的短视频得到的视频，也即确定视频作者上传的短视频是否为拍屏视频，拍屏视频无法通过审核。

拍屏视频经常会漏出播放视频的电子设备的边框，或者出现摩尔纹，或者拍摄到视频中的水印等情况。其中，电子设备可以为手机、电视、电影荧幕等。摩尔纹是一种在电子设备的感光原件受到高频干扰时出现的条纹，是一种形状不规律的条纹。

下面简单介绍一下本公开实施例提供的视频检测方法的使用步骤：在对待检测视频进行检测时，首先从该待检测视频中获取多个视频图像，然后确定每个视频图像的频域特征图，接着将多个频域特征图输入图像识别模型中，接着即可根据图像识别模型的输出确定该待检测视频的检测结果。由于是通过图像识别模型对待检测视频进行检测，因此视频检测的执行效率高，且准确性高，解决了审核人员审核的效率低以及准确率不高的问题。

图1是本公开实施例提供的一种视频服务系统100的结构框图。该视频服务系统100可以用于视频检测，包括：电子设备110、视频服务平台120。

电子设备110可以通过无线网络或有线网络与视频服务平台120相连。电子设备110可以是智能手机、摄像机、台式计算机、平板电脑、MP4播放器和膝上型便携计算机中的至少一种。电子设备110安装和运行有支持视频分享的应用程序。示意性的，电子设备110可以是用户使用的电子设备，电子设备运行的应用程序内登录有该用户的账号。

视频服务平台120包括一台服务器、多台服务器和云计算平台中的至少一种。视频服务平台120用于提供客户端的后台服务，如视频检测、视频发布、账号关联等。可选的，视频服务平台120包括：接入服务器、视频检测服务器、视频发布服务器、用户管理服务器和数据库。接入服务器用于提供电子设备110的接入服务。视频检测服务器用于对上传的短视频进行检测。视频检测服务器可以是一台或多台，当视频检测服务器是多台时，存在至少两台视频检测服务器用于提供不同的服务，和/或，存在至少两台视频检测服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务或者以主服务器和镜像服务器的方式提供同一种服务，本公开实施例对此不加以限定。数据库用于存储上传的短视频。

电子设备110可以泛指多个电子设备中的一个，本实施例仅以电子设备110来举例说明。本领域技术人员可以知晓，上述电子设备的数量可以更多或更少。比如上述电子设备可以仅为一个，或者上述电子设备为几十个或几百个，或者更多数量，此时上述视频服务系统还包括其他电子设备。本公开实施例对电子设备的数量和类型不加以限定。

图2是根据一示例性实施例示出的一种视频检测方法的流程图，如图2所示，包括以下步骤：

在步骤201中，从待检测视频中获取多个视频图像，确定每个视频图像的频域特征图，该频域特征图包括该视频图像的至少一种频域特征。

在步骤202中，将多个视频图像的多个频域特征图输入图像识别模型，由图像识别模型对多个视频图像属于目标图像类型的概率进行预测，输出多个视频图像的预测概率，该目标图像类型是指视频图像是通过对任一电子设备上播放的视频进行拍摄得到。

在步骤203中，根据预测概率，确定待检测视频的检测结果，该检测结果用于指示待检测视频是否属于目标视频类型，该目标视频类型是指视频是通过对任一电子设备上播放的视频进行拍摄得到。

在本公开提供的实施例中，通过从待检测视频中获取多个视频图像，确定每个视频图像的频域特征图，将该多个视频图像的多个频域特征图输入图像识别模型，来预测视频图像是目标图像类型的预测概率，从而根据该预测概率确定待检测视频是否为目标视频类型。由于是通过图像识别模型对待检测视频进行检测，因此视频检测的执行效率高，且准确性高，解决了审核人员审核的效率低以及准确率不高的问题。

在一种可能的实现方式中，从待检测视频中获取多个视频图像，包括：

确定待检测视频是否为拼接视频；

当待检测视频为拼接视频时，从每个视频片段中获取目标数量个视频图像，得到多个视频图像；

当待检测视频为非拼接视频时，从待检测视频中获取目标数量个视频图像，得到多个视频图像。

在另一种可能的实现方式中，确定每个视频图像的频域特征图，包括：

对于每个视频图像，确定视频图像的第一频域特征图和第二频域特征图，第一频域特征图由视频图像经傅里叶变换得到，第二频域特征图由视频图像经离散余弦变换得到；

根据第一频域特征图和第二频域特征图，确定视频图像的频域特征图。

在另一种可能的实现方式中，根据第一频域特征图和第二频域特征图，确定视频图像的频域特征图，包括：

对第一频域特征图和第二频域特征图分别进行滤波，得到目标频率范围内的第三频域特征图和第四频域特征图，目标频率范围为产生摩尔纹的频率范围；

将第三频域特征图和第四频域特征图进行组合，得到视频图像的三维的频域特征图。

在另一种可能的实现方式中，将多个视频图像的多个频域特征图输入图像识别模型之前，方法还包括:

对多个视频图像进行边缘检测；

当任一视频图像中包含电子设备的边缘时，确定视频图像属于目标图像类型。

对多个视频图像进行水印检测；

当任一视频图像中包含水印时，确定视频图像属于目标图像类型。

在另一种可能的实现方式中，根据预测概率，确定待检测视频的检测结果，包括：

当任一视频图像的预测概率大于目标概率阈值时，确定视频图像属于目标图像类型；

当多个视频图像中有超过目标比例的视频图像属于目标图像类型时，确定待检测视频属于目标视频类型。

图3是根据一示例性实施例示出的另一种视频检测方法的流程图，如图3所示，包括以下步骤：

在步骤301中，服务器接收电子设备上传的待检测视频，从待检测视频中获取多个视频图像。

在本步骤中，电子设备安装有用于视频分享的应用程序，用户可以通过该应用程序上传短视频。用户在录制完成之后，可以通过该应用程序将录制的短视频上传至服务器中进行审核。服务器在接收到用户上传的待检测视频后，可以对该待检测视频进行采样，从该待检测视频中获取多个视频图像。

例如，待检测视频的时长为1分30秒，服务器可以每隔20秒对该待检测视频采样一次，采样得到4个视频帧，也即4个视频图像。

在一种可选的实现方式中，服务器可以先确定该待检测视频是否为拼接视频。当该待检测视频为拼接视频时，服务器可以按照拼接痕迹对该待检测视频进行分割，得到多个视频片段，服务器从每个视频片段中获取目标数量个视频图像，从而得到多个视频图像；当该待检测视频为非拼接视频时，服务器可以从该待检测视频中获取目标数量个视频图像，从而得到多个视频图像。其中，对待检测视频进行分割后获取视频图像的目的在于，如果待检测视频中包括拍屏视频的视频片段，则获取到的多个视频图像中必然会包括拍屏视频中的多个视频图像，从而可以在后续的检测步骤中确定该待检测视频是否为拍屏视频。

进一步的，在待检测视频的时长小于目标采样周期或者采样间隔大于目标采样间隔时，服务器可以对该待检测视频进行循环采样，即每隔目标时间从待检测视频中采样得到一个视频图像，直到得到目标数量个视频图像。或者，服务器也可以根据待检测视频的总时长与目标数量的比值来确定采样间隔，根据该采样间隔从待检测视频中获取目标数量个视频图像。通过循环采样可以保证在待检测视频的时长较小或者采样间隔较大时，使得服务器可以获取到目标数量个视频图像。通过待检测视频的总时长和目标数量的比值来确定采样间隔，使得服务器获取到的多个视频图像的分布较为均匀。

例如，待检测视频的时长为1分30秒，目标数量为10个，服务器可以每隔20秒从该待检测视频中获取一个视频图像，或者服务器可以奖视频时长90秒与目标数量10的比值，也即9秒，作为间隔时间，每隔9秒获取一个视频图像。

在步骤302中，服务器对多个视频图像进行检测。

在本步骤中，服务器可以通过边缘检测、水印检测、文字识别以及人脸识别中的至少一种，对上述步骤获取到的多个视频图像进行初步检测，以确定任一视频图像是否为目标图像类型。其中，该目标图像类型是指视频图像是通过对任一电子设备上播放的视频进行拍摄得到，也即拍屏视频中的图像。边缘检测可以检测到电子设备的边缘，水印检测可以检测到水印，文字识别可以检测到短视频账户名称或者唯一标识，人脸识别可以检测与目标对象的相似度，该目标对象为被其他视频作者拍摄较多的原创视频作者。

在一种可选的实现方式中，服务器可以对多个视频图像进行边缘检测，当任一视频图像中包含电子设备的边缘时，服务器可以确定该视频图像属于目标图像类型。

在一种可选的实现方式中，服务器可以对多个视频图像进行水印检测，当任一视频图像中包含水印时，服务器可以确定该视频图像属于目标图像类型。

需要说明的是，服务器在执行本步骤时，可以通过至少一种检测方式对多个视频图像进行初步检测，从而使最终的检测结果更准确；服务器也可以不执行本步骤，而是在执行完步骤301后直接执行步骤303，即直接通过视频图像的频域特征对待检测视频进行检测。

在步骤303中，服务器确定每个视频图像的频域特征图。

在本步骤中，服务器可以通过提取每个视频图像的频域特征，来确定每个视频图像的频域特征图。图像的频域特征可以反映出图像中的频率变化，而摩尔纹的产生与频率也有较大的关系，从而可以通过频域特征来检测图像中的摩尔纹。

在一种可选的实现方式中，服务器确定每个视频图像的频域特征图的步骤可以为：对于每个视频图像，服务器可以确定该视频图像的第一频域特征图和第二频域特征图，根据该第一频域特征图和该第二频域特征图，确定该视频图像的频域特征图。其中，第一频域特征图可以由视频图像经傅里叶变换得到，第二频域特征图可以由视频图像经离散余弦变换得到。

进一步的，服务器根据第一频域特征图和第二频域特征图，确定视频图像的频域特征图的步骤可以为：服务器可以对该第一频域特征图和该第二频域特征图分别进行滤波，得到目标频率范围内的第三频域特征图和第四频域特征图。服务器可以将该第三频域特征图和该第四频域特征图进行组合，得到该视频图像的三维的频域特征图。其中，目标频率范围为产生摩尔纹的频率范围。第三频域特征图和第四频域特征图的组合方式可以为将两张二维的频域特征图组合成一张三维的频域特征图。

例如，对于一张尺寸为高度(height)*宽度(width)的视频图像，服务器对该视频图像做二维离散傅里叶变换和离散余弦变换，得到两张尺寸为height*width的频域特征图，服务器将两张频域特征图进行组合，得到尺寸为height*width*2的三维的频域特征图。

在步骤304中，服务器将多个视频图像的多个频域特征图输入图像识别模型，由该图像识别模型对多个视频图像属于目标图像类型的概率进行预测，输出该多个视频图像的预测概率，该目标图像类型是指视频图像是通过对任一电子设备上播放的视频进行拍摄得到。

在本步骤中，服务器可以将多个视频图像的多个频域特征图依次输入图像识别模型中。该图像识别模型输出每个视频图像属于目标图像类型的预测概率，该预测概率为0到1之间的任意数值。目标图像类型的图像可以为从拍屏视频中获取到的图像，如拍摄手机、电视、电影荧幕等播放的视频得到的视频中的图像。

例如，服务器将A、B、C、D和E这5张图片的频域特征图依次输入图像识别模型，在这5张图片中，A、B和C包括多条摩尔纹，D包括不超过两条摩尔纹，D不包括摩尔纹。图像识别模型输出这5张图片的预测概率分别为A：0.85，B：0.83，C：0.87，D：0.65，E：0。

在一种可选的实现方式中，该图像识别模型可以包括图像拼接模块和预测模块，该图像拼接模块与该预测模块相连，用于将每个视频图像的多个频域特征图进行组合，该组合的方式为将多张二维的频域特征图组合成一张三维的频域特征图；该预测模块与该拼接模块相连，用于预测组合得到的三维的频域特征图属于目标图像类型的预测概率，该预测模块可以由深度神经网络经二分类训练得到。其中，当上述三维的频域特征图输入该预测模块时，该预测模块将该三维的频域特征图输入深度神经网络，该深度神经网络的输出为预测概率，该预测概率为大小在0到1之间的一个浮点值，当该预测概率越接近于1时，表示该三维的频域特征图越有可能包含摩尔纹。

相应的，上述图像识别模型在训练时可以采用频域特征图作为深度神经网络的输入，由服务器采用二分类算法对该深度神经网络进行训练直到该深度神经网络收敛，从而得到该图像识别模型。

在一种可选的实现方式中，服务器训练图像识别模型的步骤可以为：服务器可以获取多个样本图像。对于每个样本图像，服务器获取该样本图像的第五频域特征图和第六频域特征图，将该第五频域特征图和该第六频域特征图进行组合，得到该样本图像的三维的频域特征图。服务器将多个样本图像的多个频域特征图依次输入深度神经网络中，通过交叉熵损失函数来确定该深度神经网络的执行度，当该执行度大于目标执行度时，确定该深度神经网络收敛，从而得到图像识别模型。其中，该第五频域特征图可以由样本图像经傅里叶变换得到，该第六频域特征图可以由样本图像经离散余弦变换得到。该第五频域特征图和该第六频域特征图的组合方式可以为将两张二维的频域特征图组合成一张三维的频域特征图。

在步骤305中，服务器根据该预测概率，确定该待检测视频的检测结果，该检测结果用于指示该待检测视频是否属于目标视频类型，该目标视频类型是指视频是通过对任一电子设备上播放的视频进行拍摄得到。

在本步骤中，对于任一视频图像，服务器可以根据该视频图像的预测概率，来确定该视频图像是否为目标图像类型。服务器可以根据属于目标图像类型的视频图像在获取到的多个视频图像中所占的比例，来确定待检测视频是否属于目标视频类型。该目标视频类型可以为拍屏视频所属的类型。

在一种可选的实现方式中，服务器根据预测概率，确定待检测视频的检测结果的步骤可以为：当任一视频图像的预测概率大于目标概率阈值时，服务器可以确定该视频图像属于目标图像类型；当多个视频图像中有超过目标比例的视频图像属于目标图像类型时，服务可以确定待检测视频属于目标视频类型。其中，属于目标图像类型的视频图像可以包括服务器根据预测概率确定的视频图像，还可以包括服务器通过步骤302中的至少一种检测方式确定的视频图像。

在本公开实施例中，通过从待检测视频中获取多个视频图像，确定每个视频图像的频域特征图，将该多个视频图像的多个频域特征图输入图像识别模型，来预测视频图像是目标图像类型的预测概率，从而根据该预测概率确定待检测视频是否为目标视频类型。由于是通过图像识别模型对待检测视频进行检测，因此视频检测的执行效率高，且准确性高，解决了审核人员审核的效率低以及准确率不高的问题。

图4是根据一示例性实施例示出的一种视频检测装置的框图，如图4所示，包括：获取单元401、输入单元402和第一确定单元403。

获取单元401，被配置为从待检测视频中获取多个视频图像，确定每个视频图像的频域特征图，频域特征图包括视频图像的至少一种频域特征；

输入单元402，被配置为将多个视频图像的多个频域特征图输入图像识别模型，由图像识别模型对多个视频图像属于目标图像类型的概率进行预测，输出多个视频图像的预测概率，目标图像类型是指视频图像是通过对任一电子设备上播放的视频进行拍摄得到；

第一确定单元403，被配置为根据预测概率，确定待检测视频的检测结果，检测结果用于指示待检测视频是否属于目标视频类型，目标视频类型是指视频是通过对任一电子设备上播放的视频进行拍摄得到。

在一种可能的实现方式中，获取单元401，还被配置为当待检测视频为拼接视频时，从每个视频片段中获取目标数量个视频图像，得到多个视频图像。；

在一种可能的实现方式中，获取单元401，还被配置为当待检测视频为非拼接视频时，从待检测视频中获取目标数量个视频图像，得到多个视频图像。

在一种可能的实现方式中，获取单元401，还被配置为对于每个视频图像，确定视频图像的第一频域特征图和第二频域特征图，第一频域特征图由视频图像经傅里叶变换得到，第二频域特征图由视频图像经离散余弦变换得到；根据第一频域特征图和第二频域特征图，确定视频图像的频域特征图。

在一种可能的实现方式中，获取单元401，还被配置为对第一频域特征图和第二频域特征图分别进行滤波，得到目标频率范围内的第三频域特征图和第四频域特征图，目标频率范围为产生摩尔纹的频率范围；将第三频域特征图和第四频域特征图进行组合，得到视频图像的三维的频域特征图。

在一种可能的实现方式中，装置还包括:

第一检测单元，被配置为对多个视频图像进行边缘检测；

第二确定单元，被配置为当任一视频图像中包含电子设备的边缘时，确定视频图像属于目标图像类型。

在一种可能的实现方式中，装置还包括:

第二检测单元，被配置为对多个视频图像进行水印检测；

第三确定单元，被配置为当任一视频图像中包含水印时，确定视频图像属于目标图像类型。

在一种可能的实现方式中，第一确定单元403，还被配置为当任一视频图像的预测概率大于目标概率阈值时，确定视频图像属于目标图像类型；当多个视频图像中有超过目标比例的视频图像属于目标图像类型时，确定待检测视频属于目标视频类型。

图5是根据一示例性实施例示出的一种服务器的结构框图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)501和一个或一个以上的存储器502，其中，该存储器502中存储有至少一条指令，该至少一条指令由处理器501加载并执行以实现上述各个方法实施例提供的视频检测方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开实施例还提供了一种存储介质，用于服务器，当该存储介质中存储的指令由处理器执行时，使得服务器能够执行上述实施例的视频检测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从待检测视频中获取多个视频图像，包括：

当所述待检测视频为拼接视频时，从每个视频片段中获取目标数量个视频图像，得到多个视频图像。

3.根据权利要求1所述的方法，其特征在于，所述确定每个视频图像的频域特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一频域特征图和所述第二频域特征图，确定所述视频图像的频域特征图，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述多个视频图像的多个频域特征图输入图像识别模型之前，所述方法还包括:

对所述多个视频图像进行边缘检测；

6.根据所述权利要求1所述的方法，其特征在于，所述将所述多个视频图像的多个频域特征图输入图像识别模型之前，所述方法还包括:

对所述多个视频图像进行水印检测；

7.根据权利要求1-6任一权利要求所述的方法，其特征在于，所述根据所述预测概率，确定所述待检测视频的检测结果，包括：

8.一种视频检测装置，其特征在于，包括：

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频检测方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的视频检测方法。