CN116129297A

CN116129297A - 模型的训练方法、视频检测方法、交易方法及装置

Info

Publication number: CN116129297A
Application number: CN202211281315.9A
Authority: CN
Inventors: 陈圣; 曾定衡; 蒋宁; 周迅溢; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-05-16

Abstract

本申请提供了一种模型的训练方法、视频检测方法、交易方法及装置，模型的训练方法包括：获取训练样本集，训练样本集包括N个连续视频帧、在时序上与N个连续视频帧对应的N个非连续视频帧，N为正整数；基于N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数；基于损失函数对待训练连续帧检测模型进行训练，得到训练后的连续帧检测模型。本申请可以得到更准确、鲁棒性更高的连续帧检测模型，以便后续通过该模型高效地确定目标视频的连续性。

Description

模型的训练方法、视频检测方法、交易方法及装置

技术领域

本申请涉及图像处理技术领域，具体涉及一种模型的训练方法、视频检测方法、交易方法及装置。

背景技术

目前，由于视频传输、存储和处理环境、以及人为篡改等诸多因素的影响，可能会导致一段视频出现缺帧、跳帧、时间戳错误等视频时域不连续的现象，这严重影响了视频作为声像资料证据的可信度。

此外，在金融场景中，一些活体动作的验证视频也可能会被不法人员进行篡改，比如，插入一段其他动作的视频或者改变人脸等，这可能会造成大众的财产损失。因此，对一些视频进行连续性检测非常重要，然而，采用目前较为常用的差分法、跟踪法、光流法对视频进行连续性检测，检测耗时长、效率低、且准确性得不到保证。

发明内容

为了解决上述技术问题，提出了本申请。本申请实施例提供了一种模型的训练方法、视频检测方法、交易方法及装置，有利于提高连续帧检测模型的准确性和鲁棒性，从而能更准确地识别目标视频的连续性。

第一方面，本申请一实施例提供了一种连续帧检测模型的训练方法，该方法包括：获取训练样本集，训练样本集包括N个连续视频帧、在时序上与N个连续视频帧对应的N个非连续视频帧，N为正整数；基于N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数，其中，第二图像特征数据的精度高于第一图像特征数据的精度，第一标签数据用于表示视频帧为连续的视频帧，第二标签数据用于表示视频帧为非连续的视频帧；基于损失函数对待训练连续帧检测模型进行训练，得到训练后的连续帧检测模型。

第二方面，本申请一实施例提供了一种视频检测方法，该方法包括：获取包含多个视频帧的目标视频；利用训练后的连续帧检测模型，检测目标视频包含的多个视频帧的连续性，所述训练后的连续帧检测模型基于第一方面所述的连续帧检测模型的训练方法训练得到。

第三方面，本申请一实施例提供了一种基于视频验证的交易方法，该方法包括：响应于目标用户的交易请求，发送针对目标用户的视频验证提示信息；接收目标用户响应于视频验证提示信息的目标视频；基于第二方面所述的视频检测方法，检测目标视频包含的多个视频帧的连续性；若确定目标视频包含的多个视频帧具有连续性，则通过目标用户的交易请求。

第四方面，本申请一实施例提供了一种连续帧检测模型的训练装置，该装置包括：第一确定模块，用于获取训练样本集，训练样本集包括N个连续视频帧、在时序上与N个连续视频帧对应的N个非连续视频帧，N为正整数；第二确定模块，用于基于N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数，其中，第二图像特征数据的精度高于第一图像特征数据的精度，第一标签数据用于表示视频帧为连续的视频帧，第二标签数据用于表示视频帧为非连续的视频帧；第三确定模块，用于基于损失函数对待训练连续帧检测模型进行训练，得到训练后的连续帧检测模型。

第五方面，本申请一实施例提供了一种视频检测装置，该装置包括：获取模块，用于获取包含多个视频帧的目标视频；检测模块，用于利用训练后的连续帧检测模型，检测目标视频包含的多个视频帧的连续性，所述训练后的连续帧检测模型基于第一方面所述的连续帧检测模型的训练方法训练得到。

第六方面，本申请一实施例提供了一种基于视频验证的交易装置，该装置包括：发送模块，用于响应于目标用户的交易请求，发送针对目标用户的视频验证提示信息；接收模块，用于接收目标用户响应于视频验证提示信息的目标视频；检测模块，用于基于第二方面所述的视频检测方法，检测目标视频包含的多个视频帧的连续性；交易模块，用于若确定目标视频包含的多个视频帧具有连续性，则通过目标用户的交易请求。

第七方面，本申请一实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序用于执行第一方面、第二方面和第三方面所述的方法。

第八方面，本申请一实施例提供了一种电子设备，该电子设备包括：处理器；用于存储处理器可执行指令的存储器；该处理器用于执行第一方面、第二方面和第三方面所述的方法。

本申请实施例提供的连续帧检测模型的训练方法，通过N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据确定损失函数，由于第一图像特征数据和第二图像特征数据具有不同的精度，且同时使用了连续的视频帧和不连续的视频帧对模型进行训练，从而确保了训练后的连续帧检测模型能够更准确地提取待检测视频帧的特征，进而保证了连续视频帧检测的准确性，并且，连续帧检测模型的使用范围更广。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1所示为本申请一示例性实施例提供的利用背景差分法和光流法对待检测视频进行连续性检测的流程示意图。

图2所示为本申请一实施例提供的连续帧检测模型的训练方法的实施例环境示意图。

图3所示为本申请一示例性实施例提供的连续帧检测模型的训练方法的流程示意图。

图4所示为本申请一示例性实施例提供的待训练网络模型的结构示意图。

图5所示为本申请一示例性实施例提供的dense block的网络结构示意图。

图6所示为本申请一示例性实施例提供的compress的网络结构示意图。

图7所示为本申请一示例性实施例提供的视频检测方法的流程示意图。

图8所示为本申请一示例性实施例提供的基于视频验证的交易方法的流程示意图。

图9所示为本申请一示例性实施例提供的连续帧检测模型的训练装置的结构示意图。

图10所示为本申请一示例性实施例提供的视频检测装置的结构示意图。

图11所示为本申请一示例性实施例提供的基于视频验证的交易装置的结构示意图。

图12所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

申请概述

近年来，随着互联网技术的发展，特别是手机等具有摄录功能的可移动设备的普及，人们可以随时随地地拍摄高清晰度的图像和视频，将其发布到各种共享网络平台，或者将拍摄的视频作为司法领域的证据、或者作为金融领域的交易验证依据。然而，若有人对视频进行篡改，可能会造成一些不可挽回的损失，因此，通常需要对视频的连续性进行检测。

相关检测方法中，一般是将背景差分法与光流法融合，以确定视频的连续性。具体地，背景差分法的原理是将当前帧与背景图像进行差分运算，以得到目标运动区域，该方法需要事先构建一幅背景图像，这幅背景图像必须不包含运动目标，并且能够不断地更新来适应当前背景的变化。构建背景图像的方法有很多，比较常用的有基于高斯模型的背景构建、基于混合高斯模型的背景构建、基于中值滤波器的背景构建、基于拉尔曼滤波器的背景构建、基于核函数密度估计的背景模型构建等等。光流法是空间运动物体在观测成像平面上的像素运动的“瞬时速度”，光流法的检测原理是给图像中的每个像素点赋予一个速度矢量，以形成一个运动矢量场。在某一特定时刻，图像上的点与三维物体上的点一一对应，这种对应关系可以通过投影来计算得到。根据各个像素点的速度矢量特征，可以对图像进行动态分析。如果图像中没有运动目标，则光流矢量在整个图像区域是连续变化的。当图像中有运动目标时，运动目标和背景存在着相对运动，如此，便可计算出运动目标的位置。

图1所示为本申请一示例性实施例提供的利用背景差分法和光流法确定待检测视频连续性的流程示意图。如图1所示，首先选择待检测视频中的运动目标的检测区域，其次，选择待检测视频对应的背景帧，利用阈值T和背景帧对目标视频中的第i帧、第(i+1)帧、第(i+2)帧进行背景差分，进而得到差分后的第i帧、第(i+1)帧、第(i+2)帧。再利用光流法计算每帧的光流。示例性地，利用光流法计算第i帧光流和第(i+1)帧光流，若将第i帧光流表示为I_OF(i)，第(i+1)帧光流表示为I_OF(i+1)，则可利用公式(1)计算第i帧光流和第(i+1)帧光流的光流变化率R_OF(i)。

若相邻两帧的光流变化率大于1，则可认为待检测视频在时域上是不连续的；否则，认为待检测视频在时域上是连续的。从上述描述可以看出，利用背景差分法和光流法对待检测视频进行连续性检测，流程较为复杂，实现起来耗时较高，且准确率不高。基于此，本申请提供了一种模型训练方法，对现有技术不同的是，本申请通过N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据确定损失函数，并且第一图像特征数据和第二图像特征数据具有不同的精度，有利于提高连续帧检测模型对待检测视频帧的特征提取精度，进而提高连续视频帧检测的准确性。

示例性应用场景

本申请实施例提出的连续帧检测模型的训练方法可由电子设备执行，该电子设备可以是终端，比如智能手机、平板电脑、台式计算机。或者，该电子设备还可以是服务器，比如独立的物理服务器、由多个服务器组成的服务器集群、或者能进行云计算的云服务器。

本申请实施例提供了一种连续帧检测模型的训练方法的实施例环境示意图，在本申请实施例中，电子设备为服务器。具体地，如图2所示，本实施环境包括终端210和服务器220，终端210和服务器220之间通信连接。

终端210可以是智能手机、平板电脑、台式计算机等。终端210可以获取训练样本集，服务器220中部署有待训练连续帧检测模型，服务器220可以是实体机、也可以是虚拟机，数量可以是一个或多个，本申请实施例对服务器的类型和数量不作限定。

示例性地，终端210在获取训练样本集后，将其上传到服务器220中，服务器220基于训练样本集对待训练连续帧检测模型进行训练。

此外，本申请的连续帧检测模型的训练方法的实施环境还可以仅包括终端，终端中部署有待训练连续帧检测模型。此时，终端先获取训练样本集，然后利用训练样本集，对待训练连续帧检测模型进行训练。

示例性方法

图3所示为本申请一示例性实施例提供的连续帧检测模型的训练方法的流程示意图。如图3所示，本申请实施例提供的连续帧检测模型的训练方法包括如下步骤。

步骤S310，获取训练样本集。

具体地，训练样本集包括N个连续视频帧、在时序上与N个连续视频帧对应的N个非连续视频帧，N为正整数。N个连续视频帧是指N个视频帧在时序上连续、并且N个视频帧的内容是连续的；N个非连续视频帧是指N个视频帧在时序上连续，但N个视频帧的内容不是连续的。可利用与N个连续视频帧无关的视频帧，对N个连续视频帧中的某几帧视频进行替换，以得到N个非连续视频帧。示例性地，对N个连续视频帧中的第4连续视频帧、第8连续视频帧、第15连续视频帧进行替换，以得到N个非连续视频帧。

示例性地，训练样本集包含20个连续视频帧和20个非连续视频帧，20个连续视频帧在时序上可记为第1连续视频帧、第2连续视频帧、……、第20连续视频帧。20个非连续视频帧包括第1非连续视频帧、第2非连续视频帧、……、第20非连续视频帧。每个连续视频帧与每个非连续视频帧在时序上是一一对应关系，即第i连续视频帧对应第i非连续视频帧，i∈[1，2，……，20]。

步骤S320，基于N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数。

其中，第二图像特征数据的精度高于第一图像特征数据的精度，第一标签数据用于表示视频帧为连续的视频帧，第二标签数据用于表示视频帧为非连续的视频帧。

在一种可能的示例中，所述基于所述N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及所述N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数，包括：基于所述N个连续视频帧各自的第一图像特征数据、以及所述N个非连续视频帧各自的第一图像特征数据，确定第一损失函数；基于所述N个连续视频帧以及所述N个连续视频帧各自的第一图像特征数据、所述N个非连续视频帧以及所述N个非连续视频帧各自的第一图像特征数据，确定第二损失函数；基于所述N个连续视频帧各自的所述第二图像特征数据和所述第一标签数据、以及所述N个非连续视频帧各自的所述第二图像特征数据和所述第二标签数据，确定第三损失函数；基于所述第一损失函数、所述第二损失函数和所述第三损失函数，确定所述损失函数。

可见，本示例中，损失函数的确定依赖于第一损失函数、第二损失函数和第三损失函数，第一损失函数的确定利用了N个连续视频帧各自的第一图像特征数据以及N个非连续视频帧各自的第一图像特征数据，第二损失函数的确定利用了N个连续视频帧以及N个连续视频帧各自的第一图像特征数据，N个非连续视频帧以及所述N个非连续视频帧各自的第一图像特征数据，第三损失函数的确定利用了N个连续视频帧各自的第二图像特征数据和第一标签数据、以及N个非连续视频帧各自的第二图像特征数据和第二标签数据。

在一种可能的示例中，基于N个连续视频帧各自的第一图像特征数据、以及N个非连续视频帧各自的第一图像特征数据，确定第一损失函数，包括如下步骤。

步骤S410，基于N个连续视频帧各自的第一图像特征数据，确定N个连续视频帧各自的感知损失数据。

具体地，感知损失数用于表征第一图像特征数据的内容特征和图像特征。示例性地，针对每个连续视频帧，将连续视频帧的第一图像特征数据输入到目标图像生成器(Visual Graphics Generator，VGG)即可得到感知损失数据。示例性地，可以利用预先训练的VGG19确定连续视频帧的第一图像特征数据对应的感知损失数据。

步骤S420，基于N个非连续视频帧各自的第一图像特征数据，确定N个非连续视频帧各自的感知损失数据。

同样地，针对每个非连续视频帧，利用预先训练的VGG19确定非连续视频帧的第一图像特征数据的VGG感知损失数据。

步骤S430，基于N个连续视频帧各自的感知损失数据和N个非连续视频帧各自的感知损失数据，确定第一损失函数。

针对N个连续视频帧和N个非连续视频帧，若确定第k连续视频帧的第一图像特征数据的感知损失数据，则确定第k非连续视频帧的第一图像特征数据的感知损失数据，k∈[1，2，……，N]。

将时序对应的连续视频帧和非连续视频帧各自的感知损失数据进行均方误差的数学运算，以得到第一损失函数。示例性地，第一损失函数可表示为：

LOSS 1＝MSE[VGG(dense block 1)，VGG(dense block 2)]

其中，MSE表示均方误差(Mean Square Error)，VGG(dense block 1)表示denseblock 1输出的连续视频帧对应的、第一图像特征数据的VGG感知损失数据，VGG(denseblock 2)表示dense block 2输出的非连续视频帧对应的、第一图像特征数据的VGG感知损失数据。其中，dense block又称为稠密模块。

可见，本示例中，VGG19结构简单，提取特征的能力强，通过提取的特征可准确计算得到感知损失数据。此外，通过第一损失函数，可以使待训练连续帧检测模型对时序对应的连续视频帧和非连续视频帧的特征提取结果更趋于真实数据。

在一种可能的示例中，基于N个连续视频帧以及N个连续视频帧各自的第一图像特征数据、N个非连续视频帧以及N个非连续视频帧各自的第一图像特征数据，确定第二损失函数，包括如下步骤。

步骤S510，针对N个连续视频帧中的每个连续视频帧，确定每个连续视频帧和连续视频帧对应的第一图像特征数据之间的第一结构相似性数据。

具体地，第一结构相似性数据用于表征第一图像特征数据和连续视频帧的相似度。

步骤S520，针对N个非连续视频帧中的每个非连续视频帧，确定每个非连续视频和非连续视频对应的第一图像特征数据之间的第二结构相似性数据。

具体地，第二结构相似性数据用于表征第二图像特征数据和非连续视频帧的相似度。

步骤S530，基于N个第一结构相似性数据和N个所述第二结构相似性数据，确定所述第二损失函数。

同样地，针对N个连续视频帧和N个非连续视频帧，若确定第k连续视频帧以及第k连续视频帧对应的第一图像特征数据之间的第一结构相似性数据，则需确定第k非连续视频帧以及第k非连续视频帧对应的第一图像特征数据之间的第二结构相似性数据。

具体地，针对时序对应的连续视频帧和非连续视频帧，对第一结构相似性数据和第二结构相似性数据进行相加运算，得到第二损失函数。示例性地，第二损失函数可表示为：

LOSS 2＝SSIM(dense block 1，im 1)+SSIM(dense block 2，im 2)，

其中，SSIM表示结构相似性数据(Structural Similarity)，im 1表示通道1输入的连续视频帧，im 2表示通道2输入的非连续视频帧，SSIM(dense block 1，im 1)表示dense block 1输出的通道1的连续视频帧对应的第一图像特征数据和通道1输入的连续视频帧之间的结构相似性数据，SSIM(dense block 2，im 2)表示dense block 2输出的通道2的连续视频帧对应的第一图像特征数据和通道2输入的非连续视频帧之间的结构相似性数据。

可见，本示例中，通过本申请实施例中的第二损失函数，可以使待训练连续帧检测模型对连续视频帧的特征提取结果更接近真实的连续视频帧的特征、对非连续视频帧的特征提取结果更接近真实的非连续视频帧的特征，进而提高整个训练后的连续帧检测模型的鲁棒性。

在一种可能的示例中，基于N个连续视频帧各自的第二图像特征数据和第一标签数据、以及N个非连续视频帧各自的第二图像特征数据和第二标签数据，确定第三损失函数，包括如下步骤。

步骤S610，针对N个连续视频帧中的每个连续视频帧，基于连续视频帧的第二图像特征数据、连续视频帧时序对应的非连续视频帧的第二图像特征数据，确定连续视频帧对应的样本相似度数据。

具体地，样本相似度数据用于表征连续视频视频帧和非连续视频帧之间的相似度。针对N个连续视频帧和N个非连续视频帧，若确定第k连续视频帧的第二图像特征数据，则确定第k非连续视频帧的第二图像特征数据，进而确定第k连续视频帧的第二图像特征数据和第k非连续视频帧的第二图像特征数据之间的样本相似度数据Score，也即第k连续视频帧对应的样本相似度数据Score。

步骤S620，对N个连续视频帧各自对应的样本相似度数据、以及N个连续视频帧各自的第一标签数据和N个非连续视频帧各自的第二标签数据之间的差值数据进行范数运算，确定第三损失函数。

如前所述，第一标签数据用0表示，第二标签数据用1表示，则连续视频帧的第一标签数据为0，非连续视频帧的第二标签数据为1。

针对N个连续视频帧，若确定第k连续视频帧的样本相似度数据，则确定第k连续视频帧对应的第一标签数据和第k非连续视频帧对应的第二标签数据之间的差值数据。示例性地，第k连续视频帧对应的第一标签数据和第k非连续视频帧对应的第二标签数据之间的差值数据等于1。

示例性地，第三损失函数可以表示为：

LOSS 3＝||Score-1||²

可见，本示例中，通过本申请实施例中的第三损失函数，同样地，可以使待训练连续帧检测模型确定的连续视频帧和非连续视频帧的第二图像特征数据更接近真实数据，并且得到能够表征连续视频帧和非连续视频帧真实关系的相似度数据，以进一步提高连续帧检测模型的鲁棒性。

在本申请一示例性实施例中，训练后的连续帧检测模型包括第一特征提取网络、与第一特征提取网络连接的第二特征提取网络，在待训练连续帧检测模型的训练过程中，第一特征提取网络用于提取训练样本集包含的视频帧各自的第一图像特征数据，第二特征提取网络用于提取训练数据集包含的视频帧各自的第二图像特征数据，并且，训练后的连续帧检测模型包括两个输入通道，两个输入通道分别用于输入连续视频样本和非连续视频样本。

步骤S330，基于损失函数对待训练连续帧检测模型进行训练，得到训练后的连续帧检测模型。

在一种可能的示例中，基于第一损失函数、第二损失函数和第三损失函数，确定损失函数，包括如下步骤。

步骤S710，确定,第一损失函数对应的第一权重、第二损失函数对应的第二权重、以及第三损失函数对应的第三权重。

步骤S720，基于第一权重、第二权重以及第三权重，对第一损失函数、第二损失函数以及第三损失函数进行加权平均运算，确定损失函数。

示例性地，第一损失函数LOSS 1对应第一权重a，第二损失函数LOSS 2对应第二权重b，第三损失函数LOSS 3对应第三权重c，则损失函数LOSS＝a×LOSS 1+b×LOSS 2+c×LOSS 3。a、b、c的取值可根据待训练连续帧检测模型的训练过程而定。例如，a＝2、b＝1、c＝5，则损失函数LOSS＝2×LOSS 1+1×LOSS 2+5×LOSS 3。

可见，本示例中，确定每个损失函数对应的权重，并基于权重得到损失函数，以指导待训练网络模型的训练过程，得到更优的连续帧检测模型，方便后续确定目标视频的连续性。

综上所述，本申请实施例提供的连续帧检测模型的训练方法，通过N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据确定损失函数，由于第一图像特征数据和第二图像特征数据具有不同的精度，且同时使用了连续的视频帧和不连续的视频帧对模型进行训练，从而确保了训练后的连续帧检测模型能够更准确地提取待检测视频帧的特征，进而保证了连续视频帧检测的准确性，并且，连续帧检测模型的使用范围更广。

图4所示为本申请一示例性实施例提供的待训练连续帧检测模型的结构示意图。如图4所示，待训练连续帧检测模型包含两个输入通道，分别为通道1和通道2。示例性地，通道1用于输入连续视频帧，通道2用于输入与连续视频帧时序对应的非连续视频帧。然后经过卷积神经网络1和卷积神经网络2进行浅层的特征提取，示例性地，主要用于提取人脸的轮廓信息。示例性地，卷积神经网络1和卷积神经网络2均为3*3的卷积神经网络。而后，再分别进入dense block 1和dense block 2，在上述浅层特征提取的基础上进行高频抽象特征提取。之后，分别将高频抽象特征提取的结果输入到卷积神经网络3中，两个卷积神经网络3分别输出图片，并进一步计算两张图片之间的峰值信噪比数据(Peak Signal-to-NoiseRatio Data，PSNR)。与此同时，计算dense block 1输出的第一图像特征数据和通道1输入的连续视频帧之间的第一结构相似性数据、以及dense block 2输出的第一图像特征数据和通道2输入的非连续视频帧之间的第二结构相似性数据。同时，将dense block 1和denseblock 2的输出结果输入到compress 1和compress 2，最后，compress 1和compress 2输出一个样本相似度数据Score。其中，compress又称为压缩模块。

在本申请实施例中，第一特征提取网络包括dense block 1网络和dense block 2网络，第二特征提取网络包括compress 1网络和compress 2网络。图5所示为本申请一示例性实施例提供的dense block的网络结构示意图。在本申请实施例中，dense block包含dense block 1和dense block 2。如图5所示，dense block由五层卷积神经网络密集链接组成，后层卷积神经网络的输入均为前层卷积神经网络的输出。第五层卷积神经网络的作用是瓶颈层，用于对第四层卷积神经网络输出的特征数据进行降维。dense block的具体作用是将提取的浅层特征进行进一步的高频特征提取。第一层卷积神经网络至第四层卷积神经网络的大小可相同，也可不同。第五层卷积神经网络的大小相较于其他四层卷积神经网络为最小的。示例性地，第一层卷积神经网络至第四层卷积神经网络均为3*3的神经网络，第五层卷积神经网络为1*1的神经网络。

图6所示为本申请一示例性实施例提供的compress的网络结构示意图。在本申请实施例中，compress包含compress 1和compress 2。如图6所示，首先在compress网络的第一层卷积神经网络中进行下采样，下采样的过程再次将视频帧的特征进行了融合，示例性地，第一层卷积神经网络为步长为2的3*3网络。然后，将第一层卷积神经网络的下采样结果输入到Dense block3，进行高频特征提取，将目标视频中的目标对象的信息进一步补充。之后，Dense block 3的输出作为compress网络的第二层卷积神经网络的输入，再次进行下采样操作，示例性地，第二层卷积神经网络为步长为2的3*3网络。进一步地，进入池化层和扁平化层，对第二层卷积神经网络的输出结果进行降维，得到关于待训练连续帧检测模型的输入通道输入的视频帧各自对应的向量数据。最后，进入第三层卷积神经网络，并输出该通道对应的分值数据，示例性地，第三层卷积神经网络为1*1*1的卷积神经网络。

需要说明的是，在图6中所示实施例中，对第一层卷积神经网络至第三层卷积神经网络的大小的描述均为示例，本领域技术人员可根据实际情况选择卷积神经网络的大小。

图7所示为本申请一示例性实施例提供的视频检测方法的流程示意图。如图7所示，本申请实施例提供的视频检测方法包括如下步骤。

步骤S710，获取包含多个视频帧的目标视频。

示例性地，目标视频可以是公证视频、可以是待上传到网络平台的娱乐视频、也可以是用于金融交易的人脸验证视频、还可以是司法取证视频等等，本申请实施例对目标视频的类型和内容不做限定。

步骤S720，利用训练后的连续帧检测模型，检测目标视频包含的多个视频帧的连续性。

在一种可能的示例中，利用训练后的连续帧检测模型，检测目标视频包含的多个视频帧的连续性，包括如下步骤。

步骤S910，对目标视频包含的多个视频帧进行划分，生成M个视频帧集。

其中，每个视频帧集包括时序相邻的两个视频帧，并且，时序相邻的两个视频帧集各自包含的视频帧部分相同。

示例性地，M＝50，即，目标视频包括50个视频帧，50个视频帧在时序上依次称为第1视频帧、第2视频帧、……、第50视频帧，则该目标视频包含49个视频帧集，每个视频帧集在时序上依次称为第1视频帧集、第2视频帧集、……、第50视频帧集。第1视频帧集包含第1视频帧和第2视频帧，第2视频帧集包含第2视频帧和第3视频帧、……、第49视频帧集包含第49视频帧和第50视频帧。

步骤S920，针对M个视频帧集中的每个视频帧集，利用训练后的连续帧检测模型，确定视频帧集包括的时序相邻的两个视频帧的相似性数据。

相似性数据包括第一特征相似性数据和第二特征相似性数据。第一特征相似性数据和第二特征相似性数据是从两个角度来表示M个视频帧集中的同一个视频帧集的特征相似性数据。第一特征相似性数据和第二特征相似性数据的计算依据可以相同，也可以不同，且第一特征相似性数据和第二特征相似性数据的表现形式可以相同、也可以不同。

步骤S930，基于每个视频帧集包括的时序相邻的两个视频帧的相似性数据，确定每个视频帧集的连续性。

具体地，对每个视频帧集的第一特征相似性数据和第二特征相似性数据进行数学运算，运算结果若符合视频帧连续性判定条件，则该视频帧集包含的两个视频帧在时序上是连续的。若运算结果不符合视频帧连续性判定条件，则该视频帧集包含的两个视频帧在时序上是不连续的。

示例性地，对同一视频帧集的第一特征相似性数据和第二特征相似性数据进行加法运算，预设的视频帧连续性判定条件为同一视频帧的第一特征相似性数据和第二特征相似性数据的加法运算结果大于1.5，若第5视频帧集对应的第一特征相似性数据和第二特征相似性数据的加法运算结果等于3，则第5视频帧集包含的第5视频帧和第6视频帧在时序上是不连续的。若第7视频帧集对应的第一特征相似性数据和第二特征相似性数据的加法运算结果等于0.9，则第7视频帧集包含的第7视频帧和第8视频帧在时序上是连续的。

步骤S940，基于M个视频帧集各自的连续性，确定目标视频的连续性。

进一步地，根据预设的视频连续性判定条件，确定目标视频的连续性。

示例性地，预设的视频连续性判定条件为目标视频包含的非连续视频帧集的个数占总视频帧集的百分比小于或等于2％。进而，对于包含50个视频帧集的目标视频，若存在3个视频帧集是非连续的，则判定该目标视频是非连续的。若存在1个视频帧集是非连续的，则判定该目标视频是连续的。

需要说明的是，步骤S940中的方案可由训练后的连续帧检测模型来执行，也可由其他软件或一段设计好的程序算法来执行。

可见，本示例中，可以方便地根据每个视频帧集的连续性，判断整个目标视频的连续性。且该方案可以检测任意的目标视频，适用范围更广，计算成本低、效率高。

在一种可能的示例中，利用训练后的连续帧检测模型，确定视频帧集包括的时序相邻的两个视频帧的相似性数据，包括如下步骤。

步骤S1010，利用训练后的连续帧检测模型，确定每个视频帧集包括的时序相邻的两个视频帧各自对应的第一图像特征数据。

具体地，训练后的连续帧检测模型的网络结构与待训练连续帧检测模型的网络结构相同，同样包含两个输入通道。此时，每个输入通道分别用于输入同一个视频帧集中的两个时序相邻的视频帧。

进一步地，将同一个视频帧集中的两个视频帧分别输入训练后的连续帧检测模型的两个输入通道，经过两层卷积神经网络对视频帧集中的两个视频帧进行浅层特征提取，再进入dense block 1和dense block 2进行高频特征提取，进而得到视频帧集包括的两个视频帧各自对应的第一图像特征数据。

步骤S1020，基于时序相邻的两个视频帧各自对应的第一图像特征数据，确定时序相邻的两个视频帧各自对应的第一特征相似性数据。

示例性地，第一特征相似性数据为峰值信噪比数据。

步骤S1030，基于时序相邻的两个视频帧各自对应的第一图像特征数据，确定时序相邻的两个视频帧各自对应的第二图像特征数据。

具体地，将dense block 1的输出作为compress 1的输入，将dense block 2的输出作为compress 2的输入，在compress 1和compress 2中继续进行高频特征提取，进而确定视频帧集包含的两个视频帧各自对应的第二图像特征数据。

步骤S1040，基于时序相邻的两个视频帧各自对应的第二图像特征数据，确定时序相邻的两个视频帧对应的第二特征相似性数据。

示例性地，第二特征相似性数据为相似性分值数据，数据一般在0-1之间。

步骤S1050，基于第一特征相似性数据和第二特征相似性数据，确定相似性数据。

示例性地，将峰值信噪比数据缩小一定的倍数，以将峰值信噪比数据压缩至0-1之间，而后，将压缩后的峰值信噪比数据和相似性分值数据相加，相加结果即为相似性数据。

需要说明的是，本申请实施例中的第二特征相似性数据与前述待训练连续帧检测模型对应得到的样本相似度数据是同一类型的数据。

可见，本示例中，利用训练后的连续帧检测模型，可以快速、准确地得到关于视频帧集包含的时序相邻的两个视频帧的第一特征相似性数据和第二特征相似性数据，以便基于第一特征相似性数据和第二特征相似性数据，准确地检测视频帧集包含的时序相邻的两个视频帧的连续性。

在一种可能的示例中，第一特征相似性数据包括峰值信噪比数据，基于时序相邻的两个视频帧各自的第一图像特征数据，确定时序相邻的两个视频帧的第一特征相似性数据，包括如下步骤。

步骤S1110，基于时序相邻的两个视频帧各自对应的第一图像特征数据，生成时序相邻的两个视频帧各自对应的特征图像。

具体地，将dense block 1和dense block 2输出的第一图像特征数据分别输入至卷积神经网络3，得到通道1和通道2中的两个视频帧各自对应的特征图像。

步骤S1120，基于两个视频帧各自对应的特征图像，确定时序相邻的两个视频帧之间的峰值信噪比数据。

可见，本示例中，通过本申请实施例中的方案，可以更具体地对视频帧集中的两个视频帧第一图像特征数据进行运算操作，得到其对应的第一特征相似性数据。以便基于第一特征相似性数据，判断视频帧集包含的时序相邻的两个视频帧的连续性。

综上所述，本申请实施例提供的视频检测方法，在获取到目标视频后，将目标视频包含的多个视频帧输入到训练后的连续帧检测模型，由于连续帧检测模型的训练过程中采用了大量的连续的视频帧和不连续的视频帧作为样本集，且进一步结合了训练集中各个连续帧的第一图像特征数据和第二图像特征数据，得到了准确性较高的连续视频帧检测，因此，可以准确地检测出目标视频中的多个视频帧是否具有连续性。

图8所示为本申请一示例性实施例提供的基于视频验证的交易方法的流程示意图。示例性地，该方法应用于交易验证系统。如图8所示，该方法包括如下步骤。

步骤S810，响应于目标用户的交易请求，发送针对目标用户的视频验证提示信息。

具体地，该视频验证提示可以是语音提示、也可以是文字提示，本申请实施例对视频验证提示的形式不做限定。

步骤S820，接收关于目标用户的响应于视频验证提示信息的目标视频。

具体地，该目标视频的时长和内容是根据预先设置的目标视频的时长和内容而定的。

步骤S830，检测目标视频的连续性。

具体地，基于本申请前述实施例中所提及的视频检测方法来检测目标视频包含的多个视频帧的连续性。

步骤S840，若确定目标视频包含的多个视频帧具有连续性，则通过目标用户的交易请求。

综上所述，本申请实施例提供的基于视频验证的交易方法，在交易时接收目标用户提供的用于视频验证的目标视频后，可以利用训练后的连续帧检测模型来检测目标视频中的多个视频帧的连续性，由于连续帧检测模型的训练过程中采用了大量的连续的视频帧和不连续的视频帧作为样本集，且进一步结合了训练集中各个连续帧的第一图像特征数据和第二图像特征数据，得到了准确性较高的连续视频帧检测，因此，可以简单、快速且准确地确定需要目标视频的连续性，从而在确定多个视频帧具有连续性后可以通过目标的交易请求，有利于提高交易的安全性，以保证金融交易的安全进行。

上文结合图1至图8，详细描述了本申请的方法实施例，下面结合图9-图11，详细描述本申请的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图9所示为本申请一示例性实施例提供的连续帧检测模型的训练装置的结构示意图。如图9所示，本申请实施例提供的连续帧检测模型的训练装置90包括：

第一确定模块910，用于获取训练样本集，训练样本集包括N个连续视频帧、在时序上与N个连续视频帧对应的N个非连续视频帧，N为正整数；

第二确定模块920，用于基于N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数，其中，第二图像特征数据的精度高于第一图像特征数据的精度，第一标签数据用于表示视频帧为连续的视频帧，第二标签数据用于表示视频帧为非连续的视频帧；

第三确定模块930，用于基于损失函数对待训练连续帧检测模型进行训练，得到训练后的连续帧检测模型。

在本申请一实施例中，第二确定模块920还用于，基于N个连续视频帧各自的第一图像特征数据、以及N个非连续视频帧各自的第一图像特征数据，确定第一损失函数；基于N个连续视频帧以及N个连续视频帧各自的第一图像特征数据、N个非连续视频帧以及N个非连续视频帧各自的第一图像特征数据，确定第二损失函数；基于N个连续视频帧各自的第二图像特征数据和第一标签数据、以及N个非连续视频帧各自的第二图像特征数据和第二标签数据，确定第三损失函数；基于第一损失函数、第二损失函数和第三损失函数，确定损失函数。

在本申请一实施例中，第二确定模块920还用于，基于N个连续视频帧各自的第一图像特征数据，确定N个连续视频帧各自的感知损失数据，感知损失数用于表征第一图像特征数据的内容特征和图像特征；

基于N个非连续视频帧各自的第一图像特征数据，确定N个非连续视频帧各自的感知损失数据；基于N个连续视频帧各自的感知损失数据和N个非连续视频帧各自的感知损失数据，确定第一损失函数。

在本申请一实施例中，第二确定模块920还用于，针对N个连续视频帧中的每个连续视频帧，确定连续视频帧和连续视频帧对应的第一图像特征数据之间的第一结构相似性数据，第一结构相似性数据用于表征第一图像特征数据和连续视频帧的相似度；针对N个非连续视频帧中的每个非连续视频帧，确定非连续视频和非连续视频对应的第一图像特征数据之间的第二结构相似性数据，第二结构相似性数据用于表征第二图像特征数据和非连续视频帧的相似度；基于N个连续视频帧各自的第一结构相似性数据和N个非连续视频帧各自的第二结构相似性数据，确定第二损失函数。

在本申请一实施例中，第二确定模块920还用于，针对N个连续视频帧中的每个连续视频帧，基于连续视频帧的第二图像特征数据、连续视频帧时序对应的非连续视频帧的第二图像特征数据，确定连续视频帧对应的样本相似度数据，样本相似度数据用于表征连续视频视频帧和非连续视频帧之间的相似度；对N个连续视频帧各自对应的样本相似度数据、以及N个连续视频帧各自的第一标签数据和N个非连续视频帧各自的第二标签数据之间的差值数据进行范数运算，确定第三损失函数。

在本申请一实施例中，第二确定模块920还用于，确定第一损失函数对应的第一权重、第二损失函数对应的第二权重、以及第三损失函数对应的第三权重；基于第一权重、第二权重以及第三权重，对第一损失函数、第二损失函数以及第三损失函数进行加权平均运算，确定损失函数。

图10所示为本申请一示例性实施例提供的视频检测装置的结构示意图。如图10所示，本申请实施例提供的视频检测装置100包括：

获取模块1010，用于获取包含多个视频帧的目标视频；

检测模块1020，用于利用训练后的连续帧检测模型，检测目标视频包含的多个视频帧的连续性。

在本申请一实施例中，检测模块1020还用于，对目标视频包含的多个视频帧进行划分，生成M个视频帧集，其中，每个视频帧集包括时序相邻的两个视频帧，并且，时序相邻的两个视频帧集各自包含的视频帧部分相同；针对M个视频帧集中的每个视频帧集，利用训练后的连续帧检测模型，确定视频帧集包括的时序相邻的两个视频帧的相似性数据；基于每个视频帧集包括的时序相邻的两个视频帧的相似性数据，确定每个视频帧集的连续性；基于M个视频帧集各自的连续性，确定目标视频的连续性。

在本申请一实施例中，检测模块1020还用于，利用训练后的连续帧检测模型，确定视频帧集包括的时序相邻的两个视频帧各自的第一图像特征数据；基于时序相邻的两个视频帧各自的第一图像特征数据，确定时序相邻的两个视频帧的第一特征相似性数据；基于时序相邻的两个视频帧各自的第一图像特征数据，确定时序相邻的两个视频帧各自的第二图像特征数据；基于时序相邻的两个视频帧各自的第二图像特征数据，确定时序相邻的两个视频帧的第二特征相似性数据；基于第一特征相似性数据和第二特征相似性数据，确定相似性数据。

在本申请一实施例中，检测模块1020还用于，基于时序相邻的两个视频帧各自的第一图像特征数据，生成时序相邻的两个视频帧各自对应的特征图像；基于两个视频帧各自对应的特征图像，确定时序相邻的两个视频帧之间的峰值信噪比数据。

图11所示为本申请一示例性实施例提供的基于视频验证的交易装置的结构示意图。如图11所示，本申请实施例提供的视频检测装置110包括：

发送模块1110，用于响应于目标用户的交易请求，发送针对所述目标用户的视频验证提示信息；

接收模块1120，用于接收目标用户响应于视频验证提示信息的目标视频；

检测模块1130，用于检测目标视频包含的多个视频帧的连续性；

交易模块1140，用于若确定目标视频包含的多个视频帧具有连续性，则通过目标用户的交易请求。

下面，参考图12来描述根据本申请实施例的电子设备。图12所示为本申请一示例性实施例提供的电子设备的结构示意图。

如图12所示，电子设备120包括一个或多个处理器1201和存储器1202。

处理器1201可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备120中的其他组件以执行期望的功能。

存储器1202可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1201可以运行所述程序指令，以实现上文所述的本申请的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如包括目标视频、待训练连续帧检测模型、第一特征相似性数据、第二特征相似性数据等各种内容。

在一个示例中，电子设备120还可以包括：输入装置1203和输出装置1204，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置1203可以包括例如键盘、鼠标等等。

该输出装置1204可以向外部输出各种信息，包括目标视频、待训练连续帧检测模型、第一特征相似性数据、第二特征相似性数据等。该输出装置1204可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备120中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备120还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种连续帧检测模型的训练方法，其特征在于，包括：

获取训练样本集，所述训练样本集包括N个连续视频帧、在时序上与所述N个连续视频帧对应的N个非连续视频帧，N为正整数；

基于所述N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及所述N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数，其中，所述第二图像特征数据的精度高于所述第一图像特征数据的精度，所述第一标签数据用于表示视频帧为连续的视频帧，所述第二标签数据用于表示视频帧为非连续的视频帧；

基于所述损失函数对所述待训练连续帧检测模型进行训练，得到训练后的连续帧检测模型。

2.根据权利要求1所述的连续帧检测模型的训练方法，其特征在于，所述基于所述N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及所述N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数，包括：

基于所述N个连续视频帧各自的第一图像特征数据、以及所述N个非连续视频帧各自的第一图像特征数据，确定第一损失函数；

基于所述N个连续视频帧以及所述N个连续视频帧各自的第一图像特征数据、所述N个非连续视频帧以及所述N个非连续视频帧各自的第一图像特征数据，确定第二损失函数；

基于所述N个连续视频帧各自的所述第二图像特征数据和所述第一标签数据、以及所述N个非连续视频帧各自的所述第二图像特征数据和所述第二标签数据，确定第三损失函数；

基于所述第一损失函数、所述第二损失函数和所述第三损失函数，确定所述损失函数。

3.根据权利要求2所述的连续帧检测模型的训练方法，其特征在于，所述基于所述N个连续视频帧各自的第一图像特征数据、以及所述N个非连续视频帧各自的第一图像特征数据，确定第一损失函数，包括：

基于所述N个连续视频帧各自的第一图像特征数据，确定所述N个连续视频帧各自的感知损失数据，所述感知损失数用于表征所述第一图像特征数据的内容特征和图像特征；

基于所述N个非连续视频帧各自的第一图像特征数据，确定所述N个非连续视频帧各自的感知损失数据；

基于所述N个连续视频帧各自的感知损失数据和所述N个非连续视频帧各自的感知损失数据，确定所述第一损失函数。

4.根据权利要求2所述的连续帧检测模型的训练方法，其特征在于，所述基于所述N个连续视频帧以及所述N个连续视频帧各自的第一图像特征数据、所述N个非连续视频帧以及所述N个非连续视频帧各自的第一图像特征数据，确定第二损失函数，包括：

针对所述N个连续视频帧中的每个连续视频帧，确定所述连续视频帧和所述连续视频帧对应的第一图像特征数据之间的第一结构相似性数据，所述第一结构相似性数据用于表征第一图像特征数据和所述连续视频帧的相似度；

针对所述N个非连续视频帧中的每个非连续视频帧，确定所述非连续视频和所述非连续视频对应的第一图像特征数据之间的第二结构相似性数据，所述第二结构相似性数据用于表征第二图像特征数据和所述非连续视频帧的相似度；

基于所述N个连续视频帧各自的第一结构相似性数据和所述N个非连续视频帧各自的第二结构相似性数据，确定所述第二损失函数。

5.根据权利要求2所述的连续帧检测模型的训练方法，其特征在于，所述基于所述N个连续视频帧各自的所述第二图像特征数据和所述第一标签数据、以及所述N个非连续视频帧各自的所述第二图像特征数据和所述第二标签数据，确定第三损失函数，包括：

针对所述N个连续视频帧中的每个连续视频帧，基于所述连续视频帧的第二图像特征数据、所述连续视频帧时序对应的非连续视频帧的第二图像特征数据，确定所述连续视频帧对应的样本相似度数据，所述样本相似度数据用于表征所述连续视频视频帧和所述非连续视频帧之间的相似度；

对所述N个连续视频帧各自对应的样本相似度数据、以及所述N个连续视频帧各自的第一标签数据和所述N个非连续视频帧各自的第二标签数据之间的差值数据进行范数运算，确定所述第三损失函数。

6.根据权利要求2所述的连续帧检测模型的训练方法，其特征在于，所述基于所述第一损失函数、所述第二损失函数和所述第三损失函数，确定所述损失函数，包括：

确定所述第一损失函数对应的第一权重、所述第二损失函数对应的第二权重、以及所述第三损失函数对应的第三权重；

基于所述第一权重、所述第二权重以及所述第三权重，对所述第一损失函数、所述第二损失函数以及所述第三损失函数进行加权平均运算，确定所述损失函数。

7.一种视频检测方法，其特征在于，包括：

获取包含多个视频帧的目标视频；

利用训练后的连续帧检测模型，检测所述目标视频包含的所述多个视频帧的连续性，所述训练后的连续帧检测模型基于权利要求1至6任一项所述的连续帧检测模型的训练方法训练得到。

8.根据权利要求7所述的视频检测方法，其特征在于，所述利用训练后的连续帧检测模型，检测所述目标视频包含的所述多个视频帧的连续性，包括：

对所述目标视频包含的所述多个视频帧进行划分，生成M个视频帧集，其中，每个所述视频帧集包括时序相邻的两个视频帧，并且，时序相邻的两个视频帧集各自包含的视频帧部分相同；

针对所述M个视频帧集中的每个视频帧集，利用所述训练后的连续帧检测模型，确定所述视频帧集包括的时序相邻的两个视频帧的相似性数据；

基于每个所述视频帧集包括的时序相邻的两个视频帧的相似性数据，确定所述每个视频帧集的连续性；

基于所述M个视频帧集各自的连续性，确定所述目标视频的连续性。

9.根据权利要求8所述的视频检测方法，其特征在于，所述利用所述训练后的连续帧检测模型，确定所述视频帧集包括的时序相邻的两个视频帧的相似性数据，包括：

利用所述训练后的连续帧检测模型，确定所述视频帧集包括的时序相邻的两个视频帧各自的第一图像特征数据；

基于所述时序相邻的两个视频帧各自的第一图像特征数据，确定所述时序相邻的两个视频帧的第一特征相似性数据；

基于所述时序相邻的两个视频帧各自的第一图像特征数据，确定所述时序相邻的两个视频帧各自的第二图像特征数据；

基于所述时序相邻的两个视频帧各自的第二图像特征数据，确定所述时序相邻的两个视频帧的第二特征相似性数据；

基于所述第一特征相似性数据和所述第二特征相似性数据，确定所述相似性数据。

10.根据权利要求9所述的视频检测方法，其特征在于，所述第一特征相似性数据包括峰值信噪比数据，所述基于所述时序相邻的两个视频帧各自的第一图像特征数据，确定所述时序相邻的两个视频帧的第一特征相似性数据，包括：

基于所述时序相邻的两个视频帧各自的第一图像特征数据，生成所述时序相邻的两个视频帧各自对应的特征图像；

基于所述两个视频帧各自对应的特征图像，确定所述时序相邻的两个视频帧之间的峰值信噪比数据。

11.一种基于视频验证的交易方法，其特征在于，包括：

响应于目标用户的交易请求，发送针对所述目标用户的视频验证提示信息；

接收所述目标用户响应于所述视频验证提示信息的目标视频；

基于权利要求7至10任一项所述的视频检测方法，检测所述目标视频包含的多个视频帧的连续性；

若确定所述目标视频包含的多个视频帧具有连续性，则通过所述目标用户的交易请求。

12.一种连续帧检测模型的训练装置，其特征在于，包括：

第一确定模块，用于获取训练样本集，所述训练样本集包括N个连续视频帧、在时序上与所述N个连续视频帧对应的N个非连续视频帧，N为正整数；

第二确定模块，用于基于所述N个连续视频帧各自的第一图像特征数据、第二图像特征数据和第一标签数据，以及所述N个非连续视频帧各自的第一图像特征数据、第二图像特征数据和第二标签数据，确定待训练连续帧检测模型的损失函数，其中，所述第二图像特征数据的精度高于所述第一图像特征数据的精度，所述第一标签数据用于表示视频帧为连续的视频帧，所述第二标签数据用于表示视频帧为非连续的视频帧；

第三确定模块，用于基于所述损失函数对所述待训练连续帧检测模型进行训练，得到训练后的连续帧检测模型。

13.一种视频检测装置，其特征在于，包括：

获取模块，用于获取包含多个视频帧的目标视频；

检测模块，用于利用训练后的连续帧检测模型，检测所述目标视频包含的所述多个视频帧的连续性，所述训练后的连续帧检测模型基于权利要求1至6任一项所述的连续帧检测模型的训练方法训练得到。

14.一种基于视频验证的交易装置，其特征在于，包括：

发送模块，用于响应于目标用户的交易请求，发送针对所述目标用户的视频验证提示信息；

接收模块，用于接收所述目标用户响应于所述视频验证提示信息的目标视频；

检测模块，用于基于权利要求7至10任一项所述的视频检测方法，检测所述目标视频包含的多个视频帧的连续性；

交易模块，用于若确定所述目标视频包含的多个视频帧具有连续性，则通过所述目标用户的交易请求。

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一项所述的连续帧检测模型的训练方法，或者，执行上述权利要求7-10任一项所述的视频检测方法，或者，执行上述权利要求11所述的基于视频验证的交易方法。

16.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-6任一项所述的连续帧检测模型的训练方法，或者，执行上述权利要求7-10任一项所述的视频检测方法，或者，执行上述权利要求11所述的基于视频验证的交易方法。