CN114782853A

CN114782853A - 视频数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN114782853A
Application number: CN202110013621.3A
Authority: CN
Inventors: 刘兵; 曹浩宇; 郑岩; 王斌; 包志敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-07-22

Abstract

本申请涉及一种视频数据处理方法、装置、计算机设备和存储介质。所述方法包括：获取包含待鉴别证件的视频帧序列；确定所述待鉴别证件在所述视频帧序列中的位置；根据所述待鉴别证件在所述视频帧序列中的位置，确定所述待鉴别证件在所述视频帧序列中的多个位置状态；将各个所述位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧；所述预设动作为使得标准证件的防伪点发生变化的动作，所述标准证件与所述待鉴别证件的类型一致；根据所述候选关键帧，确定所述待鉴别证件的鉴别结果。采用本方法能够扩展了证件真伪鉴别的应用范围。

Description

视频数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频数据处理方法、装置、计算机设备和存储介质。

背景技术

证件通常用于证明用户各种身份，包括但不限于身份证、护照、教师证、员工证等等。在各种使用到证件的场合，为保证信息安全，通常需要对证件的真伪进行鉴别。

传统技术中，在鉴别证件的真伪时，通常是读取证件的芯片内图像，同时获取证件的扫描图像，二者比对鉴别证件真伪，然而这种方式依赖于证件实物，应用范围比较局限。

发明内容

基于此，有必要针对上述技术问题，提供一种能够扩展证件真伪鉴别的应用范围的视频数据处理方法、装置、计算机设备和存储介质。

一种视频数据处理方法，其特征在于，所述方法包括：

获取包含待鉴别证件的视频帧序列；

确定所述待鉴别证件在所述视频帧序列中的位置；

根据所述待鉴别证件在所述视频帧序列中的位置，确定所述待鉴别证件在所述视频帧序列中的多个位置状态；

将各个所述位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧；所述预设动作为使得标准证件的防伪点发生变化的动作，所述标准证件与所述待鉴别证件的类型一致；

根据所述候选关键帧，确定所述待鉴别证件的鉴别结果。

在其中一个实施例中，所述第一卷积层包括多层尺度依次减小的卷积层；所述分别将所述模板图和所述搜索图输入所述第一卷积层中，通过所述第一卷积层分别对所述模板图和所述搜索图进行特征提取包括：

通过所述第一卷积层对所述模板图进行多次特征提取，每一次特征提取，将前一层卷积层的输出特征与输入特征进行融合，得到当前输入特征，将所述当前输入特征输入当前卷积层，通过当前卷积层进行卷积处理。

一种视频数据处理装置，其特征在于，所述装置包括：

视频帧获取模块，用于获取包含待鉴别证件的视频帧序列；

位置确定模块，用于确定所述待鉴别证件在所述视频帧序列中的位置；

位置状态确定模块，用于根据所述待鉴别证件在所述视频帧序列中的位置，确定所述待鉴别证件在所述视频帧序列中的多个位置状态；

匹配模块，用于将各个所述位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧；所述预设动作为使得标准证件的防伪点发生变化的动作，所述标准证件与所述待鉴别证件的类型一致；

鉴别结果确定模块，用于根据所述候选关键帧，确定所述待鉴别证件的鉴别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取包含待鉴别证件的视频帧序列；

确定所述待鉴别证件在所述视频帧序列中的位置；

根据所述候选关键帧，确定所述待鉴别证件的鉴别结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取包含待鉴别证件的视频帧序列；

确定所述待鉴别证件在所述视频帧序列中的位置；

根据所述候选关键帧，确定所述待鉴别证件的鉴别结果。

上述视频数据处理方法、装置、计算机设备和存储介质，通过获取包含待鉴别证件的视频帧序列，并进一步确定所述待鉴别证件在所述视频帧序列中的位置，根据所述待鉴别证件在所述视频帧序列中的位置，确定所述待鉴别证件在所述视频帧序列中的多个位置状态，将各个所述位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧，由于预设动作为使得标准证件的防伪点发生变化的动作，而标准证件与所述待鉴别证件的类型一致，因此根据候选关键帧可以确定待鉴别证件的鉴别结果。本申请实施例中，在对证件进行真伪鉴别时，只需要获取到视频帧序列，不依赖于证件实体，极大的扩展了证件真伪鉴别的应用范围。

附图说明

图1为一个实施例中视频数据处理方法的应用环境图；

图2为一个实施例中视频数据处理方法的流程示意图；

图3为一个实施例中确定初始视频帧的流程示意图；

图3A为一个实施例中目标检测模型的网络结构示意图；

图4为另一个实施例中确定所述待鉴别证件在视频帧序列中的位置的流程示意图；

图5为一个实施例中通过目标跟踪模型进行目标跟踪的过程示意图；

图6为一个实施例中确定鉴别结果的流程示意图；

图7为一个实施例中获取目标关键帧的步骤流程示意图；

图8为一个实施例中视频数据处理装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉等技术，具体通过如下实施例进行说明:

本申请提供的视频数据处理方法，可以应用于如图1所示的应用环境中。终端102和服务器104均可单独用于执行本申请实施例中提供的视频数据处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的视频数据处理生成方法。例如，终端可以通过视频拍摄获取包含待鉴别证件的视频帧序列，将获取到的视频帧序列发送至服务器，服务器确定待鉴别证件在视频帧序列中的位置，根据待鉴别证件在视频帧序列中的位置，确定待鉴别证件在视频帧序列中的多个位置状态，将各个位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧，根据候选关键帧，确定待鉴别证件的鉴别结果，最后将鉴别结果返回至终端102。这里的预设动作为使得标准证件的防伪点发生变化的动作，标准证件与待鉴别证件的类型一致。

其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种视频数据处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取包含待鉴别证件的视频帧序列。

其中，待鉴别证件指的是需要鉴别真伪的证件，根据业务场景的不同，证件具体可以是各类具有防伪点的证件，比如待鉴别证件具体可以是各类身份证，例如二代身份证，中国香港身份证，马来西亚身份证等等。

具体地，视频帧序列可以是终端拍摄的视频。例如，终端可提示用户手持待鉴别证件拍摄视频，在拍摄的过程中，给出提示信息，提示用户对待鉴别证件执行预设动作。其中提示信息包括可以是语音提示、文字提示中的至少一种。视频帧序列还可以是终端从其他计算机设备获取的视频。例如，用户可以通过其他计算机设备拍摄视频帧序列，并通过网络或蓝牙等方式发送至终端。

步骤204，确定待鉴别证件在视频帧序列中的位置。

其中，待鉴别证件在视频帧序列中的位置指的是待鉴别证件在视频帧序列所包含的视频帧中的位置坐标。在具体实施时，待鉴别证件在视频帧序列中的位置通常用待鉴别证件对应的图像区域的四个顶点坐标进行表示。

在一个实施例中，终端拍摄的视频帧序列中不一定每一帧都包含待鉴别证件，那么终端在确定待鉴别证件的位置时，可以对不包含待鉴别证件的视频帧进行舍弃，并确定待鉴别证件在剩下的各帧视频帧中的位置。对于包含待鉴别证件的视频帧，每一帧视频帧都会对应一个位置。

可以理解，包含待鉴别证件的各帧视频帧之间的位置可以相同也可以不同，通常而言，短时间内的连续视频帧对应的位置变化不大，可以近似地认为相同，那么在一个实施例中，为了提高处理效率，终端可以每隔预设帧进行一次位置确定。这里的预设帧可以由相关技术人员根据经验进行设定。

在一个实施例中，终端可以对视频帧序列中的视频帧进行直线检测，根据检测得到的待鉴别证件的四条边对应的直线进行组合，得到待鉴别证件在视频帧中的位置坐标。终端在进行直线检测时可以采用霍夫直线检测算法。

在另一个实施例中，终端可以通过训练后的机器学习模型从视频帧序列的视频帧中确定待鉴别证件的位置坐标。例如，终端可以通过训练后的用于图像分割的机器学习模型对视频帧序列中的视频帧进行图像分割，以从视频帧序列中的各帧视频帧中确定待鉴别证件的位置坐标；又如，终端可以通过训练后的用于目标检测的机器学习模型对视频帧序列中各帧视频帧进行目标检测，以从视频帧序列中的视频帧中确定待鉴别证件的位置坐标；再比如，终端可以通过训练后的用于目标跟踪的机器学习模型对视频帧序列中的视频帧进行目标跟踪，以确定待鉴别证件在视频帧序列中的位置。

步骤206，根据待鉴别证件在视频帧序列中的位置，确定待鉴别证件在视频帧序列中的多个位置状态。

其中，位置状态指的是与待鉴别证件在视频帧中的位置对应的状态信息。位置状态与预设动作对应，根据预设动作的不同，位置状态可以包括翻转状态和平放状态。翻转状态用于描述待鉴别证件被执行翻转动作后的状态，而平放状态用于描述待鉴别证件被执行平放动作后的状态。翻转状态包括方向信息和角度信息，方向信息用于描述翻转的方向，而角度信息用于描述翻转的角度。

具体地，终端可预先获取位置与位置状态之间的映射关系，在确定了待鉴别证件在视频帧序列中各帧视频帧的位置后，终端可以根据该映射关系确定待鉴别证件在各帧视频帧中的位置状态，分别得到与各帧视频帧对应的位置状态。

在一个实施例中，终端可预先训练用于预测位置状态的机器学习模型，通过该机型学习模型学习位置与位置状态之间的映射关系，那么在确定位置状态时，终端可分别将待鉴别证件在各帧视频帧的位置分别输入该机器学习模型，根据该机器学习模型的输出结果确定各帧视频帧的位置状态。

步骤208，将各个位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧。

其中，预设动作为使得标准证件的防伪点发生变化的动作，这里的标准证件为真的证件，且与待鉴别证件的类型一致。证件的防伪点通常包括动态防伪点和静态防伪点中的至少一种。动态防伪点例如是变色油墨、动感印刷字体、动感印刷人像等等。动态防伪点可以在用户执行翻转动作时发生变化，而静态防伪点可以在证件平放时发生变化。那么对于包含动态防伪点的证件，根据不同证件的动态防伪点的变化情况，预示动作可以包括向上翻转、向下翻转、向左翻转、向右翻转中的一种或多种。对于包含静态防伪点的证件，预设动作包括平放动作。可以理解的是，这里的翻转以及平放都是证件在视频画面中的呈现方式。

预设动作对应的目标位置状态指的是对待鉴别证件执行预设动作所期望的待鉴别证件的位置状态。在目标位置状态，标准证件的防伪点会发生明显变化。目标位置状态可由相关技术人员根据经验进行事先设定。例如，当预设动作为上翻动作时，该上翻动作对应的目标位置状态可以包括对待鉴别证件执行预设动作所期望的待鉴别证件的角度信息。这里的角度信息可以是具体的角度值或者角度区间。

具体地，终端将各帧视频帧对应的位置状态分别与目标位置状态进行匹配，判断是否存在位置状态与目标位置状态相匹配的视频帧，当存在任意一帧视频帧对应的位置状态与目标位置状态匹配成功时，将该视频帧确定为待鉴别的候选关键帧。可以理解，当预设动作包括多个时，对应的目标位置状态也会有多个，那么终端可以将各帧视频帧分别与各个目标位置状态进行匹配，当任意一帧视频帧对应的位置状态与任意一个目标位置状态匹配成功时，将该视频帧确定为待鉴别的候选关键帧。得到的候选关键帧可以是一帧或者多帧。

在一个实施例中，当不存在位置状态与目标位置状态相匹配的视频帧时，终端可以判定对视频帧序列的真伪鉴别不通过。

在一个实施例中，各个视频帧中待鉴别证件的位置状态包括方向信息和角度信息，目标位置状态包括目标方向信息和目标角度信息，终端分别将各个视频帧对应的方向信息与目标方向信息进行匹配，并且分别将各个视频帧对应的角度向信息与目标角度信息进行匹配，当任意一帧视频帧对应的方向信息与目标方向信息一致且该视频帧对应的角度信息与目标角度信息一致时，说明该视频帧的位置状态与目标位置状态匹配成功，那么终端可以将该视频帧确定为候选关键帧。

步骤210，根据候选关键帧，确定待鉴别证件的鉴别结果。

其中，鉴别结果包括第一鉴别结果及第二鉴别结果中的其中一种，第一鉴别结果用于表征对视频帧序列的真伪鉴别通过，即待鉴别证件为真证件，第二鉴别结果用于表征对视频帧序列的真伪鉴别不通过，即待鉴别证件为假证件或者视频帧序列中不存在位置状态与预设动作对应的目标位置状态匹配的视频帧。

具体地，由于候选关键帧是位置状态与目标位置状态匹配的视频帧，若待鉴别证件为真证件，那么该目标位置状态下，其防伪点会发生明显变化，而如果待鉴别证件为假证件，那么该在目标位置状态下，其防伪点不会发生变化，因此，终端可以根据候选关键帧，确定待鉴别证件的鉴别结果。

在一个实施例中，预设动作包括多个，各个预设动作的目标位置状态显然是不相同的，那么终端将各个视频帧对应的位置状态与预设动作对应的目标位置状态进行匹配时，视频帧对应的位置状态匹配上任意一个目标位置状态，则将该视频帧确定为该目标位置状态对应的预设动作的候选位置状态，最终会分别得到各个预设动作各自对应的候选关键帧。候选关键帧可以为一帧或者多帧。

在一个实施例中，当候选关键帧为多帧时，终端可以从多帧候选帧中随机选择一帧确定为目标关键帧，从而得到各个候选动作各自对应的目标关键帧，根据这些目标关键帧，终端可以对待鉴别证件进行真伪鉴别得到鉴别结果。

在另一个实施例中，当候选关键帧为多帧时，终端可以从多帧候选帧中选择质量最优的一帧确定为目标关键帧，从而得到各个候选动作各自对应的目标关键帧，根据这些目标关键帧，终端可以对待鉴别证件进行真伪鉴别得到鉴别结果。在具体实施例中，质量最优的一帧，例如可以是清新度最高的一帧。

上述视频数据处理方法中，通过获取包含待鉴别证件的视频帧序列，并进一步确定待鉴别证件在视频帧序列中的位置，根据待鉴别证件在视频帧序列中的位置，确定待鉴别证件在视频帧序列中的多个位置状态，将各个位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧，由于预设动作为使得标准证件的防伪点发生变化的动作，而标准证件与待鉴别证件的类型一致，因此根据候选关键帧可以确定待鉴别证件的鉴别结果。本申请实施例中，在对证件进行真伪鉴别时，只需要获取到视频帧序列，不依赖于证件实体，极大的扩展了证件真伪鉴别的应用范围。

在一个实施例中，确定待鉴别证件在视频帧序列中的位置包括：根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中确定初始视频帧并获取初始视频帧中待鉴别证件的位置；根据初始视频帧中待鉴别证件的位置，对视频帧序列中初始视频帧之后的视频帧进行目标跟踪，以确定待鉴别证件在初始视频帧之后的视频帧中的位置。

其中，初始视频帧指的是视频帧序列中出现待鉴别证件的第一帧视频帧。

具体地，终端可以根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列的第一帧开始逐帧检测是否出现待鉴别证件，当检测到某一帧不存在待鉴别证件时，舍弃该帧，继续对下一帧进行检测，直到检测到待鉴别证件时，将该帧确定为初始视频帧并获取初始视频帧中待鉴别证件的位置。

在一个实施例中，终端可以将视频帧序列逐帧输入目标检测模型，通过目标检测模型进行目标检测，以判断是否出现待鉴别证件。其中，目标检测模型指的是可用于目标检测的机器学习模型。目标检测模型可以是通过单阶段(one-stage) 目标检测算法进行目标检测的机器学习模型，单阶段目标检测算法例如Yolo (You Only Look Once)算法、SSD(Single Shot MultiBox Detector)算法等等，也可以是通过双阶段(two-stage)目标检测算法进行目标检测的机器学习模型，双阶段目标检测算法例如可以是Faster RCNN。

在获取到初始视频帧中待鉴别证件的位置后，终端根据该位置对对视频帧序列中初始视频帧之后的视频帧逐帧进行目标跟踪，以确定待鉴别证件在初始视频帧之后的视频帧中的位置。例如，终端可以从初始视频帧的下一帧开始逐帧进行目标跟踪，以确定待鉴别证件在初始视频帧之后每一帧视频帧中的位置。

这里的目标跟踪指的是对初始视频帧之后的视频帧中的待鉴别证件进行跟踪。在进行目标跟踪时，终端可以采用跟踪学习检测算法(Tracking-Learning- Detection，TLD)进行目标跟踪，也可以采用基于神经网络的目标跟踪方法进行目标跟踪。其中，TLD(Tracking-Learning-Detection)是英国萨里大学的 ZdenekKalal提出的一种新的单目标长时间跟踪算法。该算法将跟踪算法和检测算法相结合来解决被跟踪目标在被跟踪过程中发生的形变、部分遮挡等问题。同时，通过一种改进的在线学习机制不断更新跟踪模块的“显著特征点”和检测模块的目标模型及相关参数，从而使得跟踪效果更加稳定、鲁棒、可靠。基于神经网络的目标跟踪方法例如可以是基于mask(掩膜图)的目标跟踪方法。

上述实施例中，通过确定初始视频帧，根据初始视频帧中待鉴别证件的位置可以对初始视频帧之后的视频帧进行目标跟踪，从而可以快速地确定待鉴别证件在视频帧序列中的位置，提高证件鉴伪的效率。

在一个实施例中，如图3所示，根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中确定初始视频帧并获取初始视频帧中待鉴别证件的位置包括：

步骤302，获取训练后的目标检测模型。

其中，目标检测模型包括卷积层和全连接层。

步骤304，根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中确定当前视频帧。

具体地，终端可以根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中选取排序靠前的视频帧确定为当前视频帧。例如，终端可以将视频帧序列中的第一帧确定为当前视频帧。

步骤306，将当前视频帧输入卷积层，通过卷积层对当前视频帧进行特征提取，得到当前视频帧对应的特征图。

步骤308，将特征图输入全连接层，通过全连接层进行证件类别预测及位置回归，得到当前视频帧对应的证件类别预测结果及位置。

其中，证件类别预测结果用于表征初始视频帧中目标的类别。

在一个实施例中，证件类别预测结果可以是用于表征目标所属类别的类别标识，例如，目标可能的类别有N个，则可以用N维向量(1,0,0,0，……，0) 表示第一个类别，用向量(0,1,0,0，……，0)表示第二个类别，依次类推。

在另一个实施例中，证件类别预测结果可以是用于目标所属类别的概率，例如，目标可能的类别有N个，那么证件类别预测结果可以为N维的概率向量，其中，每一个维度的概率用于表征目标属于该类别的可能性大小。

当前视频帧对应的位置指的是当前视频帧中目标的位置，可以理解，在本申请实施例中，目标为待鉴别证件，那么该位置为待鉴别证件的位置。

步骤310，当证件类别预测结果表征目标类别时，将当前视频帧确定为初始视频帧。

步骤312，当证件类别预测结果表征非目标类别时，从视频帧序列中当前视频帧之后的视频帧中重新确定当前视频帧，并返回步骤306。

其中，目标类别指的是当前业务场景所需要的证件类别，根据业务场景的不同，目标类别可以是一个或者多个，证件类别预测结果表征的类别只要属于其中一个即可。

可以理解，在某些业务场景中，对证件的类别有一定的要求，例如，在银行开户的应用场景中，可能要求证件为二代身份证，因此终端在进行目标跟踪时，要确保初始视频帧中的证件为目标类别证件，只有在初始视频帧中的证件为目标类别证件时，才执行后续的目标跟踪步骤，从而确保目标跟踪的准确性。

因此，当当前视频帧对应的证件类别预测结果用于表征非目标类别证件时，终端舍弃该视频帧，继续对后续的视频帧进行目标检测，直至检测到包括目标类别证件的视频帧确定为初始视频帧。例如，终端可以将下一帧确定为当前视频帧并返回步骤306。

在一个实施例中，当终端遍历整个视频帧序列未检测到包含目标证件类别的证件时，判定当前证件鉴伪结果为不通过。

在一个具体的实施例中，终端在执行步骤304时，可以将频帧序列中的第一帧确定为当前视频帧，并且在执行步骤312时，将下一帧确定为当前视频帧，从而终端可以逐帧对视频帧序列中的视频帧进行目标检测，直至检测到出现目标类别证件的视频帧时，将该视频帧确定为当前视频帧，从而可以保证鉴别结果的准确性。

在一个具体的实施例中，如图3A所示，为目标检测模型的网络结构示意图。参考图3A，该目标检测模型包括尺寸依次减小的三个卷积层300a、300b和300c，以及一个全连接层302。当前视频帧304a输入该目标检测模型后，卷积层300a、 300b和300c依次对该当前视频帧304进行特征提取，将得到的特征图输入全连接层302中，通过全连接层302进行证件类别预测及位置回归，最终得到该当前视频帧304a对应的证件类别预测结果以及视频帧304中待鉴别证件的位置，继续参考图3A，视频帧304b的虚线框为待鉴别证件的位置。

上述实施例中，采用目标检测模型对视频帧序列中的视频帧进行目标检测，由于目标检测模型包括卷积层和全连接层，可以准确地进行特征提取并预测视频帧对应的证件类别和位置，提高了初始视频帧的确定效率，同时，通过将包含的证件类别为目标类别的视频帧确定为初始视频帧，可以保证后续跟踪的准确性。

在一个实施例中，如图4所示，确定待鉴别证件在视频帧序列中的位置包括：

步骤402，根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中确定初始视频帧并获取初始视频帧中待鉴别证件的位置。

步骤404，根据初始视频帧对应的位置从初始视频帧中截取待鉴别证件所在区域图像，作为模板图。

具体地，终端在获取到初始视频帧中待鉴别证件的位置后，可以根据该位置从初始视频帧中该位置对应的区域图像截取出来，截取出来的图像作为模板图，模板图中仅包括跟踪目标(即待鉴别证件)，可以作为后续目标跟踪的依据。

步骤406，从初始视频帧之后的视频帧中确定搜索图。

其中，初始视频帧之后的视频帧指的是时间晚于初始视频帧的视频帧。搜索图指的是等待进行目标跟踪的视频帧。

在一个实施例中，终端可以将初始视频帧之后的视频帧逐帧确定为搜索图，从而可以确保跟踪到视频帧序列中每一帧出现待鉴别证件的视频帧，提高鉴别结果的准确性。

步骤408，将模板图和搜索图输入训练后的目标跟踪模型中，通过目标跟踪模型基于模板图对搜索图进行目标跟踪处理，得到搜索图对应的跟踪结果。

步骤410，根据跟踪结果确定待鉴别证件在搜索图中的位置。

其中，目标跟踪模型指的是用于目标跟踪的机器学习模型，该机器学习模型可以基于模板图对搜索图进行目标跟踪处理，在目标跟踪的过程中以模板图为依据，对搜索图中出现的待鉴别证件进行跟踪，跟踪的过程中终端可以在搜索图中确定出与跟踪目标最为相似的图像区域，得到搜索图对应的跟踪结果，根据该跟踪结果，终端可以确定待鉴别证件在搜索图中的位置。在本申请实施例中，该跟踪目标为待鉴别证件。

在一个实施例中，目标跟踪模型可以为Siamese(孪生网络)系列模型，比如，目标跟踪模型可以是siamFC模型、SiamRPN模型、Siammask模型等等。其中，siamFC模型为基于全卷积网络的孪生网络结构(Fully-convolutional Siamese architecture)，Siam-RPN为基于RPN(RegionProposal Network，区域生成网络)的孪生网络结构，由孪生子网络和RPN网络组成。

上述实施例中，通过将确定模板图和搜索图，采用训练后的目标跟踪模型基于模板图对搜索图进行目标跟踪处理，可以提高目标跟踪的效率。

在一个实施例中，训练后的目标跟踪模型包括第一卷积层、相关层、第二卷积层、反卷积层和细化层，上述步骤408中将模板图和搜索图输入训练后的目标跟踪模型中，通过目标跟踪模型基于模板图对搜索图进行目标跟踪处理包括以下1-4的步骤：

1、分别将模板图和搜索图输入第一卷积层中，通过第一卷积层分别对模板图和搜索图进行特征提取，得到模板图对应的模板特征图及搜索图对应的搜索特征图。

在一个实施例中，第一卷积层可以包括多层卷积，通过多层卷积对模板图和搜索图中的特征进行语义抽象，分别得到模板图对应的模板特征图和搜索图对应的搜索特征图。其中，第一卷积层可以采用常见的卷积神经网络结构，例如 Alexnet系列网络。

在一个实施例中，第一卷积层包括多层尺度依次减小的卷积层。以得到模板图对应的模板特征图为例，终端通过第一卷积层对模板图进行多次特征提取，每一次特征提取，将前一层卷积层的输出特征与输入特征进行融合，得到当前输入特征，将当前输入特征输入当前卷积层，通过当前卷积层进行卷积处理。其中，融合指的是用一个特征表达多个特征，特征的融合具体可以是特征组合、特征拼接等等。可以理解，得到搜索图对应的搜索特征图与得到模板图对应的模板特征图的过程相同，在此不赘述。

参考图5，为一个具体的实施例通过目标跟踪模型进行目标跟踪的过程示意图。在该实施例中，目标跟踪模型的第一卷积层包括四层，分别为卷积层502、卷积层504、卷积层506、卷积层508，终端通过这四个卷积层分别对模板图和搜索图进行多次特征提取。以对模板图A进行特征提取为例，终端首先将模板图A输入卷积层502，通过卷积层502进行卷积处理得得到卷积层502的输出特征，然后将卷积层502的输出特征与模板图A进行融合得到输入卷积层504 的输入特征，将卷积层504的输入特征输入卷积层504，通过卷积层504进行卷积处理得到卷积层504的输出特征，接着，终端将卷积层504的输出特征和输入特征进行融合得到卷积层506的输入特征，将卷积层506的输入特征输入卷积层506，通过卷积层506进行卷积处理得得到卷积层506的输出特征，进一步，终端将卷积层506的输出特征和输入特征进行融合得到卷积层508的输入特征，将卷积层508的输入特征输入卷积层508，得到模板图A对应的模板特征图A1。同理，终端可以通过卷积层502、卷积层504、卷积层506、卷积层508 对搜索图B进行特征提取得到对应的搜索特征图B1，在此不赘述。

2、将模板特征图及搜索特征图输入相关层，通过相关层对模板特征图和搜索特征图进行互相关，得到相关特征图；相关特征图包括多个候选窗口响应。

其中，互相关指的是以特定量化的范围进行相关卷积操作(correlation)。相关特征图包括多个候选窗口响应，各个候选窗口响应描述的是搜索图中各个区域元素对目标的相似度响应情况，响应值越大，代表该区域图像与跟踪目标越相似，越有可能是跟踪目标出现的区域，那么显然地，响应值最大的区域即为目标出现的区域。

具体地，终端将模板特征图及搜索特征图输入相关层，通过相关层对模板特征图和搜索特征图进行逐通道的互相关卷积，得到相关特征图，通过该相关特征图进行后续的跟踪处理步骤。

继续参考图5，终端对模板特征图及搜索特征图输入相关层(图中未示出) 后，得到相关特征图C。

3、将相关特征图输入第二卷积层，分别得到分数特征图及掩膜特征图。

继续参考图5，终端将相关特征图C输入第二卷积层(图中未示出)后，得到分数特征图D及掩膜特征图E。

4、根据各个掩膜特征子图对应的分数从掩膜特征图中确定候选掩膜特征子图，将候选掩膜特征子图输入反卷积层，通过反卷积层对候选掩膜特征子图进行反卷积处理，得到目标掩膜特征子图。

其中，第二卷积层包括两个并列的1x1卷积层，两个卷积层分别对相关特征图进行不同的通道处理，得到分数特征图及掩膜特征图。其中，掩膜特征图中包括各个候选窗口响应对应的掩膜特征子图，分数特征图包括各个掩膜特征子图对应的分数(score)。掩膜特征子图(mask)为二值化的像素图。掩膜特征子图对应的分数越高，代表该掩膜特征子图对应的候选窗口响应的响应值越大。

具体地，掩膜特征图和分数特征图之间存在位置对应关系，终端可以根据各个掩膜特征子图对应的分数，确定出分数最高的位置索引(index)，根据该位置索引从掩膜特征图中确定对应的掩膜特征子图，并将该掩膜特征子图确定为候选掩膜特征子图。例如，终端根据各个掩膜特征子图对应的分数确定出分数最高的位置为第二排第三列，则相应地将掩膜特征图中第二排第三列的掩膜特征子图确定为候选掩膜特征子图。

进一步，终端将候选掩膜特征子图输入反卷积层，通过反卷积层对候选掩膜特征子图进行反卷积处理，以增大掩膜特征子图的尺寸，得到目标掩膜特征子图。反卷积(deconvolution)是一种特殊的正向卷积，先按照一定的比例通过补0来扩大输入图像的尺寸，接着旋转卷积核，再进行正向卷积。

继续参考图5，终端根据分数特征图中的分数从掩膜特征图中选取分数最高的掩膜特征子图F，终端进一步将掩膜特征子图F输入反卷积层，进行反卷积处理，得到目标掩膜特征子图G。

5、将目标掩膜特征子图输入细化层，通过细化层对目标掩膜特征子图进行细化处理，得到搜索图对应的掩膜图。

其中，细化处理用于实现上采样的过程中结合特征提取时得到的中间特征信息。这里的中间特征指的是通过多层卷积提取特征时，末尾层卷积层之前的卷积层的输出特征。例如，继续参考图5，第一卷积层中，卷积层502、卷积层504 及卷积层506输出的都是中间特征。搜索图对应的掩膜图中待鉴别证件所在区域像素为1，背景区域像素为0，从而可以将待鉴别证件从搜索图中分割出来。通过细化处理，能够结合模型的高层语义和低层特征，使得得到的掩膜图更加准确。

在一个实施例中，第一卷积层包括多层尺度依次减小的卷积层，细化层包括多层尺度依次增大的卷积层。终端在对搜索图进行特征提取时，可以通过第一卷积层对搜索图进行多次特征提取，保存特征提取过程中得到的多个中间特征，从而，在将目标掩膜特征子图输入细化层，通过细化层对目标掩膜特征子图进行细化处理时，通过细化层对目标掩膜特征进行多次上采样，每一次上采样，将前一个卷积层的输出特征与对应的中间特征进行融合得到当前输入特征，将当前输入特征输入当前卷积层，通过当前卷积层进行反卷积处理。经过多次上采样后，最终得到尺寸符合要求的掩膜图。

继续参考图5，细化层包括尺度依次增大的四层卷积层510、512、514及 516。终端首先将目标掩膜特征子图G输入卷积层510中，通过卷积层510进行反卷积处理，得到卷积层510的输出特征，将卷积层510的输出特征与卷积层 506的输出特征进行融合，得到卷积层512的输入特征，将卷积层512的输入特征输入卷积层512通过卷积层512进行反卷积处理，得到卷积层512的输出特征，将卷积层512的输出特征与卷积层504的输出特征进行融合，得到卷积层 514的输入特征，将卷积层514的输入特征输入卷积层514通过卷积层514进行反卷积处理，得到卷积层514的输出特征，将卷积层514的输出特征与卷积层 502的输出特征进行融合，得到卷积层516的输入特征，将卷积层516的输入特征输入卷积层516通过卷积层516进行反卷积处理，得到掩膜图H。

在一个实施例中，上述步骤206中根据待鉴别证件在视频帧序列中的位置，确定待鉴别证件在视频帧序列中的多个位置状态包括：根据待鉴别证件在视频帧序列中的位置，对视频帧序列中不满足预设条件的视频帧进行过滤；将待鉴别证件在过滤后的视频帧序列中的位置输入训练后的位置状态预测网络中；根据位置状态预测网络的输出结果确定待鉴别证件在视频帧序列中的位置状态。

其中，预设条件指的是用于筛选不符合规范的视频帧的条件。例如，预设条件可以是视频帧中待鉴别证件不能超过画面边界、视频帧中待鉴别证件在画面中的占比不能小于预设阈值等等。预设条件可以根据场景需要进行设定。

其中，位置状态预测网络用于对视频帧对应的位置状态所属的类别进行预测。位置状态所属的类别包括：对证件向上翻转的过程划分多个角度区间得到多个上翻类别、将对证件向下翻转的过程划分多个角度区间得到多个下翻类别、将对证件向左翻转的过程划分多个角度区间得到多个左翻类别、将对证件向右翻转的过程划分多个角度区间得到多个下翻类别，以及对证件进行平放得到平放类别。例如，位置状态所属的类别可以包括：向上翻转20-40、向上翻转40-60、向上翻转60-80、向下翻转20-40、向下翻转40-60、向下翻转60-80、向左翻转 20-40、向左翻转40-60、向左翻转60-80、向右翻转20-40、向右翻转40-60、向右翻转60-80、平放(可以看成是-20-20的角度区间)。

在一个实施例中，位置状态预测网络通过以下方式训练得到：获取训练样本，训练样本包括包含待鉴别证件的视频帧及该视频帧中待鉴别证件所属的位置状态类别标签，将该视频帧作为位置状态预测网络的输入，获取位置状态预测网络的实际输出，根据实际输出与位置状态类别标签之间的差异调整位置状态预测网络的参数，直至满足训练停止条件时结束训练，得到训练后的位置状态预测网络。其中训练停止条件可以是差异小于预设阈值、训练次数达到预设次数、训练时长到达预设时长等等。在训练的过程中可以采用随机梯度算法计算损失梯度，并反向传播该损失梯度，调整位置状态预测网络的网络参数。

具体地，终端根据视频帧序列中各个视频帧中待鉴别证件的位置，判断各个视频帧是否满足预设条件，对于不符合预设条件的视频帧进行舍弃，从而过滤掉视频帧序列中不满足预设条件的视频帧。进一步，终端将过滤后的视频帧序列中各帧视频帧对应的位置分别输入训练后的位置状态预测网络中，通过位置状态预测网络进行位置状态预测，得到对应的输出结果，根据该输出结果确定待鉴别证件在视频帧序列各帧视频帧中的位置状态。这里的输出结果可以是用于表征位置状态类别的类别标识，或者表征位置状态类别的概率。

上述实施例中，通过对视频帧序列进行过滤，可以将不符合预设条件的视频帧过滤掉，保证鉴别结果的准确性，同时将位置输入位置状态预测网络可以快速准备的得到位置状态，保证证件真伪鉴别的准确性和效率性。

在一个实施例中，上述步骤210中根据候选关键帧，确定待鉴别证件的鉴别结果包括：获取各个候选关键帧的质量分数；根据各个候选关键帧的质量分数确定目标关键帧；根据目标关键帧，确定待鉴别证件的鉴别结果。

其中，质量分数用于表征候选关键帧的清晰度，质量分数越高，表示该候选视频帧越清晰，用于鉴别的效果越好。

具体地，本实施例中候选关键帧包括多帧，各候选关键帧都是包含充足的证件防伪点信息，但是有些防伪点本身就不太明显，故为了突出这些防伪点的信息，终端需要从多帧候选视频帧中挑选出清晰的候选关键帧确定为目标关键帧。在一个具体的实施例中，终端可以选择质量分数最高的视频帧确定为目标关键帧。

在一个实施例中，终端可以通过深度学习算法来评估各候选关键帧的图像质量，得到质量分数值。该质量分数为候选关键帧的绝对质量分数。具体地，终端可以获取训练样本图像及对应的质量分数标签，根据训练样本图像及对应的质量分数标签训练质量评估模型，将各候选关键帧分别输入训练后的质量评估模型中，得到各候选关键帧分别对应的质量分数。

在另一个实施例中，由于各个候选关键帧均是出自同一个视频，因此可以通过比较各候选视频帧的相对质量分数来确定目标关键帧。基于此，在一个具体的实施例中，获取各个候选关键帧的质量分数可以包括以下步骤1-3：

1、获取候选关键帧对应的各个颜色通道的横向梯度和纵向梯度。

2、分别根据候选关键帧对应的各个颜色通道的横向梯度和纵向梯度，得到候选关键帧对应的各个颜色通道的梯度值。

具体地，终端可以借助一些边缘检测算子，如Canny算子、Sobel算子等等，来对候选关键帧进行边缘检测，计算各个颜色通道的横向梯度和纵向梯度，根据横向梯度和纵向梯度得到各个颜色通道对应的梯度值。显然，对于同一个关键帧的候选帧集合，其边缘信息越丰富，该帧画面越清晰，质量越高。可以理解，这里的颜色通道指的是R(RED)、G(GREEN)、B(BLUE)。横向梯度指的是图像某像素在X轴的变化率(与相邻像素比较)，纵向梯度指的是图像某像素在Y 轴的变化率。

以Sobel算子为例，终端可以通过以下公式(1)计算横向梯度G_x，并通过以下公式(2)计算纵向梯度G_y，并通过以下公式(3)计算梯度值G，其中A 为候选视频帧：

在具体实施时，对于各个候选关键帧，由于鉴伪视频的关键帧只关注于待鉴别证件主体部分的清晰度，那么终端可以基于之前目标跟踪的结果，将各个候选关键帧的证件主体裁剪出来，以消除背景的干扰，对于裁剪出的证件主体进行边缘检测。

3、累加各个颜色通道的梯度值，得到候选关键帧的质量分数。

具体地，终端通过上述步骤得到R通道、G通道、B通道的梯度值后，将R 通道、G通道、B通道的梯度值求和，得到候选关键帧的质量分数。

上述实施例中，通过计算相对质量分数来确定目标关键帧，相对于深度学习方法，计算量小，从而可以提高鉴别效率。

在一个实施例中，如图6所示，上述步骤210根据候选关键帧，确定待鉴别证件的鉴别结果包括：

步骤602，获取各个候选关键帧的质量分数。

步骤604，将各个预设动作对应的候选关键帧分别组成各个预设动作各自对应的候选关键帧集合。

具体地，本实施例中，预设动作包括多个，各个预设动作对应不同的候选关键帧，并且各个预设动作分别对应多个候选关键帧，终端将各个预设动作对应的候选关键帧分别组成各个预设动作各自对应的候选关键帧集合。

步骤606，分别根据各个候选关键帧集合中的候选关键帧的质量分数，确定各个候选关键帧集合各自对应的预设动作的目标关键帧。

具体地，终端分别从各个候选关键帧集合中选择质量分数最高的候选关键帧，分别作为各个候选关键帧集合各自对应的预设动作的目标关键帧。

步骤608，将各个目标关键帧进行通道拼接处理，得到拼接关键帧。

具体地，终端将各个目标关键帧进行通道拼接处理，得到拼接关键帧。这里的通道拼接处理指的是按照通道进行水平拼接。

举例说明，假设候选关键帧包括X1、X2、X3、Y1、Y2、Y3、Y4、Z1、Z2，这些候选关键帧对应的质量分数依次分别为a1、a2、a3、a4、a5、a6、a7、a8、 a9，假设预设动作包括三个分别为上翻30度、平放、下翻30度，其中，X1、 X2、X3为上翻30度对应的候选关键帧，组成上翻30度对应的候选关键帧集合 {X1，X2，X3}且a1<a2<a3，Y1、Y2、Y3、Y4为平放对应的候选关键帧，组成平放对应的候选关键帧集合{Y1，Y2，Y3，Y4}且a4<a5<a6<a7，Z1、Z2为平放对应的候选关键帧，组成平放对应的候选关键帧集合{Z1，Z2}且a8<a9，那么终端确定上翻30对应的目标关键帧为X3，平放对应的目标关键帧为Y4，下翻30对应的目标关键帧为Z2，假设目标关键帧X3对应的通道向量为(R1， G1，B1)，目标关键帧Y4对应的通道向量为(R2，G2，B2)，目标关键帧Z2对应的通道为对应的通道向量为(R3，G3，B3)，则拼接后得到的拼接关键帧对应的通道向量为(R1，G1，B1，R2，G2，B2，R3，G3，B3)。

步骤610，将拼接关键帧输入训练后的分类网络中，根据分类网络输出的分类结果确定待鉴别证件的鉴别结果。

其中，鉴别结果分类网络用于进行鉴别结果的分类。鉴别结果分类网络的输出可以为鉴别结果标识，例如，用1或者向量(1,0)表征鉴别结果为第一鉴别结果，用0或者向量(0，1)表征鉴别结果为第二鉴别结果，那么终端可以根据该鉴别结果标识得到待鉴别证件的鉴别结果；鉴别结果分类网络的输出也可以为概率向量(a％，b％)，其中，a％为第一鉴别结果的概率，b％为第二鉴别结果的概率，那么终端可以将概率大确定为鉴别结果。

上述实施例中，由于根据多帧目标关键帧进行通道拼接来得到鉴别结果，相较于相关技术更具鲁棒性且准确性更高。

在一个实施例中，各个位置状态均包括方向信息和角度信息；目标位置状态包括目标方向信息和目标角度信息；将各个位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧包括：将各个位置状态对应的方向信息分别与目标方向信息进行匹配，并将各个位置状态对应的角度信息分别与目标角度信息进行匹配；将方向信息与目标方向信息一致并且角度信息与目标角度信息一致的位置状态确定为匹配成功的位置状态。

其中，方向信息指的是对待鉴别证件执行翻转动作时的翻转方向，翻转方向包括向上翻转、向下翻转、向左翻转及向右翻转中的任意一种。角度信息指的是翻转时的具体角度或者角度所属的角度区间，例如，角度信息可以是30度或者 20度-50度。

具体地，终端将位置状态对应的方向信息分别与目标方向信息进行匹配，并将各个位置状态对应的角度信息分别与目标角度信息进行匹配，当任意一个位置状态对应的方向信息与目标方向信息一致并且该位置状态对应的角度信息与目标角度信息一致时，判定该位置状态与目标位置状态匹配成功，终端将该位置状态对应的视频帧确定为待鉴别的候选关键帧。

在一个实施例中，目标角度信息为角度区间，候选关键帧对应的位置状态中的角度信息为具体的角度值，终端判定该角度值是否在目标角度信息对应的角度区间，若是，则判定位置状态对应的角度信息与目标角度信息一致。举个例子，假设候选关键帧X对应的位置信息中的角度信息为30度，目标角度信息20度至50度，则可判定该位置状态对应的角度信息与目标角度信息一致；假设候选关键帧X对应的位置信息中的角度信息为70度，则可判定该位置状态对应的角度信息与目标角度信息不一致。

在另一个实施例中，目标角度信息为目标角度区间，候选关键帧对应的位置状态中的角度信息为具角度区间，将方向信息与目标方向信息一致并且角度信息与目标角度信息一致的位置状态确定为匹配成功的位置状态包括：当任意一个位置状态对应的角度区间包含于目标位置状态对应的目标角度区间时，判定位置状态对应的角度信息与目标角度信息一致。

其中，角度区间A包含于角度区间B指的是角度区间A的最小值不小于角度区间B的最小值且角度区间A的最大值不大于角度区间B的最大值。例如，假设角度区间A为40度-50度，角度区间B为20度-60，则说明角度区间A包含于角度区间B，又如角度区间A为40度-50度，角度区间B为45度-70，则说角度区间A不包含于角度区间B。

具体地，终端可以分别将各个视频帧对应的位置状态中包含的角度区间与目标角度区间进行比较，意一个位置状态对应的角度区间包含于目标位置状态对应的目标角度区间时，判定位置状态对应的角度信息与目标角度信息一致，终端该位置状态对应的视频帧确定为待鉴别的候选关键帧。

如图7所示，为一个具体的实施例中终端获取目标关键帧的步骤，参考图 7，终端在获取到视频帧序列后，从视频帧序列的第一帧开始逐帧判断是否检测到目标类别证件，若否，则舍弃该帧，继续对下一帧进行判断，若是，则开始进行目标跟踪，获取每帧的证件位置，进一步根据各帧中证件的位置判断证件的防伪点变化是否明显(具体判定过程参见上文实施例中的描述)，若否，则舍弃该帧；若是，则保留该帧作为候选关键帧，进一步，终端在候选关键帧中选择质量最优帧作为目标关键帧，进一步，终端判定是否获取到预设数量目标关键帧，若是，则输出这些目标关键帧，若否，则继续获取视频帧序列并重复上述过程。

在一个具体的实施例中，提供了一种视频数据处理方法，包括以下步骤：

1、终端获取包含待鉴别证件的视频帧序列。

2、获取训练后的目标检测模型；目标检测模型包括卷积层和全连接层。

3、根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中确定当前视频帧。

4、将当前视频帧输入卷积层，通过卷积层对当前视频帧进行特征提取，得到当前视频帧对应的特征图，将特征图输入全连接层，通过全连接层进行证件类别预测及位置回归，得到当前视频帧对应的证件类别预测结果及位置。

5、当当前视频帧对应的证件类别预测结果用于表征目标类别证件时，将当前视频帧确定为初始视频帧。

6、当当前视频帧对应的证件类别预测结果用于表征非目标类别证件时，从视频帧序列中当前视频帧之后的视频帧中重新确定当前视频帧并返回步骤4。

7、获取训练后的目标跟踪模型，该目标跟踪模型包括第一卷积层、相关层、第二卷积层、反卷积层和细化层。

8、根据初始视频帧对应的位置从初始视频帧中截取待鉴别证件所在区域图像，作为模板图，并从初始视频帧之后的视频帧中确定搜索图，对于每一个搜索图，终端执行以下步骤9-14以确定待鉴别证件的位置。

9、分别将模板图和搜索图输入第一卷积层中，通过第一卷积层分别对模板图和搜索图进行特征提取，得到模板图对应的模板特征图及搜索图对应的搜索特征图。

其中，第一卷积层包括多层尺度依次减小的卷积层。

具体地，通过第一卷积层对模板图进行多次特征提取，每一次特征提取，将前一层卷积层的输出特征与输入特征进行融合，得到当前输入特征，将当前输入特征输入当前卷积层，通过当前卷积层进行卷积处理；

通过第一卷积层对搜索图进行多次特征提取，每一次特征提取，将前一层卷积层的输出特征与输入特征进行融合，得到当前输入特征，将当前输入特征输入当前卷积层，通过当前卷积层进行卷积处理，保存特征提取过程中得到的多个中间特征。

10、将模板特征图及搜索特征图输入相关层，通过相关层对模板特征图和搜索特征图进行互相关，得到相关特征图；相关特征图包括多个候选窗口响应。

11、将相关特征图输入第二卷积层，分别得到分数特征图及掩膜特征图；掩膜特征图中包括各个候选窗口响应对应的掩膜特征子图，分数特征图包括各个掩膜特征子图对应的分数。

12、根据各个掩膜特征子图对应的分数从掩膜特征图中确定候选掩膜特征子图，将候选掩膜特征子图输入反卷积层，通过反卷积层对候选掩膜特征子图进行反卷积处理，得到目标掩膜特征子图。

13、将目标掩膜特征子图输入细化层，通过细化层对目标掩膜特征子图进行细化处理，得到搜索图对应的掩膜图。

其中，细化层包括多层尺度依次增大的卷积层。

具体地，通过细化层对目标掩膜特征进行多次上采样，每一次上采样，将前一个卷积层的输出特征与对应的中间特征进行融合得到当前输入特征，将当前输入特征输入当前卷积层，通过当前卷积层进行反卷积处理。

14、根据掩膜图确定搜索图中待鉴别证件的位置。

具体地，终端可以对掩膜图进行直线检测，得到四条直线，获取四条直线之间交点的坐标，得到搜索图中待鉴别证件的位置。

15、根据待鉴别证件在视频帧序列中的位置，对视频帧序列中不满足预设条件的视频帧进行过滤。

16、将待鉴别证件在过滤后的视频帧序列中的各个位置分别输入训练后的位置状态预测网络中，根据位置状态预测网络的输出结果确定待鉴别证件在视频帧序列中的位置状态。

17、将各个位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧；预设动作为使得标准证件的防伪点发生变化的动作，标准证件与待鉴别证件的类型一致。预设动作包括多个。

其中，各个位置状态均包括方向信息和角度信息；目标位置状态包括目标方向信息和目标角度信息。

具体地，终端将各个位置状态对应的方向信息分别与目标方向信息进行匹配，并将各个位置状态对应的角度信息分别与目标角度信息进行匹配；将方向信息与目标方向信息一致并且角度信息与目标角度信息一致的位置状态确定为匹配成功的位置状态。其中，角度信息为角度区间；目标角度信息为目标角度区间；当任意一个位置状态对应的角度区间包含于目标位置状态对应的目标角度区间时，判定位置状态对应的角度信息与目标角度信息一致。

18、获取各个候选关键帧的质量分数；质量分数用于表征候选关键帧的清晰度。

具体地，终端分别获取候选关键帧对应的各个颜色通道的横向梯度和纵向梯度，分别根据候选关键帧对应的各个颜色通道的横向梯度和纵向梯度，得到候选关键帧对应的各个颜色通道的梯度值，累加各个颜色通道的梯度值，得到候选关键帧的质量分数。

19、将各个预设动作对应的候选关键帧分别组成各个预设动作各自对应的候选关键帧集合，分别根据各个候选关键帧集合中的候选关键帧的质量分数，确定各个候选关键帧集合各自对应的预设动作的目标关键帧。

20、将各个目标关键帧进行通道拼接处理，得到拼接关键帧，将拼接关键帧输入训练后的鉴别结果分类网络中，得到待鉴别证件的鉴别结果。

本申请还提供一种应用场景，该应用场景应用上述的视频数据处理方法。具体地，该视频数据处理方法在该应用场景的应用如下：

在该应用场景中，终端从其他计算机设备获取训练后的目标检测模型、目标跟踪模型、位置状态预测网络以及鉴别结果分类网络，并存储在本地。

在该应用场景中，用户通过终端开通电子银行账户，开户的过程中终端对用户提供的身份证信息进行真伪鉴别，终端可提示用户手持身份证拍摄视频，在视频拍摄过程中，通过语音提示提示用户对身份证执行三个预设动作，用户拍摄完成后，终端得到视频帧序列，从视频帧序列的第一帧开始逐帧输入目标检测模型进行目标检测，当检测到身份证时，根据该身份帧的位置坐标对后续的帧进行目标跟踪，以获取各帧视频中的身份证四个顶点的位置坐标。在跟踪过程中，终端从检测到身份证的视频帧确定为模板图，将该模板图之后的视频帧逐帧确定为搜索图。对于每一个搜索图，终端将该搜索图和模板图输入目标跟踪模型中，得到每一个搜索图对应的跟踪结果，根据该跟踪结果确定身份证在搜索图中的四个顶点的位置坐标。

进一步，终端将各帧视频中的身份证四个顶点的位置坐标输入到训练后的位置状态预测网络中，根据位置状态预测网络的输出结果确定待鉴别证件在视频帧序列中的位置状态，将各帧视频帧对应的位置状态分别与三个预设动作各自对应的目标位置状态进行匹配，将与各个预设动作各自对应的目标位置状态匹配成功的视频帧分别确定为各个预设动作各自对应的候选关键帧，通过边缘检测算法计算各个候选关键帧的相对质量分数，从各个预设动作各自对应的候选关键帧中选择相对质量分数最高的候选关键帧确定为各个预设动作各自对应的目标关键帧，将各个目标关键帧进行通道拼接处理，得到拼接关键帧，将拼接关键帧输入训练后的鉴别结果分类网络中，得到待鉴别证件的鉴别结果，当鉴别结果为真伪鉴别通过时，终端继续执行后续的开户流程，当鉴别结果为真伪鉴别不通过时，给出提示信息，终止开户流程。

本申请还提供另一种应用场景，该应用场景应用上述的视频数据处理方法。具体地，该视频数据处理方法在该应用场景的应用如下：

在该应用场景中，用户需要在终端的社交应用内进行实名认证，在实名认证的过程中，用户从相册中选择已拍摄好的包含身份证的视频帧序列，在社交应用内将该视频帧序列上传至服务器，服务器上存储有训练后的目标检测模型、目标跟踪模型、位置状态预测网络以及鉴别结果分类网络。

服务器接收到该视频帧序列后，从视频帧序列的第一帧开始逐帧输入目标检测模型进行目标检测，当检测到身份证时，根据该身份帧的位置坐标对后续的帧进行目标跟踪，以获取各帧视频中的身份证四个顶点的位置坐标。在跟踪过程中，服务器从检测到身份证的视频帧确定为模板图，将该模板图之后的视频帧逐帧确定为搜索图。对于每一个搜索图，服务器将该搜索图和模板图输入目标跟踪模型中，得到每一个搜索图对应的跟踪结果，根据该跟踪结果确定身份证在搜索图中的四个顶点的位置坐标。

进一步，服务器将各帧视频中的身份证四个顶点的位置坐标输入到训练后的位置状态预测网络中，根据位置状态预测网络的输出结果确定待鉴别证件在视频帧序列中的位置状态，将各帧视频帧对应的位置状态分别与预设动作各自对应的目标位置状态进行匹配，将与各个预设动作各自对应的目标位置状态匹配成功的视频帧分别确定为各个预设动作各自对应的候选关键帧，通过边缘检测算法计算各个候选关键帧的相对质量分数，从各个预设动作各自对应的候选关键帧中选择相对质量分数最高的候选关键帧确定为各个预设动作各自对应的目标关键帧，将各个目标关键帧进行通道拼接处理，得到拼接关键帧，将拼接关键帧输入训练后的鉴别结果分类网络中，得到待鉴别证件的鉴别结果，当服务器根据鉴别结果判定真伪鉴别通过时，向终端返回鉴别通过的结果，终端接收到鉴别通过的结果后，从视频帧序列中提取身份证信息，包括身份证号码及身份证人像，将身份证信息与该用户的社交账户进行绑定，从而实现实名认证；当服务器根据鉴别结果判定真伪鉴别不通过时，向终端返回鉴别不通过的结果，终端提示用户实名认证失败。

应该理解的是，虽然图1-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种视频数据处理装置800，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：视频帧获取模块802、位置确定模块804、位置状态确定模块806、匹配模块808和鉴别结果确定模块810，其中：

视频帧获取模块802，用于获取包含待鉴别证件的视频帧序列；

位置确定模块804，用于确定待鉴别证件在视频帧序列中的位置；

位置状态确定模块806，用于根据待鉴别证件在视频帧序列中的位置，确定待鉴别证件在视频帧序列中的多个位置状态；

匹配模块808，用于将各个位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧；预设动作为使得标准证件的防伪点发生变化的动作，标准证件与待鉴别证件的类型一致；

鉴别结果确定模块810，用于根据候选关键帧，确定待鉴别证件的鉴别结果。

在一个实施例中，位置确定模块804用于根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中确定初始视频帧并获取初始视频帧中待鉴别证件的位置；根据初始视频帧中待鉴别证件的位置，对视频帧序列中初始视频帧之后的视频帧进行目标跟踪，以确定待鉴别证件在初始视频帧之后的视频帧中的位置。

在一个实施例中，位置确定模块804还用于获取训练后的目标检测模型；目标检测模型包括卷积层和全连接层；根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中确定当前视频帧；将当前视频帧输入卷积层，通过卷积层对当前视频帧进行特征提取，得到当前视频帧对应的特征图；将特征图输入全连接层，通过全连接层进行证件类别预测及位置回归，得到当前视频帧对应的证件类别预测结果及位置；当当前视频帧对应的证件类别预测结果用于表征目标类别时，将当前视频帧确定为初始视频帧；当当前视频帧对应的证件类别预测结果用于表征非目标类别时，从视频帧序列中当前视频帧之后的视频帧中重新确定当前视频帧并返回将当前视频帧输入卷积层的步骤。

在一个实施例中，位置确定模块804还用于根据视频帧序列中各视频帧的时间先后顺序，从视频帧序列中确定初始视频帧并获取初始视频帧中待鉴别证件的位置；根据初始视频帧对应的位置从初始视频帧中截取待鉴别证件所在区域图像，作为模板图；从初始视频帧之后的视频帧中确定搜索图；将模板图和搜索图输入训练后的目标跟踪模型中，通过目标跟踪模型基于模板图对搜索图进行目标跟踪处理，得到搜索图对应的跟踪结果；根据跟踪结果确定待鉴别证件在搜索图中的位置。

在一个实施例中，训练后的目标跟踪模型包括第一卷积层、相关层、第二卷积层、反卷积层和细化层；位置确定模块804还用于分别将模板图和搜索图输入第一卷积层中，通过第一卷积层分别对模板图和搜索图进行特征提取，得到模板图对应的模板特征图及搜索图对应的搜索特征图；将模板特征图及搜索特征图输入相关层，通过相关层对模板特征图和搜索特征图进行互相关，得到相关特征图；相关特征图包括多个候选窗口响应；将相关特征图输入第二卷积层，分别得到分数特征图及掩膜特征图；掩膜特征图中包括各个候选窗口响应对应的掩膜特征子图，分数特征图包括各个掩膜特征子图对应的分数；根据各个掩膜特征子图对应的分数从掩膜特征图中确定候选掩膜特征子图，将候选掩膜特征子图输入反卷积层，通过反卷积层对候选掩膜特征子图进行反卷积处理，得到目标掩膜特征子图；将目标掩膜特征子图输入细化层，通过细化层对目标掩膜特征子图进行细化处理，得到搜索图对应的掩膜图。

在一个实施例中，第一卷积层包括多层尺度依次减小的卷积层；位置确定模块804还用于通过第一卷积层对模板图进行多次特征提取，每一次特征提取，将前一层卷积层的输出特征与输入特征进行融合，得到当前输入特征，将当前输入特征输入当前卷积层，通过当前卷积层进行卷积处理。

在一个实施例中，第一卷积层包括多层尺度依次减小的卷积层；细化层包括多层尺度依次增大的卷积层；位置确定模块804还用于通过第一卷积层对搜索图进行多次特征提取，保存特征提取过程中得到的多个中间特征；通过细化层对目标掩膜特征子图进行多次上采样，每一次上采样，将前一个卷积层的输出特征与对应的中间特征进行融合得到当前输入特征，将当前输入特征输入当前卷积层，通过当前卷积层进行反卷积处理。

在一个实施例中，位置状态确定模块806用于根据待鉴别证件在视频帧序列中的位置，对视频帧序列中不满足预设条件的视频帧进行过滤；将待鉴别证件在过滤后的视频帧序列中的位置输入训练后的位置状态预测网络中；根据位置状态预测网络的输出结果确定待鉴别证件在视频帧序列中的位置状态。

在一个实施例中，候选关键帧包括多帧；鉴别结果确定模块810用于获取各个候选关键帧的质量分数；质量分数用于表征候选关键帧的清晰度；根据各个候选关键帧的质量分数确定目标关键帧；根据目标关键帧，确定待鉴别证件的鉴别结果。

在一个实施例中，鉴别结果确定模块810用于获取候选关键帧对应的各个颜色通道的横向梯度和纵向梯度；分别根据候选关键帧对应的各个颜色通道的横向梯度和纵向梯度，得到候选关键帧对应的各个颜色通道的梯度值；累加各个颜色通道的梯度值，得到候选关键帧的质量分数。

在一个实施例中，预设动作包括多个，各个预设动作对应不同的候选关键帧；鉴别结果确定模块810用于将各个预设动作对应的候选关键帧分别组成各个预设动作各自对应的候选关键帧集合；分别根据各个候选关键帧集合中的候选关键帧的质量分数，确定各个候选关键帧集合各自对应的预设动作的目标关键帧；将各个目标关键帧进行通道拼接处理，得到拼接关键帧；将拼接关键帧输入训练后的鉴别结果分类网络中，得到待鉴别证件的鉴别结果。

在一个实施例中，各个位置状态均包括方向信息和角度信息；目标位置状态包括目标方向信息和目标角度信息；匹配模块808用于将各个位置状态对应的方向信息分别与目标方向信息进行匹配，并将各个位置状态对应的角度信息分别与目标角度信息进行匹配；将方向信息与目标方向信息一致并且角度信息与目标角度信息一致的位置状态确定为匹配成功的位置状态。

在一个实施例中，角度信息为角度区间；目标角度信息为目标角度区间；匹配模块808还用于当任意一个位置状态对应的角度区间包含于目标位置状态对应的目标角度区间时，判定位置状态对应的角度信息与目标角度信息一致。

上述视频数据处理装置，通过获取包含待鉴别证件的视频帧序列，并进一步确定待鉴别证件在视频帧序列中的位置，根据待鉴别证件在视频帧序列中的位置，确定待鉴别证件在视频帧序列中的多个位置状态，将各个位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧，由于预设动作为使得标准证件的防伪点发生变化的动作，而标准证件与待鉴别证件的类型一致，因此根据候选关键帧可以确定待鉴别证件的鉴别结果。本申请实施例中，在对证件进行真伪鉴别时，只需要获取到视频帧序列，不依赖于证件实体，极大的扩展了证件真伪鉴别的应用范围。

关于视频数据处理装置的具体限定可以参见上文中对于视频数据处理方法的限定，在此不再赘述。上述视频数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、 NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频数据处理方法，其特征在于，所述方法包括：

获取包含待鉴别证件的视频帧序列；

确定所述待鉴别证件在所述视频帧序列中的位置；

根据所述候选关键帧，确定所述待鉴别证件的鉴别结果。

2.根据权利要求1所述的方法，其特征在于，所述确定所述待鉴别证件在所述视频帧序列中的位置包括：

根据所述视频帧序列中各视频帧的时间先后顺序，从所述视频帧序列中确定初始视频帧并获取所述初始视频帧中待鉴别证件的位置；

根据所述初始视频帧中待鉴别证件的位置，对所述视频帧序列中所述初始视频帧之后的视频帧进行目标跟踪，以确定所述待鉴别证件在所述初始视频帧之后的视频帧中的位置。

3.根据权利要求2所述的方法，其特征在于，所述根据所述视频帧序列中各视频帧的时间先后顺序，从所述视频帧序列中确定初始视频帧并获取所述初始视频帧中待鉴别证件的位置包括：

获取训练后的目标检测模型；所述目标检测模型包括卷积层和全连接层；

根据所述视频帧序列中各视频帧的时间先后顺序，从所述视频帧序列中确定当前视频帧；

将当前视频帧输入所述卷积层，通过所述卷积层对当前视频帧进行特征提取，得到当前视频帧对应的特征图；

将所述特征图输入所述全连接层，通过所述全连接层进行证件类别预测及位置回归，得到所述当前视频帧对应的证件类别预测结果及位置；

当当前视频帧对应的证件类别预测结果用于表征目标类别时，将当前视频帧确定为初始视频帧；

当当前视频帧对应的证件类别预测结果用于表征非目标类别时，从所述视频帧序列中当前视频帧之后的视频帧中重新确定当前视频帧并返回将当前视频帧输入所述卷积层的步骤。

4.根据权利要求1所述的方法，其特征在于，所述确定所述待鉴别证件在所述视频帧序列中的位置包括：

根据所述初始视频帧对应的位置从所述初始视频帧中截取所述待鉴别证件所在区域图像，作为模板图；

从所述初始视频帧之后的视频帧中确定搜索图；

将所述模板图和所述搜索图输入训练后的目标跟踪模型中，通过所述目标跟踪模型基于所述模板图对所述搜索图进行目标跟踪处理，得到所述搜索图对应的跟踪结果；

根据所述跟踪结果确定所述待鉴别证件在所述搜索图中的位置。

5.根据权利要求4所述的方法，其特征在于，所述训练后的目标跟踪模型包括第一卷积层、相关层、第二卷积层、反卷积层和细化层；所述将所述模板图和所述搜索图输入训练后的目标跟踪模型中，通过所述目标跟踪模型基于所述模板图对所述搜索图进行目标跟踪处理包括：

分别将所述模板图和所述搜索图输入所述第一卷积层中，通过所述第一卷积层分别对所述模板图和所述搜索图进行特征提取，得到所述模板图对应的模板特征图及所述搜索图对应的搜索特征图；

将所述模板特征图及所述搜索特征图输入所述相关层，通过所述相关层对所述模板特征图和所述搜索特征图进行互相关，得到相关特征图；所述相关特征图包括多个候选窗口响应；

将所述相关特征图输入所述第二卷积层，分别得到分数特征图及掩膜特征图；所述掩膜特征图中包括各个候选窗口响应对应的掩膜特征子图，所述分数特征图包括各个掩膜特征子图对应的分数；

根据各个掩膜特征子图对应的分数从所述掩膜特征图中确定候选掩膜特征子图，将所述候选掩膜特征子图输入反卷积层，通过所述反卷积层对所述候选掩膜特征子图进行反卷积处理，得到目标掩膜特征子图；

将所述目标掩膜特征子图输入所述细化层，通过所述细化层对所述目标掩膜特征子图进行细化处理，得到所述搜索图对应的掩膜图。

6.根据权利要求5所述的方法，其特征在于，所述第一卷积层包括多层尺度依次减小的卷积层；所述分别将所述模板图和所述搜索图输入所述第一卷积层中，通过所述第一卷积层分别对所述模板图和所述搜索图进行特征提取包括：

通过所述第一卷积层对所述搜索图进行多次特征提取，保存特征提取过程中得到的多个中间特征；

所述细化层包括多层尺度依次增大的卷积层；将所述目标掩膜特征子图输入所述细化层，通过所述细化层对所述目标掩膜特征子图进行细化处理，得到所述搜索图对应的掩膜图，包括：

通过所述细化层对所述目标掩膜特征子图进行多次上采样，每一次上采样，将前一个卷积层的输出特征与对应的中间特征进行融合得到当前输入特征，将所述当前输入特征输入当前卷积层，通过当前卷积层进行反卷积处理。

7.根据权利要求1所述的方法，其特征在于，所述根据所述待鉴别证件在所述视频帧序列中的位置，确定所述待鉴别证件在所述视频帧序列中的多个位置状态包括：

根据所述待鉴别证件在所述视频帧序列中的位置，对所述视频帧序列中不满足预设条件的视频帧进行过滤；

将所述待鉴别证件在过滤后的视频帧序列中的位置输入训练后的位置状态预测网络中；

根据所述位置状态预测网络的输出结果确定所述待鉴别证件在所述视频帧序列中的位置状态。

8.根据权利要求1所述的方法，其特征在于，所述候选关键帧包括多帧；所述根据所述候选关键帧，确定所述待鉴别证件的鉴别结果包括：

获取各个所述候选关键帧的质量分数；所述质量分数用于表征所述候选关键帧的清晰度；

根据各个所述候选关键帧的质量分数确定目标关键帧；

根据所述目标关键帧，确定所述待鉴别证件的鉴别结果。

9.根据权利要求8所述的方法，其特征在于，所述获取各个所述候选关键帧的质量分数包括：

获取所述候选关键帧对应的各个颜色通道的横向梯度和纵向梯度；

分别根据所述候选关键帧对应的各个颜色通道的横向梯度和纵向梯度，得到所述候选关键帧对应的各个颜色通道的梯度值；

累加各个颜色通道的梯度值，得到所述候选关键帧的质量分数。

10.根据权利要求8所述的方法，其特征在于，所述预设动作包括多个，各个预设动作对应不同的候选关键帧；

所述根据各个所述候选关键帧的质量分数确定目标关键帧包括：

将各个预设动作对应的候选关键帧分别组成各个预设动作各自对应的候选关键帧集合；

分别根据各个候选关键帧集合中的候选关键帧的质量分数，确定各个候选关键帧集合各自对应的预设动作的目标关键帧；

所述根据所述目标关键帧，确定所述待鉴别证件的鉴别结果包括：

将各个目标关键帧进行通道拼接处理，得到拼接关键帧；

将所述拼接关键帧输入训练后的鉴别结果分类网络中，得到所述待鉴别证件的鉴别结果。

11.根据权利要求1至10任意一项所述的方法，其特征在于，各个所述位置状态均包括方向信息和角度信息；所述目标位置状态包括目标方向信息和目标角度信息；所述将各个所述位置状态分别与预设动作对应的目标位置状态进行匹配，将匹配成功的位置状态对应的视频帧确定为待鉴别的候选关键帧包括：

将各个位置状态对应的方向信息分别与所述目标方向信息进行匹配，并将各个位置状态对应的角度信息分别与所述目标角度信息进行匹配；

将方向信息与目标方向信息一致并且角度信息与目标角度信息一致的位置状态确定为匹配成功的位置状态。

12.根据权利要求11所述的方法，其特征在于，所述角度信息为角度区间；所述目标角度信息为目标角度区间；所述将方向信息与目标方向信息一致并且角度信息与目标角度信息一致的位置状态确定为匹配成功的位置状态包括：

当任意一个位置状态对应的角度区间包含于所述目标位置状态对应的目标角度区间时，判定所述位置状态对应的角度信息与目标角度信息一致。

13.一种视频数据处理装置，其特征在于，所述装置包括：

视频帧获取模块，用于获取包含待鉴别证件的视频帧序列；

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。