CN113569824B

CN113569824B - 模型处理方法、相关设备、存储介质及计算机程序产品

Info

Publication number: CN113569824B
Application number: CN202111125603.0A
Authority: CN
Inventors: 张育嘉; 刘孟洋; 徐敘遠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-17
Anticipated expiration: 2041-09-26
Also published as: CN113569824A

Abstract

本申请公开一种模型处理方法、相关设备、存储介质及计算机程序产品，方法包括：从样本视频中截取出第一视频片段和第二视频片段，第一视频片段和第二视频片段之间的时空重叠率等于基准时空重叠率；调用视频处理模型，提取第一视频片段的时空特征作为第一时空特征，以及提取第二视频片段的时空特征作为第二时空特征；根据第一时空特征和第二时空特征，对第一视频片段和第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果；基于基准时空重叠率和时空重叠率预测结果，计算模型损失值；按照减少模型损失值的方向，优化视频处理模型的网络参数。本申请可增强模型的时空表征能力，使得模型可构建更加精确的视频时空指纹。

Description

模型处理方法、相关设备、存储介质及计算机程序产品

技术领域

本申请涉及计算机技术领域，具体涉及人工智能技术领域，尤其涉及一种模型处理方法、相关设备、存储介质及计算机程序产品。

背景技术

随着科技技术迅速发展，视频逐渐成为日常信息的重要的载体，人们愈来愈倾向于使用视频获得有效信息。随着视频数量的井喷式增长，视频种类与风格的日新月异，目前通常会基于深度学习的方式对神经网络模型进行模型优化，从而通过优化后的模型提取出各个视频的空间特征作为各个视频的视频空间指纹，以通过视频空间指纹来区分各个视频。其中，视频空间指纹是指只具有空间信息的视频指纹；所谓的视频指纹是一种根据视频内容生成的、用于标识当前视频的指纹字符。

经实践表明，现有的模型处理方式使得优化后的模型只具有空间表征能力，从而使得优化后的模型只能构建出视频的视频空间指纹；但由于视频空间指纹的精确度较低，其无法很好地区分场景相同而动作不同的视频，因此如何进行模型处理使得模型可构建出比视频空间指纹更精确的其他类型的视频指纹，成为了当下的研究热点。

发明内容

本申请实施例提供了一种模型处理方法、相关设备、存储介质及计算机程序产品，可以增强模型的时空表征能力，使得模型可构建更加精确的视频时空指纹。

一方面，本申请实施例提供了一种模型处理方法，所述方法包括：

从样本视频中截取出第一视频片段和第二视频片段，所述第一视频片段和所述第二视频片段之间的时空重叠率等于基准时空重叠率；

调用视频处理模型，提取所述第一视频片段的时空特征作为第一时空特征，以及提取所述第二视频片段的时空特征作为第二时空特征；

根据所述第一时空特征和所述第二时空特征，对所述第一视频片段和所述第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果；

基于所述基准时空重叠率和所述时空重叠率预测结果，计算所述视频处理模型的模型损失值；

按照减少所述模型损失值的方向，优化所述视频处理模型的网络参数；优化后的视频处理模型用于提取任一视频的时空特征，作为所述任一视频的视频时空指纹。

另一方面，本申请实施例提供了一种模型处理装置，所述装置包括：

处理单元，用于从样本视频中截取出第一视频片段和第二视频片段，所述第一视频片段和所述第二视频片段之间的时空重叠率等于基准时空重叠率；

所述处理单元，还用于调用视频处理模型，提取所述第一视频片段的时空特征作为第一时空特征，以及提取所述第二视频片段的时空特征作为第二时空特征；

所述处理单元，还用于根据所述第一时空特征和所述第二时空特征，对所述第一视频片段和所述第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果；

优化单元，用于基于所述基准时空重叠率和所述时空重叠率预测结果，计算所述视频处理模型的模型损失值；

所述优化单元，还用于按照减少所述模型损失值的方向，优化所述视频处理模型的网络参数；优化后的视频处理模型用于提取任一视频的时空特征，作为所述任一视频的视频时空指纹。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括输入接口和输出接口，所述计算机设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

另一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

另一方面，本申请实施例还提供了一种计算机程序产品；所述计算机程序产品可包括计算机程序，所述计算机程序被处理器执行时，实现上述所提及的模型处理方法。

本申请实施例可先从样本视频中截取出第一视频片段和第二视频片段，第一视频片段和第二视频片段之间的时空重叠率等于基准时空重叠率。其次，可调用视频处理模型分别从第一视频片段和第二视频片段中提取出第一时空特征和第二时空特征；并根据第一时空特征和第二时空特征，对第一视频片段和第二视频片段之间的时空重叠率进行预测。然后，基于基准时空重叠率和预测得到的时空重叠率预测结果计算模型损失值；并按照减小模型损失值的方向，优化视频处理模型的网络参数。在此模型处理过程中，通过将基准时空重叠率作为伪标签，并通过基准时空重叠率和时空重叠率预测结果来进行模型优化，可使得视频处理模型在优化过程中，不断提升自身的特征学习能力以增强时空表征能力，从而提取出较为准确的时空特征，进而得到与基准时空重叠率更加匹配的时空重叠率预测结果，达到减小模型损失值的目的。进一步的，由于时空特征同时包含了视频的空间信息和时域信息，因此通过优化后的视频处理模型提取视频的时空特征作为视频的视频时空指纹，可实现在不影响视频原来的空间信息的基础上，较好地区分场景相同动作不同的视频；可见相较于视频空间指纹而言，通过优化后的视频处理模型所构建的视频时空指纹更加精确。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种两个视频片段中重叠的图像帧的示意图；

图1b是本申请实施例提供的一种两帧图像帧之间的重叠区域的示意图；

图1c是本申请实施例提供的一种S3D网络的网络结构图；

图1d是本申请实施例提供的一种对视频处理模型进行模型优化的处理流程的示意图；

图2是本申请实施例提供的一种模型处理方法的流程示意图；

图3a是本申请实施例提供的一种视频处理模型中的在线网络和目标网络的网络结构图；

图3b是本申请另一实施例提供的一种模型处理方法的流程示意图；

图4a是本申请实施例提供的一种K个第一图像帧和K个第二图像帧之间的关系示意图；

图4b是本申请实施例提供的一种从样本视频中采样出K个第一图像帧和K个第二图像帧的示意图；

图4c是本申请实施例提供的一种在第二图像帧中放置目标裁剪框的示意图；

图5a是本申请实施例提供的一种得到时空重叠率预测结果的流程示意图；

图5b是本申请实施例提供的一种针对视频处理模型的处理流程的示意图；

图6是本申请实施例提供的一种模型处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着互联网技术的不断发展，人工智能（Artificial Intelligence，AI）技术也随之得到更好的发展。所谓的人工智能技术是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术；其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能。相应的，AI技术是一门综合学科，其主要包括计算机视觉技术（Computer Vision，CV）、语音处理技术、自然语言处理技术以及机器学习（MachineLearning，ML）/深度学习等几大方向。

其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机设备具有智能的根据途径；所谓的机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科；其专门研究计算机设备怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。而深度学习则是一种利用深层神经网络系统，进行机器学习的技术；机器学习/深度学习通常可包括人工神经网络、自监督学习（Self-supervised Learning，SSL）、对比学习（Contrastive Learning，CL）等多种技术。其中，自监督学习可以被看作是机器学习的一种“理想状态”，模型直接从无标签的样本数据中自行学习，无需标注数据；对比学习是一种为模型描述相似和不同事物的任务的方法，利用这种方法可以训练模型来区分相似和不同的对象。

基于AI技术中的机器学习/深度学习技术，本申请实施例提出了一种模型处理方案；该模型处理方案首创将来自同一视频源的两个视频片段之间的时空重叠率作为自监督前置任务（Pretext Task），来实现模型的训练优化，使得优化后的模型可具有较强的时空表征能力，从而可构建出更加精确的时域-空域指纹（Spatio-Temporal FingerPrint/Embedding）。其中：①时域-空域指纹可简称为时空指纹，其具体是指：同时具有空间信息和时域信息的视频指纹；视频指纹则是一种根据视频内容生成的、用于标识当前视频的指纹字符，即视频指纹本质上是一种字符串。②时空重叠率可包括：时间重叠率和空间重叠率；并且，时空重叠率和空间重叠率的定义如下：

时间重叠率是指：在两个视频片段中重叠的图像帧的数量，与两个视频片段中的任一视频片段包括的图像帧的数量之间的比值。例如，设两个视频片段均包括16帧图像帧，且该两个视频片段中存在2帧重叠的图像帧，则时间重叠率等于2/16=0.125。需说明的是，此处所提及的“重叠的图像帧”是指：同时存在于两个视频片段中的图像帧；例如参见图1a所示，两个视频片段中同时包括图像帧11和图像帧12，因此图像帧11和图像帧12为两个视频片段中重叠的图像帧。

空间重叠率是指：两个视频片段中处于同一排列位置的两帧图像帧之间重叠区域的尺寸（即面积），与两帧图像帧中的任一图像帧的图像尺寸（即图像面积）的比值。例如，设两帧图像帧中的任一图像帧的图像尺寸为120，且重叠区域的尺寸为60，则空间重叠率等于60/120=0.5。需要说明的是，此处所提及的重叠区域是指：在两帧图像帧中，像素位置存在重叠的区域。例如，仍以图1a所示的两个视频片段为例，并将这两个视频片段中处于末位的图像帧13和图像帧14，作为这两个视频片段中处于同一排列位置的两帧图像帧；那么参见图1b所示，可将图像帧13和图像帧14置于同一个图像坐标系，从而可确定在图像帧13和图像帧14中，像素位置存在重叠的区域可如图1b中的虚线框15所示，即虚线框15所表示的区域便是图像帧13和图像帧14之间的重叠区域。由此可知，本申请实施例所提及的重叠区域的判定与两帧图像帧的图像内容无任何关系；当两帧图像帧之间存在重叠区域时，这两帧图像帧中的各帧图像帧所包括的重叠区域的图像内容可能相同，也可能不同，对此不作限定。

基于上述描述，下面对本申请实施例所提出的模型处理方案的大致原理进行阐述：

首先，可预先构建一个包含3D卷积神经网络的视频处理模型；所谓的3D卷积神经网络是指：可捕获视频的时空特征的卷积神经网络（Convolutional Neural Networks，CNN）；此处的时空特征又可称为时域-空域特征，其具体是指：融合了视频在时间域上的时域信息和空间域上的空域信息的特征。具体的，此处所提及的3D卷积神经网络可以包括但不限于：I3D网络（双流膨胀3D卷积网络）、S3D网络（Separable 3D CNN），等等；其中，I3D网络是一种将2DCNN-InceptionNet-V1（一种用于图像分类的卷积神经网络）中的卷积和池化核从2D（二维）扩展到了3D（三维），来无缝地学习时空特征的卷积神经网络，而S3D网络则是将I3D网络中的部分卷积层替换为2DCNN所得到的卷积神经网络，从而实现在时间域和空间域上分离进行卷积，其在节约计算成本的同时可保持精确度。为便于阐述，后续均以3D卷积神经网络为S3D网络为例进行说明。

参见图1c所示，S3D网络主要包括以下内容：卷积参数为7×7×7的卷积单元（Sep-Conv）、池化参数为1×3×3的最大池化层、卷积核为1×1×1的卷积层、卷积参数为3×3×3的卷积单元（Sep-Conv）、多尺度特征模块（Sep-Inc）、池化参数为3×3×3的最大池化层、池化参数为2×2×2的最大池化层，以及池化参数为2×7×7的平均池化层，等等。其中，卷积参数为7×7×7的卷积单元具体可包括：卷积核为7×1×1的卷积层，以及卷积核为1×7×7的卷积层；卷积参数为3×3×3的卷积单元具体可包括：卷积核为3×1×1的卷积层，以及卷积核为1×3×3的卷积层。任一卷积单元可先通过内部的第一个卷积层在时间域上对输入数据进行特征提取以得到时间特征，再通过第二卷积层在空间域上对第一个卷积层所得到的时间特征进行特征提取，得到融合了时域信息和空间信息的输出特征。一个多尺度特征模块（Sep-Inc）可包括四个分支以及特征连接层，该多尺度特征模块可通过各个分支分别对输入数据执行卷积操作以提取多个尺度的特征，并通过特征连接层将各个分支所提取出的特征进行连接，得到最终的多尺度特征。按照从左到右的顺序，多尺度特征模块中的第一个分支可包括卷积核为1×1×1的卷积层；第二个分支和第三个分支均可包括：卷积核为1×1×1的卷积层、卷积核为1×3×3的卷积层以及卷积核为3×1×1的卷积层；第四个分支均可包括：池化参数为3×3×3的最大池化层以及卷积核为1×1×1的卷积层。

其次，可按照图1d所示的处理流程，对视频处理模型进行模型优化。具体的，可获取用于优化视频处理模型的样本视频，并对该样本视频进行时空重叠数据增广，得到一对来自该样本视频的正样本对；该正样本对中包括第一视频片段和第二视频片段，且第一视频片段和第二视频片段之间的时空重叠率等于基准时空重叠率。然后，可执行自监督前置任务以得到第一视频片段和第二视频片段之间的时空重叠率预测结果；该自监督前置任务可包括如下步骤：可先将第一视频片段和第二视频片段输入至视频处理模型，由该视频处理模型通过内部的3D卷积神经网络（如S3D网络）提取出第一时空特征以及第二时空特征，再根据第一时空特征和第二时空特征，在第一视频片段和第二视频片段之间进行时空重叠率预测（Spatio-Temporal Overlap Rate Prediction），得到时空重叠率预测结果。在得到时空重叠率预测结果后，可根据该时空重叠率预测结果和基准时空重叠率，进行损失值运算以得到视频处理模型的模型损失值，从而基于该模型损失值优化视频处理模型的网络参数。在按照图1d所示的处理流程对视频处理模型进行一次参数优化后，还可多次迭代执行图1d所示的处理流程，以不断优化视频处理模型的网络参数，提升优化后的视频处理模型的模型性能。

经实践表明，本申请实施例提出的模型处理方案可至少具有如下有益效果：

①通过首创将来自同一视频源的两个视频片段之间的时空重叠率作为自监督前置任务，无需人工进行数据标注（DataLabel），可节约大量的标注成本。并且，整个模型处理过程，无需使用负样本，即能实现时空特征提取能力的学习；可有效避免因可能存在相同视频被作为负样本，而对视频处理模型产生的不利影响。

②通过将基准时空重叠率作为伪标签（即非人工标注标签的标签），并通过基准时空重叠率和时空重叠率预测结果来进行模型优化，可使得视频处理模型在优化过程中，不断提升内部的3D卷积神经网络的特征学习能力以增强时空表征能力，从而提取出较为准确的时空特征。

③通过结合自监督学习无需数据标注的优点和3D卷积神经网络可提取时域-空域特征的优点，使得优化后的视频处理模型可通过3D卷积神经网络在空间特征中引入时间域的动作信息来生成时空特征，并将时空特征作为视频时空指纹，可使得该视频时空指纹能够较好地区分场景相同而动作不同的视频，并且不影响视频原有的空间信息。也就是说，优化后的视频处理模型可适应网络中数量、种类日益增长的视频要求；该优化后的视频处理模型能够利用海量亿级数据，从任一视频中提取出表征能力更强的视频时空指纹；尤其是在游戏等场景一致的视频上，可产生相较于视频空间指纹而言，更具有区分度的视频时空指纹。进一步的，通过产生视频时空指纹来标识视频，可在根据视频时空指纹对视频执行多类型判断视频相似性的下游任务（如版权检测任务、视频排重任务等）时，可有效提升下游任务的执行效果。

需要说明的是：在具体实现中，上述所提及的模型处理方案可具体由一个计算机设备执行，该计算机设备可以是终端或者服务器。其中，此处所提及的终端可以包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能电视、智能车载终端等；终端内可运行各式各样的客户端（application，APP），如视频播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端，等等。此处所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。需说明的是，计算机设备可以位于区块链网络外，也可以位于区块链网络内，对此不作限定；所谓的区块链网络是一种由点对点网络（P2P网络）和区块链所构成的网络，而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式，其本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块（或称为区块）。

或者，上述所提及的模型处理方案也可由服务器和终端共同执行；服务器和终端通过网络（如有线网络、无线网络等）连接，对此不作限定。例如，可由终端获取样本视频，并对样本视频进行时空重叠数据增广以得到样本对；此情况下，终端可将得到的样本对发送至服务器，由服务器基于该样本对执行后续的自监督前置任务、模型损失值的计算，以及网络参数的优化等步骤。又如，也可由终端获取样本视频，对样本视频进行时空重叠数据增广以得到样本对，以及执行自监督前置任务以得到时空重叠率预测结果；此情况下，终端可将得到的时空重叠率预测结果以及基准时空重叠率发送至服务器，由服务器根据时空重叠率预测结果以及基准时空重叠率，执行后续的模型损失值的计算以及网络参数的优化等步骤。再如，可由服务器获取样本视频，并对样本视频进行时空重叠数据增广以得到样本对；此情况下，服务器可将得到的样本对下发至终端，由终端基于该样本对执行后续的自监督前置任务、模型损失值的计算，以及网络参数的优化等步骤。应理解的是，此处只是示例性地列举了几种终端和服务器共同执行该模型处理方案的情况，并非穷举。

基于上述模型处理方案的相关描述，本申请实施例提出一种模型处理方法。该模型处理方法可以由上述所提及的计算机设备执行，也可以由终端和服务器共同执行；为便于阐述，后续均以计算机设备执行该模型处理方法为例进行说明。请参见图2，该模型处理方法可包括以下步骤S201-S205：

S201，从样本视频中截取出第一视频片段和第二视频片段。

其中，样本视频可以是用于模型优化的任一类型的视频；例如，该样本视频可以是影视视频、综艺视频、自媒体视频、或者游戏视频，等等。所谓的影视视频是指：在指定拍摄场景中，按照事先制作好的剧本对人物和/或动物的表演过程以及周围的环境进行录制，并后期加上音频、特效等制作而成的视频；综艺视频是指：一种综合多种艺术形式并带有娱乐性的视频；自媒体视频是指：普通大众采用摄像设备对某个场景进行拍摄，且通过网络等途径向外发布的视频，如vlog（video blog，视频记录/视频博客/视频网络日志）；游戏视频是指：由任一游戏的多帧游戏画面构成的视频。

计算机设备在执行步骤S201时，可按照基准时空重叠率对样本视频进行时空重叠数据增广，以从样本视频中截取出第一视频片段和第二视频片段；该第一视频片段和第二视频片段之间的时空重叠率等于基准时空重叠率。具体的，第一视频片段和第二视频片段之间的时空重叠率包括：第一视频片段和第二视频片段之间的时间重叠率，以及第一视频片段和第二视频片段之间的空间重叠率；同理，基准时空重叠率包括：基准时间重叠率和基准空间重叠率。那么，“第一视频片段和第二视频片段之间的时空重叠率等于基准时空重叠率”的含义是指：第一视频片段和第二视频片段之间的时间重叠率，等于基准时间重叠率；以及，第一视频片段和第二视频片段之间的空间重叠率，等于基准空间重叠率。

S202，调用视频处理模型，提取第一视频片段的时空特征作为第一时空特征，以及提取第二视频片段的时空特征作为第二时空特征。

S203，根据第一时空特征和第二时空特征，对第一视频片段和第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果。

在一种实施方式中，计算机设备在执行步骤S203时，可调用时空重叠率预测网络，根据第一时空特征和第二时空特征，对第一视频片段和第二视频片段之间的时间重叠率的具体数值进行预测，得到预测时间重叠率；以及对第一视频片段和第二视频片段之间的空间重叠率的具体数值进行预测，得到预测空间重叠率。从而，可将预测时间重叠率和预测空间重叠率添加至时空重叠率预测结果。

另一种实施方式中，基准时空重叠率可包括：基准时间重叠率和基准空间重叠率；基准时间重叠率是多个预设时间重叠率中的一个预设时间重叠率，基准空间重叠率是多个预设空间重叠率中的一个预设空间重叠率。例如，设多个预设时间重叠率为[0.2, 0.4,0.6, 0.8, 1.0]，则基准时间重叠率可以是0.2，也可以是0.4，还可以是0.6，等等；同理，设多个预设空间时间重叠率为[0.2, 0.4, 0.6, 0.8, 1.0]，则基准空间重叠率可以是0.2，也可以是0.4，还可以是0.6，等等。

在此情况下，计算机设备在执行步骤S203时，可对第一时空特征和第二时空特征进行特征级联处理，得到级联时空特征。然后，可调用时间重叠率分类器根据级联时空特征，预测第一视频片段和第二视频片段之间的时间重叠率为每个预设时间重叠率的概率，得到时间重叠率预测结果。以及，可调用空间重叠率分类器根据级联时空特征，预测第一视频片段和第二视频片段之间的空间重叠率为每个预设空间重叠率的概率，得到空间重叠率预测结果。也就是说，通过此实施方式所得到的时空重叠率预测结果可包括：时间重叠率预测结果和空间重叠率预测结果；其中，时间重叠率预测结果可包括：第一视频片段和第二视频片段之间的时间重叠率为每个预设时间重叠率的概率预测值；空间重叠率预测结果可包括：第一视频片段和第二视频片段之间的空间重叠率为每个预设空间重叠率的概率预测值。

S204，基于基准时空重叠率和时空重叠率预测结果，计算视频处理模型的模型损失值。

在具体实施过程中，计算机设备可基于基准时空重叠率和时空重叠率预测结果进行损失值运算，得到视频处理模型的重叠率预测损失值。然后，可基于该重叠率预测损失值确定视频处理模型的模型损失值；具体的，可将重叠率预测损失值作为视频处理模型的模型损失值，或者也可获取视频处理模型的其他损失值（如特征处理损失值），通过融合重叠率预测损失值和其他损失值，得到视频处理模型的模型损失值。其中，基于基准时空重叠率和时空重叠率预测结果计算得到重叠率预测损失值的具体实施方式可包括以下任一种：

在一种实施方式中，若时空重叠率预测结果包括预测时间重叠率和预测空间重叠率，则计算机设备可基于基准时间重叠率和预测时间重叠率之间的差异，进行损失值运算以得到第一损失值；以及，可基于基准空间重叠率和预测空间重叠率之间的差异，进行损失值运算以得到第二损失值。然后，可对第一损失值和第二损失值进行求和运算，得到视频处理模型的重叠率预测损失值。其中，基准时间重叠率和预测时间重叠率之间的差异，可与第一损失值成正比；即基准时间重叠率和预测时间重叠率之间的差异越大，第一损失值就越大。同理，基准空间重叠率和预测空间重叠率之间的差异，可与第二损失值成正比。

另一种实施方式中，若时空重叠率预测结果包括时间重叠率预测结果和空间重叠率预测结果，则计算机设备可采用分类损失函数，根据基准时间重叠率和时间重叠率预测结果计算出时间重叠率分类损失值，以及根据基准空间重叠率和空间重叠率预测结果计算出空间重叠率分类损失值；然后，可对时间重叠率分类损失值和空间重叠率分类损失值进行求和运算，得到视频处理模型的重叠率预测损失值。

S205，按照减少模型损失值的方向，优化视频处理模型的网络参数；优化后的视频处理模型用于提取任一视频的时空特征，作为任一视频的视频时空指纹。

其中，“按照减小模型损失值的方向”是指：以最小化模型损失值为目标的模型优化方向；通过此方向进行模型优化，使得视频处理模型在每次优化后所再次产生的模型损失值，需小于视频处理模型在优化前所产生的损失值。例如，本次计算得到的视频处理模型的模型损失值为0.85，那么通过按照减小模型损失值的方向优化视频处理模型后，通过优化后的视频处理模型所再次产生的模型损失值应小于0.85。

需要说明的是，在上述图2所示的方法实施例中所提及的视频处理模型可以是基于3D卷积神经网络搭建的；也可以是在基于3D卷积神经网络的基础上，进一步结合自监督对比学习中的隐式特征预测（Bootstrap Your Own pentent，BYOL）框架搭建的，即视频处理模型可以是基于自监督对比学习中的隐式特征预测（Bootstrap Your Own pentent，BYOL）框架搭建的模型。具体的，可将3D卷积神经网络作为第一时空特征提取子网络，嵌入至BYOL框架包括的在线网络中，从而得到视频处理模型；也就是说，该视频处理模型可包括在线网络和目标网络，该目标网络的输出可作为在线网络的学习目标。在线网络的网络参数可通过视频处理模型的模型损失值进行优化，目标网络的网络参数则可通过在线网络的网络参数进行动量更新（Momentum Update，MU），如图3a所示。

参见图3a所示，在线网络可包括：第一时空特征提取子网络（采用

表示）、第一映射网络（采用

表示）和预测网络（采用

表示）；且第一映射网络和预测网络；第一映射网络的输入端与第一时空特征提取子网络的输出端相连接，且第一映射网络的输出端与预测网络的输入端相连接。目标网络可包括：第二时空特征提取子网络（采用

表示）和第二映射网络（采用

表示）。其中，第一时空特征提取子网络和第二时空特征提取子网络的网络结构可相同，第一映射网络和第二映射网络的网络结构可相同。并且，第一时空特征提取子网络和第二时空特征提取子网络的输出，均位于特征层；第一映射网络和第二映射网络的输出，均位于映射层；预测网络的输出则位于特征预测层。

针对图3a所示的视频处理模型，本申请实施例进一步提出了一种模型处理方法；为便于阐述，本申请实施例仍以计算机设备执行该模型处理方法为例进行说明。参见图3b所示，该模型处理方法可包括以下步骤S301-S309：

S301，获取用于模型优化的样本视频集。

其中，样本视频集可以是以下任一种：包含一个或多个游戏视频的视频集，包含一个或多个影视视频的视频集、包含一个或多个综艺视频的视频集、包含一个或多个自媒体视频的视频集、包含一个或多个游戏视频的视频集，等等。以样本视频集是包含一个或多个游戏视频的视频集为例，计算机设备执行步骤S301的具体实施方式可以是：

首先，可获取游戏视频集，该游戏视频集中可包括多个游戏视频；具体的，计算机设备可获取关于任一游戏的大量原始视频（如10万（10w）个原始视频），并将每个原始视频剪切为指定时长（如12秒）的视频，将剪切得到的各个指定时长的视频均作为游戏视频，添加至游戏视频集中。其次，计算机设备可对游戏视频集中的每个游戏视频进行类型检测，得到每个游戏视频的视频类型；具体的，计算机设备可采用ECR算法（一种边缘变化率检测算法），对游戏视频集中的每个游戏视频进行类型检测，得到每个游戏视频的视频类型。任一游戏视频的视频类型包括：动态视频类型或静态视频类型；所谓的动态视频是指由多帧不同的图像帧所构成的视频，所谓的静态视频是指由多帧相同的图像帧所构成的视频。在得到每个游戏视频的视频类型后，计算机设备可在游戏视频集中，过滤掉属于静态视频类型的各个游戏视频，得到过滤后的游戏视频集；并将过滤后的游戏视频集，作为用于模型优化的样本视频集。

例如，若游戏视频集中存在70万个12秒的游戏视频均为动态视频，则可在游戏视频集中保留这70万个12秒的游戏视频，并过滤掉其他的游戏视频，从而得到由这70万个12秒的游戏视频所构成的样本视频集。通过此方式来保证样本视频集中的每个视频均为动态视频，这样可使得从样本视频中任意选取样本视频时，必然可选取到动态视频作为样本视频；由于相较于静态视频而言，动态视频具有更丰富的视频信息，因此采用动态视频作为样本视频来优化视频处理模型，可使得视频处理模型可学习到更多的视频信息，可有效提升视频处理模型的特征表征能力，从而提升视频处理模型的鲁棒性。

S302，从样本视频集中选取任一视频作为样本视频，即样本视频可以是用于模型优化的样本视频集中的任一视频。

S303，从样本视频中截取出第一视频片段和第二视频片段。

其中，第一视频片段和第二视频片段之间的时空重叠率等于基准时空重叠率；具体的，第一视频片段和第二视频片段之间的时间重叠率，等于基准时间重叠率；以及第一视频片段和第二视频片段之间的空间重叠率，等于基准空间重叠率。在步骤S303的具体实施过程中，计算机设备可具体执行如下步骤s11-s13：

s11，按照第一采样频率从样本视频中采样出K个第一图像帧，以及按照第二采样频率和基准时间重叠率从样本视频中采样出K个第二图像帧。

其中，K为大于1的整数；第一采样频率和第二采样频率不同，且K的取值、第一采样频率和第二采样频率均可以根据经验值或者业务需求设置。另外，第一图像帧和第二图像帧的起始采样位置可以是随机确定的；在此情况下，通过按照第一采样频率采样出K个第一图像帧，可实现从样本视频中随机等间隔地选择K帧图像帧作为K个第一图像帧。同理，当第二图像帧的起始采样位置是随机确定时，通过按照第二采样频率采样出K个第二图像帧，可实现从样本视频中随机等间隔地选择K帧图像帧作为K个第二图像帧，只要K个第二图像帧和K个第一图像帧之间的时间重叠率等于基准时间重叠率即可。参见图4a所示：采用

表示K个第一图像帧所构成的视频片段的片段长（即第一图像帧的数量），采用

表示K个第二图像帧所构成的视频片段的片段长（即第二图像帧的数量），

和

均等于K；采用

表示K个第一图像帧和K个第二图像帧之间重叠的图像帧的数量，且采用

表示K个第二图像帧和K个第一图像帧之间的时间重叠率，则

。需说明的是，由于后续通过步骤s12-s13构建第一视频片段和第二视频片段时，并非在时间域上对K个第一图像帧和K个第二图像帧进行调整，因此K个第一图像帧和K个第二图像帧之间的时间重叠率，可等同于第一视频片段和第二视频片段之间的时间重叠率，即第一视频片段和第二视频片段之间的时间重叠率也可采用

表示，且

。

举例说明：设K的取值等于8，基准时间重叠率为0.25；第一采样频率为每3帧采样一次，第二采样频率为每4帧采样一次；那么参见图4b所示，若计算机设备将样本视频中的第5帧图像帧采样为第1个第一图像帧，则按照此第一采样频率，计算机设备还可从样本视频中采样出第8帧图像帧、第11帧图像帧、第14帧图像帧、第17帧图像帧、第20帧图像帧、第23帧图像帧以及第26帧图像帧，依次作为第2个第一图像帧至第8个第一图像帧。由于基准时间重叠率为0.25，因此可确定8个第一图像帧和8个第二图像帧之间需存在2（8×0.25=2）个重叠的图像帧；那么，计算机设备在按照第二采样频率（每4帧采样一次）进行采样时，可将样本视频中的第11帧图像帧采样为第1个第二图像帧，则按照此第二采样频率，计算机设备还可从样本视频中采样出第15帧图像帧、第19帧图像帧、第23帧图像帧、第27帧图像帧、第31帧图像帧、第35帧图像帧以及第39帧图像帧，依次作为第2个第二图像帧至第8个第二图像帧。

s12，根据目标裁剪尺寸对每个第一图像帧进行图像裁剪，得到K个裁剪后的第一图像帧；以及，根据目标裁剪尺寸和基准空间重叠率对每个第二图像帧进行图像裁剪，得到K个裁剪后的第二图像帧。

其中，目标裁剪尺寸可以是根据经验值设置的；或者，该目标裁剪尺寸也可以是随机设置的，对此不作限定。计算机设备在根据目标裁剪尺寸对每个第一图像帧进行图像采集时，可生成目标裁剪尺寸的目标裁剪框；并可将目标裁剪框分别放置在每个第一图像帧中的第一位置处，以分别对每个第一图像帧进行图像裁剪。其中，每个第一图像帧中的第一位置相同，且每个第一图像帧中的第一位置可以是随机确定的。

计算机设备在根据目标裁剪尺寸和基准空间重叠率对每个第二图像帧进行图像采集时，可基于第一图像帧和第二图像帧在图像坐标系中的映射关系，将第一图像帧中的第一位置映射到第二图像帧中，得到第一位置在第二图像帧中的映射位置。需要说明的是，第一图像帧在图像坐标系中的图像位置，与第二图像帧在图像坐标系中的图像位置可以是相同的；在此情况下，第一位置和映射位置在图像坐标系中是指的同一个位置。然后，可根据该映射位置和基准空间重叠率，随机确定目标裁剪框在第二图像帧中需处于的第二位置，只需第二位置满足如下条件即可：位于映射位置的目标裁剪框与位于第二位置的目标裁剪框之间的重叠区域的尺寸，与目标裁剪框的目标裁剪尺寸之间的比值，需等于基准空间重叠率。在确定了第二位置后，可将目标裁剪框分别放置在每个第二图像帧中第二位置处，以分别对每个第二图像帧进行图像裁剪；例如，设采用黑色虚线表示位于映射位置的目标裁剪框，采用黑色实线表示位于第二位置的目标裁剪框，则在第二图像帧中放置目标裁剪框的示意图可参见图4c所示。

需说明的是，由于后续通过步骤s13构建第一视频片段和第二视频片段时，并未对K个裁剪后的第一图像帧以及K个裁剪后的第二图像帧进行尺寸和位置的调整，因此第一视频片段中的图像帧的尺寸（采用

表示）等于第一图像帧的尺寸，第二视频片段中的图像帧的尺寸（采用

表示）等于第二图像帧的尺寸，且第一视频片段和第二视频片段中处于同一排列位置的两个图像帧之间的重叠区域的尺寸（采用

表示）等于目标裁剪框的尺寸，因此若采用

表示第一视频片段和第二视频片段之间的空间重叠率，则

。

s13，采用K个裁剪后的第一图像帧构建第一视频片段，以及采用K个裁剪后的第二图像帧构建第二视频片段。

在一种实施方式中，计算机设备可直接按照图像帧的显示先后顺序，对K个裁剪后的第一图像帧进行排列，从而构建出第一视频片段；以及，对K个裁剪后的第二图像帧进行排列，从而构建出第二视频片段。另一种实施方式中，计算机设备还可对裁剪后的图像帧进行图像增广处理，从而采用增广后的而图像帧构建相应的视频片段。例如，在采用K个裁剪后的第一图像帧构建第一视频片段时，可对每个裁剪后的第一图像帧进行图像增广处理，得到K个增广后的第一图像帧；然后，采用K个增广后的第一图像帧，构建第一视频片段。又如，在采用K个裁剪后的第二图像帧构建第二视频片段时，可对每个裁剪后的第二图像帧进行图像增广处理，得到K个增广后的第二图像帧；然后，采用K个增广后的第二图像帧，构建第二视频片段。通过图像增广处理，可有效提升视频片段的多样性。

其中，图像增广处理包括以下至少一项：图像翻转处理、图像模糊处理以及颜色抖动处理。所谓图像翻转处理是指：将图像以某条中轴线为中心进行镜像对换的处理；此处所提及的中轴线可以根据经验值或者业务需求设置，对此不作限定。所谓的图像模糊处理是指：降低图像的清晰度的处理；本申请实施例对图像模糊处理的具体实现方式不作限定，例如可采用高斯模糊算法实现图像模糊处理，也可以采用均值滤波器、方框滤波器、中值滤波器等滤波器实现图像模糊处理，等等。颜色抖动处理又可称为色彩抖动处理，其具体是指：对构成图像的色相产生位移，造成邻近点状差异的色彩交叉效果的处理。

需要说明的是，本申请实施例只是示例性地列举了图像增广处理的3种方式，并非穷举。并且，在对任一图像帧（即第一图像帧或第二图像帧）进行图像增广处理时，可随机从3种方式中选取一种或多种方式来实现对任一图像帧的图像增广；或者，也可以根据视频处理模型的后续应用场景所涉及的下游任务，从3种方式中选取与下游任务相适配的方式来实现对任一图像帧的图像增广。例如，视频处理模型的后续应用场景为提取视频时空指纹以进行版权检测任务的应用场景，即下游任务是版权检测任务；则由于版权检测任务的核心是在两个视频中查找出内容相同画面相似的视频片段，而画面相似的视频片段可能存在色彩相似的情况，因此为了提升视频处理模型对色彩相似的视频片段的区分能力，从而提升版权检测任务的执行效果，可选取颜色抖动处理这一图像增广处理对第一图像帧和第二图像帧进行图像增广处理。由此可见，通过根据下游任务来选取图像增广处理的方式，可有效提升后续进行模型优化后的视频处理模型与下游任务之间的适配度。

S304，调用视频处理模型，提取第一视频片段的时空特征作为第一时空特征，以及提取第二视频片段的时空特征作为第二时空特征。

具体的，可调用视频处理模型中的在线网络中的第一时空特征提取子网络，提取第一视频片段的时空特征作为第一时空特征，以及提取第二视频片段的时空特征作为第二时空特征；也就是说，第一时空特征和第二时空特征，均是通过调用第一时空特征提取子网络提取得到的。

另外，视频处理模型中的在线网络还可用于对第一视频片段进行特征处理，以得到第一输出特征，该第一输出特征是基于第一时空特征得到的。并且，视频处理模型中的目标网络还可用于对第二视频片段进行特征处理，以得到第二输出特征。其中，在线网络得到第一输出特征的过程还包括：在时空特征提取网络提取出第一时空特征后，调用第一映射网络对第一时空特征进行特征映射，得到第一映射特征。然后，再调用预测网络对第一映射特征进行特征预测，得到第一输出特征。由于目标网络的输出是作为在线网络的学习目标的，因此在线网络中的预测网络的任务是：将第一映射特征预测成一个与第二输出特征相近的特征。类似的，目标网络得到第二输出特征的过程包括：调用第二时空特征提取网络对第二视频片段进行时域和空域上的特征提取，得到第二视频片段的目标时空特征；然后，可调用第二映射网络对目标时空特征进行特征映射，得到第二映射特征，并将第二映射特征作为第二输出特征。

S305，根据第一时空特征和第二时空特征，对第一视频片段和第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果。

其中，时空重叠率预测结果可包括：时间重叠率预测结果和空间重叠率预测结果。在步骤S305的具体实施过程中，可对第一时空特征和第二时空特征进行特征级联处理，得到级联时空特征。然后，可调用时间重叠率分类器根据级联时空特征，预测第一视频片段和第二视频片段之间的时间重叠率为每个预设时间重叠率的概率，得到时间重叠率预测结果。以及，可调用空间重叠率分类器根据级联时空特征，预测第一视频片段和第二视频片段之间的空间重叠率为每个预设空间重叠率的概率，得到空间重叠率预测结果。其中，时间重叠率预测结果可包括：第一视频片段和第二视频片段之间的时间重叠率为每个预设时间重叠率的概率预测值；空间重叠率预测结果可包括：第一视频片段和第二视频片段之间的空间重叠率为每个预设空间重叠率的概率预测值。

示意性的，基于上述步骤S303-S305的相关描述，下面结合图5a对计算机设备得到时空重叠率预测结果的流程作总结性阐述：首先，可先将第一视频片段

和第二视频片段

输入至视频处理模型中的第一时空特征提取子网络

，由该第一时空特征提取子网络提取出

的时空特征

作为第一时空特征，以及提取

的时空特征

作为第二时空特征。然后，可对

和

进行特征级联处理，得到级联时空特征

，并将该级联时空特征

分别经过空间重叠率分类器

和时间重叠率分类器

，由空间重叠率分类器

和时间重叠率分类器

分别根据该级联时空特征预测出空间重叠率预测结果和时间重叠率预测结果。需要说明的是，时间重叠率分类器和空间重叠率分类器可以位于视频处理模型内，也可以位于视频处理模型外，对此不作限定。并且，通过结合图3a和图5a，可采用图5b来整体表示针对视频处理模型的处理流程。

S306，基于基准时空重叠率和时空重叠率预测结果进行损失值运算，得到视频处理模型的重叠率预测损失值。

在具体实现中，可采用分类损失函数根据基准时间重叠率和时间重叠率预测结果计算出时间重叠率分类损失值，以及根据基准空间重叠率和预测空间重叠率计算出空间重叠率分类损失值；然后，对时间重叠率分类损失值和空间重叠率分类损失值进行求和运算，得到视频处理模型的重叠率预测损失值。其中，分类损失函数可以是交叉熵损失函数，该交叉熵损失函数（采用

表示）可如公式1.1所示：

式1.1

其中，当该交叉熵损失函数被用于计算时间重叠率分类损失值，公式1.1中的m的取值等于预设时间重叠率的数量；

用于指示第k个预设时间重叠率是否为基准时间重叠率，当

时，指示第k个预设时间重叠率为基准时间重叠率，当

时，第k个预设时间重叠率不是基准时间重叠率。

表示第一视频片段和第二视频片段之间的时间重叠率为第k个预设时间重叠率的概率预测值。需要说明的是，当该交叉熵损失函数被用于计算空间重叠率分类损失值，公式1.1中的各个参数的含义，与交叉熵损失函数被用于计算时间重叠率分类损失值时的各个参数的含义类似，在此不再赘述。

S307，根据在线网络得到的第一输出特征，与目标网络得到的第二输出特征之间的差异，计算视频处理模型的特征处理损失值。

在具体实现中，可采用均方差损失函数（也可称为L2损失函数），根据在线网络得到的第一输出特征，与目标网络得到的第二输出特征之间的差异，计算视频处理模型的特征处理损失值。具体的，采用

表示第一输出特征，采用

表示第二输出特征，则特征处理损失值（采用

表示）的计算公式可参见下述公式1.2所示：

式1.2

其中，

表示第一输出特征的均值，

表示第二输出特征的均值，

表示对

和

进行范数运算。

S308，融合重叠率预测损失值和特征处理损失值，得到视频处理模型的模型损失值。

在具体实施过程中，可对重叠率预测损失值和特征处理损失值进行求和运算，得到视频处理模型的模型损失值；基于此，采用

表示视频处理模型的模型损失值，则该模型损失值可参见下述公式1.3所示：

式1.3

S309，按照减少模型损失值的方向，优化视频处理模型的网络参数。

由前述可知，视频处理模型可包括在线网络和目标网络；其中，在线网络的网络参数可通过模型损失值进行优化，目标网络的网络参数可通过在线网络的网络参数进行动量更新（Momentum Update，MU）。基于此，步骤S309的具体实施方式可以是：先按照减小模型损失值的方向，优化视频处理模型中的在线网络的网络参数；然后，根据动量因子和在线网络的优化后的网络参数，对目标网络的网络参数进行动量更新，以优化目标网络的网络参数。其中，动量因子的取值可根据经验值设置，例如动量因子可等于0.996。基于此描述，采用

表示动量因子，采用

表示在线网络的优化后的网络参数，采用

表示目标网络的优化前的网络参数，则对目标网络的网络参数进行动量更新的方式可参见下述公式1.4所示：

式1.4

在通过上述步骤优化视频处理模型的网络参数后，可判断优化后的视频处理模型是否达到收敛；若优化后的视频处理模型未达到收敛，则迭代上述步骤S302-S308以对视频处理模型进行再次优化，直至优化后的视频处理模型达到收敛。若优化后的视频处理模型达到收敛，则从优化后的视频处理模型中取出第一时空特征提取子网络，作为时空指纹提取器；当检测到针对目标视频的指纹提取指令时，调用时空指纹提取器提取所述目标视频的时空特征，作为目标视频的视频时空指纹。其中，视频处理模型达到收敛是指：视频处理模型被迭代优化的次数大于或等于次数阈值T。或者，视频处理模型达到收敛是指：视频处理模型的网络参数不再发生变化，或网络参数的变化幅度小于阈值。或者，视频处理模型达到收敛是指：视频处理模型的模型损失值不再减小，或视频处理模型的模型损失值的减小幅度小于阈值。

本申请实施例可实现视频处理模型在优化过程中，不断提升自身的特征学习能力以增强时空表征能力，从而提取出较为准确的时空特征。并且，在模型训练过程中，无需标注海量亿级视频，可在增强特征表征能力的同时降低样本集的构建成本。同时，采用3D卷积神经网络作为视频处理模型的主干结构，相较于传统2D卷积神经网络而言，能够产生拥有时域动态信息的视频时空指纹，通过该视频时空指纹可强化视频相似性判断相关任务的执行效果，如版权检测任务、视频排重等任务的执行效果。并且，通过BYOL框架来构建视频处理模型，可使得在视频处理模型的优化过程中，不采用负样本，只需正样本即能使得视频处理模型学习到图像的特征表征能力，这样可较好的避免海量数据中可能存在的相似数据作为负样本从而影响模型性能的情况。

基于上述模型处理方法的相关实施例的描述，本申请实施例还提出了一种模型处理装置，该模型处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码）。该模型处理装置可以执行图2或图3b所示的模型处理方法；请参见图6，所述模型处理装置可以运行如下单元：

处理单元601，用于从样本视频中截取出第一视频片段和第二视频片段，所述第一视频片段和所述第二视频片段之间的时空重叠率等于基准时空重叠率；

所述处理单元601，还用于调用视频处理模型，提取所述第一视频片段的时空特征作为第一时空特征，以及提取所述第二视频片段的时空特征作为第二时空特征；

所述处理单元601，还用于根据所述第一时空特征和所述第二时空特征，对所述第一视频片段和所述第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果；

优化单元602，用于基于所述基准时空重叠率和所述时空重叠率预测结果，计算所述视频处理模型的模型损失值；

所述优化单元602，还用于按照减少所述模型损失值的方向，优化所述视频处理模型的网络参数；优化后的视频处理模型用于提取任一视频的时空特征，作为所述任一视频的视频时空指纹。

在一种实施方式中，处理单元601在用于从样本视频中截取出第一视频片段和第二视频片段时，可具体用于：

按照第一采样频率从样本视频中采样出K个第一图像帧，以及按照第二采样频率和所述基准时间重叠率从所述样本视频中采样出K个第二图像帧，K为大于1的整数；

根据目标裁剪尺寸对每个第一图像帧进行图像裁剪，得到K个裁剪后的第一图像帧；以及，根据所述目标裁剪尺寸和所述基准空间重叠率对每个第二图像帧进行图像裁剪，得到K个裁剪后的第二图像帧；

采用所述K个裁剪后的第一图像帧构建第一视频片段，以及采用所述K个裁剪后的第二图像帧构建第二视频片段。

另一种实施方式中，处理单元601在用于采用K个裁剪后的第一图像帧构建第一视频片段时，可具体用于：

对每个裁剪后的第一图像帧进行图像增广处理，得到K个增广后的第一图像帧；所述图像增广处理包括以下至少一项：图像翻转处理、图像模糊处理以及颜色抖动处理；

采用所述K个增广后的第一图像帧，构建第一视频片段。

另一种实施方式中，所述基准时空重叠率包括：基准时间重叠率和基准空间重叠率；所述基准时间重叠率是多个预设时间重叠率中的一个预设时间重叠率，所述基准空间重叠率是多个预设空间重叠率中的一个预设空间重叠率；所述时空重叠率预测结果包括时间重叠率预测结果和空间重叠率预测结果；

相应的，处理单元602在用于根据所述第一时空特征和所述第二时空特征，对所述第一视频片段和所述第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果时，可具体用于：

对所述第一时空特征和所述第二时空特征进行特征级联处理，得到级联时空特征；

调用时间重叠率分类器根据所述级联时空特征，预测所述第一视频片段和所述第二视频片段之间的时间重叠率为每个预设时间重叠率的概率，得到所述时间重叠率预测结果；

调用空间重叠率分类器根据所述级联时空特征，预测所述第一视频片段和所述第二视频片段之间的空间重叠率为每个预设空间重叠率的概率，得到所述空间重叠率预测结果。

另一种实施方式中，所述视频处理模型是基于自监督对比学习中的隐式特征预测框架搭建的模型，所述视频处理模型包括在线网络和目标网络；其中，所述在线网络用于对所述第一视频片段进行特征处理，以得到第一输出特征，所述第一输出特征是基于所述第一时空特征得到的；所述目标网络用于对所述第二视频片段进行特征处理，以得到第二输出特征；

相应的，优化单元602在用于基于所述基准时空重叠率和所述时空重叠率预测结果，计算所述视频处理模型的模型损失值时，可具体用于：

基于所述基准时空重叠率和所述时空重叠率预测结果进行损失值运算，得到所述视频处理模型的重叠率预测损失值；

根据所述在线网络得到的所述第一输出特征，与所述目标网络得到的所述第二输出特征之间的差异，计算所述视频处理模型的特征处理损失值；

融合所述重叠率预测损失值和所述特征处理损失值，得到所述视频处理模型的模型损失值。

另一种实施方式中，优化单元602在用于按照减少所述模型损失值的方向，优化所述视频处理模型的网络参数时，可具体用于：

按照减小所述模型损失值的方向，优化所述视频处理模型中的所述在线网络的网络参数；

根据动量因子和所述在线网络的优化后的网络参数，对所述目标网络的网络参数进行动量更新，以优化所述目标网络的网络参数。

另一种实施方式中，所述样本视频是用于模型优化的样本视频集中的任一视频；相应的，处理单元601还可用于：

获取游戏视频集，所述游戏视频集中包括多个游戏视频；

对所述游戏视频集中的每个游戏视频进行类型检测，得到所述每个游戏视频的视频类型；任一游戏视频的视频类型包括：动态视频类型或静态视频类型；

在所述游戏视频集中，过滤掉属于所述静态视频类型的各个游戏视频，得到过滤后的游戏视频集；

将所述过滤后的游戏视频集，作为用于模型优化的视频集。

另一种实施方式中，所述视频处理模型中包括第一时空特征提取子网络，所述第一时空特征和所述第二时空特征，均是通过调用所述第一时空特征提取子网络提取得到的；相应的，处理单元601还可用于：

若优化后的视频处理模型达到收敛，则从所述优化后的视频处理模型中取出所述第一时空特征提取子网络，作为时空指纹提取器；

当检测到针对目标视频的指纹提取指令时，调用所述时空指纹提取器提取所述目标视频的时空特征，作为所述目标视频的视频时空指纹。

根据本申请的一个实施例，图2或图3b所示的方法所涉及的各个步骤均可以是由图6所示的模型处理装置中的各个单元来执行的。例如，图2中所示的步骤S201-S203均可由图6中所示的处理单元601执行，步骤S204-S205均可由图6中所示的优化单元602执行。又如，图3b中所示的步骤S301-S305均可由图6中所示的处理单元601执行，步骤S306-S309均可由图6中所示的优化单元602执行，等等。

根据本申请的另一个实施例，图6所示的模型处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于模型处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机设备上运行能够执行如图2或图3b中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图6中所示的模型处理装置设备，以及来实现本申请实施例的模型处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算机设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种计算机设备。请参见图7，该计算机设备至少包括处理器701、输入接口702、输出接口703以及计算机存储介质704。其中，计算机设备内的处理器701、输入接口702、输出接口703以及计算机存储介质704可通过总线或其他方式连接。

计算机存储介质704可以存储在计算机设备的存储器中，所述计算机存储介质704用于存储计算机程序，所述计算机程序包括程序指令，所述处理器701用于执行所述计算机存储介质704存储的程序指令。处理器701（或称CPU（Central Processing Unit，中央处理器））是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本申请实施例所述的处理器701可以用于进行一系列的模型处理，具体包括：从样本视频中截取出第一视频片段和第二视频片段，所述第一视频片段和所述第二视频片段之间的时空重叠率等于基准时空重叠率；调用视频处理模型，提取所述第一视频片段的时空特征作为第一时空特征，以及提取所述第二视频片段的时空特征作为第二时空特征；根据所述第一时空特征和所述第二时空特征，对所述第一视频片段和所述第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果；基于所述基准时空重叠率和所述时空重叠率预测结果，计算所述视频处理模型的模型损失值；按照减少所述模型损失值的方向，优化所述视频处理模型的网络参数；优化后的视频处理模型用于提取任一视频的时空特征，作为所述任一视频的视频时空指纹，等等。

本申请实施例还提供了一种计算机存储介质（Memory），所述计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2或图3b所示的模型处理方法的实施例中的各个方法步骤。

可选的，本申请实施例还可提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图3b所示的模型处理方法实施例方面的各种可选方式中提供的方法。

并且，应理解的是，以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种模型处理方法，其特征在于，包括：

调用视频处理模型，提取所述第一视频片段的时空特征作为第一时空特征，以及提取所述第二视频片段的时空特征作为第二时空特征，所述视频处理模型是基于自监督对比学习中的隐式特征预测框架搭建的模型；

按照减少所述模型损失值的方向，优化所述视频处理模型的网络参数；优化后的视频处理模型用于提取任一视频的时空特征，作为所述任一视频的视频时空指纹；

其中，所述第一视频片段和所述第二视频片段之间的时空重叠率包括：所述第一视频片段和所述第二视频片段之间的时间重叠率，以及所述第一视频片段和所述第二视频片段之间的空间重叠率；所述基准时空重叠率包括：基准时间重叠率和基准空间重叠率；

其中，所述第一视频片段和所述第二视频片段之间的时间重叠率，等于所述基准时间重叠率；所述第一视频片段和所述第二视频片段之间的空间重叠率，等于所述基准空间重叠率；

其中，时间重叠率是指：在两个视频片段中重叠的图像帧的数量，与所述两个视频片段中的任一视频片段包括的图像帧的数量之间的比值；空间重叠率是指：两个视频片段中处于同一排列位置的两帧图像帧之间的重叠区域的尺寸，与所述两帧图像帧中的任一图像帧的图像尺寸的比值。

2.如权利要求1所述的方法，其特征在于，所述从样本视频中截取出第一视频片段和第二视频片段，包括：

3.如权利要求2所述的方法，其特征在于，所述采用K个裁剪后的第一图像帧构建第一视频片段，包括：

采用所述K个增广后的第一图像帧，构建第一视频片段。

4.如权利要求1所述的方法，其特征在于，所述基准时间重叠率是多个预设时间重叠率中的一个预设时间重叠率，所述基准空间重叠率是多个预设空间重叠率中的一个预设空间重叠率；所述时空重叠率预测结果包括时间重叠率预测结果和空间重叠率预测结果；

所述根据所述第一时空特征和所述第二时空特征，对所述第一视频片段和所述第二视频片段之间的时空重叠率进行预测，得到时空重叠率预测结果，包括：

5.如权利要求1所述的方法，其特征在于，所述视频处理模型包括在线网络和目标网络；其中，所述在线网络用于对所述第一视频片段进行特征处理，以得到第一输出特征，所述第一输出特征是基于所述第一时空特征得到的；所述目标网络用于对所述第二视频片段进行特征处理，以得到第二输出特征；

所述基于所述基准时空重叠率和所述时空重叠率预测结果，计算所述视频处理模型的模型损失值，包括：

6.如权利要求5所述的方法，其特征在于，所述在线网络包括：第一时空特征提取子网络、第一映射网络和预测网络；其中，所述第一时空特征和所述第二时空特征，均是通过调用所述第一时空特征提取子网络提取得到的；所述在线网络得到所述第一输出特征的过程还包括：

在所述时空特征提取网络提取出所述第一时空特征后，调用所述第一映射网络对所述第一时空特征进行特征映射，得到第一映射特征；

调用所述预测网络对所述第一映射特征进行特征预测，得到所述第一输出特征。

7.如权利要求5或6所述的方法，其特征在于，所述目标网络包括：第二时空特征提取网络以及第二映射网络；其中，所述目标网络得到所述第二输出特征的过程包括：

调用所述第二时空特征提取网络对所述第二视频片段进行时域和空域上的特征提取，得到所述第二视频片段的目标时空特征；

调用所述第二映射网络对所述目标时空特征进行特征映射，得到所述第二映射特征，并将所述第二映射特征作为所述第二输出特征。

8.如权利要求5所述的方法，其特征在于，所述按照减少所述模型损失值的方向，优化所述视频处理模型的网络参数，包括：

9.如权利要求1所述的方法，其特征在于，所述样本视频是用于模型优化的样本视频集中的任一视频；所述方法还包括：

获取游戏视频集，所述游戏视频集中包括多个游戏视频；

将所述过滤后的游戏视频集，作为用于模型优化的视频集。

10.如权利要求1所述的方法，其特征在于，所述视频处理模型中包括第一时空特征提取子网络，所述第一时空特征和所述第二时空特征，均是通过调用所述第一时空特征提取子网络提取得到的；所述方法还包括：

11.一种模型处理装置，其特征在于，包括：

所述处理单元，还用于调用视频处理模型，提取所述第一视频片段的时空特征作为第一时空特征，以及提取所述第二视频片段的时空特征作为第二时空特征，所述视频处理模型是基于自监督对比学习中的隐式特征预测框架搭建的模型；

所述优化单元，还用于按照减少所述模型损失值的方向，优化所述视频处理模型的网络参数；优化后的视频处理模型用于提取任一视频的时空特征，作为所述任一视频的视频时空指纹；

12.一种计算机设备，包括输入接口和输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-10任一项所述的模型处理方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-10任一项所述的模型处理方法。