CN117132926B

CN117132926B - 一种视频处理的方法、相关装置、设备以及存储介质

Info

Publication number: CN117132926B
Application number: CN202311409641.8A
Authority: CN
Inventors: 刘霄; 陈世哲; 杨煜霖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-02-09
Anticipated expiration: 2043-10-27
Also published as: CN117132926A

Abstract

本申请公开了一种视频处理的方法、相关装置、设备以及存储介质，涉及计算机视觉技术领域。本申请包括：对目标视频进行采样处理，得到T个视频帧；将T个视频帧划分为L个时间窗口；针对每两个相邻时间窗口，根据两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度；针对每两个相邻时间窗口，根据两个相邻时间窗口内的两两视频帧之间的相似度，确定第二时间窗口中的每个视频帧的信息量分值；根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列。本申请不仅能够减少视频帧数量，从而降低计算量。而且能够使得目标视频帧序列具有更高的判别性，避免信息冗余，从而有利于提升视频处理效果。

Description

一种视频处理的方法、相关装置、设备以及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视频处理的方法、相关装置、设备以及存储介质。

背景技术

视频由一系列帧组成，视频中每一帧就即为视频中的一个画面或图像，称为视频帧。视频相比图像而言，具有更加丰富的信息量，但是一个视频里往往会包括较多的冗余信息，因此，如何无监督的提取视频帧的信息对于很多任务都是至关重要的。

目前，在相关技术中，可采用密集抽帧方案或者稀疏抽帧方案获取视频的视频帧序列。在密集抽帧方案中，可从视频中每秒抽取一帧，以构成视频帧序列。在稀疏抽帧方案中，假设一个视频包括300帧，可将该视频划分为30个片段，每个片段包括10帧。由此，分别在每个片段中抽取1帧，即得到由30个视频帧构成的视频帧序列。

然而，发明人发现目前的方案中至少存在如下问题，基于密集抽帧得到的视频帧序列往往会包括数量较多的视频帧，从而导致计算量较大。而基于稀疏抽帧得到的视频帧序列虽然能够减少抽帧数量，但仍然可能存在信息冗余的问题，从而导致视频处理效果较差。针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视频处理的方法、相关装置、设备以及存储介质。一方面，能够减少视频帧数量，从而降低计算量。另一方面，能够使得目标视频帧序列具有更高的判别性，避免信息冗余，从而有利于提升视频处理效果。

有鉴于此，本申请一方面提供一种视频处理的方法，包括：

对目标视频进行采样处理，得到T个视频帧，其中，T个视频帧中的每个视频帧对应于一个特征向量，T为大于3的整数；

将T个视频帧划分为L个时间窗口，其中，L个时间窗口中的至少一个时间窗口包括至少两个视频帧，L为大于1的整数；

针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度，其中，两个相邻时间窗口包括第一时间窗口以及第二时间窗口，两两视频帧分别来源于第一时间窗口以及第二时间窗口，第二时间窗口为第一时间窗口相邻的下一个时间窗口；

针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的两两视频帧之间的相似度，确定第二时间窗口中的每个视频帧的信息量分值，其中，信息量分值用于描述来源于不同时间窗口的所有视频帧的最低累积相似程度，不同时间窗口为包括第二时间窗口以及第二时间窗口之前的各个时间窗口；

根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，其中，目标视频帧序列包括累积相似程度最低的L个视频帧。

本申请另一方面提供一种视频处理装置，包括：

处理模块，用于对目标视频进行采样处理，得到T个视频帧，其中，T个视频帧中的每个视频帧对应于一个特征向量，T为大于3的整数；

划分模块，用于将T个视频帧划分为L个时间窗口，其中，L个时间窗口中的至少一个时间窗口包括至少两个视频帧，L为大于1的整数；

确定模块，用于针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度，其中，两个相邻时间窗口包括第一时间窗口以及第二时间窗口，两两视频帧分别来源于第一时间窗口以及第二时间窗口，第二时间窗口为第一时间窗口相邻的下一个时间窗口；

确定模块，还用于针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的两两视频帧之间的相似度，确定第二时间窗口中的每个视频帧的信息量分值，其中，信息量分值用于描述来源于不同时间窗口的所有视频帧的最低累积相似程度，不同时间窗口为包括第二时间窗口以及第二时间窗口之前的各个时间窗口；

生成模块，用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，其中，目标视频帧序列包括累积相似程度最低的L个视频帧。

在一种可能的设计中，在本申请实施例的另一个方面的另一种实现方式中，

处理模块，具体用于按照预设采样率对目标视频进行采样处理，得到T个视频帧；

处理模块，还用于对目标视频进行采样处理，得到T个视频帧之后，将T个视频帧中的每个视频帧作为特征提取网络的输入，通过特征提取网络得到每个视频帧所对应的特征向量。

划分模块，具体用于在T被L整除的情况下，得到L个时间窗口，其中，L个时间窗口中的每个时间窗口包括相等数量的视频帧；

在T未被L整除的情况下，对T除以L的结果进行向上取整，得到L个时间窗口，其中，L个时间窗口中的（L-1）个时间窗口分别包括相等数量的视频帧，L个时间窗口中的剩余时间窗口包括至少一个视频帧。

确定模块，具体用于针对L个时间窗口中的每两个相邻时间窗口，对两个相邻时间窗口内的两两视频帧之间的相似度取相反数，得到两两视频帧之间的相似度惩罚值；

针对L个时间窗口中的每两个相邻时间窗口，根据两两视频帧之间的相似度惩罚值与第一时间窗口内的每个视频帧的信息量分值，确定第二时间窗口内的每个视频帧的信息量分值。

确定模块，具体用于分别对两个视频帧之间的相似度惩罚值与第一时间窗口内的视频帧的信息量分值进行求和，得到第二时间窗口内的每个视频帧的至少一个候选信息量分值，其中，两个视频帧来源于两两视频帧；

分别从第二时间窗口内的每个视频帧的至少一个候选信息量分值中，选择最大候选信息量分值作为第二时间窗口内的每个视频帧的信息量分值。

生成模块，具体用于获取第L个时间窗口内的每个视频帧所对应的视频帧序列，其中，视频帧序列包括用于确定信息量分值的L个视频帧，L个视频帧中的每个视频帧分别来源于L个时间窗口；

根据第L个时间窗口内的每个视频帧的信息量分值，确定具有最大信息量分值所对应的视频帧；

将具有最大信息量分值的视频帧所对应的视频帧序列作为目标视频帧序列。

确定模块，具体用于针对L个时间窗口中的每两个相邻时间窗口，将两个相邻时间窗口内的两两视频帧之间的相似度作为相似度惩罚值；

分别从第二时间窗口内的每个视频帧的至少一个候选信息量分值中，选择最小候选信息量分值作为第二时间窗口内的每个视频帧的信息量分值。

根据第L个时间窗口内的每个视频帧的信息量分值，确定具有最小信息量分值所对应的视频帧；

在一种可能的设计中，在本申请实施例的另一个方面的另一种实现方式中，视频处理装置还包括获取模块；

获取模块，用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，基于目标视频帧序列，通过标签预测模型获取目标概率数组，其中，目标概率数组包括M个标签概率，M为大于或等于1的整数；

生成模块，还用于在目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据至少一个标签概率，生成目标视频所对应的标签预测结果。

在一种可能的设计中，在本申请实施例的另一个方面的另一种实现方式中，视频处理装置还包括显示模块；

显示模块，用于在目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据至少一个标签概率，生成目标视频所对应的标签预测结果之后，显示目标视频所对应的标签预测结果；

确定模块，还用于响应于针对标签预测结果中至少一个标签的选择操作，将至少一个标签作为目标视频的打标结果，或者，响应于针对标签预测结果的确定操作，将标签预测结果作为目标视频的打标结果。

在一种可能的设计中，在本申请实施例的另一个方面的另一种实现方式中，视频处理装置还包括训练模块；

获取模块，还用于获取视频帧序列样本集合，其中，视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一组标注标签集合，每组标注标签集合包括至少一个标注标签；

获取模块，还用于基于视频帧序列样本集合，通过标签预测模型获取每个视频帧序列样本所对应的预测概率数组，其中，预测概率数组包括M个预测标签概率；

训练模块，用于根据每个视频帧序列样本所对应的预测概率数组以及标注标签集合，采用第一损失函数对标签预测模型的模型参数进行更新。

获取模块，还用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，基于目标视频帧序列，通过视频检测模型获取目标概率分布向量，其中，目标概率分布向量包括至少两个等级概率；

确定模块，还用于将目标概率分布向量中的最大等级概率所对应的敏感等级作为目标视频的内容敏感等级，其中，内容敏感等级用于描述目标视频的内容敏感程度；

显示模块，还用于显示目标视频所对应的内容敏感等级。

获取模块，还用于获取视频帧序列样本集合，其中，视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一个标注敏感等级；

获取模块，还用于基于视频帧序列样本集合，通过视频检测模型获取每个视频帧序列样本所对应的预测概率分布向量；

训练模块，还用于根据每个视频帧序列样本所对应的预测概率分布向量以及标注敏感等级，采用第二损失函数对视频检测模型的模型参数进行更新。

获取模块，还用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，获取待匹配视频所对应的待匹配视频帧序列；

获取模块，还用于基于目标视频帧序列以及待匹配视频帧序列，通过视频比对模型获取目标相似度分值，其中，目标相似度分值越大，表示目标视频与待匹配视频之间的相似程度越高；

处理模块，还用于若目标相似度分值大于或等于相似度阈值，则对目标视频或者待匹配视频进行去重处理。

获取模块，还用于获取视频帧序列样本对集合，其中，视频帧序列样本对集合包括至少一组视频帧序列样本对，每组视频帧序列样本对包括两个视频帧序列样本，且，每组视频帧序列样本对具有一个标注相似度分值；

获取模块，还用于基于视频帧序列样本对集合，通过视频比对模型获取每组视频帧序列样本对所对应的预测相似度分值；

训练模块，还用于根据每组视频帧序列样本对所对应的预测相似度分值以及标注相似度分值，采用第三损失函数对视频比对模型的模型参数进行更新。

本申请另一方面提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述各方面的方法。

本申请的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种视频处理的方法，首先，对目标视频进行采样处理，得到T个视频帧。然后，将T个视频帧划分为L个时间窗口。基于此，针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度。再根据两个相邻时间窗口内的两两视频帧之间的相似度，确定后一个时间窗口中的每个视频帧的信息量分值。其中，信息量分值用于描述来源于不同时间窗口的所有视频帧的最低累积相似程度。最后，将累积相似程度最低的L个视频帧作为括累积相似程度最低的目标视频帧序列。通过上述方式，一方面，在每个时间窗口内抽取一个视频帧用于构建目标视频帧序列，能够减少视频帧数量，从而降低计算量。另一方面，将来源于不同时间窗口中累积相似程度最低的所有视频帧作为目标视频帧序列，能够使得目标视频帧序列具有更高的判别性，避免信息冗余，从而有利于提升视频处理效果。

附图说明

图1为本申请实施例中视频处理方法的一个实施环境示意图；

图2为本申请实施例中视频处理方法的另一个实施环境示意图；

图3为本申请实施例中视频处理方法的一个流程示意图；

图4为本申请实施例中划分L个时间窗口的一个示意图；

图5为本申请实施例中对相邻两个时间窗口进行帧间相似度计算的一个示意图；

图6为本申请实施例中划分L个时间窗口的一个示意图；

图7为本申请实施例中划分L个时间窗口的另一个示意图；

图8为本申请实施例中信息量矩阵的一个示意图；

图9为本申请实施例中信息量矩阵的另一个示意图；

图10为本申请实施例中基于目标视频生成标签预测结果的一个示意图；

图11为本申请实施例中对目标视频进行自动打标的一个界面示意图；

图12为本申请实施例中基于标签预测模型实现训练和推理的一个示意图；

图13为本申请实施例中对目标视频进行自动审核的一个界面示意图；

图14为本申请实施例中基于视频检测模型实现训练和推理的一个示意图；

图15为本申请实施例中对目标视频进行自动去重的一个界面示意图；

图16为本申请实施例中基于视频比对模型实现训练和推理的一个示意图；

图17为本申请实施例中视频处理装置的一个示意图；

图18为本申请实施例中计算机设备的一个结构示意图。

实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应”于以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

每个视频都是一个图像序列，其内容比一张图像丰富很多，且，表现力强，信息量大。对视频进行分析和处理时通常需要基于视频帧，但是视频帧往往存在大量冗余。一个一分钟的视频就由上千个视频帧组成，其中，大量的视频帧可以提供的信息是类似的。如果将这些视频帧全部用于分析和处理，会浪费大量的计算资源，因此，需要从视频中选取合适的视频帧并用于提取特征。

基于此，本申请实施例中，提供了一种视频处理的方法，结合时间窗口以及特征相似度，计算各个视频帧的信息量分值。基于各个视频帧的信息量分值，快速地挑选出信息最丰富并且最具判别性的视频帧组合。一方面降低计算量，另一方面保证视频处理的效果。针对本申请提供的视频处理方法，在应用时包括如下场景中的至少一种。

适用场景一：相似视频检索；

随着大数据时代的高速发展，大量丰富的视频数据带来了丰富信息的同时，也产生了如何在海量视频数据中进行相似视频检索、相似视频去重等问题。

结合本申请提供的视频处理方法，首先，对数据库中的各个视频分别提取相应的目标视频帧序列。然后，基于每个视频所对应的目标视频帧序列，生成相应的视频指纹，并存储每个视频所对应的视频指纹。其中，视频指纹为一串可唯一标识当前视频的指纹字符，具有高稳定性。基于此，在用户上传视频A之后，先提取视频A的目标视频帧序列，再基于视频A的目标视频帧序列生成视频指纹。于是，将视频A所对应的视频指纹与已存储的视频指纹进行比对。由此，能够用于视频相似查重、视频版权保护、广告识别等。

适用场景二：生成视频摘要；

随着计算机网络及多媒体技术的快速发展，多媒体数据的应用日益广泛。由于存储代价的不断降低以及数据压缩技术的进步，多媒体数据出现了爆炸性的增长。海量的视频数据增加了用户检索和浏览视频的难度。而视频摘要技术能让用户更有效的浏览视频的内容。

结合本申请提供的视频处理方法，首先，对原始视频提取相应的目标视频帧序列。然后，基于原始视频所对应的目标视频帧序列生成相应的视频摘要。其中，视频摘要的作用主要是便于存储和视频的浏览或查找，相对于原始的视频资料，视频摘要的长度要短很多，从而节省了存储时间和空间。此外，视频摘要保留了原始视频的要点，因此，对于用户来说，浏览或查找视频摘要比浏览原始视频节省时间。

适用场景三：生成视频标签；

随着网络技术的快速发展，多媒体的推广应用，各种视频源源不断地产生，视频等媒体数据已经成为大数据的主体，视频标签是视频内容的一种高度概括，是视频管理的重要依据。在一些场景中，需要识别视频所属的视频标签，以基于视频标签对视频进行分类，或基于视频标签向用户推荐视频等。

结合本申请提供的视频处理方法，首先，对视频提取相应的目标视频帧序列。然后，基于视频所对应的目标视频帧序列获取一个或多个相应的标签。基于此，用户可以根据视频标签查找相关的视频，不仅能够方便用户找到感兴趣的视频，还可以提升视频的曝光率。

需要说明的是，上述应用场景仅为示例，本实施例提供的视频处理方法还可以应用于其他场景中，此处不做限定。

可以理解的是，计算机视觉（computer vision，CV）技术的核心手段包含但不仅限于特征提取、目标检测、图像分割、三维重建等。在本申请中，通过对视频进行目标视频帧序列的提取，能够用于实现更多复杂的视觉任务。

可以理解的是，CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，CV研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为CV技术发展带来重要变革，摆动转换器（swin-transformer），视觉转换器（visualtransformer，ViT），视觉混合专家模型（vision mixture of experts，V-MOE），掩码自编码器（masked autoencoders，MAE）等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。CV技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别（optical character recognition，OCR）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请提供的方法可应用于图1或图2所示的实施环境。其中，图1所示的为后台实施环境，图2所示的为前端与后台交互的实施环境。其中，本申请涉及的数据库110是“按照数据结构来组织、存储和管理数据的仓库”，是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。其中，本申请涉及的通信网络120使用标准通信技术和/或协议，通常为因特网，但也可以是任何网络，包括但不限于蓝牙、局域网（local areanetwork，LAN）、城域网（metropolitan area network，MAN）、广域网（wide area network，WAN）、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可使用定制或专用数据通信技术取代或者补充上述数据通信技术。

本申请涉及的服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（content deliverynetwork，CDN）、以及大数据和人工智能（artificial intelligence，AI）平台等基础云计算服务的云服务器。

本申请涉及的终端140包括但不限于手机、平板电脑、笔记本电脑、桌上型电脑、智能语音交互设备、虚拟现实设备、智能家电、车载终端、飞行器等。其中，客户端部署于终端140上，客户端可以通过浏览器的形式运行于终端140上，也可以通过独立的应用程序（application，APP）的形式运行于终端140上等。

结合图1所示的实施环境，在步骤A1中，服务器130从数据库110中获取目标视频。在步骤A2中，服务器130对目标视频进行采样处理，得到T个视频帧。在步骤A3中，服务器130将T个视频帧划分为L个时间窗口。在步骤A4中，服务器分别计算相邻时间窗口之间两两视频帧的相似度。在步骤A5中，服务器基于两两视频帧的相似度计算每个视频帧的信息量分值。在步骤A6中，根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列。

结合图2所示的实施环境，在步骤B1中，终端140通过通信网络120向服务器130上传目标视频。步骤B2至步骤B6与前述图1所示实施例中的步骤A2至步骤A6类似，具体此处不再赘述。在步骤B7中，服务器130对目标视频帧序列进行处理，得到处理结果。示例性地，处理结果可以是目标视频的标签，也可以是目标视频的审核结果等，此处不做限定。在步骤B8中，服务器可以通过通信网络120向终端140反馈目标视频的处理结果，由终端140展示处理结果。

结合上述介绍，下面将对本申请中的视频处理的方法进行介绍，请参阅图3，本申请实施例中的视频处理的方法可以由服务器独立完成，也可以由终端独立完成，还可以由终端与服务器配合完成，本申请方法包括：

210、对目标视频进行采样处理，得到T个视频帧，其中，T个视频帧中的每个视频帧对应于一个特征向量，T为大于3的整数；

在一个或多个实施例中，获取待处理的目标视频，其中，目标视频具有固定的帧率。帧率是指每秒播放的图像帧数，例如，帧率为每秒24帧、每秒30帧或者每秒60帧等，此处不做限定。

具体地，可按照一定的采样率对目标视频进行采样处理，由此，得到T个视频帧。其中，采样率表示每秒采样的图像帧数。基于此，对T个视频帧中的每个视频帧进行特征提取处理，得到每个视频帧的特征向量。

220、将T个视频帧划分为L个时间窗口，其中，L个时间窗口中的至少一个时间窗口包括至少两个视频帧，L为大于1的整数；

在一个或多个实施例中，将T个视频帧划分为L个时间窗口，L为大于1，且小于T的整数。基于此，每个时间窗口内包括若干个视频帧，其中，L个时间窗口中的至少一个时间窗口包括至少两个视频帧，而其余时间窗口包括至少一个视频帧。

具体地，为了便于理解，请参阅图4，图4为本申请实施例中划分L个时间窗口的一个示意图，如图所示，假设T为1800，将T个视频帧分为L等份。需要说明的是，L的取值可根据实际情况进行选择，例如，L的取值范围可以为8至25，以L等于9为例，由此，将1800个视频帧分成9等份，每一份为一个时间窗口。假设目标视频为30分钟，那么每个时间窗口囊括了3分20秒内的200个连续视频帧。也就是说，每3分20秒的时间段都需要提取信息，避免完全忽视这个时间段的信息。

230、针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度，其中，两个相邻时间窗口包括第一时间窗口以及第二时间窗口，两两视频帧分别来源于第一时间窗口以及第二时间窗口，第二时间窗口为第一时间窗口相邻的下一个时间窗口；

在一个或多个实施例中，在得到L个时间窗口之后，根据每两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度。示例性地，假设T等于9，将9个视频帧划分为3个时间窗口（即，分别为时间窗口1、时间窗口2以及时间窗口3），每个时间窗口包括3个视频帧。其中，时间窗口1与时间窗口2为相邻的时间窗口，时间窗口2与时间窗口3为相邻的时间窗口。

具体地，为了便于理解，请参阅图5，图5为本申请实施例中对相邻两个时间窗口进行帧间相似度计算的一个示意图，如图所示，第一组相邻时间窗口为时间窗口1与时间窗口2，此时，时间窗口1属于第一时间窗口，时间窗口2属于第二时间窗口。第二组相邻时间窗口为时间窗口2和时间窗口3，其中，时间窗口2属于第一时间窗口，时间窗口3属于第二时间窗口。基于此，以第一组相邻时间窗口为例，分别计算第一时间窗口内的每个视频帧与第二时间窗口内的每个视频帧之间的相似度，由此，得到时间窗口1与时间窗口2之间两两视频帧之间的相似度。类似地，以第二组相邻时间窗口为例，分别计算第一时间窗口内的每个视频帧与第二时间窗口内的每个视频帧之间的相似度，由此，得到时间窗口2与时间窗口3之间两两视频帧之间的相似度。

240、针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的两两视频帧之间的相似度，确定第二时间窗口中的每个视频帧的信息量分值，其中，信息量分值用于描述来源于不同时间窗口的所有视频帧的最低累积相似程度，不同时间窗口为包括第二时间窗口以及第二时间窗口之前的各个时间窗口；

在一个或多个实施例中，在得到每两个相邻时间窗口内的两两视频帧之间的相似度之后，可计算每个视频帧的信息量分值。其中，信息量分值用于描述来源于不同时间窗口的所有视频帧的最低累积相似程度。累积相似程度越低，表示这些视频帧之间的相似度程度越小。反之，累积相似程度越高，表示这些视频帧之间的相似度程度越大。

具体地，为了便于理解，请再次参阅图4，以第7帧为例，第7帧的信息量分值表示分别来源于时间窗口1、时间窗口2和时间窗口3的三个视频帧的最低累积相似程度。示例性地，第7帧的累积相似程度与前两个时间窗口内视频帧相似度有关，即：

（1）根据第1帧与第4帧的相似度，以及第4帧与第7帧的相似度，可确定从第1帧、第4帧至第7帧的累积相似程度；

（2）根据第1帧与第5帧的相似度，以及第5帧与第7帧的相似度，可确定从第1帧、第5帧至第7帧的累积相似程度；

（3）根据第1帧与第6帧的相似度，以及第6帧与第7帧的相似度，可确定从第1帧、第6帧至第7帧的累积相似程度；

（4）根据第2帧与第4帧的相似度，以及第4帧与第7帧的相似度，可确定从第2帧、第4帧至第7帧的累积相似程度；

（5）根据第2帧与第5帧的相似度，以及第5帧与第7帧的相似度，可确定从第2帧、第5帧至第7帧的累积相似程度；

（6）根据第2帧与第6帧的相似度，以及第6帧与第7帧的相似度，可确定从第2帧、第6帧至第7帧的累积相似程度；

（7）根据第3帧与第4帧的相似度，以及第4帧与第7帧的相似度，可确定从第3帧、第4帧至第7帧的累积相似程度；

（8）根据第3帧与第5帧的相似度，以及第5帧与第7帧的相似度，可确定从第3帧、第5帧至第7帧的累积相似程度；

（9）根据第3帧与第6帧的相似度，以及第6帧与第7帧的相似度，可确定从第3帧、第6帧至第7帧的累积相似程度。

基于此，从上述（1）至（9）中选择累积相似程度最低的视频帧序列，其中，累积相似程度最低的所有视频帧组成的视频帧序列（例如，第3帧、第6帧与第7帧）具有较好的差异性，从而有利于提升后续处理的准确性。

250、根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，其中，目标视频帧序列包括累积相似程度最低的L个视频帧。

在一个或多个实施例中，第L个时间窗口即为L个时间窗口中的最后一个时间窗口。此时，第L个时间窗口内每个视频帧的信息量分值表示从前面各个时间窗口内分别获取到的视频帧的累积相似程度。于是，将累积相似程度最低的L个视频帧作为提取到的目标视频帧序列。其中，这里的L个视频帧分别来源于L个时间窗口，因此，这些视频帧代表着不同的时间段，能够避免完全忽视某个时间段内的信息。

本申请实施例中，提供了一种视频处理的方法。通过上述方式，一方面，在每个时间窗口内抽取一个视频帧用于构建目标视频帧序列，能够减少视频帧数量，从而降低计算量。另一方面，将来源于不同时间窗口中累积相似程度最低的所有视频帧作为目标视频帧序列，能够使得目标视频帧序列具有更高的判别性，即，提取出来的连续两个视频帧尽量表达不同的内容，从而避免信息冗余，有利于提升视频处理效果。此外，在提取目标视频帧序列的过程中，无需进行训练和标注，也不需要调节参数，因此，可以提升工程上线的效率。

可选地，在上述图3对应的一个或多个实施例的基础上，本申请实施例提供的另一个可选实施例中，对目标视频进行采样处理，得到T个视频帧，具体包括：

按照预设采样率对目标视频进行采样处理，得到T个视频帧；

对目标视频进行采样处理，得到T个视频帧之后，还可以包括：

将T个视频帧中的每个视频帧作为特征提取网络的输入，通过特征提取网络得到每个视频帧所对应的特征向量。

在一个或多个实施例中，介绍了一种提取视频帧对应特征向量的方式。由前述实施例可知，针对目标视频，可按照预设采样率对该目标视频进行采样处理，例如，预设采样率为每秒1帧的频率进行采样。基于此，对目标视频采样之后，丢弃未被采样到的视频帧，从而得到剩余的T个视频帧。

具体地，以一个30分钟，帧率为每秒25帧的目标视频为例，在采样之前，一共有45000个视频帧（即，30×25×60=45000）。在采样之后，一共有1800个视频帧（即，30×1×60）。可见，经过采样之后可以快速丢弃大量的冗余信息，此时，T等于1800。然而，考虑到T值对于视频处理而言，仍然属于较大数量，因此，还需要进一步提取其中的视频帧，即，从T个视频帧中获取L个视频帧组成目标视频帧序列。

在得到T个视频帧之后，利用一个训练好的特征提取网络提取每个视频帧的特征向量，从而得到T个特征向量。特征提取网络可以是卷积神经网络（convolutional neuralnetworks，CNN），具体可以采用残差网络（residual network，ResNet），例如，ResNet-18，ResNet-34，ResNet-50等。以采用轻量级的ResNet-18为例，将T个视频帧分别作为ResNet-18的输入，通过ResNet-18输出每个视频帧的特征向量，假设一个特征向量的长度为512维，由此，可得到T个512维的特征向量。

其次，本申请实施例中，提供了一种提取视频帧对应特征向量的方式。通过上述方式，一方面，采用密集的抽帧来保持绝大多数的信息，并快速降低帧数。另一方面，采用残差网络提取每个视频帧的特征向量，可以保留原始特征，使得网络的学习更加稳定，从而能够提升模型的精度和泛化能力，有利于获得表达能力更好的特征向量。

可选地，在上述图3对应的一个或多个实施例的基础上，本申请实施例提供的另一个可选实施例中，将T个视频帧划分为L个时间窗口，具体包括：

在T被L整除的情况下，得到L个时间窗口，其中，L个时间窗口中的每个时间窗口包括相等数量的视频帧；

在一个或多个实施例中，介绍了一种将T个视频帧划分为L个时间窗口的方式。由前述实施例可知，如果T能够被L整除，则每个时间窗口内包括相等数量的视频帧。如果T不能够被L整除，则前（L-1）个时间窗口内包括相等数量的视频帧，而剩余的视频帧组成最后一个时间窗口。

示例性地，以T等于15，L等于5为例。为了便于理解，请参阅图6，图6为本申请实施例中划分L个时间窗口的一个示意图，如图所示，由于15可以被5整除，由此，可将15个视频帧平均划分为5个时间窗口，每个时间窗口包括3个视频帧。即，时间窗口1包括第1帧至第3帧，时间窗口2包括第4帧至第6帧，时间窗口3包括第7帧至第9帧，时间窗口4包括第10帧至第12帧，时间窗口5包括第13帧至第15帧。

示例性地，以T等于15，L等于4为例。为了便于理解，请参阅图7，图7为本申请实施例中划分L个时间窗口的另一个示意图，如图所示，由于15不可以被4整除，因此，对15除以4的结果进行向上取整，得到4。此时，3个时间窗口分别包括相等数量的视频帧，而剩余1个时间窗口只包括较少的视频帧。即，时间窗口1包括第1帧至第4帧，时间窗口2包括第5帧至第8帧，时间窗口3包括第9帧至第12帧，时间窗口4包括第13帧至第15帧。

其次，本申请实施例中，提供了一种将T个视频帧划分为L个时间窗口的方式。通过上述方式，能够优先划分得到视频帧数量尽可能相等的时间窗口，从而提升视频帧处理的合理性。避免因时间窗口内的视频帧数量差异过大，导致目标视频帧序列的生成效果较差。

可选地，在上述图3对应的一个或多个实施例的基础上，本申请实施例提供的另一个可选实施例中，针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的两两视频帧之间的相似度，确定第二时间窗口中的每个视频帧的信息量分值，具体包括：

针对L个时间窗口中的每两个相邻时间窗口，对两个相邻时间窗口内的两两视频帧之间的相似度取相反数，得到两两视频帧之间的相似度惩罚值；

在一个或多个实施例中，介绍了一种基于相似度取相反数计算视频帧对应信息量分值的方式。由前述实施例可知，对两个相邻时间窗口内的两两视频帧而言，可基于这两个视频帧的特征向量计算两个视频帧之间的相似度（例如，余弦相似度）。其中，两个视频帧之间的相似度越大，则表示两个视频帧表达的内容越接近。

具体地，为了便于理解，请参阅图8，图8为本申请实施例中信息量矩阵的一个示意图，如图8中（A）图所示，以T等于9，L等于3为例，可划分为3个时间窗口。基于3个时间窗口可构建如图8中（B）图所示的信息量矩阵。其中，该信息量矩阵存储了任意两个视频帧之间的相似度惩罚值K[a,b]，a和b分别表示两个视频帧。可见，当视频帧a和视频帧b分属于两个连续的时间窗口时，取视频帧a和视频帧b的相似度（例如，cos(a,b)）的相反数赋值给K[a,b]。在其他情况下，K[a,b]赋值为0。可以理解的是，取相反数是指将原来的数值乘以-1。可见，信息量矩阵中的K[a,b]越大，表示视频帧a和视频帧b的相似度越小。信息量矩阵中的K[a,b]越小，表示视频帧a和视频帧b的相似度越大。

以图8中（B）图所示的9×9的信息量矩阵为例，示例性地，第2帧和第3帧对应的矩阵位置为K[2,3]，且，K[2,3]=0，因为第2帧和第3帧都在时间窗1内，而不是分属于连续的时间窗口。示例性地，第2帧和第9帧对应的矩阵位置为K[2,9]，且，K[2,9]=0，因为第2帧和第9帧分属于时间窗口1与时间窗口3内，并不连续，因此，也赋值为0。示例性地，第2帧和第5帧对应的矩阵位置为K[2,5]，且，K[2,5]= -cos(F2,F5)，因为第2帧和第5帧分属于时间窗口1与时间窗口2内，这两个时间窗口是连续的，也即提取出来的联系视频帧尽量表达不同的内容，避免冗余。

当两个连续提取出来的视频帧非常相似时，即，表示这两个视频帧特征之间的相似度很高，因此，在信息量矩阵对应的位置赋值一个对应的相似度惩罚值。在其他情况下，因为不是连续提取的视频帧，所以不需要设置相似度惩罚值。基于此，根据每两个相邻时间窗口中两两视频帧之间的相似度惩罚值，可计算各个时间窗口内每个视频帧的信息量分值。

其次，本申请实施例中，提供了一种基于相似度取相反数计算视频帧对应信息量分值的方式。通过上述方式，将相似度取相反数作为相似度惩罚值，能够体现出两个视频帧之间的差异越大，获得的相似度惩罚值越大。由此，基于相似度惩罚值计算视频帧的信息量分值，能够体现各个视频帧的累积相似程度，从而增加方案的可行性和可操作性。

可选地，在上述图3对应的一个或多个实施例的基础上，本申请实施例提供的另一个可选实施例中，根据两两视频帧之间的相似度惩罚值与第一时间窗口内的每个视频帧的信息量分值，确定第二时间窗口内的每个视频帧的信息量分值，具体包括：

分别对两个视频帧之间的相似度惩罚值与第一时间窗口内的视频帧的信息量分值进行求和，得到第二时间窗口内的每个视频帧的至少一个候选信息量分值，其中，两个视频帧来源于两两视频帧；

在一个或多个实施例中，介绍了一种计算视频帧对应信息量分值的方式。由前述实施例可知，可初始化一个长度为T的列表S，其中，S[t]表示选择了第t个视频帧的信息量分值，整个列表初始化为0。假设T等于1800，那么列表S的长度为1800，例如，S[500]表示第500帧的信息量分值。在将相似度相反数作为视频帧之间相似度惩罚值的情况下，视频帧的信息量分值越大，表示提取到的该视频帧越优质。

具体地，为了便于理解，请再次参阅图8，由于第1帧、第2帧以及第3帧不涉及对上一个时间窗口的相似度计算，因此，均赋值为S[t]=0。即，S[1]=0，S[2]=0，S[3]=0。接下来，对于第k个时间窗口内的视频帧t而言，赋值S[t]为S[t']+K[t,t']，t'=argmax(S[t']+K[t,t'])，其中，t'为第(k-1)个时间窗口内的视频帧，并且从中选择最大候选信息量分值作为该视频帧的信息量分值。以时间窗口2内的第4帧（即，此时t'=4）以及时间窗口1内的第1帧为例（即，此时t=1），那么K[1,4]则表示第1帧与第4帧之间的信息冗余。另一方面，还需要考虑S[t']的值，在将相似度相反数作为视频帧之间相似度惩罚值的情况下，S[t']的值越大，表示之前挑选的视频帧越成功。因此，可以取t'=argmax(S[t']+K[t,t'])作为这次挑选出来的视频帧。

以时间窗口1为第一时间窗口，时间窗口2为第二时间窗口为例，并结合图8所示的信息量矩阵，下面将分别介绍计算第4帧、第5帧和第6帧对应信息量分值的方式。

针对属于第二时间窗口的第4帧而言，可分别计算出如下三个候选信息量分值，即：

针对第1帧和第4帧，候选信息量分值为S[4]=S[1]+K[1,4]=0-0.3=-0.3；

针对第2帧和第4帧，候选信息量分值为S[4]=S[2]+K[2,4]=0-0.2=-0.2；

针对第3帧和第4帧，候选信息量分值为S[4]=S[3]+K[3,4]=0-0.9=-0.9；

其中，最大候选信息量分值为-0.2，因此，第4帧的信息量分值为S[4]=-0.2。

针对属于第二时间窗口的第5帧而言，可分别计算出如下三个候选信息量分值，即：

针对第1帧和第5帧，候选信息量分值为S[5]=S[1]+K[1,5]=0-0.7=-0.7；

针对第2帧和第5帧，候选信息量分值为S[5]=S[2]+K[2,5]=0-0.1=-0.1；

针对第3帧和第5帧，候选信息量分值为S[5]=S[3]+K[3,5]=0-0.2=-0.2；

其中，最大候选信息量分值为-0.1，因此，第5帧的信息量分值为S[5]=-0.1。

针对属于第二时间窗口的第6帧而言，可分别计算出如下三个候选信息量分值，即：

针对第1帧和第6帧，候选信息量分值为S[6]=S[1]+K[1,6]=0-1.0=-1.0；

针对第2帧和第6帧，候选信息量分值为S[6]=S[2]+K[2,6]=0-0.9=-0.9；

针对第3帧和第6帧，候选信息量分值为S[6]=S[3]+K[3,6]=0+0.0=0.0；

其中，最大候选信息量分值为0.0，因此，第6帧的信息量分值为S[6]=0.0。

以时间窗口2为第一时间窗口，时间窗口3为第二时间窗口为例，并结合图8所示的信息量矩阵，下面将分别介绍计算第7帧、第8帧和第9帧对应信息量分值的方式。

针对属于第二时间窗口的第7帧而言，可分别计算出如下三个候选信息量分值，即：

针对第4帧和第7帧，候选信息量分值为S[7]=S[4]+K[4,7]=-0.2-0.1=-0.3；

针对第5帧和第7帧，候选信息量分值为S[7]=S[5]+K[5,7]=-0.1-0.9=-1；

针对第6帧和第7帧，候选信息量分值为S[7]=S[6]+K[6,7]=0.0-0.2=-0.2；

其中，最大候选信息量分值为-0.2，因此，第7帧的信息量分值为S[7]=-0.2。

针对属于第二时间窗口的第8帧而言，可分别计算出如下三个候选信息量分值，即：

针对第4帧和第8帧，候选信息量分值为S[8]=S[4]+K[4,8]=-0.2-0.7=-0.9；

针对第5帧和第8帧，候选信息量分值为S[8]=S[5]+K[5,8]=-0.1-0.6=-0.7；

针对第6帧和第8帧，候选信息量分值为S[8]=S[6]+K[6,8]=-0.0-0.9=-0.9；

其中，最大候选信息量分值为-0.7，因此，第8帧的信息量分值为S[8]=-0.7。

针对属于第二时间窗口的第9帧而言，可分别计算出如下三个候选信息量分值，即：

针对第4帧和第9帧，候选信息量分值为S[9]=S[4]+K[4,9]=-0.2-1.0=-1.2；

针对第5帧和第9帧，候选信息量分值为S[9]=S[5]+K[5,9]=-0.1-0.5=-0.6；

针对第6帧和第9帧，候选信息量分值为S[9]=S[6]+K[6,9]=0.0-0.1=-0.1；

其中，最大候选信息量分值为-0.1，因此，第9帧的信息量分值为S[9]=-0.1。

至此，得到各个视频帧的信息量分值。

再次，本申请实施例中，提供了一种计算视频帧对应信息量分值的方式。通过上述方式，基于两个视频帧之间的相似度惩罚值可以计算出多个候选信息量分值。由此，将最大候选信息量分值作为视频帧的信息量分值，能够得到差异最明显的一系列视频帧，从而便于有利于提升视频帧处理的准确性。

可选地，在上述图3对应的一个或多个实施例的基础上，本申请实施例提供的另一个可选实施例中，根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，具体包括：

获取第L个时间窗口内的每个视频帧所对应的视频帧序列，其中，视频帧序列包括用于确定信息量分值的L个视频帧，L个视频帧中的每个视频帧分别来源于L个时间窗口；

在一个或多个实施例中，介绍了一种基于信息量分值确定目标视频帧序列的方式。由前述实施例可知，在初始化一个列表S的同时，还可以初始化一个长度为T的列表C。其中，C[t]表示选择了第t个视频帧的信息量分值所对应的视频帧序列（即，挑选的路径）。列表C初始化为空，列表C记录了视频帧序列，视频帧序列包括至少一个视频帧。

具体地，为了便于理解，请再次参阅图8，由于第1帧、第2帧以及第3帧不涉及对上一个时间窗口的相似度计算，因此，均赋值为S[t]=0。即，S[1]=0，S[2]=0，S[3]=0。此时，C[t]=t，即，C[1]=1，C[2]=2，C[3]=3。可见，此时每个视频帧所对应的视频帧序列仅包括1个视频帧。接下来，对于第k个时间窗口内的视频帧t而言，赋值S[t]为S[t']+K[t,t']，t'=argmax(S[t']+K[t,t'])，其中，t'为第(k-1)个时间窗口内的视频帧，并且从中选择最大候选信息量分值作为该视频帧的信息量分值。与此同时，赋值C[t]为C[t']，也即设置C[t']之后再到t。以此类推，在将相似度相反数作为视频帧之间相似度惩罚值的情况下，S[t']的值越大，表示之前挑选的视频帧越成功。因此，可以取t'=argmax(S[t']+K[t,t'])作为这次挑选出来的视频帧，相应地，该视频帧对应的视频帧序列就是将t'放在C[t']之后的一个位置。

以时间窗口1为第一时间窗口，时间窗口2为第二时间窗口为例，并结合图8所示的信息量矩阵，下面将分别介绍计算第4帧、第5帧和第6帧对应视频帧序列的方式。

第4帧的信息量分值为S[4]=-0.2，即，S[4]=S[2]+K[2,4]=0-0.2=-0.2。因此，第4帧的视频帧序列包括第2帧和第4帧，此时，C[4]=2,4。

第5帧的信息量分值为S[5]=-0.1，即，S[5]=S[2]+K[2,5]=0-0.1=-0.1。因此，第5帧的视频帧序列包括第2帧和第5帧，此时，C[5]=2,5。

第6帧的信息量分值为S[6]=0.0，即，S[6]=S[3]+K[3,6]=0+0.0=0.0。因此，第6帧的视频帧序列包括第3帧和第6帧，此时，C[6]=3,6。

以时间窗口2为第一时间窗口，时间窗口3为第二时间窗口为例，并结合图8所示的信息量矩阵，下面将分别介绍计算第7帧、第8帧和第9帧对应视频帧序列的方式。

第7帧的信息量分值为S[7]=-0.2，即，S[7]=S[6]+K[6,7]=0.0-0.2=-0.2。其中，C[6]=3,6，因此，第7帧的视频帧序列包括第3帧、第6帧和第7帧，此时，C[7]=3,6,7。

第8帧的信息量分值为S[8]=-0.7，即，S[8]=S[5]+K[5,8]=-0.1-0.6=-0.7。其中，C[5]=2,5，因此，第8帧的视频帧序列包括第2帧、第5帧和第8帧，此时，C[8]=2,5,8。

第9帧的信息量分值为S[9]=-0.1，即，S[9]=S[6]+K[6,9]=0.0-0.1=-0.1。其中，C[6]=3,6，因此，第9帧的视频帧序列包括第3帧、第6帧和第9帧，此时，C[9]=3,6,9。

基于此，根据第L个时间窗口（即，时间窗口3）内每个视频帧所对应的信息量分值，将最大信息量分值的视频帧所对应的视频帧序列作为目标视频帧序列。结合上述示例，最大信息量分值的视频帧为S[9]=-0.1，即，视频帧序列C[9]=3,6,9为目标视频帧序列。因此，目标视频帧序列包括第3帧、第6帧和第9帧。

如果同一个时间窗口内有至少两个视频帧的信息量分值相同，则可以随机选择一个视频帧加入至视频帧序列，或者，优先选择较早出现的视频帧加入至视频帧序列。

再次，本申请实施例中，提供了一种基于信息量分值确定目标视频帧序列的方式。通过上述方式，结合信息量分值确定最佳路径，从而直接将最佳路径上的各个视频帧构成目标视频帧序列。由此，提升操作的便利性和可行性。

针对L个时间窗口中的每两个相邻时间窗口，将两个相邻时间窗口内的两两视频帧之间的相似度作为相似度惩罚值；

在一个或多个实施例中，介绍了一种基于相似度计算视频帧对应信息量分值的方式。由前述实施例可知，对两个相邻时间窗口内的两两视频帧而言，可基于这两个视频帧的特征向量计算两个视频帧之间的相似度（例如，余弦相似度）。

具体地，为了便于理解，请参阅图9，图9为本申请实施例中信息量矩阵的另一个示意图，如图9中（A）图所示，以T等于9，L等于3为例，可划分为3个时间窗口。基于3个时间窗口可构建如图9中（B）图所示的信息量矩阵。其中，该信息量矩阵存储了任意两个视频帧之间的相似度惩罚值K[a,b]，a和b分别表示两个视频帧。可见，当视频帧a和视频帧b分属于两个连续的时间窗口时，取视频帧a和视频帧b的相似度（例如，cos(a,b)）赋值给K[a,b]。在其他情况下，K[a,b]赋值为0。可见，信息量矩阵中的K[a,b]越大，表示视频帧a和视频帧b的相似度越大。信息量矩阵中的K[a,b]越小，表示视频帧a和视频帧b的相似度越小。

以图9中（B）图所示的9×9的信息量矩阵为例，示例性地，第2帧和第3帧对应的矩阵位置为K[2,3]，且，K[2,3]=0，因为第2帧和第3帧都在时间窗1内，而不是分属于连续的时间窗口。示例性地，第2帧和第9帧对应的矩阵位置为K[2,9]，且，K[2,9]=0，因为第2帧和第9帧分属于时间窗口1与时间窗口3内，并不连续，因此，也赋值为0。示例性地，第2帧和第5帧对应的矩阵位置为K[2,5]，且，K[2,5]= cos(F2,F5)，因为第2帧和第5帧分属于时间窗口1与时间窗口2内，这两个时间窗口是连续的，也即提取出来的联系视频帧尽量表达不同的内容，避免冗余。

其次，本申请实施例中，提供了一种基于相似度计算视频帧对应信息量分值的方式。通过上述方式，将相似度作为相似度惩罚值，能够体现出两个视频帧之间的差异越大，获得的相似度惩罚值越小。由此，基于相似度惩罚值计算视频帧的信息量分值，能够体现各个视频帧的累积相似程度，从而增加方案的可行性和可操作性。

在一个或多个实施例中，介绍了一种计算视频帧对应信息量分值的方式。由前述实施例可知，可初始化一个长度为T的列表S，其中，S[t]表示选择了第t个视频帧的信息量分值，整个列表初始化为0。在将相似度作为视频帧之间相似度惩罚值的情况下，视频帧的信息量分值越小，表示提取到的该视频帧越优质。

具体地，为了便于理解，请再次参阅图9，由于第1帧、第2帧以及第3帧不涉及对上一个时间窗口的相似度计算，因此，均赋值为S[t]=0。即，S[1]=0，S[2]=0，S[3]=0。接下来，对于第k个时间窗口内的视频帧t而言，赋值S[t]为S[t']+K[t,t']，t'=argmin (S[t']+K[t,t'])，其中，t'为第(k-1)个时间窗口内的视频帧，并且从中选择最小候选信息量分值作为该视频帧的信息量分值。以时间窗口2内的第4帧（即，此时t'=4）以及时间窗口1内的第1帧为例（即，此时t=1），那么K[1,4]则表示第1帧与第4帧之间的信息冗余。另一方面，还需要考虑S[t']的值，在将相似度作为视频帧之间相似度惩罚值的情况下，S[t']的值越小，表示之前挑选的视频帧越成功。因此，可以取t'=argmin(S[t']+K[t,t'])作为这次挑选出来的视频帧。

以时间窗口1为第一时间窗口，时间窗口2为第二时间窗口为例，并结合图9所示的信息量矩阵，下面将分别介绍计算第4帧、第5帧和第6帧对应信息量分值的方式。

针对第1帧和第4帧，候选信息量分值为S[4]=S[1]+K[1,4]=0+0.3=0.3；

针对第2帧和第4帧，候选信息量分值为S[4]=S[2]+K[2,4]=0+0.2=0.2；

针对第3帧和第4帧，候选信息量分值为S[4]=S[3]+K[3,4]=0+0.9=0.9；

其中，最小候选信息量分值为0.2，因此，第4帧的信息量分值为S[4]=0.2。

针对第1帧和第5帧，候选信息量分值为S[5]=S[1]+K[1,5]=0+0.7=0.7；

针对第2帧和第5帧，候选信息量分值为S[5]=S[2]+K[2,5]=0+0.1=0.1；

针对第3帧和第5帧，候选信息量分值为S[5]=S[3]+K[3,5]=0+0.2=0.2；

其中，最小候选信息量分值为0.1，因此，第5帧的信息量分值为S[5]=0.1。

针对第1帧和第6帧，候选信息量分值为S[6]=S[1]+K[1,6]=0+1.0=1.0；

针对第2帧和第6帧，候选信息量分值为S[6]=S[2]+K[2,6]=0+0.9=0.9；

针对第3帧和第6帧，候选信息量分值为S[6]=S[3]+K[3,6]=0+0.0=0.0；

其中，最小候选信息量分值为0.0，因此，第6帧的信息量分值为S[6]=0.0。

以时间窗口2为第一时间窗口，时间窗口3为第二时间窗口为例，并结合图9所示的信息量矩阵，下面将分别介绍计算第7帧、第8帧和第9帧对应信息量分值的方式。

针对第4帧和第7帧，候选信息量分值为S[7]=S[4]+K[4,7]=0.2+0.1=0.3；

针对第5帧和第7帧，候选信息量分值为S[7]=S[5]+K[5,7]=0.1+0.9=1；

针对第6帧和第7帧，候选信息量分值为S[7]=S[6]+K[6,7]=0.0+0.2=0.2；

其中，最小候选信息量分值为0.2，因此，第7帧的信息量分值为S[7]=0.2。

针对第4帧和第8帧，候选信息量分值为S[8]=S[4]+K[4,8]=0.2+0.7=0.9；

针对第5帧和第8帧，候选信息量分值为S[8]=S[5]+K[5,8]=0.1+0.6=0.7；

针对第6帧和第8帧，候选信息量分值为S[8]=S[6]+K[6,8]=0.0+0.9=0.9；

其中，最小候选信息量分值为0.7，因此，第8帧的信息量分值为S[8]=0.7。

针对第4帧和第9帧，候选信息量分值为S[9]=S[4]+K[4,9]=0.2+1.0=1.2；

针对第5帧和第9帧，候选信息量分值为S[9]=S[5]+K[5,9]=0.1+0.5=0.6；

针对第6帧和第9帧，候选信息量分值为S[9]=S[6]+K[6,9]=0.0+0.1=0.1；

其中，最小候选信息量分值为0.1，因此，第9帧的信息量分值为S[9]=0.1。

至此，得到各个视频帧的信息量分值。

再次，本申请实施例中，提供了另一种计算视频帧对应信息量分值的方式。通过上述方式，基于两个视频帧之间的相似度惩罚值可以计算出多个候选信息量分值。由此，将最小候选信息量分值作为视频帧的信息量分值，能够得到差异最明显的一系列视频帧，从而便于有利于提升视频帧处理的准确性。

在一个或多个实施例中，介绍了另一种基于信息量分值确定目标视频帧序列的方式。由前述实施例可知，在初始化一个列表S的同时，还可以初始化一个长度为T的列表C。

具体地，为了便于理解，请再次参阅图9，由于第1帧、第2帧以及第3帧不涉及对上一个时间窗口的相似度计算，因此，均赋值为S[t]=0。即，S[1]=0，S[2]=0，S[3]=0。此时，C[t]=t，即，C[1]=1，C[2]=2，C[3]=3。可见，此时每个视频帧所对应的视频帧序列仅包括1个视频帧。接下来，对于第k个时间窗口内的视频帧t而言，赋值S[t]为S[t']+K[t,t']，t'=argmin(S[t']+K[t,t'])，其中，t'为第(k-1)个时间窗口内的视频帧，并且从中选择最小候选信息量分值作为该视频帧的信息量分值。与此同时，赋值C[t]为C[t']，也即设置C[t']之后再到t。以此类推，在将相似度作为视频帧之间相似度惩罚值的情况下，S[t']的值越小，表示之前挑选的视频帧越成功。因此，可以取t'=argmin(S[t']+K[t,t'])作为这次挑选出来的视频帧，相应地，该视频帧对应的视频帧序列就是将t'放在C[t']之后的一个位置。

以时间窗口1为第一时间窗口，时间窗口2为第二时间窗口为例，并结合图9所示的信息量矩阵，下面将分别介绍计算第4帧、第5帧和第6帧对应视频帧序列的方式。

第4帧的信息量分值为S[4]=0.2，即，S[4]=S[2]+K[2,4]=0+0.2=0.2。因此，第4帧的视频帧序列包括第2帧和第4帧，此时，C[4]=2,4。

第5帧的信息量分值为S[5]=0.1，即，S[5]=S[2]+K[2,5]=0+0.1=0.1。因此，第5帧的视频帧序列包括第2帧和第5帧，此时，C[5]=2,5。

以时间窗口2为第一时间窗口，时间窗口3为第二时间窗口为例，并结合图9所示的信息量矩阵，下面将分别介绍计算第7帧、第8帧和第9帧对应视频帧序列的方式。

第7帧的信息量分值为S[7]=0.2，即，S[7]=S[6]+K[6,7]=0.0+0.2=0.2。其中，C[6]=3,6，因此，第7帧的视频帧序列包括第3帧、第6帧和第7帧，此时，C[7]=3,6,7。

第8帧的信息量分值为S[8]=0.7，即，S[8]=S[5]+K[5,8]=0.1+0.6=0.7。其中，C[5]=2,5，因此，第8帧的视频帧序列包括第2帧、第5帧和第8帧，此时，C[8]=2,5,8。

第9帧的信息量分值为S[9]=0.1，即，S[9]=S[6]+K[6,9]=0.0+0.1=0.1。其中，C[6]=3,6，因此，第9帧的视频帧序列包括第3帧、第6帧和第9帧，此时，C[9]=3,6,9。

基于此，根据第L个时间窗口（即，时间窗口3）内每个视频帧所对应的信息量分值，将最小信息量分值的视频帧所对应的视频帧序列作为目标视频帧序列。结合上述示例，最小信息量分值的视频帧为S[9]=0.1，即，视频帧序列C[9]=3,6,9为目标视频帧序列。因此，目标视频帧序列包括第3帧、第6帧和第9帧。

再次，本申请实施例中，提供了另一种基于信息量分值确定目标视频帧序列的方式。通过上述方式，结合信息量分值确定最佳路径，从而直接将最佳路径上的各个视频帧构成目标视频帧序列。由此，提升操作的便利性和可行性。

可选地，在上述图3对应的一个或多个实施例的基础上，本申请实施例提供的另一个可选实施例中，根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，还可以包括：

基于目标视频帧序列，通过标签预测模型获取目标概率数组，其中，目标概率数组包括M个标签概率，M为大于或等于1的整数；

在目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据至少一个标签概率，生成目标视频所对应的标签预测结果。

在一个或多个实施例中，介绍了一种对视频进行标签预测的方式。由前述实施例可知，从目标视频中挑选出目标视频帧序列，使得目标视频帧序列中的视频帧所包含的信息尽量丰富。基于目标视频帧序列进行标签预测，能够在保证效果的同时减少计算量，实现快速打标签的能力。

具体地，为了便于理解，请参阅图10，图10为本申请实施例中基于目标视频生成标签预测结果的一个示意图，如图所示，假设目标视频为一集完整的电视剧，为了尽量完整地表述该集电视剧的内容，需要提取不同的视频标签。基于此，可将提取到的目标视频帧序列用于后续的标签识别，并使得目标视频帧序列尽量包括丰富的信息，例如，包括主要演员的正脸和特定重要场景发生时的关键画面。

示例性地，假设目标视频帧序列包括16个视频帧，由此，将这16个视频帧拼接成一个48×224×224的输入，通过标签预测模型输出目标概率数组。其中，“48×224×224”中的“48”表示通道数，即，48=3×16，“3”表示红绿蓝（red green blue，RGB）三个颜色通道，“16”表示16个视频帧。“224”表示视频帧的长度和宽度，即，需要将每个视频帧进行缩放后得到224*224的尺寸。目标概率数组表示为一个长度为M的数组。

可以理解的是，目标概率数组包括M个标签概率。由于视频的标签通常是互斥的，因此，每个标签概率表示针对某一个标签的概率。假设目标概率数组为（0.9,0.1,0.8,0.7），其中，“0.9”表示属于“演员A”的概率为0.9，“0.1”表示属于“演员B”的概率为0.1，“0.8”表示属于“汽车”的概率为0.8，“0.7”表示属于“仓库”的概率为0.7。假设概率阈值为0.5，则将标签概率大于或等于0,5的标签作为目标视频所对应的标签预测结果。在上述示例中，目标视频所对应的标签预测结果为“演员A”、“汽车”和“仓库”。

需要说明的是，本申请采用的标签预测模型可以是3D卷积神经网络，或者，双流卷积神经网络，或者，时间分段网络，又或者，长短路径网络等，此处不做限定。

其次，本申请实施例中，提供了一种对视频进行标签预测的方式。通过上述方式，基于自动选帧的方法能够大幅度降低了给视频打标签的计算量。与此同时，由于选择的视频帧具备信息互补的特点，即，提取出来的两个连续视频帧尽量表达不同的内容，因此，能够减少信息冗余。而每一个时间窗口都需要提取视频帧，从而避免完全忽视某个时间段的信息。保留了尽量丰富的信息，使得视频可以打上全面的标签，获得效果较好的视频标签计算结果。

可选地，在上述图3对应的一个或多个实施例的基础上，本申请实施例提供的另一个可选实施例中，在目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据至少一个标签概率，生成目标视频所对应的标签预测结果之后，还可以包括：

显示目标视频所对应的标签预测结果；

响应于针对标签预测结果中至少一个标签的选择操作，将至少一个标签作为目标视频的打标结果，或者，响应于针对标签预测结果的确定操作，将标签预测结果作为目标视频的打标结果。

在一个或多个实施例中，介绍了一种基于标签预测结果实现自动打标签的方式。由前述实施例可知，标签预测结果包括至少一个标签，其中，标签包括不同的类型，例如，剧名、人名、主题、题材、情节等。对视频进打上标签之后能够便于进行推荐分发。

具体地，为了便于理解，请参阅图11，图11为本申请实施例中对目标视频进行自动打标的一个界面示意图，如图11中（A）图所示，C1用于指示目标视频的标签预测结果，该标签预测结果包括5个标签。标注人员可以从这5个标签中选择至少一个标签作为目标视频的打标结果。如图11中（B）图所示，D1用于指示目标视频的标签预测结果，该标签预测结果包括5个标签。如果标注人员确认这5个标签均为目标视频的打标结果，则点击D2所指示的确认控件，由此，触发针对标签预测结果的确定操作。

需要说明的是，本申请中涉及的“响应于”用于表示执行操作所依赖的条件或状态，当满足一定的条件或状态时，可执行的一个或多个操作。其中，这些操作可以是实时的，也可以具有一定的延迟。

再次，本申请实施例中，提供了一种基于标签预测结果实现自动打标签的方式。通过上述方式，基于标签预测结果可以展示给人工备选或人工确认，从而减少人工标注视频的工作量，提升视频打标的效率和准确性。

可选地，在上述图3对应的一个或多个实施例的基础上，本申请实施例提供的另一个可选实施例中，还可以包括：

获取视频帧序列样本集合，其中，视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一组标注标签集合，每组标注标签集合包括至少一个标注标签；

基于视频帧序列样本集合，通过标签预测模型获取每个视频帧序列样本所对应的预测概率数组，其中，预测概率数组包括M个预测标签概率；

根据每个视频帧序列样本所对应的预测概率数组以及标注标签集合，采用第一损失函数对标签预测模型的模型参数进行更新。

在一个或多个实施例中，介绍了一种训练标签预测模型的方式。由前述实施例可知，在使用标签预测模型对目标视频进行标签预测之前，还需要对标签预测模型进行训练。

具体地，为了便于理解，请参阅图12，图12为本申请实施例中基于标签预测模型实现训练和推理的一个示意图，如图所示，在训练阶段，首先，获取视频样本集合。然后，采用本申请提供的视频帧序列提取算法，对视频样本集合中的每个视频样本提取视频帧序列样本，由此，得到视频帧序列样本集合。其中，每个视频帧序列样本采用一组标注标签集合，例如，某个视频帧序列样本的标注标签集合包括“演员A”和“演员B”。基于此，将视频帧序列样本集合作为标签预测模型的输入，通过标签预测模型获取每个视频帧序列样本所对应的预测概率数组，其中，预测概率数组包括M个预测标签概率。

示例性地，可采用如下第一损失函数计算第一损失值：

；公式（1）

其中，loss1表示第一损失值。N表示视频帧序列样本的总数。M表示标签的总数。表示第i个视频帧序列样本属于第j个标签的真实值，例如，第i个视频帧序列样本的标注标签集合包括“演员A”，那么“演员A”的真实值为1，又例如，第i个视频帧序列样本的标注标签集合不包括“跳舞”，那么“跳舞”的真实值为0。/>表示第i个视频帧序列样本属于第j个标签的预测标签概率。

结合公式（1）得到的第一损失值求模型参数的梯度，并通过梯度下降法对标签预测模型的模型参数进行更新。

在推理阶段，对目标视频采用本申请提供的视频帧序列提取算法，得到相应的目标视频帧序列。然后，基于训练好的标签预测模型对目标视频帧序列进行打标，得到标签预测结果。

再次，本申请实施例中，提供了一种训练标签预测模型的方式。通过上述方式，利用已经标注好的视频帧序列样本集合对标签预测模型进行训练，从而能够在推理阶段更准确地预测出视频所对应的标签。由此，提升方案的可行性和可操作性。

基于目标视频帧序列，通过视频检测模型获取目标概率分布向量，其中，目标概率分布向量包括至少两个等级概率；

将目标概率分布向量中的最大等级概率所对应的敏感等级作为目标视频的内容敏感等级，其中，内容敏感等级用于描述目标视频的内容敏感程度；

显示目标视频所对应的内容敏感等级。

在一个或多个实施例中，介绍了一种对视频内容进行审核的方式。由前述实施例可知，从目标视频中挑选出目标视频帧序列，使得目标视频帧序列中的视频帧所包含的信息尽量丰富。基于目标视频帧序列进行敏感等级的预测，能够在保证效果的同时减少计算量，实现视频快速审核的能力。

具体地，假设目标视频帧序列包括16个视频帧，由此，将这16个视频帧拼接成一个48×224×224的输入，通过视频检测模型输出目标概率分布向量。目标概率分布向量包括至少两个等级概率，每个等级概率对应于一个敏感等级。为了便于理解，请参阅图13，图13为本申请实施例中对目标视频进行自动审核的一个界面示意图，如图所示，假设目标概率分布向量为（0.7,0.2,0.1），此时，目标概率分布向量包括三个等级概率。其中，“0.7”表示敏感等级为“高敏感度”，“0.2”表示敏感等级为“中敏感度”，“0.1”表示敏感等级为“低敏感度”。可见，最大等级概率所对应的敏感等级为“高敏感度”，因此，目标视频的内容敏感等级为E1所指示的“高敏感度”。如果需要进一步进行人工审核，则点击E2所指示的“人工复核”控件，由此，可以进行人工审核。

其次，本申请实施例中，提供了一种对视频内容进行审核的方式。通过上述方式，基于自动选帧的方法能够降低视频处理的计算量。此外，由于选择的视频帧具备信息互补的特点，即，提取出来的两个连续视频帧尽量表达不同的内容，因此，能够减少信息冗余。而每一个时间窗口都需要提取视频帧，从而避免完全忽视某个时间段的信息。保留了尽量丰富的信息，使得视频审核的准确性更好。

获取视频帧序列样本集合，其中，视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一个标注敏感等级；

基于视频帧序列样本集合，通过视频检测模型获取每个视频帧序列样本所对应的预测概率分布向量；

根据每个视频帧序列样本所对应的预测概率分布向量以及标注敏感等级，采用第二损失函数对视频检测模型的模型参数进行更新。

在一个或多个实施例中，介绍了一种训练视频检测模型的方式。由前述实施例可知，在使用视频检测模型对目标视频进行敏感程度识别之前，还需要对视频检测模型进行训练。

具体地，为了便于理解，请参阅图14，图14为本申请实施例中基于视频检测模型实现训练和推理的一个示意图，如图所示，在训练阶段，首先，获取视频样本集合。然后，采用本申请提供的视频帧序列提取算法，对视频样本集合中的每个视频样本提取视频帧序列样本，由此，得到视频帧序列样本集合。其中，每个视频帧序列样本具有一个标注敏感等级，例如，某个视频帧序列样本的标注敏感等级为“中敏感度”。基于此，将视频帧序列样本集合作为标签预测模型的输入，通过视频检测模型获取每个视频帧序列样本所对应的预测概率分布向量。

基于此，可采用如下第二损失函数计算第二损失值：

；公式（2）

其中，loss2表示第二损失值。N表示视频帧序列样本的总数。表示第i个视频帧序列样本的标注概率分布向量，例如，第i个视频帧序列样本的标注敏感等级为“中敏感度”，那么其对应的标注概率分布向量为（0,1,0）。/>表示第i个视频帧序列样本的预测概率分布向量，例如，第i个视频帧序列样本的预测概率分布向量为（0.7,0.2,0.1）。

结合公式（2）得到的第二损失值求模型参数的梯度，并通过梯度下降法对视频检测模型的模型参数进行更新。

在推理阶段，对目标视频采用本申请提供的视频帧序列提取算法，得到相应的目标视频帧序列。然后，基于训练好的视频检测模型对目标视频帧序列进行检测，得到内容敏感等级。

再次，本申请实施例中，提供了一种训练视频检测模型的方式。通过上述方式，利用已经标注好的视频帧序列样本集合对视频检测模型进行训练，从而能够在推理阶段更准确地预测出视频所对应的审核结果。由此，提升方案的可行性和可操作性。

获取待匹配视频所对应的待匹配视频帧序列；

基于目标视频帧序列以及待匹配视频帧序列，通过视频比对模型获取目标相似度分值，其中，目标相似度分值越大，表示目标视频与待匹配视频之间的相似程度越高；

若目标相似度分值大于或等于相似度阈值，则对目标视频或者待匹配视频进行去重处理。

在一个或多个实施例中，介绍了一种对视频内容进行去重的方式。由前述实施例可知，从目标视频中挑选出目标视频帧序列，使得目标视频帧序列中的视频帧所包含的信息尽量丰富。基于目标视频帧序列进行相似视频的检测，能够在保证效果的同时减少计算量，实现视频快速去重的能力。

具体地，假设目标视频帧序列与待匹配视频帧序列分别包括16个视频帧，由此，将目标视频帧序列的16个视频帧拼接成一个48×224×224的输入，并且将待匹配视频帧序列的16个视频帧也拼接成一个48×224×224的输入。通过视频比对模型输出目标相似度分值。目标相似度分值越大，表示目标视频与待匹配视频之间的相似程度越高。如果目标相似度分值大于或等于相似度阈值（例如，0.8），则对目标视频或者待匹配视频进行去重处理。其中，视频比对模型可以采用孪生网络，也可以其他网络，此处不做限定。

为了便于理解，请参阅图15，图15为本申请实施例中对目标视频进行自动去重的一个界面示意图，如图所示，将目标视频帧序列与各个待匹配视频所对应的待匹配视频帧序列进行相似度比对，由此，得到的目标视频帧与各个待匹配视频之间的目标相似度分值。其中，F1用于指示与目标视频最相似的待匹配视频之间的目标相似度分值，即，0.9或90%。假设相似度阈值为0.8（即，80%），那么目标相似度分值大于或等于相似度阈值，因此，可对目标视频或者待匹配视频进行去重处理。如果需要进一步进行人工审核，则点击F2所指示的“人工复核”控件，由此，可以进行人工审核。

其次，本申请实施例中，提供了一种对视频内容进行去重的方式。通过上述方式，基于自动选帧的方法能够降低视频处理的计算量。此外，由于选择的视频帧具备信息互补的特点，即，提取出来的两个连续视频帧尽量表达不同的内容，因此，能够减少信息冗余。而每一个时间窗口都需要提取视频帧，从而避免完全忽视某个时间段的信息。保留了尽量丰富的信息，使得视频去重的准确性更好。

获取视频帧序列样本对集合，其中，视频帧序列样本对集合包括至少一组视频帧序列样本对，每组视频帧序列样本对包括两个视频帧序列样本，且，每组视频帧序列样本对具有一个标注相似度分值；

基于视频帧序列样本对集合，通过视频比对模型获取每组视频帧序列样本对所对应的预测相似度分值；

根据每组视频帧序列样本对所对应的预测相似度分值以及标注相似度分值，采用第三损失函数对视频比对模型的模型参数进行更新。

在一个或多个实施例中，介绍了一种训练视频比对模型的方式。由前述实施例可知，在使用视频比对模型对目标视频与待匹配视频进行相似度比对之前，还需要对视频比对模型进行训练。

具体地，为了便于理解，请参阅图16，图16为本申请实施例中基于视频比对模型实现训练和推理的一个示意图，如图所示，在训练阶段，首先，获取视频样本对集合。然后，采用本申请提供的视频帧序列提取算法，对视频样本对集合中的每组视频样本对提取视频帧序列样本对，由此，得到视频帧序列样本对集合。需要说明的是，每组视频样本对包括两个视频样本，因此，视频帧序列样本对也包括两个视频帧序列样本。其中，每组视频帧序列样本对具有一个标注相似度分值，例如，某组视频帧序列样本对非常相似或相同，则标注相似度分值为“1”。又例如，某组视频帧序列样本对不相似，则标注相似度分值为“0”，

基于此，将视频帧序列样本对集合作为视频比对模型的输入，通过视频比对模型获取每组视频帧序列样本对所对应的预测相似度分值。

基于此，可采用如下第三损失函数计算第三损失值：

；公式（3）

其中，loss3表示第三损失值。N表示视频帧序列样本对的总数。表示表示第i个视频帧序列样本对的标注相似度分值。/>表示表示视频帧序列样本对的预测相似度分值。

结合公式（3）得到的第三损失值求模型参数的梯度，并通过梯度下降法对视频比对模型的模型参数进行更新。

在推理阶段，对目标视频采用本申请提供的视频帧序列提取算法，得到相应的目标视频帧序列。类似地，对待匹配视频采用本申请提供的视频帧序列提取算法，得到相应的待匹配视频帧序列。然后，基于训练好的视频比对模型对目标视频帧序列与待匹配视频帧序列进行相似度比对，得到目标相似度分值。

再次，本申请实施例中，提供了一种训练视频比对模型的方式。通过上述方式，利用已经标注好的视频帧序列样本对集合对视频比对模型进行训练，从而能够在推理阶段更准确地预测出两个视频之间的相似程度。由此，提升方案的可行性和可操作性。

下面对本申请中的视频处理装置进行详细描述，请参阅图17，图17为本申请实施例中视频处理装置的一个实施例示意图，视频处理装置30包括：

处理模块310，用于对目标视频进行采样处理，得到T个视频帧，其中，T个视频帧中的每个视频帧对应于一个特征向量，T为大于3的整数；

划分模块320，用于将T个视频帧划分为L个时间窗口，其中，L个时间窗口中的至少一个时间窗口包括至少两个视频帧，L为大于1的整数；

确定模块330，用于针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度，其中，两个相邻时间窗口包括第一时间窗口以及第二时间窗口，两两视频帧分别来源于第一时间窗口以及第二时间窗口，第二时间窗口为第一时间窗口相邻的下一个时间窗口；

确定模块330，还用于针对L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的两两视频帧之间的相似度，确定第二时间窗口中的每个视频帧的信息量分值，其中，信息量分值用于描述来源于不同时间窗口的所有视频帧的最低累积相似程度，不同时间窗口为包括第二时间窗口以及第二时间窗口之前的各个时间窗口；

生成模块340，用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，其中，目标视频帧序列包括累积相似程度最低的L个视频帧。

可选地，在上述图17所对应的实施例的基础上，本申请实施例提供的视频处理装置30的另一实施例中，

处理模块310，具体用于按照预设采样率对目标视频进行采样处理，得到T个视频帧；

处理模块310，还用于对目标视频进行采样处理，得到T个视频帧之后，将T个视频帧中的每个视频帧作为特征提取网络的输入，通过特征提取网络得到每个视频帧所对应的特征向量。

划分模块320，具体用于在T被L整除的情况下，得到L个时间窗口，其中，L个时间窗口中的每个时间窗口包括相等数量的视频帧；

确定模块330，具体用于针对L个时间窗口中的每两个相邻时间窗口，对两个相邻时间窗口内的两两视频帧之间的相似度取相反数，得到两两视频帧之间的相似度惩罚值；

确定模块330，具体用于分别对两个视频帧之间的相似度惩罚值与第一时间窗口内的视频帧的信息量分值进行求和，得到第二时间窗口内的每个视频帧的至少一个候选信息量分值，其中，两个视频帧来源于两两视频帧；

生成模块340，具体用于获取第L个时间窗口内的每个视频帧所对应的视频帧序列，其中，视频帧序列包括用于确定信息量分值的L个视频帧，L个视频帧中的每个视频帧分别来源于L个时间窗口；

确定模块330，具体用于针对L个时间窗口中的每两个相邻时间窗口，将两个相邻时间窗口内的两两视频帧之间的相似度作为相似度惩罚值；

可选地，在上述图17所对应的实施例的基础上，本申请实施例提供的视频处理装置30的另一实施例中，视频处理装置还包括获取模块350；

获取模块350，用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，基于目标视频帧序列，通过标签预测模型获取目标概率数组，其中，目标概率数组包括M个标签概率，M为大于或等于1的整数；

生成模块340，还用于在目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据至少一个标签概率，生成目标视频所对应的标签预测结果。

可选地，在上述图17所对应的实施例的基础上，本申请实施例提供的视频处理装置30的另一实施例中，视频处理装置还包括显示模块360；

显示模块360，用于在目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据至少一个标签概率，生成目标视频所对应的标签预测结果之后，显示目标视频所对应的标签预测结果；

确定模块330，还用于响应于针对标签预测结果中至少一个标签的选择操作，将至少一个标签作为目标视频的打标结果，或者，响应于针对标签预测结果的确定操作，将标签预测结果作为目标视频的打标结果。

可选地，在上述图17所对应的实施例的基础上，本申请实施例提供的视频处理装置30的另一实施例中，视频处理装置30还包括训练模块370；

获取模块350，还用于获取视频帧序列样本集合，其中，视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一组标注标签集合，每组标注标签集合包括至少一个标注标签；

获取模块350，还用于基于视频帧序列样本集合，通过标签预测模型获取每个视频帧序列样本所对应的预测概率数组，其中，预测概率数组包括M个预测标签概率；

训练模块370，用于根据每个视频帧序列样本所对应的预测概率数组以及标注标签集合，采用第一损失函数对标签预测模型的模型参数进行更新。

获取模块350，还用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，基于目标视频帧序列，通过视频检测模型获取目标概率分布向量，其中，目标概率分布向量包括至少两个等级概率；

确定模块330，还用于将目标概率分布向量中的最大等级概率所对应的敏感等级作为目标视频的内容敏感等级，其中，内容敏感等级用于描述目标视频的内容敏感程度；

显示模块360，还用于显示目标视频所对应的内容敏感等级。

获取模块350，还用于获取视频帧序列样本集合，其中，视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一个标注敏感等级；

获取模块350，还用于基于视频帧序列样本集合，通过视频检测模型获取每个视频帧序列样本所对应的预测概率分布向量；

训练模块370，还用于根据每个视频帧序列样本所对应的预测概率分布向量以及标注敏感等级，采用第二损失函数对视频检测模型的模型参数进行更新。

获取模块350，还用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，获取待匹配视频所对应的待匹配视频帧序列；

获取模块350，还用于基于目标视频帧序列以及待匹配视频帧序列，通过视频比对模型获取目标相似度分值，其中，目标相似度分值越大，表示目标视频与待匹配视频之间的相似程度越高；

处理模块310，还用于若目标相似度分值大于或等于相似度阈值，则对目标视频或者待匹配视频进行去重处理。

获取模块350，还用于获取视频帧序列样本对集合，其中，视频帧序列样本对集合包括至少一组视频帧序列样本对，每组视频帧序列样本对包括两个视频帧序列样本，且，每组视频帧序列样本对具有一个标注相似度分值；

获取模块350，还用于基于视频帧序列样本对集合，通过视频比对模型获取每组视频帧序列样本对所对应的预测相似度分值；

训练模块370，还用于根据每组视频帧序列样本对所对应的预测相似度分值以及标注相似度分值，采用第三损失函数对视频比对模型的模型参数进行更新。

图18是本申请实施例提供的一种计算机设备结构示意图，该计算机设备可以是服务器，也可以是终端，此处不做限定。其中，计算机设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）422（例如，一个或一个以上处理器）和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430（例如一个或一个以上海量存储设备）。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对计算机设备中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在计算机设备400上执行存储介质430中的一系列指令操作。

计算机设备400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作系统441，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

上述实施例中由计算机设备所执行的步骤可以基于该图18所示的计算机设备结构。

本申请实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现前述各个实施例描述方法的步骤。

本申请实施例中还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现前述各个实施例描述方法的步骤。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息、视频内容等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是服务器或终端设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理的方法，其特征在于，包括：

对目标视频进行采样处理，得到T个视频帧，其中，所述T个视频帧中的每个视频帧对应于一个特征向量，所述T为大于3的整数；

将所述T个视频帧划分为L个时间窗口，其中，所述L个时间窗口中的至少一个时间窗口包括至少两个视频帧，所述L为大于1的整数；

针对所述L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度，其中，所述两个相邻时间窗口包括第一时间窗口以及第二时间窗口，所述两两视频帧分别来源于所述第一时间窗口以及所述第二时间窗口，所述第二时间窗口为所述第一时间窗口相邻的下一个时间窗口；

针对所述L个时间窗口中的每两个相邻时间窗口，根据所述两个相邻时间窗口内的所述两两视频帧之间的相似度，确定所述第二时间窗口中的每个视频帧的信息量分值，其中，所述信息量分值用于描述来源于不同时间窗口的所有视频帧的最低累积相似程度，所述不同时间窗口为包括所述第二时间窗口以及所述第二时间窗口之前的各个时间窗口；

根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，其中，所述目标视频帧序列包括累积相似程度最低的L个视频帧。

2.根据权利要求1所述的方法，其特征在于，所述对目标视频进行采样处理，得到T个视频帧，包括：

按照预设采样率对所述目标视频进行采样处理，得到所述T个视频帧；

所述对目标视频进行采样处理，得到T个视频帧之后，所述方法还包括：

将所述T个视频帧中的每个视频帧作为特征提取网络的输入，通过所述特征提取网络得到所述每个视频帧所对应的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述将所述T个视频帧划分为L个时间窗口，包括：

在所述T被所述L整除的情况下，得到所述L个时间窗口，其中，所述L个时间窗口中的每个时间窗口包括相等数量的视频帧；

在所述T未被所述L整除的情况下，对所述T除以所述L的结果进行向上取整，得到所述L个时间窗口，其中，所述L个时间窗口中的L-1个时间窗口分别包括相等数量的视频帧，所述L个时间窗口中的剩余时间窗口包括至少一个视频帧。

4.根据权利要求1所述的方法，其特征在于，所述针对所述L个时间窗口中的每两个相邻时间窗口，根据所述两个相邻时间窗口内的所述两两视频帧之间的相似度，确定所述第二时间窗口中的每个视频帧的信息量分值，包括：

针对所述L个时间窗口中的每两个相邻时间窗口，对所述两个相邻时间窗口内的所述两两视频帧之间的相似度取相反数，得到所述两两视频帧之间的相似度惩罚值；

针对所述L个时间窗口中的每两个相邻时间窗口，根据所述两两视频帧之间的相似度惩罚值与所述第一时间窗口内的每个视频帧的信息量分值，确定所述第二时间窗口内的每个视频帧的信息量分值。

5.根据权利要求4所述的方法，其特征在于，所述根据所述两两视频帧之间的相似度惩罚值与所述第一时间窗口内的每个视频帧的信息量分值，确定所述第二时间窗口内的每个视频帧的信息量分值，包括：

分别对两个视频帧之间的相似度惩罚值与所述第一时间窗口内的视频帧的信息量分值进行求和，得到所述第二时间窗口内的每个视频帧的至少一个候选信息量分值，其中，所述两个视频帧来源于所述两两视频帧；

分别从所述第二时间窗口内的每个视频帧的至少一个候选信息量分值中，选择最大候选信息量分值作为所述第二时间窗口内的每个视频帧的信息量分值。

6.根据权利要求4所述的方法，其特征在于，所述根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，包括：

获取所述第L个时间窗口内的每个视频帧所对应的视频帧序列，其中，所述视频帧序列包括用于确定信息量分值的L个视频帧，所述L个视频帧中的每个视频帧分别来源于所述L个时间窗口；

根据所述第L个时间窗口内的每个视频帧的信息量分值，确定具有最大信息量分值所对应的视频帧；

将具有所述最大信息量分值的视频帧所对应的视频帧序列作为所述目标视频帧序列。

7.根据权利要求1所述的方法，其特征在于，所述针对所述L个时间窗口中的每两个相邻时间窗口，根据所述两个相邻时间窗口内的所述两两视频帧之间的相似度，确定所述第二时间窗口中的每个视频帧的信息量分值，包括：

针对所述L个时间窗口中的每两个相邻时间窗口，将所述两个相邻时间窗口内的所述两两视频帧之间的相似度作为相似度惩罚值；

8.根据权利要求7所述的方法，其特征在于，所述根据所述两两视频帧之间的相似度惩罚值与所述第一时间窗口内的每个视频帧的信息量分值，确定所述第二时间窗口内的每个视频帧的信息量分值，包括：

分别从所述第二时间窗口内的每个视频帧的至少一个候选信息量分值中，选择最小候选信息量分值作为所述第二时间窗口内的每个视频帧的信息量分值。

9.根据权利要求7所述的方法，其特征在于，所述根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，包括：

根据所述第L个时间窗口内的每个视频帧的信息量分值，确定具有最小信息量分值所对应的视频帧；

将具有所述最小信息量分值的视频帧所对应的视频帧序列作为所述目标视频帧序列。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，所述方法还包括：

基于所述目标视频帧序列，通过标签预测模型获取目标概率数组，其中，所述目标概率数组包括M个标签概率，所述M为大于或等于1的整数；

在所述目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据所述至少一个标签概率，生成所述目标视频所对应的标签预测结果。

11.根据权利要求10所述的方法，其特征在于，所述在所述目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据所述至少一个标签概率，生成所述目标视频所对应的标签预测结果之后，所述方法还包括：

显示所述目标视频所对应的标签预测结果；

响应于针对所述标签预测结果中至少一个标签的选择操作，将所述至少一个标签作为所述目标视频的打标结果，或者，响应于针对所述标签预测结果的确定操作，将所述标签预测结果作为所述目标视频的打标结果。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

获取视频帧序列样本集合，其中，所述视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一组标注标签集合，每组标注标签集合包括至少一个标注标签；

基于所述视频帧序列样本集合，通过所述标签预测模型获取所述每个视频帧序列样本所对应的预测概率数组，其中，所述预测概率数组包括M个预测标签概率；

根据所述每个视频帧序列样本所对应的预测概率数组以及标注标签集合，采用第一损失函数对所述标签预测模型的模型参数进行更新。

13.根据权利要求1至9中任一项所述的方法，其特征在于，所述根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，所述方法还包括：

基于所述目标视频帧序列，通过视频检测模型获取目标概率分布向量，其中，所述目标概率分布向量包括至少两个等级概率；

将所述目标概率分布向量中的最大等级概率所对应的敏感等级作为所述目标视频的内容敏感等级，其中，所述内容敏感等级用于描述所述目标视频的内容敏感程度；

显示所述目标视频所对应的内容敏感等级。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

获取视频帧序列样本集合，其中，所述视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一个标注敏感等级；

基于所述视频帧序列样本集合，通过所述视频检测模型获取所述每个视频帧序列样本所对应的预测概率分布向量；

根据所述每个视频帧序列样本所对应的预测概率分布向量以及标注敏感等级，采用第二损失函数对所述视频检测模型的模型参数进行更新。

15.根据权利要求1至9中任一项所述的方法，其特征在于，所述根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，所述方法还包括：

获取待匹配视频所对应的待匹配视频帧序列；

基于所述目标视频帧序列以及所述待匹配视频帧序列，通过视频比对模型获取目标相似度分值，其中，所述目标相似度分值越大，表示所述目标视频与所述待匹配视频之间的相似程度越高；

若所述目标相似度分值大于或等于相似度阈值，则对所述目标视频或者所述待匹配视频进行去重处理。

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

获取视频帧序列样本对集合，其中，所述视频帧序列样本对集合包括至少一组视频帧序列样本对，每组视频帧序列样本对包括两个视频帧序列样本，且，所述每组视频帧序列样本对具有一个标注相似度分值；

基于所述视频帧序列样本对集合，通过所述视频比对模型获取所述每组视频帧序列样本对所对应的预测相似度分值；

根据所述每组视频帧序列样本对所对应的预测相似度分值以及标注相似度分值，采用第三损失函数对所述视频比对模型的模型参数进行更新。

17.一种视频处理装置，其特征在于，包括：

处理模块，用于对目标视频进行采样处理，得到T个视频帧，其中，所述T个视频帧中的每个视频帧对应于一个特征向量，所述T为大于3的整数；

划分模块，用于将所述T个视频帧划分为L个时间窗口，其中，所述L个时间窗口中的至少一个时间窗口包括至少两个视频帧，所述L为大于1的整数；

确定模块，用于针对所述L个时间窗口中的每两个相邻时间窗口，根据两个相邻时间窗口内的每个视频帧所对应的特征向量，确定两两视频帧之间的相似度，其中，所述两个相邻时间窗口包括第一时间窗口以及第二时间窗口，所述两两视频帧分别来源于所述第一时间窗口以及所述第二时间窗口，所述第二时间窗口为所述第一时间窗口相邻的下一个时间窗口；

所述确定模块，还用于针对所述L个时间窗口中的每两个相邻时间窗口，根据所述两个相邻时间窗口内的所述两两视频帧之间的相似度，确定所述第二时间窗口中的每个视频帧的信息量分值，其中，所述信息量分值用于描述来源于不同时间窗口的所有视频帧的最低累积相似程度，所述不同时间窗口为包括所述第二时间窗口以及所述第二时间窗口之前的各个时间窗口；

生成模块，用于根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列，其中，所述目标视频帧序列包括累积相似程度最低的L个视频帧。

18.根据权利要求17所述的装置，其特征在于，所述处理模块，具体用于按照预设采样率对所述目标视频进行采样处理，得到所述T个视频帧；

所述处理模块，还用于对目标视频进行采样处理，得到T个视频帧之后，将所述T个视频帧中的每个视频帧作为特征提取网络的输入，通过所述特征提取网络得到所述每个视频帧所对应的特征向量。

19.根据权利要求17所述的装置，其特征在于，所述划分模块，具体用于：

20.根据权利要求17所述的装置，其特征在于，所述确定模块，具体用于：

21.根据权利要求20所述的装置，其特征在于，所述确定模块，具体用于：

22.根据权利要求20所述的装置，其特征在于，所述生成模块，具体用于：

23.根据权利要求17所述的装置，其特征在于，所述确定模块，具体用于：

24.根据权利要求23所述的装置，其特征在于，所述确定模块，具体用于：

25.根据权利要求23所述的装置，其特征在于，所述生成模块，具体用于：

26.根据权利要求17至25中任一项所述的装置，其特征在于，所述装置还包括：获取模块；

所述获取模块，用于在所述根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，基于所述目标视频帧序列，通过标签预测模型获取目标概率数组，其中，所述目标概率数组包括M个标签概率，所述M为大于或等于1的整数；

所述生成模块，还用于在所述目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据所述至少一个标签概率，生成所述目标视频所对应的标签预测结果。

27.根据权利要求26所述的装置，其特征在于，所述装置还包括：显示模块；

所述显示模块，用于在所述目标概率数组中存在至少一个标签概率大于或等于概率阈值的情况下，根据所述至少一个标签概率，生成所述目标视频所对应的标签预测结果之后，显示所述目标视频所对应的标签预测结果；

所述确定模块，还用于响应于针对所述标签预测结果中至少一个标签的选择操作，将所述至少一个标签作为所述目标视频的打标结果，或者，响应于针对所述标签预测结果的确定操作，将所述标签预测结果作为所述目标视频的打标结果。

28.根据权利要求26所述的装置，其特征在于，所述装置还包括：训练模块；

所述获取模块，还用于获取视频帧序列样本集合，其中，所述视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一组标注标签集合，每组标注标签集合包括至少一个标注标签；

所述获取模块，还用于基于所述视频帧序列样本集合，通过所述标签预测模型获取所述每个视频帧序列样本所对应的预测概率数组，其中，所述预测概率数组包括M个预测标签概率；

所述训练模块，用于根据所述每个视频帧序列样本所对应的预测概率数组以及标注标签集合，采用第一损失函数对所述标签预测模型的模型参数进行更新。

29.根据权利要求17至25中任一项所述的装置，其特征在于，所述装置还包括：获取模块和显示模块；

所述获取模块，还用于在所述根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，基于所述目标视频帧序列，通过视频检测模型获取目标概率分布向量，其中，所述目标概率分布向量包括至少两个等级概率；

所述确定模块，还用于将所述目标概率分布向量中的最大等级概率所对应的敏感等级作为所述目标视频的内容敏感等级，其中，所述内容敏感等级用于描述所述目标视频的内容敏感程度；

所述显示模块，还用于显示所述目标视频所对应的内容敏感等级。

30.根据权利要求29所述的装置，其特征在于，所述装置还包括：训练模块；

所述获取模块，还用于获取视频帧序列样本集合，其中，所述视频帧序列样本集合包括至少一个视频帧序列样本，每个视频帧序列样本具有一个标注敏感等级；

所述获取模块，还用于基于所述视频帧序列样本集合，通过所述视频检测模型获取所述每个视频帧序列样本所对应的预测概率分布向量；

所述训练模块，还用于根据所述每个视频帧序列样本所对应的预测概率分布向量以及标注敏感等级，采用第二损失函数对所述视频检测模型的模型参数进行更新。

31.根据权利要求17至25中任一项所述的装置，其特征在于，所述装置还包括：获取模块；

所述获取模块，还用于在所述根据第L个时间窗口内的每个视频帧的信息量分值，生成目标视频帧序列之后，获取待匹配视频所对应的待匹配视频帧序列；

所述获取模块，还用于基于所述目标视频帧序列以及所述待匹配视频帧序列，通过视频比对模型获取目标相似度分值，其中，所述目标相似度分值越大，表示所述目标视频与所述待匹配视频之间的相似程度越高；

所述处理模块，还用于若所述目标相似度分值大于或等于相似度阈值，则对所述目标视频或者所述待匹配视频进行去重处理。

32.根据权利要求31所述的装置，其特征在于，所述装置还包括：训练模块；

所述获取模块，还用于获取视频帧序列样本对集合，其中，所述视频帧序列样本对集合包括至少一组视频帧序列样本对，每组视频帧序列样本对包括两个视频帧序列样本，且，所述每组视频帧序列样本对具有一个标注相似度分值；

所述获取模块，还用于基于所述视频帧序列样本对集合，通过所述视频比对模型获取所述每组视频帧序列样本对所对应的预测相似度分值；

所述训练模块，还用于根据所述每组视频帧序列样本对所对应的预测相似度分值以及标注相似度分值，采用第三损失函数对所述视频比对模型的模型参数进行更新。

33.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述的方法的步骤。

34.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。