CN114297432A

CN114297432A - 一种视频检索方法、装置、设备及计算机可读存储介质

Info

Publication number: CN114297432A
Application number: CN202110898247.XA
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2022-04-08

Abstract

本申请提供了一种视频检索方法、装置、设备及计算机可读存储介质；涉及人工智能领域和区块链技术；该方法包括：对待检索视频进行帧序列的抽取，得到视频帧序列；对视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列；针对图像特征序列进行定长特征的抽取，得到目标视频特征，其中，目标视频特征是待检索视频在视频元素上的表征；依据目标视频特征和视频库中的视频的特征，从视频库中检索出待检索视频对应的相似视频。通过本申请，能够提高视频检索的有效程度。

Description

一种视频检索方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种视频检索方法、装置、设备及计算机可读存储介质。

背景技术

视频检索是指通过人工智能技术，明确所给出的视频是否与其他的视频重复、雷同等，广泛应用于视频侵权判断、相似视频推荐等场景中。视频检索首先要针对给出的视频和其他视频进行相似判断。相关技术中，在视频的相似判断时均需要时序逻辑判断才能实现。然而，混剪视频和变长视频进行时序逻辑判断的难度较大，使得针对混剪视频和变长视频进行视频检索的难度较高，从而视频检索的有效程度较低。

发明内容

本申请实施例提供一种视频检索方法、装置、设备及计算机可读存储介质，能够提高视频检索的有效程度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频检索方法，包括：

对待检索视频进行帧序列的抽取，得到视频帧序列；

对所述视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列；

针对所述图像特征序列进行定长特征的抽取，得到目标视频特征，其中，所述目标视频特征是所述待检索视频在视频元素上的表征；

依据所述目标视频特征和视频库中的视频的特征，从所述视频库中检索出所述待检索视频对应的相似视频。

本申请实施例提供一种视频检索装置，包括：

序列抽取模块，用于对待检索视频进行帧序列的抽取，得到视频帧序列；

图像特征提取模块，用于对所述视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列；

定长特征提取模块，用于针对所述图像特征序列进行定长特征的抽取，得到目标视频特征，其中，所述目标视频特征是所述待检索视频在视频元素上的表征；

视频检索模块，用于依据所述目标视频特征和视频库中的视频的特征，从所述视频库中检索出所述待检索视频对应的相似视频。

在本申请的一些实施例中，所述视频帧序列包括：多个帧序列，所述图像特征序列包括：所述多个帧序列对应的多个子特征序列；

所述定长特征提取模块，还用于将所述多个子特征序列中的每个子特征序列进行特征提取，得到多个表征特征；其中，表征特征保留了所述子特征序列中不同视频场景的特征，去除了相同视频场景的特征；基于对所述多个表征特征在通道维度的统计池化处理，得到定长的池化特征；从所述池化特征中提取出所述目标视频特征。

在本申请的一些实施例中，所述定长特征提取模块，还用于从所述多个表征特征中确定出每个通道的多个特征值；对所述每个通道的所述多个特征值进行均值和方差的计算，得到所述每个通道对应的特征均值和特征方差；将所述每个通道的特征均值进行拼接，得到均值向量，以及将所述每个通道的特征方差进行拼接，得到方差向量；利用所述均值向量和所述方差向量拼接出定长的所述池化特征。

在本申请的一些实施例中，所述序列抽取模块，还用于利用预设帧间隔对所述待检索视频进行切分，得到多个帧序列；将所述多个帧序列确定为所述视频帧序列；

所述图像特征提取模块，还用于利用从每个帧序列的视频帧中所抽取出的图像特征，生成所述每个帧序列对应的子特征序列；将所述多个帧序列对应的多个子特征序列，确定为所述图像特征序列。

在本申请的一些实施例中，所述视频库中的视频包括：多个预设视频；所述视频检索模块，还用于对所述目标视频特征和所述多个预设视频的特征进行相似度的计算，得到多个特征相似度；将所述多个特征相似度中最大的N个特征相似度对应的预设视频，确定为所述相似视频。

在本申请的一些实施例中，所述视频检索装置还包括：模型训练模块；

所述模型训练模块，用于获取训练视频样本，以及所述训练视频样本对应的标注样本；所述标注样本带有与所述训练视频样本是否相同或相似的标注标签；从所述训练视频样本和所述标注样本中，挖掘出所述训练视频样本对应的训练三元组；利用所述训练三元组，对初始定长特征抽取模型进行度量训练，得到预设定长特征抽取模型，所述预设定长特征抽取模型用于对所述图像特征序列进行定长特征的提取。

在本申请的一些实施例中，所述模型训练模块，还用于利用所述初始定长特征抽取模型，对所述训练三元组中的训练帧序列、正样本和负样本分别进行定长特征的抽取，得到训练视频特征、正样本特征以及负样本特征；利用所述训练视频特征和所述正样本特征之间的距离，以及所述训练视频特征与所述负样本特征之间的距离，计算出第一训练损失值；利用所述第一训练损失值持续对所述初始定长特征抽取模型进行参数更新，直至达到训练结束条件，得到所述预设定长特征抽取模型。

在本申请的一些实施例中，所述训练视频样本包括：多个训练帧序列，所述标注样本中包括：所述多个训练帧序列对应的多个相似帧序列；

所述模型训练模块，还用于利用每个训练帧序列和所述每个训练帧序列对应的相似帧序列，组成所述每个训练帧序列对应的正样本对，当对所述多个训练帧序列均确定出对应的正样本对时，得到多个正样本对；从所述多个正样本对中除去所述每个训练帧序列所对应的正样本对的其他样本对中，抽取出所述每个训练帧序列对应的候选负样本集合；对所述每个训练帧序列与所述候选负样本集合中的候选负样本的特征距离进行计算，得到所述每个训练帧序列的负样本特征距离集合；将所述负样本特征距离集合中最小的N个负样本特征距离所对应的候选负样本，作为所述每个训练帧序列的负样本；其中，N是正整数；利用所述每个训练帧序列对应的正样本对，以及所述每个训练帧序列对应的负样本，生成所述每个训练帧序列对应的三元组，并将所述每个训练帧序列对应的三元组时，确定为所述训练三元组。

在本申请的一些实施例中，所述模型训练模块，还用于利用待训练相似度度量模型，对从所述训练视频样本中所抽取出的训练视频特征和从所述标注样本中所抽取出的标注样本特征进行相似度计算，得到训练相似度；依据所述训练视频样本和所述标注样本之间的标注标签，以及所述训练相似度，计算出第二训练损失值；利用所述第二训练损失值对所述待训练相似度度量模型进行参数更新，直至训练结束时，得到预设相似度度量模型，所述预设相似度度量模型用于对所述目标视频特征和多个预设视频的特征进行相似度的计算。

在本申请的一些实施例中，所述模型训练模块，还用于获取第一视频，以及与所述第一视频不同的第二视频；其中，所述第一视频和所述第二视频均未经过相似度的标注；从所述第一视频中，构造带有标注相似度的预训练正样本对，以及从所述第二视频中，选取出预训练负样本；将所述预训练正样本对和所述预训练负样本，确定为预训练三元组；利用所述预训练三元组，对参数初始化得到的初始相似度度量模型进行预训练，得到所述待训练相似度度量模型。

在本申请的一些实施例中，所述模型训练模块，还用于从所述第一视频中抽取出锚点视频帧序列；从所述锚点视频帧序列中截取出预设数量的截取图像序列；依据所述截取图像序列中的截取图像的面积、所述锚点视频帧序列中的视频帧的面积，以及预设损失超参数，计算出包含所述锚点视频帧序列和所述截取图像序列的所述预训练正样本对的所述标注相似度，得到带有所述标注相似度的所述预训练正样本对。

在本申请的一些实施例中，所述模型训练模块，还用于对所述第一视频进行分镜处理，得到多个分镜片段，并将所述锚点视频帧序列所对应分镜片段之外的分镜片段，确定为候选分镜片段；其中，每个分镜片段中的视频帧的相似程度大于相似度阈值；对所述每个分镜片段和其相邻的分镜片段的距离进行平均处理，得到距离均值；当所述候选分镜片段的第一分镜中心特征与所述锚点视频帧序列对应的分镜片段的第二分镜中心特征的距离，大于所述距离均值时，从所述候选分镜片段的视频帧中，筛选出目标正样本；依据所述锚点视频帧序列所对应的分镜片段的数量和所述目标正样本所对应的分镜片段的数量，计算出包含所述锚点视频帧序列和所述目标正样本的所述预训练正样本对的所述标注相似度，得到带有所述标注相似度的所述预训练正样本对；

所述模型训练模块，还用于当所述第二视频进行分镜所得到的其他分镜片段的第三分镜中心特征，与所述预训练正样本对的分镜片段的分镜中心特征的距离，均大于所述距离均值时，从所述第二视频中选取出所述预训练负样本。

本申请实施例提供一种视频检索设备，包括：

存储器，用于存储可执行视频检索指令；

处理器，用于执行所述存储器中存储的可执行视频检索指令时，实现本申请实施例提供的视频检索方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行视频检索指令，用于引起处理器执行时，实现本申请实施例提供的视频检索方法。

本申请实施例具有以下有益效果：视频检索设备能够先对待检索视频进行帧序列的抽取，得到视频帧序列，接着对视频帧序列中的视频帧抽取图像特征，从而得到图像特征序列，然后从图像特征序列中抽取出定长的目标视频特征，以得到待检索视频在视频元素上的表征，最后基于目标视频特征，即基于待检索视频在视频元素上的表征，从视频库中检索相似视频。如此，能够实现基于视频元素来判断视频是否相似，无需进行时序逻辑判断，从而无论是针对时序正常的一般视频、时序混乱的混剪视频，还是变长的视频，均能够有效地进行视频检索，最终提高了视频检索的有效程度。

附图说明

图1A是本申请实施例提供的视频检索系统的一个可选的架构示意图；

图1B是本申请实施例提供的视频检索系统的另一个可选的架构示意图；

图2是本申请实施例提供的视频检索设备的结构示意图；

图3是本申请实施例提供的视频检索方法的一个可选的流程示意图；

图4是本申请实施例提供的视频检索方法的一个可选的流程示意图；

图5是本申请实施例提供的定长特征抽取的过程示意图；

图6是本申请实施例提供的视频检索方法的一个可选的流程示意图；

图7是本申请实施例提供的对待训练相似度度量模型的训练过程示意图；

图8是本申请实施例提供的预训练正样本对的示意图；

图9是本申请实施例提供的从第二视频中生成预训练负样本的示意图；

图10是本申请实施例提供的预训练正样本对和预训练负样本的对比示意图；

图11是本申请实施例提供的对初始相似度度量模型进行预训练的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

2)计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个综合学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

4)图像识别，是类别级别的识别，不考虑对象的特定实例，只考虑对象的类别(例如，人类、狗、猫、鸟类等)进行识别，并给出对象所属类别。例如，针对大型通用物体识别开源数据集中的识别任务，识别出物体是1000个类别中的哪一个。

5)预训练，是指利用大量的与最终的任务无关的数据所进行的训练，所得到的预训练模型在经过正式训练(例如微调)之后，能够应用到最终的任务中去。

6)视频相似度排序，在视频库中获取相似视频的任务时，需要对所检索到的视频进行排序，使得排在前面的视频与等待查找相似视频更加接近。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

视频检索是指通过人工智能技术，明确所给出的视频是否与其他的视频重复、雷同等，广泛应用于视频侵权判断、相似视频推荐等场景中。视频检索首先要针对给出的视频和其他视频进行相似判断。相关技术中，主要通过两种方法来实现视频的相似判断，分别为基于特征联合时序逻辑判断和基于时空卷积进行判断。

在基于特征联合时序逻辑来判断时，采用图像特征抽取模型对视频各帧抽取到特征序列，然后采用时序逻辑判断两个视频是否相似，例如，对于N帧的视频a和M帧视频b，当连续min(N,M)/2帧相似时，则判断视频a和视频b相似。可见，基于特征联合时序需要借助于时序逻辑来判断视频是否相似。

在基于时刻卷积进行判断时，则是先将等待对比的视频剪辑成等长的片段，针对每个片段提取视频片段特征，并且由于在训练时需要固定视频分片的帧数，从而无法处理不等长视频的特征训练，从而需要将等待对比的视频各自的视频片段特征进行时序逻辑判断，从而判断出两个视频是否相似。

由此可见，相关技术中，在视频的相似判断时均需要时序逻辑判断才能实现。然而，对时序混乱的混剪视频，以及变长视频进行时序逻辑判断的难度较大，使得针对混剪视频和变长视频进行视频检索的难度较高，即难以保证有效对混剪视频和变长视频进行视频检索，从而视频检索的有效程度较低。

另外，相关技术中的视频相似判断只能给出两个视频是否相似，并不能给出两个视频的相似程度，从而不能有效地实现视频相似度排序，难以得到与给出的视频最为接近的视频。

本申请实施例提供一种视频检索方法、装置、设备和计算机可读存储介质，能够扩大视频检索的适用范围。下面说明本申请实施例提供的视频检索设备的示例性应用，本申请实施例提供的视频检索设备可以实施为终端，也可以实施为服务器，还可以实施为由服务器和终端所组成的设备集群。下面，将说明视频检索设备实施为服务器时的示例性应用。

参见图1A，图1A是本申请实施例提供的视频检索系统的一个可选的架构示意图。为实现支撑一个视频检索应用，在图1A的视频检索系统100中，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于上传待检索视频给服务器200。终端400响应用户在图形界面410中的操作，生成待检索视频，并待检索视频通过网络300发送给服务器200。

服务器200用于对待检索视频进行帧序列的抽取，得到视频帧序列；对视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列；针对图像特征序列进行定长特征的抽取，得到目标视频特征，其中，目标视频特征是所述待检索视频在视频元素上的表征；依据目标视频特征和视频库中的视频的特征，从视频库中检索出待检索视频对应的相似视频，以实现视频检索。

服务器200还用于将相似视频下发给终端400，终端400在图形界面410上展示相似视频，以促使用户了解待检索视频是否存在侵权风险，或者是促使用户修改待检索视频等。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端、智能家居等，但并不局限于此。在终端上，设置有客户端，例如，视频客户端、浏览客户端、信息流客户端、教育客户端等等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

本申请实施例还可以通过区块链技术来实现，参见图1B，图1B是本申请实施例提供的视频检索系统的另一个可选的架构示意图。图1B中，在视频检索系统100中，通过服务器200将待检索视频、目标视频特征和相似视频上链，以使得待检索视频、目标视频特征和相似视频能够被记录，且记录不可篡改。

在一些实施例中，服务器200可以加入区块链网络700而成为其中的一个节点。区块链网络700的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备，都可以在不需要授权的情况下接入区块链网络700，以作为区块链网络700的共识节点，例如，将终端400映射为区块链网络700中的共识节点700-1，以在将元数据上链时进行共识。

以区块链网络700为联盟链为例，终端400在获得授权后可以接入区块链网络700而成为节点。服务器200对待检索视频进行帧序列的抽取，得到视频帧序列；对视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列；针对图像特征序列进行定长特征的抽取，得到目标视频特征；依据目标视频特征和视频库中的视频的特征，从视频库中检索出待检索视频对应的相似视频。同时服务器200将待检索视频、目标视频特征和相似视频发送至区块链网络700中进行共识。当共识通过时，区块链网络700会为待检索视频、目标视频特征和相似视频分配新区块，将待检索视频、目标视频特征和相似视频写入至新区块，并将新区块添加在区块链的末端。

参见图2，图2是本申请实施例提供的视频检索设备的结构示意图，图2所示的视频检索设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。视频检索设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的视频检索装置可以采用软件方式实现，图2示出了存储在存储器550中的视频检索装置555，其可以是程序和插件等形式的软件，包括以下软件模块：序列抽取模块5551、图像特征提取模块5552、定长特征提取模块5553、视频检索模块5554和模型训练模块5555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的视频检索装置可以采用硬件方式实现，作为示例，本申请实施例提供的视频检索装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频检索方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

示例性的，本申请实施例提供一种视频检索设备，包括：

存储器，用于存储可执行视频检索指令；

下面，将结合本申请实施例提供的视频检索设备的示例性应用和实施，说明本申请实施例提供的视频检索方法。

参见图3，图3是本申请实施例提供的视频检索方法的一个可选的流程示意图，本申请实施例提供的视频检索设备方法可以由视频检索设备执行。将结合图3示出的步骤进行说明。

S101、对待检索视频进行视频帧序列的抽取，得到视频帧序列。

本申请实施例是在对视频进行相似视频检索的场景下实现的，例如，针对用户上传的混剪视频进行视频检索，从而判断用户上传的混剪视频是否侵权，或者是针对用户观看过的视频进行视频检索，从而将相类似的视频推荐给用户等。本申请实施例中，视频检索设备在获得待检索视频之后，会先对待检索视频进行帧序列的抽取，从而得到一个帧序列，或者是多个不相同的帧序列，将所述抽取出的帧序列，统称为视频帧序列。

本申请实施例中，视频检索设备可以通过对待检索视频进行定长的帧序列抽取的方式，来抽取得到视频帧序列。更详细的，视频检索设备可以按照预设时间间隔从待检索视频中抽取出多个不同的帧序列，利用这些不同的帧序列组成视频帧序列，并且在每次抽取帧序列时，都是从待检索视频中抽取出预设数量的连续视频帧。

视频检索设备还可以按照每隔预设时间从待检索视频中抽取单个视频帧，利用抽取出的视频帧组成视频帧序列的方式，来实现对待检索视频的帧序列的抽取。例如，每隔1s从待检索视频中抽取一个视频帧，直到对待检索视频的完成抽帧，得到多个视频帧，将抽取出的多个视频帧按照时间顺序进行排列，得到视频帧序列。

需要说明的是，待检索视频可以包括变长视频，也可以包括定长视频。当待检索视频包括变长视频时，视频检索设备通过对待检索视频进行定长的帧序列抽取的方式进行帧序列的抽取，或者是按照每隔预设时间从待检索视频中抽取单个视频帧的方式进行帧序列的抽取时，得到可变数量的帧序列或者可变数量的视频帧，从而，所组成的视频帧序列的长度就是可变的，进一步的，视频帧序列的长度和待检索视频的时长是正相关的。

相对应的，待检索视频包括定长视频时，视频检索设备就会针对待检索视频得到定长的视频帧序列。

可以理解的是，待检索视频可以是用户所制作的混剪视频、碎剪视频，例如，由从某电视剧中剪辑出的片段所拼凑而成的视频等，还可以是专业的制作方所制作的视频，例如，电影、电视剧集等，本申请实施例在此不作限定。

S102、对视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列。

视频检索设备在抽取到视频帧序列之后，就会对视频帧序列中的视频帧各自进行图像特征的提取，然后利用从各个视频帧中抽取出的图像特征组成图像特征序列。

需要说明的是，当待检索视频为变长视频时，视频帧序列的长度与待检索视频的时长正相关，从而，视频帧序列中的视频帧的数量也与待检索视频的时长正相关，如此，会使得图像特征序列的长度与待检索视频的时长正相关。

相应的，当待检索视频为定长视频时，视频帧序列的长度也为定长，从而，视频帧序列中的视频帧的数量不会变化，如此，图像特征序列的长度也是定值。

在一些实施例中，视频帧序列包括多个帧序列时，视频检索设备则是针对每个帧序列中的视频帧进行图像特征的抽取，然后将同一个帧序列中的图像特征组成该帧序列所对应的子特征序列，并利用多个帧序列对应的多个子特征序列，组成图像特征序列。

在另一些实施例中，视频帧序列仅包括一个帧序列时，那么，图像特征序列就由这一个帧序列中的视频帧的图像特征所构成。

可以理解的是，图像特征序列中的图像特征可以是特征矩阵，也可以特征向量，还可以是特征值，本申请在此不作限定。视频检索设备可以通过训练好的深度学习模型，来对视频帧序列中的视频帧进行图像特征抽取，以得到图像特征序列，也可以从视频帧中抽取颜色特征、纹理特征等图像特征，以得到图像特征序列。

S103、针对图像特征序列进行定长特征的抽取，得到目标视频特征。

视频检索设备在得到图像特征序列之后，无论图像特征序列是变长还是定长的，视频检索设备都会对图像特征序列进行定长特征的抽取，从而得到定长的目标视频特征。也就是说，即使是针对不同时长的待检索视频，都能够利用定长特征来进行表示，以便于后续进行检索。

需要说明的是，视频帧序列中的视频帧必然会包含待检索视频中的视频元素，从而，视频检索设备所得到的图像特征序列中，也囊括了不同视频帧的视频元素的表征，如此，视频检索设备对图像特征序列进行定长特征的抽取，实质上就得到了待检索视频在视频元素上的表征。也就是说，本申请实施例中，目标视频特征是待检索视频在视频元素上的表征。

可以理解的是，视频检索设备可以通过将图像特征序列输入至预设定长特征抽取模型中，以进行定长特征的抽取。视频检索设备还可以通过对图像特征序列进行统计处理，例如，得到各个通道的均值、方差等方式，以进行定长特征的抽取。当然，视频检索设备还可以通过其他方式来对图像特征序列进行定长特征的抽取，本申请在此不作限定。

进一步的，预设定长特征抽取模型还利用标注好的数据训练出来的。在一些实施例中，可以仅利用常用的梯度反向传播的方式，来训练出预设定长特征抽取模型。在另一些实施例中，为了使得预设定长特征抽取模型在抽取特征时，对不同类型的视频的特征在特征空间进行区分，例如将同类型的视频的特征映射到特征空间的同一个区域中，从而使得不同类型的视频的特征相距较远，视频检索设备还可以基于度量学习来训练出预设定长特征抽取模型，本申请在此不作限定。

S104、依据目标视频特征和视频库中的视频的特征，从视频库中检索出待检索视频对应的相似视频。

视频检索设备得到了目标视频特征之后，无疑就明确了待检索视频在视频元素上的情况。视频检索设备依据目标视频特征从视频库中检索相似视频时，实质上就是站在视频元素的表征的角度上来进行的，从而，在视频相似的分析时，不需要再进行时序逻辑的分析，从而无论是针对时序混乱的混剪视频，还是变长的视频，都能够判断出两个视频是否相似。

需要说明的是，视频检索设备可以通过将目标视频特征，与视频库中的各个视频的特征进行特征距离的计算，依据特征距离筛选出对应的相似视频，或者是与从视频库的视频的特征进行匹配，查找出与目标视频特征差异足够小的特征，从而得到待检索视频对应的相似视频。

可以理解的是，视频库可以是指视频平台上的视频库，例如，某小视频平台上的由不同用户所上传的小视频所组成的视频库；视频库也可以是在本地构建的视频库，例如，在违规视频检查部门的本地设备上所构建的，由不同的违规视频所组成的视频库等等，本申请在此不作限定。

本申请实施例中，视频检索设备能够先对待检索视频进行帧序列的抽取，得到视频帧序列，接着对视频帧序列中的视频帧抽取图像特征，从而得到图像特征序列，然后从图像特征序列中抽取出定长的目标视频特征，以得到待检索视频在视频元素上的表征，最后基于目标视频特征，即基于待检索视频在视频元素上的表征，从视频库中检索相似视频。如此，能够实现基于视频元素来判断视频是否相似，无需进行时序逻辑判断，从而无论是针对时序正常的一般视频、时序混乱的视频，还是变长的视频，均能够有效地进行视频检索，最终提高了视频检索的有效程度。

参见图4，图4是本申请实施例提供的视频检索方法的一个可选的流程示意图。在本申请的一些实施例中，视频帧序列包括：多个帧序列，图像特征序列包括：多个帧序列对应的多个子特征序列，在此情况下，针对图像特征序列进行定长特征的抽取，得到目标视频特征，即S103的具体实现过程，可以包括：S1031-S1033，如下：

S1031、将多个子特征序列中的每个子特征序列进行特征提取，得到多个表征特征。

本申请实施例中，视频检索设备利用训练好的预设定长特征抽取模型，来对每个子特征序列中的图像特征进行特征提取，从而实现了针对待检索视频的视频元素的二次特征抽取，以去除持续出现的视频场景的在图像维度上的特征表征，保留不同视频场景在图像维度上的特征表征。也就是说，本申请实施例中，表征特征保留了子特征序列中不同视频场景的特征，去除了相同视频场景的特征。

可以理解的是，视频检索设备可以通过利用预设定长特征抽取模型中的特征抽取模块，来对每个子特征序列中的图像特征进行特征提取，以得到多个表征特征。

在一些实施例中，特征抽取模块的数量可以多于或等于子特征序列的数量相同，从而由一个特征抽取模块负责一个子特征序列的特征抽取，以同时得到多个表征特征。在另一些实施例中，特征抽取模块的数量还可以少于子特征序列的数量，从而，视频检索设备可以分批次将子特征序列输入特征抽取模块中，从而先后得到多个表征特征。

可以理解的是，特征抽取模块可以由多个卷积层堆叠而成。每个卷积层的卷积核尺寸、步长、填充数量、通道数等，都可以根据实际情况进行设置，本申请在此不作限定。

S1032、基于对多个表征特征在通道维度的统计池化处理，得到定长的池化特征。

统计池化通过预设定长特征抽取模型中的池化模块，对不同的表征特征按照通道维度的特征值进行统计数据的计算，以进行池化，例如，针对同一个通道，得到不同的表征特征分别在该通道的特征值，然后计算该通道的统计数据，从而在得到所有通道的统计数据之后，利用这些统计数据生成池化特征。

需要说明的是，由于在每个通道分别计算统计数据时，所得到的计算结果的长度是与参与计算的特征值的个数无关的，仅与表征特征的通道数有关，而通道数一般是设置好的，在模型的前向计算过程中不会发生改变，因此，本申请实施例中，视频检索设备能得到长度与待检索视频的时长无关的池化特征，即池化特征是定长的。

可以理解的是，统计数据计算可以包括方差计算，也可以包括均值计算，本申请在此不作限定。

S1033、从池化特征中提取出目标视频特征。

视频检索设备在得到池化特征之后，就会利用预设定长特征抽取模型中的特征学习模块，继续对定长池化特征进行特征抽取，所抽取出的特征就是目标视频特征。

可以理解的是，预设定长特征抽取模型中的特征学习模块，可以是由一个或多个全连接层所组成的网络模块，也可以是由一个或多个卷积层组成的网络模块，本申请在此不作限定。

示例性的，图5是本申请实施例提供的定长特征抽取的过程示意图。参见图5，视频检索设备先将视频帧序列5-1各自的子特征序列，即帧序列5-11至帧序列5-1n(每个帧序列包含了3个视频帧)各自对应的子特征序列，分别输入至预设定长特征抽取模型的特征抽取模块5-2，即模块5-21至模块5-2n中，以利用每个特征抽取模块对每个子特征序列进行特征提取，得到表征特征5-3，即特征5-31至特征5-3n。接着，视频检索设备通过池化模块5-4对特征5-31至特征5-3n进行统计池化，得到池化特征5-5，然后再利用特征学习模块5-6对池化特征5-5进行特征提取，得到最终的目标视频特征5-7。

需要说明的是，本申请实施例中的预设定长特征抽取模型中的特征抽取模块、池化模块和特征学习模块的结构，均可以根据实际情况进行设置，本申请在此不作限定。

示例性的，表1提供了预设定长特征抽取模型的结构示意。

表1

其中，卷积层1至卷积层5构成了预设定长特征抽取模型中的特征抽取模块；池化层为预设定长特征抽取模型中的池化模块；全连接层1和全连接层2则组成了预设定长特征抽取模型中的特征学习模块。需要说明的是，表1中的F1代表子特征序列中的图像特征的数量，即帧序列中的视频帧的数量。

本申请实施例中，视频检索设备能够先对图像特征序列中所包括的每个子特征序列进行特征提取，以进行相同视频场景的特征去重，然后再对所得到的多个表征特征在通道维度进行统计池化处理，得到定长的池化特征，最后从池化特征中提取出目标视频特征。如此，就能够得到待检索视频在视频元素上的表征，以便于后续进行相似视频的检索。

在本申请的一些实施例中，基于对多个表征特征在通道维度的统计池化处理，得到定长的池化特征，即S1032的具体实现过程，可以包括：S1032a-S1032d，如下：

S1032a、从多个表征特征中确定出每个通道的多个特征值。

由于通道数是一定的，每个表征特征都有由其在不同通道的特征值所构成的。本申请实施例中，视频检索设备会先将每个表征特征，按照通道进行划分，从而得到每个表征特征在不同通道的特征值，然后将每个通道下的不同表征特征的特征值进行集中起来，就得到了每个通道的多个特征值。

可以理解的是，每个通道的特征值的数量与图像特征序列中包括的子特征序列的数量相同，从而，视频检索设备针对每个通道，能够得到子特征序列的数量的特征值。

示例性的，当视频检索设备针对待检索视频得到了Kvi个帧序列时，也会得到Kvi个子特征序列，从而，就会得到Kvi个表征特征。假设所抽取的表征特征的通道数为512时，那么针对每个通道，就具有Kvi个特征值。

S1032b、对每个通道的多个特征值进行均值和方差的计算，得到每个通道对应的特征均值和特征方差。

S1032c、将每个通道的特征均值进行拼接，得到均值向量，以及将每个通道的特征方差进行拼接，得到方差向量。

视频检索设备针对每个通道的多个特征值，分别计算出均值和方差，从而就得到了每个通道的特征均值和特征方差。然后，视频检索设备将每个通道的特征均值都作为向量分量，在拼接之后就会得到均值向量，同理的，视频检索设备将每个通道的特征方法都作为向量分量，拼接得到方差向量。

S1032d、利用均值向量和方差向量拼接出定长的池化特征。

最后，视频检索设备会对均值向量和方差向量进行拼接，就能够得到池化特征。可以理解的是，视频检索设备可以按照先均值向量，后方差向量的方式，拼接出池化特征，也可以按照先方差向量，后均值向量的方式，拼接出池化特征。需要说明的是，池化特征的长度，是通道数的2倍。

示例性的，通道数为512时，视频检索设备针对每个通道的Kvi个特征值分别计算均值和方差，就会得到512个均值和512个方差，在按照上述方式拼接之后，会得到1*1024的池化特征。

本申请实施例中，视频检索设备会先从多个表征特征中，确定出每个通道的多个特征值，从而针对每个通道的多个特征值进行方差和均值的计算，利用计算出的每个通道的特征均值和特征方差，拼接出定长的池化特征，以便于后续抽取目标视频特征。

在本申请的一些实施例中，此时，对待检索视频进行帧序列的抽取，得到视频帧序列，即S101的具体实现过程，可以包括：S1011-S1012，如下：

S1011、利用预设帧间隔对待检索视频进行切分，得到多个帧序列。

视频检索设备对待检索视频进行帧序列的抽取时，首先是按照预设帧间隔对，将待检索视频切分成多个帧序列，其中，每个帧序列中的视频帧的数量是相同的，从而，针对不同时长的待检索视频，视频检索设备能够得到不同数量的帧序列。

可以理解的是，预设帧间隔可以根据实际情况进行设置，例如，设置为5，或者设置为8等，本申请在此不作限定。

示例性的，当预设帧间隔设置为9时，视频检索设备可以每次从待检索视频中抽取出9个连续的视频帧，作为一个帧序列，直至待检索视频帧抽帧完成时，得到多个帧序列。

在一些实施例中，处于前后相邻的两个帧序列之后，可以有1帧重叠，也可以有多帧重叠，也可以完全不重叠，本申请在此不作限定。

S1012、将多个帧序列确定为视频帧序列。

视频检索设备在得到多个帧序列之后，就会将多个帧序列确定为视频帧序列。

在此情况下，对视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列，即S102的具体实现过程，可以包括：S1021-S1022，如下：

S1021、利用从每个帧序列的视频帧中所抽取出的图像特征，生成每个帧序列对应的子特征序列。

视频检索设备利用训练好的图像特征抽取模型，来对每个帧序列中的视频帧进行特征抽取，然后将每个帧序列中的视频帧的图像特征，按照视频帧的顺序，或者按照随机顺序组成序列，就得到了每个帧序列所对应的子特征序列。

可以理解的是，图像特征抽取模型的结构可以根据实际情况进行设置，本申请在此不作限定。

示例性的，表2提供了图像特征抽取模型的结构示例。

表2

其中，网络模块是指由卷积层和池化层所构成的模块，网络模块中均是由的是3x3的最大池化，池化时的步长为2。组是指在一个网络模块中的最小模块的重复次数，最小模块由3个卷积层构成，在不同的网络模块中，卷积层的设置不尽相同(例如，网络模块1_x的最小模块的3个卷积层分别为卷积核尺寸1x1，64通道的卷积层、卷积核尺寸3x3，64通道的卷积层，以及卷积核尺寸1x1，256通道的卷积层)。

S1022、将多个帧序列对应的多个子特征序列，确定为图像特征序列。

视频检索设备在得到多个子特征序列之后，就会将多个子特征序列集合在一起，得到图像特征序列了。

本申请实施例中，视频检索设备能够对待检索视频进行切分，得到多个帧序列，从而针对各个帧序列中的视频帧分别进行图像特征的提取，就能够得多个帧序列对应的多个子特征序列，从而得到图像特征序列，以便于后续进行定长特征的抽取。

在本申请的一些实施例中，视频库中的视频包括：多个预设视频，在此情况下，依据目标视频特征和视频库中的视频的特征，从视频库中检索出待检索视频对应的相似视频，即S104的具体实现过程，可以包括：S1041-S1042，如下：

S1041、对目标视频特征和多个预设视频的特征进行相似度的计算，得到多个特征相似度。

当视频库中的视频包括多个预设视频时，视频检索设备将目标视频特征和每个预设视频的特征，都进行相似度的计算，从而得到每个预设视频对应的特征相似度。

可以理解的是，视频检索设备可以计算目标视频特征与每个预设视频对应的特征的L2距离，以得到特征相似度。视频检索设备还可以计算目标视频特征与每个预设视频对应的特征的余弦相似度，以得到特征相似度，本申请在此不作限定。

需要说明的是，目标视频特征和多个预设视频的特征应当是相同维度的特征，比如，当目标视频特征和多个预设视频的特征均为特征向量时，那么这些特征向量的长度应当相同；当目标视频特征和多个预设视频的特征均为特征矩阵时，那么这些特征矩阵的尺寸应当相同。

进一步的，多个预设视频的特征也可以是利用预设定长特征抽取模型抽取出来的，如此，计算得到的目标视频特征和多个预设视频的特征对应的特征相似度会更加准确。

S1042、将多个特征相似度中最大的N个特征相似度对应的预设视频，确定为相似视频。

视频检索设备在得到多个特征相似度之后，就会对多个特征相似度进行大小排序，从而明确最大的N个特征相似度，从而，最大的N个特征相似度所对应的预设视频，就是与待检索视频足够相似的视频，视频检索设备就会将这些视频作为待检索视频的相似视频。

可以理解的是，N的取值可以根据实际情况进行设置，例如，设置为1，或者是设置为3等，本申请在此不作限定。

当然，在另一些实施例中，视频检索设备还可以将特征相似度超过相似度阈值的预设视频，确定为待检索视频的相似视频。

本申请实施例中，视频检索设备会先计算出目标视频特征和预设视频的特征之间的特征相似度，然后对这些特征相似度进行排序，以与待检索视频最接近的N个预设视频作为相似视频，从而实现了根据相似度的度量，得到相似视频。

在本申请的一些实施例中，对待检索视频进行帧序列的抽取，得到视频帧序列之前，即在S101之前，该方法还可以包括：S105-S107，如下：

S105、获取训练视频样本，以及训练视频样本对应的标注样本。

需要说明的是，标注样本带有与训练视频样本是否相同或相似的标注标签。

S106、从训练视频样本和标注样本中，挖掘出训练视频样本对应的训练三元组。

可以理解的是，训练三元组中包括了训练视频样本中训练帧序列，训练帧序列的正样本，以及训练帧序列中的负样本。其中，正样本是指与训练帧序列较为类似，或者存在关联的样本，而负样本则是与训练帧序列毫不相关的样本。

S107、利用训练三元组，对初始定长特征抽取模型进行度量训练，得到预设定长特征抽取模型。

本申请实施例中，为了使得预先定长特征抽取模型在前向预测时，使得相类似的视频的特征之间的距离较近(即将相类似的视频的特征映射到特征空间的同一区域中)，使得没有任何相似之处的视频的特征之间的距离较远，视频检索设备会基于度量学习来对初始定长特征抽取模型进行训练，从而使得初始定长特征抽取模型的特征表征映射能力得到优化，得到具有将相类似的视频的特征映射到特征空间的相同区域的特性的预设定长抽取模型。

需要说明的是，预设定长特征抽取模型用于对图像特征序列进行定长特征的提取，即利用本申请实施例所训练出的模型，可以用来实现S103的过程。

本申请实施例中，视频检索设备可以利用从训练视频样本和其对应的标注样本中所挖掘出的训练三元组，来实现对初始定长特征抽取模型的度量训练，从而得到针对不同的视频的特征具有更优秀的映射效果的预设定长特征抽取模型，以便于提高目标视频特征在特征空间上的准确度。

在本申请的一些实施例中，利用训练三元组，对初始定长特征抽取模型进行度量训练，得到预设定长特征抽取模型，即S107的具体实现过程，可以包括：S1071-S1073，如下：

S1071、利用初始定长特征抽取模型，对训练三元组中的训练帧序列、正样本和负样本分别进行定长特征的抽取，得到训练视频特征、正样本特征以及负样本特征。

度量训练是基于度量学习来进行训练，而度量学习则是指通过学习一种映射方式，使得在特征空间中，相同类型的视频的特征的距离较为接近，使得不同类型的视频的特征的距离较远，即同一类型的视频的特征处于同一个区域之中。因此，本申请实施例中，需要先利用初始定长特征抽取模型，分别对训练帧序列、正样本和负训练分别进行特征抽取，以便于后续计算这些特征的距离，从而依据这些特征的距离得到损失值，使得依据损失值来对初始定长特征抽取模型的特征映射能力进行优化。

S1072、利用训练视频特征和正样本特征之间的距离，以及训练视频特征与负样本特征之间的距离，计算出第一训练损失值。

视频检索设备计算出训练视频特征和正样本特征之间的距离，以及训练视频特征和和负样本特征之间的距离，然后将训练视频特征和正样本特征的距离，和训练视频特征和负样本特征的距离相减，再在得到的差值结果上累加预设损失超参数，得到累加结果，最后在累加结果和预设值之间取最大值，取得的最大值就是第一训练损失值。

可以理解的是，训练视频特征和正样本特征之间的距离可以是L1距离，也可以是L2距离，本申请在此不作限定。同理的，训练视频特征和负样本特征之间的距离可以是L1距离，也可以是L2距离，本申请在此不作限定。

示例性的，本申请实施例提供了一种计算第一训练损失值的公式，参见式(1)：

l_tri＝max(‖x_a-x_p‖-‖x_a-x_n‖+α,0) (1)

其中，x_a表示训练视频特征，x_p表示正样本特征，x_n表示负样本特征，‖x_a-x_p‖为训练视频特征和正样本特征之间的距离，‖x_a-x_n‖为训练样本特征和负样本特征之间的距离，α是预设损失超参数，l_tri是计算出的第一训练损失值。

需要说明的是，预设损失超参数是用来控制正样本特征和负样本特征之间的距离的。预设损失超参数(margin)的大小可以根据实际需求进行设置，例如设置为10，或者设置为5等，本申请在此不作限定。

S1073、利用第一训练损失值持续对初始定长特征抽取模型进行参数更新，直至达到训练结束条件，得到预设定长特征抽取模型。

视频检索设备在得到第一训练损失值之和，就会利用第一训练损失值计算出初始定长特征抽取模型中的各个网络层的参数调整量，以对初始定长特征抽取模型的各个网络层的参数进行调整，直到判定结束训练时，就得到了预设定长特征抽取模型。

可以理解的是，训练结束条件可以是训练次数达到了一定次数，例如达到了10000次，还可以是指训练时的第一训练损失值收敛，例如第一训练损失值的震荡幅度小于0.00001等，本申请在此不作限定。

本申请实施例中，视频检索设备先利用初始定长特征抽取模型对训练三元组中的样本进行特征抽取，然后利用训练视频特征和正样本特征之间的距离，训练视频特征与负样本特征之间的距离，得到第一训练损失值，以利用第一训练损失值持续调整初始定长特征抽取模型的参数，在完成训练时，得到预设定长特征抽取模型。

参见图6，图6是本申请实施例提供的视频检索方法的一个可选的流程示意图。在本申请的一些实施例中，训练视频样本包括：多个训练帧序列，标注样本中包括：与多个训练帧序列对应的多个相似帧序列。在此情况下，从训练视频样本和标注样本中，挖掘出训练视频样本对应的训练三元组，即S106的具体实现过程，可以包括：S1061-S1065，如下：

S1061、利用每个训练帧序列和每个训练帧序列对应的相似帧序列，组成每个训练帧序列对应的正样本对，当对多个训练帧序列均确定出对应的正样本对时，得到多个正样本对。

S1062、从多个正样本对中除去每个训练帧序列所对应的正样本对的其他样本对中，抽取出每个训练帧序列对应的负样本集合。

某个训练帧序列对应的正样本对中，囊括了与该训练帧序列相同或相似的相似帧序列，而其他的正样本对中的内容，则未必与该训练帧序列相同或相似。因此，视频检索设备从多个正样本对中，将除去每个训练帧序列所对应的正样本对之外的其他所有的正样本对，即其他样本对中，进行负样本的抽取。由于其他样本对中的正样本对的数量不止一个，从而每个训练帧序列能够得到不止一个负样本，将这些负样本组成候选负样本集合。

可以理解的是，视频检索设备从其他样本对中抽取负样本时，可以是从其他样本对中的训练帧序列和相似帧序列中，任意抽取一张图像，也可以是从训练帧序列和相似帧序列中各抽取一张图像，从而得到负样本。

示例性的，当有bs个训练帧序列时，那么，视频检索设备就是帧对某个训练帧序列x，从剩余的bs-1个正样本中，抽取出x的负样本，从而针对训练帧序列x，得到了包含bs-1个候选负样本的候选负样本集合。

S1063、对每个训练帧序列与候选负样本集合中的候选负样本的特征距离进行计算，得到每个训练帧序列的负样本特征距离集合。

S1064、将负样本特征距离集合中最小的N个负样本特征距离所对应的候选负样本，作为每个训练帧序列的负样本。

视频检索设备针对每个训练帧序列，和其所对应的候选负样本集合中的候选负样本进行特征距离的计算，从而针对每个训练帧序列，就会得到多个负样本特征距离，利用这些负样本特征距离组成负样本特征距离集合。接着，视频检索设备对负样本特征距离集合中的负样本特征距离进行大小比较，并从中选择出最小的N个负样本特征距离，然后将最小的N个负样本特征距离对应的候选负样本，确定为每个训练帧序列的负样本。

可以理解的是，N是正整数。N的取值可以根据实际情况进行设置，本申请在此不作限定。

示例性的，当N设置为10时，视频检索设备就会针对每个训练帧序列，从各个候选负样本中，选择出10个负样本特征距离对应的候选负样本，作为最终的负样本。

S1065、利用每个训练帧序列对应的正样本对，以及每个训练帧序列对应的负样本，生成每个训练帧序列对应的三元组，并将每个训练帧序列对应的三元组时，确定为训练三元组。

视频检索设备将每个训练帧序列对应的正样本对，和一个负样本组成一个三元组，从而针对每个训练帧序列，能够得到负样本数量的三元组。当对所有的训练帧序列都确定出三元组时，视频检索设备就会将这些三元组，统一作为训练三元组。

本申请实施例中，视频检索设备会先将每个训练帧序列和其对应的相似帧序列组成正样本对，然后从其他正样本对中挖掘出每个训练帧序列的候选负样本集合，接着基于负样本特征距离从候选负样本集合中筛选出每个训练帧序列对应的负样本，利用将正样本对和负样本结合为每个训练帧序列对应的三元组，从而得到训练三元组，以便于后续利用训练三元组进行训练。

在本申请的一些实施例中，获取训练视频样本，以及训练视频样本对应的标注样本，即在S105之后，该方法还可以包括：S108-S110，如下：

S108、利用待训练相似度度量模型，对从训练视频样本中所抽取出的训练视频特征和从标注样本中所抽取出的标注样本特征进行相似度计算，得到训练相似度。

需要说明的是，本申请实施例中的待训练相似度度量模型，可以是在参数初始化之后，还未经过训练的初始相似度度量模型，还可以是对初始相似度度量模型预训练所得到的相似度度量模型，本申请在此不作限定。

可以理解的是，视频检索设备可以利用训练好的预设定长特征抽取模型，或者是初始定长特征抽取模型，乃至是其他的特征抽取模型，从训练视频样本和标注样本中，分别抽取出视频训练特征和标注样本特征，本申请在此不作限定。

S109、依据训练视频样本和标注样本之间的标注标签，以及训练相似度，计算出第二训练损失值。

标注标签标注出了训练视频样本和标注样本是否相同或者相似，将相同或相似用1表示，将不相同或不相似用0表示，如此，视频检索设备可以基于计算出的训练相似度和标注标签，计算出第二训练损失值了。

S110、利用第二训练损失值对待训练相似度度量模型进行参数更新，直至训练结束时，得到预设相似度度量模型。

需要说明的是，预设相似度度量模型用于对目标视频特征和多个预设视频的特征进行相似度的计算，从而得到多个特征相似度。

可以理解的是，视频检索设备可以在判定第二训练损失值在预设范围内震荡，或者是训练时的迭代次数达到次数阈值时，判定训练结束。

示例性的，图7是本申请实施例提供的对待训练相似度度量模型的训练过程示意图。参见图7，视频检索设备将训练视频样本7-1和标注样本7-2输入到预设定长特征抽取模型7-3中，以进行定长特征的抽取7-4，得到定长的训练视频特征7-5和标注样本特征7-6，然后再将训练视频特征7-5和标注样本特征7-6输入待训练相似度度量模型7-7中，进行相似度的计算，结合所得到的训练相似度与相似度标签7-8，计算出第二训练损失值7-9，然后基于将第二训练损失值进行反向传播7-10，对待训练相似度度量模型7-7的参数进行调整，以得到预设相似度度量模型。

本申请实施例中，视频检索设备能够利用待训练相似度度量模型预测出抽取出的训练视频特征和标注样本特征的训练相似度，结合训练相似度和标注标签，得到第二训练损失值，再利用第二训练损失值对待训练相似度度量模型的参数进行更新，得到最终的预设相似度度量模型，以便于后续对目标视频特征和多个预设视频的特征的相似度进行计算。

在本申请的一些实施例中，利用待训练相似度度量模型，对从训练视频样本中所抽取出的训练视频特征和从标注样本中所抽取出的标注样本特征进行相似度计算，得到训练相似度之前，即在S108之前，该方法还可以包括：S111-S114，如下：

S111、获取第一视频，以及与第一视频不同的第二视频。

需要说明的是，第一视频和第二视频均未经过相似度的标注，也就是说，本申请实施例中，是利用没有经过标注的视频数据来自动生成标注数据的。这是因为，在训练时往往需要大量的标注数据，但是标注数据的数量是有限的，而未标注数据的数量往往较多。因此，采用基于未标注数据来自动生成标注数据，即使标注数据并不一定十分准确，但是以足以应对预训练时的过拟合等问题，在后续利用少量的标注数据进行正式训练，同样能够保证训练出的预设相似度度量模型的性能。

S112、从第一视频中，构造带有标注相似度的预训练正样本对，以及从第二视频中，选取出预训练负样本。

预训练正样本对中包含了预训练时使用的视频帧，以及与该视频帧相似的视频帧，而负样本则是与预训练时使用的视频帧完全不同的视频帧。因此，本申请实施例中，视频检索设备从同一个的第一视频中，构造预训练正样本对(包括最先确定出的锚点样本和依据锚点样本所确定出的正样本)，且预训练正样本对是带有标注相似度的。其中，标注相似度表征了预训练正样本对中的两个样本的相似程度。同时，由于第一视频和第二视频存在不同，视频检索设备会从第二视频中筛选出一些视频帧，作为预训练负样本。

一般，要求预训练正样本对中的两个样本具有相似之处，但又不完全相同。因此，本申请实施例中，视频检索设备可以通过从第一视频中，筛选出具有交集场景，但是所包含的场景又不完全相同的两个视频帧序列，组成预训练正样本对。这时，视频检索设备可以将这两个视频帧序列之间重复的视频帧的数量占据这两个视频帧序列的视频帧总数量的比值，确定为预训练正样本对的标注相似度。

示例性的，图8是本申请实施例提供的预训练正样本对的示意图。视频检索设备针对从第一视频中抽取出的视频帧序列8-1，寻找到与其具有相同视频帧，但是又具有不相同的视频帧的两个不同的视频帧序列，分别为视频帧序列8-2和视频帧序列8-3。其中，视频帧序列8-1与视频帧序列8-2之间有2帧重复，而视频帧序列8-1与视频帧序列8-3之间仅有1帧重复，因此，由视频帧序列8-1与视频帧序列8-2所组成的预训练正样本对的标注相似度，大于由视频帧序列8-1与视频帧序列8-3所组成的预训练正样本对的标注相似度。

可以理解的是，视频检索设备可以从第二视频中，任意抽取一些连续的视频帧，或者是不连续的视频帧，作为预训练负样本，也可以是将所抽取出的视频帧进行截取，将截取出来的图像所组成的图像序列，作为预训练负样本，本申请实施例在此不作限定。

示例性的，图9是本申请实施例提供的从第二视频中生成预训练负样本的示意图。第二视频与第一视频9-1的画面内容并不相同，视频检索设备可以从将第二视频的一些视频帧9-2作为预训练负样本9-3，或者是将这些视频帧进行截取，得到图像序列9-4，作为预训练负样本9-5。

示例性的，图10是本申请实施例提供的预训练正样本对和预训练负样本的对比示意图。从图10可知，预训练正样本对中的锚点样本10-1，是从第一视频10-A中选出的，而锚点样本10-1对应的正样本10-2和正样本10-3，则都是第一视频中与锚点样本10-1存在相同的视频帧，但是视频帧却又不完全相同。预训练负样本10-4则是从第二视频10-B中得到的，与锚点样本10-1完全不同。

S113、将预训练正样本对和预训练负样本，确定为预训练三元组。

S114、利用预训练三元组，对参数初始化得到的初始相似度度量模型进行预训练，得到待训练相似度度量模型。

视频检索设备将预训练正样本对和预训练负样本，组成预训练三元组，然后利用预训练三元组对初始相似度度量模型进行预训练，在完成预训练之后，就得到了待训练相似度度量模型。

可以理解的是，视频检索设备可以采用方差为0.01，均值为0的高斯分布来进行参数初始化，以得到初始相似度度量模型。在预训练过程中，可以将学习率设置为0.05，将每个视频遍历一次作为一个训练阶段(epoch)，在每5个eoch后将学习率设置为原来的一半。

在预训练过程中，视频检索设备利用预训练三元组中的预训练正样本对中的两个视频帧序列各自的特征对之间的距离，以及预训练正样本对锚点样本(即选择相似视频帧时的依据，最先选择出来的视频帧序列)与预训练负样本序列之间的距离，计算出三元距离损失值，然后利用三元距离损失值来对初始相似度度量模型的参数进行更新，如此，所得到的待训练相似度度量模型，能够具有对两个不同视频的相似度进行度量的能力，从而最终训练得到的预设相似度度量模型，也能够对相似度进行度量，以便于在预测时，得到具体的特征相似度，来进行排序。

在一些实施例中，视频检索设备可以通过预设定长特征抽取模型，来抽取预训练三元组中的预训练正样本对，以及预训练负样本序列的特征，基于度量学习来对初始相似度度量模型进行预训练，以使得利用初始相似度度量模型来对这些特征进行相似度的度量所得的结果，与标注相似度(显然预训练负样本序列和锚点视频帧序列之间的相似度是小于相似度阈值)的大小逐渐接近。

示例性的，图11是本申请实施例提供的对初始相似度度量模型进行预训练的示意图。视频检索设备将锚点样本11-1输入进预设定长特征抽取模型11-2(包括特征抽取模块、池化模块和特征学习模块)，将正样本11-3和预训练负样本序列11-4输入进预设定长特征抽取模块11-5(结构与预设定长特征抽取模型11-2相同)，以分别得到定长的特征，然后将这些定长的特征输入到初始相似度度量模型11-6，接着利用这些定长的特征进行三元组损失11-7，来进行反向传播，以调整初始相似度度量模型11-6的参数。其中，正样本包括图像序列11-31、图像序列11-32和图像序列11-33，锚点样本11-1与这三个图像序列的标注相似度分别为a1、a2和a3。针对预训练负样本序列11-4，视频检索设备可以计算出其与锚点视频帧序列11-1的相似度值a4(一般小于相似度阈值)，也可以直接将相似度a4确定为0。预设定长特征抽取模型11-2和预设定长特征抽取模型11-5参数共享。

本申请实施例中，视频检索设备能够从第一视频中构造出带有标注相似度的预训练正样本对，并从第二视频中选取出预训练负样本，然后利用预训练正样本对和预训练负样本组成预训练三元组，对初始相似度度量模型进行训练。如此，能够使得最终的预设相似度度量模型具备对相似度度量的能力。

在本申请的一些实施例中，从第一视频中，构造带有标注相似度的预训练正样本对，即S112的具体实现过程，可以包括：S1121-S1123，如下：

S1121、从第一视频中抽取出锚点视频帧序列。

视频检索设备可以从第一视频的任意一个时刻，按照每秒抽指定数量的视频帧的方式，从第一视频中抽取视频帧，经过预设时长之后抽帧结束，并将抽取出来的视频帧组成锚点视频帧序列。视频检索设备还可以从第一视频的任意一个时刻开始，连续抽取一定数量的视频帧，得到锚点视频帧序列。

可以理解的是，指定数量可以根据实际情况进行设置，例如设置为3，设置为5等。预设时长也可以根据实际情况进行设置，例如设置为3s，设置为10s等，本申请在此不做限定。

示例性的，视频检索设备可以从t0时刻开始向后取dt(预设时长)秒的时间段，来进行抽帧，在每秒之内，视频检索设备抽取3帧，从而得到视频帧数量为3dt帧的锚点视频帧序列。

S1122、从锚点视频帧序列中截取出预设数量的截取图像序列。

视频检索设备对锚点视频帧序列的每个视频帧中，进行图像画面的截取，针对每个视频帧总共截取出预设数量的截取图像，并将同一位置的截取图像组成序列，得到截图图像序列。如此，视频检索设备就能够得到预设数量的截图图像序列。

需要说明的是，视频检索设备可以从每个视频帧中，截取出任意区域的图像，作为截取图像，也可以是按照左上、右上、左下、右下等相互不重叠的方式，从每个视频帧中截取出截取图像，本申请在此不作限定。

可以理解的是，预设数量可以根据实际情况进行设置，例如设置为4，即针对每个视频帧截取出4张截取图像，还可以设置为2、5等，本申请在此不作限定。

S1123、依据截取图像序列中的截取图像的面积、锚点视频帧序列中的视频帧的面积，以及预设损失超参数，计算出包含锚点视频帧序列和截取图像序列的预训练正样本对的标注相似度，得到带有标注相似度的预训练正样本对。

视频检索设备在得到截取图像序列之后，就会针对每个截取图像序列，利用其内部的截取图像的面积、锚点视频帧序列中的视频帧的面积，以及预设损失超参数，计算出每个截取图像序列与锚点视频帧序列与截取图像序列之间的相似度。最后，视频检索设备将锚点视频帧序列和截取图像序列确定为预训练正样本对，从而，锚点视频帧序列和截取图像序列之间的相似度，就是预训练正样本对的标注相似度。

可以理解的是，视频检索设备可以将截取图像的面积，与锚点视频帧序列中的视频帧的面积和预设损失超参数之和的比值，确定为标注相似度，也可以将预设损失超参数，与截取图像的面积和视频帧的面积的比值之和，确定为标注相似度，本申请在此不作限定。

示例性的，当预设数量为4时，那么视频检索设备就得到了4组截取图像序列，此时，若预设损失超参数为10，那么，这4组截取图像序列各自对应的标注相似度可以分别表示为：area1/areai*10+10，area2/areai*10+10，area3/areai*10+10，area4/areai*10+10。其中，areai是锚点视频帧序列中的视频帧的面积，area1至area4分别是4组截取图像序列中的截取图像的面积。

本申请实施例中，视频检索设备可以先从第一视频中抽取出一些视频帧，组成锚点视频帧序列，然后从锚点视频帧序列中抽取出截取图像序列，接着基于锚点视频帧序列中的视频帧的面积和截取图像序列中的截取图像的面积，计算出标注相似度，以便于后续利用带有标注相似度的预训练正样本来对初始相似度度量模型进行度量学习。

在本申请的一些实施例中，从第一视频中抽取出锚点视频帧序列之后，将预训练正样本对和预训练负样本，确定为预训练三元组之前，即在S1121之后，S113之前，该方法还可以包括：

S1124、对第一视频进行分镜处理，得到多个分镜片段，并将锚点视频帧序列所对应分镜片段之外的分镜片段，确定为候选分镜片段。

视频检索设备将第一视频划分成多个不同的分镜片段，其中，每个分镜片段中的视频帧的相似程度大于相似度阈值，即每个分镜片段中的视频帧都较为相似。由于锚点视频帧序列是从第一视频的一段时间内抽取出的，因此，处于锚点视频帧序列对应的分镜片段之外的分镜片段，是与锚点视频帧序列中的画面具有类似之处，但又不完全相同的，适合生成正样本。因此，视频检索设备会将与锚点视频帧序列所对应的分镜片段不同的其他分镜片段，确定为生成锚点视频帧序列(即上述的锚点样本)的正样本的候选分镜片段。

可以理解的是，视频检索设备可以利用常用的分镜工具(例如pyscenedete ct工具)来对第一视频进行分镜，也可以利用人工智能技术，检测第一视频中的分镜点，然后在分镜点处进行切分，以实现对第一视频的分镜。

S1125、对每个分镜片段和相邻的分镜片段的距离进行平均处理，得到距离均值。

视频检索设备针对每个分镜片段，确定出与其相邻的分镜片段。然后，视频检索设备计算每个分镜片段的分镜中心特征，以及相邻的分镜片段的分镜中心特征，并对每个分镜片段的分镜中心特征和相邻的分镜片段的分镜中心特征进行距离计算，从而能够得到每个分镜片段与其相邻的分镜片段的距离。最后，视频检索设备针对每个分镜片段与其相邻的分镜片段的距离求均值，就得到了距离均值。

需要说明的是，分镜片段的分镜中心特征，可以由分镜片段中的每个图像特征求平均所得到。距离均值用于区分图像特征是否属于不同的分镜片段，即图像特征某个分镜片段的分镜中心特征的距离小于距离均值时，那么就能判定图像特征，也就是该图像特征所对应的视频帧，属于该分镜片段。

可以理解的是，相邻的分镜片段，可以是指每个分镜片段的前一个分镜片段，也可以是指每个分镜片段的后一个分镜片段，还可以是指前后两个分镜片段。

示例性的，假设共得到了K个分镜片段，且当相邻的分镜片段是指后一个分镜片段时，视频检索设备针对每个分镜片段，计算其与后一个分镜片段的距离(在最后一个时则不计算)，就会得到K-1距离，然后，视频检索设备将这K-1个距离求均值，就得到了距离均值Dsd。

S1126、当候选分镜片段的第一分镜中心特征与锚点视频帧序列对应的分镜片段的第二分镜中心特征的距离，大于距离均值时，从候选分镜片段的视频帧中，筛选出目标正样本。

视频检索设备针对候选分镜片段计算中心特征，得到第一分镜中心特征，同时对锚点视频帧序列对应的分配片段计算中心特征，将所得到的特征记为第二分镜中心特征。接着，视频检索设备会计算第一分镜中心特征与第二分镜中心特征之间的距离，并将计算所得到的距离与距离均值进行比较，从而在判断出第一分镜中心特征与第二分镜中心特征之间的距离，大于距离均值时，可从候选分镜片段中为锚点视频帧序列筛选出对应的目标正样本。

需要说明的是，视频检索设备可以从候选分镜片段的视频帧中，随机选择一定数量的视频帧，作为目标正样本，也可以选择候选分镜片段的特定视频帧，例如奇数帧，作为目标正样本，本申请在此不作限定。

S1127、依据锚点视频帧序列所对应的分镜片段的数量和目标正样本所对应的分镜片段的数量，计算出包含锚点视频帧序列和目标正样本的预训练正样本对的标注相似度，，得到带有标注相似度的预训练正样本对。

锚点视频帧序列所对应的分镜片段的数量，是指到了锚点视频帧序列中的视频帧所涉及到的分镜片段的数量，例如，锚点视频帧序列中的视频帧由两个不同的分镜片段提供时，那么锚点视频帧序列所对应的分镜片段的数量就为2。类似的，目标正样本所对应的分镜片段的数量，就是目标正样本所涉及到的分镜片段的数量。视频检索设备可以将锚点视频帧序列所对应的分镜片段的数量，与锚点视频帧序列所对应的分镜片段的数量和目标正样本所对应的分镜片段的数量的比值，作为标注相似度。

示例性的，当锚点视频帧序列所对应的分镜片段的数量为k1，目标正样本所对应的分镜片段的数量为k2时，那么，标注相似度就可以为k1/(k1+k2)。

当然，在一些实施例中，视频检索设备还可以利用锚点视频帧序列所对应的分镜片段的数量，与候选分镜片段的数量的比值，确定为标注相似度。

在本申请的一些实施例中，从第二视频中，选取出预训练负样本，即S112的具体实现过程，还可以包括：

S1128、当第二视频进行分镜所得到的其他分镜片段的第三分镜中心特征，与预训练正样本对的分镜片段的分镜中心特征的距离，大于距离均值时，从第二视频中选取出预训练负样本。

视频检索设备对第二视频进行分镜，得到其他分镜片段，然后计算其他分镜片段的第三分镜中心特征，针对第三分镜中心特征，以及预训练正样本对所涉及到的分镜中心的分镜中心特征进行距离计算，将计算得到的距离与距离均值进行比较。当第三分镜中心特征大于预训练正样本对的分镜中心的分镜中心特征的距离大于距离均值时，视频检索设备就可以从第二视频中任意选择出视频帧，作为预训练负样本，或者是将第二视频帧中的特定视频帧，例如最后一帧、第一帧等，作为预训负样本。如此，视频检索设备就得到的预训练负样本。

本申请实施例中，视频检索设备可以先对第一视频进行分镜，然后基于第一视频的分镜片段来筛选出预训练正样本对，再对第二视频进行分镜，基于第二视频的分镜片段得到预训练负样本。如此，能够利用场景之间的差异，来得到预训练正样本对和预训练负样本。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是在服务器对混剪视频(待检索视频)进行类似视频(相似视频)的检索排序的场景下实现的。

服务器通过元素抽取模型(预设定长特征抽取模型)中的变长序列特征学习、统计池化等处理，产生定长的视频元素表征embedding(目标视频特征)，然后进行检索。在预训练时，则借助度量学习(度量训练)的方法，进行视频表征的相似度学习。在预训练之前，根据相同、不同视频裁剪方法，对视频进行裁剪，以进行相似度的度量，使得相似度模型(预设相似度度量模型)能够具备相对排序的能力。

首先，服务器要先进行变长视频处理。服务器对混剪视频Vi，首先每F1场抽取子视频帧序列(利用预设帧间隔对待检索视频进行切分)，在抽取时，可以前后子视频帧序列间重叠1帧、不重叠、重叠多帧。假设得到Kvi个子视频序列(多个帧序列)，将这些子视频序列对应的图像特征序列输入进元素抽取模型。

服务器针对元素抽取模型的第一个卷积层的输入为F1个连续图像帧的embedding(子特征序列)，其中，F1是embedding的长度，是元素抽取模型的抽取模块(预设定长特征抽取模型的特征提取模块)每次处理的帧长度。若每次处理9帧，则输入为9*2048(1*2045为输出的单个视频帧的embedding)。输入经过表1所示出的模型的卷积层1至卷积层5的学习之后，得到9*512的特征空间(1帧得到1*512)。在卷积过程中，若不增加padding(填充量)，则每次卷积之后，输出都会收窄2个元素。若是遇到视频内容较多的情况，则可以将特征维度扩大，例如扩大到2048。假设将9*2048的特征看作是不同时间下2048个图像特征空间中的图像表征值，那么，元素抽取模型通过多层卷积对该信息进行二次抽取，就是去除持续出现的特征表征(同一视频场景的图像维度特征)，保留不相同的表征(前后场景不相同的图像维度表征)。

在元素抽取模型的pooling层(池化模块)，不同于一般的均值或者最大值吃出，服务器首先将输出的Kvi个子视频序列个9*512特征向量(多个表征特征)进行统计，即在512个通道，均分布有Kvi个特征值(每个通道的多个特征值)。在池化处理时，服务器对每个通道，求得Kvi个特征值的均值和方差，最终得到512个均值mean_vi和512个方差std_vi(每个通道对应的特征均值和特征方差)，表示该视频VI在512个通道下的特征均值向量(均值向量)和特征方差向量(方差向量)。然后，服务器将其拼接，得到1*1024的[mean_vi，std_vi](利用均值向量和方差向量拼接出定长的池化特征)。至此，产生了定长的视频整体元素描述向量，该定长向量仅取决于通道数量，与输入视频的长度无关。

对于上述产生的1*1024定长特征，经过由两个全连接层组成的定长网络(特征学习模块)学习视频Vi最终的embedding表征(从池化特征中提取出目标视频特征)，以便后续进行匹配。

在模型训练过程中，服务器先对表1所示的模型和相似度度量模型进行参数初始化，同时准备视频相似样本对(训练视频样本，以及训练视频样本对应的标注样本)。本方案采用度量学习，以相似样本对作为输入，在每个batch的样本(bs)对中进行挖掘得到三元组：对于某个样本x(每个训练帧序列)，从剩余的bs-1个样本对(多个正样本对中除去每个训练帧序列所对应的正样本对的其他样本对)，每对随机选择一张图像(抽取出每个训练帧序列对应的候选负样本集合)，与样本x计算距离，按照距离从小到大排序(负样本特征距离集合)，取前10个(最小的N个负样本特征距离)对应的样本作为负样本，与x中的正样本对组成三元组，故每个样本产生10个三元组，整个batch得到10*bs个三元组。

服务器对全量M个样本对，每bs个样本作为一个训练批次，共M/bs个匹配，每个批次进行模型前向计算并参数更新，当完成了M/bs次更新后，完成一个epoch，共进行K个epoch，或者连续10个epoch的平均loss没有下降(达到训练结束条件)时，训练结束，得到元素抽取模型。

模型前向时，服务器调用初始模型(初始定长特征抽取模型)对输入的图像进行前向计算得到预测结果em(训练视频特征)，将em计算三元组损失(tripletloss)，计算方式见式(1)。模型参数更新时，采用loss进行梯度候选计算，得到模型全部参数的更新至，并更新参数。服务器采用0.005的学习率，每轮学习由loss回传得到梯度后，根据学习率更新网络权重。

相似度排序模型需要经过(预设相似度度量模型)预训练和正式训练。预训练时，服务器采用先验知识得到相似度，不需要人工标注视频对参与训练，从而节省标注成本。

首先，服务器要进行正负样本对(a，p，n)的准备。

服务器可以通过裁剪产生等长正样本对(预训练正样本对)。此时，针对所有视频，随机抽取batch个本次学习的视频sb，对batch中的每个视频分别以随机时刻t0开始，向后dt时长，确定出抽取视频帧的时间段，每帧均匀抽取3帧，共9帧图像作为正样本对中的a样本(从第一视频中抽取出锚点视频帧序列)。假设a样本的面积为areai，通过在视频画面同一位置裁剪得到视频中的某个位置的序列作为正样本子片段(截取图像序列)，共按照中心面积area1裁剪、右下面积area2裁剪、左上面积area3裁剪和左上面积area4裁剪，然后根据面积不同产生不同的相似度标注(标注相似度)。

服务器可以通过分镜得到不等长正样本对。针对sb中的每个视频i进行分镜，每个分镜分别计算中心特征。对前后两个分镜的分镜中心计算距离(每个分镜片段和其相邻的分镜片段的距离)，假设有k个分镜，则共有k-1个分镜的距离，对k-1个距离计算平均值Dsd(距离均值)。

对第一次采集的a样本时间(t0到t0+dt时刻)所属的ka个分镜，随机抽取k1个分镜(锚点视频帧序列对应的分镜)共x1帧图像(每个分镜随机选择图像)组成S1，同时计算t0到t0+dt各个分镜的分镜中心embedding，记为Ae m(第二分镜中心特征)。

从视频i的0到t0或t0+dt到末尾(锚点视频帧序列所对应的分镜片段之外的分镜片段)，任意选择一个时间段作为p样本时间段(候选分镜片段)。从上述时间段的多个分镜计算分镜中心embedd，记为P0em(第一分镜中心特征)。计算P0em与Aem的距离，当某个候选分镜的P0em与Aem的距离大于Dsd，则保留该候选分镜，得到可用的p候选分镜。

接着，从p候选分镜中选择k2个分镜共x2张图像(从候选分镜片段的视频帧中，筛选出目标正样本)，得到S2。拼接S1和S2，得到[S1,S2](预训练正样本对)。

服务器可以利用k1/(k1+k2)来计算相似度。设置p样本和a样本的margin为k1/Ka*10+10。设置p样本与a样本的margin为k1/Ka，对于极端情况，当p样本完全来自archor时，margin为20，当p样本中国不含archor时，margin为10，均满足目标任务loss margin＝10的要求。

生成负样本时，假设上述每个视频产生10个正样本对，则共有batch*10个正样本对。对于sb产生的所有正样本对i，从非同一视频(第二视频)产生负样本。计算不同视频的分镜的分镜中心embedding(其他分镜片段的第三分镜中心特征)，当么某个视频的分镜中的embedding与i样本的所有分镜中心embedding(预训练正样本对的分镜片段的分镜中心特征)距离大于Dsd时，从该视频中获取到负样本(从第二视频中选取出预训练负样本)，将选择出的负样本和上述正样本对组成三元组(将预训练正样本对和预训练负样本，确定为预训练三元组)。

在预训练时，网络参数采用方差为0.01，均值为0的高斯分布进行初始化，lr设置为0.05，所有视频遍历一次作为一个epoch，每5个epoch后lr变为原来的一半。预训练利用三元组，输入到模型中并计算三元组损失，然后更新网络参数，训练指导达到100epoch时停止，预训练得到的模型(待训练相似度度量模型)用于正式模型训练的参数初始化。

当然，在本申请中，产生预训练的正负样本时，可以根据视频帧中是否有出现特定物体，来进行针对性裁剪，即根据卷积层输出的特征图通过激活之后，依据激活值判断某个位置是否有目标，在有目标时以该位置为中心，截取出wi*hi的图像，作为p样本等。

通过上述方式，无需进行繁琐的时序逻辑分析，就能够为混剪视频确定出对应的相似视频，提高了视频检索的有效性；并且，通过使用度量学习、进行利用不同裁剪方式进行相似度的标注来进行训练，所得到的模型还能够衡量出具体的相似程度，以便对相似度的排序。

下面继续说明本申请实施例提供的视频检索装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的视频检索装置555中的软件模块可以包括：

序列抽取模块5551，用于对待检索视频进行帧序列的抽取，得到视频帧序列；

图像特征提取模块5552，用于对所述视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列；

定长特征提取模块5553，用于针对所述图像特征序列进行定长特征的抽取，得到目标视频特征，其中，所述目标视频特征是所述待检索视频在视频元素上的表征；

视频检索模块5554，用于依据所述目标视频特征和视频库中的视频的特征，从所述视频库中检索出所述待检索视频对应的相似视频。

所述定长特征提取模块5553，还用于将所述多个子特征序列中的每个子特征序列进行特征提取，得到多个表征特征；其中，表征特征保留了所述子特征序列中不同视频场景的特征，去除了相同视频场景的特征；基于对所述多个表征特征在通道维度的统计池化处理，得到定长的池化特征；从所述池化特征中提取出所述目标视频特征。

在本申请的一些实施例中，所述定长特征提取模块5553，还用于从所述多个表征特征中确定出每个通道的多个特征值；对所述每个通道的所述多个特征值进行均值和方差的计算，得到所述每个通道对应的特征均值和特征方差；将所述每个通道的特征均值进行拼接，得到均值向量，以及将所述每个通道的特征方差进行拼接，得到方差向量；利用所述均值向量和所述方差向量拼接出定长的所述池化特征。

在本申请的一些实施例中，所述序列抽取模块5551，还用于利用预设帧间隔对所述待检索视频进行切分，得到多个帧序列；将所述多个帧序列确定为所述视频帧序列；

所述图像特征提取模块5552，还用于利用从每个帧序列的视频帧中所抽取出的图像特征，生成所述每个帧序列对应的子特征序列；将所述多个帧序列对应的多个子特征序列，确定为所述图像特征序列。

在本申请的一些实施例中，所述视频库中的视频包括：多个预设视频；所述视频检索模块5554，还用于对所述目标视频特征和所述多个预设视频的特征进行相似度的计算，得到多个特征相似度；将所述多个特征相似度中最大的N个特征相似度对应的预设视频，确定为所述相似视频。

在本申请的一些实施例中，所述视频检索装置555还包括：模型训练模块5555；

所述模型训练模块5555，用于获取训练视频样本，以及所述训练视频样本对应的标注样本；所述标注样本带有与所述训练视频样本是否相同或相似的标注标签；从所述训练视频样本和所述标注样本中，挖掘出所述训练视频样本对应的训练三元组；利用所述训练三元组，对初始定长特征抽取模型进行度量训练，得到预设定长特征抽取模型，所述预设定长特征抽取模型用于对所述图像特征序列进行定长特征的提取。

在本申请的一些实施例中，所述模型训练模块5555，还用于利用所述初始定长特征抽取模型，对所述训练三元组中的训练帧序列、正样本和负样本分别进行定长特征的抽取，得到训练视频特征、正样本特征以及负样本特征；利用所述训练视频特征和所述正样本特征之间的距离，以及所述训练视频特征与所述负样本特征之间的距离，计算出第一训练损失值；利用所述第一训练损失值持续对所述初始定长特征抽取模型进行参数更新，直至达到训练结束条件，得到所述预设定长特征抽取模型。

所述模型训练模块5555，还用于利用每个训练帧序列和所述每个训练帧序列对应的相似帧序列，组成所述每个训练帧序列对应的正样本对，当对所述多个训练帧序列均确定出对应的正样本对时，得到多个正样本对；从所述多个正样本对中除去所述每个训练帧序列所对应的正样本对的其他样本对中，抽取出所述每个训练帧序列对应的候选负样本集合；对所述每个训练帧序列与所述候选负样本集合中的候选负样本的特征距离进行计算，得到所述每个训练帧序列的负样本特征距离集合；将所述负样本特征距离集合中最小的N个负样本特征距离所对应的候选负样本，作为所述每个训练帧序列的负样本；其中，N是正整数；利用所述每个训练帧序列对应的正样本对，以及所述每个训练帧序列对应的负样本，生成所述每个训练帧序列对应的三元组，并将所述每个训练帧序列对应的三元组时，确定为所述训练三元组。

在本申请的一些实施例中，所述模型训练模块5555，还用于利用待训练相似度度量模型，对从所述训练视频样本中所抽取出的训练视频特征和从所述标注样本中所抽取出的标注样本特征进行相似度计算，得到训练相似度；依据所述训练视频样本和所述标注样本之间的标注标签，以及所述训练相似度，计算出第二训练损失值；利用所述第二训练损失值对所述待训练相似度度量模型进行参数更新，直至训练结束时，得到预设相似度度量模型，所述预设相似度度量模型用于对所述目标视频特征和多个预设视频的特征进行相似度的计算。

在本申请的一些实施例中，所述模型训练模块5555，还用于获取第一视频，以及与所述第一视频不同的第二视频；其中，所述第一视频和所述第二视频均未经过相似度的标注；从所述第一视频中，构造带有标注相似度的预训练正样本对，以及从所述第二视频中，选取出预训练负样本；将所述预训练正样本对和所述预训练负样本，确定为预训练三元组；利用所述预训练三元组，对参数初始化得到的初始相似度度量模型进行预训练，得到所述待训练相似度度量模型。

在本申请的一些实施例中，所述模型训练模块5555，还用于从所述第一视频中抽取出锚点视频帧序列；从所述锚点视频帧序列中截取出预设数量的截取图像序列；依据所述截取图像序列中的截取图像的面积、所述锚点视频帧序列中的视频帧的面积，以及预设损失超参数，计算出包含所述锚点视频帧序列和所述截取图像序列的所述预训练正样本对的所述标注相似度，得到带有所述标注相似度的所述预训练正样本对。

在本申请的一些实施例中，所述模型训练模块5555，还用于对所述第一视频进行分镜处理，得到多个分镜片段，并将所述锚点视频帧序列所对应分镜片段之外的分镜片段，确定为候选分镜片段；其中，每个分镜片段中的视频帧的相似程度大于相似度阈值；对所述每个分镜片段和其相邻的分镜片段的距离进行平均处理，得到距离均值；当所述候选分镜片段的第一分镜中心特征与所述锚点视频帧序列对应的分镜片段的第二分镜中心特征的距离，大于所述距离均值时，从所述候选分镜片段的视频帧中，筛选出目标正样本；依据所述锚点视频帧序列所对应的分镜片段的数量和所述目标正样本所对应的分镜片段的数量，计算出包含所述锚点视频帧序列和所述目标正样本的所述预训练正样本对的所述标注相似度，得到带有所述标注相似度的所述预训练正样本对；

所述模型训练模块5555，还用于当所述第二视频进行分镜所得到的其他分镜片段的第三分镜中心特征，与所述预训练正样本对的分镜片段的分镜中心特征的距离，均大于所述距离均值时，从所述第二视频中选取出所述预训练负样本。

综上所述，通过本申请实施例，能够先对待检索视频进行帧序列的抽取，得到视频帧序列，接着对视频帧序列中的视频帧抽取图像特征，从而得到图像特征序列，然后从图像特征序列中抽取出定长的目标视频特征，以得到待检索视频在视频元素上的表征，最后基于目标视频特征，即基于待检索视频在视频元素上的表征，从视频库中检索相似视频。如此，能够实现基于视频元素来判断视频是否相似，无需进行时序逻辑判断，从而无论是针对时序正常的一般视频、时序混乱的混剪视频，还是变长的视频，均能够有效地进行视频检索，最终提高了视频检索的有效程度。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。视频检索设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该视频检索设备执行本申请实施例上述的视频检索方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行视频检索指令，当可执行视频检索指令被处理器执行时，将引起处理器执行本申请实施例提供的视频检索方法，例如，如图3示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行视频检索指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行视频检索指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行视频检索指令可被部署为在一个视频检索设备上执行，或者在位于一个地点的多个视频检索设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个视频检索设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频检索方法，其特征在于，包括：

对待检索视频进行帧序列的抽取，得到视频帧序列；

2.根据权利要求1所述的方法，其特征在于，所述视频帧序列包括：多个帧序列，所述图像特征序列包括：所述多个帧序列对应的多个子特征序列；

所述针对所述图像特征序列进行定长特征的抽取，得到目标视频特征，包括：

将所述多个子特征序列中的每个子特征序列进行特征提取，得到多个表征特征；其中，表征特征保留了所述子特征序列中不同视频场景的特征，去除了相同视频场景的特征；

基于对所述多个表征特征在通道维度的统计池化处理，得到定长的池化特征；

从所述池化特征中提取出所述目标视频特征。

3.根据权利要求2所述的方法，其特征在于，所述基于对所述多个表征特征在通道维度的统计池化处理，得到定长的池化特征，包括：

从所述多个表征特征中确定出每个通道的多个特征值；

对所述每个通道的所述多个特征值进行均值和方差的计算，得到所述每个通道对应的特征均值和特征方差；

将所述每个通道的特征均值进行拼接，得到均值向量，以及将所述每个通道的特征方差进行拼接，得到方差向量；

利用所述均值向量和所述方差向量拼接出定长的所述池化特征。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述对待检索视频进行帧序列的抽取，得到视频帧序列，包括：

利用预设帧间隔对所述待检索视频进行切分，得到多个帧序列；

将所述多个帧序列确定为所述视频帧序列；

所述对所述视频帧序列中的视频帧进行图像特征的提取，得到图像特征序列，包括：

利用从每个帧序列的视频帧中所抽取出的图像特征，生成所述每个帧序列对应的子特征序列；

将所述多个帧序列对应的多个子特征序列，确定为所述图像特征序列。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述视频库中的视频包括：多个预设视频；所述依据所述目标视频特征和视频库中的视频的特征，从所述视频库中检索出所述待检索视频对应的相似视频，包括：

对所述目标视频特征和所述多个预设视频的特征进行相似度的计算，得到多个特征相似度；

将所述多个特征相似度中最大的N个特征相似度对应的预设视频，确定为所述相似视频。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述对待检索视频进行帧序列的抽取，得到视频帧序列之前，所述方法还包括：

获取训练视频样本，以及所述训练视频样本对应的标注样本；所述标注样本带有与所述训练视频样本是否相同或相似的标注标签；

从所述训练视频样本和所述标注样本中，挖掘出所述训练视频样本对应的训练三元组；

利用所述训练三元组，对初始定长特征抽取模型进行度量训练，得到预设定长特征抽取模型，所述预设定长特征抽取模型用于对所述图像特征序列进行定长特征的提取。

7.根据权利要求6所述的方法，其特征在于，所述利用所述训练三元组，对初始定长特征抽取模型进行度量训练，得到预设定长特征抽取模型，包括：

利用所述初始定长特征抽取模型，对所述训练三元组中的训练帧序列、正样本和负样本分别进行定长特征的抽取，得到训练视频特征、正样本特征以及负样本特征；

利用所述训练视频特征和所述正样本特征之间的距离，以及所述训练视频特征与所述负样本特征之间的距离，计算出第一训练损失值；

利用所述第一训练损失值持续对所述初始定长特征抽取模型进行参数更新，直至达到训练结束条件，得到所述预设定长特征抽取模型。

8.根据权利要求6所述的方法，其特征在于，所述训练视频样本包括：多个训练帧序列，所述标注样本中包括：所述多个训练帧序列对应的多个相似帧序列；

所述从所述训练视频样本和所述标注样本中，挖掘出所述训练视频样本对应的训练三元组，包括：

利用每个训练帧序列和所述每个训练帧序列对应的相似帧序列，组成所述每个训练帧序列对应的正样本对，当对所述多个训练帧序列均确定出对应的正样本对时，得到多个正样本对；

从所述多个正样本对中除去所述每个训练帧序列所对应的正样本对的其他样本对中，抽取出所述每个训练帧序列对应的候选负样本集合；

对所述每个训练帧序列与所述候选负样本集合中的候选负样本的特征距离进行计算，得到所述每个训练帧序列的负样本特征距离集合；

将所述负样本特征距离集合中最小的N个负样本特征距离所对应的候选负样本，作为所述每个训练帧序列的负样本；其中，N是正整数；

利用所述每个训练帧序列对应的正样本对，以及所述每个训练帧序列对应的负样本，生成所述每个训练帧序列对应的三元组，并将所述每个训练帧序列对应的三元组时，确定为所述训练三元组。

9.根据权利要求6所述的方法，其特征在于，所述获取训练视频样本，以及所述训练视频样本对应的标注样本之后，所述方法还包括：

利用待训练相似度度量模型，对从所述训练视频样本中所抽取出的训练视频特征和从所述标注样本中所抽取出的标注样本特征进行相似度计算，得到训练相似度；

依据所述训练视频样本和所述标注样本之间的标注标签，以及所述训练相似度，计算出第二训练损失值；

利用所述第二训练损失值对所述待训练相似度度量模型进行参数更新，直至训练结束时，得到预设相似度度量模型，所述预设相似度度量模型用于对所述目标视频特征和多个预设视频的特征进行相似度的计算。

10.根据权利要求9所述的方法，其特征在于，所述利用待训练相似度度量模型，对从所述训练视频样本中所抽取出的训练视频特征和从所述标注样本中所抽取出的标注样本特征进行相似度计算，得到训练相似度之前，所述方法还包括：

获取第一视频，以及与所述第一视频不同的第二视频；其中，所述第一视频和所述第二视频均未经过相似度的标注；

从所述第一视频中，构造带有标注相似度的预训练正样本对，以及从所述第二视频中，选取出预训练负样本；

将所述预训练正样本对和所述预训练负样本，确定为预训练三元组；

利用所述预训练三元组，对参数初始化得到的初始相似度度量模型进行预训练，得到所述待训练相似度度量模型。

11.根据权利要求10所述的方法，其特征在于，所述从所述第一视频中，构造带有标注相似度的预训练正样本对，包括：

从所述第一视频中抽取出锚点视频帧序列；

从所述锚点视频帧序列中截取出预设数量的截取图像序列；

依据所述截取图像序列中的截取图像的面积、所述锚点视频帧序列中的视频帧的面积，以及预设损失超参数，计算出包含所述锚点视频帧序列和所述截取图像序列的所述预训练正样本对的所述标注相似度，得到带有所述标注相似度的所述预训练正样本对。

12.根据权利要求11所述的方法，其特征在于，所述从所述第一视频中抽取出锚点视频帧序列之后，所述将所述预训练正样本对和所述预训练负样本，确定为预训练三元组之前，所述方法还包括：

对所述第一视频进行分镜处理，得到多个分镜片段，并将所述锚点视频帧序列所对应分镜片段之外的分镜片段，确定为候选分镜片段；其中，每个分镜片段中的视频帧的相似程度大于相似度阈值；

对所述每个分镜片段和其相邻的分镜片段的距离进行平均处理，得到距离均值；

当所述候选分镜片段的第一分镜中心特征与所述锚点视频帧序列对应的分镜片段的第二分镜中心特征的距离，大于所述距离均值时，从所述候选分镜片段的视频帧中，筛选出目标正样本；

依据所述锚点视频帧序列所对应的分镜片段的数量和所述目标正样本所对应的分镜片段的数量，计算出包含所述锚点视频帧序列和所述目标正样本的所述预训练正样本对的所述标注相似度，得到带有所述标注相似度的所述预训练正样本对；

所述从所述第二视频中，选取出预训练负样本，包括：

当所述第二视频进行分镜所得到的其他分镜片段的第三分镜中心特征，与所述预训练正样本对的分镜片段的分镜中心特征的距离，均大于所述距离均值时，从所述第二视频中选取出所述预训练负样本。

13.一种视频检索装置，其特征在于，包括：

14.一种视频检索设备，其特征在于，包括：

存储器，用于存储可执行视频检索指令；

处理器，用于执行所述存储器中存储的可执行视频检索指令时，实现权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行视频检索指令，用于被处理器执行时，实现权利要求1至12任一项所述的方法。