CN117011741A

CN117011741A - 视频检测模型的训练方法、装置、设备及存储介质

Info

Publication number: CN117011741A
Application number: CN202211328687.2A
Authority: CN
Inventors: 文伟; 朱允全; 刘文然; 钟立耿; 谯睿智
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-11-07

Abstract

本申请涉及计算机领域，特别涉及人工智能领域，提供了一种视频检测模型的训练方法、装置、设备及存储介质，本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括：多轮迭代训练视频检测模型，其中每次迭代针对各正样本视频与各负样本视频进行抽帧、特征提取和时序信息提取，获得相应的视频特征，对两个正样本视频的视频特征进行特征匹配，获得第一特征相似度，将该正样本视频与各负样本视频的视频特征进行特征匹配，获得各第二特征相似度，通过第一特征相似度与各第二特征相似度，调整模型的参数。使用正负样本视频训练模型，增强模型表征能力，提高模型泛化性与鲁棒性，且无需进行样本标注工作，降低了训练成本。

Description

视频检测模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机领域，特别涉及人工智能领域，提供了一种视频检测模型的训练方法、装置、设备及存储介质。

背景技术

随着互联网的快速普及与飞速发展，短视频已成为人们记录日常生活的重要工具之一，市面上的短视频产品层出不穷，互联网上每天上传的短视频也不计其数。但是，随着短视频行业的快速崛起，在未经授权的情况下，私自搬运他人视频的情况也日益猖獗，为了保护视频创作者的版权，传统的人工审核方式是无法满足数以亿计的视频审核需求的，因此，视频检测模型逐渐发展为检测重复视频的重要技术手段之一。

目前，常使用以下两种方式训练视频检测模型：

方式一是基于视频内容训练模型。使用大量样本视频迭代训练视频检测模型，每轮读取多个样本视频，将各样本视频划分为多段，每段随机抽取一帧，并从抽取的各帧中提取出内容嵌入特征，再聚合同一样本视频的内容嵌入特征，得到各样本视频各自的视频特征，基于各视频特征与查询视频间视频特征的特征相似度，更新模型参数。

但这种训练方式的弊端在于，视频内容的微小变化(如，加入模板、添加黑色边框或删除部分内容等)，都会导致模型提取到截然不同的内容嵌入特征，使得模型的鲁棒性低、泛化性差。而且，前期繁琐的样本标注工作，占用过多计算资源的特征提取，也进一步加重了模型训练成本，不适合检测大规模场景下的重复视频。

方式二是基于视频帧训练模型。使用大量样本视频迭代训练视频检测模型，每轮读取多个样本视频与查询视频，分别对各样本视频、查询视频执行抽帧、特征提取等操作，获得多个帧特征；按照已构建的帧索引，分别比对查询视频与各样本视频间帧特征的特征相似度，再将同一样本视频的特征相似度叠加，获得各样本视频的检测结果，并基于各检测结果更新模型参数。

但这种训练方式的弊端在于，随着样本视频、查询视频的数量增加，模型的运算复杂度也会成倍增加，占用过多计算资源，不适合检测大规模场景下的重复视频。

发明内容

本申请实施例提供了一种视频检测模型的训练方法、装置、设备及存储介质，以解决模型训练成本高，以及模型鲁棒性低、泛化性差的问题。

第一方面，本申请实施例提供了一种视频检测模型的训练方法，包括：

采用循环迭代方式，基于训练数据集中的多个样本视频对视频检测模型进行训练，直至输出已训练的视频检测模型；其中，每次迭代包括：

针对提取的正样本对包含的正样本视频和提取的各负样本视频，分别进行抽帧，获得相应的视频帧集，并分别针对各视频帧集进行特征提取，获得相应的帧特征集；其中，所述正样本视频是经过数据增强的样本视频；

分别针对各帧特征集进行时序信息提取，获得相应的视频特征，并将所述正样本对包含的一个正样本视频与另一正样本视频的视频特征进行特征匹配，获得相应的第一特征相似度，以及将所述一个正样本视频分别与所述各负样本视频的视频特征进行特征匹配，获得相应的第二特征相似度；

基于所述第一特征相似度和各第二特征相似度，对所述视频检测模型进行参数调整。

第二方面，本申请实施例还提供了一种视频检测模型的训练装置，包括：

模型训练单元，用于采用循环迭代方式，基于训练数据集中的多个样本视频对视频检测模型进行训练，直至输出已训练的视频检测模型；其中，每次迭代包括：

特征提取单元，用于针对提取的正样本对包含的正样本视频和提取的各负样本视频，分别进行抽帧，获得相应的视频帧集，并分别针对各视频帧集进行特征提取，获得相应的帧特征集；其中，所述正样本视频是经过数据增强的样本视频；

时序提取单元，用于分别针对各帧特征集进行时序信息提取，获得相应的视频特征；

特征匹配单元，用于将所述正样本对包含的一个正样本视频与另一正样本视频的视频特征进行特征匹配，获得相应的第一特征相似度，以及将所述一个正样本视频分别与所述各负样本视频的视频特征进行特征匹配，获得相应的第二特征相似度；

参数调整单元，用于基于所述第一特征相似度和各第二特征相似度，对所述视频检测模型进行参数调整。

可选的，所述时序提取单元用于：

针对所述各帧特征集，分别执行以下操作：

对一个帧特征集进行注意力提取，获得相应的注意力系数矩阵与值特征矩阵，所述注意力系数矩阵中的一个注意力系数表征：相应一帧特征对其他帧特征的关注程度；

基于所述注意力系数矩阵与所述值特征矩阵，获得相应的时序帧特征矩阵，所述时序帧特征表征：融合了时序信息的一帧特征；

对所述时序帧特征矩阵进行均值处理，得到了所述一个视频特征。

可选的，所述时序提取单元用于：

分别将所述一个帧特征集与预设的查询权重矩阵、键权重矩阵和值权重矩阵进行加权，得到查询特征矩阵、键特征矩阵和所述值特征矩阵；

基于所述查询特征矩阵与所述键特征矩阵，获得所述注意力系数矩阵。

可选的，在获得相应的视频帧集之前，所述模型训练单元还包括数据增强单元，所述数据增强单元获得一个正样本视频的过程如下：

对一个样本视频进行空间扩增与时序扩增中的至少一种，并将扩增后的样本视频作为所述一个正样本视频；

其中，所述空间扩增是通过调整所述一个样本视频的画面参数与视频内容中的至少一种，进行数据增强的；所述时序扩增是通过调整所述一个样本视频的播放速度与帧排列顺序中的至少一种，进行数据增强的。

可选的，所述视频检测模型包括：用于处理正样本视频的第一视频检测子模型，与用于处理负样本视频的第二视频检测子模型；

所述参数调整单元用于：

基于预设的正样本标签值与所述第一特征相似度，确定所述视频检测模型对所述正样本对进行特征匹配时所损耗的第一子损失值，以及基于预设的负样本标签值与所述各第二特征相似度，分别确定所述视频检测模型对所述一个正样本视频与所述各负样本视频进行特征匹配时所损耗的第二子损失值；

基于所述第一子损失值与各第二子损失值，确定所述视频检测模型的总损失值，并基于所述总损失值，调整所述第一视频检测子模型的参数；

基于预设的动量参数与本轮更新的第一视频检测子模型的参数，调整所述第二视频检测子模型的参数。

可选的，所述特征匹配单元用于：

在向量空间中，确定所述正样本对包含的一个正样本视频与所述另一正样本视频的视频特征之间的第一特征距离；

将所述第一特征距离映射到概率空间中，得到相应的第一特征相似度。

可选的，在输出已训练的视频检测模型之后，所述视频检测模型的训练装置还包括测验单元，所述测验单元用于：

针对待查询视频与视频库中的各候选视频分别进行抽帧，获得相应的视频帧集，并分别针对各视频帧集进行特征提取，获得相应的帧特征集；

对所述各帧特征集进行时序信息提取，获得相应的视频特征，并将所述待查询视频与所述各候选视频的视频特征进行特征匹配，获得相应的第三特征相似度，将超过预设相似度阈值的候选视频确定为目标视频。

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种视频检测模型的训练方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种视频检测模型的训练方法的步骤。

第五方面，本申请实施例还提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现上述任意一种视频检测模型的训练方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种视频检测模型的训练方法、装置、设备及存储介质，该方法包括：采用循环迭代方式，基于训练数据集中的多个样本视频对视频检测模型进行训练，直至输出已训练的视频检测模型；其中，每次迭代包括：

针对提取的正样本对包含的正样本视频和提取的各负样本视频，分别进行抽帧，获得相应的视频帧集，并分别针对各视频帧集进行特征提取，获得相应的帧特征集；其中，正样本视频是经过数据增强的样本视频；再分别针对各帧特征集进行时序信息提取，获得相应的视频特征，并将正样本对包含的一个正样本视频与另一正样本视频的视频特征进行特征匹配，获得相应的第一特征相似度，以及将该正样本视频分别与各负样本视频的视频特征进行特征匹配，获得相应的第二特征相似度；最后，基于第一特征相似度和各第二特征相似度，对视频检测模型进行参数调整。

通过对样本视频进行数据增强，让模型在训练过程中学习到样本视频的视频内容所发生的变化，增强模型的泛化性与鲁棒性；再对各帧特征集进行时序信息提取，将其转换为视频特征，相较于帧级别特征间的特征匹配，视频级别的特征匹配会大大缩短训练时长，降低训练成本，保证了计算资源与存储资源的平衡性，且在生成正样本对的同时，加入多个负样本视频进行对比学习，也有利于增强模型的表征能力，保证了对相同或视频内容发生微小变化的视频的鲁棒性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1A为时序部分网络TSN的运行示意图；

图1B为基于视频帧训练视频检测模型的逻辑示意图；

图2为本申请实施例中一种应用场景的一个可选的示意图；

图3A为本申请实施例提供的视频检测模型的架构示意图；

图3B为本申请实施例提供的训练视频检测模型的流程示意图；

图3C为本申请实施例提供的对一个样本视频进行数据增强的逻辑示意图；

图3D为本申请实施例提供的对一个帧特征集进行时序信息提取的流程示意图；

图3E为本申请实施例提供的生成查询特征矩阵、键特征矩阵和值特征矩阵的示意图；

图4为本申请实施例提供的具体实施例的模型训练流程示意图；

图5为本申请实施例提供的视频检测结果示意图；

图6为本申请实施例提供的一种视频检测模型的训练装置的结构示意图；

图7为本申请实施例中提供的一种计算机设备的组成结构示意图；

图8为本申请实施例中的一个计算装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

1、人工智能(Artificial Intelligence，AI)：

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术；人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

2、机器学习：

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍布人工智能的各个领域，包括深度学习、强化学习、迁移学习、归纳学习、式教学习等技术。

3、计算机视觉是一门集计算机科学、信号处理、物理学、应用数学、统计学、神经生理学等多学科于一身的综合性学科，也是科学领域中一个富有挑战性的重要研究方向。

该学科使用各种成像系统代替视觉器官作为输入手段，由计算机代替大脑完成处理和解释，使得计算机可以具备像人类一样通过视觉的方式观察、理解世界的能力。其中，计算机视觉的子领域包括人脸检测、人脸对比、五官检测、眨眼检测、活体检测、疲劳检测等。

下面对本申请实施例的设计思想进行简要介绍：

目前，常使用以下两种方式训练视频检测模型：

方式一是基于视频内容训练模型。现阶段常用视频检测模型的模型架构是时序部分网络(Temporal Segment Networks，TSN)结合Netvlad，使用大量样本视频迭代训练视频检测模型，如图1A所示，每轮读取多个样本视频，将各样本视频划分为多段，每段至少随机抽取一帧，并从抽取的各帧中提取出内容嵌入特征，再聚合同一样本视频的内容嵌入特征，得到各样本视频各自的视频特征，基于各视频特征与查询视频间视频特征的特征相似度，更新模型参数。

方式二是基于视频帧训练模型。使用大量样本视频迭代训练视频检测模型，如图1B所示，每轮读取多个样本视频与查询视频，分别对各样本视频、查询视频执行抽帧、特征提取等操作，获得多个帧特征；按照已构建的帧索引，分别比对查询视频与各样本视频间帧特征的特征相似度，再将同一样本视频的特征相似度叠加，获得各样本视频的检测结果，并基于各检测结果更新模型参数。

有鉴于此，本申请实施例提供了一种视频检测模型的训练方法、装置、设备及存储介质。该方法包括：

通过对样本视频进行数据增强，让模型在训练过程中学习到样本视频的视频内容所发生的变化，增强模型的泛化性与鲁棒性；再对各帧特征集进行时序信息提取，将其转换为视频特征，相较于帧级别特征间的特征匹配，视频级别的特征匹配会缩短特征检索时长，降低资源消耗，保证了计算资源与存储资源的平衡性，且在生成正样本对的同时，加入多个负样本视频进行对比学习，也有利于增强模型的表征能力，保证了对相同或视频内容发生微小变化的视频的鲁棒性。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

图2示出了其中一种应用场景，包括两个物理终端设备210与一台服务器230，每个物理终端设备210通过有线网络或无线网络，与服务器230建立通信连接。

其中，本申请实施例的物理终端设备210是用户使用的计算机设备。计算机设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

本申请实施例的服务器230可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请在此不做限制。

服务器230上部署了视频检测模型，先采用以下方式迭代训练该模型，直至输出已训练的视频检测模型；其中，每次迭代包括：

物理终端设备210上部署了视频播放客户端220，视频播放客户端220向已训练的视频检测模型发送待检测视频，视频检测模型将待检测视频与视频库中的各候选视频进行特征匹配，确定各候选视频与待检测视频间的特征相似度，并将特征相似度超过设定阈值的候选视频确定为目标视频。

其中，目标视频包括但不限于：在视频创作者未授权的情况下，私自搬运的视频；在视频创作者未授权的情况下，对私自搬运的视频进行调整画面对比度、色温、视频裁剪、拼接等二次创作后，得到的视频。

参阅图3A示出的架构示意图，先了解下视频检测模型的模型架构。

视频检测模型包含以下几部分：数据增强模块、第一视频检测子模型、第二视频检测子模型、特征匹配模块与负样本挖掘模块。

数据增强模块用于对样本视频进行空间扩增与时序扩增中的至少一种，以便让模型在训练过程中学习到样本视频的视频内容所发生的变化，增强模型的泛化性，提高模型的鲁棒性。

第一视频检测子模型包括q特征提取器与q编码器，q特征提取器用于对正样本视频进行帧特征提取，q编码器用于对获得的帧特征集进行时序信息提取。第二视频检测子模型包括m特征提取器与m编码器，m特征提取器用于对负样本视频进行帧特征提取，m编码器用于对获得的帧特征集进行时序信息提取。

其中，q特征提取器与m特征提取器的网络结构是相同的，q编码器与m编码器的网络结构是相同的，这意味着两个子模型的特征提取器是采用相同步骤进行特征提取的，两个编码器也是采用相同步骤进行编码的。

特征匹配模块用于对正样本对中两个正样本视频的视频特征进行特征匹配，以及对正样本对中的一个正样本样本与各负样本视频的视频特征进行特征匹配。而负样本挖掘模块维护了一个较大的负样本库，以便在生成正样本对的同时，加入多个负样本视频进行对比学习。

接下来，参阅图3B示出的流程示意图，继续介绍本申请实施例提出的视频检测模型的训练方法。

S301：视频检测模型读取一个正样本对和多个负样本视频。

为了让模型在训练过程中学习到样本视频的视频内容所发生的变化，增强模型的泛化性与鲁棒性，视频检测模型通过内部的数据增强模块，对读取的部分样本视频进行数据增强，获得至少两个正样本视频，而没有进行数据增强的部分样本视频，则作为负样本视频添加到负样本库中，这样在每轮训练中都会在负样本库中添加n个新的负样本视频，同时删除存储时间最久的k个负样本视频，以达到在多轮次的迭代训练过程中，不断更新负样本库，辅助训练出效果更优的视频检测模型的目的。

其中，如图3C所示，获得一个正样本视频的过程如下：

对一个样本视频进行空间扩增与时序扩增中的至少一种，并将扩增后的样本视频作为一个正样本视频；

其中，空间扩增是通过调整该样本视频的画面参数与视频内容中的至少一种，进行数据增强的。本申请实施例至少提供了以下几种空间扩增方式：添加高斯噪声、修改对比度、修改亮度、修改饱和度、水平翻转、垂直翻转、绕中心旋转、平移等画面参数，在画面中添加标志(logo)、标题、画中画等调整视频内容的操作。

时序扩增是通过调整该样本视频的播放速度与帧排列顺序中的至少一种，进行数据增强的。本申请实施例至少提供了以下几种时序扩增方式：加速视频播放速度、降低视频播放速度，随机删除部分视频帧，在样本视频中随机添加其他样本视频的部分视频帧等。

需要注意的是，对同一样本视频的所有帧采用相同的空间扩增方式，同时还可以对时序扩增后的样本视频进行空间扩增，获得相应的正样本视频。

当获得两个正样本视频时，将这两个正样本视频组成一个正样本对；当获得两个以上的正样本视频时，采用两两随机配对的方式，组成多个正样本对。如，假设获得4个正样本视频a～d，可组成以下几个正样本对：(a，b)、(a，c)、(a，d)、(b，c)、(c，d)。

在执行完数据增强之后，视频检测模型读取当前一轮组成的一个正样本对，以及从负样本挖掘模块维护的负样本库中，读取多个负样本视频。

S302：视频检测模型针对提取的正样本对包含的正样本视频和提取的各负样本视频，分别进行抽帧，获得相应的视频帧集，并分别针对各视频帧集进行特征提取，获得相应的帧特征集；其中，正样本视频是经过数据增强的样本视频。

由于视频检测模型对每个正样本对采用了相同操作，为了便于描述模型训练过程，本申请实施例是以一个正样本对为例进行介绍的。

首先，视频检测模型针对提取的正样本对包含的正样本视频与提取的各负样本视频，分别进行抽帧，获得相应的视频帧集。

针对每个视频执行以下操作：将一个视频划分为多段，针对每段视频可以采用连续抽取多帧的抽帧方式，获得相应的视频帧集；也可以采用每满足一个设定周期，抽取一个视频帧的抽帧方式，获得相应的视频帧集。

然后，使用第一视频检测子模型的q特征提取器，对各正样本视频的视频帧集进行特征提取，获得相应的帧特征集。同样地，使用第二视频检测子模型的m特征提取器，对各负样本视频的视频帧集进行特征提取，获得相应的帧特征集。

S303：视频检测模型分别针对各帧特征集进行时序信息提取，获得相应的视频特征，并将正样本对包含的一个正样本视频与另一正样本视频的视频特征进行特征匹配，获得相应的第一特征相似度，以及将该正样本视频分别与各负样本视频的视频特征进行特征匹配，获得相应的第二特征相似度。

使用第一视频检测子模型的q编码器，对各正样本视频的帧特征集进行时序信息提取，获得相应的视频特征。同样地，使用第二视频检测子模型的m编码器，对各负样本视频的帧特征集进行时序信息提取，获得相应的视频特征。

前文提到过，q编码器与m编码器的网络结构是相同的，意味着两个编码器是采用相同步骤进行编码的。因此，如图3D所示，针对各帧特征集，分别执行以下操作：

S3031：对一个帧特征集进行注意力提取，获得相应的注意力系数矩阵与值特征矩阵，注意力系数矩阵中的一个注意力系数表征：相应一帧特征对其他帧特征的关注程度。

q编码器可以是基于多头注意力机制的Transformer编码器、基于视频语音、文本与视频画面的多模态编码器等。假设q编码器是基于多头注意力机制的Transformer编码器，如图3E所示，分别将该帧特征集与预设的查询权重特征、键权重特征和值权重矩阵进行加权，得到查询特征矩阵(简称Q)、键特征矩阵(简称K)和所述值特征矩阵(简称V)；再如图公式1所示，基于查询特征矩阵与键特征矩阵，获得注意力系数矩阵。

其中，公式1a’的表示注意力系数矩阵，Q为查询特征矩阵，K为键特征矩阵，K^T表示键特征矩阵的转置矩阵。为了防止内积过大，还设置了参数d_k，表征每头注意力机制的单位长度。

S3032：基于注意力系数矩阵与值特征矩阵，获得相应的时序帧特征矩阵，时序帧特征表征：融合了时序信息的一帧特征。

如公式2所述，基于注意力系数矩阵与值特征矩阵，获得相应的时序帧特征矩阵。其中，Attention(Q,K,V)表征时序帧特征矩阵，表征注意力系数矩阵，V为值特征矩阵，softmax为归一化处理。

S3033：对时序帧特征矩阵进行均值处理，得到了一个视频特征。

一个时序帧特征矩阵中包含了来自同一视频的多个时序帧特征，每个时序帧特征对应这个视频里的其中一帧，通过对该矩阵的所有时序帧特征进行均值处理，可以得到这个视频的视频特征，完成帧级别特征向视频级特征的转换，方便执行后面的特征匹配操作。

在获得各视频特征之后，可采用欧氏距离、余弦相似度等特征匹配方式，在向量空间中，确定正样本对包含的一个正样本视频与另一正样本视频的视频特征之间的第一特征距离，再对第一特征距离进行归一化处理，将第一特征距离映射到概率空间中，得到相应的第一特征相似度。

以及，分别计算该正样本视频分别与各负样本视频的视频特征之间的第二特征距离，再对各第二特征距离进行归一化处理，得到相应的第二特征相似度。

S304：基于第一特征相似度和各第二特征相似度，对视频检测模型进行参数调整。

如公式3所示，基于预设的正样本标签值与第一特征相似度，确定视频检测模型对正样本对进行特征匹配时所损耗的第一子损失值，以及基于预设的负样本标签值与各第二特征相似度，分别确定视频检测模型对一个正样本视频与各负样本视频进行特征匹配时所损耗的第二子损失值。

再基于第一子损失值与各第二子损失值，确定视频检测模型的总损失值，并基于总损失值，调整第一视频检测子模型的参数。

L＝-∑ylog(y′) 公式3；

其中，L为损失函数值，y为样本标签值，y′为特征相似度。样本标签值包括正样本视频与负样本视频，不同类型的取值有所不同，如：当样本标签值为正样本视频时，y＝1；当样本标签值为负样本视频时，y′＝0。当样本标签值为正样本视频时，y′指的是第一特征相似度；当样本标签值为负样本视频时，y′指的是第二特征相似度。

虽然图3A显示两个子模型的特征提取器、编码器是共享参数的，但实际上m特征提取器和m编码器是原始部分的动量更新模块，也就是说，基于每轮损失函数生成的梯度值，只调整第一视频检测子模型的参数，再如公式4所示，基于预设的动量参数与本轮更新的第一视频检测子模型的参数，利用动量参数，调整第二视频检测子模型的参数。

θ^m＝mθ^m+(1-m)θ^q 公式4；

其中，m为动量参数，θ^q为第一视频检测子模型的参数，θ^m为第二视频检测子模型的参数。

S305：判断模型是否训练完毕，若是，输出已训练的视频检测模型；否则，返回步骤301。

当满足以下至少一条时，确定视频检测模型训练完毕，并输出本轮参数调整后的视频检测模型；否则，返回步骤301，开始下一轮次的迭代训练：

(1)本轮的第一特征相似度最大，且趋近于1；

(2)当前迭代轮次达到设定迭代轮次；

(3)所有样本视频全部读取完毕。

以上便是完整的端到端模型训练过程，通过对样本视频进行数据增强，让模型在训练过程中学习到样本视频的视频内容所发生的变化，增强模型的泛化性与鲁棒性；再对各帧特征集进行时序信息提取，将其转换为视频特征，相较于帧级别特征间的特征匹配，视频级别的特征匹配会缩短特征检索时长，降低资源消耗，保证了计算资源与存储资源的平衡性，且在生成正样本对的同时，加入多个负样本视频进行对比学习，也有利于增强模型的表征能力，保证了对相同或视频内容发生微小变化的视频的鲁棒性。

假设特征提取器为ResNet50，编码器为基于多头注意力机制的Transformer编码器，参阅图4示出的流程示意图，视频检测模型的训练过程如下：

S401：从训练样本集中读取多个样本视频；

S402：对其中两个样本视频进行数据增强，获得相应的正样本视频，并将两个正样本视频组成一个正样本对，同时将其他样本视频加入到负样本库中，并删除负样本库中存储时间最久的k个负样本视频；

S403：读取一个正样本对，以及读取负样本库中存储的所有负样本视频；

S404：对提取的正样本对包含的正样本视频分别进行抽帧，获得相应的视频帧集，并通过第一视频检测子模型的ResNet50对各视频帧集进行特征提取，获得相应的帧特征集；以及，对提取的各负样本视频分别进行抽帧，获得相应的视频帧集，并通过第二视频检测子模型的ResNet50对各视频帧集进行特征提取，获得相应的帧特征集；

S405：通过第一视频检测子模型的Transformer编码器，分别针对各帧特征集进行时序信息提取，获得相应的视频特征；以及，通过第二视频检测子模型的Transformer编码器，分别针对各帧特征集进行时序信息提取，获得相应的视频特征；

S406：将正样本对包含的一个正样本视频与另一正样本视频的视频特征进行特征匹配，获得相应的第一特征相似度，以及将该正样本视频分别与各负样本视频的视频特征进行特征匹配，获得相应的第二特征相似度；

S407：基于第一特征相似度和各第二特征相似度，调整第一视频检测子模型的参数；再基于本轮更新的第一视频检测子模型的参数，调整第二视频检测子模型的参数；

S408：判断模型是否训练完毕，若是，输出已训练的视频检测模型；否则，返回步骤401。

在训练结束之后，将第一视频检测子模型与特征匹配模块作为已训练的视频检测模型，执行重复视频的检测任务，保护视频创作者的版权，对大盘中保存的相同视频或视频内容发生微小变化的视频进行去重，既能降低重复存储的概率，为大盘节省更多的存储空间，又能为下一步推荐做准备，以免向同一位用户推荐重复推荐相同的视频。

已训练的视频检测模型针对读取的待查询视频与视频库中的各候选视频，分别进行抽帧，获得相应的视频帧集，并通过q特征提取器分别针对各视频帧集进行特征提取，获得相应的帧特征集；

再通过q编码器对各帧特征集进行时序信息提取，获得相应的视频特征，并将待查询视频与各候选视频的视频特征进行特征匹配，获得相应的第三特征相似度，将超过预设相似度阈值的候选视频确定为目标视频。检测结果如图5所示，左侧为待查询视频，右侧为相似度较高的目标视频。

与上述方法实施例基于同一发明构思，本申请实施例还提供了一种视频检测模型的训练装置。如图6所示，视频检测模型的训练装置600可以包括：

模型训练单元601，用于采用循环迭代方式，基于训练数据集中的多个样本视频对视频检测模型进行训练，直至输出已训练的视频检测模型；其中，每次迭代包括：

特征提取单元602，用于针对提取的正样本对包含的正样本视频和提取的各负样本视频，分别进行抽帧，获得相应的视频帧集，并分别针对各视频帧集进行特征提取，获得相应的帧特征集；其中，正样本视频是经过数据增强的样本视频；

时序提取单元603，用于分别针对各帧特征集进行时序信息提取，获得相应的视频特征；

特征匹配单元604，用于将正样本对包含的一个正样本视频与另一正样本视频的视频特征进行特征匹配，获得相应的第一特征相似度，以及将一个正样本视频分别与各负样本视频的视频特征进行特征匹配，获得相应的第二特征相似度；

参数调整单元605，用于基于第一特征相似度和各第二特征相似度，对视频检测模型进行参数调整。

可选的，时序提取单元603用于：

针对各帧特征集，分别执行以下操作：

对一个帧特征集进行注意力提取，获得相应的注意力系数矩阵与值特征矩阵，注意力系数矩阵中的一个注意力系数表征：相应一帧特征对其他帧特征的关注程度；

基于注意力系数矩阵与值特征矩阵，获得相应的时序帧特征矩阵，时序帧特征表征：融合了时序信息的一帧特征；

对时序帧特征矩阵进行均值处理，得到了一个视频特征。

可选的，时序提取单元603用于：

分别将一个帧特征集与预设的查询权重矩阵、键权重矩阵和值权重矩阵进行加权，得到查询特征矩阵、键特征矩阵和值特征矩阵；

基于查询特征矩阵与键特征矩阵，获得注意力系数矩阵。

可选的，在获得相应的视频帧集之前，模型训练单元601还包括数据增强单元606，数据增强单元606获得一个正样本视频的过程如下：

其中，空间扩增是通过调整一个样本视频的画面参数与视频内容中的至少一种，进行数据增强的；时序扩增是通过调整一个样本视频的播放速度与帧排列顺序中的至少一种，进行数据增强的。

可选的，视频检测模型包括：用于处理正样本视频的第一视频检测子模型，与用于处理负样本视频的第二视频检测子模型；

参数调整单元605用于：

基于预设的正样本标签值与第一特征相似度，确定视频检测模型对正样本对进行特征匹配时所损耗的第一子损失值，以及基于预设的负样本标签值与各第二特征相似度，分别确定视频检测模型对一个正样本视频与各负样本视频进行特征匹配时所损耗的第二子损失值；

基于第一子损失值与各第二子损失值，确定视频检测模型的总损失值，并基于总损失值，，调整第一视频检测子模型的参数；

基于预设的动量参数与本轮更新的第一视频检测子模型的参数，调整第二视频检测子模型的参数。

可选的，特征匹配单元604用于：

在向量空间中，确定正样本对包含的一个正样本视频与另一正样本视频的视频特征之间的第一特征距离；

将第一特征距离映射到概率空间中，得到相应的第一特征相似度。

可选的，在输出已训练的视频检测模型之后，视频检测模型的训练装置600还包括测验单元607，测验单元607用于：

对各帧特征集进行时序信息提取，获得相应的视频特征，并将待查询视频与各候选视频的视频特征进行特征匹配，获得相应的第三特征相似度，将超过预设相似度阈值的候选视频确定为目标视频。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的视频检测模型的训练方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算机设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种计算机设备，参阅图7所示，计算机设备700可以至少包括处理器701、以及存储器702。其中，存储器702存储有程序代码，当程序代码被处理器701执行时，使得处理器701执行上述任意一种视频检测模型的训练方法的步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的视频检测模型的训练方法中的步骤。例如，处理器可以执行如图3B中所示的步骤。

下面参照图8来描述根据本申请的这种实施方式的计算装置800。图8的计算装置800仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算装置800以通用计算装置的形式表现。计算装置800的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。

总线803表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储单元8022，还可以进一步包括只读存储器(ROM)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置800也可以与一个或多个外部设备804(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置800交互的设备通信，和/或与使得该计算装置800能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且，计算装置800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器806通过总线803与用于计算装置800的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的视频检测模型的训练方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频检测模型的训练方法中的步骤，例如，计算机设备可以执行如图3B中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频检测模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述分别针对各帧特征集进行时序信息提取，获得相应的视频特征，包括：

针对所述各帧特征集，分别执行以下操作：

3.如权利要求2所述的方法，其特征在于，所述对一个帧特征集进行注意力提取，获得相应的注意力系数矩阵与值特征矩阵，包括：

4.如权利要求1所述的方法，其特征在于，在获得相应的视频帧集之前，获得一个正样本视频的过程如下：

5.如权利要求1所述的方法，其特征在于，所述视频检测模型包括：用于处理正样本视频的第一视频检测子模型，与用于处理负样本视频的第二视频检测子模型；

基于所述第一特征相似度和各第二特征相似度，对所述视频检测模型进行参数调整，包括：

6.如权利要求1所述的方法，其特征在于，所述将所述正样本对包含的一个正样本视频与另一正样本视频的视频特征进行特征匹配，获得相应的第一特征相似度，包括：

7.如权利要求1所述的方法，其特征在于，在输出已训练的视频检测模型之后，所述方法还包括：

8.一种视频检测模型的训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在计算机设备上运行时，所述程序代码用于使所述计算机设备执行权利要求1～7中任一项所述方法的步骤。