CN113610016B

CN113610016B - 视频帧特征提取模型的训练方法、系统、设备及存储介质

Info

Publication number: CN113610016B
Application number: CN202110918442.4A
Authority: CN
Inventors: 张朝; 王坚; 李兵; 余昊楠; 胡卫明
Original assignee: Renmin Zhongke Jinan Intelligent Technology Co ltd
Current assignee: Renmin Zhongke Jinan Intelligent Technology Co ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2024-04-23
Anticipated expiration: 2041-08-11
Also published as: CN113610016A

Abstract

本发明公开了一种视频帧特征提取模型的训练方法、系统、设备及存储介质。方法包括：S1、将任一批次的原视频帧图像经过图像增强后，获取两路增强视频帧图像集；S2、将两路增强视频帧图像集分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集；S3、将两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵；S4、计算相似度矩阵的损失值；S5、如损失值大于阈值，则根据损失值调整对比训练网络，并返回S1；否则判定对比训练网络拟合，并转入S6；S6、提取对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。系统：图像增强单元、双路特征提取单元、相似度矩阵单元、损失值计算单元、判断单元、单路网络提取单元。

Description

视频帧特征提取模型的训练方法、系统、设备及存储介质

技术领域

本发明涉及计算机机器视觉技术领域，特别涉及视频帧特征提取模型的训练方法、系统、设备及存储介质。

背景技术

图片样例比对，又被称为图片同源比对，是指一个图片通过缩放、压缩、部分旋转、颜色变换、格式转换、部分裁剪、马赛克、模糊、贴标、文字遮挡等处理的图片仍然与原图正确匹配。

目前图片样例提取的方法基本是采用基于传统手工提取特征的方法，包括直接提取局部敏感哈希(LSH)建立索引，或者提取颜色分布特征，HOG、SIFT等梯度特征来进行特征提取的方法，这类方法容易受到噪声的干扰，无法适应图片的各种变换操作，比如基于颜色分布特征的方法无法适应颜色变换的场景，HOG、SIFT等梯度特征的方法无法有效适应文字遮挡、部分裁剪、马赛克、一定程度的模糊等场景，在实际算法应用中，往往会造成非常高的漏检率。

因此，需要一种视频帧特征提取模型，并对该视频帧特征提取模型加以训练拟合，进而可以完成图片同源比对时的特征提取。

发明内容

本发明提供了视频帧特征提取模型的训练方法、系统、设备及存储介质，用以解决现有技术中容易受到噪声干扰，无法适应图片变换，漏检率较高的问题。

为达到上述目的，本发明提供以下技术方案：

第一部分，本发明实施例的一种视频帧特征提取模型的训练方法，包括下列步骤：S1、将随机选取的原视频帧批次数据经过图像增强后，获得两批次增强视频帧，增强后数据批次内顺序与原批次顺序保持一致；S2、所述的两批次增强视频帧相同索引位置的数据自动构成正样本对，不同索引位置的数据自动构成负样本对；S3、将所述的两批次增强视频帧分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集；S4、将所述的两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵和标签值；S5、根据所述相似度矩阵和标签值计算损失值；S6、如所述的损失值大于阈值，则根据所述的损失值调整所述对比训练网络，并返回S1；否则判定所述的对比训练网络拟合，并转入S7；S7、提取所述对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。

优选的，步骤S1中所述的图像增强，具体包括：上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化，或/和浮雕。

进一步的，原视频帧与其增强后得到的增强视频帧之间为相似视频帧对，以及同一原视频帧增强后得到的各增强视频帧两两之间互为相似视频帧对；不同原视频帧之间为不相似视频帧对，以及非同一原视频帧增强后得到的各增强视频帧两两之间互为不相似视频帧对。。

进一步的，步骤S4中计算相似度矩阵的损失值，具体通过如下公式计算：

其中，C表示相似度矩阵，加号之前部分表示相似视频帧对的损失值，加号之后部分表示不相似视频帧对的损失值。

优选的，所述特征提取子网络的主干网络是具有跨层连接结构的网络。

进一步的，所述特征提取子网络的主干网络以ResNet网络、DenseNet网络，或者SE-Net网络作为基础。

第二部分，本发明实施例的一种视频帧特征提取模型的训练系统，包括：图像增强单元，用于将随机选取的原视频帧批次数据经过图像增强后，获得两批次增强视频帧，增强后数据批次内顺序与原批次顺序保持一致；所述的两批次增强视频帧相同索引位置的数据自动构成正样本对，不同索引位置的数据自动构成负样本对；双路特征提取单元，用于将所述的两批次增强视频帧分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集；相似度矩阵单元，用于将所述的两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵和标签值；损失值计算单元，用于根据所述相似度矩阵和标签值计算损失值；判断单元，如所述的损失值大于阈值，则根据所述的损失值调整所述对比训练网络，并返回所述图像增强单元；否则判定所述的对比训练网络拟合，并转入单路网络提取单元；所述单路网络提取单元，用于提取所述对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。

第三部分，本发明实施例的一种计算机设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明任意实施例所述的视频帧特征提取模型的训练方法。

第四部分，本发明实施例的一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所述的视频帧特征提取模型的训练方法。

本发明的视频帧特征提取模型的训练方法、系统、设备及存储介质，相对于现有技术，使用卷积神经网络模型训练得到特征提取模型，增加了模型的变换适应性，也使得应对各类视频帧变换更灵活，避免了底层视频帧空域特征易受噪声的影响，较传统特征提取方案更加鲁棒，降低了漏检率；并且缓解了对比学习依赖大量负样本提升效果的问题，使用相似度矩阵的相似度度量方式，简化了数据集准备和模型训练的难度，提高了模型训练的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例1的视频帧特征提取模型的训练方法流程图；

图2为本发明实施例1中视频帧图像增强操作及标注标签的过程图；

图3为本发明实施例1中对比训练网络的架构图；

图4为本发明实施例1中ResNet50为基础的特征提取网络结构示意图；

图5为常见对比学习流程图；

图6为本发明实施例1中的对比训练网络的训练流程图；

图7为本发明实施例2的视频帧特征提取模型的训练系统结构示意图；

图8为本发明实施例3的计算机设备的结构示意图。

具体实施方式

发明人经过研究发现，目前模型的构建都是与领域知识密切相关的，对领域理解越清晰，构建的模型就越有针对性，效果也会越好。发明人考虑到在构建视频帧样例特征提取模型之前，首先要明确应用的场景。图片样例比对是指比对的图片是否同源，其应用场景是来自于视频帧来源追溯，主要应用于版权保护等领域。视频帧/图片检索往往关注视觉表观，比如两个完全不同的拍摄地点、只要场景类似，视频帧/图片检索往往也会返回较高的相似度，比如从北京颐和园和苏州拙政园拍摄的两帧视频帧/两张图片，两个完全不同的地点，但是都因为有假山、有湖水，有杨柳等，在视频帧/图片检索关注视觉表观看来具有比较高的相似度，视频帧/图片检索对空间特征往往具有很高的适应性，空间的改变对视频帧/图片检索的效果并没有明显影响；与人脸比对也不同，人脸比对强调的哪怕随着个人装扮和年龄的变化，人脸比对对同一个人脸也会返回较高的相似度，时间改变对人脸比对的效果应该鲁棒。而本发明的样例比对模型是比对场景的两帧视频帧/图片是否同源，在时间和空间上都有更加严格的要求，要求必须是同一帧视频帧经过缩放、压缩、部分旋转、颜色变换、格式转换、部分裁剪、马赛克、模糊、贴标、文字遮挡、增加边框等处理的视频帧仍然与原视频帧具有很高的相似度。这样的变换操作要求指导了发明人进行数据集收集和预处理的流程、同时也表明本发明与之前的诸多基于视觉表观特征提取的模型会有一些差异，本发明更加关注视频帧的简单处理变换，视觉表观特征提取模型则更加关注于视频帧语义特征。另一方面，受自监督学习中的对比学习的启发，本发明构建了基于对比网络训练得到的视频帧特征提取模型，并优化了模型训练方法。与传统的有监督学习需要大量人工标注数据的方法不同，所谓自监督学习，是通过数据的一部分去预测另一部分从而产生标签预测的过程。以下通过实施例具体详述。

实施例1、本实施例的视频帧特征提取模型的训练方法，参见图1所示，包括下列主要步骤：

S110、将任一批次的原视频帧图像经过图像增强后，获取两路增强视频帧图像集。

具体的，首先收集原视频帧数据集，例如收集约60万张原视频帧图像，并且保证数据集中没有大量相同的原视频帧图像。具体可以采用网络爬取的随机图像数据集，虽然不能避免出现相同的原视频帧图像，但是概率较小，因此可以满足数据集中没有大量相同的原视频帧图像；或者采用已有的数据集。然后对原视频帧数据集中任一批次的原视频帧图像进行图像增强，具体采用包括但不限于：上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化，或/和浮雕。数据增强的多样性也会使得网络模型能够适应更多种类的视频帧变换方式，增强模型鲁棒性。

与传统的人手工标注视频帧样本标签的方式不同，如图2所示，通过对原视频帧图像增强操作，自然而然就标注了视频帧对的标签，即原视频帧图像与经过如上述变换的增强视频帧图像之间为相似视频帧对，以及同一原视频帧图像增强后得到的各增强视频帧图像两两之间也互为相似视频帧对；不同原视频帧图像之间为不相似视频帧对，以及非同一原视频帧图像增强后得到的各增强视频帧图像两两之间也互为不相似视频帧对。例如：相似视频帧标签值为1，不相似视频帧标签值为0。

之后得到两路增强视频帧图像集，两路增强视频帧图像集内的视频帧顺序保持一致。

S120、将两路增强视频帧图像集分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集。

本实施例中，对比训练网络的架构如图3所示，对比训练网络中包含两路相同或不同结构的特征提取子网络分支，用于接收两路视频帧的输入，通过网络将视频帧映射到低维度的空间表示，对比两路网络的输出相似度，即可评价两路输入视频帧的相似程度。如图4所示，特征提取子网络的主干网络是具有跨层连接结构的网络，例如：以ResNet网络、DenseNet网络，或者SE-Net网络，一方面这类网络模型由于加了跨层连接，使得训练过程的梯度变化更加平滑，不容易出现梯度消失的问题，从而有利于网络向更深的更具变大的结构迈进，而深度学习的观点也普遍认为更深的网络学习到的特征越具有表现力，降低数据噪声对模型的影响；另一方面，ResNet50作为经典的网络结构，很多硬件平台都做了充分的优化，能够保证模型在实际进行特征提取过程中的效率。再配合特征维度映射层和归一化层，实现特征的提取。

具体在本实施例中，将两路增强视频帧图像集分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集。相较传统的特征提取方式，只能适应某几种视频帧变换并且难以修改的缺点，本实施例的方法基于对比训练网络的特征提取方式，可以在数据集的数据增强方式上做更新，能达到改变模型适应范围的目的。

S130、将两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵。

如上所述，由于各视频帧图像已经被自动标记了相似或不相似标签，因此获得两路特征集中的各特征也带有相应的标签。

常用的对比学习训练框架大多采用如图5所示的流程。输入的是视频帧对，标签为不相似和相似，分别标记为0和1。视频帧图像A和视频帧图像A'组成的正样本对，即相似视频帧对，视频帧图像A'由A的数据增强变换得到，经过特征提取子网络后的特征A和特征A'，两特征点乘得到的相似度的优化目标为标签值1；视频帧图像A和视频帧图像B组成负样本对，即不相似视频帧对，经过特征提取子网络后的特征A和特征B，两特征间的相似度优化目标为标签0。基于以上目标构建目标函数，使用梯度下降优化方法，训练后就得到了特征提取子网络的权重，通过此模型能够得到有利于同源视频帧比对的视频帧特征表示。但是，其基本机制是视频帧正负样本对之间相似度得到损失进行模型训练。实验表明，更多的负样本参与损失计算能使得模型得到更好的效果，所以使用队列的方式(MoCo V1)或者使用更多的计算设备(SimCLR)来引入更多样本对，可以提升模型效果。然而，在模型训练中损失函数计算时，该方案只考虑了构造的视频帧样本对内两图之间的对比损失。

基于上述分析，本实施例中认为输入的一个批次的原视频帧图像两两之间相互为不相似视频帧对。如图6所示，四个原视频帧图像ABCD组成一个批次，经过数据增强后分别得到A1、B1、C、D1和A2、B2、C2、D2两路增强视频帧图像集，两路增强视频帧图像集内视频帧顺序保持一致。其中，相同索引位置的A1和A2、B1和B2、C1和C1、D1和D2为相似视频帧对，不相同索引位置的A1与B2、C2、D2分别为不相似视频帧对，以此类推。每个增强视频帧图像经特征提取子网络后，得到一个维度大小为固定维度(如：256维)的特征向量，图中FA1、FB1等表示特征向量，一组特征向量组成一个矩阵，输出的两组特征向量做互相关乘法计算(矩阵乘法)，即可得到两组特征的相似度矩阵，相似度矩阵为方阵，矩阵的秩为批次图像的大小，图6中秩为4。参照前述的相似视频帧对和不相似视频帧对，相似度矩阵的主对角线上为相似视频帧对相似度，即A1和A2、B1和B2、C1和C2、D1和D2，除主对角线外其他位置为不相似视频帧对的相似度，即A1和B2、B1和A2等，相似度矩阵对应的标签值，即为单位矩阵，其主对角线位置元素值为1，其余位置元素值为0。因此，计算整个批次的原视频帧图像之间的相似度，则能够有效的引入更多的负样本信息。同时，可以只构造相似视频帧对即可完成数据集输入准备的过程，从而避免了多余的计算并加快模型的训练速度。

S140、计算所述相似度矩阵的损失值。

相似度矩阵的损失值计算公式如下：

其中，C为两个网络输出特征的互相关矩阵，加和第一项为相似视频帧对的损失值，第二项为不相似视频帧对的损失值。

S150、如损失值大于阈值，则根据损失值调整对比训练网络，并返回S110；否则判定对比训练网络拟合，并转入S160；

具体使用反向传播算法，调整对比训练网络的参数。不断迭代上述步骤，以使损失值不断减小，直至小于等于阈值。

S160、提取对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。

训练完成的对比训练网络，其网络结构中包含两路特征提取子网络，并不适用于特征提取的应用。本实施例中，将任一路特征提取子网络从对比训练网络的结构中剥离出来，即完成了视频帧特征提取模型的训练。对于需要特征提取的视频帧样例集，经过该视频帧特征提取模型的一次前向传播，视频帧特征提取模型的输出即是所需要的对比特征。

综上所述，现有深度卷积网络的训练需要大量的视频帧数据，在有监督学习的情境下，需要对大量视频帧进行人工标注，给定视频帧正确的标签，才能完成网络模型的训练。而本实施例的视频帧特征提取模型的训练方法中采用的自监督对比训练网络，无需进行数据标注工作，采用自身设定的样本对生成方式即可完成标签的自动生成，从而达到网络训练的目的。因此，对比训练网络的数据集拥有容易构造，数据规模很大，无需标注成本等优势。另一方面，网络学习的目标即是对视频帧的各种格式和变换、以及遮挡等处理鲁棒，而对比训练网络可以同时接受两路视频帧作为输入，从而让网络学习相应的变换，所以对比训练网络的结构也符合视频帧样例比对的需求。再一方面，本实施例使用相似度矩阵的方式，获得了正样本对的损失和大量负样本对的损失，对于训练得到效果较好的模型十分有益。原视频帧图像采样方式，正样本对和负样本对数量相当，因为正样本对很相似，拉近网络对正样本对输出的特征距离较容易，而单个视频帧，拉远所有其他视频帧与其特征的距离则较难，要使用大量的负样本对才可以完成。因此，本实施例使用相似度矩阵的方式来增加负样本对数据，引入大量负样本提升了网络效果。

实施例2、本实施例的视频帧特征提取模型的训练系统，参见图7所示，包括：图像增强单元210、双路特征提取单元220、相似度矩阵单元230、损失值计算单元240、判断单元250，以及单路网络提取单元260。

图像增强单元210，用于将任一批次的原视频帧图像经过图像增强后，获取两路增强视频帧图像集。具体的，首先收集原视频帧数据集，例如收集约60万张原视频帧图像，并且保证数据集中没有大量相同的原视频帧图像。具体可以采用网络爬取的随机图像数据集，虽然不能避免出现相同的原视频帧图像，但是概率较小，因此可以满足数据集中没有大量相同的原视频帧图像；或者采用已有的数据集。然后对原视频帧数据集中任一批次的原视频帧图像进行图像增强，具体采用包括但不限于：上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化，或/和浮雕。数据增强的多样性也会使得网络模型能够适应更多种类的视频帧变换方式，增强模型鲁棒性。与传统的人手工标注视频帧样本标签的方式不同，通过对原视频帧图像增强操作，自然而然就标注了视频帧对的标签，即原视频帧图像与经过如上述变换的增强视频帧图像之间为相似视频帧对，以及同一原视频帧图像增强后得到的各增强视频帧图像两两之间也互为相似视频帧对；不同原视频帧图像之间为不相似视频帧对，以及非同一原视频帧图像增强后得到的各增强视频帧图像两两之间也互为不相似视频帧对。例如：相似视频帧标签值为1，不相似视频帧标签值为0。之后得到两路增强视频帧图像集，两路增强视频帧图像集内的视频帧顺序保持一致。

双路特征提取单元220，用于将两路增强视频帧图像集分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集。具体的，对比训练网络中包含两路相同或不同结构的特征提取子网络分支，用于接收两路视频帧的输入，通过网络将视频帧映射到低维度的空间表示，对比两路网络的输出相似度，即可评价两路输入视频帧的相似程度。特征提取子网络的主干网络是具有跨层连接结构的网络，例如：以ResNet网络、DenseNet网络，或者SE-Net网络，一方面这类网络模型由于加了跨层连接，使得训练过程的梯度变化更加平滑，不容易出现梯度消失的问题，从而有利于网络向更深的更具变大的结构迈进，而深度学习的观点也普遍认为更深的网络学习到的特征越具有表现力，降低数据噪声对模型的影响；另一方面，ResNet50作为经典的网络结构，很多硬件平台都做了充分的优化，能够保证模型在实际进行特征提取过程中的效率。再配合特征维度映射层和归一化层，实现特征的提取。具体在本实施例中，将两路增强视频帧图像集分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集。相较传统的特征提取方式，只能适应某几种视频帧变换并且难以修改的缺点，本实施例的方法基于对比训练网络的特征提取方式，可以在数据集的数据增强方式上做更新，能达到改变模型适应范围的目的。

相似度矩阵单元230，用于将两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵。具体的，由于各视频帧图像已经被自动标记了相似或不相似标签，因此获得两路特征集中的各特征也带有相应的标签。本实施例中认为输入的一个批次的原视频帧图像两两之间相互为不相似视频帧对。例如：四个原视频帧图像ABCD组成一个批次，经过数据增强后分别得到A1、B1、C、D1和A2、B2、C2、D2两路增强视频帧图像集，两路增强视频帧图像集内视频帧顺序保持一致。其中，相同索引位置的A1和A2、B1和B2、C1和C1、D1和D2为相似视频帧对，不相同索引位置的A1与B2、C2、D2分别为不相似视频帧对，以此类推。每个增强视频帧图像经特征提取子网络后，得到一个维度大小为固定维度(如：256维)的特征向量，FA1、FB1等表示特征向量，一组特征向量组成一个矩阵，输出的两组特征向量做互相关乘法计算(矩阵乘法)，即可得到两组特征的相似度矩阵，相似度矩阵为方阵，矩阵的秩为批次图像的大小。参照前述的相似视频帧对和不相似视频帧对，相似度矩阵的主对角线上为相似视频帧对相似度，即A1和A2、B1和B2、C1和C2、D1和D2，除主对角线外其他位置为不相似视频帧对的相似度，即A1和B2、B1和A2等，相似度矩阵对应的标签值，即为单位矩阵，其主对角线位置元素值为1，其余位置元素值为0。因此，计算整个批次的原视频帧图像之间的相似度，则能够有效的引入更多的负样本信息。同时，可以只构造相似视频帧对即可完成数据集输入准备的过程，从而避免了多余的计算并加快模型的训练速度。

损失值计算单元240，用于计算所述相似度矩阵的损失值。相似度矩阵的损失值计算公式如下：其中，C为两个网络输出特征的互相关矩阵，加和第一项为相似视频帧对的损失值，第二项为不相似视频帧对的损失值。

判断单元250，如损失值大于阈值，则根据损失值调整对比训练网络，并返回图像增强单元210；否则判定对比训练网络拟合，并转入单路网络提取单元260。具体使用反向传播算法，调整对比训练网络的参数。不断迭代，以使损失值不断减小，直至小于等于阈值。

单路网络提取单元260，用于提取对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。训练完成的对比训练网络，其网络结构中包含两路特征提取子网络，并不适用于特征提取的应用。本实施例中，将任一路特征提取子网络从对比训练网络的结构中剥离出来，即完成了视频帧特征提取模型的训练。对于需要特征提取的视频帧样例集，经过该视频帧特征提取模型的一次前向传播，视频帧特征提取模型的输出即是所需要的对比特征。

综上所述，现有深度卷积网络的训练需要大量的视频帧数据，在有监督学习的情境下，需要对大量视频帧进行人工标注，给定视频帧正确的标签，才能完成网络模型的训练。而本实施例的视频帧特征提取模型的训练系统中采用的自监督对比训练网络，无需进行数据标注工作，采用自身设定的样本对生成方式即可完成标签的自动生成，从而达到网络训练的目的。因此，对比训练网络的数据集拥有容易构造，数据规模很大，无需标注成本等优势。另一方面，网络学习的目标即是对视频帧的各种格式和变换、以及遮挡等处理鲁棒，而对比训练网络可以同时接受两路视频帧作为输入，从而让网络学习相应的变换，所以对比训练网络的结构也符合视频帧样例比对的需求。再一方面，本实施例使用相似度矩阵的方式，获得了正样本对的损失和大量负样本对的损失，对于训练得到效果较好的模型十分有益。原视频帧图像采样方式，正样本对和负样本对数量相当，因为正样本对很相似，拉近网络对正样本对输出的特征距离较容易，而单个视频帧，拉远所有其他视频帧与其特征的距离则较难，要使用大量的负样本对才可以完成。因此，本实施例使用相似度矩阵的方式来增加负样本对数据，引入大量负样本提升了网络效果。

实施例3、本实施例的计算机设备，参见图8所示，显示的计算机设备300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备300以通用计算设备的形式表现。计算机设备300的组件可以包括但不限于：一个或者多个处理器或者处理单元301，系统存储器302，连接不同系统组件(包括系统存储器302和处理单元301)的总线303。

总线303表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备300典型的包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备300访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器302可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)304和/或高速缓存305。计算机设备300可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统306可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线303相连。系统存储器302可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块307的程序/实用工具308，可以存储在例如系统存储器302中，这样的程序模块307包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块307通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备300也可以与一个显示器310或多个外部设备309(例如键盘、指向设备、等)通信，还可与一个或者多个使得用户能与该计算机设备300交互的设备通信，和/或与使得该计算机设备300能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口311进行。并且，计算机设备300还可以通过网络适配器312与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网通信。如图8所示，网络适配器312通过总线303与计算机设备300的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元301通过运行存储在系统存储器302中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种视频帧特征提取模型的训练方法，包括下列步骤：S110、将任一批次的原视频帧图像经过图像增强后，获取两路增强视频帧图像集；S120、将所述的两路增强视频帧图像集分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集；S130、将所述的两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵；S140、计算所述相似度矩阵的损失值；S150、如所述的损失值大于阈值，则根据所述的损失值调整所述对比训练网络，并返回S110；否则判定所述的对比训练网络拟合，并转入S160；S160、提取所述对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。

实施例4、本实施例的包含计算机可执行指令的存储介质，其内部存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的一种视频帧特征提取模型的训练方法，包括下列步骤：S110、将任一批次的原视频帧图像经过图像增强后，获取两路增强视频帧图像集；S120、将所述的两路增强视频帧图像集分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集；S130、将所述的两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵；S140、计算所述相似度矩阵的损失值；S150、如所述的损失值大于阈值，则根据所述的损失值调整所述对比训练网络，并返回S110；否则判定所述的对比训练网络拟合，并转入S160；S160、提取所述对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。

本实施例的包含计算机可执行指令的存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频帧特征提取模型的训练方法，其特征在于，包括下列步骤：

S1、将随机选取的原视频帧批次数据经过图像增强后，获得两批次增强视频帧，增强后数据批次内顺序与原批次顺序保持一致；

S2、所述的两批次增强视频帧相同索引位置的数据自动构成正样本对，不同索引位置的数据自动构成负样本对；

S3、将所述的两批次增强视频帧分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集；

S4、将所述的两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵和标签值；

S5、根据所述相似度矩阵和标签值计算损失值；

S6、如所述的损失值大于阈值，则根据所述的损失值调整所述对比训练网络，并返回S1；否则判定所述的对比训练网络拟合，并转入S7；

S7、提取所述对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。

2.如权利要求1所述的视频帧特征提取模型的训练方法，其特征在于，步骤S1中所述的图像增强，具体包括：上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化，或/和浮雕。

3.如权利要求2所述的视频帧特征提取模型的训练方法，其特征在于，原视频帧与其增强后得到的增强视频帧之间为相似视频帧对，以及同一原视频帧增强后得到的各增强视频帧两两之间互为相似视频帧对；不同原视频帧之间为不相似视频帧对，以及非同一原视频帧增强后得到的各增强视频帧两两之间互为不相似视频帧对。

4.如权利要求3所述的视频帧特征提取模型的训练方法，其特征在于，步骤S5中根据所述相似度矩阵和标签值计算损失值，具体通过如下公式计算：

5.如权利要求1所述的视频帧特征提取模型的训练方法，其特征在于，所述特征提取子网络的主干网络是具有跨层连接结构的网络。

6.如权利要求5所述的视频帧特征提取模型的训练方法，其特征在于，所述特征提取子网络的主干网络以ResNet网络、DenseNet网络，或者SE-Net网络作为基础。

7.一种视频帧特征提取模型的训练系统，其特征在于，包括：

图像增强单元，用于将随机选取的原视频帧批次数据经过图像增强后，获得两批次增强视频帧，增强后数据批次内顺序与原批次顺序保持一致；所述的两批次增强视频帧相同索引位置的数据自动构成正样本对，不同索引位置的数据自动构成负样本对；

双路特征提取单元，用于将所述的两批次增强视频帧分别输入对比训练网络包含的两路特征提取子网络，获得两路特征集；

相似度矩阵单元，用于将所述的两路特征集沿特征维度作互相关乘法计算，得到相似度矩阵和标签值；

损失值计算单元，用于根据所述相似度矩阵和标签值计算损失值；

判断单元，如所述的损失值大于阈值，则根据所述的损失值调整所述对比训练网络，并返回所述图像增强单元；否则判定所述的对比训练网络拟合，并转入单路网络提取单元；

所述单路网络提取单元，用于提取所述对比训练网络包含的任一路特征提取子网络，完成视频帧特征提取模型的训练。

8.一种计算机设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的视频帧特征提取模型的训练方法。

9.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6任一项所述的视频帧特征提取模型的训练方法。