CN113469289A

CN113469289A - 视频自监督表征学习方法、装置、计算机设备和介质

Info

Publication number: CN113469289A
Application number: CN202111017638.2A
Authority: CN
Inventors: 徐行; 张静然; 沈复民; 邵杰; 姚亚洲; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-10-01
Anticipated expiration: 2041-09-01
Also published as: CN113469289B

Abstract

本申请提供一种视频自监督表征学习方法、装置、计算机设备和介质，包括：获取大量视频样本，对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，基于每个视频特征序列构建时域图、对每个时域图进行图视角的对比增强，得到两个增强特征序列；构建视频自监督表征提取模型；采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型。本申请提供的视频自监督表征学习方法，无需人工标签，在图像领域对比学习的基础上扩展成序列帧的情形，并合理利用相邻帧间的相关性，高效的学习视频中视觉信息的特征，为下游视频任务服务。

Description

视频自监督表征学习方法、装置、计算机设备和介质

技术领域

本申请涉及视频的视觉特征表征学习领域，特别涉及一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备、计算机可读存储介质。

背景技术

视频中的相邻帧有很强的相关性和冗余行，同一视频在具体模式上不同的采样帧序列间是语义一致的。合理的利用这一特性，不仅可以减小人工标注的成本，而且可以更高效的提取视频中视觉特征。

近年来由于视频采集设备的普及性，如便携相机、智能手机等，和4G和5G时代给消费者带来移动网络便利体验，导致视频数据非常容易获取，并在互联网上呈指数级增长趋势。基于这些视频数据的信息挖掘和内容理解有重要学术和商业价值。利用深度学习技术进行视频内容理解，在商业和学术领域都表现出巨大优势。然而，如果应用传统的监督学习方法进行深度网络训练，以提取视频中的信息，需要预先花费巨大的代价对数据进行人工标注和清洗，同时这些标注信息只能体现数据在标签层的语义，很难体现视频数据的特有序列结构特征。自监督的信息挖掘方法作为一种重要的表征学习方法，可以有效的利用视频数据的这一特性，无需进行额外的标注，就能进行深度网络训练，然后服务下游的视频理解任务。

基于视频自监督表征学习问题，已成为一个重要的研究方向，尤其是应用对比学习的视频自监督学习方法，该方法通过比对神经网络提取的同一视频的不同视角下特征间的相似性，进行自监督网络训练。现有的基于对比学习视频自监督学习方法主要通过扩展基于图像对比学习方法，只进行一定数量帧的空域的对比增强学习。这种方式下的视频自监督学习是通过验证输入空域特征对间相似性实施的，其中正样本的序列特征对都是采样于同一视频，而负样本序列特征对来源不同视频。

现有的基于对比学习视频自监督学习方法采用直接扩展基于图像对比学习方法，存在以下不足：（1）忽略视频本身的结构特性，只对每帧进行单独的处理，忽略了帧间语义关联。（2）由于只是扩展基图像的方法，并没有在视频角度下的进行多视角学习，无法高效的挖掘视频特征信息，且无法保证应用与不同视频源。

发明内容

本申请的目的是提供一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备、计算机可读存储介质，无需人工标签，能够利用视频中相邻帧间强相关性进行对比自监督学习来提取视频的表征，为下游视频任务服务。其具体方案如下：

本申请提供一种视频自监督表征学习方法，包括：

获取大量视频样本，对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，基于每个视频特征序列构建时域图，对每个时域图进行图视角的对比增强，得到两个增强特征序列；

构建视频自监督表征提取模型；

采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型。

优选的，所述对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，包括：

按照预设采样函数对视频样本进行采样，并采用包含图像裁剪、灰度变换、随机水平翻转和随机添加高斯噪声的数据增强函数对采样的视频帧进行图像增强变换，得到增强视频帧序列；

利用卷积神经网络对增强视频帧序列进行特征提取，得到视频特征序列；

按照上述方法对一个视频样本执行2次得到该视频样本的两个视频特征序列。

优选的，所述基于每个视频特征序列构建时域图，包括：

求解视频特征序列中任意两个特征点间的相似性值；

根据视频特征序列中任意两个特征点间的相似性值，构造视频特征序列中任意两个特征点间的邻接矩阵；

根据视频特征序列的结构特征，在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息，得到不同跳数的邻接矩阵；

对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合，得到包含相似性和时序性的融合邻接矩阵；

根据视频特征序列和融合邻接矩阵构建时域图，其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成，边的权值由融合邻接矩阵指定。

优选的，所述对每个时域图进行图视角的对比增强，得到两个增强特征序列，包括：

在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换，得到增强邻接矩阵；

对增强邻接矩阵进行图卷积推理，得到增强特征序列。

优选的，所述采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型，包括：

获取动态更新的负样本特征序列；

基于每个视频样本的负样本特征序列、两个增强特征序列，采用噪声对比损失函数对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型。

本申请还提供一种视频自监督表征学习装置，包括：

训练数据获取模块，用于获取大量视频样本，对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，基于每个视频特征序列构建时域图，对每个时域图进行图视角的对比增强，得到两个增强特征序列；

神经模型构建模块，用于构建视频自监督表征提取模型；

神经模型训练模块，用于采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型。

优选的，所述训练数据获取模块包括：

相似性求解单元，用于求解视频特征序列中任意两个特征点间的相似性值；

邻接矩阵构造单元，用于根据视频特征序列中任意两个特征点间的相似性值，构造视频特征序列中任意两个特征点间的邻接矩阵；

邻接矩阵生成单元，用于根据视频特征序列的结构特征，在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息，得到不同跳数的邻接矩阵；

邻接矩阵求解单元，用于对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合，得到包含相似性和时序性的融合邻接矩阵；

时域图构建单元，用于根据视频特征序列和融合邻接矩阵构建时域图，其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成，边的权值由融合邻接矩阵指定。

优选的，所述训练数据获取模块还包括：

图增强变换单元，用于在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换，得到增强邻接矩阵；

图特征获取单元，用于对增强邻接矩阵进行图卷积推理，得到增强特征序列。

本申请还提供一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现上述视频自监督表征学习方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述视频自监督表征学习方法的步骤。

本申请提供一种视频自监督表征学习方法，包括：获取大量视频样本，对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，基于每个视频特征序列构建时域图、对每个时域图进行图视角的对比增强，得到两个增强特征序列；构建视频自监督表征提取模型；采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型。

可见，本申请提供的视频自监督表征学习方法，无需人工标签，在图像领域对比学习的基础上扩展成序列帧的情形，并合理利用相邻帧间的相关性，高效的学习视频中视觉信息的特征，为下游视频任务服务。

本申请同时还提供了一种视频自监督表征学习装置、计算机设备、计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频自监督表征学习方法的流程示意图；

图2为本申请实施例提供的一种基于每个视频特征序列构建时域图方法的流程示意图；

图3为本申请实施例提供的一种对时域图进行图视角的对比增强方法的流程示意图；

图4为本申请实施例提供的一种视频自监督表征学习装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护范围。

现有的基于对比学习视频自监督学习方法采用直接扩展基于图像的对比学习方法，存在以下不足：（1）忽略视频本身的结构特性，只对每帧进行单独的处理，忽略了帧间语义关联。（2）由于只是扩展基图像的方法，并没有在视频角度下的进行多视角学习，无法高效的挖掘视频特征信息，且无法保证应用于不同视频源。

基于上述问题，本实施例提供一种视频自监督表征学习方法，具体请参考图1，图1为本申请实施例提供的一种视频自监督表征学习方法的流程示意图，具体包括：

S11：获取大量视频样本，对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，基于每个视频特征序列构建时域图，对每个时域图进行图视角的对比增强，得到两个增强特征序列。

在一种可实现的实施方式中，对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，包括：按照预设采样函数对视频样本进行采样，并采用包含图像裁剪、灰度变换、随机水平翻转和随机添加高斯噪声的数据增强函数对采样的视频帧进行图像增强变换，得到增强视频帧序列；利用卷积神经网络对增强视频帧序列进行特征提取，得到视频特征序列；按照上述方法对一个视频样本执行2次得到该视频样本的两个视频特征序列。

在本实施例中，假设视频样本集

由N个样本

组成，N为整数，且该数据集中的样本没有标签。对每个视频样本

进行2次相同方法的采样和图像增强变换，得到该视频的两种增强视频帧序列表示

和

，T为采样和增强变换后的视频帧数量。该过程由以下表示：

，其中

表示采样函数，这里可以采用每间隔4帧采一帧，

表示数据增强函数，包括图像剪裁，灰度变换，水平翻转，添加高斯噪声4种数据增强方式，例如，可以同时采用这4种数据增强方式，也可以有随机性，例如随机水平翻转和随机添加高斯噪声有一半概率不进行，可以表示为：

，其中，

为图像裁剪，

为图像水平反转，

为图像灰度变换，

为图像添加高斯噪声，

为以0.5的概率采用这种数据增强变换方式，不断应用该过程可以保证每次提取到不同的增强视频帧序列数据，保证数据多样性，达到数据增强的目的，为后续步骤服务，让模型真正的学习本质特征。

其中，间隔4帧采样是我们采用的一种视频采样方式，不同的用户可以使用不同的采样方式。视频有很强的冗余性，同一视频中不同的采样帧序列满足同一分布，我们只需从同一视频中采集部分帧就可以训练。如果一个视频以30fps进行传输，那间隔4帧采样就能保证这个视频中每秒约8帧被采集。

在本实施例中，利用卷积神经网络对增强视频帧序列进行特征提取，得到视频特征序列。具体的，对采样和图像增强处理后的两个增强视频帧序列进行特征提取，运用神经卷积网络

提取具体视频序列的特征：

，其中，

为增强视频帧序列

的特征，

为增强视频帧序列

的正样本对

的特征，且

可表示为视频特征序列

，

为特征序列的长度。

其中，在分类任务中，正样本通常指与某个具体的样本属于同一类的样本。在自监督任务中由于没有类别信息可以利用，所以某个样本增强后的样本被认为是正样本，其他样本是负样本，正样本间组成的两两集合认为是一个样本对，所以

和

为一个正样本对。

本实施例中卷积神经网络

是任意3D卷积网络，本实施例采用的是S3D作为骨干卷积网络，在进行特征提取时将增强视频帧序列

、

分别输入到网络

，即可获得视频特征序列

和

。

在一种可实现的实施方式中，基于每个视频特征序列构建时域图，是指在提取的特征序列

基础上构建T'-时域图，其中

为特征点

的节点集合，

为特征节点

和

间的边

集合。在提取的特征序列

基础上构建T'-时域图也是相同的方法，这里以特征序列

为例进行介绍。

如图2所示，基于每个视频特征序列构建时域图，包括：

S201：求解视频特征序列中任意两个特征点间的相似性值。

具体的，首先求解特征序列

中特征点

间的相似性，

间的相似性可表示为：

，其中，

是可学习的参数矩阵，

为指数函数，

为特征点

和

间的相似性分数，

或者

，

从区间里随机取值。这里，将特征序列

中任意两个特征点

取出，输入到公式中即可求出相似性值

，目的是为了服务后续构造时域图时，赋值时域图中节点边上的权值。

S202：根据视频特征序列中任意两个特征点间的相似性值，构造视频特征序列中任意两个特征点间的邻接矩阵。

具体的，在已求取的特征点间相似性

基础上构造序列

间特征点的邻接矩阵

：

，即通过将已求取的相似性值

填入到邻接矩阵

中即可。

S203：根据视频特征序列的结构特征，在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息，得到不同跳数的邻接矩阵。

具体的，由于邻接矩阵

是无向全连接的，现根据视频中特征序列

的结构特性添加帧时序信息，可以获取不同跳数的邻接矩阵

。此矩阵

将中非k近邻的特征点相似性置为0，可表示为：

，其中，k表示特征节点

和

间的帧距离，在

中只有帧距离k的节点间权值设置为

，其他设置为0。由于不同跳数的邻接矩阵有不同形式的时序特征，融合不同的时序的步数信息，可以更高效的挖掘视频特征。

S204：对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合，得到包含相似性和时序性的融合邻接矩阵。

具体的，对不同跳数邻域矩阵

中特征点

间相似性值进行扩散融合，以获取最终的包含相似性和时序性的邻接矩阵

，该过程表示为：

，其中

为相似性递减因子，只需满足条件

，本处设置为

，

为0.5。通过获得高度融合的邻接矩阵，有利于后面步骤求解出最终的T'-时域图。

S205：根据视频特征序列和融合邻接矩阵构建时域图，其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成，边的权值由融合邻接矩阵指定。

具体的，最终由提取后的特征序列

以及融合邻接矩阵

构建 T'-时域图，其中

为特征序列

中特征点

的节点集合，

为特征节点

和

间的边

集合，且边上的权值由

指定。构建的T'-时域图可以进行图视角下的视频关联学习。

在一种可实现的实施方式中，对每个时域图进行图视角的对比增强，得到两个增强特征序列，由于对每一个时域图都是采用相同的方法得到增强特征序列，所以以其中一个为例进行介绍。

具体的，如图3所示，每个时域图进行图视角的对比增强，得到两个增强特征序列，包括：

S301：在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换，得到增强邻接矩阵。

具体的，在构建的时域图

的基础上进行图视角的增强，以增强帧间特征关联性，具体地，时域图

的增强变换可由邻接矩阵

的增强变换表示，需要满足轻微扰动

中的边和节点，同时不破坏

的结构特征，可以使用Gumbel-trick (康拜儿采样技巧)满足这一要求：

，其中，

是邻接矩阵中i行j列中元素的值，

是增强变换后的邻接矩阵，

为对数函数，

为符合康拜儿分布变量，

为温度超参数，设为0.07。由于图增强变换过程中添加了随机变量，可以保证增强的变化行，同时最本质的图结构不会改变。

S302：对增强邻接矩阵进行图卷积推理，得到增强特征序列。

具体的，在增强时域图的基础上，对增强处理后的序列特征

进行图卷积推理，以充分融合不同层次特征，表示为：

，其中，

是正样本；

和

都是在不同随机因子下进行图增强后的增强邻接矩阵，它们分别为

和

由S301步骤获取的增强邻接矩阵；

为图卷积函数；

为同一视频样本的两个增强样本在图增强后进行特征提取后的不同表示，虽然有不同的表示形式，但有相同的本质特征，都是为了进行多视角学习，它们可以用于后续的训练。

S12：构建视频自监督表征提取模型。

具体的，构建的视频自监督表征提取模型为

。

是任意3D卷积网络，本实施例采用的是S3D作为骨干卷积网络。

S13：采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型。

在一种可实现的实施方式中，采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型，包括：获取动态更新的负样本特征序列；基于每个视频样本的负样本特征序列、两个增强特征序列，采用噪声对比损失函数对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型。

具体的，根据最终的增强特征

进行对比学习，在对比样本相似度的过程中，如果只考虑样本的正样本特征对

，会导致模型训练最终得到平凡解，只有在一定数量的负样本特征基础上模型才能保证模型正常优化。为解决这一问题并保证有足够数量的负样本，本申请在训练过程中维护了一个特征队列

来实时的更新模型训练过程中的负样本特征，库的大小为K=16384，且库中样本特征会在训练过程中进行动态更新，在

的基础上采用噪声对比损失函数进行模型训练：

，其中，

为对数函数，

为指数函数，

为温度超参数，设为0.07，

为正样本特征，

为负样本特征。由于每次的队列

中负样本特征

是从所有样本特征集中随机抽取，又维持固定大小，不仅可以减小计算量还可以保证负样本的多样性。

具体的，由于需要大量负样本信息辅助对比学习，来保证模型训练效果，如果直接应用数据集中所有负样本进行对比学习训练，现有的硬件不支持这种操作。可以以一种机制存储历史的负样本信息，维持一个稳定大小的记忆库，在保证负样本量的同时，满足现有的硬件条件。

就是记忆存储机制中一种具体存储库，它使用动量更新机制进行更新。库的样本会在训练过程中进行动态更新：

，其中，

为在某次训练迭代过程中的增强视频特征，由于每次的记忆库是从所有样本集中随机抽取，且维持固定大小，不仅可以减小计算量还可以保证负样本的多样性。

以上过程完成后，得到训练好的视频自监督表征提取模型

，可以用训练好的视频自监督表征提取模型

服务下游应用，例如，可以进行视频动作识别，动作识别任务可表示为：

，其中，

为动作的预测标签，

为求最大值函数，

为求概率函数，

，C为总共的动作类别个数。

为在训练好的视频自监督表征提取模型

基础上、下游任务微调后的视频自监督表征提取模型。微调过程可以理解为在该下游小数据集上的进行预热训练的过程。视频动作识别的步骤包括：步骤（1）：对一段给定包含行为的视频

，利用

提取该视频的预测分类向量

，该预测分类向量为一个行向量，其中元素

为对应类别

的预测分数，具体可以表示为：

。步骤（2）：对测试视频的预测分类向量

，按数值模的大小进行排序，模最大预测分数

所对应的类别索引

即是该视频中预测行为类别

。

本申请的发明原理：为了更好的利用不断增长的无标签视频数据集，并挖掘这些视频中隐藏信息，本申请利用对比学习，在提出的图增强视角下进行视频关联性表征学习，可在无人工标注的视频数据集上进行自监督训练，获取一个预训练模型，以提取高效的视频表征，服务下游视频数据难采集的任务。

具体地，本申请提出的时域图构建方法，以充分利用视频中失序结构特性；其次，在时域图的基础上进行图视角对比学习，将视频中的相邻帧关联性作为潜在自监督信号进行模型训练。本申请获取的预训练视频自监督表征提取模型可弥补下游任务中视频数据集不足而导致的训练困难问题。

下面对本申请实施例提供的一种视频自监督表征学习装置进行介绍，下文描述的视频自监督表征学习装置与上文描述的视频自监督表征学习方法可相互对应参照。

参考图4，本申请还提供一种视频自监督表征学习装置，包括：

训练数据获取模块41，用于获取大量视频样本，对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，基于每个视频特征序列构建时域图，对每个时域图进行图视角的对比增强，得到两个增强特征序列；

神经模型构建模块42，用于构建视频自监督表征提取模型；

神经模型训练模块43，用于采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型。

具体的，训练数据获取模块41包括：

具体的，训练数据获取模块41还包括：

图特征获取单元，用于对增强邻接矩阵进行图卷积推理，得到增强特征序列

由于视频自监督表征学习装置部分的实施例与视频自监督表征学习方法部分的实施例相互对应，因此视频自监督表征学习装置部分的实施例请参见视频自监督表征学习方法部分的实施例的描述，这里暂不赘述。

下面对本申请实施例提供的一种计算机设备进行介绍，下文描述的计算机设备与上文描述的视频自监督表征学习方法可相互对应参照。

本申请还提供一种计算机设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序以实现上述视频自监督表征学习方法的步骤。

由于计算机设备部分的实施例与视频自监督表征学习方法部分的实施例相互对应，因此计算机设备部分的实施例请参见视频自监督表征学习方法部分的实施例的描述，这里暂不赘述。

下面对本申请实施例提供的一种计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的视频自监督表征学习方法可相互对应参照。

本申请提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述视频自监督表征学习方法的步骤。

由于计算机可读存储介质部分的实施例与视频自监督表征学习方法部分的实施例相互对应，因此计算机可读存储介质部分的实施例请参见视频自监督表征学习方法部分的实施例的描述，这里暂不赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种视频自监督表征学习方法，其特征在于，包括：

构建视频自监督表征提取模型；

2.根据权利要求1所述的视频自监督表征学习方法，其特征在于，所述对每个视频样本进行采样、图像增强变换和特征提取，生成两个视频特征序列，包括：

3.根据权利要求1所述的视频自监督表征学习方法，其特征在于，所述基于每个视频特征序列构建时域图，包括：

求解视频特征序列中任意两个特征点间的相似性值；

4.根据权利要求3所述的视频自监督表征学习方法，其特征在于，所述对每个时域图进行图视角的对比增强，得到两个增强特征序列，包括：

对增强邻接矩阵进行图卷积推理，得到增强特征序列。

5.根据权利要求1所述的视频自监督表征学习方法，其特征在于，所述采用增强特征序列对视频自监督表征提取模型进行训练和优化，得到训练好的视频自监督表征提取模型，包括：

获取动态更新的负样本特征序列；

6.一种视频自监督表征学习装置，其特征在于，包括：

神经模型构建模块，用于构建视频自监督表征提取模型；

7.根据权利要求6所述的视频自监督表征学习装置，其特征在于，所述训练数据获取模块包括：

8.根据权利要求7所述的所述的视频自监督表征学习装置，其特征在于，所述训练数据获取模块还包括：

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至5中任一项所述视频自监督表征学习方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述视频自监督表征学习方法的步骤。