CN113469289A - 视频自监督表征学习方法、装置、计算机设备和介质 - Google Patents
视频自监督表征学习方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN113469289A CN113469289A CN202111017638.2A CN202111017638A CN113469289A CN 113469289 A CN113469289 A CN 113469289A CN 202111017638 A CN202111017638 A CN 202111017638A CN 113469289 A CN113469289 A CN 113469289A
- Authority
- CN
- China
- Prior art keywords
- video
- sequence
- feature
- self
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种视频自监督表征学习方法、装置、计算机设备和介质,包括:获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图、对每个时域图进行图视角的对比增强,得到两个增强特征序列;构建视频自监督表征提取模型;采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。本申请提供的视频自监督表征学习方法,无需人工标签,在图像领域对比学习的基础上扩展成序列帧的情形,并合理利用相邻帧间的相关性,高效的学习视频中视觉信息的特征,为下游视频任务服务。
Description
技术领域
本申请涉及视频的视觉特征表征学习领域,特别涉及一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备、计算机可读存储介质。
背景技术
视频中的相邻帧有很强的相关性和冗余行,同一视频在具体模式上不同的采样帧序列间是语义一致的。合理的利用这一特性,不仅可以减小人工标注的成本,而且可以更高效的提取视频中视觉特征。
近年来由于视频采集设备的普及性,如便携相机、智能手机等,和4G和5G时代给消费者带来移动网络便利体验,导致视频数据非常容易获取,并在互联网上呈指数级增长趋势。基于这些视频数据的信息挖掘和内容理解有重要学术和商业价值。利用深度学习技术进行视频内容理解,在商业和学术领域都表现出巨大优势。然而,如果应用传统的监督学习方法进行深度网络训练,以提取视频中的信息,需要预先花费巨大的代价对数据进行人工标注和清洗,同时这些标注信息只能体现数据在标签层的语义,很难体现视频数据的特有序列结构特征。自监督的信息挖掘方法作为一种重要的表征学习方法,可以有效的利用视频数据的这一特性,无需进行额外的标注,就能进行深度网络训练,然后服务下游的视频理解任务。
基于视频自监督表征学习问题,已成为一个重要的研究方向,尤其是应用对比学习的视频自监督学习方法,该方法通过比对神经网络提取的同一视频的不同视角下特征间的相似性,进行自监督网络训练。现有的基于对比学习视频自监督学习方法主要通过扩展基于图像对比学习方法,只进行一定数量帧的空域的对比增强学习。这种方式下的视频自监督学习是通过验证输入空域特征对间相似性实施的,其中正样本的序列特征对都是采样于同一视频,而负样本序列特征对来源不同视频。
现有的基于对比学习视频自监督学习方法采用直接扩展基于图像对比学习方法,存在以下不足:(1)忽略视频本身的结构特性,只对每帧进行单独的处理,忽略了帧间语义关联。(2)由于只是扩展基图像的方法,并没有在视频角度下的进行多视角学习,无法高效的挖掘视频特征信息,且无法保证应用与不同视频源。
发明内容
本申请的目的是提供一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备、计算机可读存储介质,无需人工标签,能够利用视频中相邻帧间强相关性进行对比自监督学习来提取视频的表征,为下游视频任务服务。其具体方案如下:
本申请提供一种视频自监督表征学习方法,包括:
获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
构建视频自监督表征提取模型;
采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
优选的,所述对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,包括:
按照预设采样函数对视频样本进行采样,并采用包含图像裁剪、灰度变换、随机水平翻转和随机添加高斯噪声的数据增强函数对采样的视频帧进行图像增强变换,得到增强视频帧序列;
利用卷积神经网络对增强视频帧序列进行特征提取,得到视频特征序列;
按照上述方法对一个视频样本执行2次得到该视频样本的两个视频特征序列。
优选的,所述基于每个视频特征序列构建时域图,包括:
求解视频特征序列中任意两个特征点间的相似性值;
根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
优选的,所述对每个时域图进行图视角的对比增强,得到两个增强特征序列,包括:
在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
对增强邻接矩阵进行图卷积推理,得到增强特征序列。
优选的,所述采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型,包括:
获取动态更新的负样本特征序列;
基于每个视频样本的负样本特征序列、两个增强特征序列,采用噪声对比损失函数对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
本申请还提供一种视频自监督表征学习装置,包括:
训练数据获取模块,用于获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
神经模型构建模块,用于构建视频自监督表征提取模型;
神经模型训练模块,用于采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
优选的,所述训练数据获取模块包括:
相似性求解单元,用于求解视频特征序列中任意两个特征点间的相似性值;
邻接矩阵构造单元,用于根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
邻接矩阵生成单元,用于根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
邻接矩阵求解单元,用于对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
时域图构建单元,用于根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
优选的,所述训练数据获取模块还包括:
图增强变换单元,用于在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
图特征获取单元,用于对增强邻接矩阵进行图卷积推理,得到增强特征序列。
本申请还提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现上述视频自监督表征学习方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述视频自监督表征学习方法的步骤。
本申请提供一种视频自监督表征学习方法,包括:获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图、对每个时域图进行图视角的对比增强,得到两个增强特征序列;构建视频自监督表征提取模型;采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
可见,本申请提供的视频自监督表征学习方法,无需人工标签,在图像领域对比学习的基础上扩展成序列帧的情形,并合理利用相邻帧间的相关性,高效的学习视频中视觉信息的特征,为下游视频任务服务。
本申请同时还提供了一种视频自监督表征学习装置、计算机设备、计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频自监督表征学习方法的流程示意图;
图2为本申请实施例提供的一种基于每个视频特征序列构建时域图方法的流程示意图;
图3为本申请实施例提供的一种对时域图进行图视角的对比增强方法的流程示意图;
图4为本申请实施例提供的一种视频自监督表征学习装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护范围。
现有的基于对比学习视频自监督学习方法采用直接扩展基于图像的对比学习方法,存在以下不足:(1)忽略视频本身的结构特性,只对每帧进行单独的处理,忽略了帧间语义关联。(2)由于只是扩展基图像的方法,并没有在视频角度下的进行多视角学习,无法高效的挖掘视频特征信息,且无法保证应用于不同视频源。
基于上述问题,本实施例提供一种视频自监督表征学习方法,具体请参考图1,图1为本申请实施例提供的一种视频自监督表征学习方法的流程示意图,具体包括:
S11:获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列。
在一种可实现的实施方式中,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,包括:按照预设采样函数对视频样本进行采样,并采用包含图像裁剪、灰度变换、随机水平翻转和随机添加高斯噪声的数据增强函数对采样的视频帧进行图像增强变换,得到增强视频帧序列;利用卷积神经网络对增强视频帧序列进行特征提取,得到视频特征序列;按照上述方法对一个视频样本执行2次得到该视频样本的两个视频特征序列。
在本实施例中,假设视频样本集由N个样本组成,N为整数,且该数
据集中的样本没有标签。对每个视频样本进行2次相同方法的采样和图像增强变换,得
到该视频的两种增强视频帧序列表示和,T为采样和增强变换后的视频帧数量。该过程由以下表示:,其中表示采样函数,这里可以采用每间隔4帧采一帧,表示数据增强函数,包括图像剪裁,灰度变换,水平翻转,添加高斯噪声4种数据增
强方式,例如,可以同时采用这4种数据增强方式,也可以有随机性,例如随机水平翻转和随
机添加高斯噪声有一半概率不进行,可以表示为: ,其中,为图像裁剪,为图像水平反转,为图像灰度变换,为
图像添加高斯噪声, 为以0.5的概率采用这种数据增强变换方式,不断应用该过程可
以保证每次提取到不同的增强视频帧序列数据,保证数据多样性,达到数据增强的目的,为
后续步骤服务,让模型真正的学习本质特征。
其中,间隔4帧采样是我们采用的一种视频采样方式,不同的用户可以使用不同的采样方式。视频有很强的冗余性,同一视频中不同的采样帧序列满足同一分布,我们只需从同一视频中采集部分帧就可以训练。如果一个视频以30fps进行传输,那间隔4帧采样就能保证这个视频中每秒约8帧被采集。
在本实施例中,利用卷积神经网络对增强视频帧序列进行特征提取,得到视频特
征序列。具体的,对采样和图像增强处理后的两个增强视频帧序列进行特征提取,运用神经
卷积网络提取具体视频序列的特征:,其中,为增强视频帧序列
的特征,为增强视频帧序列的正样本对的特征,且可表示为视频特征序列,为特征序列的长度。
其中,在分类任务中,正样本通常指与某个具体的样本属于同一类的样本。在自监
督任务中由于没有类别信息可以利用,所以某个样本增强后的样本被认为是正样本,其他
样本是负样本,正样本间组成的两两集合认为是一个样本对,所以和为一个正样本
对。
在一种可实现的实施方式中,基于每个视频特征序列构建时域图,是指在提取的
特征序列基础上构建T'-时域图,其中为特征点的节点集合,为特征节点和间的边集合。在提取的特征序列基础上构建T'-时域图也是相
同的方法,这里以特征序列为例进行介绍。
如图2所示,基于每个视频特征序列构建时域图,包括:
S201:求解视频特征序列中任意两个特征点间的相似性值。
具体的,首先求解特征序列中特征点间的相似性,间的相似性
可表示为:,其中,是可学习的参数矩阵, 为指数
函数,为特征点和间的相似性分数,或者,从
区间里随机取值。这里,将特征序列中任意两个特征点取出,输入到公式中即可
求出相似性值,目的是为了服务后续构造时域图时,赋值时域图中节点边上的权值。
S202:根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵。
S203:根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵。
具体的,由于邻接矩阵是无向全连接的,现根据视频中特征序列的结构特性
添加帧时序信息,可以获取不同跳数的邻接矩阵。此矩阵将中非k近
邻的特征点相似性置为0,可表示为:,其中,k表示特征节点和间的帧距离,在中只有帧距离k的节点间权值设置为,其他
设置为0。由于不同跳数的邻接矩阵有不同形式的时序特征,融合不同的时序的步数信息,
可以更高效的挖掘视频特征。
S204:对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵。
具体的,对不同跳数邻域矩阵中特征点间相似性值进行扩散融合,以
获取最终的包含相似性和时序性的邻接矩阵,该过程表示为:,其中
为相似性递减因子,只需满足条件,本处设置为,为0.5。
通过获得高度融合的邻接矩阵,有利于后面步骤求解出最终的T'-时域图。
S205:根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
具体的,最终由提取后的特征序列以及融合邻接矩阵
构建 T'-时域图 ,其中为特征序列中特征点的节点集合,为特征节点和
间的边集合,且边上的权值由指定。构建的T'-时域图可以进行图视角下的视频关联
学习。
在一种可实现的实施方式中,对每个时域图进行图视角的对比增强,得到两个增强特征序列,由于对每一个时域图都是采用相同的方法得到增强特征序列,所以以其中一个为例进行介绍。
具体的,如图3所示,每个时域图进行图视角的对比增强,得到两个增强特征序列,包括:
S301:在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵。
具体的,在构建的时域图的基础上进行图视角的增强,以增强帧间特征关联性,
具体地,时域图的增强变换可由邻接矩阵的增强变换表示,需要满足轻微扰动中的
边和节点,同时不破坏的结构特征,可以使用Gumbel-trick (康拜儿采样技巧)满足这一
要求:,其中,是邻接矩阵 中i行j列中元素的值,是增强
变换后的邻接矩阵,为对数函数,为符合康拜儿分布变量,为温度超参数,设
为0.07。由于图增强变换过程中添加了随机变量,可以保证增强的变化行,同时最本质的图
结构不会改变。
S302:对增强邻接矩阵进行图卷积推理,得到增强特征序列。
具体的,在增强时域图的基础上,对增强处理后的序列特征进行图卷积推理,
以充分融合不同层次特征,表示为:,其中,是正样本;和
都是在不同随机因子下进行图增强后的增强邻接矩阵,它们分别为和由S301步骤获
取的增强邻接矩阵;为图卷积函数;为同一视频样本的两个增强样本在
图增强后进行特征提取后的不同表示,虽然有不同的表示形式,但有相同的本质特征,都是
为了进行多视角学习,它们可以用于后续的训练。
S12:构建视频自监督表征提取模型。
S13:采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
在一种可实现的实施方式中,采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型,包括:获取动态更新的负样本特征序列;基于每个视频样本的负样本特征序列、两个增强特征序列,采用噪声对比损失函数对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
具体的,根据最终的增强特征进行对比学习,在对比样本相似度的过程中,如果
只考虑样本的正样本特征对,会导致模型训练最终得到平凡解,只有在一定数量
的负样本特征基础上模型才能保证模型正常优化。为解决这一问题并保证有足够数量的负
样本,本申请在训练过程中维护了一个特征队列来实时的更新模型训练过
程中的负样本特征,库的大小为K=16384,且库中样本特征会在训练过程中进行动态更新,
在的基础上采用噪声对比损失函数进行模型训练:
,其中,为对数函数,为指数函数,为温度超参数,设为0.07,为正样本特征,为负样本特征。由于每次的队列中负样本特征是从所有样本
特征集中随机抽取,又维持固定大小,不仅可以减小计算量还可以保证负样本的多样性。
具体的,由于需要大量负样本信息辅助对比学习,来保证模型训练效果,如果直接
应用数据集中所有负样本进行对比学习训练,现有的硬件不支持这种操作。可以以一种机
制存储历史的负样本信息,维持一个稳定大小的记忆库,在保证负样本量的同时,满足现有
的硬件条件。就是记忆存储机制中一种具体存储库,它使用动量更新机制进行更新。库的
样本会在训练过程中进行动态更新:,其中,为在某次训练迭代过程中的增强
视频特征,由于每次的记忆库是从所有样本集中随机抽取,且维持固定大小,不仅可以减小
计算量还可以保证负样本的多样性。
以上过程完成后,得到训练好的视频自监督表征提取模型,可以用训练好的
视频自监督表征提取模型服务下游应用,例如,可以进行视频动作识别,动作识别任务
可表示为: ,其中,为动作的预测标签,为
求最大值函数,为求概率函数,,C为总共的动作类别个数。为在
训练好的视频自监督表征提取模型基础上、下游任务微调后的视频自监督表征提取模
型。微调过程可以理解为在该下游小数据集上的进行预热训练的过程。视频动作识别的步
骤包括:步骤(1):对一段给定包含行为的视频,利用提取该视频的预测分类向量,该预测分类向量为一个行向量,其中元素为对应类别的预测
分数,具体可以表示为:。步骤(2):对测试视频的预测分
类向量,按数值模的大小进行排序,模最大预测分数所对应的类别索引即是该视频
中预测行为类别 。
本申请的发明原理:为了更好的利用不断增长的无标签视频数据集,并挖掘这些视频中隐藏信息,本申请利用对比学习,在提出的图增强视角下进行视频关联性表征学习,可在无人工标注的视频数据集上进行自监督训练,获取一个预训练模型,以提取高效的视频表征,服务下游视频数据难采集的任务。
具体地,本申请提出的时域图构建方法,以充分利用视频中失序结构特性;其次,在时域图的基础上进行图视角对比学习,将视频中的相邻帧关联性作为潜在自监督信号进行模型训练。本申请获取的预训练视频自监督表征提取模型可弥补下游任务中视频数据集不足而导致的训练困难问题。
下面对本申请实施例提供的一种视频自监督表征学习装置进行介绍,下文描述的视频自监督表征学习装置与上文描述的视频自监督表征学习方法可相互对应参照。
参考图4,本申请还提供一种视频自监督表征学习装置,包括:
训练数据获取模块41,用于获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
神经模型构建模块42,用于构建视频自监督表征提取模型;
神经模型训练模块43,用于采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
具体的,训练数据获取模块41包括:
相似性求解单元,用于求解视频特征序列中任意两个特征点间的相似性值;
邻接矩阵构造单元,用于根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
邻接矩阵生成单元,用于根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
邻接矩阵求解单元,用于对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
时域图构建单元,用于根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
具体的,训练数据获取模块41还包括:
图增强变换单元,用于在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
图特征获取单元,用于对增强邻接矩阵进行图卷积推理,得到增强特征序列
由于视频自监督表征学习装置部分的实施例与视频自监督表征学习方法部分的实施例相互对应,因此视频自监督表征学习装置部分的实施例请参见视频自监督表征学习方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种计算机设备进行介绍,下文描述的计算机设备与上文描述的视频自监督表征学习方法可相互对应参照。
本申请还提供一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现上述视频自监督表征学习方法的步骤。
由于计算机设备部分的实施例与视频自监督表征学习方法部分的实施例相互对应,因此计算机设备部分的实施例请参见视频自监督表征学习方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的视频自监督表征学习方法可相互对应参照。
本申请提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述视频自监督表征学习方法的步骤。
由于计算机可读存储介质部分的实施例与视频自监督表征学习方法部分的实施例相互对应,因此计算机可读存储介质部分的实施例请参见视频自监督表征学习方法部分的实施例的描述,这里暂不赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种视频自监督表征学习方法,其特征在于,包括:
获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
构建视频自监督表征提取模型;
采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
2.根据权利要求1所述的视频自监督表征学习方法,其特征在于,所述对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,包括:
按照预设采样函数对视频样本进行采样,并采用包含图像裁剪、灰度变换、随机水平翻转和随机添加高斯噪声的数据增强函数对采样的视频帧进行图像增强变换,得到增强视频帧序列;
利用卷积神经网络对增强视频帧序列进行特征提取,得到视频特征序列;
按照上述方法对一个视频样本执行2次得到该视频样本的两个视频特征序列。
3.根据权利要求1所述的视频自监督表征学习方法,其特征在于,所述基于每个视频特征序列构建时域图,包括:
求解视频特征序列中任意两个特征点间的相似性值;
根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
4.根据权利要求3所述的视频自监督表征学习方法,其特征在于,所述对每个时域图进行图视角的对比增强,得到两个增强特征序列,包括:
在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
对增强邻接矩阵进行图卷积推理,得到增强特征序列。
5.根据权利要求1所述的视频自监督表征学习方法,其特征在于,所述采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型,包括:
获取动态更新的负样本特征序列;
基于每个视频样本的负样本特征序列、两个增强特征序列,采用噪声对比损失函数对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
6.一种视频自监督表征学习装置,其特征在于,包括:
训练数据获取模块,用于获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
神经模型构建模块,用于构建视频自监督表征提取模型;
神经模型训练模块,用于采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
7.根据权利要求6所述的视频自监督表征学习装置,其特征在于,所述训练数据获取模块包括:
相似性求解单元,用于求解视频特征序列中任意两个特征点间的相似性值;
邻接矩阵构造单元,用于根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
邻接矩阵生成单元,用于根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
邻接矩阵求解单元,用于对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
时域图构建单元,用于根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
8.根据权利要求7所述的所述的视频自监督表征学习装置,其特征在于,所述训练数据获取模块还包括:
图增强变换单元,用于在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
图特征获取单元,用于对增强邻接矩阵进行图卷积推理,得到增强特征序列。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5中任一项所述视频自监督表征学习方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述视频自监督表征学习方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017638.2A CN113469289B (zh) | 2021-09-01 | 2021-09-01 | 视频自监督表征学习方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017638.2A CN113469289B (zh) | 2021-09-01 | 2021-09-01 | 视频自监督表征学习方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469289A true CN113469289A (zh) | 2021-10-01 |
CN113469289B CN113469289B (zh) | 2022-01-25 |
Family
ID=77867032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111017638.2A Active CN113469289B (zh) | 2021-09-01 | 2021-09-01 | 视频自监督表征学习方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469289B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267087A (zh) * | 2022-02-28 | 2022-04-01 | 成都考拉悠然科技有限公司 | 一种基于小样本机器学习模型的动作注册方法及其系统 |
CN114550098A (zh) * | 2022-02-28 | 2022-05-27 | 山东大学 | 基于对比学习的考场监控视频异常行为检测方法及系统 |
CN114596312A (zh) * | 2022-05-07 | 2022-06-07 | 中国科学院深圳先进技术研究院 | 一种视频处理方法和装置 |
CN115187787A (zh) * | 2022-09-09 | 2022-10-14 | 清华大学 | 用于自监督多视图表征学习的局部流形增强的方法及装置 |
CN115205739A (zh) * | 2022-07-06 | 2022-10-18 | 中山大学·深圳 | 一种基于半监督学习的低光照视频行为识别方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488932A (zh) * | 2020-04-10 | 2020-08-04 | 中国科学院大学 | 一种基于帧率感知的自监督视频时-空表征学习方法 |
CN112016683A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 数据增强学习、训练方法、电子设备、可读存储介质 |
US20200410322A1 (en) * | 2019-06-26 | 2020-12-31 | Nvidia Corporation | Neural architecture for self supervised event learning and anomaly detection |
CN112257665A (zh) * | 2020-11-12 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 图像内容的识别方法、图像识别模型的训练方法及介质 |
CN112465008A (zh) * | 2020-11-25 | 2021-03-09 | 电子科技大学 | 一种基于自监督课程学习的语音和视觉关联性增强方法 |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN112733789A (zh) * | 2021-01-20 | 2021-04-30 | 清华大学 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
CN112925977A (zh) * | 2021-02-26 | 2021-06-08 | 中国科学技术大学 | 一种基于自监督图表征学习的推荐方法 |
CN113065533A (zh) * | 2021-06-01 | 2021-07-02 | 北京达佳互联信息技术有限公司 | 一种特征提取模型生成方法、装置、电子设备和存储介质 |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
AU2021102838A4 (en) * | 2021-05-25 | 2021-07-15 | ., Nikhilesh DR | Self-aware continual pose estimator in act video recording and animations |
-
2021
- 2021-09-01 CN CN202111017638.2A patent/CN113469289B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200410322A1 (en) * | 2019-06-26 | 2020-12-31 | Nvidia Corporation | Neural architecture for self supervised event learning and anomaly detection |
CN111488932A (zh) * | 2020-04-10 | 2020-08-04 | 中国科学院大学 | 一种基于帧率感知的自监督视频时-空表征学习方法 |
CN112016683A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 数据增强学习、训练方法、电子设备、可读存储介质 |
CN112257665A (zh) * | 2020-11-12 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 图像内容的识别方法、图像识别模型的训练方法及介质 |
CN112465008A (zh) * | 2020-11-25 | 2021-03-09 | 电子科技大学 | 一种基于自监督课程学习的语音和视觉关联性增强方法 |
CN112733789A (zh) * | 2021-01-20 | 2021-04-30 | 清华大学 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN112925977A (zh) * | 2021-02-26 | 2021-06-08 | 中国科学技术大学 | 一种基于自监督图表征学习的推荐方法 |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
AU2021102838A4 (en) * | 2021-05-25 | 2021-07-15 | ., Nikhilesh DR | Self-aware continual pose estimator in act video recording and animations |
CN113065533A (zh) * | 2021-06-01 | 2021-07-02 | 北京达佳互联信息技术有限公司 | 一种特征提取模型生成方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
JINGRAN ZHANG 等: "Enhancing Audio-Visual Association with Self-Supervised Curriculum Learning", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
YANG LIU 等: "Temporal Contrastive Graph for Self-supervised Video Representation Learning", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
听我的错不了: "Contrastive Transformation for Self-supervised Correspondence Learning用于对应性自监督学习的对比变换", 《HTTPS://BLOG.CSDN.NET/WEIXIN_45032769/ARTICLE/DETAILS/112316565》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267087A (zh) * | 2022-02-28 | 2022-04-01 | 成都考拉悠然科技有限公司 | 一种基于小样本机器学习模型的动作注册方法及其系统 |
CN114267087B (zh) * | 2022-02-28 | 2022-05-17 | 成都考拉悠然科技有限公司 | 一种基于小样本机器学习模型的动作注册方法及其系统 |
CN114550098A (zh) * | 2022-02-28 | 2022-05-27 | 山东大学 | 基于对比学习的考场监控视频异常行为检测方法及系统 |
CN114550098B (zh) * | 2022-02-28 | 2024-06-11 | 山东大学 | 基于对比学习的考场监控视频异常行为检测方法及系统 |
CN114596312A (zh) * | 2022-05-07 | 2022-06-07 | 中国科学院深圳先进技术研究院 | 一种视频处理方法和装置 |
CN115205739A (zh) * | 2022-07-06 | 2022-10-18 | 中山大学·深圳 | 一种基于半监督学习的低光照视频行为识别方法及系统 |
CN115205739B (zh) * | 2022-07-06 | 2023-11-28 | 中山大学·深圳 | 一种基于半监督学习的低光照视频行为识别方法及系统 |
CN115187787A (zh) * | 2022-09-09 | 2022-10-14 | 清华大学 | 用于自监督多视图表征学习的局部流形增强的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113469289B (zh) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113469289B (zh) | 视频自监督表征学习方法、装置、计算机设备和介质 | |
WO2020221278A1 (zh) | 视频分类方法及其模型的训练方法、装置和电子设备 | |
CN111444878B (zh) | 一种视频分类方法、装置及计算机可读存储介质 | |
CN107861938B (zh) | 一种poi文案生成方法及装置,电子设备 | |
CN110751224B (zh) | 视频分类模型的训练方法、视频分类方法、装置及设备 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN111708876B (zh) | 生成信息的方法和装置 | |
WO2020108396A1 (zh) | 视频分类的方法以及服务器 | |
US11868738B2 (en) | Method and apparatus for generating natural language description information | |
CN113111814B (zh) | 基于正则化约束的半监督行人重识别方法及装置 | |
CN110619081A (zh) | 一种基于交互图神经网络的新闻推送方法 | |
CN114283350B (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN113705811A (zh) | 模型训练方法、装置、计算机程序产品及设备 | |
WO2021103474A1 (zh) | 图像的处理方法和装置、存储介质及电子装置 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
Nida et al. | Video augmentation technique for human action recognition using genetic algorithm | |
CN117726884A (zh) | 对象类别识别模型的训练方法、对象类别识别方法及装置 | |
CN109933741B (zh) | 用户网络行为特征提取方法、装置及存储介质 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN112560760B (zh) | 一种注意力辅助的无监督视频摘要系统 | |
CN115082840A (zh) | 基于数据组合和通道相关性的动作视频分类方法和装置 | |
CN112926368B (zh) | 一种识别障碍物的方法和装置 | |
CN114663765A (zh) | 一种基于弱监督细粒度的植物叶片识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |