CN111488932B - 一种基于帧率感知的自监督视频时-空表征学习方法 - Google Patents

一种基于帧率感知的自监督视频时-空表征学习方法 Download PDF

Info

Publication number
CN111488932B
CN111488932B CN202010281494.0A CN202010281494A CN111488932B CN 111488932 B CN111488932 B CN 111488932B CN 202010281494 A CN202010281494 A CN 202010281494A CN 111488932 B CN111488932 B CN 111488932B
Authority
CN
China
Prior art keywords
video
model
self
reconstruction
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010281494.0A
Other languages
English (en)
Other versions
CN111488932A (zh
Inventor
叶齐祥
姚远
万方
张砚
焦建彬
韩振军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN202010281494.0A priority Critical patent/CN111488932B/zh
Publication of CN111488932A publication Critical patent/CN111488932A/zh
Application granted granted Critical
Publication of CN111488932B publication Critical patent/CN111488932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于帧率感知的自监督视频时‑空表征学习方法,所述方法包括对视频进行采样,构建训练数据集;提取采样得到的视频段的视频特征;建立自监督模型进行学习;对得到的自监督模型进行测试的步骤。本发明所述的方法学习所使用的标签是自动产生的,并不花费任何人工标注成本,具有一定的适用性和扩展性;通过将判别感知模型和生成感知模型进行联合,增强了视频时‑空特征的表达能力。

Description

一种基于帧率感知的自监督视频时-空表征学习方法
技术领域
本发明涉及图像识别技术领域,具体涉及一种基于帧率感知的自监督视频时-空表征学习方法。
背景技术
深度神经网络例如卷积神经网络(CNN)已经在计算机视觉领域取得了巨大成就,但其很大程度上依赖于网络能学习到丰富的特征表达。为了确保这一点,无论是网络的预训练模型还是结合具体任务微调后的模型都需要大量的标注数据作为训练集。但是,大规模数据的标注工作耗时费力且不易实现,特别在更加复杂的数据任务(例如视频任务)中,数据的标注量和标注难度更是难以想象的。同时,网络上存在海量的无标注数据,而这些数据在现有的全监督方法中都没有得到有效利用。
为了在不增加任何标注量的情况下进一步有效利用无标注数据,人们提出了自监督学习。自监督学习针对无标注数据定义了一种代理任务,其所需要的监督信号是由数据自身产生,不需要任何人工标注。这种代理任务下的特征学习可以得到反映数据某些特性的网络模型,进而作为一些全监督目标任务的预训练模型,或是无监督目标任务的特征提取器。因此,自监督表征学习侧重于如何以自监督的形式得到具有一定泛化性能(适用于多种任务)且丰富有效(有助于目标任务的性能提升)的特征表达,而代理任务的设计就是其中的关键。
现有的自监督表征学习,在计算机视觉领域中主要包括基于图像和基于视频两方面。其中,基于图像的自监督学习方法一般包括:(1)空间变换预测,通过识别图像的旋转角度来理解图像的语义概念;(2)图像块拼图,通过预测图片划分的多个图像块间的位置关系来学习图像的空间特征;(3)图像着色,通过对灰度图片着色将图像映射到量化的色彩值输出上的分布;(4)图像修复,通过生成模型去修复部分损坏或带有随机噪声的图像。
基于视频的自监督学习方法除了考虑图像空间特征外,还需要结合视频在时间维度上的语义特征,例如:(1)物体跟踪,通过约束同一跟踪框下的物体特征表达相似来学习相邻视频帧时间上的相关性;(2)视频帧/块时序预测,通过分类视频帧/块打乱后的顺序来学习视频的时-空特征。
现有技术中的视频自监督研究主要考虑的是视频帧间的时间相关性,而视频的其他特性仍未被挖掘,基于视频的自监督表征学习有待探索和提高。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种基于帧率感知的自监督视频时-空表征学习方法,该方法使用多间隔扩张采样策略在原始输入视频上采样得到不同帧率/时间分辨率的视频片段,不同的帧率和相应的视频内容分别作为特征学习的监督信号进行自监督学习。对应两种监督信号,分别建立了判别模型和生成模型,判别模型通过对不同帧率的快进视频分类,感知视频低时间分辨率/长时特性;生成模型通过对快进视频进行一定程度的慢放重构,感知视频高分辨率/短时特性;同时通过两种模型的协同学习进一步增强了视频特征的表达能力,从而完成了本发明。
具体来说,本发明的目的在于提供一种基于帧率感知的自监督视频时-空表征学习方法,所述方法包括以下步骤:
步骤1,对视频进行采样,构建训练数据集;
步骤2,提取采样得到的视频段的视频特征;
步骤3,建立自监督模型进行学习;
步骤4,对得到的自监督模型进行测试。
本发明所具有的有益效果包括:
(1)本发明提供的基于帧率感知的自监督视频时-空表征学习方法,是一种以自监督形式感知视频时间分辨率特性的特征学习方法,学习所使用的标签是自动产生的,并不花费任何人工标注成本,具有一定的适用性和扩展性,尤其对算法在大数据集特别是海量无标注数据上的扩展具有较为重要的意义;
(2)本发明提供的基于帧率感知的自监督视频时-空表征学习方法,设计了判别感知模型和生成感知模型,并通过二者的联合优化进行协同学习,增强了视频时-空特征的表达能力;
(3)本发明提供的基于帧率感知的自监督视频时-空表征学习方法,依次使用了三种3D卷积神经网络作为算法的主干网,有利于同时提取时间和空间特征。
附图说明
图1示出有限视频帧内,不同帧率视频(多分辨率)传递不同层次的语义信息;
图2示出本发明一种优选实施方式的基于帧率感知的自监督视频时-空表征学习方法的体系结构;
图3示出本发明一种优选实施方式的视频帧率感知网络的网络结构;
图4示出本发明相较于变分编码器(VAE)和生成对抗网络(GAN)在特征学习方面的比较图;
图5示出本发明所述的运动注意机制(Motion Attention)的实现流程图;
图6示出本发明对比例2中PRP与VCOP方法在视频检索任务上的结果样例;
图7示出本发明实验例1中在不同感知模型学习中得到的视频特征激活图。
具体实施方式
下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本发明人研究发现,视频的长短时特性体现在人们日常观看视频的两种常用方式:快进和慢放,如图1所示,即在有限的时间或视频长度内,既可以通过快进迅速了解整体视频的大致内容,也可以通过慢放研究某段视频的细节内容。这两种视频的理解方式,对应着在有限视频帧内两种不同大小/高低的时间感受野/分辨率,也即视频的长短时特性。基于此,本发明中优选将对视频长短时特性的感知转化为对视频时间多分辨率/多帧率的感知,进而设计相应的自监督任务进行视频时-空特征学习。
本发明提供了一种基于帧率感知的自监督视频时-空表征学习方法,所述方法包括以下步骤:
步骤1,对视频进行采样,构建训练数据集;
步骤2,提取采样得到的视频段的视频特征;
步骤3,建立自监督模型进行学习;
步骤4,对得到的自监督模型进行测试。
以下进一步详细描述本发明所述方法:
步骤1,对视频进行采样,构建训练数据集。
根据本发明一种优选地实施方式,对于原始视频,采用多间隔扩张采样的方式得到不同时间分辨率的视频片段,将其作为网络输入,得到网络训练过程中的监督信号。
具体地,将原始连续视频设为V(1),随机地、等时间间距地每隔s帧均匀采样一帧视频,得到s×的快进视频V(s),其中,每次采样的s取不同值(s=2k;k=0,1,2,3…),即得到不同帧率的快进视频。
在本发明中,考虑到视频帧之间的空间相似性和时间模糊性,优选在V(s)的随机位置连续采样l帧得视频片段X(s)作为提取视频特征的一个输入样本,其中l优选为16。图2中的扩张采样部分示出了s=2,l=2的采样示例。
在进一步优选的实施方式中,所述监督信号包括采样间隔s和采样间隔s对应的视频内容。
在本发明中,优选采用不同的帧率和相应的视频内容分别作为特征学习的监督信号进行自监督学习。
优选地,s为分类模型训练的监督信号,采样间隔s对应的视频内容为重构模型训练的监督信号。
其中,所述分类模型的监督信号类似一般分类问题,不同采样间隔s即代表不同帧率类别c,由此得到one-hot类别向量(多分类标签):
Figure BDA0002446741780000051
所述重构模型的监督信号:设置采样间隔
Figure BDA0002446741780000052
重构倍率
Figure BDA0002446741780000053
则输入视频段
Figure BDA0002446741780000054
的重构真值G通过在
Figure BDA0002446741780000055
的倍率视频
Figure BDA0002446741780000056
上连续采样16r帧得到。
其中,如果k2≤k1
Figure BDA0002446741780000057
由原视频V(1)在
Figure BDA0002446741780000058
下间隔采样得到;如果k2>k1
Figure BDA0002446741780000061
是由V(1)线性插值
Figure BDA0002446741780000062
倍得到。此外,重构真值G的16r帧需要与输入
Figure BDA0002446741780000063
的16帧在时间上中心对齐,以保证二者视频内容的一致性。
步骤2,提取采样得到的视频段的视频特征。
其中,对步骤1中采用不同帧率采样获得的视频段X(s)进行视频特征提取。
根据本发明一种优选的实施方式,采用3D卷积神经网络进行视频特征的提取。
在进一步优选的实施方式中,采用C3D、R3D和R(2+1)D三种3D卷积神经网络的主干部分作为特征编码器。
在本发明中,考虑到需要同时提取时间和空间特征,对输入视频优选采用C3D、R3D和R(2+1)D三种3D卷积神经网络的主干部分作为特征编码器。
具体地,如图3所示,C3D主干网络作为特征编码器的网络结构,其由五个网络单元堆叠而成,前四个是由若干个C3D块(C3D-Block)和1个3D池化层(3D-Pooling)组成,最后一个将3D池化层删除只保留C3D部分,以将提取到的特征分别送入分类模型的子网络(分类子网络)和重构模型的子网络(重构子网络)中。其中,每个C3D块包括一个核大小为t×m×m的3D卷积层,一个BN层(batch normalization层,批归一化层)和一个ReLU激活层。
R3D、R(2+1)D使用了和C3D类似的主干结构,差别在于网络块的内部:R3D块相比C3D引入了残差单元,整体是由两组3D卷积层-batch normalization层-ReLU层组成,在输入和第二个ReLU层前有一条短路连接;R(2+1)D则是在R3D的基础上将块内部的每个3D卷积层分解为一个空间的2D卷积和一个时间的1D卷积,每个卷积层后面同样接有batchnormalization层和ReLU层。
步骤3,建立自监督模型进行学习。
其中,步骤3包括以下子步骤:
步骤3-1,建立判别模型和生成模型,以分别对不同帧率的输入视频进行帧率分类和慢放重构。
其中,针对两种监督信号——采样间隔s(不同帧率)和采样间隔s对应的视频内容,分别建立判别模型和生成模型。判别模型(判别感知模型)通过对不同帧率(不通采样间隔)的快进视频进行分类,以感知视频的低时间分辨率/长时特性;生成模型(生成感知模型)通过对快进视频进行一定程度的慢放重构,以感知视频的高分辨率/短时特性。
根据本发明一种优选的实施方式,所述判别模型通过训练分类子网络,对不同帧率的输入视频进行帧率分类;
优选通过训练一个3D卷积分类网络实现判别模型的帧率感知。
即:将采用间隔作为一种分类标签,通过训练一个3D卷积分类网络实现判别模型的帧率感知。
具体地,如图2中的感知建模部分所示,将主干网络提取的视频特征通过分类子网络得到对帧率类别的预测结果。其中,所述分类子网络包括一个全局平均池化层和一个全连接层,全连接层的输出通道数等于帧率类别总数C;全连接层第c(1≤c≤C)个节点的输出结果ac通过softmax操作,得到输入视频段属于类别c的归一化概率pc,如下式(一)所示:
Figure BDA0002446741780000071
根据本发明一种优选的实施方式,所述生成模型通过训练重构子网络,对不同帧率的输入视频进行慢放重构;
优选通过训练一个3D卷积重构网络实现生成模型的帧率感知。
即:将相对高帧率视频内容作为一种重构标签,通过训练一个3D卷积重构网络实现生成模型的帧率感知。
在本发明中,为了进一步增强模型感知能力,优选进行了生成感知模型的学习,即相对输入视频进行了r倍的慢放重构。
如图3所示,重构子网络为一个特征解码网络,其由四个解码单元堆叠而成,每个解码单元均由一个3D反卷积层(3D-Deconv)接一个3D卷积块组成,其中,前3个解码单元的反卷积层步长为2×2×2,最后1个解码单元反卷积步长根据重构倍率r决定,即r×2×2。
本发明中所述的重构子网络与步骤2中所述视频特征提取的主干网络构成了编码-解码网络,虽然与现有技术中的变分自编码器(VAE)、生成对抗网络(GAN)一样均包含生成模型,但是在特征学习方面不同。
具体如图2和4所示,与VAE相比,本发明中的编码-解码网络(PRP)在通过生成模型学习的同时也受到侧边判别模型学习的影响,二者共同进行语义保留,使得被编码的语义信息(网络特征)能够尽可能多地传递到更广泛的目标任务中;而VAE仅通过一个正太分布隐形变量(z)进行语义采样,其编码器应该学习最能代表输入的特征,而生成器以隐变量为条件的特定特征进行数据生成。与GAN相比,虽然二者都包括生成模型和判别模型,但本发明中的编码-解码框架是通过二者的协同学习以得到更加广泛的语义特征,而GAN是通过二者的对抗学习以生成更加逼真的数据。
步骤3-2,计算模型的学习损失。
根据本发明一种优选的实施方式,利用不同视频帧率的标号分类置信度结果构造判别模型中的分类损失Ld,即交叉熵损失,如下式(二)所示:
Figure BDA0002446741780000091
其中,sc∈{0,1},表示该视频段帧率(采样间隔)的标号是否为类别c,pc为类别置信度(输入视频段属于类别c的归一化概率)。
根据本发明一种优选的实施方式,利用快进视频的慢放重构相似度结果构造生成模型中的重构损失Lg
在本发明中,考虑到生成感知模型的目的是促进网络能够学习到更丰富的时序特征,而非一定要生成高质量的视频内容,因此,提出一种基于运动注意机制(MotionAttention)正则化的均方误差损失(m-MES)Lg,即通过对各个像素点的损失赋予不同的权重,促使网络更注重对特定区域(例如前景运动区域)进行重构。
在进一步优选的实施方式中,所述重构损失Lg采用下式(三)获得:
Figure BDA0002446741780000092
其中,
Figure BDA0002446741780000093
Figure BDA0002446741780000094
分别为重构真值G和网络重构输出Y在第t帧第(i,j)点的像素值,
Figure BDA0002446741780000095
为该处像素重构损失的权重系数,所有
Figure BDA0002446741780000096
构成与G、Y同样大小的3D掩码M。
如图5所示,M通过下式(四)获得:
Figure BDA0002446741780000097
其中,
Figure BDA0002446741780000098
分别代表差值、3D下采样、响应激活、3D上采样4种操作。
其中,
Figure BDA0002446741780000099
指的是:将第t帧和第t+1帧的真值Gt和Gt+1通过如下式(五)所示的差值运算,得到含有运动信息的帧差图Dt
Figure BDA0002446741780000101
Figure BDA0002446741780000102
指的是:使用3D下采样作为时-空滤波器,去除Dt的一些噪点,使其在前景运动区域的响应更加一致且稳定。
Figure BDA0002446741780000103
指的是:进行响应激活进一步增强运动区域的响应值,包括归一化和线性映射两个操作,通过下式(六)得到:
Figure BDA0002446741780000104
其中,λ1表示相应区间的下限,优选取值为0.8;λ2表示响应区间的上限,优选取值为2.0。
Figure BDA0002446741780000105
指的是:使用3D上采样将依次通过上述步骤得到的激活图插值到与重构真值G同样大小,以参与到点对点的重构loss计算中。
根据本发明一种优选的实施方式,采用上述得到的分类损失Ld和重构损失Lg,通过下式(七)对自监督模型参数θ进行优化:
arg minθλd Ldg Lg (七)
其中,上式(七)中的λd为分类损失的权重系数,优选取值为0.1;λg为重构损失的权重系数,优选取值为1.0。
在本发明中,所述自监督模型为如图3所示的视频帧率感知网络。
步骤3-3,对自监督模型进行优化。
根据本发明一种优选的实施方式,通过反向传播(BP)算法,由分类损失Ld和重构损失Lg两种损失函数的梯度,对整个网络进行梯度返传,并更新网络参数。
在本发明的训练过程中,优选将判别模型和感知模型进行联合,使得二者共享特征主干网(如图3所示的特征编码器部分),优选采用随机梯度下降(SGD)算法联合更新网络(如图3所示的视频帧感知网络整体)参数,使得优化后的自监督模型能够学习到更加完整丰富的语义信息,提高视频感知的正确率。
在自监督模型的训练过程中判断网络是否收敛,如果已经收敛,停止网络训练,如果没有收敛,则跳转至步骤2。
步骤4,对自监督模型进行测试。
在本发明中,将自监督模型应用到实际视频任务中,以验证模型的有效性。
优选地,选择视频动作分类和视频检索的视频任务作为目标任务。其中,分类任务属于全监督任务,需要将本发明中的自监督模型作为预训练模型,通过fine-turing微调进行任务的迁移;视频检索任务属于无监督任务,因此直接使用自监督模型提取的特征进行数据的查询匹配。
本发明利用自监督方法进行视频特征学习,将对视频长短时特性的感知转化为对视频时间多分辨率/多帧率的感知,学习所使用的标签是自动产生的,并不花费任何人工标注成本,具有一定的适用性和扩展性,尤其对算法在大数据集特别是海量无标注数据上的扩展具有较为重要的意义。
实施例
以下通过具体实例进一步描述本发明,不过这些实例仅仅是范例性的,并不对本发明的保护范围构成任何限制。
实施例1
1、数据库:
本实施例所述的帧率感知自监督模型在两个视频动作识别任务的数据集UCF101和HMD51上进行评估。UCF101是从Prelinger archive、YouTube、Google等网站上收集的视频数据集,一共包含101类动作,其中9500个视频用作训练,3500个视频用作测试。HMDB51数据集有更多的视频源既有数字电影也有YouTube视频,一共包含51类动作,其中3400个视频用作训练,1400个视频用作测试。这两个数据集都存在一定的挑战,例如同类动作的差异性;复杂的摄像头运动、以及杂乱的背景等。因此,在这两个数据集上完成动作识别和检索任务都需要学习到丰富的视频时-空特征。
2、性能评测准则:
本实施例将自监督模型应用到两个常见的视频目标任务进行评估,从而验证模型在具体任务中的有效性以及对于不同任务的泛化性。
任务1:视频动作分类。动作分类任务属于全监督任务,数据集有相应的动作类别标签,因此将自监督模型作为预训练模型初始化该任务的主干网络,并随机初始化其全连接层,之后进行针对该任务的fine-tuning。测试时,每个视频采样10段进行预测,取平均作为最后的分类结果。同时,取数据集3种划分下分类正确率的平均值作为最终的评测结果。
任务2:视频检索。最近邻视频检索任务属于无监督任务,没有相应的数据标签,直接使用自监督模型提取的特征而不经过fine-tuning。因此,检索结果好坏很大程度取决于自监督模型的特征表达能力。测试时,基于自监督模型提取的特征,测试集的每段视频被用来查询训练集中最相近的k段视频,当检索的视频类别和测试视频类别相同时记为一次正确检索,统计top-1,top-5,top-10,top-20和top-50的检索正确率作为最终的评测结果。
3、结果与分析
本实施例分别使用C3D、R3D、R(2+1)D作为主干网络,在UCF101的训练集进行自监督特征学习,保留主干网络特征,在UCF101和HMDB51上进行动作识别和视频检索两个目标任务的评估,结果如下表1-3所示,其中PRP表示本发明提出的帧率感知自监督模型:
表1帧率感知自监督模型在UCF101和HMDB51上动作分类实验结果
方法 UCF101(%) HMDB51(%)
C3D(PRP) 69.1 34.5
R3D(PRP) 66.5 29.7
R(2+1)D(PRP) 72.1 35.0
表2帧率感知模型在UCF01上视频检索实验结果
Figure BDA0002446741780000131
表3帧率感知模型在UCF01上视频检索实验结果
Figure BDA0002446741780000132
Figure BDA0002446741780000141
由表1-3可知,本实施例在分别使用C3D、R3D、R(2+1)D作为主干网的情况下,针对视频动作分类和动作检索的目标任务,在UCF101和HMDB51数据集上均表现良好,以C3D结构为例,针对动作分类任务在UCF101和HMDB51上的正确率为69.1%和34.5%;针对视频检索任务在UCF101和HMDB51上的top1正确率为23.2%和10.5%。
对比例
对比例1
使用目前已有的自监督视频特征学习方法VCOP(视频段顺序预测)和random(随机初始化),在UCF101和HMDB51数据集评估动作分类任务上的性能。
其中,VCOP在文献“Dejing Xu,Jun Xiao,Zhou Zhao,Jian Shao,Di Xie,andYueting Zhuang.Self-supervised spatiotemporal learning via video clip orderprediction.In IEEE CVPR,pages 10334–10343,2019.”中提出。
结果如表4所示:
表4自监督方法在UCF101和HMDB51上动作分类对比实验结果
Figure BDA0002446741780000142
Figure BDA0002446741780000151
由表4可知,使用C3D作为主干网,在UCF101和HMDB51上,本发明所述方法(PRP)对比随机初始化方法分别提高了7.3%和9.8%;对比最先进的VCOP方法提高了3.5%和6.1%。使用R(2+1)D作为主干网,PRP方法对比随机初始化提高了16.3%和13.0%。以上对比可以验证本发明所述方法能够学习到更丰富有效的视频时-空特征。
对比例2
使用目前已有的自监督视频特征学习方法VCOP(视频段顺序预测)和random(随机初始化),在UCF101和HMDB51数据集,评估视频检索任务上的性能。
VCOP在文献“Dejing Xu,Jun Xiao,Zhou Zhao,Jian Shao,Di Xie,and YuetingZhuang.Self-supervised spatiotemporal learning via video clip orderprediction.In IEEE CVPR,pages10334–10343,2019.”中提出。
结果如表5和6所示:
表5自监督方法在UCF101上视频检索对比实验结果
Figure BDA0002446741780000152
Figure BDA0002446741780000161
表6自监督方法在HMDB51上视频检索对比实验结果
Figure BDA0002446741780000162
由表5和6可以看出,在top-1,top-5,top-10,top-20和top-50各项检索正确率,本发明所述方法均高于目前最先进方法VCOP(例如在UCF101的各个主干网下top1提高8.7~10.7%)。
进一步地,图6示出了本发明所述方法(PRP)与VCOP的检索结果样例,说明了本发明所述方法的检索正确率显著高于VCOP所述方法。
实验例
实验例1
针对本发明所述的帧率感知自监督特征学习算法中的判别感知、生成感知、判别-生成感知(联合感知)、motion attention机制以及所使用的采样间隔s,重构倍率r进行交融实验,根据不同设置下的自监督模型在UCF101的动作分类任务上的性能来验证各部分的有效性,结果如表7所示:
表7各个模块及主要参数的影响
Figure BDA0002446741780000171
Figure BDA0002446741780000181
其中,
(1)采样间隔s
判别感知需要对不同帧率s的输入进行分类,因此需要确定s的类别种类。为了避免多模型互相影响,在本实验例中只使用判别感知单模型进行s的交融试验:逐步增加帧率s的种类,对比分类正确率。
由表7可知,当逐步增多帧率类别(从{1,2}到{1,2,4,8}),正确率随之提高;但当增加到一定数目({1,2,4,8,16})时,正确率下降。出现此结果的原因是:刚开始逐步增加类别可以提升帧率分类这一代理任务的难度,促使自监督模型学习到更多的视频特征;但类别增加太多使任务过于困难,则对模型学习没有进一步提升。综上,选择s∈{1,2,4,8}作为默认集合。
(2)重构倍率r
生成感知模型需要对输入视频进行慢放重构,因此需要确定合适的重构倍率r,在本实验例中只使用生成感知单模型r进行交融实验。
由表7可知,通过增大重构倍率能够提高分类正确率,说明自监督模型学习到更多代表性的特征,但考虑到提升较小以及网络结构的复杂性,选择r=2作为默认值。
(3)Motion Attention
为了验证生成感知中motion attention机制的有效性,本实验例中进行了有(w)和无(w/o)motion attention(MA)的交融实验,即分别使用m-MSE loss和MSE loss进生成感知的模型学习。
由表7可知,使用motion attention机制使得分类正确率由67.1%提高到68.1%,说明其有效性。此外,在图7中比对了GP(wMA)和GP(w/o MA)即有无motion attention的模型中主干网络第5层卷积层(conv5)的特征响应图,可以看到GP(w MA)的在运动区域有更加明显的响应,说明motion attention能够促使网络更加注重对运动区域的重构,从而学习到更多关于运动前景信息的特征表达。
(4)判别-生成模型联合优化
为了验证判别感知和生成联合优化的有效性,本实验例进行了判别感知(DP)、生成感知(GP(w MA))和通过共享特征、联合优化的判别-生成感知(DG-P)这三种自监督学习方式的交融实验。
由表7可知,通过两种模型的协同学习,分类的正确率由判别感知(DP)的69.9%和生成感知(GP(w MA))的68.2%提高到70.9%,说明了联合感知的有效性。此外,在图7中比对了这三种方式得到的响应图,可以看出判别感知更关注前景的主要运动区域,相对较局部;生成感知在关注到前景外也能关注到附近背景的上下文信息,相对较发散;而通过融合二者能够关注到更加完整的前景区域,做到了二者的互补,从而能够学习到更加完整且丰富的语义信息。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。

Claims (8)

1.一种基于帧率感知的自监督视频时-空表征学习方法,其特征在于,所述方法包括以下步骤:
步骤1,对视频进行采样,构建训练数据集;
步骤2,提取采样得到的视频段的视频特征;
步骤3,建立自监督模型进行学习;
步骤3包括以下子步骤:
步骤3-1,建立判别模型和生成模型,以分别对不同帧率的输入视频进行帧率分类和慢放重构;
所述生成模型将相对高帧率视频内容作为一种重构标签,通过训练一个3D卷积重构网络实现生成模型的帧率感知;
步骤3-2,计算模型的学习损失;
步骤3-3,对自监督模型进行优化;
步骤4,对得到的自监督模型进行测试。
2.根据权利要求1所述的方法,其特征在于,步骤1中,采用多间隔扩张采样的方式得到不同时间分辨率的视频片段,将其作为网络输入,得到网络训练过程中的监督信号;
将原始连续视频设为V(1),随机地、等时间间距地每隔s帧均匀采样一帧视频,得到的快进视频V(s),
V(s)的随机位置连续采样l帧得视频片段X(s)作为提取视频特征的输入样本。
3.根据权利要求2所述的方法,其特征在于,所述监督信号包括采样间隔s和采样间隔s对应的视频内容。
4.根据权利要求1所述的方法,其特征在于,步骤2中,采用3D卷积神经网络进行视频特征的提取;
采用C3D、R3D和R(2+1)D三种3D卷积神经网络的主干部分作为特征编码器。
5.根据权利要求1所述的方法,其特征在于,步骤3-2中,利用不同视频帧率的标号分类置信度结果构造判别模型中的分类损失L d ,即交叉熵损失,如下式所示:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE003
,表示该视频段帧率的标号是否为类别cp c为类别置信度。
6.根据权利要求1所述的方法,其特征在于,步骤3-2中,利用快进视频的慢放重构相似度结果构造生成模型中的重构损失L g ,如下式所示:
Figure 622869DEST_PATH_IMAGE004
其中,N为像素的个数,
Figure DEST_PATH_IMAGE005
Figure 955761DEST_PATH_IMAGE006
分别为重构真值G和网络重构输出Y在第t帧第(i,j)点的像素值,
Figure DEST_PATH_IMAGE007
为该处像素重构损失的权重系数,所有
Figure 442237DEST_PATH_IMAGE007
构成与GY同样大小的3D掩码M
7.根据权利要求5或6所述的方法,其特征在于,采用分类损失L d 和重构损失L g ,通过下式对自监督模型参数
Figure 733541DEST_PATH_IMAGE008
进行优化:
Figure 469416DEST_PATH_IMAGE010
其中,
Figure 402737DEST_PATH_IMAGE012
Figure 540457DEST_PATH_IMAGE014
分别为分类损失和重构损失的权重系数。
8.根据权利要求7所述的方法,其特征在于,步骤3-3中,根据分类损失L d 和重构损失L g 两种损失函数的梯度,对整个网络进行梯度返传,并更新网络参数。
CN202010281494.0A 2020-04-10 2020-04-10 一种基于帧率感知的自监督视频时-空表征学习方法 Active CN111488932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010281494.0A CN111488932B (zh) 2020-04-10 2020-04-10 一种基于帧率感知的自监督视频时-空表征学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010281494.0A CN111488932B (zh) 2020-04-10 2020-04-10 一种基于帧率感知的自监督视频时-空表征学习方法

Publications (2)

Publication Number Publication Date
CN111488932A CN111488932A (zh) 2020-08-04
CN111488932B true CN111488932B (zh) 2021-03-16

Family

ID=71811784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010281494.0A Active CN111488932B (zh) 2020-04-10 2020-04-10 一种基于帧率感知的自监督视频时-空表征学习方法

Country Status (1)

Country Link
CN (1) CN111488932B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052986A (zh) * 2020-08-13 2020-12-08 五邑大学 基于自监督学习的磁暴预测方法、装置及存储介质
CN111930992B (zh) * 2020-08-14 2022-10-28 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN112565909B (zh) * 2020-11-30 2023-04-11 维沃移动通信有限公司 视频播放方法、装置、电子设备及可读存储介质
CN113505829B (zh) * 2021-07-09 2024-04-26 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113469289B (zh) * 2021-09-01 2022-01-25 成都考拉悠然科技有限公司 视频自监督表征学习方法、装置、计算机设备和介质
US20230072445A1 (en) * 2021-09-07 2023-03-09 Huawei Technologies Co., Ltd. Self-supervised video representation learning by exploring spatiotemporal continuity

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142995A (zh) * 2014-07-30 2014-11-12 中国科学院自动化研究所 基于视觉属性的社会事件识别方法
CN104866596A (zh) * 2015-05-29 2015-08-26 北京邮电大学 一种基于自动编码器的视频分类方法及装置
CN104992189A (zh) * 2015-07-22 2015-10-21 河海大学常州校区 基于深度学习网络模型的鱼群异常行为识别方法
CN109934125A (zh) * 2019-02-26 2019-06-25 中国科学院重庆绿色智能技术研究院 一种半监督手术视频流程识别方法
CN110189362A (zh) * 2019-05-28 2019-08-30 厦门大学 基于多分支自编码对抗网络的高效目标跟踪方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
CN102160084B (zh) * 2008-03-06 2015-09-23 阿明·梅尔勒 用于分割、分类视频对象并拍卖交互式视频对象的权利的自动过程
CN105262699B (zh) * 2015-10-29 2018-07-03 浙江大华技术股份有限公司 一种网络自适应编码调整方法及装置
CN106778571B (zh) * 2016-12-05 2020-03-27 天津大学 一种基于深度神经网络的数字视频特征提取方法
US10719715B2 (en) * 2017-06-07 2020-07-21 Silveredge Technologies Pvt. Ltd. Method and system for adaptively switching detection strategies for watermarked and non-watermarked real-time televised advertisements
US10593020B2 (en) * 2018-02-02 2020-03-17 Nvidia Corp. Unsupervised learning approach for video deblurring
CN110298309A (zh) * 2019-06-28 2019-10-01 腾讯科技(深圳)有限公司 基于图像的动作特征处理方法、装置、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142995A (zh) * 2014-07-30 2014-11-12 中国科学院自动化研究所 基于视觉属性的社会事件识别方法
CN104866596A (zh) * 2015-05-29 2015-08-26 北京邮电大学 一种基于自动编码器的视频分类方法及装置
CN104992189A (zh) * 2015-07-22 2015-10-21 河海大学常州校区 基于深度学习网络模型的鱼群异常行为识别方法
CN109934125A (zh) * 2019-02-26 2019-06-25 中国科学院重庆绿色智能技术研究院 一种半监督手术视频流程识别方法
CN110189362A (zh) * 2019-05-28 2019-08-30 厦门大学 基于多分支自编码对抗网络的高效目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Self-supervised spatiotemporal learning via video clip order prediction》;Dejing Xu等;《CVPR》;20200109;全文 *

Also Published As

Publication number Publication date
CN111488932A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111488932B (zh) 一种基于帧率感知的自监督视频时-空表征学习方法
Giraldo et al. Graph moving object segmentation
Cheung et al. Discovering hidden factors of variation in deep networks
Huang et al. Ascnet: Self-supervised video representation learning with appearance-speed consistency
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN111444878A (zh) 一种视频分类方法、装置及计算机可读存储介质
CN108921032B (zh) 一种新的基于深度学习模型的视频语义提取方法
CN110852961A (zh) 一种基于卷积神经网络的实时视频去噪方法及系统
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
Lu et al. FRNet: Factorized and regular blocks network for semantic segmentation in road scene
CN114037640A (zh) 图像生成方法及装置
CN111259919A (zh) 一种视频分类方法、装置及设备、存储介质
Li et al. Representation learning for compressed video action recognition via attentive cross-modal interaction with motion enhancement
Zhou et al. Transformer-based multi-scale feature integration network for video saliency prediction
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN109002808B (zh) 一种人体行为识别方法及系统
CN113393435A (zh) 一种基于动态上下文感知滤波网络的视频显著性检测方法
Li et al. A discriminative self‐attention cycle GAN for face super‐resolution and recognition
CN112200817A (zh) 基于图像的天空区域分割和特效处理方法、装置及设备
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN116977714A (zh) 图像分类方法、装置、设备、存储介质和程序产品
CN116704433A (zh) 基于上下文感知关系预测编码的自监督群体行为识别方法
CN115410264A (zh) 用于提高视频中面部表情识别准确率的网络模型及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant