CN110070023A - 一种基于运动顺序性回归的自监督学习方法及装置 - Google Patents
一种基于运动顺序性回归的自监督学习方法及装置 Download PDFInfo
- Publication number
- CN110070023A CN110070023A CN201910304026.8A CN201910304026A CN110070023A CN 110070023 A CN110070023 A CN 110070023A CN 201910304026 A CN201910304026 A CN 201910304026A CN 110070023 A CN110070023 A CN 110070023A
- Authority
- CN
- China
- Prior art keywords
- sequence
- video sample
- order
- sample segment
- succession
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000001373 regressive effect Effects 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 28
- 230000000007 visual effect Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 7
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于运动顺序性回归的自监督学习方法及装置,该方法包括:步骤S1,随机截取固定帧数的视频样本片段;步骤S2,计算获得所述视频样本片段的平均运动量;步骤S3,随机打乱所述视频样本片段内帧的顺序,得到乱序视频样本片段;步骤S4,对所述乱序视频样本片段进行顺序性评判;步骤S5,综合步骤S2获得的所述视频样本片段的平均运动量和步骤S4获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分并作为回归目标值,即标注标签,本发明充分利用了视频中运动顺序一致性的信息,通过随机生成样本以及样本内帧顺序,建立顺序性评判标准进行自动的顺序性得分评判,从而达到自动标注的目的。
Description
技术领域
本发明涉及图像识别技术领域,特别是涉及一种基于运动顺序性回归的自监督学习方法及装置。
背景技术
近几年来,基于深度学习(Deep Learning)的技术在计算机视觉领域取得了很好的成效,比如,人脸识别和目标分类,其中代表性的深度学习方法有CNN(卷积神经网络)、RNN(递归神经网络)、GAN(生成式对抗网络)等。深度学习技术的出现大幅提升了传统识别算法的精度,但是其对标注样本数量的依赖也大幅上升。为了获得理想的模型训练效果,往往必须提供大量的标注数据作为训练样本,因此,对标注样本的需求呈现快速增长。
然而,样本标注是一项繁琐而消耗大量人力的工作,在实际应用中,给样本进行标注需要耗费大量的时间和人力,成本较高。为了减少样本标注的人力成本,出现了一类利用样本数据自身相关性自动生成标注的方法,称为自监督方法。自监督方法往往使用样本局部与整体之间时间、空间维度上的相关性,生成样本与标注标签对,作为监督数据提供给深度神经网络训练。
现有的视觉识别的自监督方法主要利用的是静态图像局部与局部区域间以及局部与整体间的空间位置与内容联系来自动生成标注关系。对于时间上的关系还缺乏有效的利用手段。而事实上视频中前后帧之间时间上运动顺序的相关性与一致性是非常重要的一种视频数据自身特性,完全可以作为自动生成标签的依据,因此,实有必要提出一种技术手段,以实现一种基于运动顺序性回归的自监督学习方法。
发明内容
为克服上述现有技术存在的不足,本发明之一目的在于提供一种基于运动顺序性回归的自监督学习方法及装置,充分利用了视频中运动顺序一致性的信息,通过随机生成样本以及样本内帧顺序,建立顺序性评判标准进行自动的顺序性得分评判,从而达到自动标注的目的。
本发明之另一目的在于提供一种基于运动顺序性回归的自监督学习方法及装置,其通过利用生成的乱序样本及其对应的顺序性得分训练深度回归网络实现自监督学习,摆脱了深度学习对大量人工标注样本的依赖,使通过该自监督学习方法得到的深度神经网络具有良好的泛化能力,可用于多种图像视频的分类识别应用。
为达上述及其它目的,本发明提出一种基于运动顺序性回归的自监督学习方法,包括如下步骤:
步骤S1,随机截取固定帧数的视频样本片段;
步骤S2,计算所述视频样本片段的平均运动量;
步骤S3,随机打乱所述视频样本片段内帧的顺序,得到乱序视频样本片段;
步骤S4,对所述乱序视频样本片段进行顺序性评判;
步骤S5,综合步骤S2获得的所述视频样本片段的平均运动量和步骤S4获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分,并作为回归目标值,即获得标注标签。
优选地,于步骤S5后,还包括如下步骤:
步骤S6,对所述乱序视频样本片段生成视觉特征;
步骤S7,利用所述乱序视频样本片段的视觉特征及步骤S5得到的最终乱序得分作为回归目标值训练深度回归神经网络,训练得到深度网络模型。
优选地,于步骤S1中,采用均匀分布随机采样方法确定起始帧位置,截取固定帧数的视频样本片段,所述固定帧数为所述视频样本片段长度。
优选地,于步骤S2中,计算所述视频样本片段中相邻帧间的光流矢量图并计算光流幅值在各像素及各时间点上的平均值作为所述视频样本片段的平均运动量。
优选地,于步骤S3中,根据半正态分布随机生成乱序视频样本片段顺序性评判值,并根据该顺序性评判值随机生成一个对应的乱序序列。
优选地,步骤S3进一步包括:
步骤S300,根据半正态分布随机生成乱序视频样本的顺序性评判参数S;
步骤S301,计算所述视频样本X={x1,x2,...,xM}的所有可能的乱序排列集合,计算各自对应的顺序评判,并记录各顺序评判值中的最大值为Smax;
步骤S302,采样服从高斯分布的随机变量p~N(0,Smax/2),并计算变量P作为采样的顺序评判;
步骤S303,在所述乱序排列集合中寻找顺序评判与P的采样值一致的子集φ(P),从φ(P)中均匀随机采样得到最终的乱序视频样本
优选地,所述顺序性评判参数S定义为:
其中
其中,和分别为乱序样本序列中第i帧和第i+1帧在原顺序样本序列中的帧号。
优选地,于步骤S4中,所述乱序视频采样片段的视觉特征通过采样帧间差求和的方式获得。
优选地,于步骤S6中,所述乱序视频样本片段的最终顺序得分为其顺序性评判值S与原顺序序列的视频样本片段的平均运动量的乘积。
为达上述目的,本发明还提供一种基于运动顺序性回归的自监督学习装置,包括:
视频样本采样单元,用于随机截取固定帧数的视频样本片段;
平均运动量计算单元,用于计算所述视频样本采样单元采样到的视频样本片段的平均运动量;
乱序单元,用于随机打乱所述视频样本采样单元采样到的视频样本片段内帧的顺序;
顺序性评判单元,用于对所述乱序单元生成的乱序视频样本片段进行顺序性评判;
标注标签确定单元,用于综合所述平均运动量计算单元获得的视频样本片段的平均运动量和顺序性评判单元获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分作为回归目标值,即标注标签。
与现有技术相比,本发明一种基于运动顺序性回归的自监督学习方法及装置通过充分利用视频中运动顺序一致性的信息,通过随机生成样本以及样本内帧顺序,并建立顺序性评判标准进行自动的顺序性得分评判,以达到自动标注的目的,最后利用生成的乱序样本及其对应的顺序性得分训练深度回归网络实现自监督学习,从而摆脱了深度学习对大量人工标注样本的依赖,经实践证明,通过本发明的自监督学习方法得到的深度神经网络具有良好的泛化能力,可用于多种图像视频的分类识别应用。
附图说明
图1为本发明一种基于运动顺序性回归的自监督学习方法之一实施例的步骤流程图;
图2为本发明具体实施例中步骤S3的细部流程图;
图3为本发明具体实施例中顺序性评判的实例示意图;
图4为本发明一种基于运动顺序性回归的自监督学习方法之另一实施例的步骤流程图;
图5为本发明一种基于运动顺序性回归的自监督学习装置之一实施例的系统架构图;
图6为本发明具体实施例中乱序单元503的细部结构图;
图7为本发明一种基于运动顺序性回归的自监督学习装置之另一实施例的系统架构图;
图8为本发明具体实施例之基于运动顺序性回归的自监督学习方法的流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
由于目前的技术主要缺乏的是对视频帧之间运动顺序性进行有效的评判和建模,为此需要解决三大问题:一是设计合理的采样策略获得具有各种运动乱序程度的帧序列样本;二是定义合理的顺序性特征描述函数与量化指标,作为样本数据的标签;三是利用生成的样本和顺序性得分标签作为输入数据和输出标签训练深度神经网络,用训练得到的网络作为基础模型实现特征提取和多种应用。
图1为本发明一种基于运动顺序性回归的自监督学习方法的步骤流程图。如图1所示,本发明一种基于运动顺序性回归的自监督学习方法,包括如下步骤:
步骤S1,随机截取固定帧数的视频样本片段。在本发明具体实施例中,通过采用均匀分布随机采样方法确定起始帧位置,截取固定帧数的视频样本片段,所述固定帧数为样本片段长度。
具体地,于步骤S1中,首先给定采样序列窗长度参数,即固定帧数M=10,这里的M值可根据精度和计算能力要求调整,然后对任意总帧数为L的视频,随机生成采样样本序列起始帧在原视频中的帧号s,整数s∈[0,L-M],且服从均匀分布,生成s后即可得到原视频中的帧序列X0={xs,xs+1,...,xs+M-1},该采样序列即为一个顺序样本,记为X={x1,x2,...,xM}。
步骤S2,计算步骤S1采样到的视频样本片段的平均运动量。在本发明具体实施例中,计算相邻帧间的光流矢量图并计算光流幅值在各像素及各时间点上的平均值作为视频样本片段的平均运动量。
具体地,对于顺序样本X={x1,x2,...,xM},首先计算顺序样本X={x1,x2,...,xM}上各相邻帧间的光流图,具体如下:
OF={of1,of2,...,ofM-1},
其中ofi=Ah×w={amn},Ah×w为h行w列的光流幅值矩阵,h和w分别帧的高和宽,amn(1≤m≤h,1≤n≤w)为坐标(n,m)的像素所在位置的光流幅值;
然后计算光流幅值在各像素及各时间点上的平均值,即,顺序样本X={x1,x2,...,xM}的平均运动量MV可表示为:
其中算子Ψ定义为即对输入矩阵各元素求算数平均值。
步骤S3,随机打乱步骤S1采样到的视频样本片段内帧的顺序。在本发明具体实施例中,根据半正态分布随机生成乱序视频样本片段顺序性评判值,并根据该顺序性评判值随机生成一个对应的乱序序列。
具体地,如图2所示,步骤S3进一步包括:
步骤S300,根据半正态分布随机生成乱序视频样本的顺序性评判S,S定义为:
其中
其中,和分别为乱序视频样本序列中第i帧和第i+1帧在原顺序样本序列中的帧号,如图3所示实例。
步骤S301,计算视频样本X={x1,x2,...,xM}的所有可能的乱序排列集合,计算各自对应的顺序评判,并记录各顺序评判值中的最大值为Smax;
步骤S302,采样服从高斯分布的随机变量p~N(0,Smax/2),并计算变量作为采样的顺序评判,其中[·]为四舍五入取整;
步骤S303,在乱序排列集合中寻找顺序评判与P的采样值一致的子集φ〔P〕,从φ〔P〕中均匀随机采样得到最终的乱序视频样本
步骤S4,对步骤S3生成的乱序视频样本片段进行顺序性评判。在本发明具体实施例中,所述乱序视频样本片段的顺序性评判的主要指标为乱序后两两相邻帧顺序与原顺序的一致性程度统计值,由于这里的顺序性评判过程与步骤S3的过程相同,在此不予赘述。
步骤S5,综合步骤S2获得的视频样本片段的平均运动量和步骤S4获得的顺序性评判结果为样本片段生成最终的顺序得分作为回归目标值,即标注标签。
具体地,该乱序视频样本的最终顺序得分为其顺序评判S与原顺序序列(原视频样本片段)平均运动量MV的加权,定义为
优选地,如图4所示,于步骤S6之后,本发明之基于运动顺序性回归的自监督学习方法,还包括:
步骤S6,为步骤S3得到的乱序视频样本片段生成视觉特征。在本发明具体实施例中,乱序视频样本片段的视觉特征采样帧间差求和的方式获得。具体地,乱序视频样本的视觉特征定义为:
其中Ii表示第i帧图像。
步骤S7,利用所述乱序视频样本片段的视觉特征及步骤S5得到的最终乱序得分回归目标值训练深度回归神经网络,训练得到深度网络模型。具体地,将乱序视频样本片段及对应最终得分输入到的深度神经网络结构,所述深度神经网络为基础卷积网络加回归损失函数,将乱序视频样本片段的视觉特征作为网络输入,顺序评判最终得分作为网络输出的真实标签,训练得到通用的视觉模型,即作为输入数据的(乱序视频样本的视觉特征)和对应的作为输入数据标注标签的最终顺序得分组成训练数据集,进行深度神经网络的训练,在本发明具体实施例中,根据数据类型、规模、精度、速度要求不同,可以选择各类卷积神经网络作为基础卷积网络,并采用均方误差作为回归损失函数。
需说明的是,训练得到的基础网络模型为通用的视觉特征提取模型,对任意输入图像,基础网络最后一层的输出即为输入图像的特征向量,可用于分类、识别等多种应用。
图5为本发明一种基于运动顺序性回归的自监督学习装置的系统架构图。如图5所示,本发明一种基于运动顺序性回归的自监督学习装置,包括:
视频样本采样单元501,用于随机截取固定帧数的视频样本片段。在本发明具体实施例中,视频样本采样单元501通过采用均匀分布随机采样方法确定起始帧位置,截取固定帧数的视频样本片段,所述固定帧数为样本片段长度。
具体地,视频样本采样单元501给定采样序列窗长度参数,即固定帧数M=10,这里的M值可根据精度和计算能力要求调整,然后对任意总帧数为L的视频,随机生成采样样本序列起始帧在原视频中的帧号s,整数s∈[0,L-M],且服从均匀分布,生成s后即可得到原视频中的帧序列X0={xs,xs+1,...,xs+M-1},该采样序列即为一个顺序样本,记为X={x1,x2,...,xM}。
平均运动量计算单元502,用于计算视频样本采样单元501采样到的视频样本片段的平均运动量。在本发明具体实施例中,平均运动量计算单元502通过计算相邻帧间的光流矢量图并计算光流幅值在各像素及各时间点上的平均值作为视频样本片段的平均运动量。
具体地,对于顺序样本X={x1,x2,...,xM},平均运动量计算单元502首先计算顺序样本X={x1,x2,...,xM}上各相邻帧间的光流图,具体如下:
OF={of1,of2,...,ofM-1},
其中ofi=Ah×w={amn},Ah×w为h行w列的光流幅值矩阵,h和w分别帧的高和宽,amn(1≤m≤h,1≤n≤w)为坐标(n,m)的像素所在位置的光流幅值;
然后计算光流幅值在各像素及各时间点上的平均值,即,顺序样本X={x1,x2,...,xM}的平均运动量MV可表示为:
其中算子Ψ定义为即对输入矩阵各元素求算数平均值。
乱序单元503,用于随机打乱视频样本采样单元501采样到的视频样本片段内帧的顺序。在本发明具体实施例中,乱序单元503根据半正态分布随机生成乱序视频样本片段顺序性评判值,并根据该顺序性评判值随机生成一个对应的乱序序列。
具体地,如图6所示,乱序单元503进一步包括:
顺序性评价参数生成单元503a,用于根据半正态分布随机生成乱序样本的顺序性评判参数S,顺序性评判参数S定义为:
其中
其中,和分别为乱序样本序列中第i帧和第i+1帧在原顺序样本序列中的帧号。
乱序集合及顺序评判值计算单元503b,用于计算所述视频样本X={x1,x2,...,xM}的所有可能的乱序排列集合,计算各自对应的顺序评判,并记录各顺序评判值中的最大值为Smax;
采样顺序评判变量确定单元503c,用于根据采样服从高斯分布的随机变量p~N(O,Smax/2),确定随机变量p~N(O,Smax/2)作为采样的顺序评判,在本发明具体实施例中,采样服从高斯分布的随机变量p~N(O,Smax/2),计算变量作为采样的顺序评判,其中[·]为四舍五入取整;
乱序视频样本确定单元503d,用于于乱序排列集合中寻找顺序评判与P的采样值一致的子集φ〔P〕,从φ(P)中均匀随机采样得到最终的乱序视频样本
顺序性评判单元504,用于对乱序单元503生成的乱序视频样本片段进行顺序性评判。在本发明具体实施例中,所述乱序视频样本片段的顺序性评判的主要指标为乱序后两两相邻帧顺序与原顺序的一致性程度统计值。
标注标签确定单元505,用于综合平均运动量计算单元502获得的视频样本片段的平均运动量和顺序性评判单元504获得的顺序性评判结果为该乱序视频样本片段生成最终的顺序得分作为回归目标值,即标注标签。
具体地,该乱序视频样本的最终顺序得分为其顺序评判S与原顺序序列平均运动量MV的加权,定义为
优选地,如图7所示,本发明之基于运动顺序性回归的自监督学习装置,还包括:
视觉特征生成单元506,用于对乱序单元503获得的乱序视频样本片段生成视觉特征。在本发明具体实施例中,视觉特征生成单元506通过采样帧间差求和的方式实现,具体地,乱序视频样本的视觉特征定义为:
其中Ii表示第i帧图像。
神经网络训练单元507,用于利用所述乱序视频样本片段的视觉特征及标注标签确定单元505得到的最终乱序得分回归目标值训练深度回归神经网络,训练得到深度网络模型。具体地,神经网络训练单元507将乱序视频样本片段及对应最终得分输入到的深度神经网络结构,所述深度神经网络为基础卷积网络加回归损失函数,将乱序视频样本片段的视觉特征作为网络输入,顺序评判最终得分作为网络输出的真实标签,训练得到通用的视觉模型,即作为输入数据的(乱序视频样本的视觉特征)和对应的作为输入数据标注标签的最终顺序得分组成训练数据集,进行深度神经网络的训练,在本发明具体实施例中,根据数据类型、规模、精度、速度要求不同,可以选择各类卷积神经网络作为基础卷积网络,并采用均方误差作为回归损失函数。
图8为本发明具体实施例之基于运动顺序性回归的自监督学习方法的流程图。在本发明具体实施例中,该基于运动顺序性回归的自监督学习方法步骤如下:
首先给定采样序列窗长度参数,即帧数M=10,M可根据精度和计算能力要求调整,然后对任意总帧数为L的视频,随机生成采样样本序列起始帧在原视频中的帧号s,整数s∈[0,L-M],且服从均匀分布,生成s后即可得到原视频中的帧序列X0={xs,xs+1,...,xs+M-1},该采样序列即为一个顺序样本,记为X={x1,x2,...,xM}。
计算顺序样本X={x1,x2,...,xM}上各相邻帧间的光流图OF={of1,of2,...,ofM-1},其中ofi=Ah×w={amn},Ah×w为h行w列的光流幅值矩阵,h和w分别帧的高和宽,amn(1≤m≤h,1≤n≤w)为坐标(n,m)的像素所在位置的光流幅值,该顺序样本X={x1,x2,...,xM}的平均运动量MV可表示为其中算子Ψ定义为即对输入矩阵各元素求算数平均值。
将该顺序样本X={x1,x2,...,xM}经打乱顺序后变换为乱序样本首先对乱序样本的顺序性评判S定义为其中 和分别为为乱序样本序列中第i帧和第i+1帧在原顺序样本序列中的帧号;计算所有可能的样本X={x1,x2,...,xM}的乱序排列集合,计算各自对应的顺序评判,并记各顺序评判值中的最大值为Smax;然后采样服从高斯分布的随机变量p~N(0,Smax/2),并计算变量作为采样的顺序评判,其中[·]为四舍五入取整;在乱序排列集合中寻找顺序评判与P的采样值一致的子集φ(P),从φ(P)中均匀随机采样得到最终乱序样本
对该乱序样本进行顺序性评判S,并计算该乱序样本的最终顺序得分为顺序评判S与原顺序序列平均运动量MV的加权,即定义最终顺序得分为
计算乱序样本的视觉特征,将乱序样本的视觉特征定义为其中Ii表示第i帧图像。
作为输入数据的和对应的作为输入数据标注标签的组成训练数据集,用于深度神经网络的训练。并可根据数据类型、规模、精度、速度要求不同,选择各类卷积神经网络作为基础网络,并采用均方误差作为回归损失函数。
需说明的是,本发明训练得到的基础网络模型为通用的视觉特征提取模型,对任意输入图像,基础网络最后一层的输出即为输入图像的特征向量,可用于分类、识别等多种应用。
综上所述,本发明一种基于运动顺序性回归的自监督学习方法及装置通过充分利用视频中运动顺序一致性的信息,通过随机生成样本以及样本内帧顺序,并建立顺序性评判标准进行自动的顺序性得分评判,以达到自动标注的目的,最后利用生成的乱序样本及其对应的顺序性得分训练深度回归网络实现自监督学习,从而摆脱了深度学习对大量人工标注样本的依赖,经实践证明,通过本发明的自监督学习方法得到的深度神经网络具有良好的泛化能力,可用于多种图像视频的分类识别应用。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种基于运动顺序性回归的自监督学习方法,包括如下步骤:
步骤S1,随机截取固定帧数的视频样本片段;
步骤S2,计算所述视频样本片段的平均运动量;
步骤S3,随机打乱所述视频样本片段内帧的顺序,得到乱序视频样本片段;
步骤S4,对所述乱序视频样本片段进行顺序性评判;
步骤S5,综合步骤S2获得的所述视频样本片段的平均运动量和步骤S4获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分,并作为回归目标值,即获得标注标签。
2.如权利要求1所述的一种基于运动顺序性回归的自监督学习方法,其特征在于,于步骤S5后,还包括如下步骤:
步骤S6,对所述乱序视频样本片段生成视觉特征;
步骤S7,利用所述乱序视频样本片段的视觉特征及步骤S5得到的最终乱序得分作为回归目标值训练深度回归神经网络,训练得到深度网络模型。
3.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法,其特征在于:于步骤S1中,采用均匀分布随机采样方法确定起始帧位置,截取固定帧数的视频样本片段,所述固定帧数为所述视频样本片段长度。
4.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法,其特征在于:于步骤S2中,计算所述视频样本片段中相邻帧间的光流矢量图并计算光流幅值在各像素及各时间点上的平均值作为所述视频样本片段的平均运动量。
5.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法,其特征在于:于步骤S3中,根据半正态分布随机生成乱序视频样本片段顺序性评判值,并根据该顺序性评判值随机生成一对应的乱序序列。
6.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法,其特征在于,步骤S3进一步包括:
步骤S300,根据半正态分布随机生成乱序视频样本的顺序性评判参数S;
步骤S301,计算所述视频样本X={x1,x2,...,xM}的所有可能的乱序排列集合,计算各自对应的顺序评判,并记录各顺序评判值中的最大值为Smax;
步骤S302,采样服从高斯分布的随机变量p~N(0,Smax/2),并计算变量P作为采样的顺序评判;
步骤S303,在所述乱序排列集合中寻找顺序评判与P的采样值一致的子集φ(P),从φ(P)中均匀随机采样得到最终的乱序视频样本
7.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法,其特征在于,所述顺序性评判参数S定义为:
其中
其中,和分别为乱序样本序列中第i帧和第i+1帧在原顺序样本序列中的帧号。
8.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法,其特征在于:于步骤S4中,所述乱序视频采样片段的视觉特征通过采样帧间差求和的方式获得。
9.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法,其特征在于:于步骤S6中,所述乱序视频样本片段的最终顺序得分为其顺序性评判值S与原顺序序列的视频样本片段的平均运动量的乘积。
10.一种基于运动顺序性回归的自监督学习装置,包括:
视频样本采样单元,用于随机截取固定帧数的视频样本片段;
平均运动量计算单元,用于计算所述视频样本采样单元采样到的视频样本片段的平均运动量;
乱序单元,用于随机打乱所述视频样本采样单元采样到的视频样本片段内帧的顺序;
顺序性评判单元,用于对所述乱序单元生成的乱序视频样本片段进行顺序性评判;
标注标签确定单元,用于综合所述平均运动量计算单元获得的视频样本片段的平均运动量和顺序性评判单元获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分,并作为回归目标值,即获得标注标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910304026.8A CN110070023B (zh) | 2019-04-16 | 2019-04-16 | 一种基于运动顺序性回归的自监督学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910304026.8A CN110070023B (zh) | 2019-04-16 | 2019-04-16 | 一种基于运动顺序性回归的自监督学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110070023A true CN110070023A (zh) | 2019-07-30 |
CN110070023B CN110070023B (zh) | 2020-06-16 |
Family
ID=67367824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910304026.8A Expired - Fee Related CN110070023B (zh) | 2019-04-16 | 2019-04-16 | 一种基于运动顺序性回归的自监督学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110070023B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091157A (zh) * | 2019-12-24 | 2020-05-01 | 中国科学院信息工程研究所 | 基于完形填空任务的视频自监督学习方法 |
CN111401474A (zh) * | 2020-04-13 | 2020-07-10 | Oppo广东移动通信有限公司 | 视频分类模型的训练方法、装置、设备及存储介质 |
CN111930992A (zh) * | 2020-08-14 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5299019A (en) * | 1992-02-28 | 1994-03-29 | Samsung Electronics Co., Ltd. | Image signal band compressing system for digital video tape recorder |
WO2004015996A2 (fr) * | 2002-08-06 | 2004-02-19 | Medialive | Dispositif pour le brouillage de contenus multimedias et audiovisuels de type mpeg-4 |
CN108182489A (zh) * | 2017-12-25 | 2018-06-19 | 浙江工业大学 | 一种基于在线学习行为分析的个性化学习推荐方法 |
CN109508671A (zh) * | 2018-11-13 | 2019-03-22 | 深圳龙岗智能视听研究院 | 一种基于弱监督学习的视频异常事件检测系统及其方法 |
-
2019
- 2019-04-16 CN CN201910304026.8A patent/CN110070023B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5299019A (en) * | 1992-02-28 | 1994-03-29 | Samsung Electronics Co., Ltd. | Image signal band compressing system for digital video tape recorder |
WO2004015996A2 (fr) * | 2002-08-06 | 2004-02-19 | Medialive | Dispositif pour le brouillage de contenus multimedias et audiovisuels de type mpeg-4 |
CN108182489A (zh) * | 2017-12-25 | 2018-06-19 | 浙江工业大学 | 一种基于在线学习行为分析的个性化学习推荐方法 |
CN109508671A (zh) * | 2018-11-13 | 2019-03-22 | 深圳龙岗智能视听研究院 | 一种基于弱监督学习的视频异常事件检测系统及其方法 |
Non-Patent Citations (1)
Title |
---|
BASURA FERNANDO 等: "Self-Supervised Video Representation Learning With Odd-One-Out Networks", 《CVPR2017》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091157A (zh) * | 2019-12-24 | 2020-05-01 | 中国科学院信息工程研究所 | 基于完形填空任务的视频自监督学习方法 |
CN111091157B (zh) * | 2019-12-24 | 2023-03-10 | 中国科学院信息工程研究所 | 基于完形填空任务的视频自监督学习方法 |
CN111401474A (zh) * | 2020-04-13 | 2020-07-10 | Oppo广东移动通信有限公司 | 视频分类模型的训练方法、装置、设备及存储介质 |
CN111401474B (zh) * | 2020-04-13 | 2023-09-08 | Oppo广东移动通信有限公司 | 视频分类模型的训练方法、装置、设备及存储介质 |
CN111930992A (zh) * | 2020-08-14 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110070023B (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT | |
CN111242208B (zh) | 一种点云分类方法、分割方法及相关设备 | |
CN109190508A (zh) | 一种基于空间坐标系的多摄像头数据融合方法 | |
CN104573706A (zh) | 一种物体图像识别方法及其系统 | |
CN109558902A (zh) | 一种快速目标检测方法 | |
Li et al. | Sign language recognition based on computer vision | |
CN110070023A (zh) | 一种基于运动顺序性回归的自监督学习方法及装置 | |
CN109886356A (zh) | 一种基于三分支神经网络的目标追踪方法 | |
WO2021184754A1 (zh) | 视频对比方法、装置、计算机设备和存储介质 | |
CN109614990A (zh) | 一种目标检测装置 | |
CN110599443A (zh) | 一种使用双向长短期记忆网络的视觉显著性检测方法 | |
WO2023087420A1 (zh) | 一种基于热红外视觉的停机坪人体动作识别方法及系统 | |
CN111523387B (zh) | 手部关键点检测的方法、设备和计算机设备 | |
Liu et al. | D-CenterNet: An anchor-free detector with knowledge distillation for industrial defect detection | |
Feng et al. | Local complexity difference matting based on weight map and alpha mattes | |
Zhong | A convolutional neural network based online teaching method using edge-cloud computing platform | |
Li et al. | [Retracted] Human Sports Action and Ideological and PoliticalEvaluation by Lightweight Deep Learning Model | |
Kong et al. | Realizing balanced object detection through prior location scale information and repulsive loss | |
Yang et al. | [Retracted] Footballer Action Tracking and Intervention Using Deep Learning Algorithm | |
Xia et al. | GCENet: Global contextual exploration network for RGB-D salient object detection | |
CN107506400A (zh) | 一种基于认知特征和流形排序的图像检索方法 | |
Yan et al. | Crowd counting via scale-adaptive convolutional neural network in extremely dense crowd images | |
WO2021038840A1 (ja) | 物体数推定装置、制御方法、及びプログラム | |
Wu et al. | DA-ResNet: dual-stream ResNet with attention mechanism for classroom video summary | |
Zhu et al. | Rank pooling dynamic network: Learning end-to-end dynamic characteristic for action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200616 |
|
CF01 | Termination of patent right due to non-payment of annual fee |