CN111832516B - 基于无监督视频表示学习的视频行为识别方法 - Google Patents
基于无监督视频表示学习的视频行为识别方法 Download PDFInfo
- Publication number
- CN111832516B CN111832516B CN202010708067.6A CN202010708067A CN111832516B CN 111832516 B CN111832516 B CN 111832516B CN 202010708067 A CN202010708067 A CN 202010708067A CN 111832516 B CN111832516 B CN 111832516B
- Authority
- CN
- China
- Prior art keywords
- layer
- video
- layers
- dimensional
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于无监督视频表示学习的视频行为识别方法,包括下述步骤:(1)获取训练样本集和测试样本集;(2)构建生成对抗网络模型;(3)对生成对抗网络模型进行迭代训练;(4)构建视频行为识别模型;(5)对视频行为识别模型进行迭代训练;(6)获取视频行为识别结果。本发明在构建视频行为识别模型结构时,首先构建生成对抗网络模型的结构,再将训练后的生成对抗网络的编码器及其网络参数作为视频行为识别模型结构的组成部分,解决了现有技术只利用了图像空域信息的问题和没有捕捉视频帧中的长程信息的问题,提高了基于无监督视频表示学习方法的视频行为识别准确率。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种视频行为识别方法,具体涉及一种基于无监督视频表示学习的视频行为识别方法。
背景技术
视频多媒体技术越来越成为人们生产和生活中信息交流的主要方式,随着视频数据的爆炸性增长,对产生了对视频信息的智能感知和处理的迫切需求。视频行为识别,又被称为视频分类,是计算机视觉中的一个重要的领域,是视频理解领域的研究热点,被广泛用于社会中的各个领域,如智能监控、人机交互、智能短视频分类等。
视频行为识别是一种通过设计或学习的方法,从视频段中提取不同行为所反映的不同特征,然后使用分类器把视频中主体的不同类别的行为区分开来的视频分析方法。
近年来,随着深度学习和大规模开源数据集的快速发展,图像分类任务的准确度已经超越了人类平均水平。然而在视频感知领域,深度学习技术还远没有达到人类水平的精度。相比于图像分类,视频分类不仅存在背景中光照、姿态变化等挑战,还存在视频帧间信息的建模问题。因为视频信号由图像帧的序列构成,既包含视频某帧的图像空域信息,又包含视频帧之间的上下文信息。因此如何鲁棒、高效地对视频帧间的信息进行建模,成为提升视频行为识别算法精度的关键。
有两个主要因素影响着现有视频分类方法的精度:(1)特征提取模型的网络结构;(2)模型参数的初始化方法。限制当前模型精度提升的主要因素不是模型结构的表达能力,而是模型在数据集上的过拟合问题。现有的视频行为识别方法依赖在大规模有标签数据集上的预训练,获得更好的初始模型参数,从而获得泛化能力强的视频表示。然而,大量的视频数据标定工作耗时耗力,海量的无标记视频数据却不能被利用。因此,如何不依赖大规模有标签数据集预训练,通过无监督的模型初始化方法,利用无标签数据获得更好的视频表示,成为提升视频行为识别的关键。
目前为止,基于无监督的视频表示学习方法主要有以下几种:
Ishan Misra等人于2016年在《European Conference on Computer Vision》上发表了一篇题为:“Shuffle and Learn:Unsupervised Learning Using Temporal OrderVerification”的文章,公开了一种对帧的顺序进行验证的无监督视频表示学习算法,该方法首先从视频序列中抽取多个视频帧图像,保持原本视频帧排列或将顺序打乱,然后通过构建深度卷积网络来对视频帧图像进行特征提取,然后将提取的特征进行平均,并送入顺序判别网络,判别视频中的帧序列是否以正确的时间顺序排列。但是,该方法只简单的提取整个视频的三帧的特征,难以捕捉视频帧中的长程信息。方法仅将特征进行平均再进行二分类,难以有效地对视频帧的循序进行建模。
Jing,Longlong和Tian,Yingli在其2018年发表的论文“Self-supervisedspatiotemporal feature learning by video geometric transformations”(arXivpreprint arXiv:1811.11387,2018,2(7):8.),公开了一种对视频帧进行角度预测的无监督视频表示学习算法,该方法首先从视频序列中抽取多个视频帧图像,然后对帧序列进行0°、90°、180°或270°的几何旋转,然后通过构建三维卷积神经网络,提取视频帧序列的特征,然后将特征送入角度判别网络,判别输入的帧序列经过了哪种角度的几何旋转。但是,该方法只简单的判别了视频帧中的空域信息,没有有效利用视频帧的时序信息,导致对视频识别模型的精度提升不高。
发明内容
本发明的目的是针对上述现有技术的不足,提出了一种基于无监督视频表示学习的视频行为识别方法,用于解决现有技术中存在的识别精度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集和测试样本集:
(1a)对选取的V个行为视频的预处理,得到预处理的帧序列集合 表示第m个包含Lm幅预处理过的图像帧的帧序列,/>v(n)表示预处理过的第n个图像帧,其中,V>5000,Lm>50;
(1b)对每个帧序列中N帧序号为奇数的帧序列和N帧序号为偶数的帧序列分别进行标记,得到奇数帧序列/> 和偶数帧序列/> 其中N>3;
(1c)设V个行为视频包含C种动作行为类别Sclass,Sclass={ck|1≤k≤C},并对视频集合Sv1中每个视频帧序列对应的行为类别c(m)进行独热编码,得到真实动作类别标签其中C>2,ck表示第k种动作类别;
(1d)随机选取视频集合Sv1中半数以上的经预处理过的视频帧序列进行标记,利用/>和/>及视频帧序列/>的真实动作类别的标签/>组成训练样本集Btrain;将Sv1中剩余的/>和/>合并为测试帧序列/>后和对应的/>组合为测试样本集Btest;
(2)构建生成对抗网络模型:
(2a)构建生成对抗网络模型的结构:
构建包括顺次连接的自编码器fG和判别器fD的生成对抗网络模型,其中,
fG包括顺次连接的编码器fencoder和解码器fdecoder,fencoder采用包含多个三维卷积层和多个批归一化层的三维卷积神经网络;fdecoder采用包含多个三维转置卷积层、多个双线性插值层和单个正切激活函数输出层的三维转置卷积神经网络;fD采用包含多个二维卷积层、多个二维池化层、多个残差单元模块、单个全连接层和softmax激活函数输出层的残差网络;
(2b)定义自编码器fG的损失函数LG和判别器fD的损失函数LD:
LG=Lmse+λgLg
LD=log(yfake)+log(1-yreal)
其中,Lmse表示fG的一致损失,Xeven表示给定的奇数帧序列,/>表示给定奇数帧序列Xodd用fG对偶数帧序列Xeven的预测结果,/>λg表示Lg在LG中所占的权重,λg∈[0,1],Lg表示fG的损失函数,Lg=log(1-yfake);yfake表示判别器fD在输入为时的第一项判别损失,/>yfake∈(0,1);yreal表示判别器fD在输入是Xeven时的第二项判别损失,yreal=fD(Xeven),yreal∈(0,1);
(3)对生成对抗网络模型进行迭代训练:
(3a)初始化自编码器fG的网络参数为θG,判别器fD的网络参数为θD,迭代次数为i,最大迭代次数为I,I≥500,并令i=0;
(3b)对训练样本集Btrain作为生成对抗网络模型的输入,奇数帧序列在自编码器fG中进行前向传播,得到i时的预测结果/>
(3c)预测结果在判别器网络fD中进行前向传播,得到第一项判别损失值偶数帧序列/>在判别器网络fD中进行前向传播,得到第二判别损失值/>
(3d)采用损失函数LD,并通过和/>计算判别器fD的损失值/>再采用反向传播方法并通过/>计算fD的网络参数梯度,然后采用梯度下降算法通过fD的网络参数梯度对fD的网络参数θD进行更新;
(3e)采用损失函数LG,并通过和/>计算自编码器fG的损失值/>再采用反向传播方法并通过/>计算fG的网络参数梯度,然后采用梯度下降算法通过fG的网络参数梯度对fG的网络参数θG进行更新;
(3f)判断i≥I是否成立,若是,得到训练好的生成对抗网络模型,否则,令i=i+1,并执行步骤(3b);
(4)构建视频行为识别模型:
(4a)构建视频行为识别模型结构:
构建包括顺次连接的编码器fencoder和特征分类器fcls的视频行为识别模型,其中fencoder及其网络参数采用训练好的生成对抗网络模型中的编码器及其网络参数fencoder,fcls采用线性分类器实现,包括全连接层和softmax激活函数输出层;
(4b)定义视频行为识别模型的损失函数Lcls:
其中,ycls表示经过独热编码后的行为视频的真实动作类别标签,表示视频行为识别模型对给定的奇数帧序列Xodd为输入的时候对输入帧序列的真实动作类别标签ycls的动作类别预测,/>
(5)对视频行为识别模型进行迭代训练:
(5a)固定编码器fencoder特征提取网络的参数不变,初始化特征分类器fcls的参数θcls,设迭代次数为j,最大迭代次数为J,J≥25,令j=0;
(5b)将训练样本集Btrain作为特征分类器参数为θcls的视频行为识别模型的输入进行前向推理,得到动作类别预测结果并采用损失函数Lcls计算视频行为识别模型的损失值/>
(5c)采用反向传播方法,并通过损失值计算视频行为识别模型的网络参数梯度,然后采用梯度下降算法并通过网络参数梯度对特征分类器的网络参数θcls进行更新;
(5d)判断j=J是否成立,若是,得到训练好的视频行为识别模型,否则,令j=j+1,并执行步骤(5b);
(6)获取视频行为识别结果:
(6a)将测试样本集Btest中的每一个测试帧序列作为训练好的视频行为识别模型的输入进行前向传播,得到动作类别预测/>
(6b)计算预测概率向量中最大值对应的下标idx,并通过查找索引表,得到idx对应的行为类别。
本发明与现有的技术,具有以下优点:
本发明在构建视频行为识别模型结构时,首先构建生成对抗网络模型的结构,然后将视频的奇数帧序列与偶数帧序列分别作为自编码器的输入与判别器的输入,再将训练后的生成对抗网络的编码器及其网络参数作为视频行为识别模型结构的组成部分,解决了现有技术只利用了图像空域信息的问题和没有捕捉视频帧中的长程信息的问题,提高了基于无监督视频表示学习方法的视频行为识别准确率。
附图说明
图1是本发明的实现流程图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集和测试样本集:
步骤1a)对选取的V个行为视频进行分解,得到帧序列集合Sv0,其中/>表示第m个包含Lm个图像帧的帧序列,/> 表示第m个帧序列/>的第n个图像帧,本实例中,V=6766,Lm=60;
设定裁剪窗口的大小为h1×w1,并随机对图像帧进行裁剪,得到裁剪后的图像帧/>本实例中,h1为在{256,224,192,168}中随机选择的值,w1为在{256,224,192,168}中随机选择的值;
设调整后的图像帧大小为h2×w2,若h1<h2,则采用线性插值法对/>进行调整,使h1=h2,若h1>h2,则采用下采样法对/>进行调整,使h1=h2,若w1<w2,则采用线性插值法对/>进行调整,使w1=w2,若w1>w2,则采用下采样法对/>进行调整,使w1=w2,得到调整后的图像帧/>本实例中,h2=224,w2=224;
对图像帧进行归一化,并将所有归一化后的图像帧组合为预处理后的帧序列集合/> 表示第m个包含Lm幅预处理过的图像帧的帧序列,v(n)表示预处理过的第n个图像帧;
以上预处理操作可在一定程度上减弱图像中噪声对于性能的不利影响;
步骤1b)对每个帧序列中N帧序号为奇数的帧序列和N帧序号为偶数的帧序列分别进行标记,得到奇数帧序列/> 和偶数帧序列/> 本实例中,N=30;
步骤1c)设V个行为视频包含C种动作行为类别Sclass,Sclass={ck|1≤k≤C},并对视频集合Sv1中每个视频帧序列对应的行为类别c(m)进行独热编码,得到真实动作类别标签/>本实例中C=51,ck表示第k种动作类别;
步骤1d)随机选取视频集合Sv1中半数以上的经预处理过的视频帧序列进行标记,利用/>和/>及视频帧序列/>的真实动作类别的标签/>组成训练样本集Btrain;将Sv1中剩余的/>和/>合并为测试帧序列/>后和对应的/>组合为测试样本集Btest;
步骤2)构建生成对抗网络模型:
步骤2a)构建生成对抗网络模型的结构:
构建包括顺次连接的自编码器fG和判别器fD的生成对抗网络模型,其中,
fG包括顺次连接的编码器fencoder和解码器fdecoder,fencoder采用包含多个三维卷积层和多个批归一化层的三维卷积神经网络;fdecoder采用包含多个三维转置卷积层、多个双线性插值层和单个正切激活函数输出层的三维转置卷积神经网络;fD采用包含多个二维卷积层、多个二维池化层、多个残差单元模块、单个全连接层和softmax激活函数输出层的残差网络;
生成对抗网络模型包括编码器fencoder、解码器fdecoder和判别器fD,其中:
fencoder采用包含三十七个三维卷积层和三十七个批归一化层三维卷积神经网络,具体结构为:
每四个卷积层和四个批归一化层组成一个基础块,所述基础块的具体结构为:第一三维卷积层→第一批归一化层→第二三维卷积层→第二批归一化层→第三三维卷积层→第三批归一化层→第四三维卷积层→第四批归一化层;
所述fencoder的具体结构为:第一三维卷积层→第一批归一化层→第二三维卷积层→第二批归一化层→第一基础块→第二基础块→第一下采样层→第三基础块→第四基础块→第二下采样层→第五基础块→第六基础块→第三下采样层→第七基础块→第八基础块;
所述下采样层的具体结构为:第一三维卷积层→第一批归一化层;
所述fencoder的每层参数设置为:将第一、第二三维卷积层的输出通道数分别设置为45,64,卷积核的大小分别设置为1x7x7,3x1x1,步长分别设置为1x2x2,1x1x1,填充分别设置为0x3x3,1x0x0;将第一至第八基础块中第一至第四三维卷积层的卷积核的大小设置为1x3x3,3x1x1,1x3x3,3x1x1,步长均设置为1x1x1,填充分别设置为0x1x1,1x0x0;将第一、第二基础块中第一至第四三维卷积层的输出通道数分别设置为144,64,144,64;将第三基础块中第一至第四三维卷积层的输出通道数分别设置为230,128,230,128;将第四基础块中第一至第四三维卷积层的输出通道数分别设置为128,288,128,288;将第五基础块中第一至第四三维卷积层的输出通道数分别设置为460,256,460,256;将第六基础块中第一至第四三维卷积层的输出通道数分别设置为576,256,576,256;将第七基础块中第一至第四三维卷积层的输出通道数分别设置为921,512,921,512;将第八基础块中第一至第四三维卷积层的输出通道数分别设置为1152,512,1152,512;将第一至第三下采样层中三维卷积层的卷积核均设置为1x1x1,步长均设置为2x2x2;将第一至第三下采样层中三维卷积层的输出通道数分别设置为128,256,512;
解码器fdecoder采用包含六个三维转置卷积层、四个双线性插值层和单个正切激活函数输出层的三维转置卷积神经网络,其结构依次为:输入层→第一转置卷积层→第一上采样层→第二转置卷积层→第二上采样层→第三转置卷积层→第三上采样层→第四转置卷积层→第四上采样层→第五三维转置卷积层→第六三维转置卷积层;
所述解码器fdecoder的每层参数设置为:将第一至第四三维转置卷积层的卷积核均设置为3x3x3;将第一至第三三维转置卷积层的填充均设置为1x1x1;将四三维转置卷积层的填充设置为1x0x0;将第一至第四三维转置卷积层的输出通道数分别设置为256,128,64,64;将第一至第三上采样层核大小均设置为2x2x2,填充设置为1x1x1;将第一至第四三维上采样层的输出通道数分别设置为256,128,64,64;将第四上采样层的核大小设置为1x2x2,步长设置为1x2x2,填充设置为1x0x0;将第五、第六转置卷积层的卷积核大小均设置为3x3x3,填充设置为1x1x1;将第五、第六转置卷积层的输出通道数分别设置为45,3;
fD采用包含三十六个三维卷积层和三十六个批归一化层三维卷积神经网络具体结构为:
每两个卷积层和两个批归一化层组成一个基础块,所述基础块的具体结构为:第一二维卷积层→第一批归一化层→第二二维卷积层→第二批归一化层;
所述fD的具体结构为:第一二维卷积层→第一批归一化层→第一基础块→第二基础块→第三基础块→第四基础块→第一下采样层→第五基础块→第六基础块→第七基础块→第八基础块→第二下采样层→第九基础块→第十基础块→第十一基础块→第十二基础块→第十三基础块→第十四基础块→第三下采样层→第十五基础块→第十六基础块;
所述下采样层的具体结构为:第一二维卷积层→第一批归一化层;
所述fD的每层参数设置为:将第一二维卷积层的输出通道数设置为64,卷积核的大小分别设置为7x7,步长分别设置为2x2,填充分别设置为3x3;将第一至第十六基础块中第一与第二二维卷积层的卷积核的大小均设置为3x3,步长均设置为1x1,填充分别设置为1x1;将第一至第十六基础块中第一与第二二维卷积层的输出通道数分别设置为64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第三下采样层中二维卷积层的卷积核均设置为1x1,步长均设置为2x2;将第一至第三下采样层中二维卷积层的输出通道数分别设置为128,256,512;
步骤2b)定义自编码器fG的损失函数LG和判别器fD的损失函数LD:
LG=Lmse+λgLg
LD=log(yfake)+log(1-yreal)
其中,Lmse表示fG的一致损失,Xeven表示给定的奇数帧序列,/>表示给定奇数帧序列Xodd用fG对偶数帧序列Xeven的预测结果,/>λg表示Lg在LG中所占的权重,λg∈[0,1],Lg表示fG的损失函数,Lg=log(1-yfake);yfake表示判别器fD在输入为时的第一项判别损失,/>yfake∈(0,1);yreal表示判别器fD在输入是Xeven时的第二项判别损失,yreal=fD(Xeven),yreal∈(0,1);
步骤3)对生成对抗网络模型进行迭代训练:
步骤3a)初始化自编码器fG的网络参数为θG,判别器fD的网络参数为θD,迭代次数为i,本实例中最大迭代次数为I=500,并令i=0;
步骤3b)对训练样本集Btrain作为生成对抗网络模型的输入,奇数帧序列在自编码器fG中进行前向传播,得到i时的预测结果/>
步骤3c)预测结果在判别器网络fD中进行前向传播,得到第一项判别损失值偶数帧序列/>在判别器网络fD中进行前向传播,得到第二判别损失值/>
上述将奇数帧序列作为自编码器fG的输入,再利用判别器fD判断自编码器fG的输出与偶数帧序列/>是否一致,使得自编码器可以学习到视频中奇数帧到偶数帧的变化,一定程度上利用了图像空域信息并捕捉了视频帧中的长程信息;
步骤3d)采用损失函数LD,并通过和/>计算判别器fD的损失值/>再采用反向传播方法并通过/>计算fD的网络参数梯度,然后采用梯度下降算法通过fD的网络参数梯度对fD的网络参数θD进行更新,网络θD参数的更新公式为:
其中:表示更新后的网络参数,/>表示更新前的网络参数,αD表示步长,表示fD的网络参数梯度;
步骤3e)采用损失函数LG,并通过和/>计算自编码器fG的损失值/>再采用反向传播方法并通过/>计算fG的网络参数梯度,然后采用梯度下降算法通过fG的网络参数梯度对fG的网络参数θG进行更新,网络θG参数的更新公式为:
其中:表示更新后的网络参数,/>表示更新前的网络参数,αG表示步长,表示fG的网络参数梯度;
步骤3f)判断i≥I是否成立,若是,得到训练好的生成对抗网络模型,否则,令i=i+1,并执行步骤(3b);
步骤4)构建视频行为识别模型:
步骤4a)构建视频行为识别模型结构:
构建包括顺次连接的编码器fencoder和特征分类器fcls的视频行为识别模型,其中fencoder及其网络参数采用训练好的生成对抗网络模型中的编码器及其网络参数fencoder,fcls采用线性分类器实现,包括全连接层和softmax激活函数输出层;
步骤4b)定义视频行为识别模型的损失函数Lcls:
其中,ycls表示经过独热编码后的行为视频的真实动作类别标签,表示视频行为识别模型对给定的奇数帧序列Xodd为输入的时候对输入帧序列的真实动作类别标签ycls的动作类别预测,/>
步骤5)对视频行为识别模型进行迭代训练:
步骤5a)固定编码器fencoder特征提取网络的参数不变,初始化特征分类器fcls的参数θcls,设迭代次数为j,本实例中,最大迭代次数为J=25,令j=0;
利用编码器fencoder特征提取网络的参数初始化特征分类器fcls的参数θcls降低了视频行为识别模型的训练时间,提高了收敛速度;
步骤5b)将训练样本集Btrain作为特征分类器参数为θcls的视频行为识别模型的输入进行前向推理,得到动作类别预测结果并采用损失函数Lcls计算视频行为识别模型的损失值/>
步骤5c)采用反向传播方法,并通过损失值计算视频行为识别模型的网络参数梯度,然后采用梯度下降算法并通过网络参数梯度对特征分类器的网络参数θcls进行更新,特征分类器的网络参数θcls的更新公式为:
其中:表示更新后的网络参数,/>表示更新前的网络参数,αcls表示步长,表示视频行为识别模型的网络参数梯度;
步骤5d)判断j=J是否成立,若是,得到训练好的视频行为识别模型,否则,令j=j+1,并执行步骤(5b);
步骤6)获取视频行为识别结果:
步骤6a)将测试样本集Btest中的每一个测试帧序列作为训练好的视频行为识别模型的输入进行前向传播,得到动作类别预测/>
步骤6b)计算预测概率向量中最大值对应的下标idx,并通过查找索引表,得到idx对应的行为类别。
下面结合仿真实验对本发明的效果做进一步的说明:
1.实验条件:
本发明的仿真实验的硬件平台为:GPU为NVIDIA GeForce GTX 1080Ti/PCIe/SSE2,20核,主频为2.4GHz,内存大小为64GB;显存大小为20GB。
本发明的仿真实验的软件平台为:操作系统为Ubuntu16.04LTS,mxnet版本为1.5.1,gluonCV版本为0.6.0,OpenCV版本3.4.0。
2.仿真内容
本发明仿真实验是采用本发明和一个现有技术(基于预测帧旋转角度的3DRotNet方法)对输入的HMDB51视频行为识别数据集中每段视频进行识别,获得识别结果。
现有技术的基于预测帧旋转角度的3DRotNet方法是指:Jing,Longlong andTian,Yingli在其发表的论文“Self-supervised spatiotemporal feature learning byvideo geometric transformations”(arXiv preprint arXiv:1811.11387,2018,2(7):8.)中提出的视频行为识别方法,简称3DRotNet方法。
本发明仿真实验所使用的输入视频数据集为HMDB51数据集,其包含6849个视频片段,分为51个行为类别,每个类别至少包含101个视频片段。数据集中包含以下五种类型的行为:
1)一般的面部动作微笑,大笑,咀嚼,交谈。
2)有交互对象的面部动作:吸烟,进食,饮水。
3)全身动作:侧手翻,拍手,爬,爬楼梯,跳,落在地板上,反手翻转、倒立、跳、拉、推、跑,坐下来,仰卧起坐,翻跟头,站起来,转身,走,挥手。
4)有交互对象的身体动作:梳头,抓,拔剑,运球,打高尔夫球,击球,踢球,接球,倒,推东西,骑自行车,骑马,投球,射箭,开枪,挥棒球棒,剑运动,扔。
5)与人互动的肢体动作:击剑,拥抱,踢人,亲吻,用拳猛击,握手,击剑。
参考官方提供的数据集划分方式,将数据集视频中3570个视频作为训练集,其余1530个作为测试集。
当本发明仿真实验中的行为识别结果与HMDB51数据集中的测试集中视频的标签相同,则认为视频行为识别结果正确;当本发明仿真实验中的检测结果与HMDB51数据集中的测试集中视频的标签不相同,则认为视频行为识别结果不正确。
为了评价本发明的效果,利用下述的评价指标(行为识别准确率)公式,分别计算本发明仿真实验中三种方法的识别结果的准确率,并将计算结果绘制成表1:
表1.本发明仿真的行为识别准确率对比表
方法 | 行为识别准确率 |
3DRotNet方法 | 33.7% |
本发明方法 | 40.0% |
结合表1可以看出,本发明的准确率为40.0%,这个指标高于现有技术方法,证明本发明可以获得更好的视频表示,同时提高视频行为识别能力。
以上仿真实验表明:本发明方法在构建视频行为识别模型结构时,首先构建生成对抗网络模型的结构,再将训练后的生成对抗网络的编码器及其网络参数作为视频行为识别模型结构的组成部分,解决了现有技术只利用了图像空域信息的问题和没有捕捉视频帧中的长程信息的问题,是一种性能优异的基于无监督视频表示学习方法的视频行为识别方法。
Claims (6)
1.一种基于无监督视频表示学习的视频行为识别方法,其特征在于,包括如下步骤:
(1)获取训练样本集和测试样本集:
(1a)对选取的V个行为视频的预处理,得到预处理的帧序列集合 表示第m个包含Lm幅预处理过的图像帧的帧序列,/>v(n)表示预处理过的第n个图像帧,其中,V>5000,Lm>50;
(1b)对每个帧序列中N帧序号为奇数的帧序列和N帧序号为偶数的帧序列分别进行标记,得到奇数帧序列/> 和偶数帧序列其中N>3;
(1c)设V个行为视频包含C种动作行为类别Sclass,Sclass={ck|1≤k≤C},并对视频集合Sv1中每个视频帧序列对应的行为类别c(m)进行独热编码,得到真实动作类别标签/>其中C>2,ck表示第k种动作类别;
(1d)随机选取视频集合Sv1中半数以上的经预处理过的视频帧序列进行标记,利用/>和/>及视频帧序列/>的真实动作类别的标签/>组成训练样本集Btrain;将Sv1中剩余的/>和/>合并为测试帧序列/>后和对应的/>组合为测试样本集Btest;
(2)构建生成对抗网络模型:
(2a)构建生成对抗网络模型的结构:
构建包括顺次连接的自编码器fG和判别器fD的生成对抗网络模型,其中,fG包括顺次连接的编码器fencoder和解码器fdecoder,fencoder采用包含多个三维卷积层和多个批归一化层的三维卷积神经网络;fdecoder采用包含多个三维转置卷积层、多个双线性插值层和单个正切激活函数输出层的三维转置卷积神经网络;fD采用包含多个二维卷积层、多个二维池化层、多个残差单元模块、单个全连接层和softmax激活函数输出层的残差网络;
(2b)定义自编码器fG的损失函数LG和判别器fD的损失函数LD:
LG=Lmse+λgLg
LD=log(yfake)+log(1-yreal)
其中,Lmse表示fG的一致损失,Xeven表示给定的奇数帧序列,/>表示给定奇数帧序列Xodd用fG对偶数帧序列Xeven的预测结果,/>λg表示Lg在LG中所占的权重,λg∈[0,1],Lg表示fG的损失函数,Lg=log(1-yfake);yfake表示判别器fD在输入为/>时的第一项判别损失,/>yfake∈(0,1);yreal表示判别器fD在输入是Xeven时的第二项判别损失,yreal=fD(Xeven),yreal∈(0,1);
(3)对生成对抗网络模型进行迭代训练:
(3a)初始化自编码器fG的网络参数为θG,判别器fD的网络参数为θD,迭代次数为i,最大迭代次数为I,I≥500,并令i=0;
(3b)对训练样本集Btrain作为生成对抗网络模型的输入,奇数帧序列在自编码器fG中进行前向传播,得到i时的预测结果/>
(3c)预测结果在判别器网络fD中进行前向传播,得到第一项判别损失值/>偶数帧序列/>在判别器网络fD中进行前向传播,得到第二判别损失值/>
(3d)采用损失函数LD,并通过和/>计算判别器fD的损失值/>再采用反向传播方法并通过/>计算fD的网络参数梯度,然后采用梯度下降算法通过fD的网络参数梯度对fD的网络参数θD进行更新;
(3e)采用损失函数LG,并通过和/>计算自编码器fG的损失值再采用反向传播方法并通过/>计算fG的网络参数梯度,然后采用梯度下降算法通过fG的网络参数梯度对fG的网络参数θG进行更新;
(3f)判断i≥I是否成立,若是,得到训练好的生成对抗网络模型,否则,令i=i+1,并执行步骤(3b);
(4)构建视频行为识别模型:
(4a)构建视频行为识别模型结构:
构建包括顺次连接的编码器fencoder和特征分类器fcls的视频行为识别模型,其中fencoder及其网络参数采用训练好的生成对抗网络模型中的编码器及其网络参数fencoder,fcls采用线性分类器实现,包括全连接层和softmax激活函数输出层;
(4b)定义视频行为识别模型的损失函数Lcls:
其中,ycls表示经过独热编码后的行为视频的真实动作类别标签,表示视频行为识别模型对给定的奇数帧序列Xodd为输入的时候对输入帧序列的真实动作类别标签ycls的动作类别预测,/>
(5)对视频行为识别模型进行迭代训练:
(5a)固定编码器fencoder特征提取网络的参数不变,初始化特征分类器fcls的参数θcls,设迭代次数为j,最大迭代次数为J,J≥25,令j=0;
(5b)将训练样本集Btrain作为特征分类器参数为θcls的视频行为识别模型的输入进行前向推理,得到动作类别预测结果并采用损失函数Lcls计算视频行为识别模型的损失值/>
(5c)采用反向传播方法,并通过损失值计算视频行为识别模型的网络参数梯度,然后采用梯度下降算法并通过网络参数梯度对特征分类器的网络参数θcls进行更新;
(5d)判断j=J是否成立,若是,得到训练好的视频行为识别模型,否则,令j=j+1,并执行步骤(5b);
(6)获取视频行为识别结果:
(6a)将测试样本集Btest中的每一个测试帧序列作为训练好的视频行为识别模型的输入进行前向传播,得到动作类别预测/>
(6b)计算预测概率向量中最大值对应的下标idx,并通过查找索引表,得到idx对应的行为类别。
2.根据权利要求1中所述的基于无监督视频表示学习的视频行为识别方法,其特征在于,步骤(2a)中所述的生成对抗网络模型包括编码器fencoder、解码器fdecoder和判别器fD,其中:
fencoder采用包含三十七个三维卷积层和三十七个批归一化层三维卷积神经网络,具体结构为:
每四个卷积层和四个批归一化层组成一个基础块,所述基础块的具体结构为:第一三维卷积层→第一批归一化层→第二三维卷积层→第二批归一化层→第三三维卷积层→第三批归一化层→第四三维卷积层→第四批归一化层;
所述fencoder的具体结构为:第一三维卷积层→第一批归一化层→第二三维卷积层→第二批归一化层→第一基础块→第二基础块→第一下采样层→第三基础块→第四基础块→第二下采样层→第五基础块→第六基础块→第三下采样层→第七基础块→第八基础块;
所述下采样层的具体结构为:第一三维卷积层→第一批归一化层;
所述fencoder的每层参数设置为:将第一、第二三维卷积层的输出通道数分别设置为45,64,卷积核的大小分别设置为1x7x7,3x1x1,步长分别设置为1x2x2,1x1x1,填充分别设置为0x3x3,1x0x0;将第一至第八基础块中第一至第四三维卷积层的卷积核的大小设置为1x3x3,3x1x1,1x3x3,3x1x1,步长均设置为1x1x1,填充分别设置为0x1x1,1x0x0;将第一、第二基础块中第一至第四三维卷积层的输出通道数分别设置为144,64,144,64;将第三基础块中第一至第四三维卷积层的输出通道数分别设置为230,128,230,128;将第四基础块中第一至第四三维卷积层的输出通道数分别设置为128,288,128,288;将第五基础块中第一至第四三维卷积层的输出通道数分别设置为460,256,460,256;将第六基础块中第一至第四三维卷积层的输出通道数分别设置为576,256,576,256;将第七基础块中第一至第四三维卷积层的输出通道数分别设置为921,512,921,512;将第八基础块中第一至第四三维卷积层的输出通道数分别设置为1152,512,1152,512;将第一至第三下采样层中三维卷积层的卷积核均设置为1x1x1,步长均设置为2x2x2;将第一至第三下采样层中三维卷积层的输出通道数分别设置为128,256,512;
解码器fdecoder采用包含六个三维转置卷积层、四个双线性插值层和单个正切激活函数输出层的三维转置卷积神经网络,其结构依次为:输入层→第一转置卷积层→第一上采样层→第二转置卷积层→第二上采样层→第三转置卷积层→第三上采样层→第四转置卷积层→第四上采样层→第五三维转置卷积层→第六三维转置卷积层;
所述解码器fdecoder的每层参数设置为:将第一至第四三维转置卷积层的卷积核均设置为3x3x3;将第一至第三三维转置卷积层的填充均设置为1x1x1;将四三维转置卷积层的填充设置为1x0x0;将第一至第四三维转置卷积层的输出通道数分别设置为256,128,64,64;将第一至第三上采样层核大小均设置为2x2x2,填充设置为1x1x1;将第一至第四三维上采样层的输出通道数分别设置为256,128,64,64;将第四上采样层的核大小设置为1x2x2,步长设置为1x2x2,填充设置为1x0x0;将第五、第六转置卷积层的卷积核大小均设置为3x3x3,填充设置为1x1x1;将第五、第六转置卷积层的输出通道数分别设置为45,3;
fD采用包含三十六个三维卷积层和三十六个批归一化层三维卷积神经网络具体结构为:
每两个卷积层和两个批归一化层组成一个基础块,所述基础块的具体结构为:第一二维卷积层→第一批归一化层→第二二维卷积层→第二批归一化层;
所述fD的具体结构为:第一二维卷积层→第一批归一化层→第一基础块→第二基础块→第三基础块→第四基础块→第一下采样层→第五基础块→第六基础块→第七基础块→第八基础块→第二下采样层→第九基础块→第十基础块→第十一基础块→第十二基础块→第十三基础块→第十四基础块→第三下采样层→第十五基础块→第十六基础块;
所述下采样层的具体结构为:第一二维卷积层→第一批归一化层;
所述fD的每层参数设置为:将第一二维卷积层的输出通道数设置为64,卷积核的大小分别设置为7x7,步长分别设置为2x2,填充分别设置为3x3;将第一至第十六基础块中第一与第二二维卷积层的卷积核的大小均设置为3x3,步长均设置为1x1,填充分别设置为1x1;将第一至第十六基础块中第一与第二二维卷积层的输出通道数分别设置为64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第三下采样层中二维卷积层的卷积核均设置为1x1,步长均设置为2x2;将第一至第三下采样层中二维卷积层的输出通道数分别设置为128,256,512。
3.根据权利要求1中所述的基于无监督视频表示学习的视频行为识别方法,其特征在于,步骤(1a)中所述的对选取的V个行为视频的预处理,实现步骤为:
(1a1)对每个行为视频进行分解,得到帧序列集合Sv0,其中表示第m个包含Lm个图像帧的帧序列,/> 表示第m个帧序列/>的第n个图像帧;
(1a2)设定裁剪窗口的大小为h1×w1,并随机对图像帧进行裁剪,得到裁剪后的图像帧/>
(1a3)设调整后的图像帧大小为h2×w2,若h1<h2,则采用线性插值法对/>进行调整,使h1=h2,若h1>h2,则采用下采样法对/>进行调整,使h1=h2,若w1<w2,则采用线性插值法对/>进行调整,使w1=w2,若w1>w2,则采用下采样法对/>进行调整,使w1=w2,得到调整后的图像帧/>其中h2>2,w2>2;
(1a4)对图像帧进行归一化,并将所有归一化后的图像帧组合为预处理后的帧序列集合Sv1。
4.根据权利要求1中所述的基于无监督视频表示学习的视频行为识别方法,其特征在于,步骤(3d)中所述的采用梯度下降算法通过fD的网络参数梯度对fD的网络参数θD进行更新,更新公式为:
其中:表示更新后的网络参数,/>表示更新前的网络参数,αD表示步长,表示fD的网络参数梯度。
5.根据权利要求1中所述的基于无监督视频表示学习的视频行为识别方法,其特征在于,步骤(3e)中所述的采用梯度下降算法通过fG的网络参数梯度对fG的网络参数θG进行更新,更新公式为:
其中:表示更新后的网络参数,/>表示更新前的网络参数,αG表示步长,/>表示fG的网络参数梯度。
6.根据权利要求1中所述的基于无监督视频表示学习的视频行为识别方法,其特征在于,步骤(5c)所述的采用梯度下降算法并通过网络参数梯度对特征分类器的网络参数θcls进行更新,更新公式为:
其中:表示更新后的网络参数,/>表示更新前的网络参数,αcls表示步长,表示视频行为识别模型的网络参数梯度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010708067.6A CN111832516B (zh) | 2020-07-22 | 2020-07-22 | 基于无监督视频表示学习的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010708067.6A CN111832516B (zh) | 2020-07-22 | 2020-07-22 | 基于无监督视频表示学习的视频行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832516A CN111832516A (zh) | 2020-10-27 |
CN111832516B true CN111832516B (zh) | 2023-08-18 |
Family
ID=72924634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010708067.6A Active CN111832516B (zh) | 2020-07-22 | 2020-07-22 | 基于无监督视频表示学习的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832516B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633377A (zh) * | 2020-12-24 | 2021-04-09 | 电子科技大学 | 一种基于生成对抗网络的人体行为预测方法及系统 |
CN113095404B (zh) * | 2021-04-13 | 2023-07-04 | 西安电子科技大学 | 基于前后背景分卷积神经网络的x光违禁物品检测方法 |
CN113239819B (zh) * | 2021-05-18 | 2022-05-03 | 西安电子科技大学广州研究院 | 一种基于视角归一化的骨架行为识别方法、装置及设备 |
CN113239869B (zh) * | 2021-05-31 | 2023-08-11 | 西安电子科技大学 | 基于关键帧序列和行为信息的两阶段行为识别方法及系统 |
CN113255789B (zh) * | 2021-05-31 | 2023-01-24 | 西安电子科技大学 | 基于对抗网络和多被试脑电信号的视频质量评价方法 |
CN114495265B (zh) * | 2021-07-15 | 2023-04-07 | 电子科技大学 | 多跨域场景下基于活动图加权的人体行为识别方法 |
CN113688761B (zh) * | 2021-08-31 | 2024-02-20 | 安徽大学 | 一种基于图像序列的行人行为类别检测方法 |
CN113723344A (zh) * | 2021-09-08 | 2021-11-30 | 北京有竹居网络技术有限公司 | 视频的识别方法、装置、可读介质和电子设备 |
CN114612936B (zh) * | 2022-03-15 | 2024-08-23 | 西安电子科技大学 | 基于背景抑制的无监督异常行为检测方法 |
CN115086674B (zh) * | 2022-06-16 | 2024-04-02 | 西安电子科技大学 | 基于生成对抗网络的图像隐写方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097103A (zh) * | 2019-04-22 | 2019-08-06 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
CN110414367A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于gan和ssn的时序行为检测方法 |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538143B2 (en) * | 2018-10-26 | 2022-12-27 | Nec Corporation | Fully convolutional transformer based generative adversarial networks |
-
2020
- 2020-07-22 CN CN202010708067.6A patent/CN111832516B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN110097103A (zh) * | 2019-04-22 | 2019-08-06 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
CN110414367A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于gan和ssn的时序行为检测方法 |
Non-Patent Citations (1)
Title |
---|
基于关键帧的双流卷积网络的人体动作识别方法;张聪聪;何宁;;南京信息工程大学学报(自然科学版)(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111832516A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832516B (zh) | 基于无监督视频表示学习的视频行为识别方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
Yang et al. | IA-Net $: $ An inception–attention-module-based network for classifying underwater images from others | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN112329685A (zh) | 一种融合型卷积神经网络人群异常行为检测的方法 | |
CN112215280B (zh) | 一种基于元骨干网络的小样本图像分类方法 | |
CN109190479A (zh) | 一种基于混合深度学习的视频序列表情识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN110097028B (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN110728629A (zh) | 一种用于对抗攻击的图像集增强方法 | |
CN113343974B (zh) | 考虑模态间语义距离度量的多模态融合分类优化方法 | |
CN106650617A (zh) | 一种基于概率潜在语义分析的行人异常识别方法 | |
CN109840512A (zh) | 一种面部动作单元识别方法及识别装置 | |
CN110598552A (zh) | 基于改进粒子群算法优化卷积神经网络的表情识别方法 | |
CN111967358B (zh) | 一种基于注意力机制的神经网络步态识别方法 | |
CN117351550A (zh) | 基于有监督对比学习的网格自注意力人脸表情识别方法 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN113570573A (zh) | 混合注意力机制的肺结节假阳性排除方法、系统、设备 | |
CN116884067B (zh) | 一种基于改进的隐式语义数据增强的微表情识别方法 | |
CN113221683A (zh) | 教学场景下基于cnn模型的表情识别方法 | |
CN111209886A (zh) | 一种基于深度神经网络的快速行人再识别方法 | |
CN115965836A (zh) | 一种语义可控的人体行为姿态视频数据扩增系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |