CN110334589A - 一种基于空洞卷积的高时序3d神经网络的动作识别方法 - Google Patents

一种基于空洞卷积的高时序3d神经网络的动作识别方法 Download PDF

Info

Publication number
CN110334589A
CN110334589A CN201910436122.8A CN201910436122A CN110334589A CN 110334589 A CN110334589 A CN 110334589A CN 201910436122 A CN201910436122 A CN 201910436122A CN 110334589 A CN110334589 A CN 110334589A
Authority
CN
China
Prior art keywords
frame image
inception
neural network
data
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910436122.8A
Other languages
English (en)
Other versions
CN110334589B (zh
Inventor
徐永洋
冯雅兴
谢忠
胡安娜
曹豪豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910436122.8A priority Critical patent/CN110334589B/zh
Publication of CN110334589A publication Critical patent/CN110334589A/zh
Application granted granted Critical
Publication of CN110334589B publication Critical patent/CN110334589B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法,包括:首先对三维Inception‑V1神经网络模型进行改进,得到改进后的三维Inception‑V1神经网络模型;然后将公开数据集分为训练集和测试集对改进后的三维Inception‑V1神经网络模型进行训练和测试,得到训练后的高精度三维Inception‑V1神经网络模型;最后采用训练后的高精度三维Inception‑V1神经网络模型对实际视频的动作进行识别。本发明的有益效果是:本发明所提出的技术方案在保持高时序性的同时引入新的非局部特征门算法来重新定义三维Inception‑V1神经网络模型通道权重,提高了模型准确率。

Description

一种基于空洞卷积的高时序3D神经网络的动作识别方法
技术领域
本发明涉及人工智能、计算机视觉领域领域,尤其涉及一种基于空洞卷积的高时序3D神经网络的动作识别方法。
背景技术
近些年来,作为计算机视觉任务之一的行为识别受到越来越多的关注。随着深度学习方法在图像分类、分割等领域的成功,行为识别方法也已经从传统人工提取特征的方法向着深度学习方法发展,特别是卷积神经网络方面,并且取得了不错的效果。
基于深度学习的视频识别方法大体分为两类,2D CNNs和3D CNNs。2D CNNs方法将空间和时间信息分开学习再融合得到最后的分类结果,同时借助于2D CNNs方法在图像识别领域的成功,2D CNNs方法取得了state-of-art结果.不同于2D CNNs使用2D的卷积核进行运算,3D CNNs中将2D卷积核扩充到3维,增加时间维度,使3D CNNs方法可以在训练静态图片的过程中同时学习空间和时间信息。但是相比较于2D CNNs方法在UCF101、HMDB51等数据集上获得的精度,3D CNNs方法并不能获得让人满意的结果。2D CNNs方法在进行视频识别的时候输入网络的是代表整个视频的间隔采样帧图像,从输入到输出时间信息都保持完整。而一般的3D CNNs都会对时间维度进行下采样,这就导致了进入网络的时间维度到最后变小几倍,这与2D CNNs时间维度信息没有变化是有差别的,而这种时间维度的变化是否会对3D CNNs的精度产生影响呢?为了解决3D CNNs网络中时间维度下采样问题,本方法修改3D CNNs网络中对时间维度的下采样操作,让网络保持一个高时序.通俗来讲本方法修改网络中的max-pooling操作从步长2x2x2到1x2x2。修改时间维度之后网络相比于之前的下采样操作会在感受野上发生变化,为了获得较之前网络同等大小的感受野,本方法在后面的3D卷积核中使用空洞卷积.这样一来网络在保持高时序的同时拥有较大感受野。
为了提高视频识别精度,一方面可以使用Kinetics、Sports-1M等大数据集训练新模型然后再到UCF101、HMDB51等小型数据集上微调,但是在大数据集上从最开始训练一个好的模型往往要花费较长时间,尤其是3D卷积神经网络.另一方面可以在现有state-of-art网络,如I3D、Res3D,的基础上使用迁移学习方法进行改进。通过加入像non-localblock、TTL等模块,模型精度可以进一步提升。但是之前的大多数模块都忽略了在通道之间的交互。最近提出的STC block、spatio-temporal feature gating和context featuregating通过关注通道之间的交互,进一步提升了模型精度。为进一步提升模型精度,本方法引入了一种新的非局部特征门(non-local feature gating)块,它可以有效地捕获整个网络层的通道之间的相关信息。
发明内容
为了解决上述问题,本发明提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法,一种基于空洞卷积的高时序3D神经网络的动作识别方法,主要包括以下步骤:
S101:获取公开数据集,并将所述数据集划分为训练集和测试集;所述公开数据集包括UCF101和HMDB51两个公开数据集;
S102:对三维Inception-V1神经网络模型进行改进,得到改进后的三维Inception-V1神经网络模型;
S103:将所述训练集和所述测试集中的所有视频分别进行预处理,得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据;
S104:采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,以对所述改进后的三维Inception-V1神经网络模型的内部参数进行训练,进而得到训练后的高精度三维Inception-V1神经网络模型;
S105:将待识别的视频进行预处理,得到预处理后的帧图像数据;
S106:将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception-V1神经网络模型,得到所述待识别的视频所属的动作类型。
进一步地,步骤S101中,所述训练集和所述测试集均包括多个动作类型,每个动作类型对应有多个视频;所述UCF101和HMDB51两个公开数据集分别包含有101个动作类型和51个动作类型,每个动作类型均包含多个视频。
进一步地,步骤S102中,所述改进后的三维Inception-V1神经网络模型包括5个Stage,分别为Stage1、Stage2、Stage3、Stage4和Stage5;步骤S102中,对三维Inception-V1神经网络模型进行改进,包括以下两个方面:
1)将Stage4和Stage5中的原来的3D Inception blocks替换为3D Inception-Tblocks;同时修改与Stage4和Stage5相近的最大池化操作:在时间维度采用卷积核为1,步长为1的池化层;其中,3D Inception-T blocks相比于原3D Inception blocks的改进为:卷积操作分别使用空洞卷积率为2和4的卷积核,即在Stage4中使用rate为2的空洞卷积,在Stage5中使用rate为4的空洞卷积;
2)在Stage4的每个3D Inception-T blocks后添加一个非局部特征门块,为各3DInception-T blocks的特征向量X重新赋予权重,以提高模型精度;其中,所述非局部特征门块中使用非局部特征门算法,具体如公式(1):
Z=σ(Y)⊙X (1)
上式中,X为输入3D Inception-T blocks的特征向量,Y为输入3D Inception-Tblocks的非局部特征向量,Z为重新赋予特征向量X的权重,σ是sigmoid激活函数,⊙为矩阵相乘运算。
进一步地,步骤S103中,预处理方法为:首先采用OpenCV图像库对各视频进行帧图像提取,以将所述训练集和所述测试集中的各视频分别处理为连续帧图像;
然后在各视频的连续帧图像中提取64帧图像,作为各视频的帧图像数据;所述训练集中所有视频的帧图像数据共同组成帧图像训练数据,所述测试集中所有视频的帧图像数据共同组成帧图像测试数据。
进一步地,在某个视频的连续帧图像中提取64帧图像的方法为:首先将该视频的连续帧图像均分为64份;然后在每一份中随机选取一帧图像,进而组成64帧图像;最后将这64帧图像作为该视频的帧图像数据。
进一步地,步骤S104中,采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,具体包括如下步骤:
S201:对所述帧图像训练数据和所述帧图像测试数据中的各帧图像数据进行标签标注,得到带有标签的帧图像训练数据和带有标签的帧图像测试数据;其中,所述标签即为各视频的实际所属动作类型;
S202:将当前帧图像训练数据组输入当前改进后的三维Inception-V1神经网络模型,得到当前帧图像训练数据组的特征输出;其中,在带有标签的所述帧图像训练数据中随机选择S个帧图像数据,组成初始的所述帧图像训练数据组,且每一次将当前帧图像数据组还原为初始的所述帧图像训练数据组时,均重新随机选择S个帧图像数据;S为预设值,为大于0的整数,S根据实际硬件设备条件取值;
S203:根据所述特征输出,采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类,得到当前帧图像训练数据组中的各帧图像数据对应的各视频的预测动作类型;保存当前帧图像训练数据组中预测动作类型与标签相同的视频个数,即预测正确的视频个数;
S204:根据所述特征输出,采用交叉熵作为损失函数,计算当前帧图像训练数据组的预测偏差值C;具体如公式(2)所示:
上式中,n为当前帧图像训练数据组中帧图像数据的总个数;y是期望输出,即标签;a是特征输出;x代表的是全部样本,即上述公式是对所有样本列举的;
S205:将当前帧图像数据组的预测偏差值在当前改进后的三维Inception-V1神经网络模型中进行反向传播,以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新,并将更新后的模型作为当前改进后的三维Inception-V1神经网络模型;
S206:判断所述帧图像训练数据中的所有帧图像数据是否都已经参与过训练?若是,则到步骤S207;否则,从所述帧图像训练数据中再次随机选择S个未训练过所述改进后的三维Inception-V1神经网络模型的帧图像数据,组成当前帧图像训练数据组,并返回步骤S202;
S207:计算当前改进后的三维Inception-V1神经网络模型的预测准确率P,计算公式如公式(3):
上式中,N为所述帧图像训练数据中帧图像数据总个数;B为保存的预测正确的视频的个数总和;
S208:判断条件P>w是否成立?若是,则到步骤S209;否则,到步骤S210;其中,w为预设的准确率阈值,根据实际情况取值,取值范围为(0,1);
S209:从带有标签的所述帧图像测试数据中随机选择S个帧图像数据组成帧图像测试数据组,并将所述帧图像测试数据组输入当前改进后的三维Inception-V1神经网络模型中,并根据特征输出,采用Softmax分类器对当前帧图像测试数据组中的各帧图像数据对应的各视频的动作类型进行分类;进而采用公式(4),求出当前帧图像测试数据组的测试准确率p,并保存该测试准确率和当前改进后的三维Inception-V1神经网络模型:
上式中,b为当前帧图像测试数据组中预测正确的视频个数;转到步骤步骤S210;
S210:判断迭代次数是否大于或者等于Q次?若是,则到步骤S211;否则,将当前帧图像数据组还原为初始的所述帧图像训练数据组,并返回步骤S202,以开始新一轮的迭代;其中,将带有标签的所述帧图像训练数据中所有帧图像数据均参加训练之后,作为一次迭代;其中,Q为预设的最大迭代次数,为大于0的整数;
S211:从保存的所有测试准确率中选择一个最大的测试准确率,并将该最大的测试准确率对应的改进后的三维Inception-V1神经网络模型作为最终训练后的高精度三维Inception-V1神经网络模型。
进一步地,步骤S203中,根据所述特征输出,采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类时针对当前帧图像训练数据组中的单个帧图像数据对应的视频的动作类型进行分类的方法如下:
首先采用Softmax分类器计算公式计算帧图像训练数据对应的视频属于各个视频类型的概率;Softmax分类器计算公式如公式(5)所示:
上式中,pi表示帧图像数据对应的视频属于第i类动作的概率;K为帧图像数据对应的视频所属公开数据集中动作类型的总个数,对于UCF101数据集,K为101,对于HMDB51数据集K为51;ak为帧图像数据对应的特征输出中第k类动作对应的特征值;ai为该帧图像数据对应的特征输出中第i类动作对应的特征值,i的取值范围为[1,K];
将i依次从1取值到K,依次可得到p1、p2、…、pK,即该帧图像数据对应的视频属于第1类到底K类动作类型的概率;
最后,在p1、p2、…、pK中选择一个最大的类型预测概率,并将该最大的类型预测概率对应的动作类型作为帧图像数据对应的视频的预测动作类型。
进一步地,步骤S205中,将当前帧图像数据组的预测偏差值在当前模型中进行反向传播,以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新时,采用Momentum优化算法来优化内部参数,以对内部参数进行更新。
本发明提供的技术方案带来的有益效果是:本发明所提出的技术方案在保持高时序性的同时引入新的非局部特征门算法来重新定义三维Inception-V1神经网络模型通道权重,提高了模型准确率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种基于空洞卷积的高时序3D神经网络的动作识别方法的流程图;
图2是本发明实施例中改进后的三维Inception-V1神经网络模型的结构示意图;
图3是本发明实施例中原始的3D Inception blocks的结构示意图;
图4是本发明实施例中3D Inception-T blocks的结构示意图;
图5是本发明实施例中非局部特征门算法的流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法。
请参考图1,图1是本发明实施例中一种基于空洞卷积的高时序3D神经网络的动作识别方法的流程图,具体包括如下步骤:
S101:获取公开数据集,并将所述数据集划分为训练集和测试集;所述公开数据集包括UCF101和HMDB51两个公开数据集;
S102:对三维Inception-V1神经网络模型进行改进,得到改进后的三维Inception-V1神经网络模型;
S103:将所述训练集和所述测试集中的所有视频分别进行预处理,得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据;
S104:采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,以对所述改进后的三维Inception-V1神经网络模型的内部参数进行训练,进而得到训练后的高精度三维Inception-V1神经网络模型;
S105:将待识别的视频进行预处理,得到预处理后的帧图像数据;
S106:将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception-V1神经网络模型,得到所述待识别的视频所属的动作类型。
步骤S101中,所述训练集和所述测试集均包括多个动作类型,每个动作类型对应有多个视频;所述UCF101和HMDB51两个公开数据集分别包含有101个动作类型和51个动作类型,每个动作类型均包含多个视频。
UCF101分为101类,共有13320个视频,HMDB51分为51类,共有6766个视频。
步骤S102中,所述改进后的三维Inception-V1神经网络模型包括5个Stage,分别为Stage1、Stage2、Stage3、Stage4和Stage5;步骤S102中,对三维Inception-V1神经网络模型进行改进,包括以下两个方面:
1)将Stage4和Stage5中的原来的3D Inception blocks(结构图如图3所示)替换为3D Inception-T blocks(结构图如图4所示);同时修改与Stage4和Stage5相近的最大池化操作:在时间维度采用卷积核为1,步长为1的池化层;其中,3D Inception-T blocks相比于原3D Inception blocks的改进为:卷积操作分别使用空洞卷积率为2和4的卷积核,即在Stage4中使用rate为2的空洞卷积,在Stage5中使用rate为4的空洞卷积;
2)在Stage4的每个3D Inception-T blocks后添加一个非局部特征门块,为各3DInception-T blocks的特征向量X重新赋予权重,以提高模型精度;其中,所述非局部特征门块中使用非局部特征门算法,具体如公式(1):
Z=σ(Y)⊙X (1)
上式中,X为输入3D Inception-T blocks的特征向量,Y为输入3D Inception-Tblocks的非局部特征向量,Z为重新赋予特征向量X的权重,σ是sigmoid激活函数,⊙为矩阵相乘运算;所述非局部特征门算法的算法流程图如图5所示;从3D卷积和池化操作产生的特征图是一个X∈RT×H×W×C,其中T,W,H,C分别代表时间维度、特征图宽、特征图高和特征图的通道数;在本发明实施例中,首先把X重新定义为X1∈RN×C,其中N=T×W×H,然后将X1与它的转置XT 1相乘得到关于通道间纠正向量A∈RC×C,最后对A使用高斯函数得到B∈RC×C,如公式(2):
上式中,Bij表示jth通道对ith通道的影响,C表示总的通道数量;为了保证经过上述变换后得到的特征图大小与输入特征图大小相同,本发明实施例使用B和X1矩阵相乘得到Y∈RT×H×W×C;最后本发明实施例使用sigmoid函数对Y进行归一化操作,使其变到0和1之间,再与X相乘得到最终的Z。
步骤S103中,预处理方法为:首先采用OpenCV图像库对各视频进行帧图像提取,以将所述训练集和所述测试集中的各视频分别处理为连续帧图像;
然后在各视频的连续帧图像中提取64帧图像,作为各视频的帧图像数据;所述训练集中所有视频的帧图像数据共同组成帧图像训练数据,所述测试集中所有视频的帧图像数据共同组成帧图像测试数据。
在本发明实施例中,帧图像测试数据输入模型之前,首先将图像缩放到224×224像素大小,然后经过随机裁剪、镜像等数据增强操作再放入模型进行训练。
在某个视频的连续帧图像中提取64帧图像的方法为:首先将该视频的连续帧图像均分为64份;然后在每一份中随机选取一帧图像,进而组成64帧图像;最后将这64帧图像作为该视频的帧图像数据。
步骤S104中,采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,具体包括如下步骤:
S201:对所述帧图像训练数据和所述帧图像测试数据中的各帧图像数据进行标签标注,得到带有标签的所图像训练数据和带有标签的帧图像测试数据;其中,所述标签即为各视频的实际所属动作类型;
S202:将当前帧图像训练数据组输入当前改进后的三维Inception-V1神经网络模型,得到当前帧图像训练数据组的特征输出;其中,在带有标签的帧图像训练数据中随机选择S个帧图像数据,组成初始的所述帧图像训练数据组,且每一次将当前帧图像数据组还原为初始的所述帧图像训练数据组时,均重新随机选择S个帧图像数据;S为预设值,为大于0的整数,S根据实际硬件设备条件取值;
S203:根据所述特征输出,采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类,得到当前帧图像训练数据组中的各帧图像数据对应的各视频的预测动作类型;保存当前帧图像训练数据组中预测动作类型与标签相同的视频个数,即预测正确的视频个数;
S204:根据所述特征输出,采用交叉熵作为损失函数,计算当前帧图像训练数据组的预测偏差值C;具体如公式(3)所示:
上式中,n为当前帧图像训练数据组中帧图像数据的总个数;y是期望输出,即标签;a是特征输出;x代表的是全部样本,即上述公式是对所有样本列举的;
S205:将当前帧图像数据组的预测偏差值在当前改进后的三维Inception-V1神经网络模型中进行反向传播,以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新,并将更新后的模型作为当前改进后的三维Inception-V1神经网络模型;
S206:判断所述帧图像训练数据中的所有帧图像数据是否都已经参与过训练?若是,则到步骤S207;否则,从所述帧图像训练数据中再次随机选择S个未训练过所述改进后的三维Inception-V1神经网络模型的帧图像数据,组成当前帧图像训练数据组,并返回步骤S202;
S207:计算当前改进后的三维Inception-V1神经网络模型的预测准确率P,计算公式如公式(4):
上式中,N为所述帧图像训练数据中帧图像数据总个数;B为保存的预测正确的视频的个数总和;
S208:判断条件P>w是否成立?若是,则到步骤S209;否则,到步骤S210;其中,w为预设的准确率阈值,根据实际情况取值,取值范围为(0,1);
S209:从带有标签的帧图像测试数据中随机选择S个帧图像数据组成帧图像测试数据组,并将所述帧图像测试数据组输入当前改进后的三维Inception-V1神经网络模型中,并根据特征输出,采用Softmax分类器对当前帧图像测试数据组中的各帧图像数据对应的各视频的动作类型进行分类;进而采用公式(5),求出当前帧图像测试数据组的测试准确率p,并保存该测试准确率和当前改进后的三维Inception-V1神经网络模型:
上式中,b为当前帧图像测试数据组中预测正确的视频个数;转到步骤步骤S210;
S210:判断迭代次数是否大于或者等于Q次?若是,则到步骤S211;否则,将当前帧图像数据组还原为初始的所述帧图像训练数据组,并返回步骤S202,以开始新一轮的迭代;其中,将带有标签的所述帧图像训练数据中所有帧图像数据均参加训练之后,作为一次迭代;其中,Q为预设的最大迭代次数,为大于0的整数,本发明实施例中,Q的取值为40;
S211:从保存的所有测试准确率中选择一个最大的测试准确率,并将该最大的测试准确率对应的改进后的三维Inception-V1神经网络模型作为最终训练后的高精度三维Inception-V1神经网络模型。
在本发明实施例中,将224×224×64大小的图像输入模型,原始模型最终得到8×7×7×1024,其分别对应时间维度,特征图宽,特征图高和通道数,特征图大小,本发明修改时间维度下采样操作也就是将原始网络中max-pooling操作的步长从2×2×2变为1×2×2,最终得到的网络特征图为32×7×7×1024大小;修改池化操作后本发明在后续的网络卷积中在时间维度使用空洞卷积扩大感受野。
步骤S203中,根据所述特征输出,采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类时针对当前帧图像训练数据组中的单个帧图像数据对应的视频的动作类型进行分类的方法如下:
首先采用Softmax分类器计算公式计算帧图像训练数据对应的视频属于各个视频类型的概率;Softmax分类器计算公式如公式(6)所示:
上式中,pi表示帧图像数据对应的视频属于第i类动作的概率;K为帧图像数据对应的视频所属公开数据集中动作类型的总个数,对于UCF101数据集,K为101,对于HMDB51数据集K为51;ak为帧图像数据对应的特征输出中第k类动作对应的特征值;ai为该帧图像数据对应的特征输出中第i类动作对应的特征值,i的取值范围为[1,K];
将i依次从1取值到K,依次可得到p1、p2、…、pK,即该帧图像数据对应的视频属于第1类到底K类动作类型的概率;
最后,在p1、p2、…、pK中选择一个最大的类型预测概率,并将该最大的类型预测概率对应的动作类型作为帧图像数据对应的视频的预测动作类型。
步骤S205中,将当前帧图像数据组的预测偏差值在当前模型中进行反向传播,以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新时,采用Momentum优化算法来优化内部参数,以对内部参数进行更新。
在本发明实施例中,还可以使用Kinetics、Sports-1M等大数据集训练模型,然后再采用UCF101、HMDB51等小型数据集对模型参数进行微调,可进一步提高模型精度。
在本发明实施例中,最终在模型收敛后在UCF101和HMDB51两个公开数据集上测试模型精度,得到表1所示结果,表1中列举了当前比较好的模型进行对比,可以看到本发明设计的模型在准确度最高(加粗部分)。
表1结果对比表
注:表中的准确率单位为%;对表1中各模型的解释如下:
Two-Stream:双流网络;
Improved Trajectories(IDT):改进轨迹网络;
Factorized Spatio-Temporal Convolution Network(FstCN):分解时空卷积网络;
Long-term Temporal Convolutions(LTC):长时序卷积网络;
ActionVLAD:时空集聚网络;
Spatiotemporal Residual Networks(ST-ResNet):时空残差网路;
3D Convolutional Networks(C3D):三维卷积网络,使用Sports 1M数据预训练;
Asymmetric 3D Convolutional Neural Networks(Asymmetric 3D-CNN):非对称三维卷积网络;
3D Residual Networks(Res3D):三维残差网络;
Temporal 3D ConvNets(T3D):时间三维卷积网络;
Pseudo-3D Residual Networks:P3D;
I3D-T-64f-σ=1/2-5NFG:改进后的三维Inception-V1神经网络模型。
本发明的有益效果是:本发明所提出的技术方案在保持高时序性的同时引入新的非局部特征门算法来重新定义三维Inception-V1神经网络模型通道权重,提高了模型准确率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于,包括如下步骤:
S101:获取公开数据集,并将所述数据集划分为训练集和测试集;所述公开数据集包括UCF101和HMDB51两个公开数据集;
S102:对三维Inception-V1神经网络模型进行改进,得到改进后的三维Inception-V1神经网络模型;
S103:将所述训练集和所述测试集中的所有视频分别进行预处理,得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据;
S104:采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,以对所述改进后的三维Inception-V1神经网络模型的内部参数进行训练,进而得到训练后的高精度三维Inception-V1神经网络模型;
S105:将待识别的视频进行预处理,得到预处理后的帧图像数据;
S106:将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception-V1神经网络模型,得到所述待识别的视频所属的动作类型。
2.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S101中,所述训练集和所述测试集均包括多个动作类型,每个动作类型对应有多个视频;所述UCF101和HMDB51两个公开数据集分别包含有101个动作类型和51个动作类型,每个动作类型均包含多个视频。
3.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S102中,所述改进后的三维Inception-V1神经网络模型包括5个Stage,分别为Stage1、Stage2、Stage3、Stage4和Stage5;步骤S102中,对三维Inception-V1神经网络模型进行改进,包括以下两个方面:
1)将Stage4和Stage5中的原来的3D Inception blocks替换为3D Inception-Tblocks;同时修改与Stage4和Stage5相近的最大池化操作:在时间维度采用卷积核为1,步长为1的池化层;其中,3D Inception-T blocks相比于原3D Inception blocks的改进为:卷积操作分别使用空洞卷积率为2和4的卷积核,即在Stage4中使用rate为2的空洞卷积,在Stage5中使用rate为4的空洞卷积;
2)在Stage4的每个3D Inception-T blocks后添加一个非局部特征门块,为各3DInception-T blocks的特征向量X重新赋予权重,以提高模型精度;其中,所述非局部特征门块中使用非局部特征门算法,具体如公式(1):
Z=σ(Y)⊙X (1)
上式中,X为输入3D Inception-T blocks的特征向量,Y为输入3D Inception-Tblocks的非局部特征向量,Z为重新赋予特征向量X的权重,σ是sigmoid激活函数,⊙为矩阵相乘运算。
4.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S103中,预处理方法为:首先采用OpenCV图像库对各视频进行帧图像提取,以将所述训练集和所述测试集中的各视频分别处理为连续帧图像;
然后在各视频的连续帧图像中提取64帧图像,作为各视频的帧图像数据;所述训练集中所有视频的帧图像数据共同组成帧图像训练数据,所述测试集中所有视频的帧图像数据共同组成帧图像测试数据。
5.如权利要求4所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:在某个视频的连续帧图像中提取64帧图像的方法为:首先将该视频的连续帧图像均分为64份;然后在每一份中随机选取一帧图像,进而组成64帧图像;最后将这64帧图像作为该视频的帧图像数据。
6.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S104中,采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,具体包括如下步骤:
S201:对所述帧图像训练数据和所述帧图像测试数据中的各帧图像数据进行标签标注,得到带有标签的帧图像训练数据和带有标签的帧图像测试数据;其中,所述标签即为各视频的实际所属动作类型;
S202:将当前帧图像训练数据组输入当前改进后的三维Inception-V1神经网络模型,得到当前帧图像训练数据组的特征输出;其中,在带有标签的所述帧图像训练数据中随机选择S个帧图像数据,组成初始的所述帧图像训练数据组,且每一次将当前帧图像数据组还原为初始的所述帧图像训练数据组时,均重新随机选择S个帧图像数据;S为预设值,为大于0的整数,S根据实际硬件设备条件取值;
S203:根据所述特征输出,采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类,得到当前帧图像训练数据组中的各帧图像数据对应的各视频的预测动作类型;保存当前帧图像训练数据组中预测动作类型与标签相同的视频个数,即预测正确的视频个数;
S204:根据所述特征输出,采用交叉熵作为损失函数,计算当前帧图像训练数据组的预测偏差值C;具体如公式(2)所示:
上式中,n为当前帧图像训练数据组中帧图像数据的总个数;y是期望输出,即标签;a是特征输出;x代表的是全部样本,即上述公式是对所有样本列举的;
S205:将当前帧图像数据组的预测偏差值在当前改进后的三维Inception-V1神经网络模型中进行反向传播,以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新,并将更新后的模型作为当前改进后的三维Inception-V1神经网络模型;
S206:判断所述帧图像训练数据中的所有帧图像数据是否都已经参与过训练?若是,则到步骤S207;否则,从所述帧图像训练数据中再次随机选择S个未训练过所述改进后的三维Inception-V1神经网络模型的帧图像数据,组成当前帧图像训练数据组,并返回步骤S202;
S207:计算当前改进后的三维Inception-V1神经网络模型的预测准确率P,计算公式如公式(3):
上式中,N为所述帧图像训练数据中帧图像数据总个数;B为保存的预测正确的视频的个数总和;
S208:判断条件P>w是否成立?若是,则到步骤S209;否则,到步骤S210;其中,w为预设的准确率阈值,根据实际情况取值,取值范围为(0,1);
S209:从带有标签的所述帧图像测试数据中随机选择S个帧图像数据组成帧图像测试数据组,并将所述帧图像测试数据组输入当前改进后的三维Inception-V1神经网络模型中,并根据特征输出,采用Softmax分类器对当前帧图像测试数据组中的各帧图像数据对应的各视频的动作类型进行分类;进而采用公式(4),求出当前帧图像测试数据组的测试准确率p,并保存该测试准确率和当前改进后的三维Inception-V1神经网络模型:
上式中,b为当前帧图像测试数据组中预测正确的视频个数;转到步骤S210;
S210:判断迭代次数是否大于或者等于Q次?若是,则到步骤S211;否则,将当前帧图像数据组还原为初始的所述帧图像训练数据组,并返回步骤S202,以开始新一轮的迭代;其中,将带有标签的所述帧图像训练数据中所有帧图像数据均参加训练之后,作为一次迭代;其中,Q为预设的最大迭代次数,为大于0的整数;
S211:从保存的所有测试准确率中选择一个最大的测试准确率,并将该最大的测试准确率对应的改进后的三维Inception-V1神经网络模型作为最终训练后的高精度三维Inception-V1神经网络模型。
7.如权利要求6所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S203中,根据所述特征输出,采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类时针对当前帧图像训练数据组中的单个帧图像数据对应的视频的动作类型进行分类的方法如下:
首先采用Softmax分类器计算公式计算帧图像训练数据对应的视频属于各个视频类型的概率;Softmax分类器计算公式如公式(5)所示:
上式中,pi表示帧图像数据对应的视频属于第i类动作的概率;K为帧图像数据对应的视频所属公开数据集中动作类型的总个数,对于UCF101数据集,K为101,对于HMDB51数据集K为51;ak为帧图像数据对应的特征输出中第k类动作对应的特征值;ai为该帧图像数据对应的特征输出中第i类动作对应的特征值,i的取值范围为[1,K];
将i依次从1取值到K,依次可得到p1、p2、…、pK,即该帧图像数据对应的视频属于第1类到底K类动作类型的概率;
最后,在p1、p2、…、pK中选择一个最大的类型预测概率,并将该最大的类型预测概率对应的动作类型作为帧图像数据对应的视频的预测动作类型。
8.如权利要求6所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S205中,将当前帧图像数据组的预测偏差值在当前模型中进行反向传播,以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新时,采用Momentum优化算法来优化内部参数,以对内部参数进行更新。
CN201910436122.8A 2019-05-23 2019-05-23 一种基于空洞卷积的高时序3d神经网络的动作识别方法 Expired - Fee Related CN110334589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910436122.8A CN110334589B (zh) 2019-05-23 2019-05-23 一种基于空洞卷积的高时序3d神经网络的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910436122.8A CN110334589B (zh) 2019-05-23 2019-05-23 一种基于空洞卷积的高时序3d神经网络的动作识别方法

Publications (2)

Publication Number Publication Date
CN110334589A true CN110334589A (zh) 2019-10-15
CN110334589B CN110334589B (zh) 2021-05-14

Family

ID=68139089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910436122.8A Expired - Fee Related CN110334589B (zh) 2019-05-23 2019-05-23 一种基于空洞卷积的高时序3d神经网络的动作识别方法

Country Status (1)

Country Link
CN (1) CN110334589B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826462A (zh) * 2019-10-31 2020-02-21 上海海事大学 一种非局部双流卷积神经网络模型的人体行为识别方法
CN110910408A (zh) * 2019-11-28 2020-03-24 慧影医疗科技(北京)有限公司 图像分割方法、装置、电子设备及可读存储介质
CN111008579A (zh) * 2019-11-22 2020-04-14 华中师范大学 专注度识别方法、装置和电子设备
CN111458769A (zh) * 2020-05-26 2020-07-28 南京大学 用于输电线路环境气象数据预测的方法及系统
CN111507182A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 基于骨骼点融合循环空洞卷积的乱丢垃圾行为检测方法
CN111814922A (zh) * 2020-09-07 2020-10-23 成都索贝数码科技股份有限公司 一种基于深度学习的视频片段内容匹配方法
CN112329690A (zh) * 2020-11-16 2021-02-05 河北工业大学 基于时空残差网络和时序卷积网络的连续手语识别方法
CN112862837A (zh) * 2021-01-27 2021-05-28 南京信息工程大学 一种基于卷积神经网络的图像处理方法和系统
CN113824115A (zh) * 2021-11-24 2021-12-21 中国电力科学研究院有限公司 一种风电调频能量预测方法、系统及计算机设备
CN114333065A (zh) * 2021-12-31 2022-04-12 济南博观智能科技有限公司 一种应用于监控视频的行为识别方法、系统及相关装置
CN114743131A (zh) * 2022-03-18 2022-07-12 大连理工大学 一种轻量级的基于三维卷积网络的车辆黑烟检测方法
CN114743131B (zh) * 2022-03-18 2024-10-22 大连理工大学 一种轻量级的基于三维卷积网络的车辆黑烟检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678216A (zh) * 2015-12-21 2016-06-15 中国石油大学(华东) 基于深度学习的时空数据流视频行为识别方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
WO2018024957A1 (fr) * 2016-08-03 2018-02-08 Vit Procede d'inspection optique d'un objet
CN108229343A (zh) * 2017-12-18 2018-06-29 北京市商汤科技开发有限公司 目标对象关键点检测方法、深度学习神经网络及装置
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
US20190012581A1 (en) * 2017-07-06 2019-01-10 Nokia Technologies Oy Method and an apparatus for evaluating generative machine learning model
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109559297A (zh) * 2018-11-15 2019-04-02 大连大学 一种基于三维区域生成网络的肺结节检测的方法
CN109726682A (zh) * 2018-12-29 2019-05-07 南京信息工程大学 一种面向弱标签传感器数据的人体动作识别方法
CN109753884A (zh) * 2018-12-14 2019-05-14 重庆邮电大学 一种基于关键帧提取的视频行为识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678216A (zh) * 2015-12-21 2016-06-15 中国石油大学(华东) 基于深度学习的时空数据流视频行为识别方法
WO2018024957A1 (fr) * 2016-08-03 2018-02-08 Vit Procede d'inspection optique d'un objet
US20190012581A1 (en) * 2017-07-06 2019-01-10 Nokia Technologies Oy Method and an apparatus for evaluating generative machine learning model
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN108229343A (zh) * 2017-12-18 2018-06-29 北京市商汤科技开发有限公司 目标对象关键点检测方法、深度学习神经网络及装置
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109559297A (zh) * 2018-11-15 2019-04-02 大连大学 一种基于三维区域生成网络的肺结节检测的方法
CN109753884A (zh) * 2018-12-14 2019-05-14 重庆邮电大学 一种基于关键帧提取的视频行为识别方法
CN109726682A (zh) * 2018-12-29 2019-05-07 南京信息工程大学 一种面向弱标签传感器数据的人体动作识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ANDREW ZISSERMAN,等: "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset", 《ARXIV:1705.07750V3》 *
CHEN ZHAO 等: "3D Inception Convolutional Neural Networks For Automatic Lung Nodule Detection", 《2017 INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND COMPUTATIONAL INTELLIGENCE》 *
SAINING XIE,等: "Rethinking Spatiotemporal Feature Learning:Speed-Accuracy Trade-offs in Video Classification", 《ECCV2018》 *
XIANYUAN WANG 等: "I3D-LSTM: A New Model for Human Action Recognition", 《IOP CONFERENCE SERIES: MATERIALS SCIENCE AND ENGINEERING》 *
南昊,等: "基于3D Res-Inception网络结构的密集人群行为识别", 《安徽工业大学学报(自然科学版)》 *
周思洋: "基于深度迁移学习的素描人脸识别研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王云峰: "基于深度学习的视频人体动作识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
石祥滨: "去除光流中冗余信息的动作预测方法", 《计算机科学与探索》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826462A (zh) * 2019-10-31 2020-02-21 上海海事大学 一种非局部双流卷积神经网络模型的人体行为识别方法
CN111008579A (zh) * 2019-11-22 2020-04-14 华中师范大学 专注度识别方法、装置和电子设备
CN110910408A (zh) * 2019-11-28 2020-03-24 慧影医疗科技(北京)有限公司 图像分割方法、装置、电子设备及可读存储介质
CN111507182A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 基于骨骼点融合循环空洞卷积的乱丢垃圾行为检测方法
CN111458769A (zh) * 2020-05-26 2020-07-28 南京大学 用于输电线路环境气象数据预测的方法及系统
CN111814922B (zh) * 2020-09-07 2020-12-25 成都索贝数码科技股份有限公司 一种基于深度学习的视频片段内容匹配方法
CN111814922A (zh) * 2020-09-07 2020-10-23 成都索贝数码科技股份有限公司 一种基于深度学习的视频片段内容匹配方法
CN112329690A (zh) * 2020-11-16 2021-02-05 河北工业大学 基于时空残差网络和时序卷积网络的连续手语识别方法
CN112329690B (zh) * 2020-11-16 2022-08-05 河北工业大学 基于时空残差网络和时序卷积网络的连续手语识别方法
CN112862837A (zh) * 2021-01-27 2021-05-28 南京信息工程大学 一种基于卷积神经网络的图像处理方法和系统
CN112862837B (zh) * 2021-01-27 2023-06-23 南京信息工程大学 一种基于卷积神经网络的图像处理方法和系统
CN113824115A (zh) * 2021-11-24 2021-12-21 中国电力科学研究院有限公司 一种风电调频能量预测方法、系统及计算机设备
CN114333065A (zh) * 2021-12-31 2022-04-12 济南博观智能科技有限公司 一种应用于监控视频的行为识别方法、系统及相关装置
CN114743131A (zh) * 2022-03-18 2022-07-12 大连理工大学 一种轻量级的基于三维卷积网络的车辆黑烟检测方法
CN114743131B (zh) * 2022-03-18 2024-10-22 大连理工大学 一种轻量级的基于三维卷积网络的车辆黑烟检测方法

Also Published As

Publication number Publication date
CN110334589B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN110334589A (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN109711413B (zh) 基于深度学习的图像语义分割方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN107909101B (zh) 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN106157319B (zh) 基于卷积神经网络的区域和像素级融合的显著性检测方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN113469356A (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN108960059A (zh) 一种视频动作识别方法及装置
CN108399380A (zh) 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN114758288B (zh) 一种配电网工程安全管控检测方法及装置
CN108241854A (zh) 一种基于运动和记忆信息的深度视频显著性检测方法
CN110334718A (zh) 一种基于长短期记忆的二维视频显著性检测方法
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN110334584A (zh) 一种基于区域全卷积网络的手势识别方法
CN116071701A (zh) 基于注意力机制和GSConv的YOLOv5行人检测方法
CN107577983A (zh) 一种循环发现关注区域识别多标签图像的方法
CN111582091A (zh) 基于多分支卷积神经网络的行人识别方法
CN109345559A (zh) 基于样本扩充和深度分类网络的运动目标跟踪方法
CN112507904A (zh) 一种基于多尺度特征的教室人体姿态实时检测方法
CN114723784A (zh) 一种基于域适应技术的行人运动轨迹预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210514

CF01 Termination of patent right due to non-payment of annual fee