CN114022957B - 基于深度学习的行为识别方法 - Google Patents

基于深度学习的行为识别方法 Download PDF

Info

Publication number
CN114022957B
CN114022957B CN202111293226.1A CN202111293226A CN114022957B CN 114022957 B CN114022957 B CN 114022957B CN 202111293226 A CN202111293226 A CN 202111293226A CN 114022957 B CN114022957 B CN 114022957B
Authority
CN
China
Prior art keywords
behavior recognition
feature
time
information
resnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111293226.1A
Other languages
English (en)
Other versions
CN114022957A (zh
Inventor
张轶
蒋洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111293226.1A priority Critical patent/CN114022957B/zh
Publication of CN114022957A publication Critical patent/CN114022957A/zh
Application granted granted Critical
Publication of CN114022957B publication Critical patent/CN114022957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深度学习的行为识别方法,涉及视频识别领域,S1获取训练样本集;S2建立行为识别模型,行为识别模型包括resnet‑50网络、自适应时间特征提取模块和特征细粒度增强模块;S3训练样本集导入行为识别模型进行训练优化;S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别;自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系;特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率,大大提高了行为识别的准确率。

Description

基于深度学习的行为识别方法
技术领域
本发明涉及视频识别领域,尤其涉及一种基于深度学习的行为识别方法。
背景技术
近年来,由于深度学习的发展,人体行为识别由于其前景广阔迅速成为研究热点,基于深度学习的人体行为识别方法在各个领域应用广阔,通过视频理解人的行为是监控领域,人机交互、智慧家居等领域的技术基础,有很高的应用价值。
但视频分类领域有别于图像分类,图像分类基于深度学习方法能够提取到强大的外观信息,已经达到很高的分类精度。但视频分类是基于连续的图片序列,除了需要得到外观信息外,还需要从连续的视频帧中得到时间信息,目前的方法还远远达不到图像领域的精度。目前行为识别主要可以分为三类,第一类使用双流结构提取外观信息和时间信息,但额外的光流的提取十分耗时,并且意味着不能端到端的学习。第二类方法使用3D卷积网络同时提取外观信息和时间信息,但3D卷积的网络结构更大,因此需要额外的预训练,造成额外的开销。第三类方法是在2D卷积网络中加入提取时间信息的模块,这种方式更轻便但同时也需要面对融合时间信息和外观信息的困难。
传统的行为识别方法在相似外观的场景下容易失效,原因在于时间信息是细粒度的,目前的行为识别方法还不能很好的对细粒度的时间信息作出正确的推断。
发明内容
本发明的目的就在于为了解决上述问题设计了一种基于深度学习的行为识别方法。
本发明通过以下技术方案来实现上述目的:
基于深度学习的行为识别方法,其特征在于,包括:
S1、获取训练样本集;
S2、建立行为识别模型,行为识别模型包括resnet-50网络、自适应时间特征提取模块和特征细粒度增强模块,自适应时间特征提取模块通过2D卷积构建局部分支和全局分支来捕获局部变化敏感信息和全局聚合信息,特征细粒度增强模块通过2个3D卷积和一个2D卷积构建用于增强时间信息和外观信息,在resnet-50网络的第一、二、三、四层上均放置自适应时间特征提取模块和特征细粒度增强模块;
S3、训练样本集导入行为识别模型进行训练优化;
S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别。
本发明的有益效果在于:本发明的自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系;特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率,大大提高了行为识别的准确率。
附图说明
图1是本发明基于深度学习的行为识别方法的行为识别模型示意图;
图2是本发明基于深度学习的行为识别方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的具体实施方式进行详细说明。
基于深度学习的行为识别方法,其特征在于,包括:
S1、获取训练样本集,对训练样本集进行预处理;
采用公开数据集,生成原始视频的标签文件,划分训练集和验证集,生成训练集和验证集的信息,包括具体的标签信息和路径信息,按照训练集和验证集的划分,分别对原始视频提取某一段时间内的视频帧序列,并将其按照划分保存在对应的文件夹中;对训练集和验证集进预处理,具体包括:将视频帧按照需求分为相等长度的T段,随机的在每一段中采样一帧,得到一系列的图片序列,对图片序列进行随机裁剪,对原始图片序列数据增强得到数据输入流,由于相邻的视频帧间信息非常相似,全部输入网络会造成大量冗余,因此通过对视频帧进行分段随机采样的方式,降低输入网络的图片数量。
S2、建立行为识别模型,行为识别模型包括resnet-50网络、自适应时间特征提取模块和特征细粒度增强模块,自适应时间特征提取模块通过2D卷积构建局部分支和全局分支来捕获局部变化敏感信息和全局聚合信息,特征细粒度增强模块通过2个3D卷积和一个2D卷积构建用于增强时间信息和外观信息,resnet-50网络的第一、二、三、四层上自适应时间特征提取模块的数量均为1个,resnet-50网络的第一、二、三、四层上特征细粒度增强模块的数量分别为2、3、5、2个。
S3、训练样本集导入行为识别模型进行训练优化,数据输入流输入到行为识别模型的输入特征X记为[N,C,T,H,W],其中N是批次编号,C为特征通道,T为时间维度,H和W为空间解析度(也即是单张图像的长和宽);训练优化过程具体包括
S31、对特征X进行全局平均池化得到全局池化特征XS,Xs=pooling(X),可以压缩空间的维度,目的是为了忽略特征的外观信息,使得模块只关注特征X的时间信息;
S32、局部分支使用两个一维的卷积层对XS的相邻时间维度进行建模得到局部变化敏感的时间信息特征X’,X’=Conv2(Conv1(XS)),其中Conv1降低通道数,Conv2恢复通道数,使用sigmoid函数激励X’的不同通道得到特征M,M=sigmoid(X’),不同通道对不同时间维度上特征的敏感程度不同,不同通道能够关注到不同的时间信息;
S33、对X和M使用通道级乘法得到局部变化敏感的重要性图Xo,Xo=M⊙X,Xo既拥有瞬时的时间信息,又保留了外观特征;
S34、全局分支将提取到的XS输入到两个全连接层中,得到联合瞬时时间信息的聚合核k,k=FC2(FC1(XS));并使用softmax函数进行权值归一化,生成最终能够得到不同时间维度间依赖关系的全局的聚合核q,q=softmax(k);
S35、使用生成的聚合核q对局部分支的输出Xo进行卷积聚合得到特征A,这种时间信息的聚合方式能够聚合由输入视频序列的全局视图引导的时间依赖性关系,最终得到的特征既拥有了瞬时的时间信息,又获得了长期的时间依赖关系;
S36、使用两个3D卷积层conv1,conv2和一个2D卷积层conv3对时间信息和外观信息建模提取细粒度的时间信息和外观信息,Y=conv3(conv2(x)οconv1(x’)),具体包括:
对于输入特征x∈RM和x'∈RN,使用双线性池化对输入的特征建模得到更加具有区分性的细粒度特征,原始的双线性池化是一个外积操作z=xx'T,z∈RM×N,池化后的特征维度过高,输入下一层全连接层y=Wvec(z),W∈RD×M×N,y∈RD,全连接层参数W过多,使用三个小的矩阵u∈RD×R,a∈RR×M,b∈RR×N来近似大矩阵W,则y=u(axοbx'),由于R很小,因此可以达到减少参数的目的;
S37、令x’=x完成特征自双线性池化,增强时间信息和外观信息;
S38、增强后的时间信息和外观信息输入resnet-50网络的全连接分类层,计算损失函数并进行反向传播得到最终的权重优化resnet-50网络,本发明的resnet-50网络为imagenet上提供的resnet-50的预训练权重,并保持conv2的weight=0,bias=1。
S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别。
本发明的自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系;
本发明的特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率;
本发明使用了一种初始化方法,使得网络不需要在大型行为识别数据集上额外的预训练;
本发明提供了一种网络结构,构建出一种结合两个模块的方法,大大提高了识别的准确率。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

Claims (4)

1.基于深度学习的行为识别方法,其特征在于,包括:
S1、获取训练样本集;
S2、建立行为识别模型,行为识别模型包括resnet-50网络、自适应时间特征提取模块和特征细粒度增强模块,自适应时间特征提取模块通过2D卷积构建局部分支和全局分支来捕获局部变化敏感信息和全局聚合信息,特征细粒度增强模块通过2个3D卷积和一个2D卷积构建用于增强时间信息和外观信息,在resnet-50网络的第一、二、三、四层上均放置自适应时间特征提取模块和特征细粒度增强模块;
S3、训练样本集导入行为识别模型进行训练优化;具体包括:
S31、对特征X进行全局平均池化得到全局池化特征XS,Xs=pooling(X);
S32、局部分支对XS的相邻时间维度进行建模得到局部变化敏感的时间信息特征X’,X’=Conv2(Conv1(XS)),并使用sigmoid函数激励X’的不同通道得到特征M,M=sigmoid(X’);
S33、对X和M使用通道级乘法得到局部变化敏感的重要性图Xo,Xo=M⊙X;
S34、全局分支将提取到的XS输入到两个全连接层中,得到联合瞬时时间信息的聚合核k,k=FC2(FC1(XS));并使用softmax函数进行权值归一化,生成全局的聚合核q,q=softmax(k);
S35、使用生成的聚合核q对局部分支的输出Xo进行卷积聚合得到特征A,
S36、使用两个3D卷积层conv1,conv2和一个2D卷积层conv3对时间信息和外观信息建模,
S37、令x’=x完成特征自双线性池化,增强时间信息和外观信息;
S38、增强后的时间信息和外观信息输入resnet-50网络的全连接分类层,计算损失函数并进行反向传播优化resnet-50网络;
S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别。
2.根据权利要求1所述的基于深度学习的行为识别方法,其特征在于,resnet-50网络的第一、二、三、四层上自适应时间特征提取模块的数量均为1个,resnet-50网络的第一、二、三、四层上特征细粒度增强模块的数量分别为2、3、5、2个。
3.根据权利要求1所述的基于深度学习的行为识别方法,其特征在于,训练样本集中训练样本的特征X包括批次编号N、特征通道C、时间维度T、空间解析度,空间解析度包括训练样本图形的长H和宽W。
4.根据权利要求1所述的基于深度学习的行为识别方法,其特征在于,在S1中还包括对训练样本集进行预处理,具体包括:对训练样本集的视频帧进行分段随机采样排序,并对采样出来的视频帧图片进行随机裁剪。
CN202111293226.1A 2021-11-03 2021-11-03 基于深度学习的行为识别方法 Active CN114022957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111293226.1A CN114022957B (zh) 2021-11-03 2021-11-03 基于深度学习的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111293226.1A CN114022957B (zh) 2021-11-03 2021-11-03 基于深度学习的行为识别方法

Publications (2)

Publication Number Publication Date
CN114022957A CN114022957A (zh) 2022-02-08
CN114022957B true CN114022957B (zh) 2023-09-22

Family

ID=80059973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111293226.1A Active CN114022957B (zh) 2021-11-03 2021-11-03 基于深度学习的行为识别方法

Country Status (1)

Country Link
CN (1) CN114022957B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251297A (zh) * 2016-07-19 2016-12-21 四川大学 一种改进的基于多幅图像模糊核估计的盲超分辨率重建算法
CN109993770A (zh) * 2019-04-09 2019-07-09 西南交通大学 一种自适应时空学习与状态识别的目标跟踪方法
CN111027448A (zh) * 2019-12-04 2020-04-17 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN111738090A (zh) * 2020-05-27 2020-10-02 北京三快在线科技有限公司 行人重识别模型训练方法、装置及行人重识别方法、装置
CN111985343A (zh) * 2020-07-23 2020-11-24 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN113947696A (zh) * 2021-10-15 2022-01-18 中国石油大学(华东) 一种基于resnet-50改进的车型识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4207054A1 (en) * 2018-02-09 2023-07-05 The Board of Trustees of the University of Illinois A system and method to fuse multiple sources of optical data to generate a high-resolution, frequent and cloud-/gap-free surface reflectance product
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251297A (zh) * 2016-07-19 2016-12-21 四川大学 一种改进的基于多幅图像模糊核估计的盲超分辨率重建算法
CN109993770A (zh) * 2019-04-09 2019-07-09 西南交通大学 一种自适应时空学习与状态识别的目标跟踪方法
CN111027448A (zh) * 2019-12-04 2020-04-17 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN111738090A (zh) * 2020-05-27 2020-10-02 北京三快在线科技有限公司 行人重识别模型训练方法、装置及行人重识别方法、装置
CN111985343A (zh) * 2020-07-23 2020-11-24 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN113947696A (zh) * 2021-10-15 2022-01-18 中国石油大学(华东) 一种基于resnet-50改进的车型识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Wei Luo等.Learning Semantically Enhanced Feature for Fine-Grained Image Classification.《IEEE SIGNAL PROCESSING LETTERS, VOL. 27, 2020》.2020,第1545-1549页. *
Zhaoyang Liu等.TAM: TEMPORAL ADAPTIVE MODULE FOR VIDEORECOGNITION.《arXiv:2005.06803v2》.2020,第1-16页:摘要,正文第1、3小节. *
万培佩.基于深度学习的行人重识别方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2021,第I138-597页. *
樊璐等.一种新的行人多目标跟踪算法.《计算机应用与软件》.2021,第190-196页. *

Also Published As

Publication number Publication date
CN114022957A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
Yi et al. Multi-temporal ultra dense memory network for video super-resolution
US20220358334A1 (en) Assembly body change detection method, device and medium based on attention mechanism
CN112949565A (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及系统
CN109190581A (zh) 图像序列目标检测识别方法
CN110795858B (zh) 家装设计图纸的生成方法和装置
CN111696035A (zh) 一种基于光流运动估计算法的多帧图像超分辨率重建方法
Fu et al. Hyperspectral imaging from a raw mosaic image with end-to-end learning
CN112633234A (zh) 人脸去眼镜模型训练、应用方法及其装置、设备和介质
CN114757862B (zh) 用于红外光场设备的图像增强渐进式融合方法
CN115346269A (zh) 一种手势动作识别的方法
CN116229106A (zh) 一种基于双u结构的视频显著性预测方法
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN116189292A (zh) 一种基于双流网络的视频动作识别方法
Wang et al. A group-based embedding learning and integration network for hyperspectral image super-resolution
CN113887568B (zh) 一种各向异性卷积的双目图像立体匹配方法
CN113689382B (zh) 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统
Deng et al. Multiple frame splicing and degradation learning for hyperspectral imagery super-resolution
Guo A novel Multi to Single Module for small object detection
CN114022957B (zh) 基于深度学习的行为识别方法
CN110782503B (zh) 一种基于两分支深度相关网络的人脸图像合成方法和装置
CN112016434A (zh) 一种基于注意力机制3d残差网络的镜头运动识别方法
Mu et al. A two-branch network combined with robust principal component analysis for hyperspectral image classification
CN116433548A (zh) 一种基于多级信息提取的高光谱与全色图像融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant