CN114022957A - 基于深度学习的行为识别方法 - Google Patents
基于深度学习的行为识别方法 Download PDFInfo
- Publication number
- CN114022957A CN114022957A CN202111293226.1A CN202111293226A CN114022957A CN 114022957 A CN114022957 A CN 114022957A CN 202111293226 A CN202111293226 A CN 202111293226A CN 114022957 A CN114022957 A CN 114022957A
- Authority
- CN
- China
- Prior art keywords
- behavior recognition
- feature
- information
- time
- resnet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深度学习的行为识别方法,涉及视频识别领域,S1获取训练样本集;S2建立行为识别模型,行为识别模型包括resnet‑50网络、自适应时间特征提取模块和特征细粒度增强模块;S3训练样本集导入行为识别模型进行训练优化;S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别;自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系;特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率,大大提高了行为识别的准确率。
Description
技术领域
本发明涉及视频识别领域,尤其涉及一种基于深度学习的行为识别方法。
背景技术
近年来,由于深度学习的发展,人体行为识别由于其前景广阔迅速成为研究热点,基于深度学习的人体行为识别方法在各个领域应用广阔,通过视频理解人的行为是监控领域,人机交互、智慧家居等领域的技术基础,有很高的应用价值。
但视频分类领域有别于图像分类,图像分类基于深度学习方法能够提取到强大的外观信息,已经达到很高的分类精度。但视频分类是基于连续的图片序列,除了需要得到外观信息外,还需要从连续的视频帧中得到时间信息,目前的方法还远远达不到图像领域的精度。目前行为识别主要可以分为三类,第一类使用双流结构提取外观信息和时间信息,但额外的光流的提取十分耗时,并且意味着不能端到端的学习。第二类方法使用3D卷积网络同时提取外观信息和时间信息,但3D卷积的网络结构更大,因此需要额外的预训练,造成额外的开销。第三类方法是在2D卷积网络中加入提取时间信息的模块,这种方式更轻便但同时也需要面对融合时间信息和外观信息的困难。
传统的行为识别方法在相似外观的场景下容易失效,原因在于时间信息是细粒度的,目前的行为识别方法还不能很好的对细粒度的时间信息作出正确的推断。
发明内容
本发明的目的就在于为了解决上述问题设计了一种基于深度学习的行为识别方法。
本发明通过以下技术方案来实现上述目的:
基于深度学习的行为识别方法,其特征在于,包括:
S1、获取训练样本集;
S2、建立行为识别模型,行为识别模型包括resnet-50网络、自适应时间特征提取模块和特征细粒度增强模块,自适应时间特征提取模块通过2D卷积构建局部分支和全局分支来捕获局部变化敏感信息和全局聚合信息,特征细粒度增强模块通过2个3D卷积和一个2D卷积构建用于增强时间信息和外观信息,在resnet-50网络的第一、二、三、四层上均放置自适应时间特征提取模块和特征细粒度增强模块;
S3、训练样本集导入行为识别模型进行训练优化;
S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别。
本发明的有益效果在于:本发明的自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系;特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率,大大提高了行为识别的准确率。
附图说明
图1是本发明基于深度学习的行为识别方法的行为识别模型示意图;
图2是本发明基于深度学习的行为识别方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的具体实施方式进行详细说明。
基于深度学习的行为识别方法,其特征在于,包括:
S1、获取训练样本集,对训练样本集进行预处理;
采用公开数据集,生成原始视频的标签文件,划分训练集和验证集,生成训练集和验证集的信息,包括具体的标签信息和路径信息,按照训练集和验证集的划分,分别对原始视频提取某一段时间内的视频帧序列,并将其按照划分保存在对应的文件夹中;对训练集和验证集进预处理,具体包括:将视频帧按照需求分为相等长度的T段,随机的在每一段中采样一帧,得到一系列的图片序列,对图片序列进行随机裁剪,对原始图片序列数据增强得到数据输入流,由于相邻的视频帧间信息非常相似,全部输入网络会造成大量冗余,因此通过对视频帧进行分段随机采样的方式,降低输入网络的图片数量。
S2、建立行为识别模型,行为识别模型包括resnet-50网络、自适应时间特征提取模块和特征细粒度增强模块,自适应时间特征提取模块通过2D卷积构建局部分支和全局分支来捕获局部变化敏感信息和全局聚合信息,特征细粒度增强模块通过2个3D卷积和一个2D卷积构建用于增强时间信息和外观信息,resnet-50网络的第一、二、三、四层上自适应时间特征提取模块的数量均为1个,resnet-50网络的第一、二、三、四层上特征细粒度增强模块的数量分别为2、3、5、2个。
S3、训练样本集导入行为识别模型进行训练优化,数据输入流输入到行为识别模型的输入特征X记为[N,C,T,H,W],其中N是批次编号,C为特征通道,T为时间维度,H和W为空间解析度(也即是单张图像的长和宽);训练优化过程具体包括
S31、对特征X进行全局平均池化得到全局池化特征XS,Xs=pooling(X),可以压缩空间的维度,目的是为了忽略特征的外观信息,使得模块只关注特征X的时间信息;
S32、局部分支使用两个一维的卷积层对XS的相邻时间维度进行建模得到局部变化敏感的时间信息特征X’,X’=Conv2(Conv1(XS)),其中Conv1降低通道数,Conv2恢复通道数,使用sigmoid函数激励X’的不同通道得到特征M,M=sigmoid(X’),不同通道对不同时间维度上特征的敏感程度不同,不同通道能够关注到不同的时间信息;
S33、对X和M使用通道级乘法得到局部变化敏感的重要性图Xo,Xo=M⊙X,Xo既拥有瞬时的时间信息,又保留了外观特征;
S34、全局分支将提取到的XS输入到两个全连接层中,得到联合瞬时时间信息的聚合核k,k=FC2(FC1(XS));并使用softmax函数进行权值归一化,生成最终能够得到不同时间维度间依赖关系的全局的聚合核q,q=softmax(k);
S35、使用生成的聚合核q对局部分支的输出Xo进行卷积聚合得到特征A,这种时间信息的聚合方式能够聚合由输入视频序列的全局视图引导的时间依赖性关系,最终得到的特征既拥有了瞬时的时间信息,又获得了长期的时间依赖关系;
S36、使用两个3D卷积层conv1,conv2和一个2D卷积层conv3对时间信息和外观信息建模提取细粒度的时间信息和外观信息,Y=conv3(conv2(x)οconv1(x’)),具体包括:
对于输入特征x∈RM和x'∈RN,使用双线性池化对输入的特征建模得到更加具有区分性的细粒度特征,原始的双线性池化是一个外积操作z=xx'T,z∈RM×N,池化后的特征维度过高,输入下一层全连接层y=Wvec(z),W∈RD×M×N,y∈RD,全连接层参数W过多,使用三个小的矩阵u∈RD×R,a∈RR×M,b∈RR×N来近似大矩阵W,则y=u(axοbx'),由于R很小,因此可以达到减少参数的目的;
S37、令x’=x完成特征自双线性池化,增强时间信息和外观信息;
S38、增强后的时间信息和外观信息输入resnet-50网络的全连接分类层,计算损失函数并进行反向传播得到最终的权重优化resnet-50网络,本发明的resnet-50网络为imagenet上提供的resnet-50的预训练权重,并保持conv2的weight=0,bias=1。
S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别。
本发明的自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系;
本发明的特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率;
本发明使用了一种初始化方法,使得网络不需要在大型行为识别数据集上额外的预训练;
本发明提供了一种网络结构,构建出一种结合两个模块的方法,大大提高了识别的准确率。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
Claims (5)
1.基于深度学习的行为识别方法,其特征在于,包括:
S1、获取训练样本集;
S2、建立行为识别模型,行为识别模型包括resnet-50网络、自适应时间特征提取模块和特征细粒度增强模块,自适应时间特征提取模块通过2D卷积构建局部分支和全局分支来捕获局部变化敏感信息和全局聚合信息,特征细粒度增强模块通过2个3D卷积和一个2D卷积构建用于增强时间信息和外观信息,在resnet-50网络的第一、二、三、四层上均放置自适应时间特征提取模块和特征细粒度增强模块;
S3、训练样本集导入行为识别模型进行训练优化;
S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别。
2.根据权利要求1所述的基于深度学习的行为识别方法,其特征在于,resnet-50网络的第一、二、三、四层上自适应时间特征提取模块的数量均为1个,resnet-50网络的第一、二、三、四层上特征细粒度增强模块的数量分别为2、3、5、2个。
3.根据权利要求1所述的基于深度学习的行为识别方法,其特征在于,训练样本集中训练样本的特征X包括批次编号N、特征通道C、时间维度T、空间解析度,空间解析度包括训练样本图形的长H和宽W。
4.根据权利要求1所述的基于深度学习的行为识别方法,其特征在于,在S1中还包括对训练样本集进行预处理,具体包括:对训练样本集的视频帧进行分段随机采样排序,并对采样出来的视频帧图片进行随机裁剪。
5.根据权利要求1所述的基于深度学习的行为识别方法,其特征在于,在S3中包括:
S31、对特征X进行全局平均池化得到全局池化特征XS,Xs=pooling(X);
S32、局部分支对XS的相邻时间维度进行建模得到局部变化敏感的时间信息特征X’,X’=Conv2(Conv1(XS)),并使用sigmoid函数激励X’的不同通道得到特征M,M=sigmoid(X’);
S34、全局分支将提取到的XS输入到两个全连接层中,得到联合瞬时时间信息的聚合核k,k=FC2(FC1(XS));并使用softmax函数进行权值归一化,生成全局的聚合核q,q=softmax(k);
S37、令x’=x完成特征自双线性池化,增强时间信息和外观信息;
S38、增强后的时间信息和外观信息输入resnet-50网络的全连接分类层,计算损失函数并进行反向传播优化resnet-50网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293226.1A CN114022957B (zh) | 2021-11-03 | 2021-11-03 | 基于深度学习的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293226.1A CN114022957B (zh) | 2021-11-03 | 2021-11-03 | 基于深度学习的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114022957A true CN114022957A (zh) | 2022-02-08 |
CN114022957B CN114022957B (zh) | 2023-09-22 |
Family
ID=80059973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111293226.1A Active CN114022957B (zh) | 2021-11-03 | 2021-11-03 | 基于深度学习的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022957B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251297A (zh) * | 2016-07-19 | 2016-12-21 | 四川大学 | 一种改进的基于多幅图像模糊核估计的盲超分辨率重建算法 |
CN109993770A (zh) * | 2019-04-09 | 2019-07-09 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
CN111027448A (zh) * | 2019-12-04 | 2020-04-17 | 成都考拉悠然科技有限公司 | 一种基于时域推理图的视频行为类别识别方法 |
CN111444889A (zh) * | 2020-04-30 | 2020-07-24 | 南京大学 | 基于多级条件影响的卷积神经网络的细粒度动作检测方法 |
CN111738090A (zh) * | 2020-05-27 | 2020-10-02 | 北京三快在线科技有限公司 | 行人重识别模型训练方法、装置及行人重识别方法、装置 |
CN111985343A (zh) * | 2020-07-23 | 2020-11-24 | 深圳大学 | 一种行为识别深度网络模型的构建方法及行为识别方法 |
US20210118097A1 (en) * | 2018-02-09 | 2021-04-22 | The Board Of Trustees Of The University Of Illinois | A system and method to fuse multiple sources of optical data to generate a high-resolution, frequent and cloud-/gap-free surface reflectance product |
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
CN113255616A (zh) * | 2021-07-07 | 2021-08-13 | 中国人民解放军国防科技大学 | 一种基于深度学习的视频行为识别方法 |
CN113947696A (zh) * | 2021-10-15 | 2022-01-18 | 中国石油大学(华东) | 一种基于resnet-50改进的车型识别方法 |
-
2021
- 2021-11-03 CN CN202111293226.1A patent/CN114022957B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251297A (zh) * | 2016-07-19 | 2016-12-21 | 四川大学 | 一种改进的基于多幅图像模糊核估计的盲超分辨率重建算法 |
US20210118097A1 (en) * | 2018-02-09 | 2021-04-22 | The Board Of Trustees Of The University Of Illinois | A system and method to fuse multiple sources of optical data to generate a high-resolution, frequent and cloud-/gap-free surface reflectance product |
CN109993770A (zh) * | 2019-04-09 | 2019-07-09 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
CN111027448A (zh) * | 2019-12-04 | 2020-04-17 | 成都考拉悠然科技有限公司 | 一种基于时域推理图的视频行为类别识别方法 |
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
CN111444889A (zh) * | 2020-04-30 | 2020-07-24 | 南京大学 | 基于多级条件影响的卷积神经网络的细粒度动作检测方法 |
CN111738090A (zh) * | 2020-05-27 | 2020-10-02 | 北京三快在线科技有限公司 | 行人重识别模型训练方法、装置及行人重识别方法、装置 |
CN111985343A (zh) * | 2020-07-23 | 2020-11-24 | 深圳大学 | 一种行为识别深度网络模型的构建方法及行为识别方法 |
CN113255616A (zh) * | 2021-07-07 | 2021-08-13 | 中国人民解放军国防科技大学 | 一种基于深度学习的视频行为识别方法 |
CN113947696A (zh) * | 2021-10-15 | 2022-01-18 | 中国石油大学(华东) | 一种基于resnet-50改进的车型识别方法 |
Non-Patent Citations (4)
Title |
---|
WEI LUO等: "Learning Semantically Enhanced Feature for Fine-Grained Image Classification", pages 1545 - 1549 * |
ZHAOYANG LIU等: "TAM: TEMPORAL ADAPTIVE MODULE FOR VIDEORECOGNITION", pages 1 - 16 * |
万培佩: "基于深度学习的行人重识别方法研究", pages 138 - 597 * |
樊璐等: "一种新的行人多目标跟踪算法", pages 190 - 196 * |
Also Published As
Publication number | Publication date |
---|---|
CN114022957B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949565B (zh) | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 | |
CN108830855B (zh) | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 | |
Cai et al. | FCSR-GAN: Joint face completion and super-resolution via multi-task learning | |
Hayat | Super-resolution via deep learning | |
CN111242844B (zh) | 图像处理方法、装置、服务器和存储介质 | |
CN109308725B (zh) | 一种移动端表情趣图生成的系统 | |
CN113689382B (zh) | 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统 | |
Lai et al. | Real-time micro-expression recognition based on ResNet and atrous convolutions | |
CN112801015A (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN112507920B (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN114332573A (zh) | 基于注意力机制的多模态信息融合识别方法及系统 | |
CN113379597A (zh) | 人脸超分辨率重构方法 | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN115346269A (zh) | 一种手势动作识别的方法 | |
Liu et al. | Fully convolutional multi‐scale dense networks for monocular depth estimation | |
Li et al. | A discriminative self‐attention cycle GAN for face super‐resolution and recognition | |
CN110782503B (zh) | 一种基于两分支深度相关网络的人脸图像合成方法和装置 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN114022957B (zh) | 基于深度学习的行为识别方法 | |
CN115527275A (zh) | 基于P2CS_3DNet的行为识别方法 | |
CN113702377B (zh) | 基于深度学习的葡萄糖度无损检测方法 | |
CN114648722A (zh) | 一种基于视频多路径时空特征网络的动作识别方法 | |
CN109101972A (zh) | 一种带上下文信息编码的语义分割卷积神经网络 | |
CN114821438A (zh) | 一种基于多路径激励的视频人体行为识别方法及系统 | |
CN116266347A (zh) | 食物识别模型建模方法及系统、食物识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |