CN113688761A - 一种基于图像序列的行人行为类别检测方法 - Google Patents

一种基于图像序列的行人行为类别检测方法 Download PDF

Info

Publication number
CN113688761A
CN113688761A CN202111010815.4A CN202111010815A CN113688761A CN 113688761 A CN113688761 A CN 113688761A CN 202111010815 A CN202111010815 A CN 202111010815A CN 113688761 A CN113688761 A CN 113688761A
Authority
CN
China
Prior art keywords
network
image
layer
frame
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111010815.4A
Other languages
English (en)
Other versions
CN113688761B (zh
Inventor
唐俊
许辉
张艳
朱明�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202111010815.4A priority Critical patent/CN113688761B/zh
Publication of CN113688761A publication Critical patent/CN113688761A/zh
Application granted granted Critical
Publication of CN113688761B publication Critical patent/CN113688761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像序列的行人行为类别检测方法,包括:1、训练测试数据集的采集与处理,通过摄像头采集多场景下的行人行为视频,利用deep‑sort对视频中的目标人物进行检测跟踪制作目标图像序列;2、根据方法的需求搭建基于时空网络的判别模块以及未来帧预测网络模块;3、对的两个模块进行训练,使整个模型达到最优状态并保存模型参数;4、利用已训练好的模型对行人行为类别进行检;5、使用的网络模型利用两个判别模块联合优化模型来进行训练,将各个模块连接组成系统,对视频中的行人行为进行检测分类。本发明能很好的捕捉到图像序列的空间信息以及时间信息,从而提升对行为检测的准确性。

Description

一种基于图像序列的行人行为类别检测方法
技术领域
本发明涉及视频图像处理、目标检测、多目标追踪、深度学习领域,尤其是涉及一种基于图像序列的行人行为类别检测方法。
背景技术
随着当今社会的发展推进,为了节约人力资源和资金成本,摄像头在各个领域都得到广泛的应用,获取的视频信息可以帮助我们高效的获取我们需要的信息。行为识别Action Recognition是指对视频中人的行为动作进行识别,即读懂视频。比如说在单行道上出现逆向行驶的车辆,在客厅突然摔倒的老人。通过行为识别,在具体某些行为上可以及时获取这些重要信息。
当前在行为识别领域的方法分为基于传统模型和基于深度学习模型两大类。在传统的行为识别模型中,通常都是先提取手工特征(HOG,HOF,DenseTrajectories等),然后使用分类器进行分类,iDT是传统方法中很经典的模型,DT算法和iDT算法的基本框架括密集采样点特征、特征点轨迹跟踪和基于轨迹的特征提取三部分,后续再进行特征编码和分类。基于深度学习模型的方法按照是否先检测人体关键点,基于深度学习的方法可以简单地划分为“skeleton-based”和“video-based”两类。
对于大多数的动作都具有不同的表现形式,动作持续的时间也有差别。通过图像获得的信息不足以描述当前的行为信息。而通过视频来作为处理数据,由于视频段的长度不易,而且开放环境下存在多尺度、多目标、摄像机移动等众多问题,这些问题都将导致行为识别未能实用化。基于骨胳轨迹序列的方法在面对复杂场景如遮挡等或者出现复杂动作时这对骨胳点的提取准确度有着很大的要求,人与人之间、人与背景之间的相互遮挡也使得模型对动作分类前期特征提取带来了很大的困难;
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于图像序列的行人行为类别检测方法,以期望能充分利用目标图像序列的空间信息以及时间信息,在保证模型的行为检测准确度的同时,又能使检测速度达到实时的效果。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于图像序列的行人行为类别检测方法的特点包括以下步骤:
步骤1:训练测试数据集的采集与处理;
步骤1.1:通过监控摄像头采集真实场景的行人活动视频,并将所述行人活动视频进行跳帧处理,获得不同场景下的行人图像帧并进行归一化处理后,用于训练多目标跟踪器;
利用训练后的多目标跟踪模型对所述行人活动视频进行跟踪处理,获得第p个目标人物的图像帧序列
Figure BDA0003238886080000021
其中,
Figure BDA0003238886080000022
为第p个目标人物在第t帧中的图像;T表示总帧数;
步骤1.2:对图像帧序列
Figure BDA0003238886080000023
中的每帧图像进行类别的标注,从而构建训练数据集;
从所述图像帧序列
Figure BDA0003238886080000024
中取长度为n的连续图像帧并构建成一个子序列
Figure BDA0003238886080000025
记ylabel为所述子序列的真实标签;
将第p个目标人物在第t帧中的图像
Figure BDA0003238886080000026
进行归一化处理后,得到维度为(c,h,w)的特征图为
Figure BDA0003238886080000027
从而得到特征图序列
Figure BDA0003238886080000028
作为判别网络的输入序列;
步骤2:构建基于时空网络的判别模块,所述判别模块由一个卷积神经网络IfeNet、一个双向长短期记忆网络以及以一个注意力机制层构成;
步骤2.1:所述卷积神经网络IfeNet由M个下采样块组成,M个下采样块分别记为DownBlock1,...,DownBlockm,...,DownBlockM,其中DownBlockm代表第m级下采样块,m=1,2,...,M;其中,第m级下采样块由第m级的一个二维卷积层Conv2dm、一个BatchNormalization层BNm以及一个激活函数LeakyRelu组成;
所述特征图
Figure BDA0003238886080000029
经过卷积神经网络IfeNet中M个下采样块DownBlock1,...,DownBlockm,...,DownBlockM后,得到维度为(c′,h′,w′)特征图
Figure BDA00032388860800000210
从而将所有输出的特征图
Figure BDA00032388860800000211
进行concat聚合并得到维度为(n,c′×w′×h′)的特征矩阵
Figure BDA00032388860800000212
步骤2.2:所述长短期记忆网络LSTM为包含hs个隐含层的双向网络;令长短期记忆网络LSTM的隐含层数量为v;
所述特征矩阵
Figure BDA00032388860800000213
输入所述LSTM网络中,并由最后一层隐含层输出所述特征图
Figure BDA0003238886080000031
对应的隐含层特征ht
步骤2.3:所述注意力机制层将所述隐含层特征ht经过一个激活函数tanh进行处理,从而利用式(1)得到中间输出ut
ut=tanh(Wwht+bw) (1)
式(1)中,bw为偏置矩阵,Ww为根据ht所设置的随机参数矩阵;
所述注意力机制层对所述中间输出ut进行归一化处理,从而利用式(2)得到权重αt
Figure BDA0003238886080000032
式(1)中,
Figure BDA0003238886080000033
为ut的转置,uw为根据
Figure BDA0003238886080000034
设置的随机参数矩阵;
所述注意力机制层利用式(2)对权重αt与隐含层特征ht进行加权求和后,得到维度为(1,2×v)的向量表示S:
Figure BDA0003238886080000035
将所述特征向量S经过softmax层得到子序列
Figure BDA0003238886080000036
的类别概率预测分布向量为ypred
步骤2.4:ypred、ylabel分别表示维度为(1,C)类别概率预测分布向量和真实标签,其中C表示类别数,通过式(4)构建基于时空网络判别模块的损失函数loss1
Figure BDA0003238886080000037
步骤3:构建基于未来帧的预测网络模块;
所述预测网络模块是由编码器网络和解码器两个部分组成,所述编码器网络与所述判别模块的结构相同;
所述解码器网络是由线性结构层和X个上采样块组成;X个上采样块分别记为Upsampleblock1,...,Upsampleblockx,...,UpsampleblockX;其中,Upsampleblockx表示第x级上采样块;
当x=1,...,X-1时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx、一个BatchNormalization层BNx以及一个ReLU激活函数构成;
当x=X时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx和一个Sigmoid激活函数组成;
步骤3.1:将子序列
Figure BDA0003238886080000041
分为两个部分,选取其中长度为n-1的第一部分子序列
Figure BDA0003238886080000042
作为所述预测网络模块的输入,记所述第一部分子序列的标签Ilabel为第t帧中的图像
Figure BDA0003238886080000043
步骤3.2:将第一部分子序列
Figure BDA0003238886080000044
输入到编码器网络中进行处理,并得到维度为(1,2×v)的特征向量S′;
将特征向量S′输入到线性结构层中后输出维度为(2×v,1,1)的特征图Featuremap;
所述特征图Featuremap经过X个上采样块后得到维度为(c,w,h)的特征矩阵Ipred
根据预测的特征矩阵Ipred与真实的标签Ilabel,利用式(5)建立损失函数loss2
Figure BDA0003238886080000045
式(5)中,h,w,c分别表示预测的特征矩阵与标签所对应的图像的高度、图像的宽度以及图像的通道数,j,k,l为三个变量;
步骤4:训练预测阶段:
步骤4.1:利用式(6)建立反向传播的损失函数Ltotal,并通过Adam优化器以学习率lr对判别模块和预测网络模块进行训练,从而更新网络参数使得损失函数Ltotal收敛,并得到最优网络模型;
Ltotal=loss1+λloss2 (6)
式(6)中,λ为权重系数,λ∈(0,1];
步骤4.2:将子序列
Figure BDA0003238886080000046
输入最优网络模型中,并由训练后的判别模块得到第p个目标人物在t帧的类别概率预测分布向量
Figure BDA0003238886080000047
所述第一部分子序列
Figure BDA0003238886080000048
经过训练后的预测模块网络得到对应的特征矩阵I′pred;从而利用式(7)获得预测阶段的第p个目标人物在t帧时的行为类别概率分布
Figure BDA0003238886080000051
Figure BDA0003238886080000052
式(7)中,β为权重参数,且β∈(0,1];f为一个线性操作。
与现有技术相比,本发明的有益效果在于:
1、本发明利用所获得的前景目标输入到特征提取网络中,而不是输入每一帧的整张图像,通常行为的特征由目标前景产生的,使得模型在对序列提取特征信息时可以有效地避免背景噪声对实验结果的影响,提高了检测精度;
2、本发明利用未来帧预测模块和时空网络模块联合训练优化模型,通过两个模块的预测输出作为跌倒检测的参考度量,有助于模型能够应对不同场景下的特殊行为导致的误检,从而提升了模型的准确性;
3、本发明Attention机制的实现是通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习,并且在模型输出时,将输出序列与之进行关联,从而使得模型更加关注动作变化的时刻,以便于模型对该序列信息的提取;
4、本发明在两个模块中的卷积神经网络都是用了一个包含5层卷积模块的网络IfeNet,基于长短期记忆网络的方法主要是从时间序列上处理不同帧之间的变化情况,可专注于人体运动从而忽略静态场景图像,网络深度较浅,且本发明的整体流程实现了端到端的训练和检测,使用少量计算资源和少量样本就能够实现较好的效果,实现了实时的视频目标行为的检测目的。
附图说明
图1为本发明卷积神经网络IfeNet网络结构图;
图2为本发明解码器Decoder的网络结构图;
图3为本发明长度为8视频目标图像序列实例;
图4为本发明检测模块流程图。
具体实施方式
本实施例中,参见图4,一种基于图像序列的行人行为类别检测方法,分别利用时空网络模块以及未来帧预测模块两个网络模块对同一段序列进行处理构造损失函数,对两个模块进行优化学习整合到一个网络结构中。具体如以下步骤:
步骤1:训练测试数据集的采集与处理;
步骤1.1:通过监控摄像头采集真实场景的行人活动视频,并将行人活动视频进行跳帧处理,获得不同场景下的行人图像帧并进行归一化处理后,用于训练多目标跟踪器;具体实施中,使用普通网络摄像头,放置房间的斜上方,前侧以及后侧。摄像头使用海康威视网络摄像头,型号为DS-2CD1021FD-IW1,视频分辨率为720*480,帧数为15fps。采集人员在房间内活动的视频图像。通过裁减掉视频中长时间没有目标任务以及干扰因素较多的视频片段,保留质量高的视频用作后期的跟踪处理。
利用训练后的多目标跟踪模型对行人活动视频进行跟踪处理,获得第p个目标人物的图像帧序列
Figure BDA0003238886080000061
其中,
Figure BDA0003238886080000062
为第p个目标人物在第t帧中的图像;T表示总帧数;
步骤1.2:对图像帧序列
Figure BDA0003238886080000063
中的每帧图像进行类别的标注,从而构建训练数据集;具体实施中,将图像的标签分为四类分别是正常行走、突然加速、摔倒以及跳跃,将四个类别分别用0、1、2、3表示。
从图像帧序列
Figure BDA0003238886080000064
中取长度为n的连续图像帧并构建成一个子序列
Figure BDA0003238886080000065
记ylabel为子序列的真实标签;具体实施中,取n=8构建子序列,通过one-hot编码根据四个类别构建子序列标签{0:(1,0,0,0),1:(0,1,0,0),2:(0,0,1,0),3:(0,0,0,1)};
将第p个目标人物在第t帧中的图像
Figure BDA0003238886080000066
进行归一化处理后,得到维度为(c,h,w)的特征图为
Figure BDA0003238886080000067
从而得到特征图序列
Figure BDA0003238886080000068
作为判别网络的输入序列;具体实施中,特征图的维度为(3,224,224);
步骤2:构建基于时空网络的判别模块,判别模块由一个卷积神经网络IfeNet、一个双向长短期记忆网络以及以一个注意力机制层构成;
步骤2.1:如图1所示,卷积神经网络IfeNet由M个下采样块组成,M个下采样块分别记为DownBlock1,...,DownBlockm,...,DownBlockM,其中DownBlockm代表第m级下采样块,m=1,2,...,M;其中,第m级下采样块由第m级的一个二维卷积层Conv2dm、一个BatchNormalization层BNm以及一个激活函数LeakyRelu组成;具体实施中,M=5,如图3所示,第一个下采样模块使用64个大小为7×7的卷积核,第二个下采样模块使128个大小为5×5的卷积核,第三个下采样模块使256个大小为3×3的卷积核,第四个下采样模块使256个大小为3×3的卷积核,第五个下采样模块使384个大小为3×3的卷积核;
特征图
Figure BDA0003238886080000071
经过卷积神经网络IfeNet中M个下采样块DownBlock1,...,DownBlockm,...,DownBlockM后,得到维度为(c′,h′,w′)特征图
Figure BDA0003238886080000072
从而将所有输出的特征图
Figure BDA0003238886080000073
进行concat聚合并得到维度为(n,c′×w′×h′)的特征矩阵
Figure BDA0003238886080000074
具体实施中,维度为(3,224,224)的特征图
Figure BDA0003238886080000075
经过IfeNet得到维度为(384,5,5)的输出特征图
Figure BDA0003238886080000076
步骤2.2:长短期记忆网络LSTM为单层的双向网络;令长短期记忆网络LSTM的隐含层数量为v;具体实施中,v=512;
特征矩阵
Figure BDA0003238886080000077
输入LSTM网络中,并由最后一层隐含层输出特征图
Figure BDA0003238886080000078
对应的隐含层特征ht
步骤2.3:注意力机制层将隐含层特征ht经过一个激活函数tanh进行处理,从而利用式(1)得到中间输出ut
ut=tanh(Wwht+bw) (1)
式(1)中,bw为偏置矩阵,Ww为根据ht所设置的随机参数矩阵;
注意力机制层对中间输出ut进行归一化处理,从而利用式(2)得到权重αt
Figure BDA0003238886080000079
式(1)中,
Figure BDA00032388860800000710
为ut的转置,uw为根据
Figure BDA00032388860800000711
设置的随机参数矩阵;
注意力机制层利用式(2)对权重αt与隐含层特征ht进行加权求和后,得到维度为(1,1024)的向量表示S:
Figure BDA00032388860800000712
将特征向量S经过softmax层得到子序列
Figure BDA00032388860800000713
的类别概率预测分布向量为ypred;具体实施中S为通过attention对8个隐含层输出ht进行加权求和得到维度为(1,1024)的输出向量S,ypred对应四种类别的预测概率分布向量;
步骤2.4:ypred、ylabel分别表示维度为(1,C)类别概率预测分布向量和真实标签,其中C表示类别数,通过式(4)构建基于时空网络判别模块的损失函数loss1:具体实施中,C=4;
Figure BDA0003238886080000081
步骤3:构建基于未来帧的预测网络模块;
预测网络模块是由编码器网络和解码器两个部分组成,编码器网络与判别模块的结构相同;
如图2所示,解码器网络是由线性结构层和X个上采样块组成;M个上采样块分别记为Upsampleblock1,...,Upsampleblockx,...,UpsampleblockX;其中,Upsampleblockx表示第x级上采样块;
当x=1,...,6时,Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx、一个BatchNormalization层BNx以及一个ReLU激活函数构成;
当m=7时,Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx和一个Sigmoid激活函数组成;
步骤3.1:将子序列
Figure BDA0003238886080000082
分为两个部分,选取其中长度为n-1的第一部分子序列
Figure BDA0003238886080000083
作为预测网络模块的输入,记第一部分子序列的标签Ilabel为第t帧中的图像
Figure BDA0003238886080000084
具体实施中,取n=8;
步骤3.2:将第一部分子序列
Figure BDA0003238886080000085
输入到编码器网络中进行处理,并得到维度为(1,2×v)的特征向量S′;
将特征向量S′输入到线性结构层中后输出维度为(1024,1,1)的特征图Featuremap;
特征图Featuremap经过X个上采样块后得到维度为(3,224,224)的特征矩阵Ipred
根据预测的特征矩阵Ipred与真实的标签Ilabel,利用式(5)建立损失函数loss2
Figure BDA0003238886080000086
式(5)中,h=224,w=224,c=3分别表示预测的特征矩阵与标签所对应的图像的高度、图像的宽度以及图像的通道数,j,k,l为变量值;
步骤4:训练预测阶段:
步骤4.1:利用式(6)建立反向传播的损失函数Ltotal,并通过Adam优化器以学习率lr对判别模块和预测网络模块进行训练,从而更新网络参数使得损失函数Ltotal收敛,并得到最优网络模型;
Ltotal=loss1+λloss2 (6)
式(6)中,λ为权重系数根据不同数据集以及需求调节,λ∈(0,1];
步骤4.2:将子序列
Figure BDA0003238886080000091
输入最优网络模型中,并由训练后的判别模块得到第p个目标人物在t帧的类别概率预测分布向量St p
第一部分子序列
Figure BDA0003238886080000092
经过训练后的预测模块网络得到对应的特征矩阵I′pred;从而利用式(7)获得预测阶段的第p个目标人物在t帧时的行为类别概率分布Scoret p
Figure BDA0003238886080000093
式(7)中,β为权重参数根据不同数据集以及需求调节,且β∈(0,1];f为一个线性操作。

Claims (1)

1.一种基于图像序列的行人行为类别检测方法,其特征包括以下步骤:
步骤1:训练测试数据集的采集与处理;
步骤1.1:通过监控摄像头采集真实场景的行人活动视频,并将所述行人活动视频进行跳帧处理,获得不同场景下的行人图像帧并进行归一化处理后,用于训练多目标跟踪器;
利用训练后的多目标跟踪模型对所述行人活动视频进行跟踪处理,获得第p个目标人物的图像帧序列
Figure FDA0003238886070000011
其中,
Figure FDA0003238886070000012
为第p个目标人物在第t帧中的图像;T表示总帧数;
步骤1.2:对图像帧序列
Figure FDA0003238886070000013
中的每帧图像进行类别的标注,从而构建训练数据集;
从所述图像帧序列
Figure FDA0003238886070000014
中取长度为n的连续图像帧并构建成一个子序列
Figure FDA0003238886070000015
记ylabel为所述子序列的真实标签;
将第p个目标人物在第t帧中的图像
Figure FDA00032388860700000112
进行归一化处理后,得到维度为(c,h,w)的特征图为
Figure FDA0003238886070000016
从而得到特征图序列
Figure FDA0003238886070000017
作为判别网络的输入序列;
步骤2:构建基于时空网络的判别模块,所述判别模块由一个卷积神经网络IfeNet、一个双向长短期记忆网络以及以一个注意力机制层构成;
步骤2.1:所述卷积神经网络IfeNet由M个下采样块组成,M个下采样块分别记为DownBlock1,...,DownBlockm,...,DownBlockM,其中DownBlockm代表第m级下采样块,m=1,2,...,M;其中,第m级下采样块由第m级的一个二维卷积层Conv2dm、一个BatchNormalization层BNm以及一个激活函数LeakyRelu组成;
所述特征图
Figure FDA0003238886070000018
经过卷积神经网络IfeNet中M个下采样块DownBlock1,...,DownBlockm,...,DownBlockM后,得到维度为(c′,h′,w′)特征图
Figure FDA0003238886070000019
从而将所有输出的特征图
Figure FDA00032388860700000110
进行concat聚合并得到维度为(n,c′×w′×h′)的特征矩阵
Figure FDA00032388860700000111
步骤2.2:所述长短期记忆网络LSTM为包含hs个隐含层的双向网络;令长短期记忆网络LSTM的隐含层数量为v;
所述特征矩阵
Figure FDA0003238886070000021
输入所述LSTM网络中,并由最后一层隐含层输出所述特征图
Figure FDA0003238886070000022
对应的隐含层特征ht
步骤2.3:所述注意力机制层将所述隐含层特征ht经过一个激活函数tanh进行处理,从而利用式(1)得到中间输出ut
ut=tanh(Wwht+bw) (1)
式(1)中,bw为偏置矩阵,Ww为根据ht所设置的随机参数矩阵;
所述注意力机制层对所述中间输出ut进行归一化处理,从而利用式(2)得到权重αt
Figure FDA0003238886070000023
式(1)中,
Figure FDA0003238886070000024
为ut的转置,uw为根据
Figure FDA0003238886070000025
设置的随机参数矩阵;
所述注意力机制层利用式(2)对权重αt与隐含层特征ht进行加权求和后,得到维度为(1,2×v)的向量表示S:
Figure FDA0003238886070000026
将所述特征向量S经过softmax层得到子序列
Figure FDA0003238886070000027
的类别概率预测分布向量为ypred
步骤2.4:ypred、ylabel分别表示维度为(1,C)类别概率预测分布向量和真实标签,其中C表示类别数,通过式(4)构建基于时空网络判别模块的损失函数loss1
Figure FDA0003238886070000028
步骤3:构建基于未来帧的预测网络模块;
所述预测网络模块是由编码器网络和解码器两个部分组成,所述编码器网络与所述判别模块的结构相同;
所述解码器网络是由线性结构层和X个上采样块组成;X个上采样块分别记为Upsampleblock1,...,Upsampleblockx,...,UpsampleblockX;其中,Upsampleblockx表示第x级上采样块;
当x=1,...,X-1时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx、一个BatchNormalization层BNx以及一个ReLU激活函数构成;
当x=X时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx和一个Sigmoid激活函数组成;
步骤3.1:将子序列
Figure FDA0003238886070000031
分为两个部分,选取其中长度为n-1的第一部分子序列
Figure FDA0003238886070000032
作为所述预测网络模块的输入,记所述第一部分子序列的标签Ilabel为第t帧中的图像
Figure FDA0003238886070000033
步骤3.2:将第一部分子序列
Figure FDA0003238886070000034
输入到编码器网络中进行处理,并得到维度为(1,2×v)的特征向量S′;
将特征向量S′输入到线性结构层中后输出维度为(2×v,1,1)的特征图Featuremap;
所述特征图Featuremap经过X个上采样块后得到维度为(c,w,h)的特征矩阵Ipred
根据预测的特征矩阵Ipred与真实的标签Ilabel,利用式(5)建立损失函数loss2
Figure FDA0003238886070000035
式(5)中,h,w,c分别表示预测的特征矩阵与标签所对应的图像的高度、图像的宽度以及图像的通道数,j,k,l为三个变量;
步骤4:训练预测阶段:
步骤4.1:利用式(6)建立反向传播的损失函数Ltotal,并通过Adam优化器以学习率lr对判别模块和预测网络模块进行训练,从而更新网络参数使得损失函数Ltotal收敛,并得到最优网络模型;
Ltotal=loss1+λloss2 (6)
式(6)中,λ为权重系数,λ∈(0,1];
步骤4.2:将子序列
Figure FDA0003238886070000036
输入最优网络模型中,并由训练后的判别模块得到第p个目标人物在t帧的类别概率预测分布向量St p
所述第一部分子序列
Figure FDA0003238886070000041
经过训练后的预测模块网络得到对应的特征矩阵I′pred;从而利用式(7)获得预测阶段的第p个目标人物在t帧时的行为类别概率分布Scoret p
Figure FDA0003238886070000042
式(7)中,β为权重参数,且β∈(0,1];f为一个线性操作。
CN202111010815.4A 2021-08-31 2021-08-31 一种基于图像序列的行人行为类别检测方法 Active CN113688761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111010815.4A CN113688761B (zh) 2021-08-31 2021-08-31 一种基于图像序列的行人行为类别检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111010815.4A CN113688761B (zh) 2021-08-31 2021-08-31 一种基于图像序列的行人行为类别检测方法

Publications (2)

Publication Number Publication Date
CN113688761A true CN113688761A (zh) 2021-11-23
CN113688761B CN113688761B (zh) 2024-02-20

Family

ID=78584369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111010815.4A Active CN113688761B (zh) 2021-08-31 2021-08-31 一种基于图像序列的行人行为类别检测方法

Country Status (1)

Country Link
CN (1) CN113688761B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613004A (zh) * 2022-02-28 2022-06-10 电子科技大学 一种人体动作的轻量化在线检测方法
WO2023125119A1 (zh) * 2021-12-30 2023-07-06 中兴通讯股份有限公司 时空动作检测方法、装置、电子设备及存储介质
CN117953470A (zh) * 2024-03-26 2024-04-30 杭州感想科技有限公司 全景拼接相机的高速公路事件识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN111008576A (zh) * 2019-11-22 2020-04-14 高创安邦(北京)技术有限公司 行人检测及其模型训练、更新方法、设备及可读存储介质
CN111832516A (zh) * 2020-07-22 2020-10-27 西安电子科技大学 基于无监督视频表示学习的视频行为识别方法
CN112257502A (zh) * 2020-09-16 2021-01-22 深圳微步信息股份有限公司 一种监控视频行人识别与跟踪方法、装置及存储介质
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN113221787A (zh) * 2021-05-18 2021-08-06 西安电子科技大学 基于多元差异性融合的行人多目标跟踪方法
CN113221641A (zh) * 2021-04-01 2021-08-06 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN111008576A (zh) * 2019-11-22 2020-04-14 高创安邦(北京)技术有限公司 行人检测及其模型训练、更新方法、设备及可读存储介质
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN111832516A (zh) * 2020-07-22 2020-10-27 西安电子科技大学 基于无监督视频表示学习的视频行为识别方法
CN112257502A (zh) * 2020-09-16 2021-01-22 深圳微步信息股份有限公司 一种监控视频行人识别与跟踪方法、装置及存储介质
CN113221641A (zh) * 2021-04-01 2021-08-06 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113221787A (zh) * 2021-05-18 2021-08-06 西安电子科技大学 基于多元差异性融合的行人多目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李森;许宏科;: "基于时空建模的视频帧预测模型", 物联网技术, no. 02, 20 February 2020 (2020-02-20), pages 72 - 75 *
杨其睿;: "油田安防领域基于改进的深度残差网络行人检测模型", 计算机测量与控制, no. 11, 25 November 2018 (2018-11-25), pages 283 - 286 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023125119A1 (zh) * 2021-12-30 2023-07-06 中兴通讯股份有限公司 时空动作检测方法、装置、电子设备及存储介质
CN114613004A (zh) * 2022-02-28 2022-06-10 电子科技大学 一种人体动作的轻量化在线检测方法
CN117953470A (zh) * 2024-03-26 2024-04-30 杭州感想科技有限公司 全景拼接相机的高速公路事件识别方法及装置

Also Published As

Publication number Publication date
CN113688761B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109740419A (zh) 一种基于Attention-LSTM网络的视频行为识别方法
CN110188637A (zh) 一种基于深度学习的行为识别技术方法
CN113688761A (zh) 一种基于图像序列的行人行为类别检测方法
CN112560810B (zh) 基于多尺度时空特征神经网络的微表情识别方法
CN110717389B (zh) 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法
CN110765906A (zh) 一种基于关键点的行人检测算法
KR102132407B1 (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
CN108416780B (zh) 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法
Wang et al. A cognitive memory-augmented network for visual anomaly detection
Balasubramanian et al. Analysis of facial emotion recognition
CN113378649A (zh) 身份、位置和动作识别方法、系统、电子设备及存储介质
CN111967433A (zh) 一种基于自监督学习网络的动作识别办法
CN111738218A (zh) 人体异常行为识别系统及方法
CN112149616A (zh) 基于动态信息的人物交互行为识别方法
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
CN109886102A (zh) 一种基于深度图像的跌倒行为时空域检测方法
CN117253039A (zh) 一种基于脉冲神经网络的目标分割方法与系统
CN117975638A (zh) 基于信息融合技术的智慧安防报警系统及其方法
Sridhar et al. Anomaly Detection using CNN with SVM
CN117011932A (zh) 一种奔跑行为检测方法、电子设备及存储介质
Esan et al. Surveillance detection of anomalous activities with optimized deep learning technique in crowded scenes
CN111178134B (zh) 一种基于深度学习与网络压缩的摔倒检测方法
Wang et al. Self-trained video anomaly detection based on teacher-student model
CN111160078B (zh) 一种基于视频图像的人体交互行为识别方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant