CN113688761B - 一种基于图像序列的行人行为类别检测方法 - Google Patents

一种基于图像序列的行人行为类别检测方法 Download PDF

Info

Publication number
CN113688761B
CN113688761B CN202111010815.4A CN202111010815A CN113688761B CN 113688761 B CN113688761 B CN 113688761B CN 202111010815 A CN202111010815 A CN 202111010815A CN 113688761 B CN113688761 B CN 113688761B
Authority
CN
China
Prior art keywords
network
image
layer
frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111010815.4A
Other languages
English (en)
Other versions
CN113688761A (zh
Inventor
唐俊
许辉
张艳
朱明�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202111010815.4A priority Critical patent/CN113688761B/zh
Publication of CN113688761A publication Critical patent/CN113688761A/zh
Application granted granted Critical
Publication of CN113688761B publication Critical patent/CN113688761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像序列的行人行为类别检测方法,包括:1、训练测试数据集的采集与处理,通过摄像头采集多场景下的行人行为视频,利用deep‑sort对视频中的目标人物进行检测跟踪制作目标图像序列;2、根据方法的需求搭建基于时空网络的判别模块以及未来帧预测网络模块;3、对的两个模块进行训练,使整个模型达到最优状态并保存模型参数;4、利用已训练好的模型对行人行为类别进行检;5、使用的网络模型利用两个判别模块联合优化模型来进行训练,将各个模块连接组成系统,对视频中的行人行为进行检测分类。本发明能很好的捕捉到图像序列的空间信息以及时间信息,从而提升对行为检测的准确性。

Description

一种基于图像序列的行人行为类别检测方法
技术领域
本发明涉及视频图像处理、目标检测、多目标追踪、深度学习领域,尤其是涉及一种基于图像序列的行人行为类别检测方法。
背景技术
随着当今社会的发展推进,为了节约人力资源和资金成本,摄像头在各个领域都得到广泛的应用,获取的视频信息可以帮助我们高效的获取我们需要的信息。行为识别Action Recognition是指对视频中人的行为动作进行识别,即读懂视频。比如说在单行道上出现逆向行驶的车辆,在客厅突然摔倒的老人。通过行为识别,在具体某些行为上可以及时获取这些重要信息。
当前在行为识别领域的方法分为基于传统模型和基于深度学习模型两大类。在传统的行为识别模型中,通常都是先提取手工特征(HOG,HOF,DenseTrajectories等),然后使用分类器进行分类,iDT是传统方法中很经典的模型,DT算法和iDT算法的基本框架括密集采样点特征、特征点轨迹跟踪和基于轨迹的特征提取三部分,后续再进行特征编码和分类。基于深度学习模型的方法按照是否先检测人体关键点,基于深度学习的方法可以简单地划分为“skeleton-based”和“video-based”两类。
对于大多数的动作都具有不同的表现形式,动作持续的时间也有差别。通过图像获得的信息不足以描述当前的行为信息。而通过视频来作为处理数据,由于视频段的长度不易,而且开放环境下存在多尺度、多目标、摄像机移动等众多问题,这些问题都将导致行为识别未能实用化。基于骨胳轨迹序列的方法在面对复杂场景如遮挡等或者出现复杂动作时这对骨胳点的提取准确度有着很大的要求,人与人之间、人与背景之间的相互遮挡也使得模型对动作分类前期特征提取带来了很大的困难;
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于图像序列的行人行为类别检测方法,以期望能充分利用目标图像序列的空间信息以及时间信息,在保证模型的行为检测准确度的同时,又能使检测速度达到实时的效果。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于图像序列的行人行为类别检测方法的特点包括以下步骤:
步骤1:训练测试数据集的采集与处理;
步骤1.1:通过监控摄像头采集真实场景的行人活动视频,并将所述行人活动视频进行跳帧处理,获得不同场景下的行人图像帧并进行归一化处理后,用于训练多目标跟踪器;
利用训练后的多目标跟踪模型对所述行人活动视频进行跟踪处理,获得第p个目标人物的图像帧序列其中,/>为第p个目标人物在第t帧中的图像;T表示总帧数;
步骤1.2:对图像帧序列中的每帧图像进行类别的标注,从而构建训练数据集;
从所述图像帧序列中取长度为n的连续图像帧并构建成一个子序列/>记ylabel为所述子序列的真实标签;
将第p个目标人物在第t帧中的图像进行归一化处理后,得到维度为(c,h,w)的特征图为/>从而得到特征图序列/>作为判别网络的输入序列;
步骤2:构建基于时空网络的判别模块,所述判别模块由一个卷积神经网络IfeNet、一个双向长短期记忆网络以及以一个注意力机制层构成;
步骤2.1:所述卷积神经网络IfeNet由M个下采样块组成,M个下采样块分别记为DownBlock1,...,DownBlockm,...,DownBlockM,其中DownBlockm代表第m级下采样块,m=1,2,...,M;其中,第m级下采样块由第m级的一个二维卷积层Conv2dm、一个BatchNormalization层BNm以及一个激活函数LeakyRelu组成;
所述特征图经过卷积神经网络IfeNet中M个下采样块DownBlock1,...,DownBlockm,...,DownBlockM后,得到维度为(c′,h′,w′)特征图从而将所有输出的特征图/>进行concat聚合并得到维度为(n,c′×w′×h′)的特征矩阵/>
步骤2.2:所述长短期记忆网络LSTM为包含hs个隐含层的双向网络;令长短期记忆网络LSTM的隐含层数量为v;
所述特征矩阵输入所述LSTM网络中,并由最后一层隐含层输出所述特征图/>对应的隐含层特征ht
步骤2.3:所述注意力机制层将所述隐含层特征ht经过一个激活函数tanh进行处理,从而利用式(1)得到中间输出ut
ut=tanh(Wwht+bw) (1)
式(1)中,bw为偏置矩阵,Ww为根据ht所设置的随机参数矩阵;
所述注意力机制层对所述中间输出ut进行归一化处理,从而利用式(2)得到权重αt
式(1)中,为ut的转置,uw为根据/>设置的随机参数矩阵;
所述注意力机制层利用式(2)对权重αt与隐含层特征ht进行加权求和后,得到维度为(1,2×v)的向量表示S:
将所述特征向量S经过softmax层得到子序列的类别概率预测分布向量为ypred
步骤2.4:ypred、ylabel分别表示维度为(1,C)类别概率预测分布向量和真实标签,其中C表示类别数,通过式(4)构建基于时空网络判别模块的损失函数loss1
步骤3:构建基于未来帧的预测网络模块;
所述预测网络模块是由编码器网络和解码器两个部分组成,所述编码器网络与所述判别模块的结构相同;
所述解码器网络是由线性结构层和X个上采样块组成;X个上采样块分别记为Upsampleblock1,...,Upsampleblockx,...,UpsampleblockX;其中,Upsampleblockx表示第x级上采样块;
当x=1,...,X-1时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx、一个BatchNormalization层BNx以及一个ReLU激活函数构成;
当x=X时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx和一个Sigmoid激活函数组成;
步骤3.1:将子序列分为两个部分,选取其中长度为n-1的第一部分子序列/>作为所述预测网络模块的输入,记所述第一部分子序列的标签Ilabel为第t帧中的图像/>
步骤3.2:将第一部分子序列输入到编码器网络中进行处理,并得到维度为(1,2×v)的特征向量S′;
将特征向量S′输入到线性结构层中后输出维度为(2×v,1,1)的特征图Featuremap;
所述特征图Featuremap经过X个上采样块后得到维度为(c,w,h)的特征矩阵Ipred
根据预测的特征矩阵Ipred与真实的标签Ilabel,利用式(5)建立损失函数loss2
式(5)中,h,w,c分别表示预测的特征矩阵与标签所对应的图像的高度、图像的宽度以及图像的通道数,j,k,l为三个变量;
步骤4:训练预测阶段:
步骤4.1:利用式(6)建立反向传播的损失函数Ltotal,并通过Adam优化器以学习率lr对判别模块和预测网络模块进行训练,从而更新网络参数使得损失函数Ltotal收敛,并得到最优网络模型;
Ltotal=loss1+λloss2 (6)
式(6)中,λ为权重系数,λ∈(0,1];
步骤4.2:将子序列输入最优网络模型中,并由训练后的判别模块得到第p个目标人物在t帧的类别概率预测分布向量/>
所述第一部分子序列经过训练后的预测模块网络得到对应的特征矩阵I′pred;从而利用式(7)获得预测阶段的第p个目标人物在t帧时的行为类别概率分布
式(7)中,β为权重参数,且β∈(0,1];f为一个线性操作。
与现有技术相比,本发明的有益效果在于:
1、本发明利用所获得的前景目标输入到特征提取网络中,而不是输入每一帧的整张图像,通常行为的特征由目标前景产生的,使得模型在对序列提取特征信息时可以有效地避免背景噪声对实验结果的影响,提高了检测精度;
2、本发明利用未来帧预测模块和时空网络模块联合训练优化模型,通过两个模块的预测输出作为跌倒检测的参考度量,有助于模型能够应对不同场景下的特殊行为导致的误检,从而提升了模型的准确性;
3、本发明Attention机制的实现是通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习,并且在模型输出时,将输出序列与之进行关联,从而使得模型更加关注动作变化的时刻,以便于模型对该序列信息的提取;
4、本发明在两个模块中的卷积神经网络都是用了一个包含5层卷积模块的网络IfeNet,基于长短期记忆网络的方法主要是从时间序列上处理不同帧之间的变化情况,可专注于人体运动从而忽略静态场景图像,网络深度较浅,且本发明的整体流程实现了端到端的训练和检测,使用少量计算资源和少量样本就能够实现较好的效果,实现了实时的视频目标行为的检测目的。
附图说明
图1为本发明卷积神经网络IfeNet网络结构图;
图2为本发明解码器Decoder的网络结构图;
图3为本发明长度为8视频目标图像序列实例;
图4为本发明检测模块流程图。
具体实施方式
本实施例中,参见图4,一种基于图像序列的行人行为类别检测方法,分别利用时空网络模块以及未来帧预测模块两个网络模块对同一段序列进行处理构造损失函数,对两个模块进行优化学习整合到一个网络结构中。具体如以下步骤:
步骤1:训练测试数据集的采集与处理;
步骤1.1:通过监控摄像头采集真实场景的行人活动视频,并将行人活动视频进行跳帧处理,获得不同场景下的行人图像帧并进行归一化处理后,用于训练多目标跟踪器;具体实施中,使用普通网络摄像头,放置房间的斜上方,前侧以及后侧。摄像头使用海康威视网络摄像头,型号为DS-2CD1021FD-IW1,视频分辨率为720*480,帧数为15fps。采集人员在房间内活动的视频图像。通过裁减掉视频中长时间没有目标任务以及干扰因素较多的视频片段,保留质量高的视频用作后期的跟踪处理。
利用训练后的多目标跟踪模型对行人活动视频进行跟踪处理,获得第p个目标人物的图像帧序列其中,/>为第p个目标人物在第t帧中的图像;T表示总帧数;
步骤1.2:对图像帧序列中的每帧图像进行类别的标注,从而构建训练数据集;具体实施中,将图像的标签分为四类分别是正常行走、突然加速、摔倒以及跳跃,将四个类别分别用0、1、2、3表示。
从图像帧序列中取长度为n的连续图像帧并构建成一个子序列/>记ylabel为子序列的真实标签;具体实施中,取n=8构建子序列,通过one-hot编码根据四个类别构建子序列标签{0:(1,0,0,0),1:(0,1,0,0),2:(0,0,1,0),3:(0,0,0,1)};
将第p个目标人物在第t帧中的图像进行归一化处理后,得到维度为(c,h,w)的特征图为/>从而得到特征图序列/>作为判别网络的输入序列;具体实施中,特征图的维度为(3,224,224);
步骤2:构建基于时空网络的判别模块,判别模块由一个卷积神经网络IfeNet、一个双向长短期记忆网络以及以一个注意力机制层构成;
步骤2.1:如图1所示,卷积神经网络IfeNet由M个下采样块组成,M个下采样块分别记为DownBlock1,...,DownBlockm,...,DownBlockM,其中DownBlockm代表第m级下采样块,m=1,2,...,M;其中,第m级下采样块由第m级的一个二维卷积层Conv2dm、一个BatchNormalization层BNm以及一个激活函数LeakyRelu组成;具体实施中,M=5,如图3所示,第一个下采样模块使用64个大小为7×7的卷积核,第二个下采样模块使128个大小为5×5的卷积核,第三个下采样模块使256个大小为3×3的卷积核,第四个下采样模块使256个大小为3×3的卷积核,第五个下采样模块使384个大小为3×3的卷积核;
特征图经过卷积神经网络IfeNet中M个下采样块DownBlock1,...,DownBlockm,...,DownBlockM后,得到维度为(c′,h′,w′)特征图/>从而将所有输出的特征图/>进行concat聚合并得到维度为(n,c′×w′×h′)的特征矩阵/>具体实施中,维度为(3,224,224)的特征图经过IfeNet得到维度为(384,5,5)的输出特征图/>
步骤2.2:长短期记忆网络LSTM为单层的双向网络;令长短期记忆网络LSTM的隐含层数量为v;具体实施中,v=512;
特征矩阵输入LSTM网络中,并由最后一层隐含层输出特征图/>对应的隐含层特征ht
步骤2.3:注意力机制层将隐含层特征ht经过一个激活函数tanh进行处理,从而利用式(1)得到中间输出ut
ut=tanh(Wwht+bw) (1)
式(1)中,bw为偏置矩阵,Ww为根据ht所设置的随机参数矩阵;
注意力机制层对中间输出ut进行归一化处理,从而利用式(2)得到权重αt
式(1)中,为ut的转置,uw为根据/>设置的随机参数矩阵;
注意力机制层利用式(2)对权重αt与隐含层特征ht进行加权求和后,得到维度为(1,1024)的向量表示S:
将特征向量S经过softmax层得到子序列的类别概率预测分布向量为ypred;具体实施中S为通过attention对8个隐含层输出ht进行加权求和得到维度为(1,1024)的输出向量S,ypred对应四种类别的预测概率分布向量;
步骤2.4:ypred、ylabel分别表示维度为(1,C)类别概率预测分布向量和真实标签,其中C表示类别数,通过式(4)构建基于时空网络判别模块的损失函数loss1:具体实施中,C=4;
步骤3:构建基于未来帧的预测网络模块;
预测网络模块是由编码器网络和解码器两个部分组成,编码器网络与判别模块的结构相同;
如图2所示,解码器网络是由线性结构层和X个上采样块组成;M个上采样块分别记为Upsampleblock1,...,Upsampleblockx,...,UpsampleblockX;其中,Upsampleblockx表示第x级上采样块;
当x=1,...,6时,Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx、一个BatchNormalization层BNx以及一个ReLU激活函数构成;
当m=7时,Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx和一个Sigmoid激活函数组成;
步骤3.1:将子序列分为两个部分,选取其中长度为n-1的第一部分子序列/>作为预测网络模块的输入,记第一部分子序列的标签Ilabel为第t帧中的图像/>具体实施中,取n=8;
步骤3.2:将第一部分子序列输入到编码器网络中进行处理,并得到维度为(1,2×v)的特征向量S′;
将特征向量S′输入到线性结构层中后输出维度为(1024,1,1)的特征图Featuremap;
特征图Featuremap经过X个上采样块后得到维度为(3,224,224)的特征矩阵Ipred
根据预测的特征矩阵Ipred与真实的标签Ilabel,利用式(5)建立损失函数loss2
式(5)中,h=224,w=224,c=3分别表示预测的特征矩阵与标签所对应的图像的高度、图像的宽度以及图像的通道数,j,k,l为变量值;
步骤4:训练预测阶段:
步骤4.1:利用式(6)建立反向传播的损失函数Ltotal,并通过Adam优化器以学习率lr对判别模块和预测网络模块进行训练,从而更新网络参数使得损失函数Ltotal收敛,并得到最优网络模型;
Ltotal=loss1+λloss2 (6)
式(6)中,λ为权重系数根据不同数据集以及需求调节,λ∈(0,1];
步骤4.2:将子序列输入最优网络模型中,并由训练后的判别模块得到第p个目标人物在t帧的类别概率预测分布向量St p
第一部分子序列经过训练后的预测模块网络得到对应的特征矩阵I′pred;从而利用式(7)获得预测阶段的第p个目标人物在t帧时的行为类别概率分布Scoret p
式(7)中,β为权重参数根据不同数据集以及需求调节,且β∈(0,1];f为一个线性操作。

Claims (1)

1.一种基于图像序列的行人行为类别检测方法,其特征包括以下步骤:
步骤1:训练测试数据集的采集与处理;
步骤1.1:通过监控摄像头采集真实场景的行人活动视频,并将所述行人活动视频进行跳帧处理,获得不同场景下的行人图像帧并进行归一化处理后,用于训练多目标跟踪器;
利用训练后的多目标跟踪模型对所述行人活动视频进行跟踪处理,获得第p个目标人物的图像帧序列其中,/>为第p个目标人物在第t帧中的图像;T表示总帧数;
步骤1.2:对图像帧序列中的每帧图像进行类别的标注,从而构建训练数据集;
从所述图像帧序列中取长度为n的连续图像帧并构建成一个子序列/>记ylabel为所述子序列的真实标签;
将第p个目标人物在第t帧中的图像进行归一化处理后,得到维度为(c,h,w)的特征图为/>从而得到特征图序列/>作为判别网络的输入序列;
步骤2:构建基于时空网络的判别模块,所述判别模块由一个卷积神经网络IfeNet、一个双向长短期记忆网络以及以一个注意力机制层构成;
步骤2.1:所述卷积神经网络IfeNet由M个下采样块组成,M个下采样块分别记为DownBlock1,...,DownBlockm,...,DownBlockM,其中DownBlockm代表第m级下采样块,m=1,2,...,M;其中,第m级下采样块由第m级的一个二维卷积层Conv2dm、一个BatchNormalization层BNm以及一个激活函数LeakyRelu组成;
所述特征图经过卷积神经网络IfeNet中M个下采样块DownBlock1,...,DownBlockm,...,DownBlockM后,得到维度为(c′,h′,w′)特征图/>从而将所有输出的特征图/>进行concat聚合并得到维度为(n,c′×w′×h′)的特征矩阵/>
步骤2.2:所述长短期记忆网络LSTM为包含hs个隐含层的双向网络;令长短期记忆网络LSTM的隐含层数量为v;
所述特征矩阵输入所述LSTM网络中,并由最后一层隐含层输出所述特征图对应的隐含层特征ht
步骤2.3:所述注意力机制层将所述隐含层特征ht经过一个激活函数tanh进行处理,从而利用式(1)得到中间输出ut
ut=tanh(Wwht+bw) (1)
式(1)中,bw为偏置矩阵,Ww为根据ht所设置的随机参数矩阵;
所述注意力机制层对所述中间输出ut进行归一化处理,从而利用式(2)得到权重αt
式(1)中,为ut的转置,uw为根据/>设置的随机参数矩阵;
所述注意力机制层利用式(2)对权重αt与隐含层特征ht进行加权求和后,得到维度为(1,2×v)的向量表示S:
将所述特征向量S经过softmax层得到子序列的类别概率预测分布向量为ypred
步骤2.4:ypred、ylabel分别表示维度为(1,C)类别概率预测分布向量和真实标签,其中C表示类别数,通过式(4)构建基于时空网络判别模块的损失函数loss1
步骤3:构建基于未来帧的预测网络模块;
所述预测网络模块是由编码器网络和解码器两个部分组成,所述编码器网络与所述判别模块的结构相同;
所述解码器网络是由线性结构层和X个上采样块组成;X个上采样块分别记为Upsampleblock1,...,Upsampleblockx,...,UpsampleblockX;其中,Upsampleblockx表示第x级上采样块;
当x=1,...,X-1时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx、一个BatchNormalization层BNx以及一个ReLU激活函数构成;
当x=X时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx和一个Sigmoid激活函数组成;
步骤3.1:将子序列分为两个部分,选取其中长度为n-1的第一部分子序列/>作为所述预测网络模块的输入,记所述第一部分子序列的标签Ilabel为第t帧中的图像/>
步骤3.2:将第一部分子序列输入到编码器网络中进行处理,并得到维度为(1,2×v)的特征向量S′;
将特征向量S′输入到线性结构层中后输出维度为(2×v,1,1)的特征图Featuremap;
所述特征图Featuremap经过X个上采样块后得到维度为(c,w,h)的特征矩阵Ipred
根据预测的特征矩阵Ipred与真实的标签Ilabel,利用式(5)建立损失函数loss2
式(5)中,h,w,c分别表示预测的特征矩阵与标签所对应的图像的高度、图像的宽度以及图像的通道数,j,k,l为三个变量;
步骤4:训练预测阶段:
步骤4.1:利用式(6)建立反向传播的损失函数Ltotal,并通过Adam优化器以学习率lr对判别模块和预测网络模块进行训练,从而更新网络参数使得损失函数Ltotal收敛,并得到最优网络模型;
Ltotal=loss1+λloss2 (6)
式(6)中,λ为权重系数,λ∈(0,1];
步骤4.2:将子序列输入最优网络模型中,并由训练后的判别模块得到第p个目标人物在t帧的类别概率预测分布向量St p
所述第一部分子序列经过训练后的预测模块网络得到对应的特征矩阵I′pred;从而利用式(7)获得预测阶段的第p个目标人物在t帧时的行为类别概率分布Scoret p
式(7)中,β为权重参数,且β∈(0,1];f为一个线性操作。
CN202111010815.4A 2021-08-31 2021-08-31 一种基于图像序列的行人行为类别检测方法 Active CN113688761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111010815.4A CN113688761B (zh) 2021-08-31 2021-08-31 一种基于图像序列的行人行为类别检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111010815.4A CN113688761B (zh) 2021-08-31 2021-08-31 一种基于图像序列的行人行为类别检测方法

Publications (2)

Publication Number Publication Date
CN113688761A CN113688761A (zh) 2021-11-23
CN113688761B true CN113688761B (zh) 2024-02-20

Family

ID=78584369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111010815.4A Active CN113688761B (zh) 2021-08-31 2021-08-31 一种基于图像序列的行人行为类别检测方法

Country Status (1)

Country Link
CN (1) CN113688761B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434096A (zh) * 2021-12-30 2023-07-14 中兴通讯股份有限公司 时空动作检测方法、装置、电子设备及存储介质
CN114613004B (zh) * 2022-02-28 2023-08-01 电子科技大学 一种人体动作的轻量化在线检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN111008576A (zh) * 2019-11-22 2020-04-14 高创安邦(北京)技术有限公司 行人检测及其模型训练、更新方法、设备及可读存储介质
CN111832516A (zh) * 2020-07-22 2020-10-27 西安电子科技大学 基于无监督视频表示学习的视频行为识别方法
CN112257502A (zh) * 2020-09-16 2021-01-22 深圳微步信息股份有限公司 一种监控视频行人识别与跟踪方法、装置及存储介质
CN113221641A (zh) * 2021-04-01 2021-08-06 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113221787A (zh) * 2021-05-18 2021-08-06 西安电子科技大学 基于多元差异性融合的行人多目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160297B (zh) * 2019-12-31 2022-05-13 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN111008576A (zh) * 2019-11-22 2020-04-14 高创安邦(北京)技术有限公司 行人检测及其模型训练、更新方法、设备及可读存储介质
CN111832516A (zh) * 2020-07-22 2020-10-27 西安电子科技大学 基于无监督视频表示学习的视频行为识别方法
CN112257502A (zh) * 2020-09-16 2021-01-22 深圳微步信息股份有限公司 一种监控视频行人识别与跟踪方法、装置及存储介质
CN113221641A (zh) * 2021-04-01 2021-08-06 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113221787A (zh) * 2021-05-18 2021-08-06 西安电子科技大学 基于多元差异性融合的行人多目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于时空建模的视频帧预测模型;李森;许宏科;;物联网技术;20200220(02);72-75 *
油田安防领域基于改进的深度残差网络行人检测模型;杨其睿;;计算机测量与控制;20181125(11);283-286+290 *

Also Published As

Publication number Publication date
CN113688761A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN111259850B (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN110378288B (zh) 一种基于深度学习的多级时空运动目标检测方法
CN108288015B (zh) 基于时间尺度不变性的视频中人体动作识别方法及系统
CN113688761B (zh) 一种基于图像序列的行人行为类别检测方法
CN109919032B (zh) 一种基于动作预测的视频异常行为检测方法
CN112329685A (zh) 一种融合型卷积神经网络人群异常行为检测的方法
CN111709300B (zh) 基于视频图像的人群计数方法
CN113313037A (zh) 一种基于自注意力机制的生成对抗网络视频异常检测方法
CN114333070A (zh) 一种基于深度学习的考生异常行为检测方法
CN107424175B (zh) 一种结合时空上下文信息的目标跟踪方法
CN115601403A (zh) 一种基于自注意力机制的事件相机光流估计方法及装置
CN111967433A (zh) 一种基于自监督学习网络的动作识别办法
CN112036300B (zh) 一种基于多尺度时空传播层的运动目标检测方法
CN112149616A (zh) 基于动态信息的人物交互行为识别方法
Savner et al. Crowdformer: Weakly-supervised crowd counting with improved generalizability
CN115880647A (zh) 一种考生考场异常行为分析方法、系统、设备及存储介质
CN115346149A (zh) 基于时空图卷积网络的跳绳计数方法和系统
CN113936034B (zh) 一种结合帧间光流的表观运动联合弱小运动目标检测方法
CN114821434A (zh) 一种基于光流约束的时空增强视频异常检测方法
EP3995992A1 (en) Method and system for detecting an action in a video clip
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant