CN113609957A - 一种人体行为识别方法及终端 - Google Patents

一种人体行为识别方法及终端 Download PDF

Info

Publication number
CN113609957A
CN113609957A CN202110880546.0A CN202110880546A CN113609957A CN 113609957 A CN113609957 A CN 113609957A CN 202110880546 A CN202110880546 A CN 202110880546A CN 113609957 A CN113609957 A CN 113609957A
Authority
CN
China
Prior art keywords
image feature
image
feature map
loss
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110880546.0A
Other languages
English (en)
Inventor
陈吕财
郑维宏
田中敏
魏军福
郑宏雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Star Net Joint Information System Co ltd
Original Assignee
Fujian Star Net Joint Information System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Star Net Joint Information System Co ltd filed Critical Fujian Star Net Joint Information System Co ltd
Priority to CN202110880546.0A priority Critical patent/CN113609957A/zh
Publication of CN113609957A publication Critical patent/CN113609957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种人体行为识别方法及终端,其中方法包括如下步骤:S2:构建人体异常行为识别的深度网络模型;S3:训练深度网络模型,并转化模型到边缘设备上;S4:使用深度网络模型对输入的待分类动作行为图像进行推断,获得推断后的图像特征图;对获取的图像特征图进行后处理及拼接获得最终的图像特征图,最终的图像特征图进行分析得到动作分类结果和动作区域框结果。上述技术方案能够在不占用过多算力的情况下,进行对人像图像的识别,提升了检测效率。同时在对人像图像行为识别方面,能够兼容边缘设备,在设备端就直接能够进行端到端的图像计算与识别,极大减小非端到端方法在分步识别带来的累计误差,识别准确率更高。

Description

一种人体行为识别方法及终端
技术领域
本发明涉及一种针对人体行为进行图像分析的方法,尤其涉及一种占用资源少的人体行为识别方法。
背景技术
边缘设备上的行为分类是一个充满挑战而又具有较高实际应用价值的任务。而能够在安防监控,广告投放,及其他视频理解相关的任务中起到巨大的帮助作用。现有的一些边缘设备上的行为识别方法是也是基于深度学习的方法,首先根据数据训练出基于深度学习的人体关节点分类模型,再根据识别出的关节点对人体的姿态进行分类。这类方法的优点在于能够动态地结合视频帧中的图像信息从而达到识别视频中一部分动作的效果。但是其缺点在于模型在转化到边缘设备后经常会伴随着精度丢失的问题,尤其是非端到端的模型,在转化时,因为涉及到两个模型的精度损失,二者在叠加后会带来更大的精度损失。同时因为推断速度的原因,这类模型需要较大的算力支持,在边缘设备上的处理时间较长,以至于无法很好地把行为分类模型应用在边缘设备上。
发明内容
为此,需要提供一种低算力占用的人体行为识别算法,解决现有技术中边缘设备人体行为识别算法适配性不佳的问题。
为实现上述目的,发明人提供了一种人体行为识别方法,包括如下步骤:
S2:构建人体异常行为识别的深度网络模型;
S3:训练深度网络模型,并转化模型到边缘设备上;
S4:使用深度网络模型对输入的待分类动作行为图像进行推断,获得推断后的图像特征图,对获取的图像特征图进行后处理及拼接获得最终的图像特征图,最终的图像特征图进行分析得到动作分类结果和动作区域框结果。
具体地,所述步骤S2构建人体异常行为识别的深度网络模型具体为:
S21:用归一化层和卷积层对输入的图像进行归一化并调整获得的图像特征图;
S22:将S21获得的图像特征图输入一个下采样分支,获得一个小尺度的图像特征图;
S23:将S22获得的小尺度的图像特征图输入一个上采样分支,把图像特征图还原回原图大小的一半;
S24:将S23还原后的图像特征图输入各分支网络获得对应动作的图像特征图。
具体地,步骤S21中,所述归一化层的归一化参数为255;所述卷积层的参数为:卷积核为1×1,步长为1,滤波器个数为8;
步骤S22中,所述下采样分支的结构由下采样模块和编码模块顺序构成,其中下采样模块由卷积核为5×5,步长为2,深度乘数为2的可分离卷积层和卷积核为3×3,步长为1,滤波器个数为16的卷积层构成;编码模块则包含两个卷积层,两个卷积层的卷积核都为3×3,步长为1;
步骤S23中,所述上采样分支的结构由上采样模块和解码模块顺序构成,上采样模块由卷积核为5×5,步长为2,深度乘数为4的可分离卷积层构成;解码模块则由卷积核为5×5,步长为1的卷积层构成;
步骤S24中,所述分支网络结构由卷积核为3×3,步长为2,滤波器个数为16的卷积层、卷积核为3×3,步长为2,滤波器个数为5的卷积层以及1 个采样大小为2×2的上采样层顺序构成。
进一步地,所述下采样分支的结构由1个下采样模块和6个编码模块顺序构成,6个编码模块中的12个卷积层的滤波器个数对应分别为:16,32, 32,48,48,48,48,48,48,48,48,48;
所述上采样分支的结构由7个组合模块顺序构成,每个组合模块由一个上采样模块和一个解码模块顺序构成;7个组合模块中的解码模块的卷积层的滤波器个数分别为48,48,48,48,48,32,16。
具体地,所述步骤S3训练深度网络模型包括:
S31:获取待分类动作行为图像训练集,找出各图像中异常行为动作区域,标注异常行为动作区域的四个顶点坐标作为真值标签;
S32:将经标注后的待分类动作行为图像训练集输入到深度网络模型中,经推断得到图像特征图集;
S33:将图像特征图集中的每一图像特征图与对应图像的真值标签进行损失计算,然后对深度网络模型进行损失的反向传播,并更新深度网络模型的参数权重;
重复步骤S33遍历图像特征图集中的各图像特征图,不断更新深度网络模型的参数权重,直至模型稳定。
具体地,所述步骤31之前还包括图像预处理步骤,具体为:边缘设备携带的摄像头采集人体异常行为图像,对图像中的人体异常行为区域标注;标注后再对图像进行数据增广及图像灰度化扩充数据量,得到模型训练所需要的图像;所述异常行为至少包括下列中的一种包含玩手机,转头,趴桌子、或抬头。
具体地,所述步骤S33具体包括:设置深度网络模型的学习率,根据学习率和损失函数将图像特征图集中的每一图像特征图与对应图像的真值标签进行损失计算,得到损失值,根据损失值对深度网络模型进行损失的反向传播,并更新深度网络模型的参数权重。
优选地,步骤S33中,
所述模型的学习率大小为0.0001,模型使用的损失函数为:
Loss=(Lossce+Lossmse)*w (1)
其中Lossce为多分类交叉熵损失,Lossmse为均方差损失,w为根据标签类别个数和标签值计算得到的权重;
Lossce的计算如下:
Lossce=categorical_crossentropy(ytrue,ypred) (2)
其中ytrue是真值标签,ypred是模型预测值,categorical_crossentropy表示多分类交叉熵计算;
Lossmse的计算如下:
Lossmse=mean((ytrue-ypred)2) (3)
其中,mean表示求均值操作;
w的计算如公式(4):
w=(1/n_class)*non_zero_class/k (4)
其中k是真值标签在其长宽维度上的和,
K=sum(ytrue) (5)
n_class是动作类别的种类个数,non_zero_class是数组k的值以0.1为界进行修改后的数组,大于0.1的部位值为1,否则为0:
non_zero_class=k>0.1 (6)。
进一步地,所述步骤S3中,转化模型到边缘设备上包括,将GPU训练的深度网络模型转换为嵌入式神经网络处理器推断模型,将转换后的深度网络模型通过接口应用到边缘设备。
进一步地,步骤S4具体包括以下步骤:
对获取的图像特征图进行后处理及拼接获得最终的图像特征图,最终的图像特征图进行分析得到动作分类结果和动作区域框结果。
步骤S41:将待分类的动作行为图像输入深度网络模型进行推断,获得推断后的图像特征图;
步骤S42:对获取的图像特征图进行后处理,具体为:所述图像特征图包括各分支网络对应的通道输出的通道图像特征图,所述一个分支网络的输出每张通道图像特征图对应一种动作行为类型;对不同的通道图像特征图相同位置的每个像素点求最大值,保留最大值的像素点、及该像素点的坐标和该像素点的所属通道,将所有最大值的像素点根据其坐标进行拼接获得最终的图像特征图,在最终的图像特征图中画出包含同一通道像素点对应的方形区域,计算同一通道像素点在该方形区域中的占比,并将所述占比与预设值进行比较;若所述占比大于预设值,则将对应像素点所属通道对应的动作行为类型判断为图像中动作行为类别,对应的方形区域为所述动作行为的检测框区域。
本发明还公开一种人体行为识别终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的人体行为识别方法中的各个步骤。
区别于现有技术,上述技术方案能够在不占用过多算力的情况下,进行对人像图像的识别,提升了检测效率。同时在对人像图像行为识别方面,能够兼容边缘设备,在设备端就直接能够进行端到端的图像计算与识别,极大减小非端到端方法在分步识别带来的累计误差,识别准确率更高。模型结构简单,输出结果直观,能够直接定位出异常动作行为的种类和区域。
附图说明
图1为具体实施方式所述的人体行为识别方法流程图;
图2为具体实施方式所述的深度网络模型的层级架构具体执行流程图;
图3为具体实施方式所述的训练深度网络模型执行流程图;
图4为具体实施方式所述的获得分类结果方法流程图;
图5为具体实施方式所述的动作识别效果图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为一种人体行为识别方法,包括如下步骤:
S2:构建人体异常行为识别的深度网络模型;
S3:训练深度网络模型,并转化模型到边缘设备上;
S4:使用深度网络模型对输入的待分类动作行为图像进行推断,获得推断后的图像特征图,对获取的图像特征图进行后处理及拼接获得最终的图像特征图,最终的图像特征图进行分析得到动作分类结果和动作区域框结果。
本发明的技术方案整个设计了深度网络模型的构建,训练,推断及结果后处理步骤。针对需要识别的具体行为动作的特征进行分析处理,以端到端的方式进行输出,极大地提升了深度网络模型结果的准确率。同时深度网络模型结构简单,可扩展性好,输出结果便于直接观察,执行效率高。
所述步骤S2构建人体异常行为识别的深度网络模型具体为:
S21:用归一化层和卷积层对输入视频图像进行归一化并调整获得的图像特征信息大小;
S22:将S21获得的图像特征图输入一个下采样分支,获得一个小尺度的图像特征;
S23:将S22获得的小尺度的图像特征图输入一个上采样分支,把图像特征图还原回原图大小的一半;
S24:将S23还原后的图像特征图输入分类的分支网络获得对应动作的特征图。
在一些具体的实施例中,所述各分支网络的输出图像特征图的通道个数为待识别动作类别个数加1。这是因为其中需要增加一张背景类的通道。
在更加具体的一些实施例中,步骤S21中,所述归一化层的归一化参数为255;所述卷积层的参数为:卷积核为1×1,步长为1,滤波器个数为8;
步骤S22中,所述下采样分支的结构由下采样模块和编码模块顺序构成,其中下采样模块由卷积核为5×5,步长为2,深度乘数为2的可分离卷积层和卷积核为3×3,步长为1,滤波器个数为16的卷积层构成;编码模块则包含两个卷积层,两个卷积层的卷积核都为3×3,步长为1;
步骤S23中,所述上采样分支的结构由上采样模块和解码模块顺序构成,上采样模块由卷积核为5×5,步长为2,深度乘数为4的可分离卷积层构成;解码模块则由卷积核为5×5,步长为1的卷积层构成;
步骤S24中,所述分支网络结构为卷积核为3×3,步长为2,滤波器个数为16的卷积层、卷积核为3×3,步长为2,滤波器个数为5的卷积层以及1 个采样大小为为2×2的上采样层顺序构成。
在一些进一步的实施例中,所述下采样分支的结构由1个下采样模块和6 个编码模块顺序构成,6个编码模块中的12个卷积层的滤波器个数对应分别为,16,32,32,48,48,48,48,48,48,48,48,48;所述上采样分支的结构由7个组合模块顺序构成,每个组合模块由一个上采样模块和一个解码模块顺序构成。7个组合模块中的解码模块的卷积层的滤波器个数分别为 48,48,48,48,48,32,16。
所述下采样分支的结构由1个下采样模块和6个编码模块顺序构成构成。其中下采样模块由卷积核为5×5,步长为2,深度乘数为2的可分离卷积层和卷积核为3×3,步长为1,滤波器个数为16的卷积层构成;编码模块则包含两个卷积层,两个卷积层的卷积核都为3×3,步长为1。6个编码模块中的12 个卷积层的滤波器个数对应分别为,16,32,32,48,48,48,48,48,48,48,48,48。
步骤S23中,所述上采样分支的结构由7个组合模块顺序构成,每个组合模块由一个上采样模块和一个解码模块顺序构成,其中每个上采样模块由卷积核为5×5,步长为2,深度乘数为4的可分离卷积层构成;7个解码模块则由卷积核为5×5,步长为1,滤波器个数分别为48,48,48,48,48,32, 16的卷积层构成。
步骤S24中,所述分支网络结构为卷积核为3×3,步长为2,滤波器个数为16的卷积层、卷积核为3×3,步长为2,滤波器个数为5的卷积层以及1 个采样大小为为2×2的上采样层顺序构成。
通过一个深度网络模型,以端到端的方式直接识别异常行为。在模型设计时,通过使用归一化层,卷积层,下采样分支,上采样分支等结构来获得图像特征,再使用分支网络获取不同动作的特征图。这种设计使模型整体结构更为简单直接,模型大小适中,能够在150ms内获得结果。上述方案能够很好地适配边缘设备上的硬件条件。
其他一些实施例中,为了更好地对深度网络模型进行训练,如图1所示,还包括步骤,S1:获取人体异常行为图像,对图像中的人体异常行为区域标注,进行图像预处理。通过对人体异常行为区域进行标注,能够获得需要识别的人体异常行为,将标注出来的人体异常行为作为深度网络模型的学习材料,通过上述步骤能够提升深度网络模型的识别率。
本发明中,所述步骤S3训练深度网络模型包括:
S31:获取待分类动作行为图像训练集,找出各图像中异常行为动作区域,标注异常行为动作区域的四个顶点坐标作为真值标签;
S32:将经标注后的待分类动作行为图像训练集输入到深度网络模型中,经推断得到图像特征图集;
S33:将图像特征图集中的每一图像特征图与对应图像的真值标签进行损失计算,然后对深度网络模型进行损失的反向传播,并更新深度网络模型的参数权重;
重复步骤S33遍历图像特征图集中的各图像特征图,不断更新深度网络模型的参数权重,直至模型稳定。
根据上述的训练步骤,能够针对具体需要识别的动作进行标注,找出有益于进行识别的特征。所采用的损失函数能够更加反应出真实图像像素区域与真值标签图像像素区域的误差,使模型的学习目标更加明确,通过不断迭代损失计算获得行为动作的更精准区域。
本发明中,所述步骤31之前还包括图像预处理步骤,具体为:边缘设备携带的摄像头采集人体异常行为图像,对图像中的人体异常行为区域标注;标注后再对图像进行数据增广及图像灰度化扩充数据量,得到模型训练所需要的图像;所述异常行为至少包括下列中的一种包含玩手机,转头,趴桌子、或抬头。
通过上述图像预处理步骤,能够通过少部分数据集精简模型训练的数据量,增加了真实场景中可能存在的数据,使模型的泛化效果更好。
在一些具体的实施例中,为了能够更好地训练深度网络模型,所述步骤 S33还可具体包括:设置深度网络模型的学习率,根据学习率和损失函数将图像特征图集中的每一图像特征图与对应图像的真值标签进行损失计算,得到损失值,根据损失值对深度网络模型进行损失的反向传播,并更新深度网络模型的参数权重。通过以上步骤设置学习率和损失函数,进行迭代并重复步骤S33,能够使得训练的深度网络模型更好地收敛。
具体来说,所述模型的学习率大小为0.0001,模型使用的损失函数为:
Loss=(Lossce+Lossmse)*w (1)
其中Lossce为多分类交叉熵损失,Lossmse为均方差损失,w为根据标签类别个数和标签值计算得到的权重;
Lossce的计算如下:
Lossce=categorical_crossentropy(ytrue,ypred) (2)
其中ytrue是真值标签,ypred是模型预测值,categorical_crossentropy表示多分类交叉熵计算;
Lossmse的计算如下:
Lossmse=mean((ytrue-ypred)2) (3)
其中,mean表示求均值操作;
w的计算如公式(4):
w=(1/n_class)*non_zero_class/k (4)
其中k是真值标签在其长宽维度上的和,
K=sum(ytrue) (5)
n_class是动作类别的种类个数,non_zero_class是数组k的值以0.1为界进行修改后的数组,大于0.1的部位值为1,否则为0:
non_zero_class=k>0.1 (6)。
其中,sum表示求和操作。
如图4所示的具体实施例中,步骤S4具体包括以下步骤:
步骤S41:将待分类的动作行为图片输入步骤S32获得的模型上获得推断后的图像特征图。需要进行判断的动作行为图片根据素材训练集的标注而不同。步骤S42:对获取的图像特征图进行后处理,具体为:所述图像特征图包括各分支网络对应的通道输出的通道图像特征图,所述一个分支网络的输出每张通道图像特征图对应一种动作行为类型;对不同的通道图像特征图相同位置的每个像素点求最大值,保留最大值的像素点、及该像素点的坐标和该像素点的所属通道,将所有最大值的像素点根据其坐标进行拼接获得最终的图像特征图,在最终的图像特征图中画出包含同一通道像素点对应的方形区域,计算同一通道像素点在该方形区域中的占比,并将所述占比与预设值进行比较;若所述占比大于预设值,则将对应像素点所属通道对应的动作行为类型判断为图像中动作行为类别,这里的动作行为类型既可以包括待识别的异常行为动作,也可以为背景类动作(即没有异常行为的动作)。对应的方形区域为所述动作行为的检测框区域。在本实施例中,步骤S41中,只需将视频图片输入模型获得推断后的图像特征图。步骤S42中,为了得到最终的图像特征图,本发明中预设值根据经验、实际需要等调整,取值范围一般在 0.25-0.7,一般情况下,我们将其设置为0.5。
本发明根据设置的阈值可以调整模型识别结果的准确率和召回率,使用高预设值,会降低检出结果的数量,但提升了检出结果的准确率,减少错误检出,降低召回率;使用低预设值,会增加检出结果的数量,但会降低准确率,增加错误检测,提高召回率。因此,本发明通过设置合适的阈值,平衡模型识别结果的准确率和召回率。
如图5所示,我们还展示了对玩手机动作和转头动作的检测框结果。
本发明该步骤的优点为:采用端到端识别的方案,大大降低了模型在转换到边缘设备时伴随的精度损失,而且单模型的方案也节省了整个识别过程的时间,只需要150ms就能完成对一张图片的识别。
本发明的模型结构简单,模型大小适中。模型针对不同的动作能够在不同的通道中获得其对应的特征图结果,可视化后效果直接明显,便于核查。下采样分支的使用,可以让我们获得一个小尺度的图像特征,扩大感受野,减少模型的参数,提升模型的效率。
本发明上述方案还带有权重w加权后的损失更加拟合真值标签与预测值的误差,在进行模型训练时,能够获得更好的效果,获得更加贴近标签的模型。
本发明通过不同分支网络的使用,使模型可扩展性好,针对后续需要添加的新动作,只需要添加新的数据集和在模型中增添新的输出分支来预测新动作的特征结果,其他部分无需修改。
本发明还公开一种人体行为识别终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的人体行为识别方法中的各个步骤。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明专利的保护范围之内。

Claims (10)

1.一种人体行为识别方法,其特征在于,包括如下步骤:
S2:构建人体异常行为识别的深度网络模型;
S3:训练深度网络模型,并转化模型到边缘设备上;
S4:使用深度网络模型对输入的待分类动作行为图像进行推断,获得推断后的图像特征图;对获取的图像特征图进行后处理及拼接获得最终的图像特征图,最终的图像特征图进行分析得到动作分类结果和动作区域框结果。
2.根据权利要求1所述的人体行为识别方法,其特征在于,所述步骤S2构建人体异常行为识别的深度网络模型具体为:
S21:用归一化层和卷积层对输入的图像进行归一化并调整获得的图像特征图;
S22:将S21获得的图像特征图输入一个下采样分支,获得一个小尺度的图像特征图;
S23:将S22获得的小尺度的图像特征图输入一个上采样分支,把图像特征图还原回原图大小的一半;
S24:将S23还原后的图像特征图输入各分支网络获得对应动作的图像特征图。
3.根据权利要求1所述的人体行为识别方法,其特征在于,步骤S21中,所述归一化层的归一化参数为255;所述卷积层的参数为:卷积核为1×1,步长为1,滤波器个数为8;
步骤S22中,所述下采样分支的结构由下采样模块和编码模块顺序构成,其中下采样模块由卷积核为5×5,步长为2,深度乘数为2的可分离卷积层和卷积核为3×3,步长为1,滤波器个数为16的卷积层构成;编码模块则包含两个卷积层,两个卷积层的卷积核都为3×3,步长为1;
步骤S23中,所述上采样分支的结构由上采样模块和解码模块顺序构成,上采样模块由卷积核为5×5,步长为2,深度乘数为4的可分离卷积层构成;解码模块则由卷积核为5×5,步长为1的卷积层构成;
步骤S24中,所述分支网络结构由卷积核为3×3,步长为2,滤波器个数为16的卷积层、卷积核为3×3,步长为2,滤波器个数为5的卷积层以及1个采样大小为2×2的上采样层顺序构成。
4.根据权利要求3所述的人体行为识别方法,其特征在于,所述下采样分支的结构由1个下采样模块和6个编码模块顺序构成,6个编码模块中的12个卷积层的滤波器个数对应分别为:16,32,32,48,48,48,48,48,48,48,48,48;
所述上采样分支的结构由7个组合模块顺序构成,每个组合模块由一个上采样模块和一个解码模块顺序构成;7个组合模块中的解码模块的卷积层的滤波器个数分别为48,48,48,48,48,32,16。
5.根据权利要求1所述的人体行为识别方法,其特征在于,所述步骤S3训练深度网络模型包括:
S31:获取待分类动作行为图像训练集,找出各图像中异常行为动作区域,标注异常行为动作区域的四个顶点坐标作为真值标签;
S32:将经标注后的待分类动作行为图像训练集输入到深度网络模型中,经推断得到图像特征图集;
S33:将图像特征图集中的每一图像特征图与对应图像的真值标签进行损失计算,然后对深度网络模型进行损失的反向传播,并更新深度网络模型的参数权重;
重复步骤S33遍历图像特征图集中的各图像特征图,不断更新深度网络模型的参数权重,直至模型稳定。
6.根据权利要求1所述的人体行为识别方法,其特征在于,所述步骤31之前还包括图像预处理步骤,具体为:边缘设备携带的摄像头采集人体异常行为图像,对图像中的人体异常行为区域标注;标注后再对图像进行数据增广及图像灰度化扩充数据量,得到模型训练所需要的图像;所述异常行为至少包括下列中的一种包含玩手机,转头,趴桌子、或抬头。
7.根据权利要求5所述的人体行为识别方法,其特征在于,所述步骤S33具体包括:设置深度网络模型的学习率,根据学习率和损失函数将图像特征图集中的每一图像特征图与对应图像的真值标签进行损失计算,得到损失值,根据损失值对深度网络模型进行损失的反向传播,并更新深度网络模型的参数权重。
8.根据权利要求7所述的人体行为识别方法,其特征在于,步骤S33中,
所述模型的学习率大小为0.0001,模型使用的损失函数为:
Loss=(Lossce+Lossmse)*w (1)
其中Lossce为多分类交叉熵损失,Lossmse为均方差损失,w为根据标签类别个数和标签值计算得到的权重;
Lossce的计算如下:
Lossce=categorical_crossentropy(ytrue,ypred) (2)
其中ytrue是真值标签,ypred是模型预测值,categorical_crossentropy表示多分类交叉熵计算;
Lossmse的计算如下:
Lossmse=mean((ytrue-ypred)2) (3)
其中,mean表示求均值操作;
w的计算如公式(4):
w=(1/n_class)*non_zero_class/k (4)
其中k是真值标签在其长宽维度上的和,
K=sum(ytrue) (5)
n_class是动作类别的种类个数,non_zero_class是数组k的值以0.1为界进行修改后的数组,大于0.1的部位值为1,否则为0:
non_zero_class=k>0.1 (6)。
9.根据权利要求1所述的人体行为识别方法,其特征在于,步骤S4中对获取的图像特征图进行后处理及拼接获得最终的图像特征图,最终的图像特征图进行分析得到动作分类结果和动作区域框结果,具体包括以下步骤:
步骤S41:将待分类的动作行为图像输入深度网络模型进行推断,获得推断后的图像特征图;
步骤S42:对获取的图像特征图进行后处理,具体为:所述图像特征图包括各分支网络对应的通道输出的通道图像特征图,所述一个分支网络的输出每张通道图像特征图对应一种动作行为类型;对不同的通道图像特征图相同位置的每个像素点求最大值,保留最大值的像素点、及该像素点的坐标和该像素点的所属通道,将所有最大值的像素点根据其坐标进行拼接获得最终的图像特征图,在最终的图像特征图中画出包含同一通道像素点对应的方形区域,计算同一通道像素点在该方形区域中的占比,并将所述占比与预设值进行比较;若所述占比大于预设值,则将对应像素点所属通道对应的动作行为类型判断为图像中动作行为类别,对应的方形区域为所述动作行为的检测框区域。
10.一种人体行为识别终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的人体行为识别方法中的各个步骤。
CN202110880546.0A 2021-08-02 2021-08-02 一种人体行为识别方法及终端 Pending CN113609957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110880546.0A CN113609957A (zh) 2021-08-02 2021-08-02 一种人体行为识别方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110880546.0A CN113609957A (zh) 2021-08-02 2021-08-02 一种人体行为识别方法及终端

Publications (1)

Publication Number Publication Date
CN113609957A true CN113609957A (zh) 2021-11-05

Family

ID=78339038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110880546.0A Pending CN113609957A (zh) 2021-08-02 2021-08-02 一种人体行为识别方法及终端

Country Status (1)

Country Link
CN (1) CN113609957A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022960A (zh) * 2022-01-05 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 模型训练和行为识别方法、装置、电子设备以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022960A (zh) * 2022-01-05 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 模型训练和行为识别方法、装置、电子设备以及存储介质
CN114022960B (zh) * 2022-01-05 2022-06-14 阿里巴巴达摩院(杭州)科技有限公司 模型训练和行为识别方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN108510194B (zh) 风控模型训练方法、风险识别方法、装置、设备及介质
CN113196289B (zh) 人体动作识别方法、人体动作识别系统及设备
CN113240580A (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN110210513B (zh) 数据分类方法、装置及终端设备
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN113705769A (zh) 一种神经网络训练方法以及装置
CN111782840A (zh) 图像问答方法、装置、计算机设备和介质
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN112801146A (zh) 一种目标检测方法及系统
CN114821342B (zh) 一种遥感影像道路提取方法及系统
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN111046771A (zh) 用于恢复书写轨迹的网络模型的训练方法
CN114049515A (zh) 图像分类方法、系统、电子设备和存储介质
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN113240120A (zh) 基于温习机制的知识蒸馏方法、装置、计算机设备和介质
CN113674288A (zh) 一种非小细胞肺癌数字病理图像组织自动分割方法
CN116229319A (zh) 多尺度特征融合课堂行为检测方法与系统
CN114550014A (zh) 道路分割方法及计算机装置
CN113609957A (zh) 一种人体行为识别方法及终端
CN116403064B (zh) 图片处理方法、系统、设备及介质
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116912268A (zh) 一种皮肤病变图像分割方法、装置、设备及存储介质
CN116246110A (zh) 基于改进胶囊网络的图像分类方法
CN113343924A (zh) 一种基于多尺度循环谱特征和自注意力生成对抗网络的调制信号识别方法
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination