CN113405667A - 基于深度学习的红外热人体姿态识别方法 - Google Patents
基于深度学习的红外热人体姿态识别方法 Download PDFInfo
- Publication number
- CN113405667A CN113405667A CN202110552965.1A CN202110552965A CN113405667A CN 113405667 A CN113405667 A CN 113405667A CN 202110552965 A CN202110552965 A CN 202110552965A CN 113405667 A CN113405667 A CN 113405667A
- Authority
- CN
- China
- Prior art keywords
- human body
- body posture
- model
- data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013135 deep learning Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000012795 verification Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 17
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 230000003068 static effect Effects 0.000 claims abstract description 12
- 230000036544 posture Effects 0.000 claims description 89
- 238000012545 processing Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 18
- 230000006399 behavior Effects 0.000 claims description 8
- 230000033001 locomotion Effects 0.000 claims description 8
- 238000013526 transfer learning Methods 0.000 claims description 5
- 230000016776 visual perception Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000004080 punching Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 230000009471 action Effects 0.000 abstract description 8
- 238000001931 thermography Methods 0.000 abstract description 6
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 230000007547 defect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003897 fog Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01J—MEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
- G01J5/00—Radiation pyrometry, e.g. infrared or optical thermometry
- G01J5/0022—Radiation pyrometry, e.g. infrared or optical thermometry for sensing the radiation of moving bodies
- G01J5/0025—Living bodies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01J—MEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
- G01J5/00—Radiation pyrometry, e.g. infrared or optical thermometry
- G01J2005/0077—Imaging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明揭示了一种基于深度学习的红外热人体姿态识别方法,包括如下步骤:S1、搭建红外图像拍摄平台,使用热像仪制作单人或多人红外热人体姿态图像及视频数据集并将其划分为训练集、验证集及测试集,使用图片标注工具完成所有数据集的标签标注工作,再转换数据格式;S2、对单人或多人红热外人体姿态训练集、验证集进行反复训练、验证,最终得到平均精度均值达标的红外热人体姿态识别模型;S3、利用测试集对模型进行测试,可以批量预测静态人体姿态图像与动态人体姿态视频;本发明将红外热成像检测技术、机器视觉与深度学习技术相融合,实现了对于红热外人体姿态单人或多人多种动作的图像及视频识别,识别率与准确率较高且速度快。
Description
技术领域
本发明为红外热人体姿态估计识别方法,具体涉及一种基于深度学习的红外热人体姿态识别方法设计,属于人工智能和机器学习技术领域。
背景技术
随着近年来人工智能领域的飞速发展,模式识别、机器学习、深度学习等相关技术也日益成熟,并且开始被广泛地应用于人们生产生活各个领域、开始逐步影响和改变人类的生产生活方式。
人体姿态能表达非常丰富的含义,人体姿态估计是指还原给定图片或者视频中人体关节点位置的过程,其对于描述人体姿态,预测人体行为起到至关重要的作用。近年来,随着深度学习技术的发展,人体姿态估计越来越广泛地运用到计算机视觉的各个领域之中,例如人机交互、行为识别以及智能监控等等。
随着市场应用需求的凸显,可见光图片身份识别技术已渐渐无法满足日益复杂的应用环境。与可见光图像相比,红外图像对于解决光照变化、阴影和夜间可视性等影响传统计算机视觉的问题提供了有力的支持。基于可见光图像视频的姿态识别系统仅能在光线充足、视物清晰的条件下正常工作,在亮度不佳以及遭遇恶劣天气环境的情况下便失去作用,难以实现系统不间断的用户需求。基于深度学习的红外热成像人体姿态识别系统不仅能排除烟、尘、雾和雨雪等可见度低的恶劣天气干扰,更能实现昼夜连续工作,其在民用及军事领域的应用会越来越广泛,具有重要的研究价值。
综上所述,设计一种在可见光条件下人体姿态识别技术无法满足需求的情况下,具有识别速度快、抗干扰能力强、有优异识别性能等优点的新的人体姿态识别技术,也就成为了本领域内技术人员所期望解决的一项技术问题。
发明内容
鉴于现有可见光条件下的人体姿态识别技术存在上述缺陷,本发明的目的是提出一种基于深度学习的红外热人体姿态识别方法,具体如下。
一种基于深度学习的红外热人体姿态识别方法,包括如下步骤:
S1、数据集建立步骤,基于机器人视觉感知与控制技术国家工程实验室,采用FLIRA6702sc热像仪拍摄单人或多人红外热人体姿态图像及视频数据集并将其按数据量比例8:1:1随机划分为训练集、验证集以及测试集,采用图片标注工具对以上数据集进行标注,得到数据集的标签xml格式文件,再转换为txt格式进而转换为coco数据格式;
S2、模型建立步骤,采用基于darknet53网络的yolov3目标检测模型作为训练网络模型,设置上述网络模型的超参数并采用基于voc2012数据集的yolov3模型权重作为预训练权重进行迁移学习,随后利用所述网络模型对训练集、验证集内的数据进行反复训练与验证,得到基于红外热人体姿态识别的yolov3模型训练权重,将权重导入预测与评估MAP程序,根据预测及评估结果不断调整网络参数,建立基于深度学习pytorch框架的红外热人体姿态识别模型;
S3、模型使用步骤,使用所述yolov3模型对所述红外热人体姿态数据集内的静态图像及动态视频进行处理,最终得到静态识别以及动态识别结果。
优选地,S1所述数据集建立步骤具体包括:
S11、基于机器人视觉感知与控制技术国家工程实验室,采用FLIR A6702sc热像仪拍摄单人或多人红外热人体姿态图像及视频数据集,姿态识别数据集包括单人姿态识别与多人姿态识别,动作种类包括单人动作“行走”、“站立”、“跳跃”、“出拳”、“踢腿”或“捡东西”,多人动作“行走”、“站立”、“挥手”、“握手”、“拥抱”或“击掌”等人体姿态动作。每种行为采集自不同的志愿者和/或不同的角度,包括前、后、左、右,数据集通过动态行为数据集中的视频抽帧或者通过平移或者水平翻转等数据增强方法扩充按以上动作分类,保证每个类别的样本数量基本一致。每个所述红外热人体姿态图像样本采用图片标注工具labelimg进行人工标注标签,将全部样本及其对应标签进行汇总得到数据处理后的红外热人体姿态数据集;
S12、按照数据量划分比例训练集∶验证集∶测试集=8:1:1对所述数据集中的红外热人体姿态图像样本进行随机划分,分别得到训练集、验证集以及测试集三个子数据集,在每个子数据集中每个类别的样本数量基本一致;
S13、利用python中的pytorch框架下的图像预处理模块torchvision对所述训练集内的红外热人体姿态样本进行图像归一化和数据增强处理,对图像样本进行旋转、翻转、色域变换、调整大小等操作以增加所述训练集内的数据量,随后通过voc2yolo3程序将人体姿态图像样本标签打乱并将标签xml文件转化为标准的voc数据格式生成txt文件,再通过voc_annotation.py将上述txt文件转化为coco数据格式,实现对所述训练集、验证集以及测试集的数据处理。
优选地,S2所述模型建立步骤具体包括:
S21、首先使用基于voc2012数据集上训练的yolov3网络模型权重作为模型预训练权重进行特征迁移,设置所述yolov3模型的超参数,通过主干特征提取网络darknet53对输入图像进行特征提取,在特征利用部分一共提取三个特征层,三个特征层进行5次卷积处理,处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积UmSampling2d后与其它特征层进行结合。然后对所述训练集、验证集内的红外热人体姿态数据进行反复训练、验证,得到红外热人体姿态识别yolov3模型;
S22、将经过S21处理后得到的即训练好的网络模型权重进行筛选,选择totalloss与valloss最低的作为该网络模型权重,然后将该权重导入评估程序,即可得到该模型的MAP以及各类别的召回率、准确率和精度,根据以上指标所需要求可相应修改网络参数重新训练直至满足需求;使用tensorflow框架下的TensorBoard可视化工具模块绘制trainloss、valloss曲线,TensorBoard是TensorFlow提供的实用工具。
S23、利用S21所述测试集内的数据包括静态图像和动态视频对所述预训练数据集处理模型进行测试,得到完善的数据集处理模型。
优选地,S21特征提取部分具体包括:yolov3目标检测模型采用Darknet-53作为主干特征提取网络结构,Darknet-53由DarknetConv2D与残差网络Residual模块组成,大量使用残差的跳层连接,进行五次下采样,步长为2,卷积核大小为3,特征维度分别为64、128、256、512与1024,不使用平均池化层与全连接层,每一次卷积的时候进行L2正则化,完成卷积后进行BatchNormalization标准化与LeakyReLU激活函数。
优选地,S21特征利用部分具体包括:所述yolov3目标检测模型特征利用部分提取多特征层进行目标检测,一共提取三个特征层,三个特征层位于主干部分darknet53的不同位置,分别位于中间层,中下层,底层,三个特征层的shape分别为(52,52,256)、(26,26,512)、(13,13,1024)。三个特征层进行5次卷积处理,处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积UmSampling2d后与其它特征层进行结合。
优选地,S2所述超参数至少包括要输入的数据集中图像样本的尺寸、batch大小、学习率大小、迭代次数以及类别数。
优选地,S22具体包括:采用编译函数对所述yolov3目标检测模型模型进行编译处理,预训练权重采取基于VOC2012数据集的yolov3模型权重,损失函数选用交叉熵损失函数、优化器选用Adam损失函数优化器,冻结网络参数训练50个epoch后、在解冻所有参数训练50个epoch。结合优化更新后的所述训练集、验证集内的数据对所述初步数据集处理模型进行反复训练、验证,不断调节网络参数得到效果更好的预训练数据集处理模型。调节网络参数规则主要依据trainloss、valloss曲线,根据曲线趋势以及损失数值适当调节学习率大小、迭代次数与batch大小。
优选地,S23具体包括:利用所述测试集内的数据对所述yolov3目标检测模型进行测试,使用tensorflow框架下的TensorBoard可视化工具模块绘制trainloss、valloss曲线,通过绘制MAP程序对测试集数据进行测试得到人体姿态各类别的精度AP值,准确率值、召回率值以及平均精度MAP值,最终得到完善的数据集处理模型。
优选地,S3具体包括:通过调用predicit.py程序可以对指定文件夹内的所有图像进行红外热人体姿态识别,输出图像的路径、所属类别、概率以及目标检测结果图像。通过调用yolo_video.py程序可以对人任意格式avi/mp4视频首先以指定帧数进行抽帧图像处理,然后将上述图像导入训练好的yolo预测程序并输出画框贴标图像,最终将以上输出图像以相同帧率自动合成视频即完成识别视频。
本发明的优点主要体现在以下几个方面:
本发明所提出的一种基于深度学习的红外热人体姿态识别方法,通过将机器视觉与深度学习技术相融合的手段,实现了对于基于红外热图像的条件下人体姿态估计,极大程度的弥补了现有的可见光图像识别技术的缺陷。本发明的方法不仅显著地提升了黑暗环境或者恶劣天气条件下的识别率与准确率,而且基于热成像深度学习的方法可以适应黑暗环境等复杂应用场景,具有实际应用前景。
此外,本发明的方法也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸和深入研究,将类似的思路和操作应用于其他的操作平台,应用于民用及军事领域的应用中,具有十分广阔的应用前景和很高的实际应用价值。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明方法的整体流程示意图;
图2为本发明方法的红外热成像人体姿态数据集示意图;
图3为本发明方法的红外热成像人体姿态数据集标注工具示意图;
图4为本发明在训练数据集时训练集trainloss曲线图;
图5为本发明在训练数据集时验证集valloss曲线图;
图6为本发明在测试数据集时测试集各种姿态的平均准确率Precision及平均精度MAP图;
图7~16为本发明在测试数据集时测试集各种姿态的识别结果图;
具体实施方式
本发明揭示了一种基于深度学习的红外热人体姿态识别方法,方案细节如下。
如图1所示,一种基于深度学习的红外热人体姿态识别方法,包括如下步骤:
S1、数据集建立步骤,基于机器人视觉感知与控制技术国家工程实验室,采用FLIRA6702sc热像仪拍摄单人或多人红外热人体姿态图像及视频数据集并将其按数据量比例8:1:1划分为训练集、验证集以及测试集,当统一拍摄的所有图片的分辨率都是一样大小,按图片的数目划分即可,采用图片标注工具对以上数据集进行标注,得到数据集的标签xml格式文件,再转换为txt格式进而转换为coco数据格式;
S2、模型建立步骤,采用基于darknet53网络的yolov3目标检测模型作为训练网络模型,设置上述网络模型的超参数并采用基于voc2012数据集的yolov3模型权重作为预训练权重进行迁移学习,随后利用所述网络模型对训练集、验证集内的数据进行反复训练与验证,得到基于红外热人体姿态识别的yolov3模型训练权重,将权重导入预测与评估程序,即S23中描述的MAP程序,根据预测及评估结果不断调整网络参数,建立基于深度学习pytorch框架的红外热人体姿态识别模型;
S3、模型使用步骤,使用所述yolov3模型对所述红外热人体姿态数据集内的静态图像及动态视频进行处理,最终得到静态识别以及动态识别结果。
S1所述数据集建立步骤具体包括:
S11、基于机器人视觉感知与控制技术国家工程实验室,采用FLIR A6702sc热像仪拍摄单人或多人红外热人体姿态图像及视频数据集,姿态识别数据集包括单人姿态识别与多人姿态识别,动作种类包括单人动作“行走”、“站立”、“跳跃”、“出拳”、“踢腿”、“捡东西”,多人动作“行走”、“站立”、“挥手”、“握手”、“拥抱”、“击掌”等人体姿态动作。每种行为采集自不同的志愿者和/或不同的角度,包括前、后、左、右,数据集通过动态行为数据集中的视频抽帧或者通过平移或者水平翻转等数据增强方法扩充按以上动作分类,保证每个类别的样本数量基本一致。每个所述红外热人体姿态图像样本采用图片标注工具labelimg进行人工标注标签,将全部样本及其对应标签进行汇总得到数据处理后的红外热人体姿态数据集;
S12、按照划分比例训练集∶验证集∶测试集=8:1:1对所述数据集中的红外热人体姿态图像样本进行随机划分,分别得到训练集、验证集以及测试集三个子数据集,在每个子数据集中每个类别的样本数量基本一致。训练集:验证集:测试集=8:1:1,在训练集,验证集,测试集三个子数据集里每种姿态的图像数目也要基本保持一致。例如假设训练集1000照片,共十种姿态,即优选情况下每种姿态一百张即可;
在本发明的实施例中训练数据人体姿态种类为“行走”、“站立”、“跳跃”、“出拳”、“踢腿”、“捡东西”、“挥手”、“握手”、“拥抱”、“击掌”的红外热成像人体姿态样本,每类采集300个,共300*10=3000个,并将每一类的样本按照比例8:1:1随机划分成训练集(2400个)、验证集(300个)和测试集(300个)。同时通过图片标注工具labelimg标注工具分别对数据集进行标签的标注。
S13、利用python中的pytorch框架下的图像预处理模块torchvision对所述训练集内的红外热人体姿态样本进行图像归一化和数据增强处理,对图像样本进行旋转、翻转、色域变换、调整大小等操作以增加所述训练集内的数据量,随后通过voc2yolo3程序将人体姿态图像样本标签打乱并将标签xml文件转化为标准的voc数据格式生成txt文件,再通过voc_annotation.py将上述txt文件转化为coco数据格式,实现对所述训练集、验证集以及测试集的数据处理。
S2所述模型建立步骤具体包括:
S21、首先使用基于voc2012数据集上训练的yolov3网络模型权重作为模型预训练权重进行特征迁移学习,设置所述yolov3模型的超参数,通过主干特征提取网络darknet53对输入图像进行特征提取,在特征利用部分一共提取三个特征层,三个特征层进行5次卷积处理,处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积UmSampling2d后与其它特征层进行结合。然后对所述训练集、验证集内的红外热人体姿态数据进行反复训练、验证,得到红外热人体姿态识别yolov3模型;
上述操作可以具体为,所述yolov3目标检测模型采用Darknet-53作为主干特征提取网络结构,Darknet-53由DarknetConv2D与残差网络Residual模块组成,darknet53中的残差卷积就是进行一次3*3、步长为2的卷积,然后保存该卷积layer,再进行一次1*1的卷积和一次3*3的卷积,并把这个结果加上layer作为最后的结果。然后大量使用残差的跳层连接,进行五次下采样,步长为2,卷积核大小为3,特征维度分别为64、128、256、512与1024,不使用平均池化层与全连接层,每一次卷积的时候进行L2正则化,完成卷积后进行BatchNormalization标准化与LeakyReLU激活函数。ReLU是将所有的负值都设为零,相反,LeakyReLU是给所有负值赋予一个非零斜率。Leaky ReLU激活函数以数学的方式我们可以表示为如下公式:
所述yolov3目标检测模型特征利用部分提取多特征层进行目标检测,一共提取三个特征层,三个特征层位于主干部分darknet53的不同位置,分别位于中间层,中下层,底层,三个特征层的shape分别为(52,52,256)、(26,26,512)、(13,13,1024)。三个特征层进行5次卷积处理,处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积UmSampling2d后与其它特征层进行结合。
所述超参数至少包括要输入的数据集中图像样本的尺寸(input_shape)、batch大小(batch_size)、迭代次数(epochs)、学习率(lr)以及类别数(num_classes)。在本发明的实施例中,设置要输入的数据集中图像样本的尺寸input_shape=416*416*3;设定batch大小Freeze-batch_size=8,UnFreeze-batch_size=4;通常为2^N,如32、64、128...;设定类别数num_classes=10;设定迭代次数Freeze_epochs=50,UnFreeze_epochs=100;设定学习率Freeze_lr=1e-3,UnFreeze_lr=1e-4。
所述迁移学习是指一种机器学习方法,就是把针对数据A训练的模型作为初始点,用于针对数据B的模型的开发和设计过程中。本发明对VOC2012数据集上预训练的yolov3模型进行迁移学习。
S22、将经过S21处理后得到的即训练好的网络模型权重进行筛选,选择totalloss与valloss最低的作为该网络模型权重,然后将该权重导入评估程序,即可得到该模型的MAP以及各类别的召回率、准确率和精度,根据以上指标所需要求可相应修改网络参数重新训练直至满足需求;使用tensorflow框架下的TensorBoard可视化工具模块绘制trainloss、valloss曲线。
上述操作可以具体为,采用编译函数对所述yolov3目标检测模型模型进行编译处理,预训练权重采取基于VOC2012数据集的yolov3模型权重,损失函数选用交叉熵损失函数、优化器选用Adam损失函数优化器,冻结网络参数训练50个epoch后、在解冻所有参数训练50个epoch。结合优化更新后的所述训练集、验证集内的数据对所述初步数据集处理模型进行反复训练、验证,得到预训练数据集处理模型。
所述交叉熵损失函数是一个平滑函数,其本质是信息理论中的交叉熵在分类问题中的应用,其公式为
Adam损失函数优化器是一种计算能每个参数的自适应学习率的优化方法。即存储了过去梯度的平方vt的指数衰减平均值,又保持了过去梯度mt的指数衰减平均值:
其中,mt为指数移动均值,vt为平方梯度,gt为时间步序列上梯度
如果mt和vt被初始化为0向量,那它们就会向0偏置,所以做了偏差校正,通过计算偏差校正后的mt和vt来抵消这些偏差:
梯度更新规则为:
超参数设定值为:
β1=0.9,β2=0.999,ε=10e-8。
S23、利用S21所述测试集内的数据包括静态图像和动态视频对所述预训练数据集处理模型进行测试,得到完善的数据集处理模型。
上述操作可以具体为,利用所述测试集内的数据对所述yolov3目标检测模型进行测试,使用tensorflow框架下的TensorBoard可视化工具模块绘制trainloss、valloss曲线,通过绘制预测与评估程序MAP程序对测试集数据进行测试得到人体姿态各类别的精度AP值,准确率值、召回率值以及平均精度MAP值,最终得到完善的数据集处理模型。
S3、模型使用步骤,使用所述yolov3模型对所述红外热人体姿态数据集内的静态图像及动态视频进行处理,最终得到静态识别以及动态识别结果。
上述操作可以具体为,通过调用predicit.py程序可以对指定文件夹内的所有图像进行红外热人体姿态识别,输出图像的路径、所属类别、概率以及目标检测结果图像。通过调用yolo_video.py程序可以对人任意格式avi/mp4视频首先以指定帧数进行抽帧图像处理,然后将上述图像导入训练好的yolo预测程序并输出画框贴标图像,最终将以上输出图像以相同帧率自动合成视频即完成识别视频。
本发明所提出的一种基于深度学习的红外热人体姿态识别方法,通过将机器视觉与深度学习技术相融合的手段,实现了对于基于红外热图像的条件下人体姿态估计,极大程度的弥补了现有的可见光图像识别技术的缺陷。本发明的方法不仅显著地提升了黑暗环境或者恶劣天气条件下的识别率与准确率,而且基于热成像深度学习的方法可以适应黑暗环境等复杂应用场景,具有实际应用前景。
具体而言,本发明的方法以基于VOC2012数据集的预训练的yolov3网络作为基础网络,通过pytorch平台实现算法流程。
通过评估本发明的方法在处理不同类型的图像数据集时的实际表现可以得知,本发明的方法在不同数据集上均具有较好的泛化性能,在单人图像、多人图像以及单多人混合图像上的平均精度MAP分别达到了90.64%、84.01%、87.48%。可以说,本发明的方法为可见光条件下的人体姿态识别在黑暗环境或者恶劣天气条件下存在的缺陷提供了强有力的技术支持。
此外,本发明的方法也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸和深入研究,将类似的思路和操作应用于其他的操作平台,应用于民用及军事领域的应用中,具有十分广阔的应用前景和很高的实际应用价值。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
最后,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (9)
1.一种基于深度学习的红外热人体姿态识别方法,其特征在于,包括如下步骤:
S1、数据集建立步骤,搭建红外图像拍摄平台,使用热像仪拍摄单人或多人红外热人体姿态图像及视频数据集并将其按数据量比例划分为训练集、验证集以及测试集,采用图片标注工具对以上数据集进行标注,得到数据集的标签xml格式文件,再转换为txt格式进而转换为coco数据格式;
S2、模型建立步骤,采用基于darknet53网络的yolov3目标检测模型作为训练网络模型,设置上述网络模型的超参数并采用基于voc2012数据集的yolov3模型权重作为预训练权重进行迁移学习,随后利用所述网络模型对训练集、验证集内的数据进行反复训练与验证,得到基于红外热人体姿态识别的yolov3模型训练权重,将权重导入预测与评估程序,根据预测及评估结果不断调整网络参数,建立基于深度学习pytorch框架的红外热人体姿态识别模型;
S3、模型使用步骤,使用所述yolov3模型对所述红外热人体姿态数据集内的静态图像及动态视频进行处理,最终得到静态识别以及动态识别结果。
2.根据权利要求1所述的基于深度学习的红外热人体姿态识别方法,其特征在于,S1所述数据集建立步骤具体包括:
S11、基于机器人视觉感知与控制技术国家工程实验室,采用FLIR A6702sc热像仪拍摄单人或多人红外热人体姿态图像及视频数据集,红外热人体姿态图像及视频数据集包括单人姿态识别与多人姿态识别,动作种类包括单人动作“行走”、“站立”、“跳跃”、“出拳”、“踢腿”或“捡东西”,包括多人动作“行走”、“站立”、“挥手”、“握手”、“拥抱”或“击掌”,每种姿态动作行为采集自不同的志愿者和/或不同的角度,数据集通过动态行为数据集中的数据增强方法扩充按以上动作分类,保证每个类别的样本数量基本一致,每个所述红外热人体姿态图像样本采用图片标注工具labelimg进行人工标注标签,将全部样本及其对应标签进行汇总得到数据处理后的红外热人体姿态数据集;
S12、按照数据量划分比例8:1:1对所述数据集中的红外热人体姿态图像样本进行随机划分,分别得到训练集、验证集以及测试集三个子数据集,在每个子数据集中每种姿态类别的样本数量基本一致;
S13、利用python中的pytorch框架下的图像预处理模块torchvision对所述训练集内的红外热人体姿态样本进行图像归一化和数据增强处理,对图像样本进行旋转、翻转、色域变换、调整大小等操作以增加所述训练集内的数据量,随后通过voc2yolo3程序将人体姿态图像样本标签打乱并将标签xml文件转化为标准的voc数据格式生成txt文件,再通过voc_annotation.py将上述txt文件转化为coco数据格式,实现对所述训练集、验证集以及测试集的数据处理。
3.根据权利要求2所述的基于深度学习的红外热人体姿态识别方法,其特征在于,S2所述模型建立步骤具体包括:
S21、首先使用基于voc2012数据集上训练的yolov3网络模型权重作为模型预训练权重进行特征迁移,设置所述yolov3模型的超参数,通过主干特征提取网络darknet53对输入图像进行特征提取,一共提取三个特征层,三个特征层进行5次卷积处理,处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积UmSampling2d后与其它特征层进行结合。然后对所述训练集、验证集内的红外热人体姿态数据进行反复训练、验证,得到红外热人体姿态识别yolov3模型;
S22、将经过S21处理后得到的即训练好的网络模型权重进行筛选,选择totalloss与valloss最低的作为该网络模型权重,然后将该权重导入评估程序,即可得到该模型的MAP以及各类别的召回率、准确率和精度,根据以上指标所需要求可相应修改网络参数重新训练直至满足需求;使用tensorflow框架下的TensorBoard可视化工具绘制trainloss、valloss曲线;
S23、利用所述测试集内的数据包括静态图像和动态视频对所述预训练数据集处理模型进行测试,得到完善的数据集处理模型。
4.根据权利要求2所述的基于深度学习的红外热人体姿态识别方法,其特征在于,S21特征提取部分具体包括:yolov3目标检测模型采用Darknet-53作为主干特征提取网络结构,Darknet-53由DarknetConv2D与残差网络Residual模块组成,大量使用残差的跳层连接,进行五次下采样,步长为2,卷积核大小为3,特征维度分别为64、128、256、512与1024,不使用平均池化层与全连接层,每一次卷积的时候进行L2正则化,完成卷积后进行BatchNormalization标准化与LeakyReLU激活函数。
5.根据权利要求2所述的基于深度学习的红外热人体姿态识别方法,其特征在于,S21特征利用部分具体包括:yolov3目标检测模型特征利用部分提取多特征层进行目标检测,一共提取三个特征层,三个特征层位于主干部分darknet53的不同位置,分别位于中间层,中下层,底层,三个特征层的shape分别为(52,52,256)、(26,26,512)、(13,13,1024),三个特征层进行5次卷积处理,处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积UmSampling2d后与其它特征层进行结合。
6.根据权利要求2所述的基于深度学习的红外热人体姿态识别方法,其特征在于:所述超参数至少包括要输入的数据集中图像样本的尺寸、batch大小、学习率大小、迭代次数以及类别数。
7.根据权利要求2所述的基于深度学习的红外热人体姿态识别方法,其特征在于,S22具体包括:采用编译函数对所述yolov3目标检测模型模型进行编译处理,预训练权重采取基于VOC2012数据集的yolov3模型权重,损失函数选用交叉熵损失函数、优化器选用Adam损失函数优化器,冻结网络参数训练50个epoch后、在解冻所有参数训练50个epoch,结合优化更新后的所述训练集、验证集内的数据对所述初步数据集处理模型进行反复训练、验证,得到预训练数据集处理模型。
8.根据权利要求2所述的基于深度学习的红外热人体姿态识别方法,其特征在于,S23具体包括:利用所述测试集内的数据对所述yolov3目标检测模型进行测试,使用tensorflow框架下的tensorboard可视化工具模块绘制trainloss、valloss曲线,通过绘制MAP程序对测试集数据进行测试得到人体姿态各类别的精度AP值,准确率值、召回率值以及平均精度MAP值,最终得到完善的数据集处理模型。
9.根据权利要求3所述的基于深度学习的红外热人体姿态识别方法,其特征在于:通过调用predicit.py程序可以对指定文件夹内的所有图像进行红外热人体姿态识别,输出图像的路径、所属类别、概率以及目标检测结果图像,通过调用yolo_video.py程序可以对人任意格式avi/mp4视频首先以指定帧数进行抽帧图像处理,然后将上述图像导入训练好的yolo预测程序并输出画框贴标图像,最终将以上输出图像以相同帧率自动合成视频即完成识别视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110552965.1A CN113405667A (zh) | 2021-05-20 | 2021-05-20 | 基于深度学习的红外热人体姿态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110552965.1A CN113405667A (zh) | 2021-05-20 | 2021-05-20 | 基于深度学习的红外热人体姿态识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113405667A true CN113405667A (zh) | 2021-09-17 |
Family
ID=77679055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110552965.1A Pending CN113405667A (zh) | 2021-05-20 | 2021-05-20 | 基于深度学习的红外热人体姿态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113405667A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880271A (zh) * | 2022-12-29 | 2023-03-31 | 保定景欣电气有限公司 | 一种晶体生长过程中籽晶单晶线棱角的识别检测方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033015A (zh) * | 2019-02-20 | 2019-07-19 | 天津科技大学 | 一种基于残差网络的植物病害检测方法 |
CN110276274A (zh) * | 2019-05-31 | 2019-09-24 | 东南大学 | 一种多任务的深度特征空间姿态人脸识别方法 |
CN111666986A (zh) * | 2020-05-22 | 2020-09-15 | 南京邮电大学 | 基于机器学习的小龙虾分级方法 |
CN111898736A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于属性感知的高效行人重识别方法 |
CN112131927A (zh) * | 2020-08-03 | 2020-12-25 | 南京农业大学 | 基于妊娠后期姿态转化特性的母猪分娩时间预测系统 |
CN112184692A (zh) * | 2020-10-13 | 2021-01-05 | 辽宁工程技术大学 | 一种输电线路多目标检测方法 |
CN112330682A (zh) * | 2020-11-09 | 2021-02-05 | 重庆邮电大学 | 一种基于深度卷积神经网络的工业ct图像分割方法 |
CN112381787A (zh) * | 2020-11-12 | 2021-02-19 | 福州大学 | 一种基于迁移学习的钢板表面缺陷的分类方法 |
CN112434646A (zh) * | 2020-12-08 | 2021-03-02 | 浙江大学 | 基于迁移学习和计算机视觉技术的成品茶质量鉴别方法 |
CN112488165A (zh) * | 2020-11-18 | 2021-03-12 | 杭州电子科技大学 | 一种基于深度学习模型的红外行人识别方法及系统 |
CN112507961A (zh) * | 2020-12-22 | 2021-03-16 | 上海科技大学 | 一种基于深度学习算法的小鼠运动状态分析方法 |
CN112631301A (zh) * | 2020-12-25 | 2021-04-09 | 东北林业大学 | 基于stm32的远程控制森林灭火车 |
-
2021
- 2021-05-20 CN CN202110552965.1A patent/CN113405667A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033015A (zh) * | 2019-02-20 | 2019-07-19 | 天津科技大学 | 一种基于残差网络的植物病害检测方法 |
CN110276274A (zh) * | 2019-05-31 | 2019-09-24 | 东南大学 | 一种多任务的深度特征空间姿态人脸识别方法 |
CN111666986A (zh) * | 2020-05-22 | 2020-09-15 | 南京邮电大学 | 基于机器学习的小龙虾分级方法 |
CN111898736A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于属性感知的高效行人重识别方法 |
CN112131927A (zh) * | 2020-08-03 | 2020-12-25 | 南京农业大学 | 基于妊娠后期姿态转化特性的母猪分娩时间预测系统 |
CN112184692A (zh) * | 2020-10-13 | 2021-01-05 | 辽宁工程技术大学 | 一种输电线路多目标检测方法 |
CN112330682A (zh) * | 2020-11-09 | 2021-02-05 | 重庆邮电大学 | 一种基于深度卷积神经网络的工业ct图像分割方法 |
CN112381787A (zh) * | 2020-11-12 | 2021-02-19 | 福州大学 | 一种基于迁移学习的钢板表面缺陷的分类方法 |
CN112488165A (zh) * | 2020-11-18 | 2021-03-12 | 杭州电子科技大学 | 一种基于深度学习模型的红外行人识别方法及系统 |
CN112434646A (zh) * | 2020-12-08 | 2021-03-02 | 浙江大学 | 基于迁移学习和计算机视觉技术的成品茶质量鉴别方法 |
CN112507961A (zh) * | 2020-12-22 | 2021-03-16 | 上海科技大学 | 一种基于深度学习算法的小鼠运动状态分析方法 |
CN112631301A (zh) * | 2020-12-25 | 2021-04-09 | 东北林业大学 | 基于stm32的远程控制森林灭火车 |
Non-Patent Citations (1)
Title |
---|
徐萌: ""基于及其视觉的水下海参图像识别技术研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 农业科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880271A (zh) * | 2022-12-29 | 2023-03-31 | 保定景欣电气有限公司 | 一种晶体生长过程中籽晶单晶线棱角的识别检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
CN109816725A (zh) | 一种基于深度学习的单目相机物体位姿估计方法及装置 | |
CN109670405B (zh) | 一种基于深度学习的复杂背景行人检测方法 | |
CN108764308A (zh) | 一种基于卷积循环网络的行人重识别方法 | |
CN109241982A (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
CN110728698B (zh) | 一种基于复合循环神经网络系统的多目标跟踪系统 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN109508675A (zh) | 一种针对复杂场景的行人检测方法 | |
CN108830130A (zh) | 一种偏振高光谱低空侦察图像典型目标检测方法 | |
CN113610144A (zh) | 一种基于多分支局部注意力网络的车辆分类方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN115457006B (zh) | 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置 | |
CN112949452A (zh) | 一种基于多任务共享网络的机器人弱光环境抓取检测方法 | |
CN113255602A (zh) | 基于多模态数据的动态手势识别方法 | |
CN112464844A (zh) | 一种基于深度学习与运动目标检测的人体行为动作识别方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN103218829B (zh) | 一种适应于动态背景的前景提取方法 | |
CN114818931A (zh) | 一种基于小样本元学习的水果图像分类方法 | |
Wang et al. | A deep learning-based experiment on forest wildfire detection in machine vision course | |
Liu et al. | TransCloudSeg: Ground-based cloud image segmentation with transformer | |
CN114170446A (zh) | 一种基于深层融合神经网络的温度、亮度特征提取方法 | |
CN113405667A (zh) | 基于深度学习的红外热人体姿态识别方法 | |
CN111046861B (zh) | 识别红外影像的方法、构建识别模型的方法及应用 | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
Tian et al. | Depth inference with convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |