CN109740454A - 一种基于yolo-v3的人体体态识别方法 - Google Patents

一种基于yolo-v3的人体体态识别方法 Download PDF

Info

Publication number
CN109740454A
CN109740454A CN201811555153.7A CN201811555153A CN109740454A CN 109740454 A CN109740454 A CN 109740454A CN 201811555153 A CN201811555153 A CN 201811555153A CN 109740454 A CN109740454 A CN 109740454A
Authority
CN
China
Prior art keywords
human body
posture
yolo
recognition methods
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811555153.7A
Other languages
English (en)
Inventor
张荣芬
彭燕
孙雨琛
何倩倩
李思瑶
陈辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN201811555153.7A priority Critical patent/CN109740454A/zh
Publication of CN109740454A publication Critical patent/CN109740454A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于YOLO‑V3的人体体态识别方法。按下述步骤进行:a.制作体态数据集;b.体态数据集制作完成后根据需要识别的体态类别修改网络参数并开始模型的训练;c.训练完模型后进行实时视频流的采集并输入模型中进行测试,实现人体体态识别。本发明能够提高了识别的精度和速度,降低了姿态识别算法的复杂度。

Description

一种基于YOLO-V3的人体体态识别方法
技术领域
本发明涉及姿态识别领域,特别是一种基于YOLO-V3的人体体态识别方法。
背景技术
人体体态识别本质上是一个人工智能问题,在智能监控、虚拟现实以及感知用户接口等 领域具有广泛的应用前景,人体体态识别是计算机视觉研究领域中最具挑战的研究方向,是 当前的研究热点。对人体动作姿态进行自动识别将带来一种全新的交互方式,通过身体语言 即人体的姿态和动作来传达用户的意思,如在机场、工厂等喧闹的环境下,采用手势、动作 姿态识别等人机交互技术能够提供比语音识别更加准确的信息输入。总之,在智能监控、虚 拟现实、感知用户接口以及基于内容的视频检索等领域,人体动作姿态的识别均具有广泛的 应用前景。
体态估计的目标是在RGB图像或视频中描绘出人体的形状,这是一种多方面任务,其中 包含了目标检测、姿态估计、分割等等,有些需要在非水平表面进行定位的应用可能也会用 到姿态估计,例如人机交互。同样基于无线传感器的人体体态识别,采用多链路联合识别手 段,能够实现对目标人体的坐标定位以及该位置的人体基本姿态识别,其在识别准确度上具 有一定的局限性,用户需要专门配合人体数据采集设备,具有佩戴数据手套、标记传感器等 设备的麻烦,且用户需要直接和设备接触,具有一定的非简易性。基于传感器所带来的弊端, 相对机器视觉给人们带来了极大的方便,深度学习在图像上的处理技术,促进了人体体态识 别的发展,只要人出现在视频的监控范围内就能识别出姿态,免去穿戴给用户带来的不便。 时域差分法和光流法是常用于提取图像的运动目标的方法,时域差分运动检测方法对于动态 环境具有较强的的自适应性,但不能完全提取出所有相关的特征像素点,容易产生空洞现象。 大多数的光流法计算相当的复杂,且抗噪声性能差,如果没有特别的硬件装置则不能被应用 于全帧的视频流实时处理。
发明内容
本发明的目的在于,提供一种基于YOLO-V3的人体体态识别方法。本发明能够提高了识 别的精度和速度,降低了姿态识别算法的复杂度。
本发明的技术方案:一种基于YOLO-V3的人体体态识别方法,按下述步骤进行:
a.制作体态数据集;
b.体态数据集制作完成后根据需要识别的体态类别修改网络参数并开始模型的训练;
c.训练完模型后进行实时视频流的采集并输入模型中进行测试,实现人体体态识别。
前述的基于YOLO-V3的人体体态识别方法所述的步骤a中,体态数据集的格式为VOC格 式;体态数据集按下述方法制作:按照需要识别的体态采集含有体态特征的图片数据,利用 标签制作工具将图片数据中的体态特征依类别进行标记,进而制得体态数据集。
前述的基于YOLO-V3的人体体态识别方法中,所述的标签制作工具为labelimg标签制 作工具;所述的体态数据集包括图片数据文件夹、存放xml标签文件的文件夹和保存图片路 径的txt文件。
前述的基于YOLO-V3的人体体态识别方法中,所述的模型的训练和人体体态识别是基于 YOLO-V3的darknet框架进行;具体是,首先检测图像中的人体目标,将图片分成S*S个格 子,使用人体Ground truth中心位置坐标落入的格子负责检测该人体,每个格子预测B个 bounding box及置信度以及所属体态的类别概率,其中bounding box的预测采用logistic 的方式:
bx=σ(tx)+cx (1) by=σ(ty)+cy (2)
其中,cx、cy是网格的坐标偏移量;Pw、Ph是预设的anchor box的边长;bx,by,bw,bh为最终得到的边框坐标值;tx,ty,tw,th为网络学习目标;x,y为人体Ground truth的中心位置的坐标;w,h为人体的中心位置相对格子位置偏移的宽度和高度;所述的x,y,w,h均归一化处理。
前述的基于YOLO-V3的人体体态识别方法中,所述的darknet框架的0~74层中,共有 53个卷积层,其余为res层;res层用于解决网络的梯度弥散或者梯度爆炸的现象;darknet 框架中的53个卷积层作为YOLO-V3的特征提取主要网络结构;darknet框架中的53个卷积 层通过各主流网络结构中性能优异的卷积层整合得到。
前述的基于YOLO-V3的人体体态识别方法中,所述的darknet框架的75-105层为YOLO-V3 的特征交互层;所述的特征交互层分为三个尺度,每个尺度内,通过卷积核的方式实现局部 的特征交互,通过卷积核3*3和1*1的方式实现feature map之间的局部特征交互。
前述的基于YOLO-V3的人体体态识别方法中,所述的三个尺度具体如下:
尺度1:在基础网络之后添加一些卷积层再输出box信息;
尺度2:从尺度1中的倒数第二层的卷积层上采样再与最后一个16*16大小的特征图相 加,再次通过多个卷积后输出box信息,相比尺度1变大2倍;
尺度3:使用32*32大小的特征图,在此基础上进行分类和回归。
有益效果
与现有技术相比,本发明基于YOLO-V3结合神经网络层的人体体态识别方法能快速的将 人体的多种体态识别,在对实时的视频流进行处理时达到与人体体态变换同步,达到了检测 精度与速度的提升,检测速度比R-CNN快1000倍,比Fast R-CNN快100倍,YOLOv3-608 检测准确率比DSSD更高,接近FPN(Feature Pyramid Networks),但是检测时间却只用了 后面两者的三分之一不到。且本发明简化了其他姿态识别算法的复杂度,且无需特别的硬件 装置也能用于全帧的视频流实时处理。
综上,本发明旨在提出一种人体体态识别的方法,避免了其他姿态识别算法的复杂度, 利用检测准确率极高的YOLO-V3算法和神经网络在darknet框架上的实现,Darknet-53网络 提取特征加上YOLO-V3的局部特征交互,能够快速有效的达到在视频画面中与人体体态变化 的同步识别以及动作变换的精准对应。在工程实践方面也利用此方法实现了对老人的监护, 实时观察老人的体态变化,当跌倒等危险动作发生时能够得到及时救治,整个工程的实际运 作展现出其方法的有效性。另外,该方法的提出还可以应用于用体态来进行人机交互的各个 领域。
附图说明
图1(a)~(c)是为制作的站、坐、跌倒的体态数据集截图;
图2是Darknet-53的网络框架图;
图3(a)是整个网络训练过程的loss值可视化图;
图3(b)是iou值在不同尺度上的动态变化曲线图;
图4(a)~(h)是人体体态实测效果展示图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例1。一种基于YOLO-V3的人体体态识别方法,参见图1,按下述步骤进行:
a.制作体态数据集;
b.体态数据集制作完成后根据需要识别的体态类别修改网络参数并开始模型的训练;
c.训练完模型后进行实时视频流的采集并输入模型中进行测试,实现人体体态识别。
前述的步骤a中,体态数据集的格式为VOC格式;体态数据集按下述方法制作:按照需 要识别的体态采集含有体态特征的图片数据,利用标签制作工具将图片数据中的体态特征依 类别进行标记,进而制得体态数据集。数据集参见图1。
前述的标签制作工具为labelimg标签制作工具;所述的体态数据集包括图片数据文件 夹、存放xml标签文件的文件夹和保存图片路径的txt文件。
前述的模型的训练和人体体态识别是基于YOLO-V3的darknet框架进行;具体是,首先 检测图像中的人体目标,将图片分成S*S个格子,使用人体Ground truth中心位置坐标落入 的格子负责检测该人体,每个格子预测B个bounding box及置信度以及所属体态的类别概率, 其中bounding box的预测采用logistic的方式:
bx=σ(tx)+cx (1) by=σ(ty)+cy (2)
其中,cx、cy是网格的坐标偏移量;Pw、Ph是预设的anchor box的边长;bx,by,bw,bh为最终得到的边框坐标值;tx,ty,tw,th为网络学习目标;x,y为人体Ground truth的中心位置的坐标;w,h为人体的中心位置相对格子位置偏移的宽度和高度;w,h为人体的中心位置相对格子位置偏移的宽度和高度;所述的x,y,w,h均归一化处理。
前述的darknet框架的0~74层中,共有53个卷积层,其余为res层;res层用于解决网络的梯度弥散或者梯度爆炸的现象;darknet框架中的53个卷积层(Darknet-53)作为YOLO-V3的特征提取主要网络结构;darknet框架中的53个卷积层通过各主流网络结构中性能优异的卷积层整合得到。Darknet-53的网络框架如图2所示,右侧的yolo支路的作用为特征融合和预测。
前述的darknet框架的75-105层为YOLO-V3的特征交互层;所述的特征交互层分为三个 尺度,每个尺度内,通过卷积核的方式实现局部的特征交互,通过卷积核3*3和1*1的方式 实现feature map之间的局部特征交互。
前述的三个尺度具体如下:
尺度1:在基础网络之后添加一些卷积层再输出box信息;
尺度2:从尺度1中的倒数第二层的卷积层上采样再与最后一个16*16大小的特征图相 加,再次通过多个卷积后输出box信息,相比尺度1变大2倍;
尺度3:使用32*32大小的特征图,在此基础上进行分类和回归。
具体地,尺度1:输入13*13的feature map,一共1024个通道,输出13*13大小的feature map,75个通道,在此基础上进行分类和位置回归。
尺度2:将79层的13*13、512通道的feature map进行卷积操作,生成13*13、256通道的feature map,然后进行上采样,生成26*26、256通道的feature map,同时于61层的26*26、512通道的中尺度的feature map合并。再进行一系列卷积操作。输出26*26大小的feature map,75个通道,然后在此进行分类和位置回归。
尺度3:将91层的26*26、256通道的feature map进行卷积操作,生成26*26、128通道的feature map,然后进行上采样生成52*52、128通道的feature map,同时于36层的 52*52、256通道的中尺度的feature map合并。再进行一系列卷积操作,输出52*52大小的feature map,75个通道,然后在此进行分类和位置回归。
图3(a)是整个网络训练过程的loss值可视化图,由于采用的是监督学习的方式,loss 值即为预测值和实际值的偏差,这个值越接近0说明模型的预测能力越好,从曲线的走势可 以看出随着训练次数的增加,loss值不断减少接近0,图3(b)是iou值在不同尺度上的动 态变化曲线图,iou值表达了实际物体框与预测框面积的交际与并集的比值,iou值越接近1 说明预测的准确率越高。
图4(a)~(f)为实际测试的系列结果截图,一共进行了跌倒、坐、走、弯腰、踢腿、拍手、欢呼等体态的测试,实际测试时当人体变换动作能进行同步识别。

Claims (7)

1.一种基于YOLO-V3的人体体态识别方法,其特征在于,按下述步骤进行:
a.制作体态数据集;
b.体态数据集制作完成后根据需要识别的体态类别修改网络参数并开始模型的训练;
c.训练完模型后进行实时视频流的采集并输入模型中进行测试,实现人体体态识别。
2.根据权利要求1所述的基于YOLO-V3的人体体态识别方法,其特征在于,所述的步骤a中,体态数据集的格式为VOC格式;体态数据集按下述方法制作:按照需要识别的体态采集含有体态特征的图片数据,利用标签制作工具将图片数据中的体态特征依类别进行标记,进而制得体态数据集。
3.根据权利要求2所述的基于YOLO-V3的人体体态识别方法,其特征在于,所述的标签制作工具为labelimg标签制作工具;所述的体态数据集包括图片数据文件夹、存放xml标签文件的文件夹和保存图片路径的txt文件。
4.根据权利要求3所述的基于YOLO-V3的人体体态识别方法,其特征在于,所述的模型的训练和人体体态识别是基于YOLO-V3的darknet框架进行;具体是,首先检测图像中的人体目标,将图片分成S*S个格子,使用人体Ground truth中心位置坐标落入的格子负责检测该人体,每个格子预测B个bounding box及置信度以及所属体态的类别概率,其中boundingbox的预测采用logistic的方式:
bx=σ(tx)+cx (1) by=σ(ty)+cy (2)
其中,cx、cy是网格的坐标偏移量;Pw、Ph是预设的anchor box的边长;bx,by,bw,bh为最终得到的边框坐标值;tx,ty,tw,th为网络学习目标;x,y为人体Ground truth的中心位置的坐标;w,h为人体的中心位置相对格子位置偏移的宽度和高度;所述的x,y,w,h均归一化处理。
5.根据权利要求4所述的基于YOLO-V3的人体体态识别方法,其特征在于,所述的darknet框架的0~74层中,共有53个卷积层,其余为res层;res层用于解决网络的梯度弥散或者梯度爆炸的现象;darknet框架中的53个卷积层作为YOLO-V3的特征提取主要网络结构;darknet框架中的53个卷积层通过各主流网络结构中性能优异的卷积层整合得到。
6.根据权利要求5所述的基于YOLO-V3的人体体态识别方法,其特征在于,所述的darknet框架的75-105层为YOLO-V3的特征交互层;所述的特征交互层分为三个尺度,每个尺度内,通过卷积核的方式实现局部的特征交互,通过卷积核3*3和1*1的方式实现featuremap之间的局部特征交互。
7.根据权利要求6所述的基于YOLO-V3的人体体态识别方法,其特征在于,所述的三个尺度具体如下:
尺度1:在基础网络之后添加一些卷积层再输出box信息;
尺度2:从尺度1中的倒数第二层的卷积层上采样再与最后一个16*16大小的特征图相加,再次通过多个卷积后输出box信息,相比尺度1变大2倍;
尺度3:使用32*32大小的特征图,在此基础上进行分类和回归。
CN201811555153.7A 2018-12-19 2018-12-19 一种基于yolo-v3的人体体态识别方法 Pending CN109740454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811555153.7A CN109740454A (zh) 2018-12-19 2018-12-19 一种基于yolo-v3的人体体态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811555153.7A CN109740454A (zh) 2018-12-19 2018-12-19 一种基于yolo-v3的人体体态识别方法

Publications (1)

Publication Number Publication Date
CN109740454A true CN109740454A (zh) 2019-05-10

Family

ID=66360579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811555153.7A Pending CN109740454A (zh) 2018-12-19 2018-12-19 一种基于yolo-v3的人体体态识别方法

Country Status (1)

Country Link
CN (1) CN109740454A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028230A (zh) * 2019-12-24 2020-04-17 贵州大学 一种基于yolo-v3的眼底图像视盘及黄斑定位检测算法
CN111310647A (zh) * 2020-02-12 2020-06-19 北京云住养科技有限公司 自动识别跌倒模型的生成方法和装置
CN111382723A (zh) * 2020-03-30 2020-07-07 北京云住养科技有限公司 求救识别的方法、装置及系统
CN111709310A (zh) * 2020-05-26 2020-09-25 重庆大学 一种基于深度学习的手势跟踪与识别方法
CN111930028A (zh) * 2019-05-13 2020-11-13 青岛海尔洗衣机有限公司 衣物处理设备的门控方法
CN112070031A (zh) * 2020-09-09 2020-12-11 中金育能教育科技集团有限公司 体态检测方法、装置及设备
CN112906535A (zh) * 2021-02-09 2021-06-04 哈尔滨理工大学 一种基于神经网络的适用于多尺度多目标的摔倒检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368182A (zh) * 2016-08-19 2017-11-21 北京市商汤科技开发有限公司 手势检测网络训练、手势检测、手势控制方法及装置
CN108614995A (zh) * 2018-03-27 2018-10-02 深圳市智能机器人研究院 用于yolo网络的手势数据集采集方法、手势识别方法和装置
CN108764148A (zh) * 2018-05-30 2018-11-06 东北大学 基于监控视频的多区域实时动作检测方法
CN108960067A (zh) * 2018-06-05 2018-12-07 北京华纵科技有限公司 基于深度学习的实时的列车驾驶员动作识别系统和方法
CN108985186A (zh) * 2018-06-27 2018-12-11 武汉理工大学 一种基于改进YOLOv2的无人驾驶中行人检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368182A (zh) * 2016-08-19 2017-11-21 北京市商汤科技开发有限公司 手势检测网络训练、手势检测、手势控制方法及装置
CN108614995A (zh) * 2018-03-27 2018-10-02 深圳市智能机器人研究院 用于yolo网络的手势数据集采集方法、手势识别方法和装置
CN108764148A (zh) * 2018-05-30 2018-11-06 东北大学 基于监控视频的多区域实时动作检测方法
CN108960067A (zh) * 2018-06-05 2018-12-07 北京华纵科技有限公司 基于深度学习的实时的列车驾驶员动作识别系统和方法
CN108985186A (zh) * 2018-06-27 2018-12-11 武汉理工大学 一种基于改进YOLOv2的无人驾驶中行人检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JOSEPH REDMON等: "YOLOv3: An Incremental Improvement", 《ARXIV:1804.02767V1 [CS.CV]》 *
SUNNYFISH-TY: "YOLOv3网络结构解析", 《HTTPS://BLOG.CSDN.NET/QQ_33485434/ARTICLE/DETAILS/82697883》 *
ZHENG Y等: "A method of detect traffic police in complex scenes", 《2018 14TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY (CIS)》 *
何倩倩等: "机器视觉中的人体检测算法优化", 《激光与光电子学进展》 *
木盏: "yolo系列之yolo v3【深度解析】", 《HTTPS://BLOG.CSDN.NET/LEVIOPKU/ARTICLE/DETAILS/82660381/》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930028A (zh) * 2019-05-13 2020-11-13 青岛海尔洗衣机有限公司 衣物处理设备的门控方法
CN111028230A (zh) * 2019-12-24 2020-04-17 贵州大学 一种基于yolo-v3的眼底图像视盘及黄斑定位检测算法
CN111310647A (zh) * 2020-02-12 2020-06-19 北京云住养科技有限公司 自动识别跌倒模型的生成方法和装置
CN111382723A (zh) * 2020-03-30 2020-07-07 北京云住养科技有限公司 求救识别的方法、装置及系统
CN111709310A (zh) * 2020-05-26 2020-09-25 重庆大学 一种基于深度学习的手势跟踪与识别方法
CN111709310B (zh) * 2020-05-26 2024-02-02 重庆大学 一种基于深度学习的手势跟踪与识别方法
CN112070031A (zh) * 2020-09-09 2020-12-11 中金育能教育科技集团有限公司 体态检测方法、装置及设备
CN112906535A (zh) * 2021-02-09 2021-06-04 哈尔滨理工大学 一种基于神经网络的适用于多尺度多目标的摔倒检测方法
CN112906535B (zh) * 2021-02-09 2022-03-18 哈尔滨理工大学 一种基于神经网络的适用于多尺度多目标的摔倒检测方法

Similar Documents

Publication Publication Date Title
CN109740454A (zh) 一种基于yolo-v3的人体体态识别方法
CN109934115B (zh) 人脸识别模型的构建方法、人脸识别方法及电子设备
CN103718175B (zh) 检测对象姿势的设备、方法和介质
CN104115192B (zh) 三维近距离交互的改进或与其有关的改进
CN109102547A (zh) 基于物体识别深度学习模型的机器人抓取位姿估计方法
CN108717531B (zh) 基于Faster R-CNN的人体姿态估计方法
CN108256421A (zh) 一种动态手势序列实时识别方法、系统及装置
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110738101A (zh) 行为识别方法、装置及计算机可读存储介质
CN109176512A (zh) 一种体感控制机器人的方法、机器人及控制装置
CN107886069A (zh) 一种多目标人体2d姿态实时检测系统及检测方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN105205453B (zh) 基于深度自编码器的人眼检测和定位方法
CN107145845A (zh) 基于深度学习及多特征点融合的行人检测方法
CN106557173B (zh) 动态手势识别方法及装置
CN105447529A (zh) 一种服饰检测及其属性值识别的方法和系统
CN103324938A (zh) 训练姿态分类器及物体分类器、物体检测的方法及装置
US20160125243A1 (en) Human body part detection system and human body part detection method
CN105740823A (zh) 基于深度卷积神经网络的动态手势轨迹识别方法
CN108564120B (zh) 基于深度神经网络的特征点提取方法
CN108305260A (zh) 一种图像中角点的检测方法、装置及设备
CN109740585A (zh) 一种文本定位方法及装置
CN106874913A (zh) 一种菜品检测方法
CN107301376A (zh) 一种基于深度学习多层刺激的行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190510