CN115170911A - 一种基于图像识别的人体关键部位定位系统及方法 - Google Patents
一种基于图像识别的人体关键部位定位系统及方法 Download PDFInfo
- Publication number
- CN115170911A CN115170911A CN202211081288.0A CN202211081288A CN115170911A CN 115170911 A CN115170911 A CN 115170911A CN 202211081288 A CN202211081288 A CN 202211081288A CN 115170911 A CN115170911 A CN 115170911A
- Authority
- CN
- China
- Prior art keywords
- human body
- layer
- distortion
- image
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000003062 neural network model Methods 0.000 claims abstract description 35
- 230000008030 elimination Effects 0.000 claims abstract description 30
- 238000003379 elimination reaction Methods 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 210000001015 abdomen Anatomy 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 210000001699 lower leg Anatomy 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 210000000689 upper leg Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像识别定位技术领域,涉及一种基于图像识别的人体关键部位定位系统及方法。方法包括:S1采集训练人体图像样本;S2对训练人体图像样本按照人体部位进行划分,并进行数据标定、归一化处理;S3神经网络模型基于归一化训练人体图像样本数据进行训练;S4输入归一化真实人体图像样本数据至训练后神经网络模型,以得到描述目标位置信息的先验框,并基于先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;S5对人体各部位的位置坐标进行畸变消除;S6基于畸变消除后位置坐标,控制指向机构指向人体相应部位。本发明给出了模型训练的方式,考虑了镜头畸变影响,可保证定位精度。
Description
技术领域
本发明属于图像识别定位技术领域,具体涉及一种基于图像识别的人体关键部位定位系统及方法。
背景技术
近些年来,随着机器人技术的不断发展,机械臂越来越高频地出现在社会生活和公众视线中。作为一种机械化、多关节的手臂,它是机器人中最常见却并非唯一的形态,机械臂可被应用于多种工作场景如:流水线装配、教育学习以及远程医疗等。
人体关键部位定位技术指通过图像处理手段实现对人体大致部位的准确定位,该技术可用于完善机械臂的视觉系统,并为相关工作人员在远程医疗以及机器人教育等场景下的操作提供一定的便利,可节省预定位的时间,提高工作效率。
例如申请号为CN201811079870.7的中国专利,公开了一种按摩部位识别、定位、按摩方法及装置、设备,具体为获取按摩对象的图像和按摩部位识别参数信息,所述按摩部位识别参数信息为力参数和/或按摩对象的声音参数;根据所述图像和所述按摩部位识别参数信息,基于预先经过训练的第二模型,生成第一指令,通过所述第一指令调整所述按摩执行器的位姿,使得所述按摩执行器定位在所述按摩部位处;其中,所述第二模型包括依序排列的第一部分和第二部分;所述根据所述图像和所述按摩部位识别参数信息,基于预先经过训练的第二模型,生成第一指令包括:将所述图像输入所述第一部分,得到向量;将所述向量与所述按摩部位识别参数一起输入所述第二部分,以生成所述第一指令;所述第一指令为位姿向量。该专利可基于预先经过训练的第二模型,生成第一指令,通过所述第一指令调整所述按摩执行器的位姿,使得所述按摩执行器定位在所述按摩部位处。但其并未给出模型的训练方式、模型的结构,并且也未考虑如何提升定位装置的定位精度。
发明内容
针对现有技术中存在的上述问题,本发明提供一种基于图像识别的人体关键部位定位系统及方法,给出了模型训练的方式、模型具体结构,可基于训练后的神经网络模型,对采集得到的人体图像中的关键部位进行定位,并得到各部位的位置坐标,还可避免采集图像用的镜头的自身畸变对位置坐标定位精度造成的影响。
本发明采用以下技术方案:
一种基于图像识别的人体关键部位定位系统,包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块;
图像数据采集模块,用于采集训练人体图像样本、真实人体图像样本;
数据预处理模块,用于对训练人体图像样本、真实人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据、归一化真实人体图像样本数据;
神经网络模型,基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
训练后神经网络模型,基于输入的归一化真实人体图像样本数据,得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
畸变消除模块,基于图像数据采集模块中镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
指向模块,基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
作为优选方案,所述畸变消除公式具体为:
作为优选方案,系统还包括分别与畸变消除模块、指向模块连接的坐标转换模块;
坐标转换模块,用于将畸变消除后的人体各部位的位置坐标由像素坐标系转换至世界坐标系。
作为优选方案,世界坐标系和像素坐标系变换的计算公式具体为:
其中,为畸变消除后的人体各部位的像素位置坐标,,分别表示每
个像素单元实际的长度和宽度,为从图像坐标系中心点到像素坐标系中心点的一
个偏移量,表示相机的焦距,和分别为世界坐标系和相机坐标系变换的旋转矩阵和平
移向量,和分别为像素坐标系下轴和轴的归一化焦距,为相应点位在世界坐标系下的坐标,为相应点位在相机坐标系下Z轴上
的坐标;
其中,相机坐标系以相机光心为原点,图像坐标系以所述光心在像平面的投影为原点,像素坐标系以图像平面的左上角为原点。
作为优选方案,所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层、第二预测层,骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接,第一脖颈网络层与第一预测层联接,第二脖颈网络层与第二预测层联接。
作为优选方案,所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层,所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到,所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到,DBL层均由卷积层、BN层、Leaky relu函数层串联得到。
作为优选方案,第一MDBL层与拼接层联接,第二DBL层通过串联的第五DBL层、上采样层与拼接层联接,拼接层通过第二脖颈网络层与第二预测层联接。
作为优选方案,所述神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。
作为优选方案,所述目标预测框为:
其中,、是目标检测阶段所划分检测网格的坐标偏移量,、是预设定边
框的边长,、为预测中心点在特征图中的坐标信息,、为目标预测框的宽、高,
表示输入数据经Sigmoid函数处理进行输出,为网络学习目标,由下式求
得:
还公开一种基于图像识别的人体关键部位定位方法,基于上述的定位系统,包括步骤:
S1、采集训练人体图像样本;
S2、对训练人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据;
S3、神经网络模型基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
S4、输入归一化真实人体图像样本数据至训练后神经网络模型,以得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
S5、基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
S6、基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
本发明的有益效果是:
给出了模型训练的方式、模型具体结构,可基于训练后的神经网络模型,对采集得到的人体图像中的关键部位进行定位,并得到各部位的位置坐标。
考虑采集用镜头的径向、切向畸变,基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标。
可将畸变消除后的人体各部位的位置坐标由像素坐标系转换至世界坐标系。
神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。
基于上述,可保证图像中人体各部位坐标的定位精度,进而为相关工作人员在远程医疗以及机器人教育等场景下的操作提供一定的便利,可节省预定位的时间,提高工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述一种基于图像识别的人体关键部位定位系统的结构示意图;
图2是本发明所述神经网络模型结构的示意图;
图3是本发明所述基于先验框、目标预测框定位的示意图;
图4是定位相机投影变换模型的示意图;
图5是本发明所述一种基于图像识别的人体关键部位定位方法的流程图。
具体实施方式
以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
实施例一:
参照图1所示,本实施例提供一种基于图像识别的人体关键部位定位系统,包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块;
图像数据采集模块,用于采集训练人体图像样本、真实人体图像样本,本实施例中所述图像数据采集模块采用定位相机,所述定位相机于正下视角固定安装,安装于室内环境,定位相机距离安置病人人体的床位应保持在1.5m-2m区间范围内;
数据预处理模块,用于对训练人体图像样本、真实人体图像样本按照人体部位进行划分,具体包括头部、颈部、胸部、腹部、大腿、小腿六个部位,并进行数据标定,并进行数据强化,采用的数据强化策略重心放在模拟不同场景下的光照对相机成像所带来的变化,。重点在于对样本数据的色调、饱和度和明度进行调节,对进行数据标定后的人体图像样本数据进行归一化处理,均归一为416*416*3尺寸,以得到归一化训练人体图像样本数据、归一化真实人体图像样本数据;
神经网络模型,基于归一化训练人体图像样本数据进行训练,得到网络权重数据weight文件,以得到训练后神经网络模型;
训练后神经网络模型,基于输入的归一化真实人体图像样本数据,得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
畸变消除模块,基于图像数据采集模块中镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
指向模块,基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
本发明给出了定位模型训练的方式、模型具体结构,可基于训练后的神经网络模型,对采集得到的人体图像中的关键部位进行定位,并得到各部位的位置坐标,还可避免采集图像用的镜头的自身畸变对位置坐标定位精度造成的影响。
具体地:
上述数据预处理模块、神经网络模型、畸变消除模块、指向模块均设置于一主机内,定位相机通过GigE方式实现交换机网口供电与数据传输,定位相机采集得到的图像数据通过GigE方式传输至主机进行神经网络模型的训练与预测工作,输出人体各个关键部位的预测位置信息,后续用户输入对于人体关键部位的定位需求(比如定位到胸部区域),主机与预测的部位类别进行匹配,返回相应关键部位的位置数据,并控制指向机构指向该相应部位。本实施例中所述指向机构采用机械臂的形式。
本实施例中,参照图2所示,所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层y1、第二预测层y2,骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接,第一脖颈网络层与第一预测层联接,第二脖颈网络层与第二预测层联接。
所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层,所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到,所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到,DBL层均由卷积层、BN层(归一化层)、Leaky relu函数层串联得到。
第一MDBL层与拼接层联接,第二DBL层通过串联的第五DBL层、上采样层与拼接层联接,拼接层通过第二脖颈网络层与第二预测层联接。
所述第一脖颈网络层由串联的第六DBL层、卷积层串联得到,所述第二脖颈网络层由串联的第七DBL层、卷积层串联得到。
网络模型基于YOLOv3-tiny改进实现,模型的基本模块单位简称为DBL,在每个单元模块内,输入的特征都会先经历一次卷积操作Conv,在卷积操作过后,单元内会对数据进行批均一化操作BN,后续再通过激活函数层Leaky relu进行激活操作,得到单元输出特征。
参照图2所示,本发明所提及的模型经数据输入后可以分为骨干网络层、脖颈网络层以及预测层共三个部分,骨干层的作用为自底向上提取样本特征,脖颈网络部分的作用为将骨干网络层所提取的多层特征用以和上采样处理后的深层数据特征进行融合操作,预测层的作用在于对人体关键部位进行识别。
骨干网络的部分为一不断加深的特征提取过程,通过对Darknet19结构进行修改得到,去除了最后一层全连接层,只留下卷积与最大池化层maxpool。maxpool层与DBL进行串联得到MDBL层。模型的下采样操作由最大池化层实现,即在单个两倍下采样操作过程中取每个2*2像素区域内的最大值传递至下一层。整个骨干网络部分,模型包含8个卷积操作与5次下采样操作,骨干网络最上层输出特征尺寸为7*7。
脖颈网络层的作用为特征融合,模型的第二预测层y2上的特征图是通过浅层网络的细节特征和深层网络的语义特征通过concat的方式串联获得,通过脖颈层的作用,使得在不同尺度的预测层都表现出了较强的语义信息。
模型的预测层为第一预测层y1与第二预测层y2,预测尺寸分别为13*13与26*26。预测层的工作原理在于通过将预测图划分为 S×S 个单元格进行操作,当目标的中心坐标位于其中某个单元格中,那则该单元格就负责这个物体的检测工作。每个格子预测 3个目标预测框,单个目标预测框内包含4个位置信息,1个置信度信息, 以及n个多类别概率信息。本发明中设计的人体关键部位可分为头部、颈部、胸部、腹部、大腿、小腿,一共六个类别。即设计为每个预测单元格内包含(4+1+6)*3=33个维度信息。故而总体预测层的维数为(13*13*33+26*26*33)=27885个。
在模型的训练过程中,如果学习速率小则学习速度过慢,学习速率过大又容易造成模型震荡。为了抑制误差更新中存在震荡过大的问题,本发明使用了RMSProp算法作为模型的优化器,该优化器通过对微分平方加权函数,有利于消除震荡,使网络收敛速度变快,本发明将模型的批均一参数设为32,总训练轮次设为400或500,学习速率设为1e-3, 梯度衰减设为1e-4。经过模型的训练工作,得到网络权重数据weight文件,通过weight文件可以实现模型的像素位置信息输出。
参照图3所示,在位置预测的过程中,主要是在在描述定位目标位置信息的先验框基础上采用logistic方法对坐标进行回归预测,得到目标预测框:
其中,、是目标检测阶段所划分检测网格的坐标偏移量,、是预设定边
框的边长,、为预测中心点在特征图中的坐标信息,、为目标预测框的宽、高,
表示输入数据经Sigmoid函数处理进行输出,为网络学习目标,由下式求
得:
考虑到透镜的加工精度和透镜安装时的偏差会导致采集的图像失真,从而导致图像处理得到的信息不准确,所以必须对相机进行畸变校正。镜头的畸变主要分为径向畸变和切向畸变两种,消除畸变的公式为:
进一步的,将图像像素坐标转化为世界坐标。参照图4所示,在相机投影变换模型
中,存在四个坐标系,分别是物体在真实世界中的世界坐标系、以相机光心为原点的相
机坐标系、以光心在像平面投影为原点的图像坐标系、以图像平面左上角为原点的像
素坐标系,点为世界坐标系中的点在像平面的投影点,与的距离表示相机的焦
距,物体的成像过程是上述四个坐标系变换的过程,其坐标系之间的变换关系如下:
(1)、图像坐标系和像素平面坐标系变换:
将上式转化为矩阵形式表示可得:
(2)、相机坐标系和图像坐标系变换
将上式转化为矩阵形式表示为:
(3)、世界坐标系和相机坐标系变换
从世界坐标系到相机坐标系的变换为刚体变换,反应了物体与相机的相对运动关系。
式中,和分别为世界坐标系和相机坐标系变换的旋转矩阵和平移向量。c P(X c , Y c ,Z c )为任意点在相机坐标系下的坐标;w P(X w ,Y w ,Z w )为任意点在世界坐标系下的坐
标。
(4)、世界坐标系和像素坐标系变换
将上述(1)、(2)、(3)中的式子化简相乘可得:
可见,本发明还可将模型预测得到的位置坐标转换至世界坐标系,并给出了具体的转换计算公式,以提高机械臂最终的定位精度。
实施例二:
参照图5所示,本实施例提供一种基于图像识别的人体关键部位定位方法,包括步骤:
S1、采集训练人体图像样本;
S2、对训练人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据;
S3、神经网络模型基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
S4、输入归一化真实人体图像样本数据至训练后神经网络模型,以得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
S5、基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
S6、基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
需要说明的是,本实施例提供的一种基于图像识别的人体关键部位定位方法与实施例一类似,在此不多做赘述。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围内。
Claims (10)
1.一种基于图像识别的人体关键部位定位系统,其特征在于,包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块;
图像数据采集模块,用于采集训练人体图像样本、真实人体图像样本;
数据预处理模块,用于对训练人体图像样本、真实人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据、归一化真实人体图像样本数据;
神经网络模型,基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
训练后神经网络模型,基于输入的归一化真实人体图像样本数据,得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
畸变消除模块,基于图像数据采集模块中镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
指向模块,基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
3.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统,其特征在于,系统还包括分别与畸变消除模块、指向模块连接的坐标转换模块;
坐标转换模块,用于将畸变消除后的人体各部位的位置坐标由像素坐标系转换至世界坐标系。
5.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统,其特征在于,所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层、第二预测层,骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接,第一脖颈网络层与第一预测层联接,第二脖颈网络层与第二预测层联接。
6.根据权利要求5所述的一种基于图像识别的人体关键部位定位系统,其特征在于,所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层,所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到,所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到,DBL层均由卷积层、BN层、Leaky relu函数层串联得到。
7.根据权利要求6所述的一种基于图像识别的人体关键部位定位系统,其特征在于,第一MDBL层与拼接层联接,第二DBL层通过串联的第五DBL层、上采样层与拼接层联接,拼接层通过第二脖颈网络层与第二预测层联接。
8.根据权利要求7所述的一种基于图像识别的人体关键部位定位系统,其特征在于,所述神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。
10.一种基于图像识别的人体关键部位定位方法,基于权利要求1-9任一项所述的一种基于图像识别的人体关键部位定位系统,其特征在于,包括步骤:
S1、采集训练人体图像样本;
S2、对训练人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据;
S3、神经网络模型基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
S4、输入归一化真实人体图像样本数据至训练后神经网络模型,以得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
S5、基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
S6、基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211081288.0A CN115170911B (zh) | 2022-09-06 | 2022-09-06 | 一种基于图像识别的人体关键部位定位系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211081288.0A CN115170911B (zh) | 2022-09-06 | 2022-09-06 | 一种基于图像识别的人体关键部位定位系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115170911A true CN115170911A (zh) | 2022-10-11 |
CN115170911B CN115170911B (zh) | 2022-12-30 |
Family
ID=83482168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211081288.0A Active CN115170911B (zh) | 2022-09-06 | 2022-09-06 | 一种基于图像识别的人体关键部位定位系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170911B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117017339A (zh) * | 2023-08-02 | 2023-11-10 | 齐鲁工业大学(山东省科学院) | 一种机械臂自动听诊方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107582085A (zh) * | 2017-09-14 | 2018-01-16 | 广州七喜医疗设备有限公司 | 一种智能数字x线曝光控制的装置与方法 |
CN108288294A (zh) * | 2018-01-17 | 2018-07-17 | 视缘(上海)智能科技有限公司 | 一种3d相机群的外参标定方法 |
AU2019101142A4 (en) * | 2019-09-30 | 2019-10-31 | Dong, Qirui MR | A pedestrian detection method with lightweight backbone based on yolov3 network |
CN110929638A (zh) * | 2019-11-20 | 2020-03-27 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111027412A (zh) * | 2019-11-20 | 2020-04-17 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111079570A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111080693A (zh) * | 2019-11-22 | 2020-04-28 | 天津大学 | 一种基于YOLOv3的机器人自主分类抓取方法 |
CN113093726A (zh) * | 2021-03-05 | 2021-07-09 | 华南理工大学 | 一种基于Yolo_v4算法的目标检测与跟踪方法 |
CN113842116A (zh) * | 2021-10-14 | 2021-12-28 | 北京鹰之眼智能健康科技有限公司 | 一种人体穴位的自动定位方法、装置和电子设备 |
CN113887270A (zh) * | 2021-06-24 | 2022-01-04 | 安徽农业大学 | 基于改进YOLOv4-tiny模型口罩佩戴检测方法 |
CN114519887A (zh) * | 2022-02-22 | 2022-05-20 | 南京览众智能科技有限公司 | 一种基于深度学习的中小学课堂学生转脸检测方法 |
CN114693661A (zh) * | 2022-04-06 | 2022-07-01 | 上海麦牙科技有限公司 | 一种基于深度学习的快速分拣方法 |
CN114783001A (zh) * | 2022-06-22 | 2022-07-22 | 南京骞贸科技有限公司 | 游泳姿态评估方法、系统、装置及计算机可读存储介质 |
-
2022
- 2022-09-06 CN CN202211081288.0A patent/CN115170911B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107582085A (zh) * | 2017-09-14 | 2018-01-16 | 广州七喜医疗设备有限公司 | 一种智能数字x线曝光控制的装置与方法 |
CN108288294A (zh) * | 2018-01-17 | 2018-07-17 | 视缘(上海)智能科技有限公司 | 一种3d相机群的外参标定方法 |
AU2019101142A4 (en) * | 2019-09-30 | 2019-10-31 | Dong, Qirui MR | A pedestrian detection method with lightweight backbone based on yolov3 network |
CN110929638A (zh) * | 2019-11-20 | 2020-03-27 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111027412A (zh) * | 2019-11-20 | 2020-04-17 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111080693A (zh) * | 2019-11-22 | 2020-04-28 | 天津大学 | 一种基于YOLOv3的机器人自主分类抓取方法 |
CN111079570A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN113093726A (zh) * | 2021-03-05 | 2021-07-09 | 华南理工大学 | 一种基于Yolo_v4算法的目标检测与跟踪方法 |
CN113887270A (zh) * | 2021-06-24 | 2022-01-04 | 安徽农业大学 | 基于改进YOLOv4-tiny模型口罩佩戴检测方法 |
CN113842116A (zh) * | 2021-10-14 | 2021-12-28 | 北京鹰之眼智能健康科技有限公司 | 一种人体穴位的自动定位方法、装置和电子设备 |
CN114519887A (zh) * | 2022-02-22 | 2022-05-20 | 南京览众智能科技有限公司 | 一种基于深度学习的中小学课堂学生转脸检测方法 |
CN114693661A (zh) * | 2022-04-06 | 2022-07-01 | 上海麦牙科技有限公司 | 一种基于深度学习的快速分拣方法 |
CN114783001A (zh) * | 2022-06-22 | 2022-07-22 | 南京骞贸科技有限公司 | 游泳姿态评估方法、系统、装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
杨傲雷等: "《融合随机森林模型的单目视觉人体空间定位方法》", 《仪器仪表学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117017339A (zh) * | 2023-08-02 | 2023-11-10 | 齐鲁工业大学(山东省科学院) | 一种机械臂自动听诊方法 |
CN117017339B (zh) * | 2023-08-02 | 2024-04-30 | 齐鲁工业大学(山东省科学院) | 一种机械臂自动听诊方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115170911B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
CN111476097A (zh) | 人体姿态评估方法、装置、计算机设备及存储介质 | |
CN115170911B (zh) | 一种基于图像识别的人体关键部位定位系统及方法 | |
WO2022227664A1 (zh) | 机器人姿态的控制方法、机器人、存储介质及计算机程序 | |
CN113158833B (zh) | 一种基于人体姿态的无人车控制指挥方法 | |
CN112258555A (zh) | 实时姿态估计运动分析方法、系统、计算机设备及存储介质 | |
CN115376205A (zh) | 超声扫描机器人控制方法、装置、设备及存储介质 | |
CN109993108B (zh) | 一种增强现实环境下的手势纠错方法、系统及装置 | |
CN112947458B (zh) | 基于多模态信息的机器人准确抓取方法及计算机可读介质 | |
CN116047440B (zh) | 一种端到端的毫米波雷达与摄像头外参标定方法 | |
CN111553954B (zh) | 一种基于直接法单目slam的在线光度标定方法 | |
CN112597847A (zh) | 人脸姿态估计方法、装置、电子设备和存储介质 | |
CN112069979A (zh) | 一种实时动作识别人机交互系统 | |
CN116012942A (zh) | 手语教学方法、装置、设备及存储介质 | |
CN116310335A (zh) | 一种基于Vision Transformer的翼状胬肉病灶区域的分割方法 | |
CN116386137A (zh) | 一种轻量级识别太极拳动作的移动端设计方法 | |
CN114782592A (zh) | 基于图像的卡通动画生成方法、装置、设备及存储介质 | |
TW202326518A (zh) | 影像擴增方法以及裝置 | |
CN112784800B (zh) | 一种基于神经网络和形状约束的人脸关键点检测方法 | |
CN115471863A (zh) | 三维姿态的获取方法、模型训练方法和相关设备 | |
CN109934155B (zh) | 一种基于深度视觉的协作机器人手势识别方法及装置 | |
CN114493975A (zh) | 一种种苗旋转框目标检测方法及系统 | |
CN114519813A (zh) | 一种机械臂目标抓取方法及系统 | |
CN113240670A (zh) | 带电作业场景下针对待作业物体的图像分割方法 | |
Hsu et al. | A Chinese Calligraphy-Writing Robotic System Based on Image-to-Action Translations and a Hypothesis Generation Net |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |