CN115170911A - 一种基于图像识别的人体关键部位定位系统及方法 - Google Patents

一种基于图像识别的人体关键部位定位系统及方法 Download PDF

Info

Publication number
CN115170911A
CN115170911A CN202211081288.0A CN202211081288A CN115170911A CN 115170911 A CN115170911 A CN 115170911A CN 202211081288 A CN202211081288 A CN 202211081288A CN 115170911 A CN115170911 A CN 115170911A
Authority
CN
China
Prior art keywords
human body
layer
distortion
image
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211081288.0A
Other languages
English (en)
Other versions
CN115170911B (zh
Inventor
蔡振宇
李传祥
张伟
孙恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou Institute of Zhejiang University
Original Assignee
Huzhou Institute of Zhejiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huzhou Institute of Zhejiang University filed Critical Huzhou Institute of Zhejiang University
Priority to CN202211081288.0A priority Critical patent/CN115170911B/zh
Publication of CN115170911A publication Critical patent/CN115170911A/zh
Application granted granted Critical
Publication of CN115170911B publication Critical patent/CN115170911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像识别定位技术领域,涉及一种基于图像识别的人体关键部位定位系统及方法。方法包括:S1采集训练人体图像样本;S2对训练人体图像样本按照人体部位进行划分,并进行数据标定、归一化处理;S3神经网络模型基于归一化训练人体图像样本数据进行训练;S4输入归一化真实人体图像样本数据至训练后神经网络模型,以得到描述目标位置信息的先验框,并基于先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;S5对人体各部位的位置坐标进行畸变消除;S6基于畸变消除后位置坐标,控制指向机构指向人体相应部位。本发明给出了模型训练的方式,考虑了镜头畸变影响,可保证定位精度。

Description

一种基于图像识别的人体关键部位定位系统及方法
技术领域
本发明属于图像识别定位技术领域,具体涉及一种基于图像识别的人体关键部位定位系统及方法。
背景技术
近些年来,随着机器人技术的不断发展,机械臂越来越高频地出现在社会生活和公众视线中。作为一种机械化、多关节的手臂,它是机器人中最常见却并非唯一的形态,机械臂可被应用于多种工作场景如:流水线装配、教育学习以及远程医疗等。
人体关键部位定位技术指通过图像处理手段实现对人体大致部位的准确定位,该技术可用于完善机械臂的视觉系统,并为相关工作人员在远程医疗以及机器人教育等场景下的操作提供一定的便利,可节省预定位的时间,提高工作效率。
例如申请号为CN201811079870.7的中国专利,公开了一种按摩部位识别、定位、按摩方法及装置、设备,具体为获取按摩对象的图像和按摩部位识别参数信息,所述按摩部位识别参数信息为力参数和/或按摩对象的声音参数;根据所述图像和所述按摩部位识别参数信息,基于预先经过训练的第二模型,生成第一指令,通过所述第一指令调整所述按摩执行器的位姿,使得所述按摩执行器定位在所述按摩部位处;其中,所述第二模型包括依序排列的第一部分和第二部分;所述根据所述图像和所述按摩部位识别参数信息,基于预先经过训练的第二模型,生成第一指令包括:将所述图像输入所述第一部分,得到向量;将所述向量与所述按摩部位识别参数一起输入所述第二部分,以生成所述第一指令;所述第一指令为位姿向量。该专利可基于预先经过训练的第二模型,生成第一指令,通过所述第一指令调整所述按摩执行器的位姿,使得所述按摩执行器定位在所述按摩部位处。但其并未给出模型的训练方式、模型的结构,并且也未考虑如何提升定位装置的定位精度。
发明内容
针对现有技术中存在的上述问题,本发明提供一种基于图像识别的人体关键部位定位系统及方法,给出了模型训练的方式、模型具体结构,可基于训练后的神经网络模型,对采集得到的人体图像中的关键部位进行定位,并得到各部位的位置坐标,还可避免采集图像用的镜头的自身畸变对位置坐标定位精度造成的影响。
本发明采用以下技术方案:
一种基于图像识别的人体关键部位定位系统,包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块;
图像数据采集模块,用于采集训练人体图像样本、真实人体图像样本;
数据预处理模块,用于对训练人体图像样本、真实人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据、归一化真实人体图像样本数据;
神经网络模型,基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
训练后神经网络模型,基于输入的归一化真实人体图像样本数据,得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
畸变消除模块,基于图像数据采集模块中镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
指向模块,基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
作为优选方案,所述畸变消除公式具体为:
Figure 655331DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
为所述人体各部位的像素位置坐标,
Figure 759422DEST_PATH_IMAGE003
为畸变消除后的人体各 部位的像素位置坐标,
Figure DEST_PATH_IMAGE004
表示像素位置坐标到图像中心的距离,
Figure 211263DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
Figure 793423DEST_PATH_IMAGE007
为镜头 径向畸变系数,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
为镜头切向畸变系数。
作为优选方案,系统还包括分别与畸变消除模块、指向模块连接的坐标转换模块;
坐标转换模块,用于将畸变消除后的人体各部位的位置坐标由像素坐标系转换至世界坐标系。
作为优选方案,世界坐标系和像素坐标系变换的计算公式具体为:
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
其中,
Figure 946144DEST_PATH_IMAGE003
为畸变消除后的人体各部位的像素位置坐标,
Figure DEST_PATH_IMAGE012
Figure 955557DEST_PATH_IMAGE013
分别表示每 个像素单元实际的长度和宽度,
Figure DEST_PATH_IMAGE014
为从图像坐标系中心点到像素坐标系中心点的一 个偏移量,
Figure 425852DEST_PATH_IMAGE015
表示相机的焦距,
Figure DEST_PATH_IMAGE016
Figure 811703DEST_PATH_IMAGE017
分别为世界坐标系和相机坐标系变换的旋转矩阵和平 移向量,
Figure DEST_PATH_IMAGE018
Figure 418265DEST_PATH_IMAGE019
分别为像素坐标系下
Figure DEST_PATH_IMAGE020
轴和
Figure 598580DEST_PATH_IMAGE021
轴的归一化焦距,
Figure DEST_PATH_IMAGE022
为相应点位在世界坐标系下的坐标,
Figure 290592DEST_PATH_IMAGE023
为相应点位在相机坐标系下Z轴上 的坐标;
其中,相机坐标系以相机光心为原点,图像坐标系以所述光心在像平面的投影为原点,像素坐标系以图像平面的左上角为原点。
作为优选方案,所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层、第二预测层,骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接,第一脖颈网络层与第一预测层联接,第二脖颈网络层与第二预测层联接。
作为优选方案,所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层,所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到,所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到,DBL层均由卷积层、BN层、Leaky relu函数层串联得到。
作为优选方案,第一MDBL层与拼接层联接,第二DBL层通过串联的第五DBL层、上采样层与拼接层联接,拼接层通过第二脖颈网络层与第二预测层联接。
作为优选方案,所述神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。
作为优选方案,所述目标预测框为:
Figure DEST_PATH_IMAGE024
其中,
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
是目标检测阶段所划分检测网格的坐标偏移量,
Figure 152238DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
是预设定边 框的边长,
Figure 319300DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
为预测中心点在特征图中的坐标信息,
Figure 670515DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
为目标预测框的宽、高,
Figure DEST_PATH_IMAGE033
表示输入数据经Sigmoid函数处理进行输出,
Figure DEST_PATH_IMAGE034
为网络学习目标,由下式求 得:
Figure DEST_PATH_IMAGE035
其中,
Figure DEST_PATH_IMAGE036
为标注目标在该特征图中的4个坐标,
Figure 240037DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
表示目标预 测框中心点距离所在网格左上角的坐标的偏移量,
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
表示为相对尺度。
还公开一种基于图像识别的人体关键部位定位方法,基于上述的定位系统,包括步骤:
S1、采集训练人体图像样本;
S2、对训练人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据;
S3、神经网络模型基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
S4、输入归一化真实人体图像样本数据至训练后神经网络模型,以得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
S5、基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
S6、基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
本发明的有益效果是:
给出了模型训练的方式、模型具体结构,可基于训练后的神经网络模型,对采集得到的人体图像中的关键部位进行定位,并得到各部位的位置坐标。
考虑采集用镜头的径向、切向畸变,基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标。
可将畸变消除后的人体各部位的位置坐标由像素坐标系转换至世界坐标系。
神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。
基于上述,可保证图像中人体各部位坐标的定位精度,进而为相关工作人员在远程医疗以及机器人教育等场景下的操作提供一定的便利,可节省预定位的时间,提高工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述一种基于图像识别的人体关键部位定位系统的结构示意图;
图2是本发明所述神经网络模型结构的示意图;
图3是本发明所述基于先验框、目标预测框定位的示意图;
图4是定位相机投影变换模型的示意图;
图5是本发明所述一种基于图像识别的人体关键部位定位方法的流程图。
具体实施方式
以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
实施例一:
参照图1所示,本实施例提供一种基于图像识别的人体关键部位定位系统,包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块;
图像数据采集模块,用于采集训练人体图像样本、真实人体图像样本,本实施例中所述图像数据采集模块采用定位相机,所述定位相机于正下视角固定安装,安装于室内环境,定位相机距离安置病人人体的床位应保持在1.5m-2m区间范围内;
数据预处理模块,用于对训练人体图像样本、真实人体图像样本按照人体部位进行划分,具体包括头部、颈部、胸部、腹部、大腿、小腿六个部位,并进行数据标定,并进行数据强化,采用的数据强化策略重心放在模拟不同场景下的光照对相机成像所带来的变化,。重点在于对样本数据的色调、饱和度和明度进行调节,对进行数据标定后的人体图像样本数据进行归一化处理,均归一为416*416*3尺寸,以得到归一化训练人体图像样本数据、归一化真实人体图像样本数据;
神经网络模型,基于归一化训练人体图像样本数据进行训练,得到网络权重数据weight文件,以得到训练后神经网络模型;
训练后神经网络模型,基于输入的归一化真实人体图像样本数据,得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
畸变消除模块,基于图像数据采集模块中镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
指向模块,基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
本发明给出了定位模型训练的方式、模型具体结构,可基于训练后的神经网络模型,对采集得到的人体图像中的关键部位进行定位,并得到各部位的位置坐标,还可避免采集图像用的镜头的自身畸变对位置坐标定位精度造成的影响。
具体地:
上述数据预处理模块、神经网络模型、畸变消除模块、指向模块均设置于一主机内,定位相机通过GigE方式实现交换机网口供电与数据传输,定位相机采集得到的图像数据通过GigE方式传输至主机进行神经网络模型的训练与预测工作,输出人体各个关键部位的预测位置信息,后续用户输入对于人体关键部位的定位需求(比如定位到胸部区域),主机与预测的部位类别进行匹配,返回相应关键部位的位置数据,并控制指向机构指向该相应部位。本实施例中所述指向机构采用机械臂的形式。
本实施例中,参照图2所示,所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层y1、第二预测层y2,骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接,第一脖颈网络层与第一预测层联接,第二脖颈网络层与第二预测层联接。
所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层,所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到,所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到,DBL层均由卷积层、BN层(归一化层)、Leaky relu函数层串联得到。
第一MDBL层与拼接层联接,第二DBL层通过串联的第五DBL层、上采样层与拼接层联接,拼接层通过第二脖颈网络层与第二预测层联接。
所述第一脖颈网络层由串联的第六DBL层、卷积层串联得到,所述第二脖颈网络层由串联的第七DBL层、卷积层串联得到。
网络模型基于YOLOv3-tiny改进实现,模型的基本模块单位简称为DBL,在每个单元模块内,输入的特征都会先经历一次卷积操作Conv,在卷积操作过后,单元内会对数据进行批均一化操作BN,后续再通过激活函数层Leaky relu进行激活操作,得到单元输出特征。
参照图2所示,本发明所提及的模型经数据输入后可以分为骨干网络层、脖颈网络层以及预测层共三个部分,骨干层的作用为自底向上提取样本特征,脖颈网络部分的作用为将骨干网络层所提取的多层特征用以和上采样处理后的深层数据特征进行融合操作,预测层的作用在于对人体关键部位进行识别。
骨干网络的部分为一不断加深的特征提取过程,通过对Darknet19结构进行修改得到,去除了最后一层全连接层,只留下卷积与最大池化层maxpool。maxpool层与DBL进行串联得到MDBL层。模型的下采样操作由最大池化层实现,即在单个两倍下采样操作过程中取每个2*2像素区域内的最大值传递至下一层。整个骨干网络部分,模型包含8个卷积操作与5次下采样操作,骨干网络最上层输出特征尺寸为7*7。
脖颈网络层的作用为特征融合,模型的第二预测层y2上的特征图是通过浅层网络的细节特征和深层网络的语义特征通过concat的方式串联获得,通过脖颈层的作用,使得在不同尺度的预测层都表现出了较强的语义信息。
模型的预测层为第一预测层y1与第二预测层y2,预测尺寸分别为13*13与26*26。预测层的工作原理在于通过将预测图划分为 S×S 个单元格进行操作,当目标的中心坐标位于其中某个单元格中,那则该单元格就负责这个物体的检测工作。每个格子预测 3个目标预测框,单个目标预测框内包含4个位置信息,1个置信度信息, 以及n个多类别概率信息。本发明中设计的人体关键部位可分为头部、颈部、胸部、腹部、大腿、小腿,一共六个类别。即设计为每个预测单元格内包含(4+1+6)*3=33个维度信息。故而总体预测层的维数为(13*13*33+26*26*33)=27885个。
在模型的训练过程中,如果学习速率小则学习速度过慢,学习速率过大又容易造成模型震荡。为了抑制误差更新中存在震荡过大的问题,本发明使用了RMSProp算法作为模型的优化器,该优化器通过对微分平方加权函数,有利于消除震荡,使网络收敛速度变快,本发明将模型的批均一参数设为32,总训练轮次设为400或500,学习速率设为1e-3, 梯度衰减设为1e-4。经过模型的训练工作,得到网络权重数据weight文件,通过weight文件可以实现模型的像素位置信息输出。
参照图3所示,在位置预测的过程中,主要是在在描述定位目标位置信息的先验框基础上采用logistic方法对坐标进行回归预测,得到目标预测框:
Figure DEST_PATH_IMAGE041
其中,
Figure 374215DEST_PATH_IMAGE025
Figure 486528DEST_PATH_IMAGE026
是目标检测阶段所划分检测网格的坐标偏移量,
Figure DEST_PATH_IMAGE042
Figure 8645DEST_PATH_IMAGE028
是预设定边 框的边长,
Figure 206408DEST_PATH_IMAGE029
Figure 754064DEST_PATH_IMAGE030
为预测中心点在特征图中的坐标信息,
Figure 970150DEST_PATH_IMAGE043
Figure 210639DEST_PATH_IMAGE032
为目标预测框的宽、高,
Figure 895698DEST_PATH_IMAGE033
表示输入数据经Sigmoid函数处理进行输出,
Figure 247045DEST_PATH_IMAGE034
为网络学习目标,由下式求 得:
Figure DEST_PATH_IMAGE044
其中,
Figure 786480DEST_PATH_IMAGE045
为标注目标在该特征图中的4个坐标,
Figure 932290DEST_PATH_IMAGE037
Figure 839066DEST_PATH_IMAGE038
表示目标预 测框中心点距离所在网格左上角的坐标的偏移量,
Figure 977793DEST_PATH_IMAGE039
Figure 919204DEST_PATH_IMAGE040
表示为相对尺度。
经预测得到目标预测框的位置信息,返回所述人体关键部位的像素位置坐标信息
Figure 767074DEST_PATH_IMAGE002
考虑到透镜的加工精度和透镜安装时的偏差会导致采集的图像失真,从而导致图像处理得到的信息不准确,所以必须对相机进行畸变校正。镜头的畸变主要分为径向畸变和切向畸变两种,消除畸变的公式为:
Figure 161146DEST_PATH_IMAGE001
式中,
Figure 103563DEST_PATH_IMAGE005
Figure 633902DEST_PATH_IMAGE004
表示像素位置坐标到图像中心的距离,
Figure 387094DEST_PATH_IMAGE006
Figure 268462DEST_PATH_IMAGE007
为镜头径向畸 变系数,
Figure 14570DEST_PATH_IMAGE008
Figure 664995DEST_PATH_IMAGE009
为镜头切向畸变系数,
Figure 323509DEST_PATH_IMAGE003
为畸变消除后的人体各部位的像素位置坐标 信息。
进一步的,将图像像素坐标转化为世界坐标。参照图4所示,在相机投影变换模型 中,存在四个坐标系,分别是物体在真实世界中的世界坐标系
Figure DEST_PATH_IMAGE046
、以相机光心为原点的相 机坐标系
Figure 144703DEST_PATH_IMAGE047
、以光心在像平面投影为原点的图像坐标系
Figure DEST_PATH_IMAGE048
、以图像平面左上角为原点的像 素坐标系
Figure 914076DEST_PATH_IMAGE049
,点
Figure DEST_PATH_IMAGE050
为世界坐标系中的点
Figure 402695DEST_PATH_IMAGE050
在像平面的投影点,
Figure 232111DEST_PATH_IMAGE047
Figure 88072DEST_PATH_IMAGE048
的距离表示相机的焦 距
Figure 661135DEST_PATH_IMAGE051
,物体的成像过程是上述四个坐标系变换的过程,其坐标系之间的变换关系如下:
(1)、图像坐标系和像素平面坐标系变换:
由图4可知,像素坐标系
Figure 269840DEST_PATH_IMAGE049
与图像坐标系
Figure 801316DEST_PATH_IMAGE048
的变换关系为:
Figure DEST_PATH_IMAGE052
将上式转化为矩阵形式表示可得:
Figure 375865DEST_PATH_IMAGE053
式中,
Figure DEST_PATH_IMAGE054
Figure 1887DEST_PATH_IMAGE055
分别表示每个像素单元实际的长度和宽度,单位为mm/px,是在相机 制造时决定,为相机本身的内部特性,
Figure DEST_PATH_IMAGE056
为从图像坐标系中心点到像素坐标系中心 点的一个偏移量,属于相机内参的一部分,单位为mm。
(2)、相机坐标系和图像坐标系变换
在图4中,
Figure 950252DEST_PATH_IMAGE050
点表示为世界坐标中的一点,p点表示为点
Figure 387049DEST_PATH_IMAGE050
在图像中的成像点。根据 三角形O c pO与三角形O c PZ c 为相似三角形,可得:
Figure DEST_PATH_IMAGE057
将上式转化为矩阵形式表示为:
Figure DEST_PATH_IMAGE058
(3)、世界坐标系和相机坐标系变换
从世界坐标系到相机坐标系的变换为刚体变换,反应了物体与相机的相对运动关系。
Figure 138974DEST_PATH_IMAGE059
式中,
Figure DEST_PATH_IMAGE060
Figure 53840DEST_PATH_IMAGE061
分别为世界坐标系和相机坐标系变换的旋转矩阵和平移向量。c P(X c Y c ,Z c )为任意点
Figure 371558DEST_PATH_IMAGE050
在相机坐标系下的坐标;w P(X w ,Y w ,Z w )为任意点
Figure 979257DEST_PATH_IMAGE050
在世界坐标系下的坐 标。
(4)、世界坐标系和像素坐标系变换
将上述(1)、(2)、(3)中的式子化简相乘可得:
Figure DEST_PATH_IMAGE062
式中,
Figure 749635DEST_PATH_IMAGE018
Figure 468193DEST_PATH_IMAGE019
分别为像素坐标系下
Figure 922308DEST_PATH_IMAGE020
轴和
Figure 700908DEST_PATH_IMAGE021
轴的归一化焦距。
Figure 489741DEST_PATH_IMAGE063
Figure DEST_PATH_IMAGE064
,则上式可简化为:
Figure 746410DEST_PATH_IMAGE065
式中,
Figure DEST_PATH_IMAGE066
为相机的内参矩阵,其内部的变量
Figure 523873DEST_PATH_IMAGE067
为相机的内参数,是 相机生产时所确定的,
Figure DEST_PATH_IMAGE068
为相机的外参矩阵,由相机坐标系与世界坐标系的相对位置所 决定。
可见,本发明还可将模型预测得到的位置坐标转换至世界坐标系,并给出了具体的转换计算公式,以提高机械臂最终的定位精度。
实施例二:
参照图5所示,本实施例提供一种基于图像识别的人体关键部位定位方法,包括步骤:
S1、采集训练人体图像样本;
S2、对训练人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据;
S3、神经网络模型基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
S4、输入归一化真实人体图像样本数据至训练后神经网络模型,以得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
S5、基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
S6、基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
需要说明的是,本实施例提供的一种基于图像识别的人体关键部位定位方法与实施例一类似,在此不多做赘述。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围内。

Claims (10)

1.一种基于图像识别的人体关键部位定位系统,其特征在于,包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块;
图像数据采集模块,用于采集训练人体图像样本、真实人体图像样本;
数据预处理模块,用于对训练人体图像样本、真实人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据、归一化真实人体图像样本数据;
神经网络模型,基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
训练后神经网络模型,基于输入的归一化真实人体图像样本数据,得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
畸变消除模块,基于图像数据采集模块中镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
指向模块,基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
2.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统,其特征在于,所述畸变消除公式具体为:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE003
为所述人体各部位的像素位置坐标,
Figure 787670DEST_PATH_IMAGE004
为畸变消除后的人体各部位的像素位置坐标,
Figure DEST_PATH_IMAGE005
表示像素位置坐标到图像中心的距离,
Figure 259407DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 570302DEST_PATH_IMAGE008
为镜头径向畸变系数,
Figure 231091DEST_PATH_IMAGE010
Figure 311042DEST_PATH_IMAGE012
为镜头切向畸变系数。
3.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统,其特征在于,系统还包括分别与畸变消除模块、指向模块连接的坐标转换模块;
坐标转换模块,用于将畸变消除后的人体各部位的位置坐标由像素坐标系转换至世界坐标系。
4.根据权利要求3所述的一种基于图像识别的人体关键部位定位系统,其特征在于,世界坐标系和像素坐标系变换的计算公式具体为:
Figure DEST_PATH_IMAGE013
Figure 664663DEST_PATH_IMAGE014
其中,
Figure 931696DEST_PATH_IMAGE004
为畸变消除后的人体各部位的像素位置坐标,
Figure DEST_PATH_IMAGE015
Figure 661755DEST_PATH_IMAGE016
分别表示每个像素单元实际的长度和宽度,
Figure DEST_PATH_IMAGE017
为从图像坐标系中心点到像素坐标系中心点的一个偏移量,
Figure 861792DEST_PATH_IMAGE018
表示相机的焦距,
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE021
分别为世界坐标系和相机坐标系变换的旋转矩阵和平移向量,
Figure 651894DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
分别为像素坐标系下
Figure 937382DEST_PATH_IMAGE024
轴和
Figure 939973DEST_PATH_IMAGE026
轴的归一化焦距,
Figure DEST_PATH_IMAGE027
为相应点位在世界坐标系下的坐标,
Figure 728937DEST_PATH_IMAGE028
为相应点位在相机坐标系下Z轴上的坐标;
其中,相机坐标系以相机光心为原点,图像坐标系以所述光心在像平面的投影为原点,像素坐标系以图像平面的左上角为原点。
5.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统,其特征在于,所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层、第二预测层,骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接,第一脖颈网络层与第一预测层联接,第二脖颈网络层与第二预测层联接。
6.根据权利要求5所述的一种基于图像识别的人体关键部位定位系统,其特征在于,所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层,所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到,所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到,DBL层均由卷积层、BN层、Leaky relu函数层串联得到。
7.根据权利要求6所述的一种基于图像识别的人体关键部位定位系统,其特征在于,第一MDBL层与拼接层联接,第二DBL层通过串联的第五DBL层、上采样层与拼接层联接,拼接层通过第二脖颈网络层与第二预测层联接。
8.根据权利要求7所述的一种基于图像识别的人体关键部位定位系统,其特征在于,所述神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。
9.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统,其特征在于,所述目标预测框为:
Figure DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE031
Figure 955519DEST_PATH_IMAGE032
是目标检测阶段所划分检测网格的坐标偏移量,
Figure 462724DEST_PATH_IMAGE034
Figure 3427DEST_PATH_IMAGE036
是预设定边框的边长,
Figure DEST_PATH_IMAGE037
Figure 178056DEST_PATH_IMAGE038
为预测中心点在特征图中的坐标信息,
Figure 778802DEST_PATH_IMAGE040
Figure 773302DEST_PATH_IMAGE042
为目标预测框的宽、高,
Figure DEST_PATH_IMAGE043
表示输入数据经Sigmoid函数处理进行输出,
Figure 117696DEST_PATH_IMAGE044
为网络学习目标,由下式求得:
Figure DEST_PATH_IMAGE045
其中,
Figure 146832DEST_PATH_IMAGE046
为标注目标在该特征图中的4个坐标,
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE049
表示目标预测框中心点距离所在网格左上角的坐标的偏移量,
Figure 715217DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
表示为相对尺度。
10.一种基于图像识别的人体关键部位定位方法,基于权利要求1-9任一项所述的一种基于图像识别的人体关键部位定位系统,其特征在于,包括步骤:
S1、采集训练人体图像样本;
S2、对训练人体图像样本按照人体部位进行划分,并进行数据标定,对进行数据标定后的人体图像样本数据进行归一化处理,以得到归一化训练人体图像样本数据;
S3、神经网络模型基于归一化训练人体图像样本数据进行训练,以得到训练后神经网络模型;
S4、输入归一化真实人体图像样本数据至训练后神经网络模型,以得到描述目标位置信息的先验框,并基于所述先验框进行位置回归以对坐标进行回归预测,以得到目标预测框,基于目标预测框的位置信息输出人体各部位的位置坐标;
S5、基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除,以得到畸变消除后的人体各部位的位置坐标;
S6、基于所述畸变消除后的人体各部位的位置坐标,控制指向机构指向人体相应部位。
CN202211081288.0A 2022-09-06 2022-09-06 一种基于图像识别的人体关键部位定位系统及方法 Active CN115170911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211081288.0A CN115170911B (zh) 2022-09-06 2022-09-06 一种基于图像识别的人体关键部位定位系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211081288.0A CN115170911B (zh) 2022-09-06 2022-09-06 一种基于图像识别的人体关键部位定位系统及方法

Publications (2)

Publication Number Publication Date
CN115170911A true CN115170911A (zh) 2022-10-11
CN115170911B CN115170911B (zh) 2022-12-30

Family

ID=83482168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211081288.0A Active CN115170911B (zh) 2022-09-06 2022-09-06 一种基于图像识别的人体关键部位定位系统及方法

Country Status (1)

Country Link
CN (1) CN115170911B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117017339A (zh) * 2023-08-02 2023-11-10 齐鲁工业大学(山东省科学院) 一种机械臂自动听诊方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107582085A (zh) * 2017-09-14 2018-01-16 广州七喜医疗设备有限公司 一种智能数字x线曝光控制的装置与方法
CN108288294A (zh) * 2018-01-17 2018-07-17 视缘(上海)智能科技有限公司 一种3d相机群的外参标定方法
AU2019101142A4 (en) * 2019-09-30 2019-10-31 Dong, Qirui MR A pedestrian detection method with lightweight backbone based on yolov3 network
CN110929638A (zh) * 2019-11-20 2020-03-27 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
CN111027412A (zh) * 2019-11-20 2020-04-17 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
CN111079570A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
CN111080693A (zh) * 2019-11-22 2020-04-28 天津大学 一种基于YOLOv3的机器人自主分类抓取方法
CN113093726A (zh) * 2021-03-05 2021-07-09 华南理工大学 一种基于Yolo_v4算法的目标检测与跟踪方法
CN113842116A (zh) * 2021-10-14 2021-12-28 北京鹰之眼智能健康科技有限公司 一种人体穴位的自动定位方法、装置和电子设备
CN113887270A (zh) * 2021-06-24 2022-01-04 安徽农业大学 基于改进YOLOv4-tiny模型口罩佩戴检测方法
CN114519887A (zh) * 2022-02-22 2022-05-20 南京览众智能科技有限公司 一种基于深度学习的中小学课堂学生转脸检测方法
CN114693661A (zh) * 2022-04-06 2022-07-01 上海麦牙科技有限公司 一种基于深度学习的快速分拣方法
CN114783001A (zh) * 2022-06-22 2022-07-22 南京骞贸科技有限公司 游泳姿态评估方法、系统、装置及计算机可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107582085A (zh) * 2017-09-14 2018-01-16 广州七喜医疗设备有限公司 一种智能数字x线曝光控制的装置与方法
CN108288294A (zh) * 2018-01-17 2018-07-17 视缘(上海)智能科技有限公司 一种3d相机群的外参标定方法
AU2019101142A4 (en) * 2019-09-30 2019-10-31 Dong, Qirui MR A pedestrian detection method with lightweight backbone based on yolov3 network
CN110929638A (zh) * 2019-11-20 2020-03-27 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
CN111027412A (zh) * 2019-11-20 2020-04-17 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
CN111080693A (zh) * 2019-11-22 2020-04-28 天津大学 一种基于YOLOv3的机器人自主分类抓取方法
CN111079570A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种人体关键点识别方法、装置及电子设备
CN113093726A (zh) * 2021-03-05 2021-07-09 华南理工大学 一种基于Yolo_v4算法的目标检测与跟踪方法
CN113887270A (zh) * 2021-06-24 2022-01-04 安徽农业大学 基于改进YOLOv4-tiny模型口罩佩戴检测方法
CN113842116A (zh) * 2021-10-14 2021-12-28 北京鹰之眼智能健康科技有限公司 一种人体穴位的自动定位方法、装置和电子设备
CN114519887A (zh) * 2022-02-22 2022-05-20 南京览众智能科技有限公司 一种基于深度学习的中小学课堂学生转脸检测方法
CN114693661A (zh) * 2022-04-06 2022-07-01 上海麦牙科技有限公司 一种基于深度学习的快速分拣方法
CN114783001A (zh) * 2022-06-22 2022-07-22 南京骞贸科技有限公司 游泳姿态评估方法、系统、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨傲雷等: "《融合随机森林模型的单目视觉人体空间定位方法》", 《仪器仪表学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117017339A (zh) * 2023-08-02 2023-11-10 齐鲁工业大学(山东省科学院) 一种机械臂自动听诊方法
CN117017339B (zh) * 2023-08-02 2024-04-30 齐鲁工业大学(山东省科学院) 一种机械臂自动听诊方法

Also Published As

Publication number Publication date
CN115170911B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN111984772B (zh) 一种基于深度学习的医疗影像问答方法及系统
CN111476097A (zh) 人体姿态评估方法、装置、计算机设备及存储介质
CN115170911B (zh) 一种基于图像识别的人体关键部位定位系统及方法
WO2022227664A1 (zh) 机器人姿态的控制方法、机器人、存储介质及计算机程序
CN113158833B (zh) 一种基于人体姿态的无人车控制指挥方法
CN112258555A (zh) 实时姿态估计运动分析方法、系统、计算机设备及存储介质
CN115376205A (zh) 超声扫描机器人控制方法、装置、设备及存储介质
CN109993108B (zh) 一种增强现实环境下的手势纠错方法、系统及装置
CN112947458B (zh) 基于多模态信息的机器人准确抓取方法及计算机可读介质
CN116047440B (zh) 一种端到端的毫米波雷达与摄像头外参标定方法
CN111553954B (zh) 一种基于直接法单目slam的在线光度标定方法
CN112597847A (zh) 人脸姿态估计方法、装置、电子设备和存储介质
CN112069979A (zh) 一种实时动作识别人机交互系统
CN116012942A (zh) 手语教学方法、装置、设备及存储介质
CN116310335A (zh) 一种基于Vision Transformer的翼状胬肉病灶区域的分割方法
CN116386137A (zh) 一种轻量级识别太极拳动作的移动端设计方法
CN114782592A (zh) 基于图像的卡通动画生成方法、装置、设备及存储介质
TW202326518A (zh) 影像擴增方法以及裝置
CN112784800B (zh) 一种基于神经网络和形状约束的人脸关键点检测方法
CN115471863A (zh) 三维姿态的获取方法、模型训练方法和相关设备
CN109934155B (zh) 一种基于深度视觉的协作机器人手势识别方法及装置
CN114493975A (zh) 一种种苗旋转框目标检测方法及系统
CN114519813A (zh) 一种机械臂目标抓取方法及系统
CN113240670A (zh) 带电作业场景下针对待作业物体的图像分割方法
Hsu et al. A Chinese Calligraphy-Writing Robotic System Based on Image-to-Action Translations and a Hypothesis Generation Net

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant