CN115170911A

CN115170911A - 一种基于图像识别的人体关键部位定位系统及方法

Info

Publication number: CN115170911A
Application number: CN202211081288.0A
Authority: CN
Inventors: 蔡振宇; 李传祥; 张伟; 孙恺
Original assignee: Huzhou Institute of Zhejiang University
Current assignee: Huzhou Institute of Zhejiang University
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-10-11
Anticipated expiration: 2042-09-06
Also published as: CN115170911B

Abstract

本发明属于图像识别定位技术领域，涉及一种基于图像识别的人体关键部位定位系统及方法。方法包括：S1采集训练人体图像样本；S2对训练人体图像样本按照人体部位进行划分，并进行数据标定、归一化处理；S3神经网络模型基于归一化训练人体图像样本数据进行训练；S4输入归一化真实人体图像样本数据至训练后神经网络模型，以得到描述目标位置信息的先验框，并基于先验框进行位置回归以对坐标进行回归预测，以得到目标预测框，基于目标预测框的位置信息输出人体各部位的位置坐标；S5对人体各部位的位置坐标进行畸变消除；S6基于畸变消除后位置坐标，控制指向机构指向人体相应部位。本发明给出了模型训练的方式，考虑了镜头畸变影响，可保证定位精度。

Description

一种基于图像识别的人体关键部位定位系统及方法

技术领域

本发明属于图像识别定位技术领域，具体涉及一种基于图像识别的人体关键部位定位系统及方法。

背景技术

近些年来，随着机器人技术的不断发展，机械臂越来越高频地出现在社会生活和公众视线中。作为一种机械化、多关节的手臂，它是机器人中最常见却并非唯一的形态，机械臂可被应用于多种工作场景如：流水线装配、教育学习以及远程医疗等。

人体关键部位定位技术指通过图像处理手段实现对人体大致部位的准确定位，该技术可用于完善机械臂的视觉系统，并为相关工作人员在远程医疗以及机器人教育等场景下的操作提供一定的便利，可节省预定位的时间，提高工作效率。

例如申请号为CN201811079870.7的中国专利，公开了一种按摩部位识别、定位、按摩方法及装置、设备，具体为获取按摩对象的图像和按摩部位识别参数信息，所述按摩部位识别参数信息为力参数和/或按摩对象的声音参数；根据所述图像和所述按摩部位识别参数信息，基于预先经过训练的第二模型，生成第一指令，通过所述第一指令调整所述按摩执行器的位姿，使得所述按摩执行器定位在所述按摩部位处；其中，所述第二模型包括依序排列的第一部分和第二部分；所述根据所述图像和所述按摩部位识别参数信息，基于预先经过训练的第二模型，生成第一指令包括：将所述图像输入所述第一部分，得到向量；将所述向量与所述按摩部位识别参数一起输入所述第二部分，以生成所述第一指令；所述第一指令为位姿向量。该专利可基于预先经过训练的第二模型，生成第一指令，通过所述第一指令调整所述按摩执行器的位姿，使得所述按摩执行器定位在所述按摩部位处。但其并未给出模型的训练方式、模型的结构，并且也未考虑如何提升定位装置的定位精度。

发明内容

针对现有技术中存在的上述问题，本发明提供一种基于图像识别的人体关键部位定位系统及方法，给出了模型训练的方式、模型具体结构，可基于训练后的神经网络模型，对采集得到的人体图像中的关键部位进行定位，并得到各部位的位置坐标，还可避免采集图像用的镜头的自身畸变对位置坐标定位精度造成的影响。

本发明采用以下技术方案：

一种基于图像识别的人体关键部位定位系统，包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块；

图像数据采集模块，用于采集训练人体图像样本、真实人体图像样本；

数据预处理模块，用于对训练人体图像样本、真实人体图像样本按照人体部位进行划分，并进行数据标定，对进行数据标定后的人体图像样本数据进行归一化处理，以得到归一化训练人体图像样本数据、归一化真实人体图像样本数据；

神经网络模型，基于归一化训练人体图像样本数据进行训练，以得到训练后神经网络模型；

训练后神经网络模型，基于输入的归一化真实人体图像样本数据，得到描述目标位置信息的先验框，并基于所述先验框进行位置回归以对坐标进行回归预测，以得到目标预测框，基于目标预测框的位置信息输出人体各部位的位置坐标；

畸变消除模块，基于图像数据采集模块中镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除，以得到畸变消除后的人体各部位的位置坐标；

指向模块，基于所述畸变消除后的人体各部位的位置坐标，控制指向机构指向人体相应部位。

作为优选方案，所述畸变消除公式具体为：

，

其中，

为所述人体各部位的像素位置坐标，

为畸变消除后的人体各部位的像素位置坐标，

表示像素位置坐标到图像中心的距离，

，

、

为镜头径向畸变系数，

、

为镜头切向畸变系数。

作为优选方案，系统还包括分别与畸变消除模块、指向模块连接的坐标转换模块；

坐标转换模块，用于将畸变消除后的人体各部位的位置坐标由像素坐标系转换至世界坐标系。

作为优选方案，世界坐标系和像素坐标系变换的计算公式具体为：

，

，

其中，

为畸变消除后的人体各部位的像素位置坐标，

，

分别表示每个像素单元实际的长度和宽度，

为从图像坐标系中心点到像素坐标系中心点的一个偏移量，

表示相机的焦距，

和

分别为世界坐标系和相机坐标系变换的旋转矩阵和平移向量，

和

分别为像素坐标系下

轴和

轴的归一化焦距，

为相应点位在世界坐标系下的坐标，

为相应点位在相机坐标系下Z轴上的坐标；

其中，相机坐标系以相机光心为原点，图像坐标系以所述光心在像平面的投影为原点，像素坐标系以图像平面的左上角为原点。

作为优选方案，所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层、第二预测层，骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接，第一脖颈网络层与第一预测层联接，第二脖颈网络层与第二预测层联接。

作为优选方案，所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层，所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到，所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到，DBL层均由卷积层、BN层、Leaky relu函数层串联得到。

作为优选方案，第一MDBL层与拼接层联接，第二DBL层通过串联的第五DBL层、上采样层与拼接层联接，拼接层通过第二脖颈网络层与第二预测层联接。

作为优选方案，所述神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。

作为优选方案，所述目标预测框为：

，

其中，

、

是目标检测阶段所划分检测网格的坐标偏移量，

、

是预设定边框的边长，

、

为预测中心点在特征图中的坐标信息，

、

为目标预测框的宽、高，

表示输入数据经Sigmoid函数处理进行输出，

为网络学习目标，由下式求得：

，

其中，

为标注目标在该特征图中的4个坐标，

、

表示目标预测框中心点距离所在网格左上角的坐标的偏移量，

、

表示为相对尺度。

还公开一种基于图像识别的人体关键部位定位方法，基于上述的定位系统，包括步骤：

S1、采集训练人体图像样本；

S2、对训练人体图像样本按照人体部位进行划分，并进行数据标定，对进行数据标定后的人体图像样本数据进行归一化处理，以得到归一化训练人体图像样本数据；

S3、神经网络模型基于归一化训练人体图像样本数据进行训练，以得到训练后神经网络模型；

S4、输入归一化真实人体图像样本数据至训练后神经网络模型，以得到描述目标位置信息的先验框，并基于所述先验框进行位置回归以对坐标进行回归预测，以得到目标预测框，基于目标预测框的位置信息输出人体各部位的位置坐标；

S5、基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除，以得到畸变消除后的人体各部位的位置坐标；

S6、基于所述畸变消除后的人体各部位的位置坐标，控制指向机构指向人体相应部位。

本发明的有益效果是：

给出了模型训练的方式、模型具体结构，可基于训练后的神经网络模型，对采集得到的人体图像中的关键部位进行定位，并得到各部位的位置坐标。

考虑采集用镜头的径向、切向畸变，基于镜头的畸变消除公式对人体各部位的位置坐标进行畸变消除，以得到畸变消除后的人体各部位的位置坐标。

可将畸变消除后的人体各部位的位置坐标由像素坐标系转换至世界坐标系。

神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。

基于上述，可保证图像中人体各部位坐标的定位精度，进而为相关工作人员在远程医疗以及机器人教育等场景下的操作提供一定的便利，可节省预定位的时间，提高工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述一种基于图像识别的人体关键部位定位系统的结构示意图；

图2是本发明所述神经网络模型结构的示意图；

图3是本发明所述基于先验框、目标预测框定位的示意图；

图4是定位相机投影变换模型的示意图；

图5是本发明所述一种基于图像识别的人体关键部位定位方法的流程图。

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一：

参照图1所示，本实施例提供一种基于图像识别的人体关键部位定位系统，包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块；

图像数据采集模块，用于采集训练人体图像样本、真实人体图像样本，本实施例中所述图像数据采集模块采用定位相机，所述定位相机于正下视角固定安装，安装于室内环境，定位相机距离安置病人人体的床位应保持在1.5m-2m区间范围内；

数据预处理模块，用于对训练人体图像样本、真实人体图像样本按照人体部位进行划分，具体包括头部、颈部、胸部、腹部、大腿、小腿六个部位，并进行数据标定，并进行数据强化，采用的数据强化策略重心放在模拟不同场景下的光照对相机成像所带来的变化，。重点在于对样本数据的色调、饱和度和明度进行调节，对进行数据标定后的人体图像样本数据进行归一化处理，均归一为416*416*3尺寸，以得到归一化训练人体图像样本数据、归一化真实人体图像样本数据；

神经网络模型，基于归一化训练人体图像样本数据进行训练，得到网络权重数据weight文件，以得到训练后神经网络模型；

本发明给出了定位模型训练的方式、模型具体结构，可基于训练后的神经网络模型，对采集得到的人体图像中的关键部位进行定位，并得到各部位的位置坐标，还可避免采集图像用的镜头的自身畸变对位置坐标定位精度造成的影响。

具体地：

上述数据预处理模块、神经网络模型、畸变消除模块、指向模块均设置于一主机内，定位相机通过GigE方式实现交换机网口供电与数据传输，定位相机采集得到的图像数据通过GigE方式传输至主机进行神经网络模型的训练与预测工作，输出人体各个关键部位的预测位置信息，后续用户输入对于人体关键部位的定位需求（比如定位到胸部区域），主机与预测的部位类别进行匹配，返回相应关键部位的位置数据，并控制指向机构指向该相应部位。本实施例中所述指向机构采用机械臂的形式。

本实施例中，参照图2所示，所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层y1、第二预测层y2，骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接，第一脖颈网络层与第一预测层联接，第二脖颈网络层与第二预测层联接。

所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层，所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到，所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到，DBL层均由卷积层、BN层（归一化层）、Leaky relu函数层串联得到。

第一MDBL层与拼接层联接，第二DBL层通过串联的第五DBL层、上采样层与拼接层联接，拼接层通过第二脖颈网络层与第二预测层联接。

所述第一脖颈网络层由串联的第六DBL层、卷积层串联得到，所述第二脖颈网络层由串联的第七DBL层、卷积层串联得到。

网络模型基于YOLOv3-tiny改进实现，模型的基本模块单位简称为DBL，在每个单元模块内，输入的特征都会先经历一次卷积操作Conv，在卷积操作过后，单元内会对数据进行批均一化操作BN，后续再通过激活函数层Leaky relu进行激活操作，得到单元输出特征。

参照图2所示，本发明所提及的模型经数据输入后可以分为骨干网络层、脖颈网络层以及预测层共三个部分，骨干层的作用为自底向上提取样本特征，脖颈网络部分的作用为将骨干网络层所提取的多层特征用以和上采样处理后的深层数据特征进行融合操作，预测层的作用在于对人体关键部位进行识别。

骨干网络的部分为一不断加深的特征提取过程，通过对Darknet19结构进行修改得到，去除了最后一层全连接层，只留下卷积与最大池化层maxpool。maxpool层与DBL进行串联得到MDBL层。模型的下采样操作由最大池化层实现，即在单个两倍下采样操作过程中取每个2*2像素区域内的最大值传递至下一层。整个骨干网络部分，模型包含8个卷积操作与5次下采样操作，骨干网络最上层输出特征尺寸为7*7。

脖颈网络层的作用为特征融合，模型的第二预测层y2上的特征图是通过浅层网络的细节特征和深层网络的语义特征通过concat的方式串联获得，通过脖颈层的作用，使得在不同尺度的预测层都表现出了较强的语义信息。

模型的预测层为第一预测层y1与第二预测层y2，预测尺寸分别为13*13与26*26。预测层的工作原理在于通过将预测图划分为 S×S 个单元格进行操作，当目标的中心坐标位于其中某个单元格中，那则该单元格就负责这个物体的检测工作。每个格子预测 3个目标预测框，单个目标预测框内包含4个位置信息，1个置信度信息，以及n个多类别概率信息。本发明中设计的人体关键部位可分为头部、颈部、胸部、腹部、大腿、小腿，一共六个类别。即设计为每个预测单元格内包含（4+1+6）*3=33个维度信息。故而总体预测层的维数为（13*13*33+26*26*33）=27885个。

在模型的训练过程中，如果学习速率小则学习速度过慢,学习速率过大又容易造成模型震荡。为了抑制误差更新中存在震荡过大的问题,本发明使用了RMSProp算法作为模型的优化器，该优化器通过对微分平方加权函数，有利于消除震荡，使网络收敛速度变快，本发明将模型的批均一参数设为32，总训练轮次设为400或500，学习速率设为1e-3, 梯度衰减设为1e-4。经过模型的训练工作，得到网络权重数据weight文件，通过weight文件可以实现模型的像素位置信息输出。

参照图3所示，在位置预测的过程中，主要是在在描述定位目标位置信息的先验框基础上采用logistic方法对坐标进行回归预测，得到目标预测框：

，

其中，

、

是目标检测阶段所划分检测网格的坐标偏移量，

、

是预设定边框的边长，

、

为预测中心点在特征图中的坐标信息，

、

为目标预测框的宽、高，

表示输入数据经Sigmoid函数处理进行输出，

为网络学习目标，由下式求得：

，

其中，

为标注目标在该特征图中的4个坐标，

、

、

表示为相对尺度。

经预测得到目标预测框的位置信息，返回所述人体关键部位的像素位置坐标信息

。

考虑到透镜的加工精度和透镜安装时的偏差会导致采集的图像失真，从而导致图像处理得到的信息不准确，所以必须对相机进行畸变校正。镜头的畸变主要分为径向畸变和切向畸变两种，消除畸变的公式为:

，

式中，

，

表示像素位置坐标到图像中心的距离，

、

为镜头径向畸变系数，

、

为镜头切向畸变系数，

为畸变消除后的人体各部位的像素位置坐标信息。

进一步的，将图像像素坐标转化为世界坐标。参照图4所示，在相机投影变换模型中，存在四个坐标系，分别是物体在真实世界中的世界坐标系

、以相机光心为原点的相机坐标系

、以光心在像平面投影为原点的图像坐标系

、以图像平面左上角为原点的像素坐标系

，点

为世界坐标系中的点

在像平面的投影点，

与

的距离表示相机的焦距

，物体的成像过程是上述四个坐标系变换的过程，其坐标系之间的变换关系如下：

（1）、图像坐标系和像素平面坐标系变换：

由图4可知，像素坐标系

与图像坐标系

的变换关系为:

将上式转化为矩阵形式表示可得：

式中，

，

分别表示每个像素单元实际的长度和宽度，单位为mm/px，是在相机制造时决定，为相机本身的内部特性，

为从图像坐标系中心点到像素坐标系中心点的一个偏移量，属于相机内参的一部分，单位为mm。

（2）、相机坐标系和图像坐标系变换

在图4中，

点表示为世界坐标中的一点，p点表示为点

在图像中的成像点。根据三角形O _c pO与三角形O _c PZ _c为相似三角形，可得：

将上式转化为矩阵形式表示为：

（3）、世界坐标系和相机坐标系变换

从世界坐标系到相机坐标系的变换为刚体变换，反应了物体与相机的相对运动关系。

，

式中，

和

分别为世界坐标系和相机坐标系变换的旋转矩阵和平移向量。^c P(X _c ， Y _c ，Z _c)为任意点

在相机坐标系下的坐标；^w P(X _w ，Y _w ，Z _w )为任意点

在世界坐标系下的坐标。

（4）、世界坐标系和像素坐标系变换

将上述（1）、（2）、（3）中的式子化简相乘可得：

，

式中，

和

分别为像素坐标系下

轴和

轴的归一化焦距。

令

，

，则上式可简化为：

式中，

为相机的内参矩阵，其内部的变量

为相机的内参数，是相机生产时所确定的，

为相机的外参矩阵，由相机坐标系与世界坐标系的相对位置所决定。

可见，本发明还可将模型预测得到的位置坐标转换至世界坐标系，并给出了具体的转换计算公式，以提高机械臂最终的定位精度。

实施例二：

参照图5所示，本实施例提供一种基于图像识别的人体关键部位定位方法，包括步骤：

S1、采集训练人体图像样本；

需要说明的是，本实施例提供的一种基于图像识别的人体关键部位定位方法与实施例一类似，在此不多做赘述。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的保护范围内。

Claims

1.一种基于图像识别的人体关键部位定位系统，其特征在于，包括依次联接的图像数据采集模块、数据预处理模块、神经网络模型、畸变消除模块、指向模块；

2.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统，其特征在于，所述畸变消除公式具体为：

，

其中，

为所述人体各部位的像素位置坐标，

为畸变消除后的人体各部位的像素位置坐标，

表示像素位置坐标到图像中心的距离，

，

、

为镜头径向畸变系数，

、

为镜头切向畸变系数。

3.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统，其特征在于，系统还包括分别与畸变消除模块、指向模块连接的坐标转换模块；

4.根据权利要求3所述的一种基于图像识别的人体关键部位定位系统，其特征在于，世界坐标系和像素坐标系变换的计算公式具体为：

，

，

其中，

为畸变消除后的人体各部位的像素位置坐标，

，

分别表示每个像素单元实际的长度和宽度，

为从图像坐标系中心点到像素坐标系中心点的一个偏移量，

表示相机的焦距，

和

和

分别为像素坐标系下

轴和

轴的归一化焦距，

为相应点位在世界坐标系下的坐标，

为相应点位在相机坐标系下Z轴上的坐标；

5.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统，其特征在于，所述神经网络模型包括骨干网络层、第一脖颈网络层、第二脖颈网络层、第一预测层、第二预测层，骨干网络层分别与第一脖颈网络层、第二脖颈网络层联接，第一脖颈网络层与第一预测层联接，第二脖颈网络层与第二预测层联接。

6.根据权利要求5所述的一种基于图像识别的人体关键部位定位系统，其特征在于，所述骨干网络层包括依次联接的第一DBL层、第一MDBL层、第二MDBL层、第二DBL层，所述第一MDBL层由四对串联的第一最大池化层、第三DBL层串联得到，所述第二MDBL层由两对串联的第二最大池化层、第四DBL层串联得到，DBL层均由卷积层、BN层、Leaky relu函数层串联得到。

7.根据权利要求6所述的一种基于图像识别的人体关键部位定位系统，其特征在于，第一MDBL层与拼接层联接，第二DBL层通过串联的第五DBL层、上采样层与拼接层联接，拼接层通过第二脖颈网络层与第二预测层联接。

8.根据权利要求7所述的一种基于图像识别的人体关键部位定位系统，其特征在于，所述神经网络模型中第二预测层输入的特征图是通过骨干网络层中浅层网络的细节特征和深层网络的语义特征通过拼接层拼接获得。

9.根据权利要求1所述的一种基于图像识别的人体关键部位定位系统，其特征在于，所述目标预测框为：