CN110666791A

CN110666791A - 一种基于深度学习的rgbd机器人看护系统及方法

Info

Publication number: CN110666791A
Application number: CN201910807678.3A
Authority: CN
Inventors: 张奕坚; 邹荣; 张思睿; 许桢英; 王匀
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2020-01-10
Anticipated expiration: 2039-08-29
Also published as: CN110666791B

Abstract

本发明提供一种基于深度学习的RGBD机器人看护系统及方法，该系统包括第一RGBD相机、第二RGBD相机、机械臂和控制器；该方法包括人脸多模态信息提取、物品多模态信息提取和机械臂的控制，人脸多模态信息提取得到嘴部三维坐标，物品多模态信息提取得到物品三维坐标，所述控制器机根据物品的三维坐标控制机械臂抓取物品，再根据人脸嘴部三维坐标控制机械臂将物品送至病人嘴巴。采用深度学习方法，相比传统的技术鲁棒性更高，能够适应不同的环境，更加适合应用在公共服务的场景中，同时采用多模态的人脸的姿态与关键点估计，使得RGBD机器人看护系统服务更加精准。

Description

一种基于深度学习的RGBD机器人看护系统及方法

技术领域

本发明属于医疗器械领域，具体涉及一种基于深度学习的RGBD机器人看护系统及方法。

背景技术

2012年以来，人工智能在深度学习算法的突破下迎来了新一轮产品应用热潮。我国面临医疗资源供给不足、分布严重不均衡的背景下，人工智能在医疗健康各细分领域纷纷落地，覆盖全产业链各应用场景。

同时随着国家的发展，社会逐步进入老龄化，医疗、护理和康复的需求增加，由于国内医疗系统医患比例严重失衡。病房中很多移动困难，没有自主能力的病人都需要专门的护士进行看护工作：喂水喂药等；这样造成了看护人员上的供不应求，医院也无法完全照顾到每个病人的基本需求。

本发明目的是为了更好地解决了医患双方的共同需求，解放了医院的人力资源，提高了医院护理的工作效率。

中国专利号为CN108500987A的专利公开了一种病患药品护理机器人。该专利利用移动机器人，将药品片剂以及供水存放在机器人内部，并在检测到人体时，自动配药。该专利的优点在于帮助老年人配药，虽然对于视力下降、行动不便的老年人有帮助，但其本身也不能够识别不同的病人，不能自主给药，并且不能够携带液体药剂，在医院这样病人较多环境并不好。

中国专利号为CN105234944A的专利公开了一种护理机器人与运动控制系统。该专利公开一种护理机器人与运动控制系统采用全向移动底盘。通过双目视觉模块来实现自主避障。此项发明由于没有多自由度的机械臂，适用于老年人娱乐，对于在医院这样的场景，帮助病人喂水、喂药较为困难。

发明内容

针对上述技术问题，本发明提供一种基于深度学习的RGBD机器人看护系统及方法，至少解决上述问题之一，采用深度学习方法，相比传统的技术鲁棒性更高，能够适应不同的环境，更加适合应用在公共服务的场景中，同时采用多模态的人脸的姿态与关键点估计，使得RGBD机器人看护系统服务更加精准。

本发明解决其技术问题所采用的技术方案是：一种基于深度学习的RGBD机器人看护系统，包括第一RGBD相机、第二RGBD相机、机械臂和控制器；

第一RGBD相机包括第一2D图像处理模块和第一深度图像处理模块；所述第一2D图像处理模块，用于实时采集处理第一RGB图像，基于深度学习定位人脸框，画出人脸框区域、提取人脸关键点坐标、头部姿态、注视方向和嘴巴张合状态；所述第一深度图像处理模块，用于实时采集处理第一深度图像，结合第一RGB图像，提取嘴部关键点深度，结合人脸关键点坐标得到嘴部三维坐标；

第二RGBD相机包括第二2D图像处理模块和第二深度图像处理模块；所述第二2D图像处理模块用于实时采集第二RGB图像，基于深度学习进行目标检测，画出物品框区域；所述第二深度图像处理模块用于实时采集处理物品深度图像，结合第二RGB图像，提取物品深度；

所述控制器分别与第一RGBD相机、第二RGBD相机和机械臂连接；控制器根据物品的三维坐标控制机械臂抓取物品，再根据人脸嘴部三维坐标控制机械臂将物品送至病人嘴巴，并通过人脸姿态朝向实时调整机械臂位置。

一种根据所述基于深度学习的RGBD机器人看护系统的控制方法，包括以下步骤：

人脸多模态信息提取：所述第一RGBD相机的第一2D图像处理模块实时采集处理第一RGB图像，基于深度学习定位人脸框，画出人脸框区域、提取人脸关键点坐标、头部姿态、注视方向和嘴巴张合状态；所述第一深度图像处理模块，实时采集处理第一深度图像，结合第一RGB图像，提取嘴部关键点深度，结合人脸关键点坐标得到嘴部三维坐标，并传送到控制器；

物品多模态信息提取：第二RGBD相机的第二2D图像处理模块实时采集第二RGB图像利用深度学习模型进行目标检测，画出物品框区域；所述第二深度图像处理模块用于实时采集处理第二深度图像，结合第二RGB图像，得到物品三维坐标，并传送到控制器；

机械臂的控制：所述控制器机根据物品的三维坐标控制机械臂抓取物品，再根据人脸嘴部三维坐标控制机械臂将物品送至病人嘴巴。

上述技术方案中，所述第一2D图像处理模块具体包括以下步骤：

步骤S1、图像采集：通过第一RGBD相机采集RGB图像；

步骤S2、人脸识别与关键点检测：基于深度学习，求解人脸区域、人脸N点关键点；

步骤S3、头部姿态估计：基于深度学习，求解头部俯仰角、偏航角和滚转角三个方向自由度；

步骤S4、注视方向估计：基于深度学习，通过眼球方向与头部姿态，求解注视方向的三维坐标；

步骤S5、嘴部张合状态检测：采用多尺度轮廓特征来分析嘴巴状态的算法，求解嘴巴开度；

步骤S6、画出人脸框区域与人脸关键点。

上述技术方案中，所述第一深度图像处理模块具体包括以下步骤：

步骤K1、图像采集：通过第一RGBD相机采集深度图像；

步骤K2、图像坐标变换：由于RGB传感器与红外摄像头传感器的尺寸不同，需要将提取到的脸部关键点坐标变换到深度图像上，具体变换矩阵为，其中

为变换到深度图像上的坐标，S_x，S_y为变换系数，x₁，y₁为RGB图像上的坐标值；

步骤K3、脸部点云提取与分离；

步骤K4、提取嘴部关键点深度；

步骤K5、去噪：采用Savitzky-Golay滤波器消除步骤K4嘴部关键点深度的噪声。

上述技术方案中，所述第二2D图像处理模块具体包括以下步骤：

步骤M1、通过第二RGBD相机采集RGB图像；

步骤M2、目标检测与分类：通过第二RGBD相机的RGB图像，采用基于深度学习识别物品区域与物品的类别；

步骤M3、图像分割：对RGB图像中物品框区域中的物品进行边缘分割，获得物品边缘的坐标。

上述技术方案中，所述第二深度图像处理模块具体包括以下步骤：

步骤N1、图像采集：通过第二RGBD相机采集深度图像；

步骤N2、图像坐标变换：由于RGB传感器与红外摄像头传感器的尺寸不同，需要将提取到的物品边缘的坐标变换到深度图像上，具体变换矩阵为，其中

为变换到深度图像上的坐标，S_x，S_y为变换系数，x₂，y₂为RGB图像上的坐标值，

步骤N3、提取三维坐标：对物体边缘三维坐标进行提取，并进行Savitzky-Golay滤波。

上述技术方案中，所述步骤S2人脸识别与关键点检测，是基于深度学习的二维图像处理，具体包括以下步骤：

步骤S2.1、人脸检测：采用目标检测作为第一阶段的人脸定位，输出为人脸矩形框；

步骤S2.2、人脸关键点检测：采用关键点回归网络对嘴巴、眼睛、鼻子进行定位。

上述技术方案中，所述步骤S3头部姿态估计，是基于深度学习的二维图像处理，具体包括以下步骤：

步骤S3.1、建立数据集：数据集中包含人的头部三个自由度的信息，标签为Yaw偏航角，Pitch俯仰角，Roll翻滚角；

步骤S3.2、训练模型：采用轻量级卷积神经网络MobileNetV3-Large作为主干网络，并在此网络的基础上对网络的分类层进行微调，具体调整全连层输出维度，与加入批标准化，设置三个全连接层对三个自由度进行预测，训练损失函数为交叉熵损失与均方误差的组合；

步骤S3.3、模型推理：任给一张新的无标注的人体头部照片，可推理出头部的三个自由度。

上述技术方案中，所述步骤S4注视方向估计，是基于深度学习的二维图像处理，具体包括以下步骤：

步骤S4.1、建立数据集：数据集中包含人的眼部三个自由度的信息；

步骤S4.2、训练模型：采用轻量级卷积神经网络MobileNetV3-Large作为主干网络，并在此网络的基础上对网络的分类层进行微调，具体调整全连层输出维度，与加入批标准化，设置三个全连接层对三个自由度进行预测，训练损失函数为交叉熵损失与均方误差的组合；

步骤S4.3、模型推理：任给一张新的无标注的人脸，可推理出眼球的三个自由度。

上述技术方案中，所述步骤S5嘴部张合状态检测、具体包括以下步骤：

步骤S5.1、获取嘴部关键点；

步骤S5.2、进行嘴部轮廓拟合；

步骤S5.3、计算轮廓最小外接矩形；

步骤S5.4、构建嘴巴开度系数N＝Length/Width：Length和Width分别为最小外接矩形的长和宽；

步骤S5.5、阈值判断：通过优选当N>0.75时嘴巴为张开状态，且适用于大多数人。

所述步骤K5 Savitzky-Golay滤波器、具体包括以下步骤：

步骤K5.1、获取嘴部关键点深度数据；

步骤K5.2、设滤波窗口的宽度为x＝2m+1，其中x为总的数据量为，m为以0为中心左右两边各数据点的横坐标，各测量点为x＝(-m，-m+1，0，…，0，1，m-1，m)，采用k-1次多项式对窗口内的数据点进行拟合，其中Y为真实值，a₀…a_k为需要求解的系数：

Y＝a₀+a₁x+a₂x²+…+a_kx^k

步骤K5.3、通过最小二乘法拟合确定拟合参数A(即a₀…a_k-1)，其中E(即e_-m…e_m)为误差系数:

用矩阵表示为：

Y_(2m+1)×1＝X_(2m+1)×1·A_K×1+E_(2m+1)×1

A的最小二乘解为：

Y的预测值

为：

由此可得修正值

即为滤波完的深度数据。

与现有技术相比，本发明的有益效果是：本发明所述系统包括第一RGBD相机、第二RGBD相机、机械臂和控制器；所述方法包括人脸多模态信息提取、物品多模态信息提取和机械臂的控制，人脸多模态信息提取得到嘴部三维坐标，物品多模态信息提取得到物品三维坐标，所述控制器机根据物品的三维坐标控制机械臂抓取物品，再根据人脸嘴部三维坐标控制机械臂将物品送至病人嘴巴。采用深度学习方法，相比传统的技术鲁棒性更高，能够适应不同的环境，更加适合应用在公共服务的场景中，同时采用多模态的人脸的姿态与关键点估计，使得RGBD机器人看护系统服务更加精准。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施方式的人脸多模态信息提取流程图；

图2是本发明一实施方式的物品多模态信息提取流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“轴向”、“径向”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

如图1和2所示为本发明所述基于深度学习的RGBD机器人看护系统的一种较佳实施方式，所述基于深度学习的RGBD机器人看护系统包括第一RGBD相机、第二RGBD相机、机械臂和控制器；

第一RGBD相机包括第一2D图像处理模块和第一深度图像处理模块；所述第一2D图像处理模块，用于实时采集处理RGB图像，基于深度学习定位人脸框，画出人脸框区域、提取人脸关键点坐标、头部姿态、注视方向和嘴巴张合状态；所述第一深度图像处理模块，用于实时采集处理深度图像，结合第一RGB图像，提取嘴部关键点深度，结合人脸关键点坐标得到嘴部三维坐标；

机械臂的控制：所述控制器机根据物品的三维坐标控制机械臂抓取物品，再根据人脸嘴部三维坐标控制机械臂将物品送至病人嘴巴。具体的：机械臂通过运动规划避免机械臂在执行动作过程中遇到障碍物，其中运动规划通过电机电流检测，碰到障碍物会使电流突变，制动机械臂并重新规划路径，机械臂抓取物品。

所述第一2D图像处理模块具体包括以下步骤：

步骤S1、图像采集：通过第一RGBD相机采集RGB图像；

步骤S6、画出人脸框区域与人脸关键点。

所述第一深度图像处理模块具体包括以下步骤：

步骤K1、图像采集：通过第一RGBD相机采集深度图像；

为变换到深度图像上的坐标，S_x，S_y为变换系数，x₁，y₁为RGB图像上的坐标值，

步骤K3、脸部点云提取与分离；

步骤K4、提取嘴部关键点深度；

所述第二2D图像处理模块具体包括以下步骤：

步骤M1、通过第二RGBD相机采集RGB图像；

所述第二深度图像处理模块具体包括以下步骤：

步骤N1、图像采集：通过第二RGBD相机采集深度图像；

所述步骤S2人脸识别与关键点检测，是基于深度学习的二维图像处理，具体包括以下步骤：

步骤S2.1、人脸检测：采用目标检测作为第一阶段的人脸定位，输出为人脸矩形框的坐标；

步骤S2.2、人脸关键点检测：采用关键点回归网络对嘴巴、眼睛、鼻子进行定位，具体需要5个点的坐标(x，y)，一共为10个值(一个点两个值)，训练过程中使用的主干网络为Hourglass-104，并将最后卷积层输出转化为一维的数组，加上维度为10的全连接层和Tanh激活函数，使用的损失函数为均方误差，此网络的输出即为5个坐标点。

所述步骤S3头部姿态估计，是基于深度学习的二维图像处理，具体包括以下步骤：

所述步骤S4注视方向估计，是基于深度学习的二维图像处理，具体包括以下步骤：

所述步骤S5嘴部张合状态检测、具体包括以下步骤：

步骤S5.1、获取嘴部关键点；

步骤S5.2、进行嘴部轮廓拟合；

步骤S5.3、计算轮廓最小外接矩形；

步骤S5.5、阈值判断：通过优选当N>0.75时嘴巴为张开状态。

所述步骤K5 Savitzky-Golay滤波器、具体包括以下步骤：

步骤K5.1、获取嘴部关键点深度数据；

步骤K5.2、设滤波窗口的宽度为x＝2m+1，其中x为总的数据量为，m为以0为中心左右两边各数据点的横坐标，各测量点为x＝(-m，-m+1，0，…，0，1，m-1，m)，采用k-1次多项式对窗口内的数据点进行拟合，其中Y为真实值，a0…ak为需要求解的系数：

Y＝a₀+a₁x+a₂x²+…+a_kx^k

用矩阵表示为：

Y_(2m+1)×1＝X_(2m+1)×1·A_K×1+E_(2m+1)×1

A的最小二乘解

为：

Y的预测值为：

由此可得修正值

即为滤波完的深度数据。

应当理解，虽然本说明书是按照各个实施例描述的，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施例或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的RGBD机器人看护系统，其特征在于，包括第一RGBD相机、第二RGBD相机、机械臂和控制器；

2.一种根据权利要求1所述基于深度学习的RGBD机器人看护系统的控制方法，其特征在于，包括以下步骤：

3.根据权利要求2所述基于深度学习的RGBD机器人看护系统的控制方法，其特征在于，所述第一2D图像处理模块具体包括以下步骤：

步骤S1、图像采集：通过第一RGBD相机采集RGB图像；

步骤S6、画出人脸框区域与人脸关键点。

4.根据权利要求2所述基于深度学习的RGBD机器人看护系统的控制方法，其特征在于，

所述第一深度图像处理模块具体包括以下步骤：

步骤K1、图像采集：通过第一RGBD相机采集深度图像；

步骤K2、图像坐标变换：由于RGB传感器与红外摄像头传感器的尺寸不同，需要将提取到的脸部关键点坐标变换到深度图像上，具体变换矩阵为，其中为变换到深度图像上的坐标，S_x，S_y为变换系数，x₁，y₁为RGB图像上的坐标值，

步骤K3、脸部点云提取与分离；

步骤K4、提取嘴部关键点深度；

5.根据权利要求2所述基于深度学习的RGBD机器人看护系统的控制方法，其特征在于，所述第二2D图像处理模块具体包括以下步骤：

步骤M1、通过第二RGBD相机采集RGB图像与深度图像；

6.根据权利要求2所述基于深度学习的RGBD机器人看护系统的控制方法，其特征在于，所述第二深度图像处理模块具体包括以下步骤：

步骤N1、图像采集：通过第二RGBD相机采集深度图像；

为变换到深度图像上的坐标，S_x，S_y为变换系数，x₂，y₂为RGB图像上的坐标值；

7.根据权利要求2所述一种基于深度学习的RGBD机器人看护系统，其特征在于，所述步骤S2人脸识别与关键点检测，是基于深度学习的二维图像处理，具体包括以下步骤：

8.根据权利要求2所述一种基于深度学习的RGBD机器人看护系统，其特征在于，所述步骤S3头部姿态估计，是基于深度学习的二维图像处理，具体包括以下步骤：

步骤S3.2、训练模型：采用轻量级卷积神经网络MobileNetV3-Large作为主干网络，并在此网络的基础上对网络的分类层进行调整，设置三个全连接层对三个自由度进行预测，训练损失函数为交叉熵损失与均方误差的组合；

9.根据权利要求2所述一种基于深度学习的RGBD机器人看护系统，其特征在于，所述步骤S4注视方向估计，是基于深度学习的二维图像处理，具体包括以下步骤：

步骤S4.2、训练模型：采用轻量级卷积神经网络MobileNetV3-Large作为主干网络，并在此网络的基础上对网络的分类层进行调整，设置三个全连接层对三个自由度进行预测，训练损失函数为交叉熵损失与均方误差的组合；

10.根据权利要求2所述一种基于深度学习的RGBD机器人看护系统，其特征在于，所述步骤S5嘴部张合状态检测、具体包括以下步骤：

步骤S5.1、获取嘴部关键点；

步骤S5.2、进行嘴部轮廓拟合；

步骤S5.3、计算轮廓最小外接矩形；

步骤S5.5、阈值判断：通过优选当N>0.75时嘴巴为张开状态。