CN115227494A

CN115227494A - 一种基于深度学习的智能眼动轮椅

Info

Publication number: CN115227494A
Application number: CN202210862245.XA
Authority: CN
Inventors: 徐军; 周浩
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-10-25

Abstract

本发明公开了一种基于深度学习的智能眼动轮椅，涉及机器视觉技术领域；包括眼动数据采集、数据预处理、眼动方向估计模型搭建、实验结果与可视化、眼动轮椅控制系统；其中数据预处理采用OpenCV图像处理和Dlib人脸检测技术；实验结果可视化利用Grad‑CAM对输入图像生成类激活的热力图，对卷积神经网络在视觉上进行可视化理解；本发明使用深度学习算法估计眼动方向，不仅消缺人眼和屏幕的过度交互，同时实现低成本的眼动方向估计；在传统图片提取特征方法的基础上，将卷积神经网络和注意力机制结合，准确提出人眼瞳孔特征信息；设计舵机控制电动轮椅操作杆机械结构，将眼动方向估计信号转化为Arduino控制电信号。

Description

一种基于深度学习的智能眼动轮椅

技术领域

本发明属于机器视觉技术领域，具体涉及一种基于深度学习的智能眼动轮椅。

背景技术

随着机器视觉技术的飞速发展，眼动追踪技术被应用在很多领域，例如：非言语交流、人机交互和意图预测等。根据世界卫生组织发布的世界残疾报告中指出，全球大约15％的人有某种形式的残疾，有1.32亿残疾人需要轮椅，占世界人口的1.86％。其中有数百万患有运动障碍有关疾病的人不能控制肢体甚至头部的运动。对于这些患者，眼睛是他们表达思想的重要途径。

传统的眼动方向预测多是使用眼动仪，眼动仪价格昂贵，长期佩戴眼动仪，其利用的红外技术会对人眼造成严重伤害；而且在检测时准确度低。

发明内容

为解决背景技术中的问题；本发明的目的在于提供一种基于深度学习的智能眼动轮椅。

本发明的一种基于深度学习的智能眼动轮椅，包括眼动数据采集、数据预处理、眼动方向估计模型搭建、实验结果与可视化、眼动轮椅控制系统；其中数据预处理采用OpenCV图像处理和Dlib人脸检测技术；实验结果可视化利用Grad-CAM对输入图像生成类激活的热力图，对卷积神经网络在视觉上进行可视化理解；眼动轮椅控制系统包括AI计算模块、微控制器和舵机机械结构。

作为优选，所述数据预处理为数据预处理模块，数据预处理模块包括视频提取图片、提取人脸人眼信息、对图片进行标注；

(1)、利用OpenCV-Python对视频进行帧提取工作，并对提取后的图片尺寸统一裁剪为200*200；

(2)、利用Dlib人脸检测算法，Dlib提取关键点，使用Python语言，对每张图片提取人眼信息，根据人眼的关键点坐标截取双眼图片；

(3)、根据视频记录时间和激光笔照射位置，对每一帧图片中的人眼信息进行标注。

作为优选，所述眼动方向估计模型搭建为提出一个能准确、实时通过人眼图片估计眼动方向的神经网络模型；选择使用卷积神经网络结合注意力机制使用的数据集；使用信息融合技术，将人眼和人脸融合后作为输入进入神经网络，通过这些混合信息，模型能够准确的估计眼动方向。

作为优选，所述实验结果与可视化：采用Grad-CAM对图像学习特征位置进行判别。

作为优选，所述眼动轮椅控制系统：首先读取前级摄像头视频图像数据后，运行人脸检测算法，提取人眼图像，将人眼图像送入MEANet网络，将网络输出通过UART接口发送给Arduino Uno微控制器，Arduino微控制器通过GPIO引脚连接两台MG995舵机，X轴与Y轴舵机通过机械结构协同控制轮椅摇杆，完成眼动轮椅控制系统。

与现有技术相比，本发明的有益效果为：

一、使用深度学习算法估计眼动方向，不仅消缺人眼和屏幕的过度交互，同时实现低成本的眼动方向估计；在传统图片提取特征方法的基础上，将卷积神经网络和注意力机制结合，准确提出人眼瞳孔特征信息。

二、设计舵机控制电动轮椅操作杆机械结构，将眼动方向估计信号转化为Arduino控制电信号，进而通过机械结构控制轮椅追踪人眼实时运动。

附图说明

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明的结构框图；

图2为本发明中MEANet整体结构图；

图3为本发明中残差网络层的示意图；

图4为本发明中CBAM注意力模块结构图；

图5为本发明中九分类任务验证混淆矩阵结果图；

图6为本发明中轮椅控制系统图；

图7为本发明中硬件控制系统集成图；

图8为本发明中软件总体流程图；

图9为本发明中人脸检测与信息提取流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本具体实施方式采用以下技术方案：包括眼动数据采集、数据预处理、眼动方向估计模型搭建、实验结果与可视化、眼动轮椅控制系统；其中数据预处理采用OpenCV图像处理和Dlib人脸检测技术；实验结果可视化利用Grad-CAM(Gradient-weighted ClassActivation Mapping)对输入图像生成类激活的热力图，对卷积神经网络在视觉上进行可视化理解；眼动轮椅控制系统包括AI计算模块、微控制器和舵机机械结构；如图1所示。

眼动数据采集：数据采集类型决定了数据库的应用范围和功能，通过考虑眼动轮椅功能和控制要求，本具体实施方式在现实、虚拟两大场景下采集眼动数据。虚拟场景下，采用Linux操作系统，基于ROS，Gazebo平台进行轮椅驾驶仿真，采集虚拟环境眼动数据。在现实场景下，本具体实施方式采用九宫格方案采集眼动数据。眼动数据采集实验参数如表2-1所示。

表2-1眼动数据采集实验参数

本实验采用九宫格总体大小为99cm*99cm，九宫格到人眼距离为3m，背景为墙体。在考虑数据质量和对比现有视觉摄像头后，视觉摄像头模块决定采用谷客HD98摄像头，该摄像头分辨率为1920*1080，帧数为30帧/s，像素为1200万，具有自动对焦和自动补光功能。摄像头到人眼距离为48cm，摄像头与地面高度为110cm。

数据采集流程为将一个墙体人为划分九宫格，通过激光笔按照逆时针指向九宫格的每个小格，同时使用秒表记录每个小格停留时间，停留时间为每个小格5秒。将轮椅放置在离墙面3米距离处，实验者坐在轮椅上观察激光笔的位置，在此期间通过摄像头采集人脸区域视频。

眼动数据库共包含100个对象，每个对象包含1350张数据。其中带眼睛3人，男女比例3：1，平均年龄34岁。

数据预处理模块：

数据预处理模块主要包含视频提取图片，提取人脸人眼信息，对图片进行标注等。

1、利用OpenCV-Python对视频进行帧提取工作，并对提取后的图片尺寸统一裁剪为200*200。

2、利用Dlib人脸检测算法，Dlib提取关键点，使用Python语言，对每张图片提取人眼信息，根据人眼的关键点坐标截取双眼图片，为了消除双眼间距对人眼信息的干扰，本具体实施方式分别截图了每帧图片的双眼信息后将双眼按水平方向合并在一起，并将所有图片尺寸统一化为200*200。

3、根据视频记录时间和激光笔照射位置，对每一帧图片中的人眼信息进行标注。

眼动方向估计模型搭建：提出一个能准确、实时通过人眼图片估计眼动方向的神经网络模型。选择使用卷积神经网络结合注意力机制使用的数据集。考虑到人脸信息对人眼方向预测的干扰，使用信息融合技术，将人眼和人脸融合后作为输入进入神经网络，通过这些混合信息，模型能够准确的估计眼动方向。基于这些信息，设计MEANet的整体结构，如图2所示。

MEANet共包含四个卷积池化层，每个卷积层核函数分别为5*5，5*5，3*3，1*1。为了学习到更深的人眼特征，在第一个卷积池化层后，加入了Googlenet中的InceptionModule。Inception Module基本组成结构有四个成分：1*1卷积，3*3卷积，5*5卷积，3*3最大池化，最后对四个成分运算结果进行通道上组合。它的核心思想是通过多个卷积核提取图像不同尺度的信息，最后进行融合，可以得到图像更好的表征。同时考虑到当网络过于深时，容易出现网络退化现象，即训练的准确率会趋于平缓,但是训练误差会变大。因此在第三个卷积池化层后加入残差网络。残差网络结构如图3所示。

为了更好的提取人眼特征，提取眼动方向估计准确率，在卷积神经网络的基础上加入了注意力机制，对比多种注意力机制和的数据集，采用CBAM注意力机制，CBAM整体结构如图4所示。

CBAM是基于卷积块的注意机制，它结合了空间注意力机制和通道注意力机制，它能显著提高图像分类的正确率。通道注意力模块关注什么样的特征是有意义的，采用了全局平均池化和最大池化两种方式来分别利用不同的信息输入是一个H×W×C的特征F，如公式(1)所示。

先分别进行一个空间的全局平均池化和最大池化得到两个1×1×C的通道描述。接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为C/r，激活函数为Relu，第二层神经元个数为C。这个两层的神经网络是共享的。然后，再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。最后，拿权重系数和原来的特征F相乘即可得到缩放后的新特征。

空间注意力机制关注哪里的特征是有意义的，与通道注意力相似，给定一个H×W×C的特征F，如公式(2)所示。

先分别进行一个通道维度的平均池化和最大池化得到两个H×W×1的通道描述，并将这两个描述按照通道拼接在一起。然后，经过一个7×7的卷积层，激活函数为Sigmoid，得到权重系数Ms。最后，拿权重系数和特征F相乘即可得到缩放后的新特征。

实验结果与可视化：

为了更好地理解卷积神经网络，对其在视觉上进行可视化解释，更好地对模型进行决策，本具体实施方式采用Grad-CAM对图像学习特征位置进行判别。

Grad-CAM指对输入图像生成类激活的热力图。它是与特定输出类别相关的二维特征分数网络，网格的每个位置表示该类别的重要程度。同时Grad-CAM可以对任意结构的CNN进行可视化，不需要修改网络结构或者重新训练。

在完成网络训练后，为了验证卷积神经网络的作用，将一张被分类为“左”的图片输入到加载训练权重的网络模型，利用Grad-CAM可以以热力图形式呈现图片中每个位置与“左”类的相似程度。有助于了解一张原始图像的哪一个局部位置让卷积神经网络模型做出了最终的分类决策。

在使用Grad-CAM可视化卷积神经网络作用的同时，使用混淆矩阵表示我的眼动方向预测结果准确度，九分类任务混淆矩阵结果如图5。在验证过程中，共用971张图片送入网络，其中被正确分类图片数906张，被错误分类图片65张，九分类任务分类准确率达到93.31％。

眼动轮椅控制系统：

智能眼动轮椅控制系统设计方案中，在对比多种AI计算设备，结合实时估计眼动位置信息并控制轮椅运动的功能要求，本具体实施方式图像处理和网络计算部分采用嵌入式平台TX2模块。眼动轮椅控制系统如图6所示，首先读取前级摄像头视频图像数据后，运行人脸检测算法，提取人眼图像，将人眼图像送入MEANet网络，将网络输出通过UART接口发送给Arduino Uno微控制器，Arduino微控制器通过GPIO引脚连接两台MG995舵机，X轴与Y轴舵机通过机械结构协同控制轮椅摇杆，完成眼动轮椅控制系统。

为了实现低成本改造电动轮椅，保留了原控制器，保持其原有功能，同时对控制器的操纵杆进行外部修改。

原理分析与硬件集成：

智能眼动轮椅的依靠硬件系统下各个功能模块协同运行来完成的。而每个模块间的相互配合程度将直接影响控制系统的整体性能。本章将对智能眼动轮椅系统进行原理分析，同时给出硬件集成方案。

智能眼动轮椅控制系统原理分析：

系统需求分析：

为使智能眼动轮椅满足设计要求，应用于日常生活，提出的基于卷积神经网络和注意力机制的智能眼动轮椅系统应具有以下功能：

1.视觉显示与人脸检测：将前级摄像头采集到的视觉显示到液晶屏上，利用人脸检测技术，提取人脸信息，人眼信息，并将人眼和人脸信息融合。人脸检测是系统所有功能的基础；

2.眼动方向估计功能：智能眼动轮椅的核心思想是利用卷积神经网络和注意力机制准确、快速、稳定的估计眼动方向；

3.嵌入式：能够实现独立的眼动方向估计到轮椅运动是智能轮椅应用于日常生活的前提，本具体实施方式主要包好嵌入式技术在TX2和Arduino上的应用；

4.前进、停止和转向功能：二维空间的移动是智能眼动轮椅的基础功能，通过眼动方向估计前进和转向，通过检测眨眼频率停止是控制轮椅的基本思想；

5.轮椅调速功能：智能眼动轮椅运行在不同环境，应具有不能的运行速度方案，通过调节Arduino，可以控制舵机转动幅度，而今控制轮椅操作杆操作幅度。

人脸检测原理：

人脸检测，就是给一幅图像，找出图像中的所有人脸位置，通常用一个矩形框框起来，输入是一幅图像，输出是若干个包含人脸的矩形框位置，属于目标检测范围。

本具体实施方式中使用Dlib人脸检测算法，主要原理是计算已知图片中所有人脸对应的特征向量，计算要识别的未知图片中所有人脸对应的特征向量，计算人脸之间的欧式距离，如果两张人脸之间的欧式距离小于设定的阈值，则认为是同一个人，否则认为不是同一个人。

眼动方向估计原理：

眼动方向估计本质是图片分类问题，在分类问题上，无论是GoogLeNet、VGGNet还是RESNet,其核心思想都是通过卷积神经网络学习到想要的深度特征，通过全连接层和非线性激活函数，实现非线性变换，完成分类目标。

本具体实施方式中为了保留更多的人眼瞳孔信息同时消除头部位姿对眼动方向估计的影响，采用人眼和人脸融合RGB图片作为MEANet输入。提出的MEANet共包含四个卷积池化层，每个卷积层核函数分别为5*5，5*5，3*3，1*1。为了学习到更深的人眼特征，在第一个卷积池化层后，加入了Googlenet中的Inception Module。Inception Module基本组成结构有四个成分：1*1卷积，3*3卷积，5*5卷积，3*3最大池化，最后对四个成分运算结果进行通道上组合。它的核心思想是通过多个卷积核提取图像不同尺度的信息，最后进行融合，可以得到图像更好的表征。同时考虑到当网络过于深时，容易出现网络退化现象，即训练的准确率会趋于平缓,但是训练误差会变大。因此在第三个卷积池化层后加入残差网络，残差网络不仅可以解决网络退化问题，还可以使网络模型更易优化。

硬件集成：

智能眼动轮椅硬件集成主要由处理图像与深度学习的TX2嵌入式平台、ArduinoUno微控制器、两个MG995舵机、十寸触摸液晶屏、24V锂电池、变压器等模块组成，其硬件控制系统集成图如图7所示。

AI计算嵌入式平台TX2：

智能眼动轮椅控制模块主要由NVIDIA公司推出的嵌入式平台Jetson TX2构成，它是目前领先的低功耗嵌入式开发平台，标准功耗仅为7.5W，可为智能眼动轮椅提供服务器级别的AI计算性能。

该平台可为深度学习方法在智能眼动轮椅中的部署应用提供可靠保障，同时该平台还具备高性能的硬件视频编解码处理、多通道音频处理以及千兆以太网传输能力，能为巡检机器人提供可靠的音视频处理以及无线传输功能，可作为智能眼动轮椅的数据处理模块。硬件方面，Jetson TX2的核心部分主要由两块CPU和一块拥有256个CUDA核心的GPU组成。CPU部分由两个高性能的ARM v8 64位CPU集群组成，其中一块为四核ARM Cortex-A57CPU，用于提供高性能的多线程运算能力，另一块为经过NVIDIA深度优化后的双核DenverCPU，用于提高单线程处理能力。其GPU部分采用NVIDIA Pascal架构，具备256个CUDA核心的并行计算处理能力，能够高效的运行深度学习模型，其计算性能可达到桌面级显卡GTX750的同等水平。其硬件配置如表3-1所示。

表3-1TX2硬件配置表

Arduino Uno微控制器模块：

Arduino Uno是基于ATmega328P的Arduino开发板。ATmega328P是Arduino的大脑，它是基于Atmel微微功耗8位AVR RISC的高性能微控制器，可在单个时钟周期内执行功能强大的指令。

Arduino Uno有14个数字输入/输出引脚(其中6个可用于PWM输出)、6个模拟输入引脚，一个16MHz的晶体振荡器，一个USB接口，一个DC接口，一个ICSP接口，一个复位按钮。通过PB1和PB2连接MG995舵机，通过Arduino Uno提供稳定的5V输出向舵机供电。在ArduinoUno引脚中，共有5个GND引脚，他们都是互连的。

MG995舵机：

MG995舵机上有三根线，分别为VCC、GND、信号线，其连线图如图3-4所示。MG995的控制信号一般要求周期为20ms的PWM信号。此外VCC、GND需要另外接驱动给舵机供电，而且需与开发板共地，本具体实施方式中通过Arduino Uno提供的5V稳定电压连接MG995VCC为其供电，PB1与PB2产生PWM信号控制舵机转动。

软件设计与流程：

智能眼动轮椅的软件设计部分主要包含人脸检测模块、网络设计模块和舵机控制模块，软件总体流程图见图8所示。

人脸检测与信息提取：

本具体实施方式采用PyCharm2019.1编译器，基于Python3.6、OpenCV4.5.0、Dlib19.21.1环境，利用Dlib人脸检测算法，标记人脸68个关键点，利用人眼关键点坐标，提取人眼信息。下面附上人脸检测程序流程图，如图9所示。

在人脸检测程序中，首先获取摄像头每帧图像信息，然后利用Dlib算法寻找图像信息中的人脸，如果找到人脸，将返回人脸个数和68个关键点坐标，利用关键点坐标信息，分别截取左眼、右眼、人脸图片，将左眼与右眼图片按水平方向拼接，在其基础上将人脸图片与双眼图片结合。

MEANet搭建：

考虑到程序开发环境和模型可搭建性，本具体实施方式采用Python语言，基于Pytorch深度学习框架，选用GPU版本Pytorch1.2.0,Torchvision版本选用0.4.0。

MEANet主网络中，每个卷积层后都加了最大池化，减少过拟合现象，激活函数选用relu函数，其中第四层卷积层卷积核为1*1，目的是减少网络层数深而增加的计算量，加速训练过程。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的智能眼动轮椅，其特征在于：包括眼动数据采集、数据预处理、眼动方向估计模型搭建、实验结果与可视化、眼动轮椅控制系统；其中数据预处理采用OpenCV图像处理和Dlib人脸检测技术；实验结果可视化利用Grad-CAM对输入图像生成类激活的热力图，对卷积神经网络在视觉上进行可视化理解；眼动轮椅控制系统包括AI计算模块、微控制器和舵机机械结构。

2.根据权利要求1所述的一种基于深度学习的智能眼动轮椅，其特征在于：所述数据预处理为数据预处理模块，数据预处理模块包括视频提取图片、提取人脸人眼信息、对图片进行标注；

（1）、利用OpenCV-Python对视频进行帧提取工作，并对提取后的图片尺寸统一裁剪为200*200；

（2）、利用Dlib人脸检测算法，Dlib提取关键点，使用Python语言，对每张图片提取人眼信息，根据人眼的关键点坐标截取双眼图片；

（3）、根据视频记录时间和激光笔照射位置，对每一帧图片中的人眼信息进行标注。

3.根据权利要求1所述的一种基于深度学习的智能眼动轮椅，其特征在于：所述眼动方向估计模型搭建为提出一个能准确、实时通过人眼图片估计眼动方向的神经网络模型；选择使用卷积神经网络结合注意力机制使用的数据集；使用信息融合技术，将人眼和人脸融合后作为输入进入神经网络，通过这些混合信息，模型能够准确的估计眼动方向。

4.根据权利要求1所述的一种基于深度学习的智能眼动轮椅，其特征在于：所述实验结果与可视化：采用Grad-CAM对图像学习特征位置进行判别。

5.根据权利要求1所述的一种基于深度学习的智能眼动轮椅，其特征在于：所述眼动轮椅控制系统：首先读取前级摄像头视频图像数据后，运行人脸检测算法，提取人眼图像，将人眼图像送入MEANet网络，将网络输出通过UART接口发送给Arduino Uno微控制器，Arduino微控制器通过GPIO引脚连接两台MG995 舵机，X轴与Y轴舵机通过机械结构协同控制轮椅摇杆，完成眼动轮椅控制系统。