CN112932910A

CN112932910A - 一种穿戴式智能感知导盲系统

Info

Publication number: CN112932910A
Application number: CN202110098969.7A
Authority: CN
Inventors: 刘宇红; 李伟斌; 付建伟; 张荣芬; 胡国军
Original assignee: Hangzhou Yixiangyou Intelligent Technology Co ltd
Current assignee: Hangzhou Yixiangyou Intelligent Technology Co ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-06-11

Abstract

本发明公开一种穿戴式智能感知导盲系统,包括有MCU主控单元、双目摄像头、语音播报模块、GPS定位模块、本地储存器、4G/5G通信接口以及天线，所述双目摄像头通过USB接口与MCU主控单元相连接，所述GPS定位模块通过UART接口与MCU主控单元相连接，所述本地储存器通过总线接口与MCU主控单元相连接，所述4G/5G通信接口通过DTU接口与MCU主控单元相连接，在所述4G/5G通信接口上连接有天线，语音播报模块通过UART接口与MCU主控单元相连接；由双目摄像头来采集环境信息，MCU主控单元运用CNN深度学习神经网络模型，来检测视障人士行走通道上的各类障碍物，确定障碍物的距离和方位，合理规划行走路线，同时在交通路口识别斑马线及红绿灯，通过语音提示视障人士的行走。

Description

一种穿戴式智能感知导盲系统

技术领域

本发明涉及导盲领域，尤其涉及一种穿戴式智能感知导盲系统。

背景技术

中国是世界盲人最多的国家,约有1200万,占全世界盲人口的18％，作为社会群体中的特殊人群，他们终生生活在无边的黑暗中，因此常常会遇到各种难题，目前市场上的一些导盲产品大多结构简单而功能单一(只能简单提示前方有障碍物)，虽然有些产品使用方便，但辅助效果并不明显，而且，视障朋友在使用时会碰到诸多问题，比如路况不好，坑洼不平，前方有悬挂的障碍物等等，普通的导盲产品无法准确的探明。现有导盲产品的障碍物探测功能，仅仅局限于对障碍物的距离进行探测，不能对障碍物所在方位进行精确定位，并且只能对单一障碍物进行探测，如在多运动障碍物的探测中，仅仅能够探测到离使用者距离最近的障碍物，因此使得产品的导盲功能实用性大幅度降低。

关于智能导盲设备如导盲眼镜，在国际和国内都有团队和公司进行过研究，但由于性能以及使用体验不理想等原因始终停留在性能检测与小批量试产阶段，至今并未形成规模化市场。尤其是在国内，对视障人士辅助导盲设备的研发更是处于起步阶段，距大规模产品化、商业化还有很长的一段距离，而且就目前而言，我国针对导盲设备的市场空间还远没有达到发展普及阶段，因此，解决这一类的问题显得尤为重要。

发明内容

针对上述问题，本发明提供了一种穿戴式智能感知导盲系统，运用机器视觉和人工智能技术对环境进行3D建模，对环境中的静态和动态障碍物进行检测和识别，获取障碍物所在区域，并计算出相对视障人士的距离和方位，采用九方格地图进行有效行走路径规划，通过语音播报前方路况信息，提示视障人士行走与避障。本发明能在动态环境下，感知环境中障碍物的空间位置，规划出供视障人士行走的路线，为视障人士的出行提供方便。

为了实现上述技术方案，本发明提供了一种穿戴式智能感知导盲系统,包括有MCU主控单元、双目摄像头、语音播报模块、GPS定位模块、本地储存器、4G/5G通信接口以及天线，所述双目摄像头通过USB接口与MCU主控单元相连接，所述GPS定位模块通过UART接口与MCU主控单元相连接，所述本地储存器通过总线接口与MCU主控单元相连接，所述4G/5G通信接口通过DTU接口与MCU主控单元相连接，在所述4G/5G通信接口上连接有天线，语音播报模块通过UART接口与MCU主控单元相连接；由双目摄像头来采集环境信息，MCU主控单元运用CNN深度学习神经网络模型，来检测视障人士行走通道上的各类障碍物，确定障碍物的距离和方位，合理规划行走路线，同时在交通路口识别斑马线及红绿灯，通过语音提示视障人士的行走。

进一步改进在于，所述MCU主控单元为Xavier NX主控板，在所述Xavier NX主控板中部署深度学习障碍物检测与识别算法和双目测距算法以及视障人士行走通道识别以及导航与避障算法。

进一步改进在于，所述MCU主控单元通过V4L2来实现双目摄像头的拍摄，首先使用V4L2获取双目摄像头参数，检测双目摄像头支持的格式，使用VIDIOC_S_FMT设置驱动的频捕获模式并计算其大小；然后申请帧缓冲数量为1，在内存中建立对应空间，通过mmap建立映射关系，将申请到的缓冲送入队列并开始捕捉图像。

进一步改进在于，由于拍摄的图像格式为YUYV，该格式较大且不便于传输及查看，因此对其进行格式转换，首先将YUYV转换为RGB格式，再使用JPEG压缩为jpg格式，最后保存图像，解除内存映射空间。

进一步改进在于，所述双目测距算法根据视差原理模拟人类的双眼，通过左右视图获取目标的三维信息，具体步骤如下：

步骤一：使用未标定的双目摄像头拍摄20对左右视图数据，以完成相机的标定和立体校正；

步骤二：校正信息保存为OpenCV的yml文件；

步骤三：标定完成后，直接拍摄左右视图并使用BM算法测距，每次测距时，模块初始化，读取包含校正信息的yml文件，进行立体匹配获取深度图；

步骤四：待障碍物检测识别算法计算后，将检测框坐标与深度图匹配，选取检测框中心点位置输出距离信息；

步骤五：将深度图平均分为三个像素区域，分别为左前方、前方、右前方，并根据检测框中心点所在像素位置确定方位，输出目标的方位信息。

进一步改进在于，所述深度学习障碍物检测与识别算法以Darknet-YOLOv3为框架，并基于GoogleNet的卷积神经网络，采用Darknet-53作为特征提取主干网络。

进一步改进在于，视障人士行走通道识别以及导航与避障算法的实现步骤为：

步骤一：运用机器视觉和人工智能技术对环境进行3D建模，所述3D建模的模型地图为包括有九个有效区域的九方格地图，将九方格地图中的底部中间位置处的有效区域方格作为用户落脚点的起始方格，每一个有效区域的方格的边长设置为0.5m，视障人士下一步的行走路径以起始方格为基准，以左方、右方、左前方、正前方或右前方的方格为即将行走的规划路线，路径规划的结果根据当前前方有效区域内的障碍物分布来确定；

步骤二：找出有效区域内距离视障人士最近的一个和多个目标，将其映射到九方格所在区域内；

步骤三：标出每个目标在九方格地图上的位置和覆盖区域，目标的位置以检测到的目标框为基准，目标的覆盖区域就是检测框检测到的区域；

步骤四：方格有效性检测，方格有效性由覆盖每个方格的目标的区域和大小确定，具体针对每个格子所在位置的不同有不同的计算方法；

步骤五：规划有效行走路径，对于标记为无效的方格均为不可通行区域，路径规划时均认为是非通行区；有效路径的规划是以起始方格S32为出发点，沿左方、右方、左前方、正前方和右前方5个方向查找是否存在可通行区域，可通行区域必须是有效方格所在区域，如果找到可以通行的区域，就将其标识为可通行路径，如果存在多条可通行路径就依次按正前方、左前方、右前方、左方、右方的优先级顺序选择最优路线。

进一步改进在于：播报提醒采用语音+报警音的方式，系统每隔大约3秒播报一次障碍物信息和行走方向提示，障碍物一旦进入有效区域内(前方大约1.5m*1.5m区域)，系统即刻启动“嘟嘟”报警音。本系统采用三种不同频率的音频声表示距离：距离在1m～1.5m范围用低频报警音，距离在0.5m～1.0m范围用中频报警音，距离在0.5m范围则用高频报警音，这样视障人士就能根据系统的提示一步一步往前行走。

进一步改进在于：播报的行走方向包括以下5种：

(1)向左方行走

(2)向右方行走

(3)向左前方行走

(4)向正前方行走

(5)向右前方行走

进一步改进在于：播报的障碍物位置信息有以下3种：

(1)左前方有障碍物

(2)正前方有障碍物

(3)右前方有障碍物

本发明能检测识别人行道上各类常见的障碍物，包括：路锥、石球、隔离柱、禁止横杆、栏杆、消防栓、植物、人、坑、水坑等，能对交通路口的各种标识和目标进行识别，包括：斑马线、信号灯、自行车、摩托车、车辆、人等，还可以判断上楼梯、下楼梯、各种台阶，以及一些其它未知类别的障碍物目标。

本发明的有益效果是

1、运用机器视觉和人工智能技术对环境进行3D建模，对环境中的静态和动态障碍物进行检测和识别，获取障碍物所在区域，并计算出相对视障人士的距离和方位，采用九方格地图进行有效行走路径规划，通过语音播报前方路况信息，提示视障人士行走与避障。本发明能在动态环境下，感知环境中障碍物的空间位置，规划出供视障人士行走的路线，为视障人士的出行提供方便。

2、针对视障人士日常生活中的出行问题而专门设计的一套辅助工具，使用者只需要穿上和佩戴上集成了本系统的智能腰包等“穿戴式智能设备”系列终端，就可以实现视障人士出行中的自主避障与路径规划、语音+音频的障碍物与方位提醒以及行走方向的语音提示等功能。

3、本发明充分考虑了同类产品的各种性能缺陷，并在同类设备的基础上，将各方面性能做了进一步的创新与提高。运用先进的深度学习算法并在此基础上改进优化设计了一种高性能障碍物探测网络，将双目摄像头获取的视差图转换为深度图，并与障碍物探测网络相结合，准确获取障碍物的位置与距离，同时，系统采用了语音提示与音频相结合的方式对障碍物的位置与距离信息进行提示。

附图说明

图1为本发明的流程图。

图2为本发明的系统框架图。

图3为本发明的双目测距的模型。

图4为本发明的实际距离和深度图输出之间拟合的直线图。

图5为本发明的双目测距算法流程。

图6为本发明的YOLOV3算法网络结构图。

图7为本发明的九方格地图。

具体实施方式

为了加深对本发明的理解，下面将结合实施例对本发明做进一步详述，本实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

根据图1-图7所示，本实施例提供了一种穿戴式智能感知导盲系统,包括有MCU主控单元、双目摄像头、语音播报模块、GPS定位模块、本地储存器、4G/5G通信接口以及天线，所述双目摄像头通过USB接口与MCU主控单元相连接，所述GPS定位模块通过UART接口与MCU主控单元相连接，所述本地储存器通过总线接口与MCU主控单元相连接，所述4G/5G通信接口通过DTU接口与MCU主控单元相连接，在所述4G/5G通信接口上连接有天线，语音播报模块通过UART接口与MCU主控单元相连接；由双目摄像头来采集环境信息，MCU主控单元运用CNN深度学习神经网络模型，来检测视障人士行走通道上的各类障碍物，确定障碍物的距离和方位，合理规划行走路线，同时在交通路口识别斑马线及红绿灯，通过语音提示视障人士的行走。

在本实施例中，所述MCU主控单元为Xavier NX主控板，在所述Xavier NX主控板中部署深度学习障碍物检测与识别算法和双目测距算法以及视障人士行走通道识别以及导航与避障算法。

在本实施例中，所述MCU主控单元通过V4L2来实现双目摄像头的拍摄，首先使用V4L2获取双目摄像头参数，检测双目摄像头支持的格式，使用VIDIOC_S_FMT设置驱动的频捕获模式并计算其大小；然后申请帧缓冲数量为1，在内存中建立对应空间，通过mmap建立映射关系，将申请到的缓冲送入队列并开始捕捉图像。由于拍摄的图像格式为YUYV，该格式较大且不便于传输及查看，因此对其进行格式转换，首先将YUYV转换为RGB格式，再使用JPEG压缩为jpg格式，最后保存图像，解除内存映射空间，采用这种方式采集图像，并压缩成适合传输的格式。

如图5所示，在本实施例中，所述双目测距算法根据视差原理模拟人类的双眼，通过左右视图获取目标的三维信息，具体步骤如下：

步骤二：校正信息保存为OpenCV的yml文件；

如图3所示，视差原理是不同摄像机对同一物体拍摄的两张图像，会对观察的物体造成一定的差异，通过计算、分析这种差异，可以生成目标物体的视差图。该视差图包含了丰富的三维信息，能直接获取物体的距离。

假设两个相机的参数完全一致，并且处于同一水平线上，其中0₁和0_r分别是左右相机的光心，两个光心的距离(基线)用T表示，物体的位置为点P，P₁和P_r分别是物体P在左右图像中对应的点，而xl和xr分别是点P₁和P_r在图像中的横坐标，相机的焦距用f表示

由相似三角形原理：

推导可得：

基线长度T和焦距f可以通过相机标定获得，因此，得到视差d＝x_l-x_r即可计算物体的距离信息。

由上述双目测距的原理可知，只要计算出视差d＝x_l-x_r，就可以方便地计算出物体的距离，视差图可通过立体匹配算法匹配左右视图中相同的点来获得。本设计采用块匹配(Block Matching，BM)算法在OpenCV上实现，利用“绝对误差累计”的小窗口法来匹配左右视图中相同的点，BM算法的运行速度较快但效果相对一般，不过已经满足系统需求。

BM算法的一般步骤如下：

⑴对图像进行预处理，加强图像的纹理信息；

⑵沿着水平极线方向滑动SAD窗口进行匹配；

⑶过滤处理，去除误匹配的点；

OpenCV库中提供了StereoBM类来进行立体匹配，在设置完相关参数后，调用computer()函数计算视差图，由于本设计使用的版本是OpenCV3.4.1，计算出来的视差图是翻转的，需要调用flip()函数将图片恢复正常。获取视差图后，调用reprojectImageTo3D函数根据视差图构建包含距离信息的三维空间。

由于深度图输出的距离信息与实际距离存在一定的关系，因此需要通过多次试验对实际距离和深度图输出之间的关系进行线性拟合。测试发现，物体的实际距离在大于30厘米左右时，视差图效果较好，距离太近视差图会有一定程度的变形，无法获取实际的距离信息。测试的最远有效视场为900厘米，图4是对实际距离和视差图的平均值进行拟合的直线图。

在本实施例中，所述深度学习障碍物检测与识别算法以Darknet-YOLOv3为框架，并基于GoogleNet的卷积神经网络，采用Darknet-53作为特征提取主干网络，其网络结构如图6所示。

YOLOV3算法属于全卷积网络，其在Darknet53结构中多次采用跳层残差模块，并利用卷积的步长移动实现下采样操作，避免直接使用池化运算而导致梯度爆炸的现象。YOLOV3算法运用特征金字塔网络FPN中的特征图上采样思想进行特征融合，从而提高对小目标检测的精度。

特征融合后最终输出3个尺度的特征图层，如表1所示：

表1 YOLOV3算法3个尺寸特征图对比表

由表1分析可知：特征图层1的输出特征图大小为13×13，每个像素(cell)都会对应3个边界框(bounding box)。在YOLOV3算法的网络结构中，由于特征图层1属于高层特征，感受野最大，适合检测大物体，所以每个cell所对应的3个边界框的尺寸大小分别为116×90、156×198、376×326，预测边框的数量为13×13×3＝507。特征图层2输出特征图大小为26×26，感受野适中，适合检测一般大小物体，预测边框尺寸分别为30×61、62×45、59×119，预测边框的数量为26×26×3＝2028。特征图层3输出特征图大小为52×52，感受野最小，适合检测小物体，预测边框尺寸分别为10×13、16×30、32×23，预测边框的数量为52×52×3＝8112。因此，假设输入图像大小为416×416，YOLOV3算法总共产生预测边界框的数量为(13×13+26×26+52×52)×3＝10647，每个边界框都会预测输出物体类别概率得分及边框位置坐标。

在进行目标检测时，先通过特征提取网络Darknet-53对输入图像进行特征提取，得到不同尺度的3个特征图层，每个特征图层中每个cell就会对应原图中一个小方块，假设被检测物体(Ground truth)的中心坐标位于哪个小方块，则该方块就用来预测物体。由表1研究可知，每个方块对应9个预测框，在这几个预测框中只有和被检测物体的IOU最大的边界框才被用来预测物体。预设边界框到最终预测边界框的转换过程如下述公式所示：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中σ(x)是sigmoid函数，c_x与c_y是预测边界框在特征图上的中心坐标，p_w与p_h是预设的边界框的边长，最终得到的边框坐标值为b_x,y,w,h，而网络学习目标为t_x,y.w,h。

如图7所示，在本实施例中，视障人士行走通道识别以及导航与避障算法的实现步骤为：

视障人士行走以步子为基本单位，每步的步幅大约是0.2m到0.6m之间，由于视障人士行走缓慢，在行走过程中对视障人士的行走构成威胁的应该是距离其前方1.5m内大约60°角扇面范围内的障碍物，这个区域我们称为有效区域。在视障人士当前位置只要能准确识别其前方有效区域内障碍物，就能规划出下一步的行走路径。为此，设计一种九方格地图，该地图将前方有效区域分成九个方格，每个方格的边长设置为0.5m。假设视障人士的当前位置位于九方格最下方的中间一个方格S₃₂，此方格称为起始方格。视障人士下一步的行走路径是以起始方格为基准，存在5种可能的路线：左方、右方、左前方、正前方和右前方，如何行走取决于路径规划的结果，而路径规划又要根据当前前方有效区域内的障碍物分布确定，如图7所示。图中黑色网状表示障碍物区域，箭头方向表示行走路线，图中(b)～(f)分别表示5种行走路线。

再笨实施例中，播报提醒采用语音+报警音的方式，系统每隔大约3秒播报一次障碍物信息和行走方向提示，障碍物一旦进入有效区域内(前方大约1.5m*1.5m区域)，系统即刻启动“嘟嘟”报警音。本系统采用三种不同频率的音频声表示距离：距离在1m～1.5m范围用低频报警音，距离在0.5m～1.0m范围用中频报警音，距离在0.5m范围则用高频报警音，这样视障人士就能根据系统的提示一步一步往前行走。

播报的行走方向包括以下5种：

(1)向左方行走

(2)向右方行走

(3)向左前方行走

(4)向正前方行走

(5)向右前方行走

播报的障碍物位置信息有以下3种：

(1)左前方有障碍物

(2)正前方有障碍物

(3)右前方有障碍物

盲人佩戴或穿上集成了智能感知系统的穿戴式终端后，在出行的过程可以通过本系统自动感知前方一定距离内的障碍物，并检测识别出障碍物的距离和方位，规划出有效的行走线路，通过语音提醒盲人下一步的行走方向。假设盲人每步行走的步距在0.5m内，每次播报的障碍物是以盲人为基准点，前方大约1.5m*1.5m有效区域范围内距离盲人最近的一个目标，播报的行走方向有5种可能的路线：左方、右方、左前方、正前方和右前方，如何行走取决于路径规划的结果，而路径规划又要根据当前前方有效区域内的障碍物分布确定。如果遇到左、中、右都有障碍物不能通行，系统会让盲人停止行走，后退一步，并报警提示，然后重新规划路径。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种穿戴式智能感知导盲系统,其特征在于：包括有MCU主控单元、双目摄像头、语音播报模块、GPS定位模块、本地储存器、4G/5G通信接口以及天线，所述双目摄像头通过USB接口与MCU主控单元相连接，所述GPS定位模块通过UART接口与MCU主控单元相连接，所述本地储存器通过总线接口与MCU主控单元相连接，所述4G/5G通信接口通过DTU接口与MCU主控单元相连接，在所述4G/5G通信接口上连接有天线，语音播报模块通过UART接口与MCU主控单元相连接；由双目摄像头来采集环境信息，MCU主控单元运用CNN深度学习神经网络模型，来检测视障人士行走通道上的各类障碍物，确定障碍物的距离和方位，合理规划行走路线，同时在交通路口识别斑马线及红绿灯，通过语音提示视障人士的行走。

2.根据权利要求1所述的穿戴式智能感知导盲系统，其特征在于，所述MCU主控单元为Xavier NX主控板，在所述Xavier NX主控板中部署深度学习障碍物检测与识别算法和双目测距算法以及视障人士行走通道识别以及导航与避障算法。

3.根据权利要求1所述的穿戴式智能感知导盲系统，其特征在于，所述MCU主控单元通过V4L2来实现双目摄像头的拍摄，首先使用V4L2获取双目摄像头参数，检测双目摄像头支持的格式，使用VIDIOC_S_FMT设置驱动的频捕获模式并计算其大小；然后申请帧缓冲数量为1，在内存中建立对应空间，通过mmap建立映射关系，将申请到的缓冲送入队列并开始捕捉图像。

4.根据权利要求3所述的穿戴式智能感知导盲系统，其特征在于，由于拍摄的图像格式为YUYV，该格式较大且不便于传输及查看，因此对其进行格式转换，首先将YUYV转换为RGB格式，再使用JPEG压缩为jpg格式，最后保存图像，解除内存映射空间。

5.根据权利要求2所述的穿戴式智能感知导盲系统，其特征在于，所述双目测距算法根据视差原理模拟人类的双眼，通过左右视图获取目标的三维信息，具体步骤如下：

步骤二：校正信息保存为OpenCV的yml文件；

6.根据权利要求2所述的穿戴式智能感知导盲系统，其特征在于，所述深度学习障碍物检测与识别算法以Darknet-YOLOv3为框架，并基于GoogleNet的卷积神经网络，采用Darknet-53作为特征提取主干网络。

7.根据权利要求2所述的穿戴式智能感知导盲系统，其特征在于，视障人士行走通道识别以及导航与避障算法的实现步骤为：