CN114724053B

CN114724053B - 一种基于深度智能交互的室外视障辅助方法

Info

Publication number: CN114724053B
Application number: CN202210371804.7A
Authority: CN
Inventors: 郭丹; 谷纪豪; 唐申庚; 肖同欢; 曹晨曦; 宋万强
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2024-02-20
Anticipated expiration: 2042-04-11
Also published as: CN114724053A

Abstract

本发明公开了一种基于深度智能交互的室外视障辅助方法，包括：1.获取图像和语音数据；2.根据图像数据获得深度图；3.基于目标检测网络获取目标信息；4.基于语义分割网络获取路面信息；5.将目标信息和道路信息映射到世界坐标系中；6.对目标和道路边缘实时检测并语音播报。本发明能快速准确的分析使用者前方的目标和道路边缘的位置及距离，并通过语音进行反馈，从而能保障视障人士的出行安全。

Description

一种基于深度智能交互的室外视障辅助方法

技术领域

本发明属于多媒体信息处理领域，涉及到计算机视觉、自然语言处理、深度学习、双目测距等技术，具体地说是一种基于深度智能交互的室外视障辅助方法。

背景技术

目前视障人士的出行安全和生活保障仍然是社会的一大热点。盲道，导盲犬等措施虽然可以在一定程度上满足视障群体的生活，但因其消耗资源多，成效不显著，终归不是治本之道。因此一种可供视障人士自己使用的，便捷有效的设备迫在眉睫，但是纵观国内外大学公布的研究课题，鲜有此方面的研究和成果出现。

发明内容

本发明为了解决上述现有技术存在的不足之处，提出一种基于深度智能交互的室外视障辅助方法，以其能快速准确的分析使用者前方的目标和道路边缘的位置及距离，从而能保障视障人士的出行安全。

本发明为解决技术问题采用如下的方法方案：

本发明一种基于深度智能交互的室外视障辅助方法的特点是按如下步骤进行：

步骤1、获取图像和语音数据：

步骤1.1、在使用者的前方配置有传感器装置，并包括：左右两侧的黑白相机、中间的彩色相机、麦克风和耳机；其中，黑白相机的水平、垂直视场角信息记为HFOV_Mono,VFOV_Mono，彩色相机的水平、垂直视场角信息为HFOV_Rgb,VFOV_Rgb；

步骤1.2、利用所述彩色相机获取使用者前方的维度为3×W_rgb×H_rgb的彩色场景图像img_rgb；其中，W_rgb表示彩色场景图像img_rgb的宽度，H_rgb表示彩色场景图像img_rgb的高度；3表示通道数；

步骤1.3、利用两个黑白相机分别获取使用者前方两侧的维度均为1×W_Mono×H_Mono的左、右黑白场景图像img_l，img_r；其中，W_Mono表示黑白场景图像的宽度，H_Mono表示黑白场景图像的高度；

步骤2、根据图像数据获得深度图：

步骤2.1、对左、右黑白场景图像img_l，img_r分别进行校正得到校正后的左、右黑白场景图像

步骤2.2、对校正后的左、右黑白场景图像按照从左到右、从上到下的顺序逐行扫描和匹配，从而得到左、右黑白场景图像/>中互相匹配的像素点对集合；令f_i为第i组匹配的像素点对；

步骤2.3、计算第i组匹配的像素点对f_i中两个匹配的像素点之间的像素间距d_i；

步骤2.4、计算第i组的像素间距d_i的视差值D_i；

步骤2.5、计算所述像素点对集合中所有组的像素点对的视差值，得到左侧黑白场景图像中每个像素点的深度信息，从而由每个像素点的深度信息构建成维度为1×W_Mono×H_Mono的深度图img_depth；

步骤2.6、根据黑白相机与彩色相机的视场角、焦距和相机间的水平间距信息，对深度图img_depth进行裁剪和平移，使得深度图img_depth与彩色场景图像img_rgb的像素点一一对应，从而生成与彩色场景图像img_rgb维度匹配的裁剪后的深度图img_Rgb,depth；其维度为1×W_rgb×H_rgb

步骤3、基于目标检测网络获取目标信息：

步骤3.1、令目标检测网络对输入图像的维度要求记为其中，/>表示目标检测网络要求的输入图像的宽度，/>表示目标检测网络要求的输入图像的高度；

步骤3.2、按照维度要求对彩色场景图像img_rgb依次进行缩放、灰色像素填充、维度扩充和归一化处理，从而得到维度为的预处理后的彩色场景图像/>

步骤3.3、所述处理后的彩色场景图像输入目标检测网络中进行处理，输出彩色场景图像/>中所有目标的类别、目标所在的检测框位置；

步骤4、基于语义分割网络获取路面信息：

步骤4.1、令语义分割网络对输入图像的维度要求记为其中，/>表示语义分割网络要求的输入图像的宽度，/>表示语义分割网络要求的输入图像的高度；

步骤4.2、按照维度要求对彩色场景图像img_rgb进行维度扩充和尺寸拉伸处理，得到维度为的处理后的彩色图像/>

步骤4.3、所述处理后的彩色图像输入语义分割网络中进行处理，输出属于路面信息的像素点集；

步骤5、将目标信息和道路信息映射到世界坐标系中：

步骤5.1、获取彩色场景图像img_rgb的目标检测结果中的第j个目标，并将第j个目标的预测框映射到裁剪后的深度图img_Rgb,depth中，从而获得第j个目标预测框所对应的深度图中的子矩阵；

步骤5.2、将所述子矩阵中的所有深度值进行升序排序后存入列表；

步骤5.3、计算所述列表中前1/8到1/4的深度值的平均值，记为第j个目标的深度值distance_j；

步骤5.4、获取第j个目标的预测框的中心点坐标；

步骤5.5、计算第j个目标的中心点坐标到彩色场景图像img_rgb中垂直中线的水平距离，并作为第j个目标的左右偏移值x_j；

步骤5.6、计算第j个目标的中心点坐标到彩色场景图像img_rgb中水平中线的垂直距离，并作为第j个目标的上下偏移值y_j；

步骤5.7、建立以使用者为原点，以使用者的正前方为Z轴正方向，正右方为X轴正方向，正上方为Y轴正方向的世界坐标系，从而利用式(1)获取第j个目标在世界坐标系中的X轴坐标X_j：

步骤5.8、利用式(2)获取第j个目标在世界坐标系中的Y轴坐标Y_j：

通过5.9、利用式(3)获取第j个目标在世界坐标系的Z轴坐标Z_j，从而得到第j个目标的位置坐标；

Z_j＝distance_j (3)

步骤5.10、从所述路面信息的像素点集中获取路面边缘像素集；

步骤5.11、将路面边缘像素集中的第k个像素点在彩色场景图像img_rgb中的坐标位置记为(x′_k,y′_k),将第k个像素点在裁剪后的深度图img_Rgb,depth的深度信息记为distance′_k；

步骤5.12、利用式(4)获取第k个像素点在世界坐标系的X轴坐标X′_k：

步骤5.13、利用式(5)获取第k个像素点在世界坐标系的Y轴坐标Y_k：

步骤5.14、利用式(6)获取第k个像素点在世界坐标系的Z轴坐标Z_k：

Z′_k＝distance′_k (6)

步骤5.15、由步骤5.11-步骤5.14得到路面边缘像素集中所有像素点的位置坐标，并拟合成道路边缘曲线；

步骤6、对目标和道路边缘实时检测并语音播报；

步骤6.1、利用麦克风单获取使用者的一段语音数据voice，并输入自然语言处理网络中得到使用者的指令信息；

步骤6.2、若所述使用者的指令信息为路面检测，则计算使用者在世界坐标系中的实时位置坐标与道路边缘曲线之间的距离，并利用耳机进行实时播报；

若所述使用者的指令信息为目标检测，计算使用者在世界坐标系中的实时位置坐标与第j个目标的位置坐标之间的距离，并利用耳机进行实时播报。

与现有技术相比，本发明的有益效果体现在

本发明通过对现有网络进行优化，使得在同一时间内处理的图像信息更多；同时结合多摄像头图像数据的目标检测、语义分割和双目测距等计算结果的实时计算，能快速准确的分析使用者前方的目标和道路边缘的位置及距离，从而实现了更加安全的视障反馈；有效的解决了视障人士出行不便、不易注意周围危险、难以对前方较远距离进行认知的问题；从而保障了视障人士在室外的安全和其周围行人的安全。

附图说明

图1为本发明实施例中室外视障辅助方法的步骤示意图；

图2为本发明实施例中室外视障辅助方法的数据和音频获取硬件示意图；

图3为本发明实施例中室外视障辅助方法的黑白相机校正流程图；

图4为本发明实施例中室外视障辅助方法的获取深度图的流程图；

图5为本发明实施例中室外视障辅助方法的相机尺寸和视场角示意图；

图6为本发明实施例中室外视障辅助方法的目标检测流程图；

图7为本发明实施例中室外视障辅助方法的道路语义分割流程图；

图8为本发明实施例中室外视障辅助方法的语音反馈流程图。

具体实施方式

本实施例中，一种基于深度智能交互的室外视障辅助方法，是利用计算机视觉、自然语言处理、深度学习、双目测距等技术，通过对室外物品进行识别测距，同时对人行道进行实时语义分割，实时给予视障人士环境信息的反馈和监测。如图1所示，是按如下步骤进行：

步骤1、获取图像和语音数据：

步骤1.1、在使用者的前方配置有传感器装置，并包括：左右两侧的黑白相机、中间的彩色相机、麦克风和耳机，如图2所示；其中，黑白相机的水平、垂直视场角信息记为HFOV_Mono,VFOV_Mono，彩色相机的水平、垂直视场角信息为HFOV_Rgb,VFOV_Rgb，所谓视场角是指相机的可观察到的最大角度；

步骤1.2、利用彩色相机获取使用者前方的维度为3×W_rgb×H_rgb的彩色场景图像img_rgb；其中，W_rgb表示彩色场景图像img_rgb的宽度，H_rgb表示彩色场景图像img_rgb的高度；3表示通道数；

步骤2、根据图像数据获得深度图：

步骤2.1、对左、右黑白场景图像img_l，img_r分别进行校正得到校正后的左、右黑白场景图像所谓校正其目的在于将左右黑白相机的原始畸变进行校正，同时使左右画面中的相匹配关键点，位于同一像素高度，便于后续关键点的匹配，如图3所示；

步骤2.4、计算第i组的像素间距d_i的视差值D_i；

步骤2.5、计算像素点对集合中所有组的像素点对的视差值，得到左侧黑白场景图像中每个像素点的深度信息，从而由每个像素点的深度信息构建成维度为1×W_Mono×H_Mono的深度图img_depth，如图4所示；

步骤2.6、根据黑白相机与彩色相机的视场角、焦距和相机间的水平间距信息，对深度图img_depth进行裁剪和平移，使得深度图img_depth与彩色场景图像img_rgb的像素点一一对应，从而生成与彩色场景图像img_rgb维度匹配的裁剪后的深度图img_Rgb,depth；其维度为1×W_rgb×H_rgb，如图5所示；

步骤3、基于目标检测网络获取目标信息：

步骤3.2、按照维度要求对彩色场景图像img_rgb依次进行缩放、灰色像素填充、维度扩充和归一化处理，从而得到维度为的预处理后的彩色场景图像/>如图6所示；其中，目标检测网络是通过开源yolo目标检测算法，经网络优化后实现；

步骤3.33、处理后的彩色场景图像输入目标检测网络中进行处理，输出彩色场景图像/>中所有目标的类别、目标所在的检测框位置；

步骤4、基于语义分割网络获取路面信息：

步骤4.3、处理后的彩色图像输入语义分割网络中进行处理，输出属于路面信息的像素点集，如图7所示；其中，语义分割网络是通过开源Bisenet语义分割算法，经网络优化后实现；

步骤5、将目标信息和道路信息映射到世界坐标系中：

步骤5.2、将子矩阵中的所有深度值进行升序排序后存入列表；

步骤5.3、计算列表中前1/8到1/4的深度值的平均值，记为第j个目标的深度值distance_j；

步骤5.4、获取第j个目标的预测框的中心点坐标；

Z_j＝distance_j (3)

步骤5.10、从路面信息的像素点集中获取路面边缘像素集；

Z′_k＝distance′_k (6)

步骤6、对目标和道路边缘实时检测并语音播报；

步骤6.1、利用麦克风单获取使用者的一段语音数据voice，并输入自然语言处理网络中得到使用者的指令信息，如图8所示；

步骤6.2、若使用者的指令信息为路面检测，则计算使用者在世界坐标系中的实时位置坐标与道路边缘曲线之间的距离，并利用耳机进行实时播报；

若使用者的指令信息为目标检测，计算使用者在世界坐标系中的实时位置坐标与第j个目标的位置坐标之间的距离，并利用耳机进行实时播报。

综上所述，本发明一种基于深度智能交互的室外视障辅助系统及方法，解决了视障人士在室外出行困难以及安全性问题，提高了视障人士的生活质量，也更便于融入正常人的世界之中；同时得益于专门优化的神经网络，使得能将算法部署到小型计算板上，大大提高了使用者的使用便利性。

Claims

1.一种基于深度智能交互的室外视障辅助方法，其特征是按如下步骤进行：

步骤1、获取图像和语音数据：

步骤1.1、在使用者的前方配置有传感器装置，并包括：左右两侧的黑白相机、中间的彩色相机、麦克风和耳机；其中，黑白相机的水平、垂直视场角信息记为HFOV_Mono，VFOV_Mono，彩色相机的水平、垂直视场角信息为HFOV_Rgb，VFOV_Rgb；

步骤2、根据图像数据获得深度图：

步骤2.4、计算第i组的像素间距d_i的视差值D_i；

步骤2.6、根据黑白相机与彩色相机的视场角、焦距和相机间的水平间距信息，对深度图img_depth进行裁剪和平移，使得深度图img_depth与彩色场景图像img_rgb的像素点一一对应，从而生成与彩色场景图像img_rgb维度匹配的裁剪后的深度图img_Rgb，depth；其维度为1×W_rgb×H_rgb

步骤3、基于目标检测网络获取目标信息：

步骤3.2、按照维度要求对彩色场景图像img_rgb依次进行缩放、灰色像素填充、维度扩充和归一化处理，从而得到维度为的预处理后的彩色场景图像

步骤4、基于语义分割网络获取路面信息：

步骤5、将目标信息和道路信息映射到世界坐标系中：

步骤5.1、获取彩色场景图像img_rgb的目标检测结果中的第j个目标，并将第j个目标的预测框映射到裁剪后的深度图img_Rgb，depth中，从而获得第j个目标预测框所对应的深度图中的子矩阵；

步骤5.4、获取第j个目标的预测框的中心点坐标；

Z_j＝distance_j (3)

步骤5.11、将路面边缘像素集中的第k个像素点在彩色场景图像img_rgb中的坐标位置记为(x′_k，y′_k)，将第k个像素点在裁剪后的深度图img_Rgb，depth的深度信息记为distance′_k；

Z′_k＝distance′_k (6)

步骤6、对目标和道路边缘实时检测并语音播报；