CN114724053B - 一种基于深度智能交互的室外视障辅助方法 - Google Patents
一种基于深度智能交互的室外视障辅助方法 Download PDFInfo
- Publication number
- CN114724053B CN114724053B CN202210371804.7A CN202210371804A CN114724053B CN 114724053 B CN114724053 B CN 114724053B CN 202210371804 A CN202210371804 A CN 202210371804A CN 114724053 B CN114724053 B CN 114724053B
- Authority
- CN
- China
- Prior art keywords
- rgb
- target
- img
- obtaining
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000003993 interaction Effects 0.000 title claims abstract description 9
- 206010047571 Visual impairment Diseases 0.000 title claims description 8
- 208000029257 vision disease Diseases 0.000 title claims description 8
- 230000004393 visual impairment Effects 0.000 title claims description 8
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004091 panning Methods 0.000 claims description 3
- 230000001771 impaired effect Effects 0.000 abstract description 10
- 230000006735 deficit Effects 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/14—Transformations for image registration, e.g. adjusting or mapping for alignment of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度智能交互的室外视障辅助方法,包括:1.获取图像和语音数据;2.根据图像数据获得深度图;3.基于目标检测网络获取目标信息;4.基于语义分割网络获取路面信息;5.将目标信息和道路信息映射到世界坐标系中;6.对目标和道路边缘实时检测并语音播报。本发明能快速准确的分析使用者前方的目标和道路边缘的位置及距离,并通过语音进行反馈,从而能保障视障人士的出行安全。
Description
技术领域
本发明属于多媒体信息处理领域,涉及到计算机视觉、自然语言处理、深度学习、双目测距等技术,具体地说是一种基于深度智能交互的室外视障辅助方法。
背景技术
目前视障人士的出行安全和生活保障仍然是社会的一大热点。盲道,导盲犬等措施虽然可以在一定程度上满足视障群体的生活,但因其消耗资源多,成效不显著,终归不是治本之道。因此一种可供视障人士自己使用的,便捷有效的设备迫在眉睫,但是纵观国内外大学公布的研究课题,鲜有此方面的研究和成果出现。
发明内容
本发明为了解决上述现有技术存在的不足之处,提出一种基于深度智能交互的室外视障辅助方法,以其能快速准确的分析使用者前方的目标和道路边缘的位置及距离,从而能保障视障人士的出行安全。
本发明为解决技术问题采用如下的方法方案:
本发明一种基于深度智能交互的室外视障辅助方法的特点是按如下步骤进行:
步骤1、获取图像和语音数据:
步骤1.1、在使用者的前方配置有传感器装置,并包括:左右两侧的黑白相机、中间的彩色相机、麦克风和耳机;其中,黑白相机的水平、垂直视场角信息记为HFOVMono,VFOVMono,彩色相机的水平、垂直视场角信息为HFOVRgb,VFOVRgb;
步骤1.2、利用所述彩色相机获取使用者前方的维度为3×Wrgb×Hrgb的彩色场景图像imgrgb;其中,Wrgb表示彩色场景图像imgrgb的宽度,Hrgb表示彩色场景图像imgrgb的高度;3表示通道数;
步骤1.3、利用两个黑白相机分别获取使用者前方两侧的维度均为1×WMono×HMono的左、右黑白场景图像imgl,imgr;其中,WMono表示黑白场景图像的宽度,HMono表示黑白场景图像的高度;
步骤2、根据图像数据获得深度图:
步骤2.1、对左、右黑白场景图像imgl,imgr分别进行校正得到校正后的左、右黑白场景图像
步骤2.2、对校正后的左、右黑白场景图像按照从左到右、从上到下的顺序逐行扫描和匹配,从而得到左、右黑白场景图像/>中互相匹配的像素点对集合;令fi为第i组匹配的像素点对;
步骤2.3、计算第i组匹配的像素点对fi中两个匹配的像素点之间的像素间距di;
步骤2.4、计算第i组的像素间距di的视差值Di;
步骤2.5、计算所述像素点对集合中所有组的像素点对的视差值,得到左侧黑白场景图像中每个像素点的深度信息,从而由每个像素点的深度信息构建成维度为1×WMono×HMono的深度图imgdepth;
步骤2.6、根据黑白相机与彩色相机的视场角、焦距和相机间的水平间距信息,对深度图imgdepth进行裁剪和平移,使得深度图imgdepth与彩色场景图像imgrgb的像素点一一对应,从而生成与彩色场景图像imgrgb维度匹配的裁剪后的深度图imgRgb,depth;其维度为1×Wrgb×Hrgb
步骤3、基于目标检测网络获取目标信息:
步骤3.1、令目标检测网络对输入图像的维度要求记为其中,/>表示目标检测网络要求的输入图像的宽度,/>表示目标检测网络要求的输入图像的高度;
步骤3.2、按照维度要求对彩色场景图像imgrgb依次进行缩放、灰色像素填充、维度扩充和归一化处理,从而得到维度为的预处理后的彩色场景图像/>
步骤3.3、所述处理后的彩色场景图像输入目标检测网络中进行处理,输出彩色场景图像/>中所有目标的类别、目标所在的检测框位置;
步骤4、基于语义分割网络获取路面信息:
步骤4.1、令语义分割网络对输入图像的维度要求记为 其中,/>表示语义分割网络要求的输入图像的宽度,/>表示语义分割网络要求的输入图像的高度;
步骤4.2、按照维度要求对彩色场景图像imgrgb进行维度扩充和尺寸拉伸处理,得到维度为的处理后的彩色图像/>
步骤4.3、所述处理后的彩色图像输入语义分割网络中进行处理,输出属于路面信息的像素点集;
步骤5、将目标信息和道路信息映射到世界坐标系中:
步骤5.1、获取彩色场景图像imgrgb的目标检测结果中的第j个目标,并将第j个目标的预测框映射到裁剪后的深度图imgRgb,depth中,从而获得第j个目标预测框所对应的深度图中的子矩阵;
步骤5.2、将所述子矩阵中的所有深度值进行升序排序后存入列表;
步骤5.3、计算所述列表中前1/8到1/4的深度值的平均值,记为第j个目标的深度值distancej;
步骤5.4、获取第j个目标的预测框的中心点坐标;
步骤5.5、计算第j个目标的中心点坐标到彩色场景图像imgrgb中垂直中线的水平距离,并作为第j个目标的左右偏移值xj;
步骤5.6、计算第j个目标的中心点坐标到彩色场景图像imgrgb中水平中线的垂直距离,并作为第j个目标的上下偏移值yj;
步骤5.7、建立以使用者为原点,以使用者的正前方为Z轴正方向,正右方为X轴正方向,正上方为Y轴正方向的世界坐标系,从而利用式(1)获取第j个目标在世界坐标系中的X轴坐标Xj:
步骤5.8、利用式(2)获取第j个目标在世界坐标系中的Y轴坐标Yj:
通过5.9、利用式(3)获取第j个目标在世界坐标系的Z轴坐标Zj,从而得到第j个目标的位置坐标;
Zj=distancej (3)
步骤5.10、从所述路面信息的像素点集中获取路面边缘像素集;
步骤5.11、将路面边缘像素集中的第k个像素点在彩色场景图像imgrgb中的坐标位置记为(x′k,y′k),将第k个像素点在裁剪后的深度图imgRgb,depth的深度信息记为distance′k;
步骤5.12、利用式(4)获取第k个像素点在世界坐标系的X轴坐标X′k:
步骤5.13、利用式(5)获取第k个像素点在世界坐标系的Y轴坐标Yk:
步骤5.14、利用式(6)获取第k个像素点在世界坐标系的Z轴坐标Zk:
Z′k=distance′k (6)
步骤5.15、由步骤5.11-步骤5.14得到路面边缘像素集中所有像素点的位置坐标,并拟合成道路边缘曲线;
步骤6、对目标和道路边缘实时检测并语音播报;
步骤6.1、利用麦克风单获取使用者的一段语音数据voice,并输入自然语言处理网络中得到使用者的指令信息;
步骤6.2、若所述使用者的指令信息为路面检测,则计算使用者在世界坐标系中的实时位置坐标与道路边缘曲线之间的距离,并利用耳机进行实时播报;
若所述使用者的指令信息为目标检测,计算使用者在世界坐标系中的实时位置坐标与第j个目标的位置坐标之间的距离,并利用耳机进行实时播报。
与现有技术相比,本发明的有益效果体现在
本发明通过对现有网络进行优化,使得在同一时间内处理的图像信息更多;同时结合多摄像头图像数据的目标检测、语义分割和双目测距等计算结果的实时计算,能快速准确的分析使用者前方的目标和道路边缘的位置及距离,从而实现了更加安全的视障反馈;有效的解决了视障人士出行不便、不易注意周围危险、难以对前方较远距离进行认知的问题;从而保障了视障人士在室外的安全和其周围行人的安全。
附图说明
图1为本发明实施例中室外视障辅助方法的步骤示意图;
图2为本发明实施例中室外视障辅助方法的数据和音频获取硬件示意图;
图3为本发明实施例中室外视障辅助方法的黑白相机校正流程图;
图4为本发明实施例中室外视障辅助方法的获取深度图的流程图;
图5为本发明实施例中室外视障辅助方法的相机尺寸和视场角示意图;
图6为本发明实施例中室外视障辅助方法的目标检测流程图;
图7为本发明实施例中室外视障辅助方法的道路语义分割流程图;
图8为本发明实施例中室外视障辅助方法的语音反馈流程图。
具体实施方式
本实施例中,一种基于深度智能交互的室外视障辅助方法,是利用计算机视觉、自然语言处理、深度学习、双目测距等技术,通过对室外物品进行识别测距,同时对人行道进行实时语义分割,实时给予视障人士环境信息的反馈和监测。如图1所示,是按如下步骤进行:
步骤1、获取图像和语音数据:
步骤1.1、在使用者的前方配置有传感器装置,并包括:左右两侧的黑白相机、中间的彩色相机、麦克风和耳机,如图2所示;其中,黑白相机的水平、垂直视场角信息记为HFOVMono,VFOVMono,彩色相机的水平、垂直视场角信息为HFOVRgb,VFOVRgb,所谓视场角是指相机的可观察到的最大角度;
步骤1.2、利用彩色相机获取使用者前方的维度为3×Wrgb×Hrgb的彩色场景图像imgrgb;其中,Wrgb表示彩色场景图像imgrgb的宽度,Hrgb表示彩色场景图像imgrgb的高度;3表示通道数;
步骤1.3、利用两个黑白相机分别获取使用者前方两侧的维度均为1×WMono×HMono的左、右黑白场景图像imgl,imgr;其中,WMono表示黑白场景图像的宽度,HMono表示黑白场景图像的高度;
步骤2、根据图像数据获得深度图:
步骤2.1、对左、右黑白场景图像imgl,imgr分别进行校正得到校正后的左、右黑白场景图像所谓校正其目的在于将左右黑白相机的原始畸变进行校正,同时使左右画面中的相匹配关键点,位于同一像素高度,便于后续关键点的匹配,如图3所示;
步骤2.2、对校正后的左、右黑白场景图像按照从左到右、从上到下的顺序逐行扫描和匹配,从而得到左、右黑白场景图像/>中互相匹配的像素点对集合;令fi为第i组匹配的像素点对;
步骤2.3、计算第i组匹配的像素点对fi中两个匹配的像素点之间的像素间距di;
步骤2.4、计算第i组的像素间距di的视差值Di;
步骤2.5、计算像素点对集合中所有组的像素点对的视差值,得到左侧黑白场景图像中每个像素点的深度信息,从而由每个像素点的深度信息构建成维度为1×WMono×HMono的深度图imgdepth,如图4所示;
步骤2.6、根据黑白相机与彩色相机的视场角、焦距和相机间的水平间距信息,对深度图imgdepth进行裁剪和平移,使得深度图imgdepth与彩色场景图像imgrgb的像素点一一对应,从而生成与彩色场景图像imgrgb维度匹配的裁剪后的深度图imgRgb,depth;其维度为1×Wrgb×Hrgb,如图5所示;
步骤3、基于目标检测网络获取目标信息:
步骤3.1、令目标检测网络对输入图像的维度要求记为其中,/>表示目标检测网络要求的输入图像的宽度,/>表示目标检测网络要求的输入图像的高度;
步骤3.2、按照维度要求对彩色场景图像imgrgb依次进行缩放、灰色像素填充、维度扩充和归一化处理,从而得到维度为的预处理后的彩色场景图像/>如图6所示;其中,目标检测网络是通过开源yolo目标检测算法,经网络优化后实现;
步骤3.33、处理后的彩色场景图像输入目标检测网络中进行处理,输出彩色场景图像/>中所有目标的类别、目标所在的检测框位置;
步骤4、基于语义分割网络获取路面信息:
步骤4.1、令语义分割网络对输入图像的维度要求记为 其中,/>表示语义分割网络要求的输入图像的宽度,/>表示语义分割网络要求的输入图像的高度;
步骤4.2、按照维度要求对彩色场景图像imgrgb进行维度扩充和尺寸拉伸处理,得到维度为的处理后的彩色图像/>
步骤4.3、处理后的彩色图像输入语义分割网络中进行处理,输出属于路面信息的像素点集,如图7所示;其中,语义分割网络是通过开源Bisenet语义分割算法,经网络优化后实现;
步骤5、将目标信息和道路信息映射到世界坐标系中:
步骤5.1、获取彩色场景图像imgrgb的目标检测结果中的第j个目标,并将第j个目标的预测框映射到裁剪后的深度图imgRgb,depth中,从而获得第j个目标预测框所对应的深度图中的子矩阵;
步骤5.2、将子矩阵中的所有深度值进行升序排序后存入列表;
步骤5.3、计算列表中前1/8到1/4的深度值的平均值,记为第j个目标的深度值distancej;
步骤5.4、获取第j个目标的预测框的中心点坐标;
步骤5.5、计算第j个目标的中心点坐标到彩色场景图像imgrgb中垂直中线的水平距离,并作为第j个目标的左右偏移值xj;
步骤5.6、计算第j个目标的中心点坐标到彩色场景图像imgrgb中水平中线的垂直距离,并作为第j个目标的上下偏移值yj;
步骤5.7、建立以使用者为原点,以使用者的正前方为Z轴正方向,正右方为X轴正方向,正上方为Y轴正方向的世界坐标系,从而利用式(1)获取第j个目标在世界坐标系中的X轴坐标Xj:
步骤5.8、利用式(2)获取第j个目标在世界坐标系中的Y轴坐标Yj:
通过5.9、利用式(3)获取第j个目标在世界坐标系的Z轴坐标Zj,从而得到第j个目标的位置坐标;
Zj=distancej (3)
步骤5.10、从路面信息的像素点集中获取路面边缘像素集;
步骤5.11、将路面边缘像素集中的第k个像素点在彩色场景图像imgrgb中的坐标位置记为(x′k,y′k),将第k个像素点在裁剪后的深度图imgRgb,depth的深度信息记为distance′k;
步骤5.12、利用式(4)获取第k个像素点在世界坐标系的X轴坐标X′k:
步骤5.13、利用式(5)获取第k个像素点在世界坐标系的Y轴坐标Yk:
步骤5.14、利用式(6)获取第k个像素点在世界坐标系的Z轴坐标Zk:
Z′k=distance′k (6)
步骤5.15、由步骤5.11-步骤5.14得到路面边缘像素集中所有像素点的位置坐标,并拟合成道路边缘曲线;
步骤6、对目标和道路边缘实时检测并语音播报;
步骤6.1、利用麦克风单获取使用者的一段语音数据voice,并输入自然语言处理网络中得到使用者的指令信息,如图8所示;
步骤6.2、若使用者的指令信息为路面检测,则计算使用者在世界坐标系中的实时位置坐标与道路边缘曲线之间的距离,并利用耳机进行实时播报;
若使用者的指令信息为目标检测,计算使用者在世界坐标系中的实时位置坐标与第j个目标的位置坐标之间的距离,并利用耳机进行实时播报。
综上所述,本发明一种基于深度智能交互的室外视障辅助系统及方法,解决了视障人士在室外出行困难以及安全性问题,提高了视障人士的生活质量,也更便于融入正常人的世界之中;同时得益于专门优化的神经网络,使得能将算法部署到小型计算板上,大大提高了使用者的使用便利性。
Claims (1)
1.一种基于深度智能交互的室外视障辅助方法,其特征是按如下步骤进行:
步骤1、获取图像和语音数据:
步骤1.1、在使用者的前方配置有传感器装置,并包括:左右两侧的黑白相机、中间的彩色相机、麦克风和耳机;其中,黑白相机的水平、垂直视场角信息记为HFOVMono,VFOVMono,彩色相机的水平、垂直视场角信息为HFOVRgb,VFOVRgb;
步骤1.2、利用所述彩色相机获取使用者前方的维度为3×Wrgb×Hrgb的彩色场景图像imgrgb;其中,Wrgb表示彩色场景图像imgrgb的宽度,Hrgb表示彩色场景图像imgrgb的高度;3表示通道数;
步骤1.3、利用两个黑白相机分别获取使用者前方两侧的维度均为1×WMono×HMono的左、右黑白场景图像imgl,imgr;其中,WMono表示黑白场景图像的宽度,HMono表示黑白场景图像的高度;
步骤2、根据图像数据获得深度图:
步骤2.1、对左、右黑白场景图像imgl,imgr分别进行校正得到校正后的左、右黑白场景图像
步骤2.2、对校正后的左、右黑白场景图像按照从左到右、从上到下的顺序逐行扫描和匹配,从而得到左、右黑白场景图像/>中互相匹配的像素点对集合;令fi为第i组匹配的像素点对;
步骤2.3、计算第i组匹配的像素点对fi中两个匹配的像素点之间的像素间距di;
步骤2.4、计算第i组的像素间距di的视差值Di;
步骤2.5、计算所述像素点对集合中所有组的像素点对的视差值,得到左侧黑白场景图像中每个像素点的深度信息,从而由每个像素点的深度信息构建成维度为1×WMono×HMono的深度图imgdepth;
步骤2.6、根据黑白相机与彩色相机的视场角、焦距和相机间的水平间距信息,对深度图imgdepth进行裁剪和平移,使得深度图imgdepth与彩色场景图像imgrgb的像素点一一对应,从而生成与彩色场景图像imgrgb维度匹配的裁剪后的深度图imgRgb,depth;其维度为1×Wrgb×Hrgb
步骤3、基于目标检测网络获取目标信息:
步骤3.1、令目标检测网络对输入图像的维度要求记为其中,/>表示目标检测网络要求的输入图像的宽度,/>表示目标检测网络要求的输入图像的高度;
步骤3.2、按照维度要求对彩色场景图像imgrgb依次进行缩放、灰色像素填充、维度扩充和归一化处理,从而得到维度为的预处理后的彩色场景图像
步骤3.3、所述处理后的彩色场景图像输入目标检测网络中进行处理,输出彩色场景图像/>中所有目标的类别、目标所在的检测框位置;
步骤4、基于语义分割网络获取路面信息:
步骤4.1、令语义分割网络对输入图像的维度要求记为 其中,/>表示语义分割网络要求的输入图像的宽度,/>表示语义分割网络要求的输入图像的高度;
步骤4.2、按照维度要求对彩色场景图像imgrgb进行维度扩充和尺寸拉伸处理,得到维度为的处理后的彩色图像/>
步骤4.3、所述处理后的彩色图像输入语义分割网络中进行处理,输出属于路面信息的像素点集;
步骤5、将目标信息和道路信息映射到世界坐标系中:
步骤5.1、获取彩色场景图像imgrgb的目标检测结果中的第j个目标,并将第j个目标的预测框映射到裁剪后的深度图imgRgb,depth中,从而获得第j个目标预测框所对应的深度图中的子矩阵;
步骤5.2、将所述子矩阵中的所有深度值进行升序排序后存入列表;
步骤5.3、计算所述列表中前1/8到1/4的深度值的平均值,记为第j个目标的深度值distancej;
步骤5.4、获取第j个目标的预测框的中心点坐标;
步骤5.5、计算第j个目标的中心点坐标到彩色场景图像imgrgb中垂直中线的水平距离,并作为第j个目标的左右偏移值xj;
步骤5.6、计算第j个目标的中心点坐标到彩色场景图像imgrgb中水平中线的垂直距离,并作为第j个目标的上下偏移值yj;
步骤5.7、建立以使用者为原点,以使用者的正前方为Z轴正方向,正右方为X轴正方向,正上方为Y轴正方向的世界坐标系,从而利用式(1)获取第j个目标在世界坐标系中的X轴坐标Xj:
步骤5.8、利用式(2)获取第j个目标在世界坐标系中的Y轴坐标Yj:
通过5.9、利用式(3)获取第j个目标在世界坐标系的Z轴坐标Zj,从而得到第j个目标的位置坐标;
Zj=distancej (3)
步骤5.10、从所述路面信息的像素点集中获取路面边缘像素集;
步骤5.11、将路面边缘像素集中的第k个像素点在彩色场景图像imgrgb中的坐标位置记为(x′k,y′k),将第k个像素点在裁剪后的深度图imgRgb,depth的深度信息记为distance′k;
步骤5.12、利用式(4)获取第k个像素点在世界坐标系的X轴坐标X′k:
步骤5.13、利用式(5)获取第k个像素点在世界坐标系的Y轴坐标Yk:
步骤5.14、利用式(6)获取第k个像素点在世界坐标系的Z轴坐标Zk:
Z′k=distance′k (6)
步骤5.15、由步骤5.11-步骤5.14得到路面边缘像素集中所有像素点的位置坐标,并拟合成道路边缘曲线;
步骤6、对目标和道路边缘实时检测并语音播报;
步骤6.1、利用麦克风单获取使用者的一段语音数据voice,并输入自然语言处理网络中得到使用者的指令信息;
步骤6.2、若所述使用者的指令信息为路面检测,则计算使用者在世界坐标系中的实时位置坐标与道路边缘曲线之间的距离,并利用耳机进行实时播报;
若所述使用者的指令信息为目标检测,计算使用者在世界坐标系中的实时位置坐标与第j个目标的位置坐标之间的距离,并利用耳机进行实时播报。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210371804.7A CN114724053B (zh) | 2022-04-11 | 2022-04-11 | 一种基于深度智能交互的室外视障辅助方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210371804.7A CN114724053B (zh) | 2022-04-11 | 2022-04-11 | 一种基于深度智能交互的室外视障辅助方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114724053A CN114724053A (zh) | 2022-07-08 |
CN114724053B true CN114724053B (zh) | 2024-02-20 |
Family
ID=82241229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210371804.7A Active CN114724053B (zh) | 2022-04-11 | 2022-04-11 | 一种基于深度智能交互的室外视障辅助方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724053B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015024407A1 (zh) * | 2013-08-19 | 2015-02-26 | 国家电网公司 | 基于电力机器人的双目视觉导航系统及方法 |
KR20160028891A (ko) * | 2014-09-04 | 2016-03-14 | 김경연 | 깊이 카메라와 방향 센서를 이용한 시각 장애인을 위한 장애물 인식 장치 |
CN107341789A (zh) * | 2016-11-23 | 2017-11-10 | 杭州视氪科技有限公司 | 一种基于rgb‑d相机和立体声的视障人士通路预知系统和方法 |
CN111340864A (zh) * | 2020-02-26 | 2020-06-26 | 浙江大华技术股份有限公司 | 基于单目估计的三维场景融合方法及装置 |
CN112766259A (zh) * | 2021-01-08 | 2021-05-07 | 合肥工业大学 | 一种面向视障人士的物品智能搜索方法 |
-
2022
- 2022-04-11 CN CN202210371804.7A patent/CN114724053B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015024407A1 (zh) * | 2013-08-19 | 2015-02-26 | 国家电网公司 | 基于电力机器人的双目视觉导航系统及方法 |
KR20160028891A (ko) * | 2014-09-04 | 2016-03-14 | 김경연 | 깊이 카메라와 방향 센서를 이용한 시각 장애인을 위한 장애물 인식 장치 |
CN107341789A (zh) * | 2016-11-23 | 2017-11-10 | 杭州视氪科技有限公司 | 一种基于rgb‑d相机和立体声的视障人士通路预知系统和方法 |
CN111340864A (zh) * | 2020-02-26 | 2020-06-26 | 浙江大华技术股份有限公司 | 基于单目估计的三维场景融合方法及装置 |
CN112766259A (zh) * | 2021-01-08 | 2021-05-07 | 合肥工业大学 | 一种面向视障人士的物品智能搜索方法 |
Non-Patent Citations (2)
Title |
---|
基于多模态深度融合网络可穿戴式导盲设备;汪家琦;吴泽琨;王一鸣;王书平;丁伊博;;科技创新导报(33);全文 * |
实时的移动机器人语义地图构建系统;李秀智;李尚宇;贾松敏;单吉超;;仪器仪表学报(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114724053A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785291B (zh) | 一种车道线自适应检测方法 | |
CN106548182B (zh) | 基于深度学习和主成因分析的路面裂纹检测方法及装置 | |
CN109345547B (zh) | 基于深度学习多任务网络的交通车道线检测方法及装置 | |
CN102831591B (zh) | 一种基于高斯滤波的单幅图像的实时去雾方法 | |
CN104036479B (zh) | 一种基于非负矩阵分解的多聚焦图像融合方法 | |
CN110991266B (zh) | 一种双目人脸活体检测方法及装置 | |
EP3846129A3 (en) | Method and apparatus for detecting obstacle | |
CN108805042B (zh) | 道路区域监控视频被树叶遮挡的检测方法 | |
CN102609724B (zh) | 一种基于双摄像头的周围环境信息提示方法 | |
CN107067015B (zh) | 一种基于多特征深度学习的车辆检测方法及装置 | |
Chen et al. | Obstacle detection system for visually impaired people based on stereo vision | |
CN112801074B (zh) | 一种基于交通摄像头的深度图估计方法 | |
CN108205324B (zh) | 一种智能道路清理装置 | |
WO2023155483A1 (zh) | 一种车型识别方法、装置和系统 | |
CN110298330B (zh) | 一种输电线路巡检机器人单目检测与定位方法 | |
US20220044039A1 (en) | Living Body Detection Method and Device | |
CN111582074A (zh) | 一种基于场景深度信息感知的监控视频树叶遮挡检测方法 | |
CN107862713A (zh) | 针对轮询会场的摄像机偏转实时检测预警方法及模块 | |
CN105989583A (zh) | 一种图像去雾方法 | |
CN108090488A (zh) | 一种基于大数据ocr物联网的人工智能工会信息录入系统 | |
CN114724053B (zh) | 一种基于深度智能交互的室外视障辅助方法 | |
CN112528994B (zh) | 一种自由角度车牌检测方法、车牌识别方法和识别系统 | |
CN109035377A (zh) | 用于获得适用于激光雕刻的浮雕素描效果图像处理方法 | |
CN113762009A (zh) | 一种基于多尺度特征融合及双注意力机制的人群计数方法 | |
CN109602585B (zh) | 一种导盲眼镜及其防撞预警方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |