CN110490087A - 一种基于深度学习技术的视觉辅助系统 - Google Patents

一种基于深度学习技术的视觉辅助系统 Download PDF

Info

Publication number
CN110490087A
CN110490087A CN201910677705.XA CN201910677705A CN110490087A CN 110490087 A CN110490087 A CN 110490087A CN 201910677705 A CN201910677705 A CN 201910677705A CN 110490087 A CN110490087 A CN 110490087A
Authority
CN
China
Prior art keywords
unit
data
learning technology
vision
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910677705.XA
Other languages
English (en)
Other versions
CN110490087B (zh
Inventor
徐金龙
陈小柏
虞志益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910677705.XA priority Critical patent/CN110490087B/zh
Publication of CN110490087A publication Critical patent/CN110490087A/zh
Application granted granted Critical
Publication of CN110490087B publication Critical patent/CN110490087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度学习技术的视觉辅助系统,包括数据采集单元、数据预处理单元、环境感知单元和用户接口单元;其中数据采集单元用于感知周围环境的信息,并将感知到的数据传输至数据预处理单元;数据预处理单元对接收到的数据进行预处理,然后将预处理好的数据传输至环境感知单元;环境感知单元接收数据后进行基于深度学习技术的障碍物检测,得到周围环境中障碍物的类别、位置及距离,然后将检测到的周围环境的障碍物信息处理成文本信息,并将文本信息送入用户接口单元;用户接口单元将文本信息转化成语音,供用户获知周围的环境的障碍物情况。

Description

一种基于深度学习技术的视觉辅助系统
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种基于深度学习技术的视觉辅助系统。
背景技术
近年来,伴随着视觉障碍人群及不恰当用眼导致视觉受损人群的数量增长,由于视觉障碍人群、视觉受损人群存在出行不便性,因此视觉障碍人群、视觉受损人群对于视觉辅助系统的需求更加强烈。传统的视觉辅助系统采用超声波传感器感知周围环境,对于周围环境的感知处于低层次的感知,对于视觉障碍人群、视觉受损人群的出行安全性无法保证。
随着深度学习技术的发展,基于深度学习技术的目标检测算法的出现为目标检测任务带来了更优的性能,同时能够保证实时目标检测。目标检测算法广泛应用于智能安防、自动驾驶、增强现实等领域,视觉障碍人群、视觉受损人群外出出行场景下,道路场景的多变以及目标的多形态,使得视觉辅助出行场景对环境感知性能要求较高且要求对复杂的外界环境有较强的鲁棒性。视觉辅助系统需要对外界环境进行复杂的处理过程和付出较高的计算成本,同时,视觉辅助系统对系统功耗的要求较高,难以实现高检测性能、超长续航。
发明内容
本发明为解决以上现有技术存在的技术缺陷,提供了一种基于深度学习技术的视觉辅助系统,该系统很好的满足了视觉辅助系统辅助出行的应用场景。
为实现以上发明目的,采用的技术方案是:
一种基于深度学习技术的视觉辅助系统,包括数据采集单元、数据预处理单元、环境感知单元和用户接口单元;
其中数据采集单元用于感知周围环境的信息,并将感知到的数据传输至数据预处理单元;数据预处理单元对接收到的数据进行预处理,然后将预处理好的数据传输至环境感知单元;环境感知单元接收数据后进行基于深度学习技术的障碍物检测,得到周围环境中障碍物的类别、位置及距离,然后将检测到的周围环境的障碍物信息处理成文本信息,并将文本信息送入用户接口单元;用户接口单元将文本信息转化成语音,供用户获知周围的环境的障碍物情况。
优选地,所述数据采集单元包括超声波传感器和摄像头,超声波传感器用于发射超声波信号与接收超声波信息,并记录下发射超声波和接收超声波的时间信息,然后将时间信息传输至数据预处理单元;所述摄像头用于捕捉周围环境中的图像帧信息,并将捕捉到的图像帧信息传输至数据预处理单元。
优选地,所述数据预处理单元包括图像预处理单元和传感器预处理单元,其中图像预处理单元用于对摄像头捕捉到的图像帧信息进行翻转、缩放、裁剪、图像增强这些处理;传感器预处理单元用于计算出超声波发射与接收的时间差,并通过比较时间差与预设的危险警报阈值时间的大小,决定时间差是输入用户接口单元还是输入环境感知单元:如果时间差小于预设的危险警报阈值时间,时间差会直接输入到用户接口单元,提示用户危险;如果时间差大于预设的危险警报阈值时间,时间差会输入到环境感知单元,交由环境感知单元进行下一步骤的处理。
本发明的传感器预处理单元是通过计算超声波发射与接收信号的时间差,与预先设定的安全警报阈值进行比较。该传感器预处理单元的判决过程有效减少了视觉辅助系统中对传感器数据的不必要计算,提高了视觉辅助系统对用户安全性的保护。
优选地,所述环境感知单元包括目标检测单元和障碍物检测单元,预处理好的图像数据输入至目标检测单元中,通过基于深度学习技术的目标检测方法对图像中的目标进行检测,得到目标的类别,并确定目标的位置;而预处理好的传感器数据输入至障碍物检测单元中,计算出障碍物距离用户的距离;目标检测单元检测的目标的类别、位置及障碍物检测单元检测的障碍物距离用户的距离融合成文本信息;然后将融合的文本信息输入至用户接口单元。
优选地,所述用户接口单元包括震动警报单元、语音识别单元和语音合成单元,其中震动警报单元用于在传感器预处理单元比较到时间差低于危险警报阈值时间时,接收传感器预处理单元传输的时间差,然后进行报警提示;语音识别单元通过语音识别算法识别用户下发的指令,实现系统预设的功能;语音合成单元用于将环境感知单元输出的文本信息转化成语音,供用户获知周围的环境的障碍物情况。
优选地,所述语音合成单元利用TTS算法将环境感知单元输出的文本信息转化成语音。
优选地,所述目标检测单元基于深度学习技术的目标检测方法在网络结构实现上包含了23层的卷积神经网络;网络结构包含卷积层、最大池化层和旁路层。
本发明中的基于深度学习技术的目标检测算法,在网络结构的设计上,受到了YOLO v2算法的启发,同时考虑到目标检测算法的检测精度和检测速度,设计了包含了23层的卷积神经网络,该网络结构中不仅包含卷积层和最大池化层等神经网络基本部件,还包含旁路层。
本发明的基于深度学习的目标检测算法中的卷积层是用于提取图像中目标的特征,最大池化层帮助网络进行非线性变换以及降低维度。同时网络结构中加入了1x 1的卷积核,通过与3x 3的卷积核组合,能有效的提取出更适合进行目标检测的特征;网络结构中设计了旁路层,通过旁路层将网络模型中浅层的细粒度特征与高层高度表达的特征进行特征融合,使之产生更有利于检测小目标的特征。
与现有技术相比,本发明的有益效果是:
1)本发明设计的视觉辅助系统的计算流程有效的降低了计算量;
2)本发明设计的基于深度学习的目标检测算法兼具高检测精度和实时检测的优点;
3)本发明提供的区域转换方法有效的提高了视觉障碍人士对周围环境的理解;
4)本发明设计的用户接口包含了语音合成与语音识别,使得信息能够被用户所理解。
附图说明
图1为本发明的视觉辅助系统的系统框图。
图2为本发明的目标检测单元的检测结果区域信息转换示意图。
图3为本发明的基于深度学习的目标检测算法的网络结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,本发明提供的基于深度学习技术的视觉辅助系统包括数据采集单元、数据预处理单元、环境感知单元和用户接口单元。
其中,所述数据采集单元包括超声波传感器和摄像头。数据采集单元与数据预处理单元之间通过interface连接。
数据采集单元的具体工作过程如下:
步骤一:数据采集单元通过摄像头捕捉到周围环境中的图像帧信息;
步骤二:数据采集单元通过超声波传感器发射超声波信号与接收超声波信息,记录下发射超声波和接收超声波的时间信息。
数据预处理单元包含图像预处理单元和传感器预处理单元,数据预处理单元与环境感知单元、用户接口单元之间通过interface连接。
数据预处理单元的具体工作过程如下:
步骤一:数据采集单元中捕捉到的图像帧,通过interface送入数据预处理单元;
步骤二:数据预处理单元中的图像预处理单元对摄像头采集到的图像进行缩放裁剪至448×448,并对图像进行适度的图像增强,应对环境光照等影响,使得预处理后的图像有利于目标检测单元进行目标检测。
步骤三:数据采集单元中记录的超声波发射与接收的时间信息,通过interface送入数据预处理单元的传感器预处理单元中;
步骤四:通过计算记录的时间信息,计算出超声波发射与接收的时间差;
步骤五:通过比较预设的危险警报阈值时间,判断传感器预处理单元的输出结果与阈值时间的关系,决定输出结果是输入用户接口单元还是输入环境感知单元。
如果时间差小于预设的危险警报阈值时间,传感器预处理单元的输出结果会直接输入到用户接口单元,激活震动警报模块,通过震动和语音警报来提示用户危险。
如果时间差大于预设的危险警报阈值时间,传感器预处理单元的输出结果会输入到环境感知单元中,交由环境感知单元进行下一步骤的处理。
步骤三中时间差的计算公式如下:
步骤四中判决结果的计算公式如下:
其中,表示第n个时刻与第n-1个时刻判决的结果,表示第i个传感器的第n个时刻,表示第i个传感器的第n-1个时刻,Tdiff表示预先设定的警报阈值,用于判定传感器方向上是否有目标。
环境感知单元包含目标检测单元和障碍物检测单元,环境感知单元与用户接口单元之间通过interface连接。
环境感知单元的处理流程如下:
步骤一:数据预处理单元中输出的结果通过interface送入环境感知单元中;
步骤二:预处理好的图像数据送入环境感知单元的目标检测单元中,通过设计的新的目标检测算法,对图像中的目标进行检测;
步骤三:预处理好的传感器数据送入环境感知单元的障碍物检测单元中,通过障碍物距离计算公式,计算出障碍物距离用户的距离;
步骤四:将图像划分成6个区域——左上,中上,右上,左下,中下,右下,并依此标号为0-5,如图2所示。
步骤五:将目标检测单元输出的目标位置信息转化成区域信息。将目标检测单元输出的目标位置信息转化为对应区域的信息。
步骤六:将目标检测单元转化后的位置信息与障碍物检测单元的距离结果融合成环境中目标的类别及位置的文本信息;
步骤七:将融合的文本信息送入用户接口单元。
对于步骤二中的新的目标检测算法如图3所示,该算法含有23层的卷积神经网络,该算法设计上参考了YOLOv2算法,将目标检测任务转化为回归问题,该算法的网络结构如下所示:
卷积层Conv0,最大池化层MaxPool1,卷积层Conv2,最大池化层MaxPool3,卷积层Conv4,卷积层Conv5,卷积层Conv6,最大池化层MaxPool7,卷积层Conv8,卷积层Conv9,卷积层Conv10,最大池化层MaxPool11,卷积层Conv12,卷积层Conv13,卷积层Conv14,最大池化层15,卷积层Conv16,reorg层19,route层20,卷积层Conv21,卷积层Conv22,输出层detection23;
目标检测算法的损失函数表示为:
上式中,Loss表示目标检测算法的损失函数:λcoord=5,λnoobj=0.5,表示网格i中是否出现目标,表示第i个网格中第j个负责预测的边界框,C表示置信度。
目标检测算法的优化策略是随机梯度下降。
对于,步骤三中计算障碍物距离的计算公式如下所示:
L=c×Δt
其中,L表示的是障碍物距离用户的距离,c表示的是超声波在空气中传播的速度,一般为3×108m/s,Δt表示的是超声波传感器从发射信号到接收信号的时间差。
环境感知单元的输出结果送入用户接口单元,通过TTS(text to speech)算法将环境感知单元输出的文本信息转化成语音。通过视觉辅助系统配备的耳机传入用户的耳朵中。
用户接口中语音识别模块,通过语音识别算法,通过用户说出的特定指令与视觉辅助系统进行语音交互。通过语音识别特定的指定,实现预设的功能。
视觉辅助系统的检测目标类别为5类——自行车、公共汽车、小轿车、宠物狗、行人。
目标检测算法的训练数据集来源于目标检测数据集Pascal VOC 2007、PascalVOC 2012、Microsoft COCO。
视觉辅助系统中,将这些数据集中包含指定五类的目标类别的图像及标注信息二次处理后,融合为一个数据集。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于深度学习技术的视觉辅助系统,其特征在于:包括数据采集单元、数据预处理单元、环境感知单元和用户接口单元;
其中数据采集单元用于感知周围环境的信息,并将感知到的数据传输至数据预处理单元;数据预处理单元对接收到的数据进行预处理,然后将预处理好的数据传输至环境感知单元;环境感知单元接收数据后进行基于深度学习技术的障碍物检测,得到周围环境中障碍物的类别、位置及距离,然后将检测到的周围环境的障碍物信息处理成文本信息,并将文本信息送入用户接口单元;用户接口单元将文本信息转化成语音,供用户获知周围的环境的障碍物情况。
2.根据权利要求1所述的基于深度学习技术的视觉辅助系统,其特征在于:所述数据采集单元包括超声波传感器和摄像头,超声波传感器用于发射超声波信号与接收超声波信息,并记录下发射超声波和接收超声波的时间信息,然后将时间信息传输至数据预处理单元;所述摄像头用于捕捉周围环境中的图像帧信息,并将捕捉到的图像帧信息传输至数据预处理单元。
3.根据权利要求2所述的基于深度学习技术的视觉辅助系统,其特征在于:所述数据预处理单元包括图像预处理单元和传感器预处理单元,其中图像预处理单元用于对摄像头捕捉到的图像帧信息进行翻转、缩放、裁剪、图像增强这些处理;传感器预处理单元用于计算出超声波发射与接收的时间差,并通过比较时间差与预设的危险警报阈值时间的大小,决定时间差是输入用户接口单元还是输入环境感知单元:如果时间差小于预设的危险警报阈值时间,时间差会直接输入到用户接口单元,提示用户危险;如果时间差大于预设的危险警报阈值时间,时间差会输入到环境感知单元,交由环境感知单元进行下一步骤的处理。
4.根据权利要求3所述的基于深度学习技术的视觉辅助系统,其特征在于:所述环境感知单元包括目标检测单元和障碍物检测单元,预处理好的图像数据输入至目标检测单元中,通过基于深度学习技术的目标检测方法对图像中的目标进行检测,得到目标的类别,并确定目标的位置;而预处理好的传感器数据输入至障碍物检测单元中,计算出障碍物距离用户的距离;目标检测单元检测的目标的类别、位置及障碍物检测单元检测的障碍物距离用户的距离融合成文本信息;然后将融合的文本信息输入至用户接口单元。
5.根据权利要求4所述的基于深度学习技术的视觉辅助系统,其特征在于:所述用户接口单元包括震动警报单元、语音识别单元和语音合成单元,其中震动警报单元用于在传感器预处理单元比较到时间差低于危险警报阈值时间时,接收传感器预处理单元传输的时间差,然后进行报警提示;语音识别单元通过语音识别算法识别用户下发的指令,实现系统预设的功能;语音合成单元用于将环境感知单元输出的文本信息转化成语音,供用户获知周围的环境的障碍物情况。
6.根据权利要求5所述的基于深度学习技术的视觉辅助系统,其特征在于:所述语音合成单元利用TTS算法将环境感知单元输出的文本信息转化成语音。
7.根据权利要求5所述的基于深度学习技术的视觉辅助系统,其特征在于:所述目标检测单元基于深度学习技术的目标检测方法在网络结构实现上包含了23层的卷积神经网络;网络结构包含卷积层、最大池化层和旁路层。
CN201910677705.XA 2019-07-25 2019-07-25 一种基于深度学习技术的视觉辅助系统 Active CN110490087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910677705.XA CN110490087B (zh) 2019-07-25 2019-07-25 一种基于深度学习技术的视觉辅助系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910677705.XA CN110490087B (zh) 2019-07-25 2019-07-25 一种基于深度学习技术的视觉辅助系统

Publications (2)

Publication Number Publication Date
CN110490087A true CN110490087A (zh) 2019-11-22
CN110490087B CN110490087B (zh) 2022-08-05

Family

ID=68548481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910677705.XA Active CN110490087B (zh) 2019-07-25 2019-07-25 一种基于深度学习技术的视觉辅助系统

Country Status (1)

Country Link
CN (1) CN110490087B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106265004A (zh) * 2016-10-08 2017-01-04 西安电子科技大学 多传感器智能盲人指路方法与装置
CN109753900A (zh) * 2018-12-21 2019-05-14 西安科技大学 一种基于cnn/lstm的盲人辅助视觉系统
CN109902592A (zh) * 2019-01-30 2019-06-18 浙江大学 一种基于深度学习的盲人辅助行路方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106265004A (zh) * 2016-10-08 2017-01-04 西安电子科技大学 多传感器智能盲人指路方法与装置
CN109753900A (zh) * 2018-12-21 2019-05-14 西安科技大学 一种基于cnn/lstm的盲人辅助视觉系统
CN109902592A (zh) * 2019-01-30 2019-06-18 浙江大学 一种基于深度学习的盲人辅助行路方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴晓烽等: "用于盲人视觉辅助的多目标快速识别并同步测距方法", 《福州大学学报( 自然科学版)》 *

Also Published As

Publication number Publication date
CN110490087B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
JP7047944B2 (ja) 映像監視システム、映像監視方法、及びプログラム
US7792328B2 (en) Warning a vehicle operator of unsafe operation behavior based on a 3D captured image stream
CN106859929B (zh) 一种基于双目视觉的多功能导盲仪
CN106265004A (zh) 多传感器智能盲人指路方法与装置
CN105069976B (zh) 一种疲劳检测和行驶记录综合系统及疲劳检测方法
CN106214436A (zh) 一种基于手机端的智能导盲系统及其导盲方法
CN108053427A (zh) 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置
CN110522617A (zh) 盲人智慧眼镜
CN106965675A (zh) 一种货车集群智能安全作业系统
CN108245384A (zh) 基于增强学习的双目视觉导盲仪
CN109730910A (zh) 出行的视觉辅助系统及其辅助设备、方法、可读存储介质
WO2022041869A1 (zh) 路况提示方法、装置、电子设备、存储介质及程序产品
CN106651873B (zh) 一种基于rgb-d相机和立体声的视障人士斑马线检测眼镜
KR102284744B1 (ko) 스테레오 카메라와 적외선 센서를 활용한 시각장애인을 위한 웨어러블 기기
CN204972147U (zh) 基于Kinect的盲人导航系统
CN110147738A (zh) 一种驾驶员疲劳监测预警方法及系统
CN110276265A (zh) 基于智能三维立体监控设备的行人监测方法及装置
CN109106563A (zh) 一种基于深度学习算法的自动化导盲装置
CN108670745A (zh) 一种基于语音识别准入的盲人导航方法及系统
CN111904806A (zh) 导盲系统
CN113678141A (zh) 用于盲人和视力受损人员的立体声装置
CN115171336A (zh) 一种海滩监控溺水防护系统
CN109308467A (zh) 基于机器学习的交通事故预警装置及预警方法
CN107049717B (zh) 一种基于rgb-d相机和立体声的视障人士斑马线检测系统及方法
CN108497608A (zh) 一种智能避障导航鞋

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant