CN114587949B - 一种导盲系统 - Google Patents

一种导盲系统 Download PDF

Info

Publication number
CN114587949B
CN114587949B CN202210155257.9A CN202210155257A CN114587949B CN 114587949 B CN114587949 B CN 114587949B CN 202210155257 A CN202210155257 A CN 202210155257A CN 114587949 B CN114587949 B CN 114587949B
Authority
CN
China
Prior art keywords
module
voice
information
distance
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210155257.9A
Other languages
English (en)
Other versions
CN114587949A (zh
Inventor
程景春
宋佳洁
潘雄
张春熹
高爽
庞阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210155257.9A priority Critical patent/CN114587949B/zh
Publication of CN114587949A publication Critical patent/CN114587949A/zh
Application granted granted Critical
Publication of CN114587949B publication Critical patent/CN114587949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Pain & Pain Management (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Rehabilitation Therapy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种导盲系统,包括视觉取样模块、语音交互模块、本地图像识别模块、通讯模块及远程信息处理模块,按键控制模块;采用本地与云端两相结合对图片进行识别匹配,主要工作模式为导盲模式和生活模式;导盲模式适用于盲人街道出行,主要实现避障功能;生活模式,适用于盲人在日常生活中进行取物或是观景等场景。通过本发明的技术方案,能够解决视觉障碍人士的安全出行问题。

Description

一种导盲系统
技术领域
本发明涉及一种导盲系统,尤其涉及一种基于轻量级神经网络的辅助视觉障碍人士出行的导盲系统。
背景技术
视觉障碍患者作为社会的弱势群体,缺少了一种感知外界的重要途径,在工作生活中面临着种种问题。主流的导盲方式,基于超声探测的导盲仪器以及导盲犬。前者具有探测范围小,使用环境受限的缺陷,后者数量少,训练成本高,缺乏普适性。
近年也出现了许多对于新型导盲设备的研究。主要有:射频识别技术(RFID,RadioFrequency Identification)、传感器及机器学习等技术。RFID方法通过对障碍物或其他需要识别判断的物体植入无源标签,视觉障碍人士通过指套上内置的RFID模块接收信息,再将信号传输到可穿戴设备的微型机上进行处理,以触觉或语音的方式反馈给用户。该方法中的电子标签可以反复设置,且能在短距离内实现快速识别,但缺点也很明显,只适用于放置了标签的特殊环境,无法大面积推广使用。传感器的方法常与超声波探测技术结合。如西班牙研究人员利用蝙蝠声波定位系统研制的回音定位辅助盲人导航系统;德国康斯坦茨大学的几名研究生利用微软的体感外设Kinect制成新型导盲仪;新加坡国立大学的研究者依靠导盲手杖的定位系统及传感器等内置设备研制出新型导盲手杖以及中科院声学研究所通信声学实验室研制的“超声波导盲仪和便携GPS盲人导航系统”等。这种方法摆脱了RFID方法对场景的限制,更具有普适性,也是当今导盲市场的主流方法。但往往难以处理复杂环境,且检测范围较小。
上述导盲方式均不能使视觉障碍人士拥有直观的“视觉”体验,仅仅停留在测距的层面上,对于障碍物的类别等具体信息难以获知。近几年随着人工智能,神经网络等技术大力发展,有人将支持向量机,卷积神经网络等图像识别手段运用到避障导盲领域中。与传统导盲方式相比,这种方式功能更加健全,测距范围也进一步增大,且生产成本降低,通过大量数据集的训练优化,实现目标的具体识别,在“认知”的基础上实现避障。
发明内容
为了解决视觉障碍人士安全放心的出行问题,本发明基于计算机视觉里的目标检测思想,双目深度估计思想,提出一种基于轻量级神经网络的辅助视觉障碍人士出行的导盲系统,本发明的具体技术方案如下:
一种导盲系统,在眼镜的两个镜片上分别安装性能和参数相同的高清摄像头形成双目摄像头,两个摄像头关于眼镜的中轴对称,两个摄像头以设置的固定频率采集使用者前方的环境图像,并压缩为jpeg格式,所述系统还包括视觉取样模块、语音交互模块、本地图像识别模块、远程信息处理模块、按键控制模块及通讯模块,其中,
所述视觉取样模块,用户通过语音输入或按键控制选择对拍摄图像进行本地处理或远程处理,根据选择结果将拍摄的图像信息传送至所述本地图像识别模块或所述远程信息处理模块;
所述语音交互模块与所述视觉取样模块相连,用于语音识别和语音合成,将用户的语音信息转化成系统指令下发,同时播报所述本地图像识别模块或所述远程信息处理模块传送的txt文本;用户的手机通过蓝牙连接所述导盲系统,能够通过选用的内置的语音合成芯片将文本信息转换成语音信息播放,以便及时获取信息;
所述本地图像识别模块,以针对移动和嵌入式设备的轻量级卷积神经网络为框架,对所述视觉取样模块的图像信息进行特征提取与目标检测并结合双目深度估计原理完成距离定位,将检测结果生成txt文本,根据用户的选择传送至所述语音交互模块,如果检测到用户与障碍物的距离小于设定的安全距离,则直接传送至所述语音交互模块;
所述远程信息处理模块,在远程计算机或云服务器上搭建软件平台,构建高精度深层卷积神经网络,用于实现比所述本地图像识别模块更详细的图像检测算法及优化语言处理,当用户选择采用所述远程信息处理模块进行目标检测时,能够检测出除避障必备的障碍信息及交通信息之外的其他信息,将检测结果生成txt文本,结合所述语音交互模块进行播报,实现具体画面描述;如果检测到用户与障碍物的距离小于设定的安全距离,则直接传送至所述语音交互模块;
所述按键控制模块,在眼镜框的左右两侧分别设置3个按键,每个按键的按下与弹起分别对应相应的指令,实现命令的传输,其中,
左一按键:用于控制是否播报所述本地图像识别模块或所述远程信息处理模块生成的txt文本,按下即选择播报txt文本,弹起则不播报;
左二按键:用以控制是否系统自动更新,按下则选择是,弹起则选择否;
左三按键:用以控制是否打开语音输入,按下则开启语音输入,弹起则关闭;
右一按键:用以控制是否开启上网功能,按下则开启,弹起则关闭;
右二按键:用以控制是否开启电源,按下则开启,弹起则关闭;
右三按键:用以控制音量;
所述通讯模块,通过5G网络将所述系统与云服务器及其他无线设备连接,把所述视觉取样模块采集的图像上传到所述远程信息处理模块,经远程分析后传回并反馈给用户。
进一步地,所述本地图像识别模块中的轻量级卷积神经网络,包含通道数分别为8,16,32,64的4个卷积层和2个全连接层,其中,
最后一个全连接层作为输出层输出1000类物体分类向量;
当数据经过除全连接层之外的每个层的运算后,均使用标准化进行归一化处理,并采用ReLU激活函数添加非线性;
卷积层使用3*3的卷积核,通过给源图像或特征图设置padding补全保证每次卷积运算特征尺寸恒定,分别在通道数为16和32的卷积层后添加池化层;
模型训练阶段在服务器端进行,采用GPU硬件加速网络训练,利用本地采集的图像数据或Imagenet作为基准数据集完成训练和性能评测,将训练固定的模型参数用于本地图像识别。
进一步地,所述本地图像识别模块的具体处理过程为:
S1:将左边摄像头拍摄的图像输入训练好的轻量级卷积神经网络中完成障碍物及交通信号的检测,得到当前时刻的障碍物信息及交通信息,输出障碍物信息及交通信息的类别、位置及框住目标的矩形框;
S2:将两边摄像头拍摄的图像,进行灰度化及滤波处理;
S3:利用SURF算法对步骤S2处理后的图像进行特征点提取与匹配,得到拍摄的图像正确的匹配点组合;
S4:计算对应匹配点X的坐标差,得到视差,编码成灰度图,得到视差图;
S5:结合步骤S1中网络输出的框住目标的矩形框位置,定位至视差图中的对应位置,计算出矩形框中匹配点的深度信息,也就是图像中目标的位置与拍摄位置即用户的距离,得到障碍物或交通灯目标与用户的实际距离;
S6:比较步骤S5中计算得到的深度信息与设定的安全距离,实现避障判断;
S7:通过步骤S1以及步骤S5获取得到的目标类别信息以及距离信息后,生成相应的txt文本,每2s清空一次文本,由用户自主选择是否进行播报;用户选择播报,则将生成的文本传送至所述语音交互模块进行播报,直到用户修改路线,检测到用户与障碍物的距离大于设定的安全距离后,停止播报。
进一步地,所述步骤S6的具体过程为:
设所述视觉取样模块的采样时间间隔为T,已标定好的双目摄像头在t时刻采集到的障碍物到人体的距离信息为(S11),间隔nT时间后采集到的该障碍物距离信息为(S22),由此得到障碍物靠近的运动速度V,避障提醒触发的边界条件为:
Figure BDA0003512247940000041
Figure BDA0003512247940000042
其中,S1为t时刻已标定好的双目摄像头采集到的障碍物到人体的距离,φ1为双目摄像头基线中点到障碍物的向量与双目摄像头基线法向量的夹角;间隔nT时间后,双目摄像头采集到的障碍物到人体的距离为S2,双目摄像头基线中点到障碍物的向量与双目摄像头基线法向量的夹角为φ2;a,δ,β均为预先设置的参数,a表示障碍物距离边界常数,即安全距离,δ表示障碍物向人体靠近的运动速度边界常数,β表示障碍物相对人体的运动方向偏角;
上述边界条件表明有障碍物在距离人体的预先设定的安全距离内,并且以速度V向人体靠近,当β=0时表示障碍物沿直线方向靠近,当检测到障碍物到人体的距离S1小于a,并且以朝人体方向运动的速度大于δ时,则生成文本传送至所述语音交互模块进行播报提醒。
进一步地,所述语音交互模块通过语音合成芯片实现模块的功能,用于语音识别和语音合成,其中,
所述语音识别的过程为:
S11:当检测到用户按下左三按键,则开始进行语音采集,该按键弹起则完成语音采集;
S12:将语音信号转换成电信号,并进行降噪处理;
S13:将步骤S12处理后的语音信号与预设的语音命令对比识别,得到当前语音信息对应的命令;
S14:根据步骤S13中识别的命令,传送至对应模块;
所述语音合成的过程为:
S21:当处于以下两种情况时,启动语音合成:
第一种情况,接收到通过按键控制或语音命令进行用户语音播报当前路况信息的命令后;
第二种情况,本地图像识别模块或远程信息处理模块检测到用户当前行进方向存在障碍物,且与障碍物的距离小于设定的安全距离;
S22:将当前时刻的本地图像识别模块或远程信息处理模块生产的txt文本中的信息合成为语音信号信息,经过处理后连接至安装在眼镜框的麦克风进行播报;
如果由于步骤S21中第二种情况启动语音合成,则重复执行步骤S22,不断更新障碍物的距离信息,直到用户与障碍物的距离大于设定的安全距离则停止。
进一步地,所述远程信息处理模块中的高精度深层卷积神经网络包括特征提取模块、区域建议和分类输出模块,其中,
所述特征提取模块采用包括16个卷积层的全卷积神经网络,通道数从8开始每经过两个卷积层扩大一倍,采用3*3卷积核,每层经卷积运算后添加Tanh激活函数,并进行池化操作,用于提取丰富的图像特征;
所述区域建议和分类输出模块借助回归网络生成障碍物的目标框,根据图像框内的图像特征,经池化层和全连接层后输出框内物体的类别信息。
进一步地,所述系统的工作模式包括:
导盲模式,适用于用户街道出行;由所述本地图像识别模块识别分析所述视觉取样模块拍摄的图像,发现前方有十字路口、交通信号灯或车辆、行人和阶梯障碍物时,生成关键词,由所述语音交互模块按照语言模板进行导盲播报;
生活模式,适用于用户在日常生活中取物或观景,将所述视觉取样模块采集到的图像经所述本地图像识别模块分析识别,再由所述通信模块传送至所述远程信息处理模块,生成对应文本发送至所述语音交互模块进行语音播报;该模式下,若所述本地图像识别模块识别出有障碍物逼近,则自动触发导盲模式,帮助用户避障。
本发明的有益效果在于:
1.本地以轻量级神经网络为基本框架,主要实现障碍物,交通标志等检测,以及深度估计,云端以高精度深层卷积神经网络为基本框架,主要实现场景目标检测识别等功能。两种模式结合,极大地保证了产品本身功能的实时性,同时当面对信号弱或是没有信号的场景时,无法实现高精度目标检测,深度估计的时候,也能保证用户使用的基本功能和安全性。
2.在识别模式上又分为了生活模式和避障模式,且选用专门的网络去应对,提高精度的同时,在“认知”的基础上让用户实现避障,让用户除了核心避障功能之外,还能更好地认识世界,与人交际生活。
3.结合了目标检测的避障设置,对于不属于路面轮廓障碍的交通场景,如红绿灯或交警手势示意等传统导盲手段难以辅助的场景,也能及时辅助提醒用户。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是本发明的系统结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提出一种辅助视觉障碍人士出行和生活的导盲系统,人类的双眼获取和处理视觉信息就相当于两台摄像机对环境进行拍摄得到的双目视频,通过结合轻量级神经网络以及高精度的深层卷积审计网络对图像进行识别与匹配,同时利用双目深度估计的思想,结合网络提取的特征,完成图像匹配和深度估计,获得物体在三维世界中的位置信息,将画面信息转化成文本信息,通过语音合成芯片对用户进行播报,进而实现对于障碍物的躲避功能以及对眼前之景的了解认知。
本发明采用本地与云端两相结合对图片进行识别匹配,在导盲的模式上设有生活模式和避障模式,导盲模式适用于视觉障碍人士街道出行,实现避障功能;生活模式,适用于视觉障碍人士在日常生活中进行取物观景,或是会客等场景,例如告知视觉障碍人士所取物品的方位和距离信息或是为视觉障碍人士描述来访者信息等功能。
如图1所示,首先通过视觉取样模块收集使用者周围的环境图像,获取到的图片是由摄像设备硬件压缩的jpeg格式,在用户选择的情况下,传输到本地图像识别模块或远程信息处理模块,在本地图像识别模块中,获取的图像先由轻量级神经网络对图像进行特征提取以及同源匹配,接着实现目标检测与深度估计的功能,而在远程信息处理模块中则有高精度深层卷积神经网络进行更进一步的检测识别以及深度估计,若没有检测到障碍物信息,用户可自行选择是否播报画面内容,若检测到障碍物信息则直接传送至语音处理模块,将其转化成语音信息,通过耳机告知用户。
具体地,一种导盲系统,在眼镜的两个镜片上分别安装性能和参数相同的高清摄像头形成双目摄像头,两个摄像头关于眼镜的中轴对称,两个摄像头以设置的固定频率采集使用者前方的环境图像,并压缩为jpeg格式,系统还包括视觉取样模块、语音交互模块、本地图像识别模块、远程信息处理模块、按键控制模块及通讯模块,其中,
首先要通过内置的程序完成对对摄像头进行标定,同时获得摄像头参数,检测摄像头支持的格式,采集频率设置为3~10帧每秒,具体大小根据目标检测及双目测距的实验确定,此处仅给出一个参考范围;
视觉取样模块,用户通过语音输入或按键控制选择对拍摄图像进行本地处理或远程处理,根据选择结果将拍摄的图像信息传送至本地图像识别模块或远程信息处理模块;
语音交互模块与视觉取样模块相连,用于语音识别和语音合成,将用户的语音信息转化成系统指令下发,同时播报本地图像识别模块或远程信息处理模块传送的txt文本;用户的手机通过蓝牙连接导盲系统,能够通过选用的内置的语音合成芯片将文本信息转换成语音信息播放,以便及时获取信息;
本地图像识别模块,以针对移动和嵌入式设备的轻量级卷积神经网络为框架,对视觉取样模块的图像信息进行特征提取与目标检测(目标即行走道路上常见障碍物及交通信号,如树,广告牌,墙,红绿灯等信息)并结合双目深度估计原理完成距离定位,将检测结果生成txt文本,根据用户的选择传送至语音交互模块,如果检测到用户与障碍物的距离小于设定的安全距离,则直接传送至语音交互模块;
远程信息处理模块,在远程计算机或云服务器上搭建软件平台,构建高精度深层卷积神经网络,用于实现比本地图像识别模块更详细的图像检测算法及优化语言处理,当用户选择采用远程信息处理模块进行目标检测时,能够检测出除避障必备的障碍信息及交通信息之外的其他信息(包括广告牌文字及植物颜色等),将检测结果生成txt文本,结合语音交互模块进行播报,实现具体画面描述;如果检测到用户与障碍物的距离小于设定的安全距离,则直接传送至语音交互模块;
远程信息处理模块主要针对复杂场景下多目标物体检测,适用于对实时性要求不高,对画面内容丰富性要求比较高的场景,由用户通过语音输入或按键控制进行切换。
按键控制模块,在眼镜框的左右两侧分别设置3个按键,每个按键的按下与弹起分别对应相应的指令,实现命令的传输,其中,
左一按键:用于控制是否播报本地图像识别模块或远程信息处理模块生成的txt文本,按下即选择播报txt文本,弹起则不播报;
左二按键:用以控制是否系统自动更新,按下则选择是,弹起则选择否;
左三按键:用以控制是否打开语音输入,按下则开启语音输入,弹起则关闭;
右一按键:用以控制是否开启上网功能,按下则开启,弹起则关闭;
右二按键:用以控制是否开启电源,按下则开启,弹起则关闭;
右三按键:用以控制音量;
通讯模块,通过5G网络将系统与云服务器及其他无线设备连接,把视觉取样模块采集的图像上传到远程信息处理模块,经远程分析后传回并反馈给用户。
本地图像识别模块中的轻量级卷积神经网络,包含通道数分别为8,16,32,64的4个卷积层和2个全连接层,其中,
最后一个全连接层作为输出层输出1000类物体分类向量;
当数据经过除全连接层之外的每个层的运算后,均使用标准化进行归一化处理,并采用ReLU激活函数添加非线性;
卷积层使用3*3的卷积核,通过给源图像或特征图设置padding补全保证每次卷积运算特征尺寸恒定,分别在通道数为16和32的卷积层后添加池化层;
模型训练阶段在服务器端进行,采用GPU硬件加速网络训练,利用本地采集的图像数据或Imagenet作为基准数据集完成训练和性能评测,训练采用小批量梯度下降法(Mini-Batch Gradient Descent),Batchsize大小设置为64,学习率设置为0.001,对训练轮次增加而逐半衰减,使用Adam优化器进行优化,动量设置为0.9,进行50轮训练迭代至网络收敛,将训练固定的模型参数用于本地图像识别。
在一些实施方式中,本地图像识别模块的具体处理过程为:
S1:将左边摄像头拍摄的图像输入训练好的轻量级卷积神经网络中完成障碍物及交通信号的检测,得到当前时刻的障碍物信息及交通信息,输出障碍物信息及交通信息的类别、位置及框住目标的矩形框;
S2:将两边摄像头拍摄的图像,进行灰度化及滤波处理;
S3:利用SURF算法对步骤S2处理后的图像进行特征点提取与匹配,得到拍摄的图像正确的匹配点组合;
S4:计算对应匹配点X的坐标差,得到视差,编码成灰度图,得到视差图;
S5:结合步骤S1中网络输出的框住目标的矩形框位置,定位至视差图中的对应位置,结合相机标定参数与双目测距计算原理(本质为相似三角形计算),计算出矩形框中匹配点的深度信息,也就是图像中目标的位置与拍摄位置即用户的距离,得到障碍物或交通灯目标与用户的实际距离;
S6:比较步骤S5中计算得到的深度信息与设定的安全距离,实现避障判断;具体过程为:
设视觉取样模块的采样时间间隔为T,已标定好的双目摄像头在t时刻采集到的障碍物到人体的距离信息为(S11),间隔nT时间后采集到的该障碍物距离信息为(S22),由此得到障碍物靠近的运动速度V,避障提醒触发的边界条件为:
Figure BDA0003512247940000091
Figure BDA0003512247940000092
其中,S1为t时刻已标定好的双目摄像头采集到的障碍物到人体的距离,φ1为双目摄像头基线中点到障碍物的向量与双目摄像头基线法向量的夹角;间隔nT时间后,双目摄像头采集到的障碍物到人体的距离为S2,双目摄像头基线中点到障碍物的向量与双目摄像头基线法向量的夹角为φ2;a,δ,β均为预先设置的参数,a表示障碍物距离边界常数,即安全距离,δ表示障碍物向人体靠近的运动速度边界常数,β表示障碍物相对人体的运动方向偏角;
上述边界条件表明有障碍物在距离人体的预先设定的安全距离内,并且以速度V向人体靠近,当β=0时表示障碍物沿直线方向靠近,当检测到障碍物到人体的距离S1小于a,并且以朝人体方向运动的速度大于δ时,则生成文本传送至语音交互模块进行播报提醒。
S7:通过步骤S1以及步骤S5获取得到的目标类别信息以及距离信息后,生成相应的txt文本,每2s清空一次文本,由用户自主选择是否进行播报;用户选择播报,则将生成的文本传送至语音交互模块进行播报,直到用户修改路线,检测到用户与障碍物的距离大于设定的安全距离后,停止播报。
在一些实施方式中,语音交互模块通过语音合成芯片实现模块的功能,用于语音识别和语音合成,其中,
语音识别的过程为:
S11:当检测到用户按下左三按键,则开始进行语音采集,该按键弹起则完成语音采集;
S12:将语音信号转换成电信号,并进行降噪处理;
S13:将步骤S12处理后的语音信号与预设的语音命令(系统内部预先建立语料库,包含使用导盲系统的各项命令,如“开启上网功能”,“播报图片信息”等)对比识别,得到当前语音信息对应的命令;
S14:根据步骤S13中识别的命令,传送至对应模块;
语音合成的过程为:
S21:当处于以下两种情况时,启动语音合成:
第一种情况,接收到通过按键控制或语音命令进行用户语音播报当前路况信息的命令后;
第二种情况,本地图像识别模块或远程信息处理模块检测到用户当前行进方向存在障碍物,且与障碍物的距离小于设定的安全距离;
S22:将当前时刻的本地图像识别模块或远程信息处理模块生产的txt文本中的信息合成为语音信号信息,经过处理后连接至安装在眼镜框的麦克风进行播报;
如果由于步骤S21中第二种情况启动语音合成,则重复执行步骤S22,不断更新障碍物的距离信息,直到用户与障碍物的距离大于设定的安全距离则停止。
在一些实施方式中,远程信息处理模块,中的高精度深层卷积神经网络包括特征提取模块、区域建议和分类输出模块,其中,
特征提取模块采用包括16个卷积层的全卷积神经网络,通道数从8开始每经过两个卷积层扩大一倍,采用3*3卷积核,每层经卷积运算后添加Tanh激活函数,并进行池化操作,用于提取丰富的图像特征;
区域建议和分类输出模块借助回归网络生成障碍物的目标框,根据图像框内的图像特征,经池化层和全连接层后输出框内物体的类别信息。
本发明系统的工作模式包括:
导盲模式,适用于用户街道出行;由本地图像识别模块识别分析视觉取样模块拍摄的图像,发现前方有十字路口、交通信号灯或车辆、行人和阶梯障碍物时,生成关键词,由语音交互模块按照语言模板进行导盲播报;
生活模式,适用于用户在日常生活中取物或观景,将视觉取样模块采集到的图像经本地图像识别模块分析识别,再由通信模块传送至远程信息处理模块,生成对应文本发送至语音交互模块进行语音播报;该模式下,若本地图像识别模块识别出有障碍物逼近,则自动触发导盲模式,帮助用户避障。
在一些实施方式中,安全距离一般设定为3-5米。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本发明中,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种导盲系统,在眼镜的两个镜片上分别安装性能和参数相同的高清摄像头形成双目摄像头,两个摄像头关于眼镜的中轴对称,两个摄像头以设置的固定频率采集使用者前方的环境图像,并压缩为jpeg格式,其特征在于,所述系统还包括视觉取样模块、语音交互模块、本地图像识别模块、远程信息处理模块、按键控制模块及通讯模块,其中,
所述视觉取样模块,用户通过语音输入或按键控制选择对拍摄图像进行本地处理或远程处理,根据选择结果将拍摄的图像信息传送至所述本地图像识别模块或所述远程信息处理模块;
所述语音交互模块与所述视觉取样模块相连,用于语音识别和语音合成,将用户的语音信息转化成系统指令下发,同时播报所述本地图像识别模块或所述远程信息处理模块传送的txt文本;用户的手机通过蓝牙连接所述导盲系统,能够通过选用的内置的语音合成芯片将文本信息转换成语音信息播放,以便及时获取信息;
所述本地图像识别模块,以针对移动和嵌入式设备的轻量级卷积神经网络为框架,对所述视觉取样模块的图像信息进行特征提取与目标检测并结合双目深度估计原理完成距离定位,将检测结果生成txt文本,根据用户的选择传送至所述语音交互模块,如果检测到用户与障碍物的距离小于设定的安全距离,则直接传送至所述语音交互模块;
所述远程信息处理模块,在远程计算机或云服务器上搭建软件平台,构建高精度深层卷积神经网络,用于实现比所述本地图像识别模块更详细的图像检测算法及优化语言处理,当用户选择采用所述远程信息处理模块进行目标检测时,能够检测出除避障必备的障碍信息及交通信息之外的其他信息,将检测结果生成txt文本,结合所述语音交互模块进行播报,实现具体画面描述;如果检测到用户与障碍物的距离小于设定的安全距离,则直接传送至所述语音交互模块;
所述按键控制模块,在眼镜框的左右两侧分别设置3个按键,每个按键的按下与弹起分别对应相应的指令,实现命令的传输,其中,
左一按键:用于控制是否播报所述本地图像识别模块或所述远程信息处理模块生成的txt文本,按下即选择播报txt文本,弹起则不播报;
左二按键:用以控制是否系统自动更新,按下则选择是,弹起则选择否;
左三按键:用以控制是否打开语音输入,按下则开启语音输入,弹起则关闭;
右一按键:用以控制是否开启上网功能,按下则开启,弹起则关闭;
右二按键:用以控制是否开启电源,按下则开启,弹起则关闭;
右三按键:用以控制音量;
所述通讯模块,通过5G网络将所述系统与云服务器及其他无线设备连接,把所述视觉取样模块采集的图像上传到所述远程信息处理模块,经远程分析后传回并反馈给用户。
2.根据权利要求1所述的导盲系统,其特征在于,所述本地图像识别模块中的轻量级卷积神经网络,包含通道数分别为8,16,32,64的4个卷积层和2个全连接层,其中,
最后一个全连接层作为输出层输出1000类物体分类向量;
当数据经过除全连接层之外的每个层的运算后,均使用标准化进行归一化处理,并采用ReLU激活函数添加非线性;
卷积层使用3*3的卷积核,通过给源图像或特征图设置padding补全保证每次卷积运算特征尺寸恒定,分别在通道数为16和32的卷积层后添加池化层;
模型训练阶段在服务器端进行,采用GPU硬件加速网络训练,利用本地采集的图像数据或Imagenet作为基准数据集完成训练和性能评测,将训练固定的模型参数用于本地图像识别。
3.根据权利要求1或2所述的导盲系统,其特征在于,所述本地图像识别模块的具体处理过程为:
S1:将左边摄像头拍摄的图像输入训练好的轻量级卷积神经网络中完成障碍物及交通信号的检测,得到当前时刻的障碍物信息及交通信息,输出障碍物信息及交通信息的类别、位置及框住目标的矩形框;
S2:将两边摄像头拍摄的图像,进行灰度化及滤波处理;
S3:利用SURF算法对步骤S2处理后的图像进行特征点提取与匹配,得到拍摄的图像正确的匹配点组合;
S4:计算对应匹配点X的坐标差,得到视差,编码成灰度图,得到视差图;
S5:结合步骤S1中网络输出的框住目标的矩形框位置,定位至视差图中的对应位置,计算出矩形框中匹配点的深度信息,也就是图像中目标的位置与拍摄位置即用户的距离,得到障碍物或交通灯目标与用户的实际距离;
S6:比较步骤S5中计算得到的深度信息与设定的安全距离,实现避障判断;
S7:通过步骤S1以及步骤S5获取得到的目标类别信息以及距离信息后,生成相应的txt文本,每2s清空一次文本,由用户自主选择是否进行播报;用户选择播报,则将生成的文本传送至所述语音交互模块进行播报,直到用户修改路线,检测到用户与障碍物的距离大于设定的安全距离后,停止播报。
4.根据权利要求3所述的导盲系统,其特征在于,所述步骤S6的具体过程为:
设所述视觉取样模块的采样时间间隔为T,已标定好的双目摄像头在t时刻采集到的障碍物到人体的距离信息为(S11),间隔nT时间后采集到的所述障碍物到人体的距离信息为(S22),由此得到障碍物靠近的运动速度V,避障提醒触发的边界条件为:
其中,S1为t时刻已标定好的双目摄像头采集到的障碍物到人体的距离,φ1为双目摄像头基线中点到障碍物的向量与双目摄像头基线法向量的夹角;间隔nT时间后,双目摄像头采集到的障碍物到人体的距离为S2,双目摄像头基线中点到障碍物的向量与双目摄像头基线法向量的夹角为φ2;a,δ,β均为预先设置的参数,a表示障碍物距离边界常数,即安全距离,δ表示障碍物向人体靠近的运动速度边界常数,β表示障碍物相对人体的运动方向偏角;
上述边界条件表明有障碍物在距离人体的预先设定的安全距离内,并且以速度V向人体靠近,当β=0时表示障碍物沿直线方向靠近,当检测到障碍物到人体的距离S1小于a,并且以朝人体方向运动的速度大于δ时,则生成文本传送至所述语音交互模块进行播报提醒。
5.根据权利要求1或2所述的导盲系统,其特征在于,所述语音交互模块通过语音合成芯片实现模块的功能,用于语音识别和语音合成,其中,
所述语音识别的过程为:
S11:当检测到用户按下左三按键,则开始进行语音采集,该按键弹起则完成语音采集;
S12:将语音信号转换成电信号,并进行降噪处理;
S13:将步骤S12处理后的语音信号与预设的语音命令对比识别,得到当前语音信息对应的命令;
S14:根据步骤S13中识别的命令,传送至对应模块;
所述语音合成的过程为:
S21:当处于以下两种情况时,启动语音合成:
第一种情况,接收到通过按键控制或语音命令进行用户语音播报当前路况信息的命令后;
第二种情况,本地图像识别模块或远程信息处理模块检测到用户当前行进方向存在障碍物,且与障碍物的距离小于设定的安全距离;
S22:将当前时刻的本地图像识别模块或远程信息处理模块生产的txt文本中的信息合成为语音信号信息,经过处理后连接至安装在眼镜框的麦克风进行播报;
如果由于步骤S21中第二种情况启动语音合成,则重复执行步骤S22,不断更新障碍物的距离信息,直到用户与障碍物的距离大于设定的安全距离则停止。
6.根据权利要求1或2所述的导盲系统,其特征在于,所述远程信息处理模块,中的高精度深层卷积神经网络包括特征提取模块、区域建议和分类输出模块,其中,
所述特征提取模块采用包括16个卷积层的全卷积神经网络,通道数从8开始每经过两个卷积层扩大一倍,采用3*3卷积核,每层经卷积运算后添加Tanh激活函数,并进行池化操作,用于提取丰富的图像特征;
所述区域建议和分类输出模块借助回归网络生成障碍物的目标框,根据图像框内的图像特征,经池化层和全连接层后输出框内物体的类别信息。
7.根据权利要求6所述的导盲系统,其特征在于,所述系统的工作模式包括:
导盲模式,适用于用户街道出行;由所述本地图像识别模块识别分析所述视觉取样模块拍摄的图像,发现前方有十字路口、交通信号灯或车辆、行人和阶梯障碍物时,生成关键词,由所述语音交互模块按照语言模板进行导盲播报;
生活模式,适用于用户在日常生活中取物或观景,将所述视觉取样模块采集到的图像经所述本地图像识别模块分析识别,再由通信模块传送至所述远程信息处理模块,生成对应文本发送至所述语音交互模块进行语音播报;该模式下,若所述本地图像识别模块识别出有障碍物逼近,则自动触发导盲模式,帮助用户避障。
CN202210155257.9A 2022-02-21 2022-02-21 一种导盲系统 Active CN114587949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210155257.9A CN114587949B (zh) 2022-02-21 2022-02-21 一种导盲系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210155257.9A CN114587949B (zh) 2022-02-21 2022-02-21 一种导盲系统

Publications (2)

Publication Number Publication Date
CN114587949A CN114587949A (zh) 2022-06-07
CN114587949B true CN114587949B (zh) 2023-04-07

Family

ID=81804936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210155257.9A Active CN114587949B (zh) 2022-02-21 2022-02-21 一种导盲系统

Country Status (1)

Country Link
CN (1) CN114587949B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106389078A (zh) * 2016-11-24 2017-02-15 贵州大学 一种智能导盲眼镜系统及其导盲方法
CN110478204A (zh) * 2019-07-25 2019-11-22 李高轩 一种结合图像识别的导盲眼镜及其构成的导盲系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI474173B (zh) * 2012-02-21 2015-02-21 Hon Hai Prec Ind Co Ltd 行走輔助系統及行走輔助方法
US20180185232A1 (en) * 2015-06-19 2018-07-05 Ashkon Namdar Wearable navigation system for blind or visually impaired persons with wireless assistance
CN105005999B (zh) * 2015-08-12 2018-08-10 北京航空航天大学 一种基于计算机立体视觉面向导盲仪的障碍物探测方法
CN106214436A (zh) * 2016-07-22 2016-12-14 上海师范大学 一种基于手机端的智能导盲系统及其导盲方法
CN108743266A (zh) * 2018-06-29 2018-11-06 合肥思博特软件开发有限公司 一种盲人智能导航避障出行辅助方法及系统
CN109481248A (zh) * 2018-12-26 2019-03-19 浙江师范大学 一种智能导盲眼镜
CN110623820A (zh) * 2019-07-15 2019-12-31 电子科技大学 一种可穿戴式智能导盲装置
CN110538051A (zh) * 2019-08-27 2019-12-06 华南理工大学 一种自动寻路的盲人智能辅助装置及其方法
CN111643324A (zh) * 2020-07-13 2020-09-11 江苏中科智能制造研究院有限公司 一种智能盲人眼镜
CN112274399B (zh) * 2020-10-25 2023-04-07 贵州大学 一种智能感知机器导盲控制方法、存储介质、系统、装置
CN112932910A (zh) * 2021-01-25 2021-06-11 杭州易享优智能科技有限公司 一种穿戴式智能感知导盲系统
KR102291296B1 (ko) * 2021-05-12 2021-08-20 방윤 시각 장애인 보행 보조 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106389078A (zh) * 2016-11-24 2017-02-15 贵州大学 一种智能导盲眼镜系统及其导盲方法
CN110478204A (zh) * 2019-07-25 2019-11-22 李高轩 一种结合图像识别的导盲眼镜及其构成的导盲系统

Also Published As

Publication number Publication date
CN114587949A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
EP3742332B1 (en) Method and apparatus for training model for recognizing key points of hand, and method and apparatus for recognizing key points of hand
US11031012B2 (en) System and method of correlating mouth images to input commands
CN110263213B (zh) 视频推送方法、装置、计算机设备及存储介质
KR100543376B1 (ko) 이동로봇의 화상 송신 장치
CN105662797A (zh) 一种智能物联网导盲杖
KR100593688B1 (ko) 이동로봇의 화상 송신 장치
US20230360634A1 (en) Text data processing method and apparatus
JP2005037181A (ja) ナビゲーション装置、サーバ装置、ナビゲーションシステム、及びナビゲーション方法
EP4167196A1 (en) Method for notifying a blind or visually impaired user of the presence of object and/or obstacle
CN113516143A (zh) 文本图像匹配方法、装置、计算机设备及存储介质
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
Bala et al. Design, development and performance analysis of cognitive assisting aid with multi sensor fused navigation for visually impaired people
CN113678141A (zh) 用于盲人和视力受损人员的立体声装置
Manjari et al. CREATION: Computational constRained travEl aid for objecT detection in outdoor eNvironment
JP6500139B1 (ja) 視覚支援装置
CN114587949B (zh) 一种导盲系统
CN109662830A (zh) 一种语言导盲手杖、基于该手杖的深度神经网络优化方法
CN117323185A (zh) 基于计算机视觉的盲人室内导航系统、方法及训练方法
CN109542220A (zh) 一种带有校准和学习功能的手语手套、系统及实现方法
CN113409770A (zh) 发音特征处理方法、装置、服务器及介质
CN116956814A (zh) 标点预测方法、装置、设备及存储介质
Shahira et al. Assistive technologies for visual, hearing, and speech impairments: Machine learning and deep learning solutions
CN114462580A (zh) 文本识别模型的训练方法、文本识别方法、装置和设备
Merugu et al. A review of some assistive tools and their limitations for visually impaired
CN215897762U (zh) 一种视觉辅助系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant