CN108245384B - 基于增强学习的双目视觉导盲仪 - Google Patents

基于增强学习的双目视觉导盲仪 Download PDF

Info

Publication number
CN108245384B
CN108245384B CN201711316314.2A CN201711316314A CN108245384B CN 108245384 B CN108245384 B CN 108245384B CN 201711316314 A CN201711316314 A CN 201711316314A CN 108245384 B CN108245384 B CN 108245384B
Authority
CN
China
Prior art keywords
module
voice
binocular vision
enhancing
study
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711316314.2A
Other languages
English (en)
Other versions
CN108245384A (zh
Inventor
周坤
孙辉
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Automotive Research Institute of Tsinghua University
Original Assignee
Suzhou Automotive Research Institute of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Automotive Research Institute of Tsinghua University filed Critical Suzhou Automotive Research Institute of Tsinghua University
Priority to CN201711316314.2A priority Critical patent/CN108245384B/zh
Publication of CN108245384A publication Critical patent/CN108245384A/zh
Application granted granted Critical
Publication of CN108245384B publication Critical patent/CN108245384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Rehabilitation Therapy (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Pain & Pain Management (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于增强学习的双目视觉导盲仪,包括:双目视觉模块,用于将第一、第二图像采集模块的图像进行处理,生成实时的深度图,构建三维场景;语音模块,包括语音输入模块和输出模块,语音输入模块包括语音识别模块,用于进行语音识别,语音输出模块,用于以语音的方式输出增强学习模块的行为指令、定位信息和路径导航信息;状态集生成模块,将三维场景通过卷积神经网络提取环境特征,生成状态集;增强学习模块,包括增强学习网络,以状态集作为输入,学习状态转换策略得到输出动作指令;GPS导航模块,用于定位,及根据语音识别信息生成路径规划。可以提供盲人的实时路径规划信号,对盲人的行动策略进行方便的实时的指导。

Description

基于增强学习的双目视觉导盲仪
技术领域
本发明涉及一种双目视觉导盲仪,具体地涉及一种基于增强学习的双目视觉导盲仪。
背景技术
目前主流的导盲仪系统主要是针对将图像做简单的处理生成简单的语音提醒信号,或者是通过超声波发射器进行测距进行障碍物探知,由报警提醒装置发出警示信号。通过此种策略来对盲人的行动进行矫正,无法对盲人的行动进行更为深层次的指导,即无法提供更为的方便的实时行为指导信号。同时,由于目前的导盲仪仅对数据进行浅层次的处理,其行为提醒的正确性以及效用性也不容乐观。
中国专利文献CN 106859929公开了一种基于双目视觉的多功能导盲仪,利用第一摄像头模块和第二摄像头模块拍摄同一目标物体的图像数据特征,通过影像处理算法进行目标物体种类的识别,同时从两个不同视点获取同一景物的多幅图像,获得多组立体图像对,通过测量景物在每一组所述立体图像对中的视差,再利用双目视觉成像原理,计算出目标物体到所述第一摄像头模块和第二摄像头模块的距离,以及所述目标物体相对于所述第一摄像头模块和第二摄像头模块的运动速度。通过将图像做简单的处理生成行走方向建议,提醒的正确性以及效用性较差。
发明内容
为了解决上述存在的技术问题,本发明提供了一种基于增强学习的双目视觉导盲仪,可以提供盲人的实时路径规划信号,对盲人的行动策略进行方便的实时的指导。
本发明的技术方案是:
一种基于增强学习的双目视觉导盲仪,包括:
双目视觉模块,用于将第一图像采集模块和第二图像采集模块的图像进行处理,生成实时的深度图,构建三维场景;
语音模块,包括语音输入模块和语音输出模块,所述语音输入模块包括语音识别模块,用于进行语音识别,所述语音输出模块,用于以语音的方式输出增强学习模块的行为指令、定位信息和路径导航信息;
状态集生成模块,将构建的三维场景通过卷积神经网络提取环境特征,生成状态集;
增强学习模块,包括增强学习网络,所述增强学习网络以状态集作为输入,学习状态转换策略得到输出动作指令;
GPS导航模块,用于定位,及根据语音识别信息生成路径规划。
优选的,所述双目视觉模块实时计算第一图像采集模块和第二图像采集模块采集图像的物体的视差图,通过相机的内参矩阵以及外参矩阵,得到物体的三维坐标,构建三维场景。
优选的,所述状态集生成模块还包括将盲人当前的状态信息根据预先设置的字典映射关系进行离散化成不同的一维词向量,再将词向量按照固定的规则进行行方向拼合,编码成稀疏矩阵,所述稀疏矩阵的维度和卷积神经网络的输入相同,与提取的环境特征融合得到状态集。
优选的,将得到的状态集通过聚类算法进行聚类,得到重新编码的状态集。
与现有技术相比,本发明的优点是:
1、可以直接对盲人进行实时行为指令指导,方便,高效。
2、盲人与导盲仪可以实现互动。
3、双目视觉的立体重建信息作为输入,保障周围环境感知的正确性,可靠性,使得整个系统更为安全。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明基于增强学习的双目视觉导盲仪的结构框图;
图2为本发明导盲仪的工作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例:
下面结合附图,对本发明的较佳实施例作进一步说明。
一种基于增强学习的双目视觉导盲仪,整个设备以穿戴式头盔方式实现,方便盲人的使用,当然也可以为其他方式,其中左右摄像头分别位于头盔前方左右两侧。耳机和麦克风分别集成于头盔的左右两耳位置以及嘴巴位置。这样盲人可以实现十分方便舒适的交流。
如图1所示,双目视觉模块包括左摄像头(第一图像采集模块)、右摄像头(第二图像采集模块)以及FPGA数据处理芯片,双目摄像头在FPGA的控制下实时同步采集环境中的图片,通过对比同一物体在左右摄像头成像位置的不同,实时计算出物体的视差图,通过相机的内参矩阵以及外参矩阵,获得物体的三维坐标,从而实现三维场景的感知以及重构。双目视觉模块生成实时的深度图,用于周围环境的三维立体重建。深度图计算的方法,采用比较速度和成像质量都很好的Semi-global 方法,当然也可以采用动态规划或者其它全局性的视差计算方法。
语音模块,包括语音输入模块和语音输出模块,述语音输入模块包括语音识别模块,用于进行语音识别,可以与盲人实现语音交互。例如,通过RNN网络抽取盲人语音的关键信息,如目的地,当前位置等。通过对盲人语音信息的关键性抽取,将其作为GPS导航模块的输入,从而使得GPS导航模块进行路径规划。
语音输出模块,用于以语音的方式输出增强学习模块的行为指令、定位信息和路径导航信息等信息。
状态集生成模块,将构建的三维场景通过卷积神经网络(CNN)提取环境特征,生成状态集。CNN网络也在FPGA或者arm芯片上实现,进行实时的环境特征提取。CNN 可以选择如AlexNet,VGG等经典方法。状态集除了包括周围的环境,还包括盲人本身的状态,如盲人里目的地的相对位置,因此需要将这些状态信息进行有机拼合。如果将位置信息等盲人状态信息放置在卷积神经网络(CNN)后面直接进行拼合,则会影响整个网络的结构性以及训练过程中的弥散现象。因此本系统设计将此信息直接编码成稀疏矩阵的方式,通过将盲人当前的状态信息如地理坐标、相对距离、目前面向方向等信息根据预先设置字典映射关系(Bag of world技术)进行离散化成不同的一维one-hot向量,再将向量按照固定的规则进行行方向拼合,稀疏矩阵的维度和原CNN的网络输入相同。这样,便可以将盲人本身的信息作为CNN网络输入的一个通道进行处理,保证了整个网络的结构完整性以及训练的高效性。
GPS导航模块,用于定位,及根据语音识别信息生成路径规划。
增强学习模块,包括增强学习网络,该增强学习网络为已经训练好的,其状态转换策略具有普适性,可以根据产品需要来制定芯片,为了整个系统的集成程度,我们采用了统一的FPGA芯片。如果不需要在盲人使用的过程中继续学习,则可以使用普通的cpu计算芯片即可。增强学习网络以状态集作为输入,学习状态转换策略得到输出动作指令,如前进,左转,右转等行为指令。
在进行增强学习的学习中,由于状态集的规模庞大,显而易见地必须使用DQN方法,用深度网络来拟合值函数,但这会大大增加模型的复杂程度。考虑到状态集的冗余特性,本系统选择通过聚类的方式对盲人的状态集进行重新编码,即将CNN网络输出的M维向量进行聚类,如使用K-means等经典聚类算法。通过此种方法,便可以将盲人的状态集锐减成为规模很小的有限状态集的训练,大大降低了模型的复杂度。
系统的实现流程如图2所示:
盲人通过语音输入模块告知导盲仪目的地,经过语音输入模块前端的RNN网络进行解析,生成GPS导航模块可理解的指令输入。GPS导航模块对目的地进行路径规划。在执行规划的路径(行走)的过程中,通过双目视觉模块来感知周围环境,并通过双目视觉模块后端的CNN网络提取周围环境特征作为增强学习模块的状态输入,通过增强学习学习到的状态转换策略实时输出动作指令。通过语音输出模块对盲人的行走进行实时指导。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.一种基于增强学习的双目视觉导盲仪,其特征在于,包括:
双目视觉模块,用于将第一图像采集模块和第二图像采集模块的图像进行处理,生成实时的深度图,构建三维场景;
语音模块,包括语音输入模块和语音输出模块,所述语音输入模块包括语音识别模块,用于进行语音识别,所述语音输出模块,用于以语音的方式输出增强学习模块的行为指令、定位信息和路径导航信息;
状态集生成模块,将构建的三维场景通过卷积神经网络提取环境特征,生成状态集;所述状态集生成模块还包括将盲人当前的状态信息根据预先设置的字典映射关系进行离散化成不同的一维词向量,再将词向量按照固定的规则进行行方向拼合,编码成稀疏矩阵,所述稀疏矩阵的维度和卷积神经网络的输入相同,与提取的环境特征融合得到状态集;
增强学习模块,包括增强学习网络,所述增强学习网络以状态集作为输入,学习状态转换策略得到输出动作指令;
GPS导航模块,用于定位,及根据语音识别信息生成路径规划。
2.根据权利要求1所述的基于增强学习的双目视觉导盲仪,其特征在于,所述双目视觉模块实时计算第一图像采集模块和第二图像采集模块采集图像的物体的视差图,通过相机的内参矩阵以及外参矩阵,得到物体的三维坐标,构建三维场景。
3.根据权利要求1所述的基于增强学习的双目视觉导盲仪,其特征在于,将得到的状态集通过聚类算法进行聚类,得到重新编码的状态集。
CN201711316314.2A 2017-12-12 2017-12-12 基于增强学习的双目视觉导盲仪 Active CN108245384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711316314.2A CN108245384B (zh) 2017-12-12 2017-12-12 基于增强学习的双目视觉导盲仪

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711316314.2A CN108245384B (zh) 2017-12-12 2017-12-12 基于增强学习的双目视觉导盲仪

Publications (2)

Publication Number Publication Date
CN108245384A CN108245384A (zh) 2018-07-06
CN108245384B true CN108245384B (zh) 2019-10-25

Family

ID=62721365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711316314.2A Active CN108245384B (zh) 2017-12-12 2017-12-12 基于增强学习的双目视觉导盲仪

Country Status (1)

Country Link
CN (1) CN108245384B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109381329A (zh) * 2018-12-18 2019-02-26 成都理工大学 一种智能导盲头盔及其运行方法
CN109753900B (zh) * 2018-12-21 2020-06-23 西安科技大学 一种基于cnn/lstm的盲人辅助视觉系统
CN109938973A (zh) * 2019-03-29 2019-06-28 北京易达图灵科技有限公司 一种视障人员导航方法和系统
CN109901589B (zh) * 2019-03-29 2022-06-07 北京易达图灵科技有限公司 移动机器人控制方法和装置
CN110236895A (zh) * 2019-05-10 2019-09-17 苏州米特希赛尔人工智能有限公司 Ai盲人导航眼镜
CN110434859B (zh) * 2019-05-30 2022-11-08 上海大学 一种面向商业办公环境的智能服务机器人系统及其操作方法
CN110472529A (zh) * 2019-07-29 2019-11-19 深圳大学 目标识别导航方法及系统
CN110570469B (zh) * 2019-08-16 2020-08-25 广州威尔森信息科技有限公司 一种汽车图片角度位置的智能识别方法
CN111459205B (zh) * 2020-04-02 2021-10-12 四川三联新材料有限公司 基于增强学习的加热器具控制系统
CN111645073B (zh) * 2020-05-29 2022-04-19 武汉理工大学 一种机器人视觉语义导航方法、装置及系统
CN112101178B (zh) * 2020-09-10 2023-03-24 电子科技大学 一种辅助盲人感知外界环境的智能soc终端
CN112710310B (zh) * 2020-12-07 2024-04-19 深圳龙岗智能视听研究院 一种视觉语言室内导航方法、系统、终端及应用
CN113674593A (zh) * 2021-08-25 2021-11-19 王季源 一种用于触觉显示的头戴式额机系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106859929A (zh) * 2017-01-25 2017-06-20 上海集成电路研发中心有限公司 一种基于双目视觉的多功能导盲仪
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106859929A (zh) * 2017-01-25 2017-06-20 上海集成电路研发中心有限公司 一种基于双目视觉的多功能导盲仪
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于强化学习的农业移动机器人视觉导航;周俊 等;《农业机械学报》;20140228;第45卷(第2期);引言以及第1-3节 *

Also Published As

Publication number Publication date
CN108245384A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN108245384B (zh) 基于增强学习的双目视觉导盲仪
Zhang et al. Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things
Tao et al. An object detection system based on YOLO in traffic scene
CN107909061A (zh) 一种基于不完备特征的头部姿态跟踪装置及方法
KR102060662B1 (ko) 차량의 주행 이벤트를 검출하는 전자 장치 및 방법
Chaudhary et al. A survey on hand gesture recognition in context of soft computing
CN109711262B (zh) 一种基于深度卷积神经网络的智能挖掘机行人检测方法
KR102441171B1 (ko) 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법
CN107688391A (zh) 一种基于单目视觉的手势识别方法和装置
CN108245385A (zh) 一种帮助视障人士出行的装置
CN106919899A (zh) 基于智能机器人的模仿人脸表情输出的方法和系统
Li et al. Sign language recognition based on computer vision
CN109284682A (zh) 一种基于stt-lstm网络的手势识别方法及系统
Chang et al. BEV-V2X: cooperative birds-eye-view fusion and grid occupancy prediction via V2X-based data sharing
CN107818333A (zh) 基于深度信念网络的机器人避障行为学习和目标搜索方法
Yan et al. An end-to-end deep learning network for 3D object detection from RGB-D data based on Hough voting
Tan et al. Flying guide dog: Walkable path discovery for the visually impaired utilizing drones and transformer-based semantic segmentation
CN112418084A (zh) 一种基于点云时序信息融合的三维目标检测方法
CN110825216A (zh) 一种驾驶员驾驶时人机交互的方法和系统
Zahedi et al. Appearance-based recognition of words in american sign language
Wen et al. Fast LiDAR R-CNN: Residual relation-aware region proposal networks for multiclass 3-D object detection
CN111401116A (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
Tarchoun et al. Deep cnn-based pedestrian detection for intelligent infrastructure
Suja et al. Pose invariant method for emotion recognition from 3D images
JP2016192146A (ja) 交通制御システム、交通制御方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant