CN108245384B

CN108245384B - 基于增强学习的双目视觉导盲仪

Info

Publication number: CN108245384B
Application number: CN201711316314.2A
Authority: CN
Inventors: 周坤; 孙辉; 张伟
Original assignee: Suzhou Automotive Research Institute of Tsinghua University
Current assignee: Suzhou Automotive Research Institute of Tsinghua University
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2019-10-25
Anticipated expiration: 2037-12-12
Also published as: CN108245384A

Abstract

本发明公开了一种基于增强学习的双目视觉导盲仪，包括：双目视觉模块，用于将第一、第二图像采集模块的图像进行处理，生成实时的深度图，构建三维场景；语音模块，包括语音输入模块和输出模块，语音输入模块包括语音识别模块，用于进行语音识别，语音输出模块，用于以语音的方式输出增强学习模块的行为指令、定位信息和路径导航信息；状态集生成模块，将三维场景通过卷积神经网络提取环境特征，生成状态集；增强学习模块，包括增强学习网络，以状态集作为输入，学习状态转换策略得到输出动作指令；GPS导航模块，用于定位，及根据语音识别信息生成路径规划。可以提供盲人的实时路径规划信号，对盲人的行动策略进行方便的实时的指导。

Description

基于增强学习的双目视觉导盲仪

技术领域

本发明涉及一种双目视觉导盲仪，具体地涉及一种基于增强学习的双目视觉导盲仪。

背景技术

目前主流的导盲仪系统主要是针对将图像做简单的处理生成简单的语音提醒信号，或者是通过超声波发射器进行测距进行障碍物探知，由报警提醒装置发出警示信号。通过此种策略来对盲人的行动进行矫正，无法对盲人的行动进行更为深层次的指导，即无法提供更为的方便的实时行为指导信号。同时，由于目前的导盲仪仅对数据进行浅层次的处理，其行为提醒的正确性以及效用性也不容乐观。

中国专利文献CN 106859929公开了一种基于双目视觉的多功能导盲仪，利用第一摄像头模块和第二摄像头模块拍摄同一目标物体的图像数据特征，通过影像处理算法进行目标物体种类的识别，同时从两个不同视点获取同一景物的多幅图像，获得多组立体图像对，通过测量景物在每一组所述立体图像对中的视差，再利用双目视觉成像原理，计算出目标物体到所述第一摄像头模块和第二摄像头模块的距离，以及所述目标物体相对于所述第一摄像头模块和第二摄像头模块的运动速度。通过将图像做简单的处理生成行走方向建议，提醒的正确性以及效用性较差。

发明内容

为了解决上述存在的技术问题，本发明提供了一种基于增强学习的双目视觉导盲仪，可以提供盲人的实时路径规划信号，对盲人的行动策略进行方便的实时的指导。

本发明的技术方案是：

一种基于增强学习的双目视觉导盲仪，包括：

双目视觉模块，用于将第一图像采集模块和第二图像采集模块的图像进行处理，生成实时的深度图，构建三维场景；

语音模块，包括语音输入模块和语音输出模块，所述语音输入模块包括语音识别模块，用于进行语音识别，所述语音输出模块，用于以语音的方式输出增强学习模块的行为指令、定位信息和路径导航信息；

状态集生成模块，将构建的三维场景通过卷积神经网络提取环境特征，生成状态集；

增强学习模块，包括增强学习网络，所述增强学习网络以状态集作为输入，学习状态转换策略得到输出动作指令；

GPS导航模块，用于定位，及根据语音识别信息生成路径规划。

优选的，所述双目视觉模块实时计算第一图像采集模块和第二图像采集模块采集图像的物体的视差图，通过相机的内参矩阵以及外参矩阵，得到物体的三维坐标，构建三维场景。

优选的，所述状态集生成模块还包括将盲人当前的状态信息根据预先设置的字典映射关系进行离散化成不同的一维词向量，再将词向量按照固定的规则进行行方向拼合，编码成稀疏矩阵，所述稀疏矩阵的维度和卷积神经网络的输入相同，与提取的环境特征融合得到状态集。

优选的，将得到的状态集通过聚类算法进行聚类，得到重新编码的状态集。

与现有技术相比，本发明的优点是：

1、可以直接对盲人进行实时行为指令指导，方便，高效。

2、盲人与导盲仪可以实现互动。

3、双目视觉的立体重建信息作为输入，保障周围环境感知的正确性，可靠性，使得整个系统更为安全。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明基于增强学习的双目视觉导盲仪的结构框图；

图2为本发明导盲仪的工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例：

下面结合附图，对本发明的较佳实施例作进一步说明。

一种基于增强学习的双目视觉导盲仪，整个设备以穿戴式头盔方式实现，方便盲人的使用，当然也可以为其他方式，其中左右摄像头分别位于头盔前方左右两侧。耳机和麦克风分别集成于头盔的左右两耳位置以及嘴巴位置。这样盲人可以实现十分方便舒适的交流。

如图1所示，双目视觉模块包括左摄像头（第一图像采集模块）、右摄像头（第二图像采集模块）以及FPGA数据处理芯片，双目摄像头在FPGA的控制下实时同步采集环境中的图片，通过对比同一物体在左右摄像头成像位置的不同，实时计算出物体的视差图，通过相机的内参矩阵以及外参矩阵，获得物体的三维坐标，从而实现三维场景的感知以及重构。双目视觉模块生成实时的深度图，用于周围环境的三维立体重建。深度图计算的方法，采用比较速度和成像质量都很好的Semi-global 方法，当然也可以采用动态规划或者其它全局性的视差计算方法。

语音模块，包括语音输入模块和语音输出模块，述语音输入模块包括语音识别模块，用于进行语音识别，可以与盲人实现语音交互。例如，通过RNN网络抽取盲人语音的关键信息，如目的地，当前位置等。通过对盲人语音信息的关键性抽取，将其作为GPS导航模块的输入，从而使得GPS导航模块进行路径规划。

语音输出模块，用于以语音的方式输出增强学习模块的行为指令、定位信息和路径导航信息等信息。

状态集生成模块，将构建的三维场景通过卷积神经网络（CNN）提取环境特征，生成状态集。CNN网络也在FPGA或者arm芯片上实现，进行实时的环境特征提取。CNN 可以选择如AlexNet，VGG等经典方法。状态集除了包括周围的环境，还包括盲人本身的状态，如盲人里目的地的相对位置，因此需要将这些状态信息进行有机拼合。如果将位置信息等盲人状态信息放置在卷积神经网络（CNN）后面直接进行拼合，则会影响整个网络的结构性以及训练过程中的弥散现象。因此本系统设计将此信息直接编码成稀疏矩阵的方式，通过将盲人当前的状态信息如地理坐标、相对距离、目前面向方向等信息根据预先设置字典映射关系（Bag of world技术）进行离散化成不同的一维one-hot向量，再将向量按照固定的规则进行行方向拼合，稀疏矩阵的维度和原CNN的网络输入相同。这样，便可以将盲人本身的信息作为CNN网络输入的一个通道进行处理，保证了整个网络的结构完整性以及训练的高效性。

增强学习模块，包括增强学习网络，该增强学习网络为已经训练好的，其状态转换策略具有普适性，可以根据产品需要来制定芯片，为了整个系统的集成程度，我们采用了统一的FPGA芯片。如果不需要在盲人使用的过程中继续学习，则可以使用普通的cpu计算芯片即可。增强学习网络以状态集作为输入，学习状态转换策略得到输出动作指令，如前进，左转，右转等行为指令。

在进行增强学习的学习中，由于状态集的规模庞大，显而易见地必须使用DQN方法，用深度网络来拟合值函数，但这会大大增加模型的复杂程度。考虑到状态集的冗余特性，本系统选择通过聚类的方式对盲人的状态集进行重新编码，即将CNN网络输出的M维向量进行聚类，如使用K-means等经典聚类算法。通过此种方法，便可以将盲人的状态集锐减成为规模很小的有限状态集的训练，大大降低了模型的复杂度。

系统的实现流程如图2所示：

盲人通过语音输入模块告知导盲仪目的地，经过语音输入模块前端的RNN网络进行解析，生成GPS导航模块可理解的指令输入。GPS导航模块对目的地进行路径规划。在执行规划的路径（行走）的过程中，通过双目视觉模块来感知周围环境，并通过双目视觉模块后端的CNN网络提取周围环境特征作为增强学习模块的状态输入，通过增强学习学习到的状态转换策略实时输出动作指令。通过语音输出模块对盲人的行走进行实时指导。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于增强学习的双目视觉导盲仪，其特征在于，包括：

状态集生成模块，将构建的三维场景通过卷积神经网络提取环境特征，生成状态集；所述状态集生成模块还包括将盲人当前的状态信息根据预先设置的字典映射关系进行离散化成不同的一维词向量，再将词向量按照固定的规则进行行方向拼合，编码成稀疏矩阵，所述稀疏矩阵的维度和卷积神经网络的输入相同，与提取的环境特征融合得到状态集；

2.根据权利要求1所述的基于增强学习的双目视觉导盲仪，其特征在于，所述双目视觉模块实时计算第一图像采集模块和第二图像采集模块采集图像的物体的视差图，通过相机的内参矩阵以及外参矩阵，得到物体的三维坐标，构建三维场景。

3.根据权利要求1所述的基于增强学习的双目视觉导盲仪，其特征在于，将得到的状态集通过聚类算法进行聚类，得到重新编码的状态集。