CN109753900B

CN109753900B - 一种基于cnn/lstm的盲人辅助视觉系统

Info

Publication number: CN109753900B
Application number: CN201811573815.3A
Authority: CN
Inventors: 潘红光; 雷心宇; 黄向东; 温帆; 张奇; 米文毓; 苏涛
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-06-23
Anticipated expiration: 2038-12-21
Also published as: CN109753900A

Abstract

一种基于CNN/LSTM的盲人辅助视觉系统，包括：图像采集装置，实时采集使用者周围图像；控制系统，搭载使用大量带标注的图片预训练的深度神经网络，实时翻译出所处场景中包含的信息；语音播报系统，以语音形式播报所述信息，本发明克服了传统导盲杖、导盲犬和导盲眼镜的不便之处，同时还能丰富盲人的感官，使导盲不仅仅只是提示障碍物距离，更多的是提供一个可被感知到的世界，照顾盲人心理感受，其具有结构轻巧、方便、实时性强、精度高、成本低、便于携带，无需联网等优点。

Description

一种基于CNN/LSTM的盲人辅助视觉系统

技术领域

本发明属于人工智能技术领域，涉及辅助视觉系统，特别涉及一种基于CNN/LSTM的盲人辅助视觉系统。

背景技术

在现代社会中，盲人或因病暂时失明者仍然占据社会人口中的很大一部分。其中，大多数盲人采用传统的导盲杖，导盲犬等来感知包括障碍物等的周围环境信息。但传统的导盲方式往往效率低下，导盲杖使用不便，获取周围信息时很大程度上依赖盲人自身的感觉，同时导盲杖作用范围有限，只能探知到身前一小片区域内的障碍物信息，并不能感知到完整的外部环境。导盲犬可以帮助盲人快速躲避障碍物，避免一些突发情况。但是，由于导盲犬往往需要选用特定的犬种对其进行专业训练，完成训练后才能担任导盲任务。这一训练过程繁复，耗时漫长，需要高额的费用，很难由个人承担。在盲人带着导盲犬上街时，不可避免得会影响路上的行人。而且犬科动物天性很难被一段时间的训练所泯灭，盲人需要对其进行饲养，训练，日常活动时也需要对导盲犬加以控制。因此，导盲犬不能完全满足盲人日常活动的导盲需求。

市面上还有一种导盲工具，是一种基于集成电路超声波的导盲眼镜。由电子盒和眼镜两部分组成，眼镜上装有两只超声换能器和一只耳塞机，换能器能够向前方发射和接收反射回来的超声脉冲波，盲人通过耳机发出的声音变化而感知前方的障碍物。导盲眼镜具有体积小，反应灵敏和方向正确的优点。但导盲眼镜价格昂贵，且只能感知到前方障碍物与自己的距离，不能准确得知障碍物的位置信息和属性。另外，在使用导盲眼镜时，由于是通过耳机发出不同的声音来提醒盲人，在路上行走时，必须时刻注意耳机里的声音，有可能因为注意力不集中而造成其他危险。并且，导盲眼镜在使用之前需要选择距离挡，不同档位能探测的距离不同。但有些时候盲人本身并不能准确判断自己具体是处在怎样一个位置。因此，超声波导盲眼镜也有很多不便之处。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于CNN/LSTM的盲人辅助视觉系统，使用人工智能克服了传统导盲杖、导盲犬和导盲眼镜的不便之处，同时还能丰富盲人的感官，使导盲不仅仅只是提示障碍物距离，更多的是提供一个可被感知到的世界，照顾盲人心理感受，其具有结构轻巧、方便、实时性强、精度高、成本低、便于携带，无需联网等优点。

为了实现上述目的，本发明采用的技术方案是：

一种基于CNN/LSTM的盲人辅助视觉系统，包括：

图像采集装置，实时采集使用者周围图像；

控制系统，搭载使用大量带标注的图片预训练的深度神经网络，实时翻译出所处场景中包含的信息；

语音播报系统，以语音形式播报所述信息。

所述图像采集装置为便携式相机，所述图像采集装置、控制系统和语音播报系统集成为一体，其中控制系统采用嵌入式芯片。

所述翻译出的所处场景中包含的信息为当前场景中事物及各种事物之间的关系，以文字信息的形式输出。

所述深度神经网络使用深度卷积神经网络，采用带有标注的数据集对神经网络进行训练，使用Dropout算法对深度卷积神经网络进行优化，再使用空洞卷积代替池化层；采用长短时记忆网络(LSTM)对深度卷积神经网络输出的特征图进行翻译，同时使用BPTT算法更新LSTM单元参数，最终输出数据集中图片标注的文字信息，得到一个能将图片信息翻译成文字信息的预训练好的深度神经网络。

所述深度卷积神经网络为VGG16，所述数据集为MicrosoftCOCO数据集。

在训练阶段，本发明使用深度卷积神经网络对数据集中作为训练集的部分进行处理，将图像转换为一个长度固定的特征向量，使用Dropout算法优化卷积神经网络，加速深度卷积神经网络的收敛，所述使用空洞卷积代替池化层是在卷积时向卷积核元素之间塞入空格；所述深度卷积神经网络输出的特征图与单词嵌入式向量拼接在一起，共同组成一个多模特征，送入长短时记忆网络LSTM进行翻译。

在测试阶段，本发明使用数据集中剩下的数据作为测试集，对训练好的网络进行测试，由LSTM生成一个单词序列的概率矩阵，矩阵中每个概率向量中最大的一个对应的单词即为预测单词，按顺序组合在一起，生成描述句子。

一个单词表示为一个onehot矩阵，即每一维有且只有一个值为1的元素，其余元素均为0。字典中的每一个单词均分配到一个编号。向量的长度等于字典的长度。由于用于训练的图片自带标签，因此将这些标签中的单词转化为onehot向量，将这些向量拼接为一个一维长向量，与对应图片的特征图组合起来，形成一个多模特征。

所述语音播报系统采用文字转语音软件，将深度神经网络翻译出的文字信息转化为语音，通过扩音器或耳机播放。

与现有技术相比，本发明通过使用大量带标注的图片预训练的深度神经网络，实时翻译出所处场景中包含的信息。深度神经网络输出一些当前场景中事物(包括人，动物，其他物体)及各种事物之间的关系的文字信息，再由语音播报系统将其转换成盲人能够理解的语音信息。具有可靠，实时性强，体积小，成本低，精度高等优点，可以语音的方式帮助盲人快速获取当前所处位置的环境信息。

附图说明

图1是本发明辅助视觉实现流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明一种基于CNN/LSTM的盲人辅助视觉系统，包括：

图像采集装置，实时采集使用者周围图像，可采用小型的便携式相机实现；

控制系统，可采用嵌入式芯片，搭载使用大量带标注的图片预训练的深度神经网络，实时翻译出所处场景中包含的事物(人、动物以及其他常见物体等)及各种事物之间的关系信息，以文字信息的形式输出；

语音播报系统，选择语音合成软件，例如，可以选用科大讯飞公司的语音合成软件，以盲人可以理解的语音形式播报所述文字信息，通过扩音器或耳机使盲人实时获取所处环境中包含的信息，使得盲人可以快速获取周围的人，车，障碍物等环境信息及各种事物之间的关联。

上述的图像采集装置、控制系统和语音播报系统可集成为一体。

本发明中，深度神经网络使用深度卷积神经网络VGG16，采用带有标注的MicrosoftCOCO数据集对神经网络VGG16进行训练，使用Dropout算法对深度卷积神经网络VGG16进行优化，再使用空洞卷积代替池化层；采用长短时记忆网络(LSTM)对深度卷积神经网络VGG16输出的特征图进行翻译，同时使用BPTT算法更新LSTM单元参数，最终输出数据集中图片标注的文字信息，得到一个能将图片信息翻译成文字信息的预训练好的深度神经网络。

VGG卷积神经网络是牛津大学2014年提出的神经网络模型，其简洁和实用性在图像分类和目标检测任务中都表现出了非常好的结果。VGG16是一个拥有16层网络的模型，它用三个3*3的卷积层叠加来代替传统卷积神经网络7*7的卷积核，在感受野不变的情况下具有更好的特征提取功能和更少的参数。由于其层数深，它的非线性特征也非常好。整个网络模型由5组包含3*3卷积核的卷积层和一个2*2最大池化组成，最后添加三个全连接层，对特征进行进一步处理。Dropout算法是当神经网络在进行前向传导时，让某个神经元的激活值以一定的概率停止工作，可以有效防止网络过拟合，减少训练时间。在卷积神经网络中，为了提取图片特征，往往会采用池化层。但是，随着网络深度的提升，池化层不断作用，图片尺寸越来越小，这样许多细节信息不可避免会丢失。因此采用空洞卷积代替池化层，在参数不变的情况下拓宽感受野，保留图片细节信息。

图片经过VGG16网络处理后送入LSTM。LSTM是一种特殊的循环神经网络RNN，是为了解决传统RNN中存在的梯队消失等问题而提出来的。在传统的RNN中，随着时间的增加，后续节点的梯度在反向传播中逐步下降，很难对前续节点形成有效更新。因此设计了LSTM单元，在每个时间步中添加记忆单元和多个门，用于控制信息的存储状态和控制何时及如何更新记忆单元的状态。CNN可提取图像特征，LSTM能够记忆句子中的单词序列。通过CNN+LSTM的结构，可实现快速精确地对图像进行描述翻译。优化后的神经网络收敛速度更快，结构更加更加稳定，为盲人辅助视觉系统提供可靠的核心软件架构。

Microsoft COCO数据集包括123287张图像，其中80％的图片用于训练，剩下的20％作为测试集。每张图片中至少包含5条人工标注的参考描述句子，描述了图片中出现的事物，它们之间的关联及一些其他信息。使用这个数据集，可以帮助神经网络实时，快速，准确学习图片特征并获取图片上的信息。在接收到新的图片输入时，能很好地分辨图片上出现的事物，并将其翻译成文字。由于训练集的数据十分庞大，使得神经网络的输出非常可靠。

在训练阶段，本发明使用深度卷积神经网络VGG16对Microsoft COCO数据集中作为训练集的部分进行处理，将图像转换为一个长度固定的特征向量，使用Dropout算法优化卷积神经网络，加速深度卷积神经网络的收敛，卷积计算过程如下：

I_j,k,j∈[0,x),k∈[0,x)

W_l,m,l∈[0,y),m∈[0,y)

其中

其中，I_j,k表示输入图像，W_l,m表示卷积对应的权重，x为输入层尺寸，x*x为输入层大小，y为卷积核尺寸，y*y为卷积核大小，其中，j,k均表示像素点在图像上的位置坐标，l，m为卷积核对应权重的位置，σ为修正线性单元(Relu，rectified linear unit)激活函数，φ为一次卷积计算后的输出值，bias为偏置；

使用空洞卷积代替池化层是在卷积时向卷积核元素之间塞入空格，具体公式如下：

n＝y+(y-1)*(d-1)

其中d是一个超参数，(d-1)为塞入的空格数，n为加入空格后的卷积核大小；

其中，i为输入空洞卷积的大小，s为步长，o为空洞卷积后特征图的大小，p为填充的像素数；

深度卷积神经网络输出的特征图与单词嵌入式向量拼接在一起，共同组成一个多模特征，送入长短时记忆网络LSTM进行翻译。LSTM单元是一种特殊的循环神经网络，能解决传统循环神经网络中，当时间序列过长，后续节点难以从之前的节点中获取有效信息的问题，LSTM的具体函数如下：

其中，f_t为遗忘门，控制着上一单元的状态被遗忘的程度，σ为ReLU激活函数，i_t为输入门，

为tan h产生的一个新的候选向量，和i_t一起控制新信息被加入的多少，c_t为记忆单元新的状态，c_t-1为上一记忆单元的状态，o_t为输出门，用于控制当前的单元状态有多少被过滤，h_t为本单元的输出，h_t-1为上一个单元的输出，W_f，W_h，W_i，W_c，W_o均为各门的权重，b_f，b_i，b_c，b_o为各门偏置，x_t为t时刻LSTM单元的输入；

使用BPTT算法更新LSTM单元参数，具体公式如下：

式中，p表第p个样本，k，m表示隐藏层中的某一层，w_kj表示隐藏层k到j之间的权重，n表示样本个数，j表示输出层的层数，x_pj(t)表示t时刻第p个样本中j层的输入，y_pj(t)表示t时刻隐藏层第p个样本中j层的输出，y_pj(t-1)表示t-1时刻隐藏层第p个样本中j层的输出，y_pk表示网络输出，z_pk为目标输出。δ_pk＝(z_pk-y_pk)·g′(y_pk)为第p个样本的输出残差，g′(y_pk)为第p个样本的输出网络函数的导数。

为隐层残差，表示为从输出层到第m隐层中的输出残差与本层权重的加权求和，ΔW_kj为输出层与隐藏层之间的权重，ΔV_jt为输入层与隐藏层之间的权重，ΔU_ji为隐藏层之间的权重，η为求导数时产生的常数；

经过LSTM顶端的softmax函数的变换，生成单词序列的概率向量矩阵，并转化为相应的单词序列，Softmax函数公式为

其中，

表示单词表中的某个词汇，V表示单词表，该式意为某个词汇的softmax值等于该单词的指数与所有单词指数和的比值，通过该式得到输出的第j个单词属于单词表中所有单词的概率向量；

使用距离函数求取生成单词序列矩阵与参考句子中的单词序列矩阵之间的距离，其公式为

其中，w_k为融合第k个阶段时使用的权值，K为单词矩阵的总数。

最后，采用科大讯飞语音合成软件，将神经网络翻译出的图像文字信息转化为语音。

本发明中，当盲人进入一个陌生场景内，需要获取场景信息时，可以按下开关，控制相机拍摄一些照片。这些照片会按顺序送入主控芯片中的深度神经网络。由训练好的神经网络对其进行特征提取和翻译，经神经网络处理后输出照片中包含的场景的文字描述，最后将这些文字送给语音播报系统，通过语音合成软件将文字转换成语音，送给视觉受限的盲人或视觉障碍者，可使盲人实时获取所处环境的信息。具有便携，轻巧，成本低，精度高，可靠性强等优点。

本发明可在主动选择的情况下帮助盲人通过语音播报的方式快速了解到自己所在位置周围的各种障碍物及事物的信息，提高盲人感官的丰富性，使盲人能像正常人一样感受身边的世界。

Claims

1.一种基于CNN/LSTM的盲人辅助视觉系统，包括：

图像采集装置，实时采集使用者周围图像；

控制系统，搭载使用大量带标注的图片预训练的深度神经网络，实时翻译出所处场景中包含的信息，所述深度神经网络使用深度卷积神经网络，采用带有标注的数据集对神经网络进行训练，使用Dropout算法对深度卷积神经网络进行优化，再使用空洞卷积代替池化层；采用长短时记忆网络LSTM对深度卷积神经网络输出的特征图进行翻译，同时使用BPTT算法更新LSTM单元参数，最终输出数据集中图片标注的文字信息，得到一个能将图片信息翻译成文字信息的预训练好的深度神经网络；其中，使用深度卷积神经网络对数据集中作为训练集的部分进行处理，将图像转换为一个长度固定的特征向量，使用Dropout算法优化卷积神经网络，加速深度卷积神经网络的收敛，所述使用空洞卷积代替池化层是在卷积时向卷积核元素之间塞入空格；所述深度卷积神经网络输出的特征图与单词嵌入式向量拼接在一起，共同组成一个多模特征，送入长短时记忆网络LSTM进行翻译；

语音播报系统，以语音形式播报所述信息；

其特征在于，卷积计算过程如下：

I_j,k,j∈[0,x),k∈[0,x)

W_l,m,l∈[0,y),m∈[0,y)

其中

其中，I_j,k表示输入图像，W_l,m表示卷积对应的权重，x为输入层尺寸，x*x表示输入层大小，y为卷积核尺寸，y*y表示卷积核大小，其中，j,k均表示像素点在图像上的位置坐标，l，m为卷积核对应权重的位置，σ为修正线性单元Relu激活函数，φ为一次卷积计算后的输出值，bias为偏置；

在卷积时向卷积核元素之间塞入空格的具体公式如下：

n＝y+(y-1)*(d-1)

所述LSTM的具体函数如下：

使用BPTT算法更新LSTM单元参数，具体公式如下：

式中，p表第p个样本，k，m表示隐藏层中的某一层，w_kj表示隐藏层k到j之间的权重，n表示样本个数，j表示输出层的层数，x_pj(t)表示t时刻第p个样本中j层的输入，y_pj(t)表示t时刻隐藏层第p个样本中j层的输出，y_pj(t-1)表示t-1时刻隐藏层第p个样本中j层的输出，y_pk表示网络输出，z_pk为目标输出，δ_pk＝(z_pk-y_pk)·g′(y_pk)为第p个样本的输出残差，g′(y_pk)为第p个样本的输出网络函数的导数，

其中，

2.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，所述图像采集装置为便携式相机，所述图像采集装置、控制系统和语音播报系统集成为一体，其中控制系统采用嵌入式芯片。

3.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，所述翻译出所处场景中包含的信息为当前场景中事物及各种事物之间的关系，以文字信息的形式输出。

4.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，所述深度卷积神经网络为VGG16，所述数据集为MicrosoftCOCO数据集。

5.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，使用数据集中剩下的数据作为测试集，对训练好的网络进行测试，由LSTM生成一个单词序列的概率矩阵，矩阵中每个概率向量中最大的一个对应的单词即为预测单词，按顺序组合在一起，生成描述句子。

6.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，所述语音播报系统采用文字转语音软件，将深度神经网络翻译出的文字信息转化为语音，通过扩音器或耳机播放。