CN107397658B

CN107397658B - 一种多尺度全卷积网络及视觉导盲方法和装置

Info

Publication number: CN107397658B
Application number: CN201710616545.9A
Authority: CN
Inventors: 李宏亮
Original assignee: Chengdu Kuaiyan Technology Co ltd
Current assignee: Chengdu Kuaiyan Technology Co ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2020-06-19
Anticipated expiration: 2037-07-26
Also published as: CN107397658A

Abstract

本发明提供了一种多尺度全卷积网络及视觉导盲方法和装置，包括分类网络和检测网络，所述分类网络用于提取预置窗口的特征；所述检测网络用于给所述预置窗口打分及回归，采用多通道并联的结构，直接将1*1的卷积层直接进行特征融合，并将5*5的卷积拆分成两个3*3的卷积操作；对分类网络和检测网络进行训练生成多尺度全卷积网络，采用生成的多尺度全卷积网络实现对各类道路目标的检测；采用深度图生成方法，检测附近的一般障碍物，并计算出各类检测目标和障碍物与装置携带者之间的准确距离。与现有技术相比，能够搭载在一块携带性非常高的移动装置上实现，能够达到实时的检测速度，且在复杂场景下都能保持较高的检测效果。

Description

一种多尺度全卷积网络及视觉导盲方法和装置

技术领域

本发明涉及一种视觉导盲技术，特别是涉及一种多尺度全卷积网络及视觉导盲方法和装置。

背景技术

我国有视力残疾者人数众多，情况十分严峻，政府正投入巨大财力用于盲人基础设施建设，包括医疗技术手段和导航系统升级等。借助现在技术一定程度上改变了盲人的生活状态，提升了其生活质量。

迄今为止，我国市场上还没有一款专门为盲人打造的导盲设备，而国外研发的导盲电子产品从工作方式上分为自主式与引导式两大类。其中自主式的导盲设备一般会装有传感器，盲人可以手持该种设备来感知系统传来的各种环境信息，通过语音提示安全的行走。引导式导盲设备自带微型处理器，具有较强信息处理能力，它携带多种探测传感器，可引导用户在复杂的室内或室外环境下行走。现有的导盲设备在功能上较为单一，技术上也有瓶颈。比如超声波导盲设备虽然方向性强，但检测的范围有限，测量出现盲区。红外线导盲设备不易散射，传播距离较远，但功率消耗大、电源体积大且不易于携带和使用等缺陷。导盲机器人虽然能模拟现实导盲犬为盲人安全的导路，但其硬件技术复杂，开发成本高，加之体积庞大不方便携带和维护，因而无法普及。引导式手杖其携带性不够高，且很大一部分盲人认为使用盲杖形象不佳，不愿意使用盲杖，同样不能推广。

以上导盲设备虽然可以满足盲人一定的导盲需求，但无法为视障群体提供综合全面的导盲任务。

发明内容

本发明要解决的技术问题是：

1、提供一种多尺度全卷积网络，能够有效地检测出多类道路目标；

2、提供一种基于多尺度全卷积网络的视觉导盲方法和装置，在检测出多类道路目标的同时，检测附近的一般障碍物，并计算出各类检测目标和障碍物与装置携带者之间的准确距离。

能够搭载在一块携带性非常高的移动装置上实现，能够达到实时的检测速度，且在复杂场景下都能保持较高的检测效果。

本发明采用的技术方案如下：

一种多尺度全卷积网络，包括分类网络和检测网络，所述分类网络用于提取预置窗口的特征；所述检测网络用于给所述预置窗口打分及回归，采用多通道并联的结构，直接将1*1的卷积层直接进行特征融合，并将5*5的卷积拆分成两个3*3的卷积操作。

将1*1的卷积层直接进行特征融合的具体方法为：首先采用1×1卷积核调节卷积特征谱的通道个数，随后采用不同大小的卷积核提取不同尺度的卷积特征，最后将不同的通道的特征进行融合。

所述分类网络将输入的彩色图片大小裁切为100*100(单位：像素)大小，随后连接两个以上卷积模块，每个卷积模块包括卷积操作、批归一化操作和带参数的ReLU激活函数；所述分类网络采用3*3、2*2和1*1(单位：像素)大小的滤波器，步长为1，并在设定卷积模块后分别加入最大池化操作，池化区域大小为2*2(单位：像素)，步长为1；利用设定卷积模块的特征对图像进行分类。

一种基于上述多尺度全卷积网络的视觉导盲方法，对分类网络和检测网络进行训练生成多尺度全卷积网络，采用生成的多尺度全卷积网络实现对各类道路目标的检测；采用深度图生成方法，检测附近的一般障碍物，并计算出各类检测目标和障碍物与装置携带者之间的准确距离。

所述深度图生成方法的具体方法步骤为：

S3-1、根据实际需求对拍摄得到的左右图像进行预处理；

S3-2、对预处理过的左右图像进行Census变换，并计算梯度及边缘；

S3-3、结合census变换的匹配代价、SAD匹配代价以及梯度匹配代价三者计算最终的匹配代价体；

S3-4、用基于边缘的自适应窗口进行代价累积，利用WTA算法获取初始视差图；

S3-5、利用MST全局聚合代价进行代价积累，并利用WTA算法获取优化后的视差图；

S3-6、对生成的视差图进行后处理；

S3-7、结合深度网络监测出的物体，给出该物体与摄像头之间的距离；检测出与摄像头距离设置范围内的区域，并给出距离。

所述分类网络的具体训练方法步骤为：

S1-1、将输入图像进行预处理，所有图像被归一化到120*120像素；

S1-2、随机对输入图像进行裁剪，将图像裁剪为100*100像素，输入网络时每次输入设定数量的图像；

S1-3、采用随机梯度下降法和梯度后向传递的方法对模型参数进行更新，并计算分类损失；

S1-4、将最终训练的模型保存下来；

所述检测网络的具体训练方法步骤为：

S2-1、将整个检测网络设置卷积模块以前的初始参数用分类网络的参数替换；

S2-2、随机对输入图像进行裁剪，将图像裁剪为100*100像素，输入网络时每次输入设定数量的图像；

S2-3、采用随机梯度下降法和梯度后向传递的方法对模型参数进行更新看，并计算分类损失。

一种基于上述导盲方法的导盲装置，包括，

双目摄像头图像采集模块，用于实时获取模拟人眼的左右视图；

处理模块，整体装置的嵌入式平台，用于保证装置的实时性和准确性；

输入图像初始化模块，用于将左视图单独提取出来，归一化到100x100像素大小输入到深度网络中进行目标检测；同时，将左右视图共同输入到视差计算模块；

深度学习检测模块，用于对当前输入的视频帧或图片进行特征提取，目标信息、位置检测；得到当前帧的实时检测结果；

目标视差计算模块，用于计算当前视频帧或图片中检测目标的深度信息，得到检测目标与装置之间的实际距离；

处理结果语音交互模块，用于装置与用户之间的信息交流，包括装置将检测结果播报给客户，客户通过该模块向装置发出指令。

还包括眼镜式穿戴模块，用于装置各个模块的组合。

与现有技术相比，本发明的有益效果是：能够有效地检测出多类道路目标，包含有：汽车、自行车、摩托车、行人；能够检测盲人附近的一般障碍物，且根据深度图计算出各类检测目标和障碍物与装置携带者之间的准确距离；在语音提示下，及时作出判断，完成整个导盲任务；全套系统能够搭载在一块携带性非常高的移动装置上实现，能够达到实时的检测速度，且在复杂场景下都能保持较高的检测效果。

附图说明

图1为本发明其中一实施例的分类网络模型图。

图2为本发明其中一实施例的检测网络模型图。

图3为本发明其中一实施例的多尺度特征提取模块。

图4为本发明其中一实施例的深度图生成方法流程图。

图5为本发明其中一实施例的整体硬件装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

具体实施例1

在本具体实施例中，由于inception的网络模型参数过大，无法在嵌入式平台满足实时要求。为了减少网络模型参数，在GoogleNetInception的网络结构的基础上，直接将1*1的卷积层直接进行特征融合，并将5*5的卷积拆分成两个3*3的卷积操作，如图附图2、3所示。本发明减少了模型参数，根据实验删除了一些冗余的层数，在性能与时间之间选取了一个平衡。最终训练好的模型大小仅为23M，大大减少了嵌入式平台上深度网络耗费的时间和内存。

具体实施例2

在具体实施例1的基础上，将1*1的卷积层直接进行特征融合的具体方法为：首先采用1×1卷积核调节卷积特征谱的通道个数，随后采用不同大小的卷积核提取不同尺度的卷积特征，最后将不同的通道的特征进行融合。

具体实施例3

在具体实施例1或2的基础上，所述分类网络将输入的彩色图片大小裁切为100*100(单位：像素)大小，随后连接两个以上卷积模块，每个卷积模块包括卷积操作、批归一化操作和带参数的ReLU激活函数；所述分类网络采用3*3、2*2和1*1(单位：像素)大小的滤波器，步长为1，并在设定卷积模块后分别加入最大池化操作，池化区域大小为2*2(单位：像素)，步长为1；利用设定卷积模块的特征对图像进行分类。

在本具体实施例中，整个分类网络如图1所示，本发明提出一种小的网络模型，旨在减少模型的计算复杂度，在保证精度的同时，也要满足算法实时性的要求。在设计网络的过程中，本发明尽可能减少网络层数和通道个数，主要采用3*3、2*2和1*1的滤波器。在本具体实施例中，具体分类网络结构如下：

输入彩色图片大小裁切为100*100；

随后逐渐连接9个卷积模块，命名为Conv1，Conv2，Conv31，Conv32，Conv41，Conv42，Conv5，Conv6，Conv7。相应地，每个卷积模块包括卷积操作，批归一化操作，带参数的ReLU激活函数。其中Conv1通道个数为30，卷积滤波器大小3*3，步长为1；Conv2通道个数为70，卷积滤波器大小3*3，步长为1，特征谱周围填充1；Conv31通道个数为80，卷积滤波器大小3*3，步长为1，特征谱周围填充1；Conv32通道个数为200，卷积滤波器大小3*3，步长为1，特征谱周围填充1；Conv41通道个数为80，卷积滤波器大小3*3，步长为1，特征谱周围填充1；Conv42通道个数为200，卷积滤波器大小3*3，步长为1，特征谱周围填充1；Conv5通道个数为256，卷积滤波器大小1*1，步长为1；Conv6通道个数为300，卷积滤波器大小2*2，步长为1；Conv7通道个数为600，卷积滤波器大小3*3，步长为1。其中，如果未说明特征谱周围填充，则无需填充。

在Conv1，Conv2，Conv32，Conv42后分别加入最大池化操作，具体地，池化区域大小为2*2，步长为2。

随后利用Conv7层的特征对图像进行分类。

具体实施例4

在具体实施例1到3之一的多尺度全卷积网络基础上的视觉导盲方法，对分类网络和检测网络进行训练生成多尺度全卷积网络，采用生成的多尺度全卷积网络实现对各类道路目标的检测；采用深度图生成方法，检测附近的一般障碍物，并计算出各类检测目标和障碍物与装置携带者之间的准确距离。能够有效地检测出多类道路目标，包含有：汽车、自行车、摩托车、行人；能够检测盲人附近的一般障碍物，且根据深度图计算出各类检测目标和障碍物与装置携带者之间的准确距离；在语音提示下，及时作出判断，完成整个导盲任务。

具体实施例5

在具体实施例4的基础上，如图4所示，所述深度图生成方法的具体方法步骤为：

S3-1、根据实际需求对拍摄得到的左右图像进行预处理。在本具体实施例中，采用高斯滤波或双边滤波的方式实现预处理。

S3-2、对预处理过的左右图像进行Census变换，并计算梯度及边缘。在本具体实施例中，选取了9*7的Census变换，此大小的窗口能在匹配时充分反映出差异性，并且计算量适中。梯度的计算采用了sobel算子，使用sobel算子的好处在于易于并行，且可以一次性获得边缘信息。

S3-3、结合census变换的匹配代价、SAD匹配代价以及梯度匹配代价三者计算最终的匹配代价体。

在本具体实施例中，先计算图像在任意点(x，y)在视差为d时的匹配代价

cost_rg(i，j，d)＝abs(RG_left(i，j)-RG_right(i+d，j))

然后按照一定的比重调节三种代价：

C(i，j，d)-λ_rgbcost_rgb(i，j，d)+λ_rgcost_rg(i，j，d)+λ_Censuscost_Census(i，j，d)

其中λ_rgb、λ_rg、λ_Census为调节比重的参数，本具体实施例采用的是1:1:4；cost_rgb,cost_rg,cost_Census分别为使用rgb，梯度，cnesus变换计算出的代价。I为图像的灰度值，RG为图像的梯度，Census是图像完成census变换后得到的数值串i,j为行标和列标，d为搜索距离k为census数值串的编号。

S3-4、用基于边缘的自适应窗口进行代价累积，利用WTA算法获取初始视差图。

在本具体实施例中，基于边缘的自适应窗口进行代价累积，即在基准图像(本具体实施例中为左图)上，假设当前像素是p,以p为起点先进行垂直方向的遍历，当遇到边缘则停止，然后以得到的N个q为起点，在水平位置上遍历，当遇到边缘则停止，得到一个如图2所示的区域。并在此区域上聚合代价，利用WTA算法获取初始视差图D(i，j).2}。

S3-5、利用MST全局聚合代价进行代价积累，并利用WTA算法获取优化后的视差图。在本具体实施例中，包括以下步骤：

1、构造四邻域图，即每个点与其四邻域点相连接，边的权重如下：

式中，ω为边的权重，I为图像在rgb三个通道上的数值，D为计算出的图像初始视差值，μ为比例参数。

2、利用Sollin算法构造出最小生成树，通过构造权值的过程可以看出，最相似的像素点最有可能在同一深度场景中。

3、匹配代价的叠加

具体来说，像素p的聚合代价

由图像中其他所有像素的matching cost来贡献。贡献率大小有MST的shortest path来决定：当dist(p,q)距离越大，说明两者的相似性越低，属于同一个物体的可能性越低，因而贡献率相对越小。反之，说明越可能是同一个物体，因而其拥有更大的贡献率。该过程可以表述为如下公式：

其中S(p,q)表示像素q对p的贡献度，C_d(q)表示q点在disparity为d时候的matching cost。D(p,q)表示在MST上，p,q之间的距离测量。

计算树中其他节点对参考节点的匹配代价的贡献率。对于给定的一个图G＝(V,E)，定义π＝{π(0),…,π(k)}为图上的连通路径。π(i)和π(i+1)为图G上的两个相邻节点。对目标函数f(π)，节点v到某个种子节点的最短距离表示为：

其中Π_S,v表示从v到S的路径节点集合。一般来说，两个节点u和v的距离测度具有以下性质，即对称性和非负性：

f(u→v)＝f(v→u)

f(u→v)>＝0

节点之间的最短路径为当前路径上的所有遍历节点的距离绝对值的和。具体来说，最短路径测度的定义为：

为了加快该树结构上匹配代价的聚合速度，本文采用基于广度优先搜索的代价累积算法，避免重复计算。该算法由两部分组成：基于自底向上的遍历和基于自顶向下的遍历。。

给定由像素节点构成的MST，每个节点的聚合代价由其他节点沿着MST的路径逐步累积得到。

对于自底向上的过程，算法从所有叶节点开始并按照如下公式更新其父节点的聚合代价：

其中Chl(p)表示节点p所有子节点的集合，该过程逐步聚合每个节点对应子节点的聚合代价。聚合过程层层积累，将所有子孙节点的聚合代价累积到当前节点，因而尚未考虑其父节点或祖先节点的聚合代价。以上更新过程采用广度优先依次搜索每个树节点，直到到达根节点为止。

由于自底向上的广度优先搜索算法只能计算出每个节点到达其底部种子节点的最短路径距离，并不能计算出其祖先节点到达该节点的贡献，导致聚合代价只聚合了所有子孙节点的匹配代价。为了解决这一问题，本文采用自顶向下的广度优先搜索来再次计算出所有父节点到达当前节点的最短距离，用来聚合所有父节点或祖先节点到当前节点的匹配代价。

自顶向下的搜索过程类似于自底向上的搜索。该算法开始于树结构的根节点。对于每个节点，算法访问其子节点，同时更新从根节点到达当前节点的聚合代价：

其中，p为当前参考节点，q为p的父节点，算法计算从父节点q到子节点p的聚合代价，由于从根节点到达父节点q所传递过来的聚合代价不包括由子节点p传递给q的聚合代价。因而在计算节点q的自顶向下的聚合代价时，要排除掉从其子孙节点所传递过来的代价，其表现形式为如上公式。

由于自顶向下的算法计算的是祖先节点到达该节点的聚合代价，因而上述公式不仅计算出来自其顶部的种子节点的聚合代价，同时还能计算出可能来自其他分支的节点的聚合代价。经过自底向上的搜索之后，仍然有很多节点并未参与到代价聚合过程中。这是由于不在同一分支的节点并不能将匹配代价传播给当前分支的节点。然而通过自顶向下的搜索之后，其他分支的节点可以将其代价信息通过该节点共同的祖先节点传递过来。本文算法的搜索过程采用自底向上和自顶向下的搜索过程，这是由于自顶向下的搜索过程能够将其他分支在上一步的自底向上的搜索过程中保留的代价通过树结构传递到当前节点。

通过以上的步骤，我们可以得到优化后的视差图。

实际场景中的视差值满足平滑性约束，但一般匹配得到的初始视差图有很严重的噪声。本发明在获取初始视差图之后，利用MST进行劝阻的匹配代价叠加，可以获得更高质量的视差图像。

S3-6、对生成的视差图进行后处理,通常使用左右一致性检测。通过左右一致性检测可以得到图中视差不准确的点，将这些点复制为距离其最近的视差值正确的点的视差值，最后进行双边滤波。

结合相对梯度和色彩的差异，能很好的解决边缘处的代价计算错误的问题。然后再将融合的代价与Census变换的结果，可以将单独的Census边缘作为代价在重复或相似区域产生的误匹配问题与单独的SAD代价在大面积无纹理区域很难匹配的问题同时改善。基于分割的自适应窗口代价积累已经取得了理想的匹配效果的前提下，本发明使用了基于边缘的自适应窗口进行代价积累，节约了分割所耗费的大量时间。

具体实施例6

在具体实施例4或5的基础上，所述分类网络的具体训练方法步骤为：

S1-2、随机对输入图像进行裁剪，将图像裁剪为100*100像素，输入网络时每次输入设定数量(在本具体实施例中为100张)的图像；

S1-4、将最终训练的模型保存下来，用于微调检测网络。

在本具体实施例中，首先采集适用于盲人导航道路目标的数据库。采集者在道路上采集行人、小汽车、自行车和电动车的图像，共采集6万幅图片。然后分配不同的标注者进行标注这4类。标注完成后，作为检测数据库。然后在ImageNet数据库上训练精心设计的分类网络。

在本具体实施例中，在计算分类损失的时候，采用softmax的方法计算分类损失。初始学习率设置为0.1，每隔200000次衰减为原来的0.1，总共训练800000次。

所述检测网络的具体训练方法步骤为：

S2-1、将整个检测网络设置卷积模块(在本具体实施例中为Conv7)以前的初始参数用分类网络的参数替换；

S2-2、随机对输入图像进行裁剪，将图像裁剪为100*100像素，输入网络时每次输入设定数量(在本具体实施例中为100张)的图像；

在本具体实施例中，检测网络训练时，在计算分类损失的时候，采用Softmax的分类损失和Smooth L1的窗口偏移损失。初始学习率设置为0.001，每隔200000次衰减为原来的0.1，总共训练500000次。

具体实施例7

如图5所示，一种基于具体实施例4到6之一所述导盲方法的导盲装置，包括，

双目摄像头图像采集模块3_1，用于实时获取模拟人眼的左右视图；其中左右视图均为320x240像素大小图片，并以稳定帧率输出；

处理模块3_2，整体装置的嵌入式平台，用于保证装置的实时性和准确性；在本具体实施例中，处理模块采用骁龙820高性能处理模块；

输入图像初始化模块3_3，用于将左视图单独提取出来，归一化到100x100像素大小输入到深度网络中进行目标检测；同时，将左右视图共同输入到视差计算模块；

深度学习检测模块3_4，用于对当前输入的视频帧或图片进行特征提取，目标信息、位置检测；得到当前帧的实时检测结果；在本具体实施中，采用OpenCL深度学习检测模块；

目标视差计算模块3_5，用于计算当前视频帧或图片中检测目标的深度信息，得到检测目标与装置之间的实际距离；

处理结果语音交互模块3_6，用于装置与用户之间的信息交流，包括装置将检测结果播报给客户，客户通过该模块向装置发出指令。

具体实施例8

在具体实施例7的基础上，还包括眼镜式穿戴模块3_7，用于装置各个模块的组合。达到美观和人性化的目的，是整个装置的最终体现形式。

Claims

1.一种多尺度全卷积网络，用于检测多类道路目标，包括分类网络和检测网络，其特征在于，所述分类网络用于提取预置窗口的特征；所述检测网络用于给所述预置窗口打分及回归，采用多通道并联的结构，直接将1*1的卷积层直接进行特征融合，并将5*5的卷积拆分成两个3*3的卷积操作；

2.根据权利要求1所述的多尺度全卷积网络，其特征在于，所述分类网络将输入的彩色图片大小裁切为100*100大小，随后连接两个以上卷积模块，每个卷积模块包括卷积操作、批归一化操作和带参数的ReLU激活函数；所述分类网络采用3*3、2*2和1*1大小的滤波器，步长为1，并在设定卷积模块后分别加入最大池化操作，池化区域大小为2*2，步长为1；利用设定卷积模块的特征对图像进行分类。

3.一种基于权利要求1到2之一所述多尺度全卷积网络的视觉导盲方法，其特征在于，对分类网络和检测网络进行训练生成多尺度全卷积网络，采用生成的多尺度全卷积网络实现对各类道路目标的检测；采用深度图生成方法，检测附近的一般障碍物，并计算出各类检测目标和障碍物与装置携带者之间的准确距离；

所述深度图生成方法的具体方法步骤为：

S3-1、根据实际需求对拍摄得到的左右图像进行预处理，采用高斯滤波或双边滤波的方式实现预处理；

S3-3、结合census变换的匹配代价、SAD匹配代价以及梯度匹配代价三者计算最终的匹配代价体；所述最终匹配代价体的具体计算方法为：按照1：1：4的比重调节SAD匹配代价、梯度代价、census变换的匹配代价得到最终的匹配代价体；

S3-5、利用MST全局聚合代价进行代价积累，并利用WTA算法获取优化后的视差图；所述利用MST全局聚合代价进行积累的具体方法为：构造四邻域图；利用Sollin算法构造出最小生成树；匹配代价的叠加，为了加快树结构匹配代价的聚合速度，采用基于广度优先搜索的代价累计算法，避免重复计算，给定由像素节点构成的最小生成树，每个节点的聚合代价由其他节点沿着最小生成树的路径逐步累积得到；所述基于广度优先搜索的代价累计算法包括两部分：基于自底向上的遍历和基于自顶向下的遍历；

S3-6、对生成的视差图进行后处理；

4.根据权利要求3所述的基于多尺度全卷积网络的视觉导盲方法，其特征在于，所述分类网络的具体训练方法步骤为：

S1-4、将最终训练的模型保存下来；

所述检测网络的具体训练方法步骤为：

5.一种基于权利要求3到4之一所述导盲方法的导盲装置，其特征在于，包括，

6.根据权利要求5所述的导盲装置，其特征在于，还包括眼镜式穿戴模块，用于装置各个模块的组合。