CN108648161B - 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 - Google Patents

非对称核卷积神经网络的双目视觉障碍物检测系统及方法 Download PDF

Info

Publication number
CN108648161B
CN108648161B CN201810466118.1A CN201810466118A CN108648161B CN 108648161 B CN108648161 B CN 108648161B CN 201810466118 A CN201810466118 A CN 201810466118A CN 108648161 B CN108648161 B CN 108648161B
Authority
CN
China
Prior art keywords
image
neural network
asymmetric
parallax
binocular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810466118.1A
Other languages
English (en)
Other versions
CN108648161A (zh
Inventor
马国军
胡颖
钟捷
曾庆军
王彪
郑威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201810466118.1A priority Critical patent/CN108648161B/zh
Publication of CN108648161A publication Critical patent/CN108648161A/zh
Application granted granted Critical
Publication of CN108648161B publication Critical patent/CN108648161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种非对称核卷积神经网络的双目视觉障碍物检测系统及检测方法。该系统由图像采集模块、立体匹配模块和障碍物检测模块三个部分组成,图像采集模块采集双目图像,传输给立体匹配模块处理得到视差图,再传输给障碍物检测模块进行障碍检测,得到精确的障碍物区域。本发明的非对称核卷积神经网络的双目视觉障碍物检测方法包括:首先将采集的原始双目图像做校正处理,得到水平对其的双目图像;再设计非对称核卷积神经网络用于计算匹配代价,进而计算视差图;最后利用点云图法检测图像中的障碍物区域。本发明的障碍物检测系统及其方法具有较快的检测速度以及良好的障碍物检测精度。

Description

非对称核卷积神经网络的双目视觉障碍物检测系统及方法
技术领域
本发明属于双目视觉图像处理技术领域,具体是涉及一种基于非对称核卷积神经网络的双目视觉障碍物检测系统及检测方法。
背景技术
机器人是一种能够模拟人类或其他动物行为的一种设备。目前,机器人作为一种智能化设备常见于智能家居、自动化工厂和水下等应用场合中。其中,障碍物检测是机器人的一项关键技术,利用双目视觉检测障碍物是其中的一种方法。
双目视觉障碍物检测的关键问题之一是立体匹配技术,其目的是找出两幅图像中相对应的两个相似点,从而实现视差选择。然而,目前常见的立体匹配方法在匹配速度和匹配效果上不能够很好平衡,匹配效果较好的方法,往往需要大量的运算时间,不能够满足机器人使用要求。
近些年来,深度学习快速发展,并用于解决很多计算机视觉方面的问题。其中,卷积神经网络用于立体匹配技术中,虽然该网络结构能有较好的匹配结果,但是网络结构设计臃肿,匹配速度不理想。本发明针对匹配速度问题,对网络结构进行改进设计,设计一种非对称核卷积神经网络的障碍物检测系统和检测方法,具有较快的检测速度以及良好的检测精度
发明内容
本发明的目的是针对机器人双目视觉的障碍物检测,提供一种非对称核卷积神经网络的双目视觉障碍物检测系统和检测方法。
本发明利用一种非对称卷积神经网络,学习并计算左右视图中待匹配图块的匹配代价,并使用十字交叉聚合的方式进行单个像素代价聚合,能有效快速的获取双目图像的视差图。非对称结构网络结构不仅具有传统卷积神经网络特征提取性能好,鲁棒性好的优点,而且其采用非对称卷积结构,使用更少的参数获取图像特征,极大的降低计算量,减少计算时间。
为实现上述目的,本发明通过以下技术方案予以实现,
一种非对称核卷积神经网络的双目视觉障碍物检测系统,由依次相连接的图像采集模块、立体匹配模块和障碍物检测模块组成。其中所述的图像采集模块用于采集场景中的左图像和右图像,其中左右图像均为光学图像;所述的立体匹配模块用于对采集的图像进行相应的数据处理,获得对应的稠密视差图;所述的障碍物检测模块对获得的稠密视差图进行后续处理,获得最终障碍物区域。
进一步,所述图像采集模块采用型号为MT9V034的双目相机,其中双目相机的分辨率为752×480,帧率为20fps,视差角度为150°。水平固定,用于采集前方场景双目图像,并通过USB接口将图像传输给立体匹配模块进行处理。
进一步,所述立体匹配模块配由一台高性能GPU服务器组成,其中GPU型号为NVIDIAGTX 1070,显存为8GB,用于加速非对称核卷积神经网络的立体匹配过程。立体匹配模块与障碍物检测模块采用网线连接,将匹配结果传输给障碍物检测模块进一步处理。
进一步,所述障碍物检测模块由CPU为i5-6500,12GB内存的计算机构成,用于处理立体匹配模块得到的数据,获取障碍物区域。
为实现上述目的,本发明采用的另一技术方案是:
一种非对称核卷积神经网络的双目视觉障碍物检测方法,具体包括如下步骤:
步骤1:从图像采集模块获取双目图像,并对原始图像进行预处理,消除图像中噪声;
步骤2:标定图像采集模块,获取图像采集模块的内参与畸变参数,对双目图像进行双目校正处理;
步骤3:设计出一种非对称核卷积神经网络结构用于快速计算两个图块的相似度,使得神经网络输出为相似度得分;
步骤4:构建一种用于步骤3设计的网络结构能使用的训练数据集,数据集包括真实视差及其对应的左右图像中的图块;
步骤5:使用步骤4构建的训练数据集,对神经网络进行迭代训练,获得最优参数;
步骤6:将训练良好的神经网络输出相似度得分作为匹配代价,并利用十字交叉聚合的方法求取聚合区域内像素点匹配代价的平均值;
步骤7:基于赢者通吃策略择优选择视差搜索范围内视差,并用插值法对结果进行亚像素增强;
步骤8:利用点云图法对步骤7得到的视差图进行处理,检测出障碍物区域。
其中,步骤3所述的非对称核卷积神经网络结构的具体设计:特征提取网络有两个并列的非对称卷积核卷积层叠加而成,再将它们的结果做点积运算进行汇总并输出。每个并行特征提取分支,仅有非对称结构卷积核与传统卷积神经网络构成,无池化操作。具体如下:
1、以N×N大小的窗口作为网络输入,
2、后接多个非对称卷积单元,卷积单元可分解为三层卷积核,第一层为1×K大小矩形卷积核,后接K×1矩形卷积核,再接1×1像素卷积核,使用激活函数为ReLU函数但在最后一层不使用激活函数。
并列的非对称卷积核组合的特征提取网络实现参数共享。
左右子分支不同在于:
左侧分支在训练时输入左图待匹配图像方块,右侧分支训练时输入视差搜索范围内图像长条。
最后将特征提取网络用内积的方式进行融合,并输出相似度得分。
步骤4所述的构建训练数据集,具体如下:
所有数据和对应的标签均从双目数据库获取。对于训练数据集,需要为每个像素点,划分出左图对应网络输入大小的方块,和右图同等宽度且对应视差搜索范围的图像长条,并标记真实视差。
1、样本裁剪
在训练阶段,使用双目数据集中图像数据,其提供的多幅图像数据为完整图像,不能直接作为本发明CNN结构的输入层,需要将其进行相应的裁剪,具体步骤如下:
a)根据双目数据集中提供的真实视差数据,在左图像中选取具有真实视差的像素点pL=(x,y),并记录该点图像坐标(x,y),然后提取以像素点pL为中心的大小为N×N图像块IL(p);
b)在右图像中选取像素点pR=(x,y),其坐标也为(x,y),并以pR为中心选择大小为N×N的图像块IR(p),再根据视差搜索范围D,在右图像中选择图像块IR(p)右边界左侧大小为N×D的图块长条
Figure BDA0001662113510000031
从而该图块长条
Figure BDA0001662113510000032
包含了视差搜索范围D内所有待匹配图像块IR(p-d)。
以此步骤,提取双目数据集中所有的图像构建训练集,并选用双目数据集中部分图像进行裁剪用于网络训练。
2、样本标准化处理
样本裁剪后得到的训练集中,保存的为原始图像数据,其范围为[0,255],不适合直接作为网络的输入,需要将数据进行标准化处理。利用公式(1)将原始图像数据变换到[1,1]范围内,并以此作为网络的输入。
Figure BDA0001662113510000033
其中,
Figure BDA0001662113510000034
Figure BDA0001662113510000035
式中,U是标准化后图像块的灰度值矩阵;X是经裁剪的原始图像块灰度值矩阵;
Figure BDA0001662113510000036
是原始图像块灰度值矩阵X的平均值;xi是原始图像块灰度值矩阵X中各像素灰度值;S是原始图像块灰度值矩阵X的标准差;n是图像块中像素点的个数。
步骤5所描述的训练非对称结构卷积神经网络具体如下:
在训练阶段,网络的输出为Softmax分类器,从而需要对网络权重w最小化互熵损失函数。
针对本发明的应用场景,对原始互熵损失函数作相应的修改,如公式(4)。
Figure BDA0001662113510000041
其中,
Figure BDA0001662113510000042
式中,j(w)表示一组样本的互熵损失;pi(di,w)表示第i个样本的概率分布;di为预测视差值;
Figure BDA0001662113510000043
为真实视差值;λ123为预设值。
本发明采用自适应矩估计的随机梯度下降算法来优化公式(4)的损失函数,并调整网络权值w。其中,随机梯度下降算法根据损失函数对每个权重的梯度的一阶矩估计和二阶矩估计,动态的调整每个权重的学习速率,使得网络权重平稳、迅速的达到最优解。
在步骤6中,需要将卷积神经网络相似度得分转换为匹配代价。同时,由于场景图像中各区域纹理复杂度不同,需要引入自适应窗口的匹配代价聚合窗口,具体方法如下:
在匹配代价计算阶段,只使用了训练阶段孪生卷积神经网络结构中的特征提取子网络并且输入层为大小一致的图像块。在良好训练的条件下,其能够有效的提取左、右图像对中以各像素点为中心的图像块的特征向量VL(p)和VR(pd);将左右图像块特征向量VL(p)和VR(pd)作点积运算得到图像块对相似性得分S(p,d),然后,将该相似性得分取相反数作为图像对之间的匹配代价CCNN(p,d)。
CCNN(p,d)=-S(p,d)=-(VL(p)·VR(pd)) (6)
由于通过孪生卷积神经网络的处理只能得到单个像素的匹配代价,直接用于视差判定,其鉴别性不高,需要聚合当前像素周围领域像素匹配代价以提高视差判定的鉴别性。聚合窗口的大小直接决定着周围领域像素的个数。在图像低纹理区域,需要更多的领域像素信息,即更大的聚合窗口以提高匹配精度;在图像密集纹理区域,则需要更少的领域像素信息即更小的聚合窗口,以防止图像中边缘出现模糊现象。传统的局部匹配算法一般采用固定大小的聚合窗口,难以适应图像在低纹理与密集纹理区域对窗口大小的要求。
本发明使用一种基于十字交叉的聚合窗口生成方法,即利用相邻像素的颜色关系构建自适应聚合窗口,能够不同纹理区域对聚合窗口的要求。其核心是根据相邻像素的颜色和空间位置关系构建自适应窗口。首先,对于当前待匹配像素p,在水平方向和垂直方向分别扩展其领域像素构成一个十字交叉区域,作为聚合窗口的初始骨架,分别用H(p)和V(p)表示。区域的大小由4个方向的臂长
Figure BDA0001662113510000044
确定,并随着图像的局部颜色信息自适应的改变。
Figure BDA0001662113510000045
为例,臂长的判别准则如下:
准则1:Dc(pi,p)<τ;
准则2:Ds(pi,p)<L;
其中Dc(pi,p)为像素pi和p的颜色差,定义为
Figure BDA0001662113510000046
Ds(pi,p)为像素pi和p的空间距离,τ,L为预设的颜色阈值和距离阈值。准则1限定了pi和p的颜色差异性,准则2限定了臂长最大值。当像素pi违反上述判别准则后,则臂长停止生长,得到
Figure BDA0001662113510000051
利用上述判别准则可得到像素p的臂长大小,进而得到十字交叉区域H(p)和V(p):
Figure BDA0001662113510000052
最后,沿着竖直方向对V(p)中每一个像素q重复上述过程,求得q的水平支持区域H(q),联合所有H(q)即可得到图像中任意像素p的自适应区域为
Figure BDA0001662113510000053
对于左右图像中对应的匹配点pL
Figure BDA0001662113510000054
利用该方法生成对应的自适应区域U(pL)和
Figure BDA0001662113510000055
将联合公共区域作为最终支持区域:
Figure BDA0001662113510000056
然后,求得支持区域内所有像素的匹配代价,聚合为总的匹配代价:
Figure BDA0001662113510000057
其中,N为支持区域Ud(p)像素个数。
步骤7采用赢者通吃策略在视差搜索范围内选择匹配代价最小点作为视差选择,获得视差:
Figure BDA0001662113510000058
此时获取的视差值为正整数,精确度不够,本发明引入亚像素增强技术,增加视差的精确度,公式如:
Figure BDA0001662113510000059
式中,Dp为亚像素增强后的精确结果,dp为赢者通吃策略的粗略结果,C,C+,C-分别C(p,d),C(p,d+1),C(p,d-1)。
步骤8所述的点云图法对视差图进行处理,检测障碍物区域的具体方法,包括:
1、通过视差图计算得到点云图,再通过包围盒法简化点云;
2、将简化后点云投影到地面栅格中,并统计每个投射在每个栅格中散点数目,得到实际点云密度栅格图;
3、使用无障碍场景拟合出该相机配置条件下理想点云密度栅格图;
4、通过阈值比较分割出点云密度栅格图中障碍物所在区域,有公式:
Figure BDA00016621135100000510
式(13)表示,如果在栅格图中实际点云密度与理想点云密度比值大于阈值Tρ,则判断为障碍物栅格,否则不是障碍物栅格;
5、使用形态学滤波去除障碍栅格图中孤立点与连接空洞;
6、将障碍栅格图重映射回双目图像原图,标记出障碍物区域。
本发明的一种非对称核卷积神经网络双目视觉障碍物检测系统与方法,有以下优点和有益效果。
(1)本发明改进卷积神经网络结构,采用一种非对称结构的卷积核作为卷积神经网络的卷积层,可以降低卷积神经网络的参数量,从而降低运算量,减少运算时间。
(2)本发明通过十字交叉的自适应窗口聚合方法,将单个像素周围的匹配代价进行聚合,满足图像中不同复杂度纹理的视差计算需求。
(3)本发明运用点云图法进行障碍物检测。直接计算场景的三维点云,并投射到地面栅格中,生成点云密度栅格图,进而实现障碍物检测,可减小检测过程的计算量,拥有较高的检测精度和检测鲁棒性。
附图说明
图1为本发明的非对称核卷积神经网络双目视觉障碍物检测系统示意图,
图2为本发明公开的障碍物检测方法总体流程图,
图3为本发明非对称核卷积神经网络进行快速立体匹配流程图,
图4为本发明公开的点云图检测障碍物流程图,
图5为非对称核卷积神经网络的结构示意图,
图6为非对称卷积核示意图,
图7样本裁剪示意图,
图8为自适应窗口扩展示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细额描述。
参考图1,为本发明的一种非对称核卷积神经网络的双目视觉障碍物检测系统的结构示意图。非对称核卷积神经网络的双目视觉障碍物检测系统,由相连接图像采集模块、立体匹配模块和障碍物检测模块组成。其中所述的图像采集模块用于采集场景中的左图像和右图像,其中左右图像均为光学图像;所述的立体匹配模块用于对采集的图像进行相应的数据处理,获得对应的稠密视差图;所述的障碍物检测模块对获得的稠密视差图进行后续处理,获得最终障碍物区域。
其中所述的图像采集模块采用型号为MT9V034的双目相机,其中相机分辨率为752×480,帧率为20fps,视差角度为150°。水平固定,用于采集前方场景双目图像,并通过USB接口将图像传输给立体匹配模块进行处理。
所述的立体匹配模块配由一台高性能GPU服务器组成,其中GPU型号为NVIDIAGTX1070,显存为8GB,用于加速非对称核卷积神经网络的立体匹配过程。立体匹配模块与障碍物检测模块采用网线连接,将匹配结果传输给障碍物检测模块进一步处理。
所述的障碍物检测模块由CPU为i5-6500,12GB内存的计算机构成,用于处理立体匹配模块得到的数据,获取障碍物区域。
本发明的一种非对称核卷积神经网络的双目视觉障碍物检测方法,图2为本发明的障碍物检测方法总体流程图;图3为设计非对称核卷积神经网络计算视差图流程图;图4为点云图法检测障碍物区域流程图,具体包括如下步骤:
步骤1:从图像采集模块获取双目图像,并对原始图像进行预处理,消除图像中噪声;
步骤2:标定图像采集模块,获取图像采集模块的内参与畸变参数,对双目图像进行双目校正处理;
步骤3:设计出一种非对称核卷积神经网络结构用于快速计算两个图块的相似度,使得神经网络输出为相似度得分;
步骤4:构建一种用于步骤3设计的网络结构能使用的训练数据集,数据集包括真实视差及其对应的左右图像中的图块;
步骤5:使用步骤4构建的数据集,对神经网络进行迭代训练,获得最优参数;
步骤6:将训练良好的神经网络输出相似度得分作为匹配代价,并利用十字交叉聚合的方法求取聚合区域内像素点匹配代价的平均值;
步骤7:基于赢者通吃策略择优选择视差搜索范围内视差,并用插值法对结果进行亚像素增强;
步骤8:利用点云图法对步骤7得到的视差图进行处理,检测出障碍物区域。
上述步骤3所使用的非对称核卷积神经网络结构的具体设计,如图5所示:特征提取网络有两个并列的非对称卷积核卷积层叠加而成,再将它们的结果做点积运算进行汇总并输出。每个并行特征提取分支,仅有非对称结构卷积核与传统卷积神经网络构成,无池化操作。具体如下:
1、以37×37大小的窗口作为网络输入
2、后接多个非对称卷积单元,如图6所示,卷积单元可分解为三层卷积核,第一层为1×9大小矩形卷积核,后接9×1矩形卷积核,再接1×1像素卷积核,使用激活函数为ReLU函数但在最后一层不使用激活函数。
并列的非对称卷积核组合的特征提取网络实现参数共享。
左右子分支不同在于:
左侧分支在训练时输入左图待匹配图像方块,右侧分支训练时输入视差搜索范围内图像长条。
最后将特征提取网络用内积的方式进行融合,并输出相似度得分。
上述步骤4所述的构建训练数据集具体如下:
所有数据和对应的标签均从KITTI2015数据库获取,本发明仅测试RGB彩色图像。对于训练数据集,需要为每个像素点,划分出左图对应网络输入大小的方块,和右图同等宽度且对应视差搜索范围的图像长条,并标记真实视差。
1、样本裁剪
在训练阶段,本发明使用KITTI2015双目数据集中图像数据,其提供的200幅图像数据为完整图像,不能直接作为本发明CNN结构的输入层,需要将其进行相应的裁剪,步骤如下:
a)根据KITTI2015双目数据集中提供的真实视差数据,在左图像中选取具有真实视差的像素点pL=(x,y),并记录该点图像坐标(x,y),然后提取以像素点pL为中心的大小为37×37图像块IL(p),如图7所示。
b)在右图像中选取像素点pR=(x,y),其坐标也为(x,y),并以pR为中心选择大小为37×37的图像块IR(p),再根据视差搜索范围D,在右图像中选择图像块IR(p)右边界左侧大小为37×128的图块长条
Figure BDA0001662113510000081
从而该图块长条
Figure BDA0001662113510000082
包含了视差搜索范围D内所有待匹配图像块IR(pd)。
以此步骤,提取KITTI2015双目数据集中所有的图像构建训练集,并选用KITTI2015双目数据集中200对图像中160对图像进行裁剪用于网络训练,由此方法提取的图像块共有14,248,394对。
2、样本标准化处理
样本裁剪后得到的训练集中,保存的为原始图像数据,其范围为[0,255],不适合直接作为网络的输入,需要将数据进行标准化处理。利用公式(1)将原始图像数据变换到[1,1]范围内,并以此作为网络的输入。
Figure BDA0001662113510000083
其中,
Figure BDA0001662113510000084
Figure BDA0001662113510000085
式中,U是标准化后图像块的灰度值矩阵;X是经裁剪的原始图像块灰度值矩阵;
Figure BDA0001662113510000086
是原始图像块灰度值矩阵X的平均值;xi是原始图像块灰度值矩阵X中各像素灰度值;S是原始图像块灰度值矩阵X的标准差;n是图像块中像素点的个数。
上述步骤5所描述的训练非对称结构卷积神经网络具体如下:
在训练阶段,网络的输出为Softmax分类器,从而需要对网络权重w最小化互熵损失函数。
针对本发明的应用场景,对原始互熵损失函数作相应的修改,如公式(4)。
Figure BDA0001662113510000091
其中,
Figure BDA0001662113510000092
式中,j(w)表示一组样本的互熵损失;pi(di,w)表示第i个样本的概率分布;di为预测视差值;
Figure BDA0001662113510000093
为真实视差值;λ123为预设值。
本发明采用自适应矩估计的随机梯度下降算法来优化公式(4)的损失函数,并调整网络权值w。其中,随机梯度下降算法根据损失函数对每个权重的梯度的一阶矩估计和二阶矩估计,动态的调整每个权重的学习速率,使得网络权重平稳、迅速的达到最优解。
上述步骤6中,需要将卷积神经网络相似度得分转换为匹配代价。同时,由于场景图像中各区域纹理复杂度不同,需要引入自适应窗口的匹配代价聚合窗口,具体方法如下:
在匹配代价计算阶段,只使用了训练阶段孪生卷积神经网络结构中的特征提取子网络并且输入层为大小一致的图像块。在良好训练的条件下,其能够有效的提取左、右图像对中以各像素点为中心的图像块的特征向量VL(p)和VR(p-d);将左右图像块特征向量VL(p)和VR(p-d)作点积运算得到图像块对相似性得分S(p,d),然后,将该相似性得分取相反数作为图像对之间的匹配代价CCNN(p,d)。
CCNN(p,d)=-S(p,d)=-(VL(p)·VR(pd)) (6)
由于通过孪生卷积神经网络的处理只能得到单个像素的匹配代价,直接用于视差判定,其鉴别性不高,需要聚合当前像素周围领域像素匹配代价以提高视差判定的鉴别性。聚合窗口的大小直接决定着周围领域像素的个数。在图像低纹理区域,需要更多的领域像素信息,即更大的聚合窗口以提高匹配精度;在图像密集纹理区域,则需要更少的领域像素信息即更小的聚合窗口,以防止图像中边缘出现模糊现象。传统的局部匹配算法一般采用固定大小的聚合窗口,难以适应图像在低纹理与密集纹理区域对窗口大小的要求。
本发明使用一种基于十字交叉的聚合窗口生成方法,即利用相邻像素的颜色关系构建自适应聚合窗口,能够不同纹理区域对聚合窗口的要求。其核心是根据相邻像素的颜色和空间位置关系构建自适应窗口,具体构建过程如图8所示。。首先,对于当前待匹配像素p,在水平方向和垂直方向分别扩展其领域像素构成一个十字交叉区域,作为聚合窗口的初始骨架,分别用H(p)和V(p)表示。区域的大小由4个方向的臂长
Figure BDA0001662113510000094
确定,并随着图像的局部颜色信息自适应的改变。
Figure BDA0001662113510000095
为例,臂长的判别准则如下:
准则1:Dc(pi,p)<τ;
准则2:Ds(pi,p)<L;
其中Dc(pi,p)为像素pi和p的颜色差,定义为
Figure BDA0001662113510000096
Ds(pi,p)为像素pi和p的空间距离,τ,L为预设的颜色阈值和距离阈值。准则1限定了pi和p的颜色差异性,准则2限定了臂长最大值。当像素pi违反上述判别准则后,则臂长停止生长,得到
Figure BDA0001662113510000101
利用上述判别准则可得到像素p的臂长大小,进而得到十字交叉区域H(p)和V(p):
Figure BDA0001662113510000102
最后,沿着竖直方向对V(p)中每一个像素q重复上述过程,求得q的水平支持区域H(q),联合所有H(q)即可得到图像中任意像素p的自适应区域为
Figure BDA0001662113510000103
对于左右图像中对应的匹配点pL
Figure BDA0001662113510000104
利用该方法生成对应的自适应区域U(pL)和
Figure BDA0001662113510000105
将联合公共区域作为最终支持区域:
Figure BDA0001662113510000106
然后,求得支持区域内所有像素的匹配代价,聚合为总的匹配代价:
Figure BDA0001662113510000107
其中,N为支持区域Ud(p)像素个数。
上述步骤7采用赢者通吃策略在视差搜索范围内选择匹配代价最小点作为视差选择,获得视差:
Figure BDA0001662113510000108
此时获取的视差值为正整数,精确度不够,本发明引入亚像素增强技术,增加视差的精确度,公式如:
Figure BDA0001662113510000109
式中,Dp为亚像素增强后的精确结果,dp为赢者通吃策略的粗略结果,C,C+,C-分别C(p,d),C(p,d+1),C(p,d-1)。
上述步骤8所述的点云图法对视差图进行处理,检测障碍物区域的具体方法,包括:
1、通过视差图计算得到点云图,再通过包围盒法简化点云;
2、将简化后点云投影到地面栅格中,并统计每个投射在每个栅格中散点数目,得到实际点云密度栅格图;
3、使用无障碍场景拟合出该相机配置条件下理想点云密度栅格图;
4、通过阈值比较分割出点云密度栅格图中障碍物所在区域,有公式:
Figure BDA0001662113510000111
式(13)表示,如果在栅格图中实际点云密度与理想点云密度比值大于阈值Tρ,则判断为障碍物栅格,否则不是障碍物栅格;
5、使用形态学滤波去除障碍栅格图中孤立点与连接空洞;
6、将障碍栅格图重映射回双目图像原图,标记出障碍物区域。

Claims (2)

1.一种非对称核卷积神经网络的双目视觉障碍物检测系统,其特征在于:由依次相连接的图像采集模块、立体匹配模块和障碍检测模块组成;其中所述的图像采集模块,用于采集场景中的左图像和右图像;所述的立体匹配模块对采集的图像进行处理得到对应的视差图;所述的障碍物检测模块对得到的视差图进行进一步处理,检测最终精确的障碍物区域;其中,所述图像采集模块采用型号为MT9V034的双目相机,水平固定,并通过USB接口将图像传输给立体匹配模块进行后续处理;所述立体匹配模块为搭载型号NVIDIA GTX 1070的GPU的计算机;所述的非对称核卷积神经网络结构的特征提取网络由两个并列的非对称卷积核卷积层叠加而成,再将其结果做点积运算进行汇总并输出;每个并行特征提取分支,仅有非对称结构卷积核与传统卷积神经网络构成,无池化操作。
2.一种如权利要求1所述的非对称核卷积神经网络的双目视觉障碍物检测系统的检测方法,其特征在于,包括如下步骤:
步骤1:从图像采集模块获取双目图像,并对原始图像进行预处理,消除图像中噪声;
步骤2:标定图像采集模块,获取图像采集模块的内参与畸变参数,对双目图像进行双目校正处理;
步骤3:设计一种非对称核卷积神经网络用于快速计算两个图块的相似度,使得神经网络输出为相似度得分;
步骤4:构建一种用于步骤3设计的非对称核卷积神经网络能使用的训练数据集,训练数据集包括真实视差及其对应的左右图像中的图块;
步骤5:使用步骤4构建的数据集,对神经网络进行迭代训练,获得最优参数;
步骤6:将训练良好的对对称核卷积神经网络输出相似度得分作为匹配代价,并利用十字交叉聚合的方法求取聚合区域内像素点匹配代价的平均值;
步骤7:基于赢者通吃策略择优选择视差搜索范围内视差,并用插值法对结果进行亚像素增强;
步骤8:利用点云图法对步骤7得到的视差图进行处理,检测出障碍物区域;
其中,步骤3所述的非对称核卷积神经网络结构的具体设计,特征提取网络由两个并列的非对称卷积核卷积层叠加而成,再将其结果做点积运算进行汇总并输出;每个并行特征提取分支,仅有非对称结构卷积核与传统卷积神经网络构成,无池化操作;
步骤4所述的构建训练数据集具体内容是,对具有真实视差的双目数据集,根据每个像素点的真实视差值,划分在左图中对应网络输入大小的方块,和右图同等宽度且对应视差搜索范围的图像长条,并标记该点真实视差;
步骤5所述的训练非对称核卷积神经网络的具体内容:
在训练阶段,网络的输出采用Softmax分类器,对网络权重w最小化互熵损失函数;针对应用场景,修改互熵损失函数为:
Figure FDA0002499861090000021
其中,
Figure FDA0002499861090000022
式中,j(w)表示一组样本的互熵损失;pi(di,w)表示第i个样本的概率分布;di为预测视差值;
Figure FDA0002499861090000023
为真实视差值;λ123为预设值;并使用卷积神经网络优化方法优化损失函数,调整网络权值w;
步骤6需要将非对称核卷积神经网络相似度得分转换为匹配代价;同时,由于场景图像中各区域纹理复杂度不同,需要引入自适应窗口的匹配代价聚合窗口;其中,将非对称核卷积神经网络计算的相似度得分转化为匹配代价的具体方法是:
将左右图像块特征向量VL(p)和VR(p-d)作点积运算得到图像块对相似性得分S(p,d),然后,将该相似性得分取相反数作为图像对之间的匹配代价CCNN(p,d);
CCNN(p,d)=-S(p,d)=-(VL(p)·VR(p-d));
引入自适应窗口聚合单像素的匹配代价的具体方法是:
使用基于十字交叉的聚合窗口生成方法,其核心是根据相邻像素的颜色和空间位置关系构建自适应窗口;首先,对于当前待匹配像素p,在水平方向和垂直方向分别扩展其领域像素构成一个十字交叉区域,作为聚合窗口的初始骨架,分别用H(p)和V(p)表示;区域的大小由4个方向的臂长
Figure FDA0002499861090000024
确定,并随着图像的局部颜色信息自适应的改变;
对于左右图像中对应的匹配点pL
Figure FDA0002499861090000025
利用该方法生成对应的自适应区域U(pL)和
Figure FDA0002499861090000026
将联合公共区域作为最终支持区域:
Figure FDA0002499861090000027
然后,求得支持区域内所有像素的匹配代价,聚合为总的匹配代价:
Figure FDA0002499861090000031
其中,N为支持区域Ud(p)像素个数;
步骤7采用赢者通吃策略在视差搜索范围内选择匹配代价最小点作为视差选择,获得视差:
Figure FDA0002499861090000032
最后引入亚像素增强方法,增加视差的精确度;
步骤8具体采用如下步骤检测障碍物区域;
1)通过视差图计算得到点云图,再通过包围盒法简化点云;
2)将简化后点云投影到地面栅格中,并统计每个投射在每个栅格中散点数目,得到实际点云密度栅格图;
3)使用无障碍场景拟合出该相机配置条件下理想点云密度栅格图;
4)通过阈值比较分割出点云密度栅格图中障碍物所在区域,有公式:
Figure FDA0002499861090000033
上式表示,如果在栅格图中实际点云密度与理想点云密度比值大于阈值Tρ,则判断为障碍物栅格,否则不是障碍物栅格;
5)使用形态学滤波去除障碍栅格图中孤立点与连接空洞;
6)将障碍栅格图重映射回双目图像原图,标记出障碍物区域。
CN201810466118.1A 2018-05-16 2018-05-16 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 Active CN108648161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810466118.1A CN108648161B (zh) 2018-05-16 2018-05-16 非对称核卷积神经网络的双目视觉障碍物检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810466118.1A CN108648161B (zh) 2018-05-16 2018-05-16 非对称核卷积神经网络的双目视觉障碍物检测系统及方法

Publications (2)

Publication Number Publication Date
CN108648161A CN108648161A (zh) 2018-10-12
CN108648161B true CN108648161B (zh) 2020-09-01

Family

ID=63755893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810466118.1A Active CN108648161B (zh) 2018-05-16 2018-05-16 非对称核卷积神经网络的双目视觉障碍物检测系统及方法

Country Status (1)

Country Link
CN (1) CN108648161B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109579825B (zh) * 2018-11-26 2022-08-19 江苏科技大学 基于双目视觉和卷积神经网络的机器人定位系统及方法
CN111354032B (zh) * 2018-12-24 2023-10-20 杭州海康威视数字技术股份有限公司 一种生成视差图的方法及装置
CN109685141B (zh) * 2018-12-25 2022-10-04 合肥哈工慧拣智能科技有限公司 一种基于深度神经网络的机器人物品分拣视觉检测方法
CN109788270B (zh) * 2018-12-28 2021-04-09 南京美乐威电子科技有限公司 3d-360度全景图像生成方法及装置
CN109948525A (zh) * 2019-03-18 2019-06-28 Oppo广东移动通信有限公司 拍照处理方法、装置、移动终端以及存储介质
CN110009675B (zh) * 2019-04-03 2021-05-18 北京市商汤科技开发有限公司 生成视差图的方法、装置、介质及设备
CN110110775A (zh) * 2019-04-28 2019-08-09 北京理工大学 一种基于超连接网络的匹配代价计算方法
CN110517307A (zh) * 2019-06-20 2019-11-29 福州瑞芯微电子股份有限公司 利用卷积实现基于激光散斑图的立体匹配方法
CN110334646A (zh) * 2019-07-02 2019-10-15 朱恺晗 一种基于ssd的单类别障碍物识别的检测方法
CN111399505B (zh) * 2020-03-13 2023-06-30 浙江工业大学 一种基于神经网络的移动机器人避障方法
CN111665066B (zh) * 2020-05-18 2021-06-11 东华大学 基于卷积神经网络的设备故障自适应上下预警界生成方法
CN111815689B (zh) * 2020-06-30 2024-06-04 杭州科度科技有限公司 一种半自动化标注方法、设备、介质及装置
CN112633324A (zh) * 2020-11-27 2021-04-09 中山大学 一种基于神经网络的环视立体视觉匹配系统、方法及介质
CN113570622A (zh) * 2021-07-26 2021-10-29 北京全路通信信号研究设计院集团有限公司 一种障碍物确定方法、装置、电子设备以及存储介质
CN113592026B (zh) * 2021-08-13 2023-10-03 大连大学 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN114445473B (zh) * 2022-04-07 2022-07-26 北京中科慧眼科技有限公司 基于深度学习算子的立体匹配方法和系统
CN116977591A (zh) * 2023-09-04 2023-10-31 黑龙江惠达科技股份有限公司 三维重建的方法、装置以及无人机

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850845B (zh) * 2015-05-30 2017-12-26 大连理工大学 一种基于非对称卷积神经网络的交通标志识别方法
US20160358069A1 (en) * 2015-06-03 2016-12-08 Samsung Electronics Co., Ltd. Neural network suppression
CN105139395B (zh) * 2015-08-19 2018-03-06 西安电子科技大学 基于小波池化卷积神经网络的sar图像分割方法
CN106599577A (zh) * 2016-12-13 2017-04-26 重庆邮电大学 一种结合rbm和特征选择的列表级排序学习方法
CN107506711B (zh) * 2017-08-15 2020-06-30 江苏科技大学 基于卷积神经网络的双目视觉障碍物检测系统及方法

Also Published As

Publication number Publication date
CN108648161A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN109784333B (zh) 基于点云带权通道特征的三维目标检测方法及系统
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN107506711B (zh) 基于卷积神经网络的双目视觉障碍物检测系统及方法
CN102006425B (zh) 一种基于多摄像机的视频实时拼接方法
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
CN114724120B (zh) 基于雷视语义分割自适应融合的车辆目标检测方法及系统
CN103996201A (zh) 一种基于改进梯度和自适应窗口的立体匹配方法
CN111815665B (zh) 基于深度信息与尺度感知信息的单张图像人群计数方法
CN110189294B (zh) 基于深度可信度分析的rgb-d图像显著性检测方法
CN111027415B (zh) 一种基于偏振图像的车辆检测方法
CN111899295B (zh) 一种基于深度学习的单目场景深度预测方法
CN111998862B (zh) 一种基于bnn的稠密双目slam方法
CN110399820B (zh) 一种公路路边景物视觉识别分析方法
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN113705796B (zh) 基于epi特征强化的光场深度获取卷积神经网络
CN110070574A (zh) 一种基于改进PSMNet的双目视觉立体匹配算法
CN111914615A (zh) 基于立体视觉的消防区域可通过性分析系统
CN108388901B (zh) 基于空间-语义通道的协同显著目标检测方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN112329764A (zh) 一种基于tv-l1模型的红外弱小目标检测方法
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN116704307A (zh) 基于图像虚拟点云与激光点云融合的目标检测方法及系统
CN113284221B (zh) 一种目标物检测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant