CN110110793B - 基于双流卷积神经网络的双目图像快速目标检测方法 - Google Patents

基于双流卷积神经网络的双目图像快速目标检测方法 Download PDF

Info

Publication number
CN110110793B
CN110110793B CN201910387460.7A CN201910387460A CN110110793B CN 110110793 B CN110110793 B CN 110110793B CN 201910387460 A CN201910387460 A CN 201910387460A CN 110110793 B CN110110793 B CN 110110793B
Authority
CN
China
Prior art keywords
network
image
training
detection
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910387460.7A
Other languages
English (en)
Other versions
CN110110793A (zh
Inventor
赖剑煌
陆瑞智
谢晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910387460.7A priority Critical patent/CN110110793B/zh
Publication of CN110110793A publication Critical patent/CN110110793A/zh
Application granted granted Critical
Publication of CN110110793B publication Critical patent/CN110110793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种基于双流卷积神经网络的双目图像快速目标检测方法,包括步骤:对双目摄像头进行标定,得到标定参数;根据标定参数对训练图像进行校正,训练隐式深度语义挖掘网络用于在双目图像上隐式地学习深度语义信息,训练多模态特征混合检测网络;将隐式深度语义挖掘网络输出的特征与多模态特征混合检测网络的特征通过通道串联的方式结合在一起,便组成双流卷积神经网络,利用训练图像训练双流卷积神经网络;通过双目摄像头获取测试图像,并对其进行校正,将校正后的图像输入到上述双流卷积神经网络中进行目标检测,得到目标检测结果。本发明可以综合利用RGB和深度语义信息的互补性,具有效率高、目标检测结果更准确的优点。

Description

基于双流卷积神经网络的双目图像快速目标检测方法
技术领域
本发明涉及视频监控中目标检测研究领域,特别涉及一种基于双流卷积神经网络的双目图像快速目标检测方法。
背景技术
目标检测的任务是,在图像中对感兴趣的目标物体位置进行确定,并对其类别进行识别。目标检测是人脸识别、目标跟踪等众多高级计算机视觉任务的基础。譬如,在人脸识别场景中,需要先对人脸进行检测,才能在特定区域中提取特征以验证身份;类似地,目标跟踪也需要先检测出目标位置,才能进行特征相似度的匹配以跟踪物体。当前目标检测已受到大量来自学术界和工业界的重视,被广泛应用于公共安防、智慧城市和自动驾驶等领域中。
当前的目标检测方法大致可以分为两种:
一、基于单目RGB图像的目标检测方法
该方法是目前目标检测领域中最主要的一个发展方向,其根据单张RGB图像,利用其中的颜色、纹理等特征,从而检测目标物体。然而,由于这种方法仅依赖RGB信息来进行检测,因此对于光照、颜色等因素的变动鲁棒性较差。具体地,一方面,在光照条件不好的情况下,目标在RGB上的特征会不再明显,基于单目RGB图像的目标检测方法往往会漏检此类目标。另一方面,对于一些表观相似的目标,如俯视视角下地上的脚印和行走的行人,基于单目RGB图像的方法往往也会容易将其混淆,把虚假目标误检成正样本。
二、基于双目视觉的目标检测方法
基于双目视觉的目标检测方法通过加装一个RGB摄像头,从双目RGB图像中可以获取图像的深度信息,当前这一深度信息往往通过视差图来表征。由于深度信息对光照、颜色并不敏感,因此将其与RGB结合,可以辅助解决一些单目RGB方法所面临的挑战,提高目标检测的效果。然而,当前基于双目视觉的目标检测方法应用过程比较繁琐,往往需要依赖视差图来进行计算——它们通常需要先在视差图上提取深度信息,然后再综合利用深度信息和RGB信息来进行目标检测。在实际的应用中,得到的原始数据是由摄像头捕获的双目RGB图像,而现有的基于双目视觉的方法需要先对双目图像计算视差图,然后再利用视差图和RGB来进行检测。这无疑不是端到端的方法,视差图的中间计算过程会使应用过程变得繁琐,影响了实际应用的效率。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于双流卷积神经网络的双目图像快速目标检测方法,该方法构建了一个双流卷积神经网络,具有效率高、目标检测结果更准确的优点。
本发明的目的通过以下的技术方案实现:基于双流卷积神经网络的双目图像快速目标检测方法,包括步骤:
(1)对双目摄像头进行标定,得到标定参数;
(2)根据标定参数对训练图像进行校正,训练隐式深度语义挖掘网络用于在双目图像上隐式地学习深度语义信息,训练多模态特征混合检测网络;将隐式深度语义挖掘网络输出的特征与多模态特征混合检测网络的特征通过通道串联的方式结合在一起,便组成双流卷积神经网络,利用训练图像训练双流卷积神经网络;
(3)通过双目摄像头获取测试图像,并对其进行校正,将校正后的图像输入到上述双流卷积神经网络中进行目标检测,得到目标检测结果。
本发明构建了一个双流卷积神经网络,一方面,与已有的基于双目视觉方法不同,本发明方法可以直接以双目图像为输入,深度语义信息直接从双目图像中得出,不需要任何视差图的中间计算过程,因此应用效率会更快速高效。另一方面,通过双流卷积神经网络,本发明方法可以综合利用RGB信息和双目视觉中的深度语义信息,借助深度信息对光照变化的强鲁棒性,可以缓解传统单目RGB所面临的一些挑战,这有助于目标检测效果的提高。
优选的,步骤(1)中,对双目摄像头进行标定,步骤是:
(1-1)制作一个n*n的黑白棋盘格,量得棋盘格中每个格子的边长为k厘米;
(1-2)用架构的双目摄像头从不同角度拍摄该棋盘格,得到Z组照片,每组照片中棋盘格均同时完整地出现在左右两个镜头的视野中;
(1-3)以拍摄得到的Z组棋盘格照片为输入,同时键入每个格子的边长k厘米,用现有的标定工具,例如Matlab的标定工具包TOOLBOX_calib进行相机的标定,最终得到左右摄像头x方向和y方向的焦距
Figure BDA0002055328810000031
左右摄像头的成像中心坐标
Figure BDA0002055328810000032
左右摄像头的畸变参数d′1,d′2,以及左右摄像头之间的旋转矩阵R和平移向量T,完成标定。
优选的,步骤(2)中,根据标定参数对训练图像进行校正,步骤是:
输入双目图像训练集中的图片
Figure BDA0002055328810000033
其中
Figure BDA0002055328810000034
Figure BDA0002055328810000035
分别代表训练集中第i张左图和第i张右图,N代表训练集中的样本数量,根据步骤(1)得到的
Figure BDA0002055328810000036
d′1,d′2,R,T,用opencv的stereoRectify函数对
Figure BDA0002055328810000037
进行图片校正,得到校正后的图片
Figure BDA0002055328810000038
优选的,步骤(2)中,训练隐式深度语义挖掘网络,步骤是:
(2-1-1)建立隐式深度语义挖掘网络结构,并初始化网络结构中的参数;
(2-1-2)对于标定后的训练图像,人为标注出其中左目摄像头的图像中的目标位置;
(2-1-3)利用隐式深度语义挖掘网络进行目标检测,对于每一对双目图像,经训练后得到对应的目标位置信息与类别置信度,将其与步骤(2-1-2)中人为标注信息比对,利用损失函数与梯度下降法对隐式深度语义挖掘网络进行训练;训练后,只保留隐式深度语义挖掘网络的前7个层级,得到训练后的模型参数。
更进一步的,所述步骤(2-1-1)中,隐式深度语义挖掘网络结构采用基于DispNet的网络结构,主干设置17个层级,其中conv代表卷积层、corr代表相关层,为了使网络学习的特征能向对目标检测最有利的方向发展,在网络的conv4b、conv6b、conv7b和conv8b上分别设置了一条检测分支;每个检测分支上分别设置了四对卷积层,负责四个不同大小范围的目标检测。
更进一步的,所述步骤(2-1-1)中,用DispNet在FlyingThings3D数据集上的训练结果初始化隐式深度语义挖掘网络结构的参数。
优选的,步骤(2)中,训练多模态特征混合检测网络,步骤是:
(2-2-1)建立多模态特征混合检测网络,并初始化网络结构中的参数;
(2-2-2)对于标定后的训练图像,人为标注出其中左目摄像头的图像中的目标位置;
(2-2-3)屏蔽隐式深度语义挖掘网络的特征来源,输入上述标注过目标的原始图像,让多模态特征混合检测网络进行目标检测;对于每一个训练图像,得到对应的目标位置信息与类别置信度,将其与步骤(2-2-2)中人为标注信息比对,利用损失函数与梯度下降法对多模态特征混合检测网络进行训练,得到训练后的模型参数。
更进一步的,所述步骤(2-2-1)中,多模态特征混合检测网络的主干采用VGG16的神经网络结构,其中conv代表卷积层、pool代表池化层,为了使网络学习的特征能向对目标检测最有利的方向发展,在多模态特征混合检测网络的conv4_3、conv_fc7、conv6_2、conv7_2、conv8_2和conv9_2上分别设置了一条检测分支;每个检测分支上分别设置了四对卷积层,负责四个不同大小范围的目标检测。
优选的,步骤(2)中,将隐式深度语义挖掘网络前7层的输出特征,与多模态特征混合检测网络的pool3层通过通道串联的方式结合在一起,便组成了双流卷积神经网络,然后对该双流卷积神经网络进行训练,步骤是:
(2-3-1)对于标定后的训练图像,人为标注出图像中的目标位置;
(2-3-2)让双流卷积神经网络进行目标检测,对于每一个训练图像,得到对应的目标位置信息与类别置信度,将其与步骤(2-3-1)中人为标注信息比对,利用损失函数与梯度下降法对网络进行训练,得到训练后的模型参数。
优选的,步骤(3)中,将校正后的图像输入到上述双流卷积神经网络中进行目标检测,步骤是:
(3-1)将校正后的图像
Figure BDA0002055328810000041
输入至双流卷积神经网络中,其中网络参数采用步骤(2)训练得出的参数;在双流卷积神经网络中,将双目图像均输入至隐式深度语义挖掘网络,将其中左目图像
Figure BDA0002055328810000042
输入至多模态特征混合检测网络,经过双流卷积神经网络的目标识别从而得出目标检测结果,检测结果包括检测得出的目标数量,每个目标的位置信息以及置信度;
(3-2)删除置信度低于预设阈值的目标,组成最终的可信的目标检测结果。
更进一步的,步骤(3-2)得到可信的目标检测结果
Figure BDA0002055328810000043
其中
Figure BDA0002055328810000044
为目标的位置信息,x、y、w、h分别表示目标的x坐标、y坐标、宽度、高度,
Figure BDA0002055328810000045
为类别置信度,K为检测得出的可信的目标数量;对其进行非极大值抑制,步骤如下:
(3-3-1)初始化:令
Figure BDA0002055328810000046
Dtemp=D;
(3-3-2)从Dtemp中挑选出置信度最高的检测结果
dmax={xmax,ymax,wmax,hmax,cmax},查找Dtemp中除了dmax以外,其它与dmax交并比超过预设阈值的检测结果,组成
Figure BDA0002055328810000051
Figure BDA0002055328810000052
是空集,则跳到步骤(3-3-4),否则执行步骤(3-3-3);
(3-3-3)将
Figure BDA0002055328810000053
从Dtemp中剔除;
(3-3-4)将dmax从Dtemp中剔除,同时将dmax加入Dfinal中,若Dtemp不为空集,跳回执行步骤(3-3-2),否则执行步骤(3-3-5);
(3-3-5)
Figure BDA0002055328810000054
即最终的目标检测结果,其中L<=K。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过隐式深度语义挖掘网络与多模态特征混合检测网络构建了一双流卷积神经网络,在该双流卷积神经网络的框架中,隐式深度语义挖掘网络能直接从双目图像中学习深度语义信息,多模态特征混合检测网络可以综合利用RGB和深度语义信息的互补性,从而得到更优的目标检测结果。
2、与现有的基于单目RGB图像的最好技术相比,本发明能综合利用RGB和双目视觉的深度信息,深度信息对光照变化的鲁棒性更强,因此可以缓解单目RGB图像所面临的一些挑战,达到更好的检测效果。
3、与现有的基于双目视觉的最好技术相比,本发明在检测过程中可以直接基于双目RGB图像,端到端地输出检测结果,不需要视差图的中间计算过程,应用效率更为快速。
附图说明
图1是本实施例方法的流程图。
图2是本实施例中对双目摄像头进行标定时采用的黑白棋盘格示意图。
图3是本实施例中隐式深度语义挖掘网络的框架结构图。
图4是本实施例中多模态特征混合检测网络的框架结构图。
图5是本实施例中双流卷积神经网络的框架结构图。
图6是利用现有方法和本实施例方法在双目行人数据集上的可视化检测结果图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本发明提出了一种基于双流卷积神经网络的双目图像快速目标检测方法,该方法通过隐式深度语义挖掘网络与多模态特征混合检测网络构建双流卷积神经网络,隐式深度语义挖掘网络可直接以双目图像为输入,深度语义信息直接从双目图像中得出。双流卷积神经网络可综合利用RGB信息和深度语义信息,借助深度信息对光照变化的强鲁棒性,提高目标检测效果。本发明的技术方案可以以一切基于VGG16[19]的神经网络作为主干,本方案所描述的利用VGG16-SSD[6]作为网络主干只是一个应用实例。图1为本发明的具体流程图。
下面结合图1-6,对本实施例基于双流卷积神经网络的双目图像快速目标检测方法进行详细说明。
S1、架构双目摄像头,并对双目摄像头进行标定,得到标定参数。
本实施例中采用双目摄像头,因此在进行训练前,需要先对摄像头进行标定,标定的步骤是:
i)制作一个12x12的黑白棋盘格,如图2所示,量得棋盘格中每个格子的边长为k厘米。
ii)用双目摄像头从不同角度拍摄该棋盘格20组照片,拍摄时注意棋盘格必须同时完整地出现在左右两个镜头的视野中。
iii)以拍摄得到的20组棋盘格照片为输入,同时键入每个格子的边长k厘米,用Matlab的标定工具包TOOLBOX_calib进行相机的标定。最终得到左右摄像头x方向和y方向的焦距
Figure BDA0002055328810000061
左右摄像头的成像中心坐标
Figure BDA0002055328810000062
左右摄像头的畸变参数d′1,d′2,以及左右摄像头之间的旋转矩阵R和平移向量T。记录上述标定参数,用于后续采集图像的校正。
S2、对训练图像进行校正
输入双目图像训练集中的图片
Figure BDA0002055328810000063
其中
Figure BDA0002055328810000064
Figure BDA0002055328810000065
分别代表训练集中第i张左图和第i张右图,N代表训练集中的样本数量。根据步骤S1得到的
Figure BDA0002055328810000071
d′1,d′2,R,T,用opencv的stereoRectify函数对
Figure BDA0002055328810000072
进行图片校正,得到校正后的图片
Figure BDA0002055328810000073
S3、训练隐式深度语义挖掘网络
隐式深度语义挖掘网络主要用于从双目图像中提取深度语义信息,如图3所示。基于这个目的,在网络的设计中,本实施例方法参考了Mayer N,Ilg E,Hausser P等在《Alarge dataset to train convolutional networks for disparity,optical flow,andscene flow estimation》中公开的DispNet的网络结构,并在其基础上进行了一些扩展。具体地,本实施例隐式深度语义挖掘网络的主干结构如表1所示。
表1隐式深度语义挖掘网络的主干结构
Figure BDA0002055328810000074
Figure BDA0002055328810000081
表1中,conv代表卷积层、corr代表相关层。本实施例采用的隐式深度语义挖掘网络的主干共有17个层级,其中为了使网络学习的特征能向对目标检测最有利的方向发展,本方法在网络的conv4b、conv6b、conv7b和conv8b上分别设置了一条检测分支。每个检测分支上分别设置了四对卷积层,负责四个不同大小范围的目标检测,即
Figure BDA0002055328810000082
Figure BDA0002055328810000083
Figure BDA0002055328810000084
其中i代表每个检测分支上第几对卷积层的索引,j=1代表在某一对卷积层中,负责确定目标位置的卷积层,而j=2则代表在某一对卷积层中,负责计算类别置信度的卷积层。具体地,检测分支上的卷积层的具体结构如表2所示。
表2隐式深度语义挖掘网络中每个检测分支的具体结构
Figure BDA0002055328810000085
在建立上述隐式深度语义挖掘网络结构后,输入步骤S2得到的校正后训练图像
Figure BDA0002055328810000086
对于每个训练左图
Figure BDA0002055328810000087
先人为标注出其对应的目标位置
Figure BDA0002055328810000091
其中j为每个图片上目标的索引,Mi为第i张图片上目标的个数,
Figure BDA0002055328810000092
分别代表目标框的x坐标、y坐标、宽度和高度。接着,用DispNet在FlyingThings3D数据集上的训练结果初始化隐式深度语义挖掘网络的参数,输入
Figure BDA0002055328810000093
让网络进行目标检测。对于每一对双目图像
Figure BDA0002055328810000094
综合
Figure BDA0002055328810000095
Figure BDA0002055328810000096
的输出结果,得到对应的目标位置信息
Figure BDA0002055328810000097
与类别置信度
Figure BDA0002055328810000098
其中M′i为在第i张图片上检测得到的目标个数。将其与标注信息
Figure BDA0002055328810000099
比对,利用现有技术中损失函数(例如:Liu W等《Ssd:Single shot multibox detector》)与梯度下降法(例如:Bottou L等《Large-scale machine learning with stochasticgradient descent》)对网络进行训练。训练后,只保留隐式深度语义挖掘网络的前7个层级,得到训练后的模型参数Modeldepth
S4、训练多模态特征混合检测网络
多模态特征混合检测网络的结构如图4所示,其中网络的主干采用了VGG16-SSD的网络结构,隐式深度语义挖掘网络输出的特征
Figure BDA00020553288100000910
会与多模态特征混合检测网络在pool3层通过通道串联的方式结合在一起。另外,与VGG16-SSD相似地,本方法在多模态特征混合检测网络的conv4_3、conv_fc7、conv6_2、conv7_2、conv8_2和conv9_2上分别设置了一条检测分支。然而不同的是,在本网络中每个检测分支上分别设置了四对卷积层,即
Figure BDA00020553288100000911
Figure BDA00020553288100000912
Figure BDA00020553288100000913
其中i代表每个检测分支上第几对卷积层的索引,j=1代表在某一对卷积层中,负责确定目标位置的卷积层,而j=2则代表负责计算类别置信度的卷积层。具体地,检测分支上的卷积层的具体结构如表3所示。
表3多模态特征混合检测网络中每个检测分支的具体结构
Figure BDA0002055328810000101
在建立上述隐式深度语义挖掘网络结构后,输入步骤S2得到的校正后左图训练图像
Figure BDA0002055328810000102
与步骤S3类似地,对于每个训练左图
Figure BDA0002055328810000103
先人为标注出其对应的目标位置
Figure BDA0002055328810000104
其中j为每个图片上目标的索引,Mi为第i张图片上目标的个数,
Figure BDA0002055328810000105
分别代表目标框的x坐标、y坐标、宽度和高度。随后在本步骤的训练过程中,屏蔽隐式深度语义挖掘网络的特征来源
Figure BDA0002055328810000106
输入训练左图
Figure BDA0002055328810000107
让多模态特征混合检测网络进行目标检测。对于每一个训练图像
Figure BDA0002055328810000108
综合
Figure BDA0002055328810000109
Figure BDA00020553288100001010
Figure BDA00020553288100001011
的输出结果,得到对应的目标位置信息
Figure BDA00020553288100001012
与类别置信度
Figure BDA00020553288100001013
其中M′i为在第i张图片上检测得到的目标个数。将其与标注信息
Figure BDA0002055328810000111
比对,利用现有技术中的损失函数与梯度下降法对多模态特征混合检测网络进行训练,得到训练后的模型参数Modelmulti-modal
S5、训练双流卷积神经网络
将隐式深度语义挖掘网络前7层的输出特征
Figure BDA0002055328810000112
与多模态特征混合检测网络的pool3层通过通道串联的方式结合在一起,便组成了双流卷积神经网络,其结构如图5所示。在对双流卷积神经网络进行训练时,输入步骤S2得到的校正后训练图像
Figure BDA0002055328810000113
与步骤S3类似地,先人为标注出每个图像对应的坐标位置
Figure BDA0002055328810000114
让双流卷积神经网络进行目标检测。综合其各个检测分支的检测结果,得到对应的目标位置信息
Figure BDA0002055328810000115
与类别置信度
Figure BDA0002055328810000116
将其与标注信息
Figure BDA0002055328810000117
比对,利用现有技术中的损失函数与梯度下降法对双流卷积神经网络进行训练,得到训练后的模型参数Modeltwo-stream
S6、测试图像的获取与校正
与步骤S2类似,输入双目测试图像{I1,I2},其分别代表测试图像中的左图和右图。根据步骤S1得到的标定参数
Figure BDA0002055328810000118
d′1,d′2,R,T,用opencv的stereoRectify函数对{I1,I2}进行图片校正,得到校正后的图片
Figure BDA0002055328810000119
S7、将校正后的测试图像输入双流卷积神经网络进行目标检测
将步骤S6得到的校正后测试图像
Figure BDA00020553288100001110
输入至双流卷积神经网络中,其中网络参数采用步骤S5训练得出的参数Modeltwo-stream。在双流卷积神经网络中,双目图像
Figure BDA00020553288100001111
输入至隐式深度语义挖掘网络,而左目图像
Figure BDA00020553288100001115
则输入至多模态特征混合检测网络,经双流卷积神经网络得出目标检测结果
Figure BDA00020553288100001112
其中
Figure BDA00020553288100001113
为目标的位置信息(x坐标、y坐标、宽度和高度),
Figure BDA00020553288100001114
为类别置信度,M′为检测得出的目标数量。
然后,对检测D′进行阈值筛选。具体地,对于检测结果
Figure BDA0002055328810000121
选取置信度cj大于阈值(例如:0.3)的结果,组成较可信的目标检测结果
Figure BDA0002055328810000122
其中K<M′。
S8、对
Figure BDA0002055328810000123
进行非极大值抑制,步骤如下:
初始化:令
Figure BDA0002055328810000124
Dtemp=D。
i)从Dtemp中挑选出置信度最高的检测结果dmax={xmax,ymax,wmax,hmax,cmax},查找Dtemp中除了dmax以外,其它与dmax交并比超过0.45的检测结果,组成
Figure BDA0002055328810000125
Figure BDA0002055328810000126
是空集,则跳到步骤iii),否则执行步骤ii)。
ii)将
Figure BDA0002055328810000127
从Dtemp中剔除。
iii)将dmax从Dtemp中剔除,同时将dmax加入Dfinal中。若Dtemp不为空集,跳回执行步骤i),否则执行步骤iv)。
iv)
Figure BDA0002055328810000128
即最终的目标检测结果,其中L<=K。
为测试本发明方法的效果,在KITTI验证集和双目行人数据集上,将本发明的方法与基于单目RGB的目标检测方法进行了对比,实验结果如表4所示。
表4在KITTI验证集和双目行人数据集上的实验结果
Figure BDA0002055328810000129
其中StereoDet为本发明的方法,MonoDet为仅利用单目RGB信息的目标检测方法。实验表明,本发明方法综合利用RGB和双目视觉的深度信息,可以明显提高目标检测的准确率。另外,由于本发明方法可以直接利用双目图像,不需要另外计算视差图,因此时间效率较为快速,可达到接近实时的效果。
图6展示了本发明方法与基于单目RGB信息的目标检测方法在双目行人数据集上的可视化检测结果。其中第一行代表的是原图,第二行代表的是仅利用单目RGB信息的目标检测方法,第三行代表的是本发明方法。实验表明,相比于基于单目图像的方法,本发明方法能产生更少的误检或漏检结果,这说明了本发明方法利用双目视觉的深度信息,对光照、表观的变化具有更强的鲁棒性。
与当前的主流方法对比,表5和表6分别展示了KITTI测试集(汽车类别)和ETH数据集上的实验结果。
表5在KITTI测试集(汽车类别)上的实验结果。
Figure BDA0002055328810000131
其中*为本实施例复现的实验结果。
表6在ETH数据集上的实验结果。
Figure BDA0002055328810000141
其中*为本实施例复现的实验结果。
在表5、6中,Faster R-CNN可采用Ren S等公开的《Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks》,RRC可采用Ren J等公开的《Accurate single stage detector using recurrent rolling convolution》,LED可采用Zhang S等公开的《Led:Localization-Quality Estimation Embedded Detector》,SubCNN可采用Xiang Y等公开的《Subcategory-aware convolutional neural networksfor object proposals and detection》,Deep MANTA可采用Chabot F等公开的《Deepmanta:A coarse-to-fine many-task network for joint 2d and 3d vehicle analysisfrom monocular image》,3DOP-stereo可采用Chen X等公开的《3d object proposalsusing stereo imagery for accurate object class detection》,StereoRRC表示本发明方法。YOLOv3可采用Redmon J等公开的《Yolov3:An incremental improvement》,RefineDet可采用Zhang S等公开的《Single-shot refinement neural network forobject detection》,RPN+BF可采用Zhang L等公开的《Is faster r-cnn doing well forpedestrian detection?》,F-DNN2+SS可采用Du X等公开的《Fused Deep Neural Networksfor Efficient Pedestrian Detection》,LatSvm2+2person可采用Zhang Z等公开的《Pedestrian detection aided by fusion of binocular information》,通过再现上述现有方法,并将上述方法的实验结果与本发明方法进行比对。
其中在KITTI测试集上,为了消除因基础框架所带来的基础性能差异,同时考虑到效果和效率上的折中,本发明采用了RRC作为本方法的网络主干。实验表明,在相近的时间效率下,本方法可以达到最优的检测效果。特别地,对于个别检测效果略优的方法[DeepMANTA 、RPN+BF、F-DNN2+SS],它们都需要付出比本方法高得多的时间代价。Deep MANTA由于采用了迭代修正的检测机制,其运行时间约为本方法的4倍;RPN+BF基于区域来进行目标检测,其在性能更好的K40GPU上仍需要本文方法的5倍时间来处理一张图片;而F-DNN2+SS因为利用了多模型混合的方式,其运行时间为本文方法的20多倍。由以上的实验结果可见,本文方法在效果和效率上达到了最好的折中。
可通过各种手段实施本发明描述的技术。举例来说,这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案,处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。
对于固件和/或软件实施方案,可用执行本文描述的功能的模块(例如,过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.基于双流卷积神经网络的双目图像快速目标检测方法,其特征在于,包括步骤:
(1)对双目摄像头进行标定,得到标定参数;
(2)根据标定参数对训练图像进行校正,训练隐式深度语义挖掘网络用于在双目图像上隐式地学习深度语义信息,训练多模态特征混合检测网络;将隐式深度语义挖掘网络输出的特征与多模态特征混合检测网络的特征通过通道串联的方式结合在一起,便组成双流卷积神经网络,利用训练图像训练双流卷积神经网络;
(3)通过双目摄像头获取测试图像,并对其进行校正,将校正后的图像输入到上述双流卷积神经网络中进行目标检测,得到目标检测结果;具体为:
(3-1)将校正后的图像
Figure FDA0003249655900000011
输入至双流卷积神经网络中,其中网络参数采用步骤(2)训练得出的参数;在双流卷积神经网络中,将双目图像均输入至隐式深度语义挖掘网络,将其中左目图像
Figure FDA0003249655900000012
输入至多模态特征混合检测网络,经过双流卷积神经网络的目标识别从而得出目标检测结果,检测结果包括检测得出的目标数量,每个目标的位置信息以及置信度;
步骤(2)中,训练隐式深度语义挖掘网络,步骤是:
(2-1-1)建立隐式深度语义挖掘网络结构,并初始化网络结构中的参数;
(2-1-2)对于标定后的训练图像,人为标注出其中左目摄像头的图像中的目标位置;
(2-1-3)利用隐式深度语义挖掘网络进行目标检测,对于每一对双目图像,经训练后得到对应的目标位置信息与类别置信度,将其与步骤(2-1-2)中人为标注信息比对,利用损失函数与梯度下降法对隐式深度语义挖掘网络进行训练;训练后,只保留隐式深度语义挖掘网络的前7个层级,得到训练后的模型参数;
步骤(2)中,训练多模态特征混合检测网络,步骤是:
(2-2-1)建立多模态特征混合检测网络,并初始化网络结构中的参数;
(2-2-2)对于标定后的训练图像,人为标注出其中左目摄像头的图像中的目标位置;
(2-2-3)屏蔽隐式深度语义挖掘网络的特征来源,输入上述标注过目标的原始图像,让多模态特征混合检测网络进行目标检测;对于每一个训练图像,得到对应的目标位置信息与类别置信度,将其与步骤(2-2-2)中人为标注信息比对,利用损失函数与梯度下降法对多模态特征混合检测网络进行训练,得到训练后的模型参数;
步骤(2)中,对双流卷积神经网络进行训练,步骤是:
(2-3-1)对于标定后的训练图像,人为标注出图像中的目标位置;
(2-3-2)让双流卷积神经网络进行目标检测,对于每一个训练图像,得到对应的目标位置信息与类别置信度,将其与步骤(2-3-1)中人为标注信息比对,利用损失函数与梯度下降法对网络进行训练,得到训练后的模型参数;
所述步骤(2-1-1)中,隐式深度语义挖掘网络结构采用基于DispNet的网络结构,主干设置17个层级,其中conv代表卷积层、corr代表相关层,在网络的conv4b、conv6b、conv7b和conv8b上分别设置了一条检测分支;每个检测分支上分别设置了四对卷积层,负责四个不同大小范围的目标检测;
所述步骤(2-2-1)中,多模态特征混合检测网络的主干采用VGG16的神经网络结构,其中conv代表卷积层、pool代表池化层,在多模态特征混合检测网络的conv4_3、conv_fc7、conv6_2、conv7_2、conv8_2和conv9_2上分别设置了一条检测分支;每个检测分支上分别设置了四对卷积层,负责四个不同大小范围的目标检测。
2.根据权利要求1所述的基于双流卷积神经网络的双目图像快速目标检测方法,其特征在于,步骤(1)中,对双目摄像头进行标定,步骤是:
(1-1)制作一个n*n的黑白棋盘格,量得棋盘格中每个格子的边长为k厘米;
(1-2)用架构的双目摄像头从不同角度拍摄该棋盘格,得到Z组照片,每组照片中棋盘格均同时完整地出现在左右两个镜头的视野中;
(1-3)以拍摄得到的Z组棋盘格照片为输入,同时键入每个格子的边长k厘米,进行相机的标定,最终得到左右摄像头x方向和y方向的焦距
Figure FDA0003249655900000021
左右摄像头的成像中心坐标
Figure FDA0003249655900000022
左右摄像头的畸变参数d′1,d′2,以及左右摄像头之间的旋转矩阵R和平移向量T,完成标定。
3.根据权利要求2所述的基于双流卷积神经网络的双目图像快速目标检测方法,其特征在于,步骤(2)中,根据标定参数对训练图像进行校正,步骤是:
输入双目图像训练集中的图片
Figure FDA0003249655900000023
其中
Figure FDA0003249655900000024
Figure FDA0003249655900000025
分别代表训练集中第i张左图和第i张右图,N代表训练集中的样本数量,根据步骤(1)得到的
Figure FDA0003249655900000026
d′1,d′2,R,T,用opencv的stereoRectify函数对
Figure FDA0003249655900000027
进行图片校正,得到校正后的图片
Figure FDA0003249655900000028
4.根据权利要求1所述的基于双流卷积神经网络的双目图像快速目标检测方法,其特征在于,步骤(3)中,将校正后的图像输入到上述双流卷积神经网络中进行目标检测步骤还包括:
(3-2)删除置信度低于预设阈值的目标,组成最终的可信的目标检测结果。
5.根据权利要求4所述的基于双流卷积神经网络的双目图像快速目标检测方法,其特征在于,步骤(3-2)得到可信的目标检测结果
Figure FDA0003249655900000031
其中
Figure FDA0003249655900000032
为目标的位置信息,x、y、w、h分别表示目标的x坐标、y坐标、宽度、高度,
Figure FDA0003249655900000033
为类别置信度,K为检测得出的可信的目标数量;对其进行非极大值抑制,步骤如下:
(3-3-1)初始化:令
Figure FDA0003249655900000034
Dtemp=D;
(3-3-2)从Dtemp中挑选出置信度最高的检测结果dmax={xmax,ymax,wmax,hmax,cmax},查找Dtemp中除了dmax以外,其它与dmax交并比超过预设阈值的检测结果,组成
Figure FDA0003249655900000035
Figure FDA0003249655900000036
是空集,则跳到步骤(3-3-4),否则执行步骤(3-3-3);
(3-3-3)将
Figure FDA0003249655900000037
从Dtemp中剔除;
(3-3-4)将dmax从Dtemp中剔除,同时将dmax加入Dfinal中,若Dtemp不为空集,跳回执行步骤(3-3-2),否则执行步骤(3-3-5);
(3-3-5)
Figure FDA0003249655900000038
即最终的目标检测结果,其中L<=K。
CN201910387460.7A 2019-05-10 2019-05-10 基于双流卷积神经网络的双目图像快速目标检测方法 Active CN110110793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910387460.7A CN110110793B (zh) 2019-05-10 2019-05-10 基于双流卷积神经网络的双目图像快速目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910387460.7A CN110110793B (zh) 2019-05-10 2019-05-10 基于双流卷积神经网络的双目图像快速目标检测方法

Publications (2)

Publication Number Publication Date
CN110110793A CN110110793A (zh) 2019-08-09
CN110110793B true CN110110793B (zh) 2021-10-26

Family

ID=67489222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910387460.7A Active CN110110793B (zh) 2019-05-10 2019-05-10 基于双流卷积神经网络的双目图像快速目标检测方法

Country Status (1)

Country Link
CN (1) CN110110793B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784680B (zh) * 2020-07-06 2022-06-28 天津大学 基于双目摄像头左右目视图关键点一致性的检测方法
CN111797929B (zh) * 2020-07-07 2023-08-22 金陵科技学院 一种基于cnn与pso的双目机器人障碍特征检测方法
CN112308004A (zh) * 2020-11-06 2021-02-02 神思电子技术股份有限公司 一种基于流卷积的目标检测方法
CN113780199A (zh) * 2021-09-15 2021-12-10 江苏迪赛司自动化工程有限公司 一种双视成像装置和皮带运输异物目标智能识别方法
CN117726948A (zh) * 2024-02-07 2024-03-19 成都白泽智汇科技有限公司 一种基于神经网络模型的双目图像处理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596040A (zh) * 2018-03-29 2018-09-28 中山大学 一种基于双目视觉的串联通道融合行人检测方法
CN109191511A (zh) * 2018-07-27 2019-01-11 杭州电子科技大学 一种基于卷积神经网络的双目立体匹配方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803546B2 (en) * 2017-11-03 2020-10-13 Baidu Usa Llc Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
CN107992848B (zh) * 2017-12-19 2020-09-25 北京小米移动软件有限公司 获取深度图像的方法、装置及计算机可读存储介质
CN108399362B (zh) * 2018-01-24 2022-01-07 中山大学 一种快速行人检测方法及装置
CN109614889B (zh) * 2018-11-23 2020-09-18 华为技术有限公司 对象检测方法、相关设备及计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596040A (zh) * 2018-03-29 2018-09-28 中山大学 一种基于双目视觉的串联通道融合行人检测方法
CN109191511A (zh) * 2018-07-27 2019-01-11 杭州电子科技大学 一种基于卷积神经网络的双目立体匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation;Nikolaus Mayer et al.;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161212;第4044-4045页 *

Also Published As

Publication number Publication date
CN110110793A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110110793B (zh) 基于双流卷积神经网络的双目图像快速目标检测方法
US8588516B2 (en) Interpolation image generation apparatus, reconstructed image generation apparatus, method of generating interpolation image, and computer-readable recording medium storing program
US8406510B2 (en) Methods for evaluating distances in a scene and apparatus and machine readable medium using the same
KR101121034B1 (ko) 복수의 이미지들로부터 카메라 파라미터를 얻기 위한 시스템과 방법 및 이들의 컴퓨터 프로그램 제품
CN111145238A (zh) 单目内窥镜图像的三维重建方法、装置及终端设备
CN110400338B (zh) 深度图处理方法、装置和电子设备
CN104463108A (zh) 一种单目实时目标识别及位姿测量方法
CN102982334B (zh) 基于目标边缘特征与灰度相似性的稀疏视差获取方法
CN106570899B (zh) 一种目标物体检测方法及装置
CN111160291B (zh) 基于深度信息与cnn的人眼检测方法
CN111950426A (zh) 目标检测方法、装置及运载工具
EP3100177A1 (en) Method for recognizing objects
CN104182968A (zh) 宽基线多阵列光学探测系统模糊动目标分割方法
CN103927785A (zh) 一种面向近景摄影立体影像数据的特征点匹配方法
CN110120013A (zh) 一种点云拼接方法及装置
CN110009670A (zh) 基于fast特征提取和piifd特征描述的异源图像配准方法
CN111046845A (zh) 活体检测方法、装置及系统
Xue et al. Fisheye distortion rectification from deep straight lines
CN105335959B (zh) 成像装置快速对焦方法及其设备
CN103533332A (zh) 一种2d视频转3d视频的图像处理方法
CN111160233B (zh) 基于三维成像辅助的人脸活体检测方法、介质及系统
CN116342632A (zh) 一种基于深度信息的抠图方法及抠图网络训练方法
Delmas et al. Stereo camera visual odometry for moving urban environments
CN115482285A (zh) 图像对齐方法、装置、设备及存储介质
CN113592917A (zh) 一种摄像机目标交接方法和交接系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant