CN111209810B - 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 - Google Patents
向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 Download PDFInfo
- Publication number
- CN111209810B CN111209810B CN201911364779.4A CN201911364779A CN111209810B CN 111209810 B CN111209810 B CN 111209810B CN 201911364779 A CN201911364779 A CN 201911364779A CN 111209810 B CN111209810 B CN 111209810B
- Authority
- CN
- China
- Prior art keywords
- visible light
- pedestrian detection
- infrared
- image
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Closed-Circuit Television Systems (AREA)
- Image Processing (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种面向可见光与红外图像准确实时行人检测方法,包括以下步骤:构建深度学习卷积网络初始框架模型;将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练,利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式监督,获得行人检测识别模型;获取待识别图像,输入行人检测识别模型;行人检测识别模型进行双通道特征提取并进行特征融合,获取双通道融合后的特征图;根据融合后的特征图输出行人检测识别模型预测的行人检测热图,得到行人位置结果。本发明通过融合可见光和红外图像中提取的特征以实现准确实时行人检测的边界框分割监督深度学习框架。
Description
技术领域
本发明属于目标检测技术领域,具体涉及一种面向可见光与红外图像准确实时行人检测方法。
背景技术
在过去的几十年中,行人检测算法一直是机器人和计算机视觉领域的热门研究课题。而给定在各种现实世界情况下采集得到的图像,行人检测算法应尽可能准确地去定位图中出现的行人实例,它也是促进面向人类开发的应用,如自动驾驶,视频监控和城市监控等技术发展的重要基础。
近些年来行人检测技术不断发展,但为实际应用配套研发一个鲁棒性好的行人检测算法仍然是一项艰巨的任务。现有大部分行人检测算法都仅使用可见光图像进行检测,使得检测效果明显地受制于光照条件、天气以及遮挡情况改变等因素的影响。当然,现在越来越多的研究人员也逐渐把目光聚焦于开发基于可见光与红外信息的行人检测方法,来开发实现鲁棒性好的行人目标检测实时应用。普遍看法认为可见光与红外图像提供了感兴趣目标的互补信息,而且有效融合这两种数据也能提升检测的准确性与鲁棒性。
需要指出的是,大多数现行的基于可见光与红外信息的行人检测方法都是建立于边框监督的,例如区域候选网络(Region Proposal Network,RPN)或者Faster R-CNN(Faster Region-Convolutional Neural Networks),它们利用边框来定位图中每一个行人目标。在测试阶段,为了与真实行人目标产生足够的覆盖区域,需要产生大量的候选边框,这种做法将会导致正负训练样本之间数量的严重不平衡问题并且显著地降低算法训练过程的计算速度。此外,即便是时下最先进的行人检测算法也存在一个仅在输入图像分辨率高,细节丰富时检测效果才可观的问题,即它们无法在低分辨率图像中产生足够多的正确候选边框,从而导致准确性显著降低。针对以上问题的现有典型解决措施就是用上采样方法增加输入图像乃至图中行人的分辨率,随之而来将加重计算负担,但诸如实时的自动驾驶等应用则无法容忍其计算速率慢的问题。
发明内容
鉴于以上存在的技术问题,本发明用于提供一种面向可见光与红外图像准确实时行人检测方法,通过融合可见光和红外图像中提取的特征以实现准确实时行人检测的边界框分割监督深度学习框架。
为解决上述技术问题,本发明采用如下的技术方案:
一种面向可见光与红外图像准确实时行人检测方法,包括以下步骤:
构建深度学习卷积网络初始框架模型;
将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练,利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式监督,获得行人检测识别模型;
获取待识别图像,输入行人检测识别模型;
行人检测识别模型进行双通道特征提取并进行特征融合,获取双通道融合后的特征图;
根据融合后的特征图输出行人检测识别模型预测的行人检测热图,得到行人位置结果。
优选地,构建深度学习卷积网络初始框架模型中:
所述卷积网络初始架构模型包括依次设置的双路卷积神经网络、级联层、卷积层和Softmax层,其中双路卷积神经网络包括数据层、卷积层和池化层,由数据层出发,卷积层和池化层均设置多个,且交替分布,双路卷积神经网络分别处理可见光图像与红外图像,提取双通道特征经由级联层进行融合,再卷积层学习,借助Softmax层量化更新过程或输出结果。
优选地,训练时可见光图像与红外图像特征提取通道中的卷积层参数均使用提前在ImageNet大规模图像识别数据集上预训练过的VGG-16模型的权重与偏置初始化,而所有其他卷积层则使用高斯正态分布初始化。
优选地,所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时,所用数据集为KAIST可见光与红外行人检测数据集。
优选地,利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式输入具体为:采用双线性插值法将可见光图像与红外图像中易于获得的边框标注转换为分割监督信息作为掩膜标签输入。
优选地,所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时,生成小批量数据使用的是基于图像的训练和测试策略,批尺寸大小为1。
优选地,所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时,至少进行两个时期的训练,训练时行人检测识别模型中的卷积层参数均是通过随机梯度下降法在前两个时期中进行调整,其中,两个时期中的学习率大小不同,并且采取梯度裁剪方法进行调整,所述卷积层参数为权重和偏置。
优选地,所述行人检测识别模型进行双通道特征提取并进行特征融合时,利用跳跃连接将中层特征与高层特征相关联。
优选地,所述根据融合后的特征图输出行人检测识别模型预测的行人检测热图为行人检测识别模型在红外热通道展示预测出的以置信分数区分行人目标与背景区域的行人检测热图。
采用本发明具有如下的有益效果:
(1)本发明技术方案采用的边界框分割监督深度学习框架避免了现有基于边界框监督的检测算法中不可避免的复杂超参数设置问题,例如边框大小、长宽比、步长和IOU阈值等。
(2)在训练用于区分背景与人(特别是小尺寸行人目标)的双路神经网络时,基于边界框的近似分割监督掩膜信息比传统的边界框信息提供了更有效的监督信息,能够准确地检测出其他算法处理效果不佳的低分辨率图像中的行人目标。
(3)网络架构具有更高的有效性,不仅能够提取信息丰富的多尺度特征图以达到更为精确的行人检测结果,并且对场景条件变化更具鲁棒性。
(4)网络架构可以通过融合在中层特征中提取的图像细节来更好地识别图像中的中等和远距离行人目标,此外,在不同的包含遮挡行人的图像数据集上,观察到当行人目标被部分或严重遮挡时,网络架构仍具有准确的检测结果。
(5)本发明技术方案不仅检测效果更好,而且在一张NVIDIA GeForce Titan XGPU上能够达到每秒超过30帧的检测速度,可以满足诸如在自动驾驶等实时性要求较强等应用的开发需求。
附图说明
图1为本发明实施例的面向可见光与红外图像准确实时行人检测方法的步骤流程图;
图2为本发明实施例的面向可见光与红外图像准确实时行人检测方法采用的实现行人检测分割的卷积神经网络整体结构示意图;
图3为本发明实施例的面向可见光与红外图像准确实时行人检测方法中将易于获得的边框标注转换为分割监督信息作为掩膜输入标签的示意图;
图4为本发明实施例的面向可见光与红外图像准确实时行人检测方法中可见光与红外图像关键特征在网络中的提取和应用示意图;
图5a为本发明实施例的面向可见光与红外图像准确实时行人检测方法中标准行人检测结果(可见光通道展示);
图5b为本发明实施例的面向可见光与红外图像准确实时行人检测方法中输入640X512分辨率图像后进行的边框检测结果(红外通道展示);
图5c为本发明实施例的面向可见光与红外图像准确实时行人检测方法中输入320X256分辨率图像后进行的边框检测结果(红外通道展示);
图5d为本发明实施例的面向可见光与红外图像准确实时行人检测方法中输入320X256分辨率图像后的检测效果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,所示为本发明实施例的面向可见光与红外图像准确实时行人检测方法的具体实施方式流程图,包括以下步骤:
S11,构建深度学习卷积网络初始框架模型。
其中卷积网络初始框架模型结构参见图2,卷积网络初始架构模型包括依次设置的双路卷积神经网络、级联层、卷积层和Softmax层,其中双路卷积神经网络包括数据层、卷积层和池化层,由数据层出发,卷积层和池化层均设置多个,且交替分布,双路卷积神经网络分别处理可见光图像与红外图像,提取双通道特征经由级联层进行融合,再卷积层学习,借助Softmax层量化更新过程或输出结果。即可见光与红外图像数据输入层开始,数据层包含多层卷积层(ConvX-N)和多层池化层(PoolX-N),卷积层和池化层交替分布,卷积层由ReLU函数作为激活函数。图2中每层中标示后的X代表第几层,X=1,2,3,4,5,…,N分别有V和I两种,其中V表示Visible代表可见光图像通道,I表示Infrared代表红外图像通道。
卷积层的目的是提取输入的不同特征,第一层卷积层可能只提取一些低级的特征,如边缘、线条和角等。层级更多层的网路能从低级特征中迭代提取更复杂的特征。如本图示实施例中,采用5层卷积层能够不断提取图像中更有效的信息。池化层的目的在于保留主要特征,同时减小下一层的参数与计算量,防止过度拟合。
双路卷积神经网络(Conv1-Conv5)通道分别处理可见光图像与红外图像,提取出的双通道特征经由级联层(Concatenation)进行融合。目的是将两个图像中的特征进行综合。在对两个图像特征提取的过程中,某个图像中的一些特征没有提取到(如夜晚环境中拍摄的可见光图像行人可见度低,导致行人特征少),但另一个图像恰好提取到对应的特征(红外图像中人的温度明显高于环境温度故而在红外图像中比较明显),通过学习融合后的图像双通道语义特征,将两个图像中的特征进行综合,提取到相对更加完善的特征。
融合过程如图2架构中转折箭头所示,利用跳跃连接将中层特征(Conv4x-V/Conv4x-I层输出)与高层特征(Conv5-V/Conv5-I层输出)相关联,需要说明的是,Conv4x-V/Conv4x-I层分别表示可见光通道的Conv4x-V层和红外通道的Conv4x-I层。而反卷积层(Deconv5-V/Deconv5-I)的作用是用来增加高层特征的空间分辨率。之后,经过上采样的高层特征与中层特征(经过1x1卷积层Conv4x-V/I来降低维度)按元素相加融合。由于在深度卷积网络中,深层输出经过编码的高层语义信息而浅层捕捉丰富的低层次空间特征,将不同层特征混合的网络架构能够提取出饱含丰富信息的多尺度特征图,能获得更准确的检测结果。
之后再通过1x1的卷积层(Conv-Mul)学习双通道语义分割特征,并降低特征图维数,最终借助Softmax层(Det-Mul)量化更新过程或输出结果。
S12,将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练,利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式监督,获得行人检测识别模型。
可见光图像一般从光线较强或白天的场景拍摄获得,图像清晰。红外图像一般由红外相机拍摄,适用于光线较暗或夜晚的场所拍摄,能够获得比较清晰的红外图像。同时学习可见光图像与红外图像中的人体相关特征,能够实现白天和夜晚多环境条件下的检测分割。获取配准的一对可见光图像和红外图像,以图像中针对行人目标区域的标准结果作为分割监督信息,分别对可见光图像和红外图像中行人相关特征进行提取。
现在利用可见光与红外信息的行人检测算法/网络框架都利用一些公开数据集进行性能评估,本发明实施例中选用的可见光与红外图像数据集为KAIST可见光与红外行人检测数据集,一具体应用实例中,其由50172对良好对齐的在全天交通场景中采集得到的可见光与红外热图像对(分辨率640x512)组成,包含13853个行人标注。与其他多光谱行人检测算法一样,每2帧采样训练图像;KAIST测试数据集中包含有1356个行人注释的2252个图像对。由于原始KAIST测试数据集包含许多有问题的标注(例如,不准确的边框和遗漏的行人目标),因此利用改进标注后的数据集进行定量和定性评价。具体而言,考虑了所有合理的,不同规模的以及含有遮挡效应的KAIST测试数据集中的图像。
值得注意的是,CVC-14是另一个新公开发布的包含可见光和红外热图像对的行人检测数据集,也能成为本发明的一个实施例,但该数据集在建立过程中使用立体视觉系统获取该多模态数据,其中可见光和红外热图像并未完全正确配准对齐。此外,CVC-14的注释是在红外热通道和可见光通道中单独生成,导致某些行人注释仅在一个通道中生成,但在另一个通道中丢失。相比之下,KAIST数据集中包含大规模经过精确手动标注且良好对齐过的可见光和红外热图像对。因此最优选用KAIST数据集进行实施例介绍。
将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时,包括但不局限于以下具体操作:
(1)生成小批量数据使用的是基于图像的训练和测试策略,而不使用图像金字塔策略,将批尺寸大小设置为1。
(2)训练时可见光图像与红外图像特征提取通道中的卷积层参数均使用提前在ImageNet大规模图像识别数据集上预训练过的VGG-16模型的权重与偏置初始化,而所有其他卷积层则使用高斯正态分布初始化。即每一路特征提取通道(Conv1-Conv5)都使用提前在ImageNet数据集上预训练过的VGG-16的权重与偏置初始化,而所有其他卷积层则使用正态初始化。利用Caffe深度学习架构来训练和测试融合可见光和红外图像特征分割监督网络。
(3)所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时,至少进行两个时期的训练,训练时行人检测识别模型中的卷积层参数均是通过随机梯度下降法在前两个时期中进行调整,其中,两个时期中的学习率大小不同,并且采取梯度裁剪方法进行调整,所述卷积层参数为权重和偏置。网络中的参数都是通过随机梯度下降法在前两个时期中进行精调,第一时期中学习率设为0.001,第二时期的学习率设为0.0001,针对梯度爆炸问题也采取了相应可调整的梯度裁剪方法进行处理。
(4)现有的基于边界框的行人检测算法都包含生成大量具有各种尺寸和长宽比的潜在的检测候选框的步骤,如图3中左边图形中虚线框所示。然而,生成这些边界框不可避免复杂的超参数设置问题(例如,边框尺寸,长宽比,步长和IOU阈值),并且容易引起正和负训练样本之间的数量严重不平衡,也难以利用离散分布的边框(使用大步长)来为小尺寸行人目标生成正样本。相比之下,本发明将易于获得的边界框标注作为输入生成一个明确的语义分割掩膜,用于训练双路深度神经网络以学习行人相关的特征,如图3中右边图形所示。值得一提的是,因为难以获得完美配准同步的可见光与红外图像数据,所以获得可见光和红外图像对的像素级精确标注也是一项艰巨的任务。因此,使用容易获得的边界框标注作为分割监督信息,训练用于行人检测的分割监督深度卷积神经网络。具体是通过令数据集标准结果方框中所有像素值为1,方框外的背景元素像素值为0,从像素层面上生成监督信息。
(5)由于输入图像经过多层卷积输出特征图相对于初始大小已发生明显变化,为利用作为监督信息的语义分割掩膜,使用双线性插值方法对所获得的基于边界框的分割监督信息进行缩小以匹配最终特征(全连接级联层的输出)的大小。
其它未详细列举的操作为本领域普通技术人员常用处理方法,如归一化、尺度缩放、随机裁剪等数据预处理操作,不作详细讲解。
对于网络模型中卷积层的权重、偏置等参数更新过程,假设{(X,Y)}表示训练图像X={xi,i=1,K,M}(M个像素)及其标签Y={yi,i=1,K,M},其中yi=1表示前景像素,而yi=0表示背景像素。多光谱行人检测算法的参数θ通过最小化交叉熵损失进行更新,计算式如下所示:
其中Y+和Y-分别表示前景和背景像素,Pr(yi|X;θ)∈[0,1]是测量像素属于行人目标的概率的预测结果的置信分数。置信分数使用Softmax函数计算得出,如下所示:
其中S0和S1是通过我们的双通道特征图计算得出值。最优参数θ*是通过随机梯度下降算法由下式最小化损失函数L(θ)得到的:
以上方法最终输出与输入同大小的行人目标区域产生置信分数,而背景区域产生低分数预测用的热图。这种感知信息对于许多自动驾驶应用例如路径规划或障碍检测都是有极大裨益的。相比之下,现存的使用多个边界框来识别拥挤城市场景中的各个行人的算法则显得有些不切实际。
S13,获取待识别图像,输入行人检测识别模型。
训练时测试所使用的待测图像对为KAIST数据集中Set06~Set11子集中随机抽取的部分图像,使用数据集本身提供的评价工具进行客观性评价。该作法符合该领域通用评价标准,实际应用时利用可见光相机与红外相机获取实际图像,配准后输入训练好的网络模型测试乃至训练,仍能达到大致相当的和优越的检测结果与检测速度。
S14,行人检测识别模型进行双通道特征提取并进行特征融合,获取双通道融合后的特征图。
参见图2和图4,利用跳跃连接将中层特征与高层特征相关联。输入网络的可见光图像和红外图像分别经由网络进行特征提取后在后面经过级联层进行融合,由于测试时,网络中各卷积层权重、偏置等参数已确定,所以根据输入的图像提取出的特征层层卷积池化交替处理提取后,最后由Softmax层输出结果。
S15,根据融合后的特征图输出行人检测识别模型预测的行人检测热图,得到行人位置结果。
根据融合后的特征图输出行人检测识别模型预测的行人检测热图为行人检测识别模型在红外热通道展示预测出的以置信分数区分行人目标与背景区域的行人检测热图。最终网络计算出检测结果图像,通过红外通道展示。之所以在红外通道中展示图像,是因为能够获得人眼直观比较明显的行人区域,传统的形式是通过标准方框结构表示行人区域,而这种形式不可避免地也会覆盖到其他无关的区域。
本网络架构可以通过融合在中层特征(Conv4-V/Conv4-I)中提取的图像细节来更好地识别图像中的中等和远距离行人目标,此外,在不同的包含遮挡行人的图像情况下,对观察到当行人目标被部分或严重遮挡时,架构具有准确的检测结果。之所以会有这种现象,是因为在中层特征(Conv4-V/Conv4-I)中提取的低级特征提供了行人身体各部分的有用信息及其在处理艰巨的目标遮挡问题时所需的身体各部分之间的联系。
应用本发明实施例所提供的技术方案,利用可见光与红外相机采集得到的互补环境信息,可以实现在全天候进行鲁棒的行人检测,框架采用已配准的可见光和红外图像对,通过将易于获得的边框标注转换为分割监督信息作为输入来对深度神经网络进行训练,随后利用训练好的模型对待识别图像中的行人目标进行快速检测定位与分割。检测模型的训练过程中,避免了现有的边界框监督行人检测算法相在训练阶段出现的复杂超参数设置问题,特别是对于图像中的小尺寸和被遮挡的行人,仅需输入小尺寸图像便能生成准确的检测结果,以便提高实时自动驾驶应用的计算效率及其开发推广。如图5a至5d结果显示,本发明架构具有更高的有效性,不仅能够提取信息丰富的多尺度特征图以达到更为精确的行人检测结果,并且由于充分利用了可见光图像与红外图像数据信息的互补作用,对场景条件变化更具鲁棒性,实际使用中检测速度也相当快,能取得在单个NVIDIA GeForce Titan XGPU上处理每秒超过30个图像的实时处理速度,使得本发明实施例的算法可以推广应用到其他实时性要求较高的物体检测任务中(例如,自动驾驶、路径规划、躲避障碍和目标跟踪)。
应当理解,本文所述的示例性实施例是说明性的而非限制性的。尽管结合附图描述了本发明的一个或多个实施例,本领域普通技术人员应当理解,在不脱离通过所附权利要求所限定的本发明的精神和范围的情况下,可以做出各种形式和细节的改变。
Claims (7)
1.一种面向可见光与红外图像准确实时行人检测方法,其特征在于,包括以下步骤:
构建深度学习卷积网络初始框架模型;
将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练,利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式监督,获得行人检测识别模型;
获取待识别图像,输入行人检测识别模型;
行人检测识别模型进行双通道特征提取并进行特征融合,获取双通道融合后的特征图;
根据融合后的特征图输出行人检测识别模型预测的行人检测热图,得到行人位置结果;
构建深度学习卷积网络初始框架模型中:
所述卷积网络初始架构模型包括依次设置的双路卷积神经网络、级联层、卷积层和Softmax层,其中双路卷积神经网络包括数据层、卷积层和池化层,由数据层出发,卷积层和池化层均设置多个,且交替分布,双路卷积神经网络分别处理可见光图像与红外图像,提取双通道特征经由级联层进行融合,再卷积层学习,借助Softmax层量化更新过程或输出结果;
所述行人检测识别模型进行双通道特征提取并进行特征融合时,利用跳跃连接将中层特征与高层特征相关联。
2.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法,其特征在于,训练时可见光图像与红外图像特征提取通道中的卷积层参数均使用提前在ImageNet大规模图像识别数据集上预训练过的VGG-16模型的权重与偏置初始化,而所有其他卷积层则使用高斯正态分布初始化。
3.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法,其特征在于,所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时,所用数据集为KAIST可见光与红外行人检测数据集。
4.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法,其特征在于,利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式输入具体为:采用双线性插值法将可见光图像与红外图像中易于获得的边框标注转换为分割监督信息作为掩膜标签输入。
5.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法,其特征在于,所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时,生成小批量数据使用的是基于图像的训练和测试策略,批尺寸大小为1。
6.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法,其特征在于,所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时,至少进行两个时期的训练,训练时行人检测识别模型中的卷积层参数均是通过随机梯度下降法在前两个时期中进行调整,其中,两个时期中的学习率大小不同,并且采取梯度裁剪方法进行调整,所述卷积层参数为权重和偏置。
7.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法,其特征在于,所述根据融合后的特征图输出行人检测识别模型预测的行人检测热图为行人检测识别模型在红外热通道展示预测出的以置信分数区分行人目标与背景区域的行人检测热图。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811596855 | 2018-12-26 | ||
CN201811596855X | 2018-12-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209810A CN111209810A (zh) | 2020-05-29 |
CN111209810B true CN111209810B (zh) | 2023-05-26 |
Family
ID=70785230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911364779.4A Active CN111209810B (zh) | 2018-12-26 | 2019-12-26 | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209810B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738132B (zh) * | 2020-06-17 | 2024-03-05 | 银河水滴科技(北京)有限公司 | 人体温度的测量方法、装置、电子设备及可读存储介质 |
CN111898427A (zh) * | 2020-06-22 | 2020-11-06 | 西北工业大学 | 一种基于特征融合深度神经网络的多光谱行人检测方法 |
CN111667027B (zh) * | 2020-07-03 | 2022-11-11 | 腾讯科技(深圳)有限公司 | 多模态图像的分割模型训练方法、图像处理方法及装置 |
CN111967314B (zh) * | 2020-07-09 | 2024-06-11 | 北京迈格威科技有限公司 | 行人重识别方法、装置、电子设备及存储介质 |
CN111898510B (zh) * | 2020-07-23 | 2023-07-28 | 合肥工业大学 | 一种基于渐进式神经网络的跨模态行人再识别方法 |
CN112016478B (zh) * | 2020-08-31 | 2024-04-16 | 中国电子科技集团公司第三研究所 | 一种基于多光谱图像融合的复杂场景识别方法及系统 |
CN112241682B (zh) * | 2020-09-14 | 2022-05-10 | 同济大学 | 一种基于分块以及多层信息融合的端到端行人搜索方法 |
CN112270688B (zh) * | 2020-11-04 | 2024-05-28 | 中国科学院上海微系统与信息技术研究所 | 一种前景提取方法、装置、设备及存储介质 |
CN112465735A (zh) * | 2020-11-18 | 2021-03-09 | 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) | 行人检测方法、装置及计算机可读存储介质 |
CN112418251B (zh) * | 2020-12-10 | 2024-02-13 | 研祥智慧物联科技有限公司 | 红外体温检测方法及系统 |
CN113378829B (zh) * | 2020-12-15 | 2022-09-27 | 浙江大学 | 一种基于正负样本均衡的弱监督目标检测方法 |
CN112862737B (zh) * | 2021-02-07 | 2024-05-14 | 西北工业大学 | 一种基于自监督纹理特征指导的红外图像质量增强方法 |
CN112950732B (zh) * | 2021-02-23 | 2022-04-01 | 北京三快在线科技有限公司 | 一种图像生成方法、装置、存储介质及电子设备 |
CN112949451B (zh) * | 2021-02-24 | 2022-09-09 | 安徽大学 | 通过模态感知特征学习的跨模态目标跟踪方法及系统 |
CN113326735B (zh) * | 2021-04-29 | 2023-11-28 | 南京大学 | 一种基于YOLOv5的多模态小目标检测方法 |
CN113205141B (zh) * | 2021-05-08 | 2023-08-29 | 脉得智能科技(无锡)有限公司 | 一种基于图像融合技术的甲状旁腺识别方法 |
CN113255797B (zh) * | 2021-06-02 | 2024-04-05 | 通号智慧城市研究设计院有限公司 | 一种基于深度学习模型的危险品检测方法和系统 |
CN113298744B (zh) * | 2021-06-07 | 2022-10-28 | 长春理工大学 | 一种端到端的红外与可见光图像融合方法 |
CN113283367A (zh) * | 2021-06-08 | 2021-08-20 | 南通大学 | 一种低能见度环境地下车库视觉盲区安全检测方法 |
CN113361466B (zh) * | 2021-06-30 | 2024-03-12 | 江南大学 | 一种基于多模态交叉指导学习的多光谱目标检测方法 |
CN113313078B (zh) * | 2021-07-02 | 2022-07-08 | 昆明理工大学 | 一种基于模型优化的轻量化夜间红外图像行人检测方法及系统 |
CN113569943B (zh) * | 2021-07-26 | 2023-10-24 | 中铁工程装备集团有限公司 | 一种基于深度神经网络的渣片大块预警方法、系统及装置 |
CN113658134B (zh) * | 2021-08-13 | 2024-08-23 | 安徽大学 | 一种多模态对齐校准的rgb-d图像显著目标检测方法 |
CN113657275B (zh) * | 2021-08-16 | 2022-09-27 | 中国科学院空天信息创新研究院 | 一种林草火点自动检测方法 |
CN113688722B (zh) * | 2021-08-21 | 2024-03-22 | 河南大学 | 基于图像融合的红外行人目标检测方法 |
CN113743280B (zh) * | 2021-08-30 | 2024-03-01 | 广西师范大学 | 一种脑神经元电子显微镜图像卷分割方法、装置以及存储介质 |
CN114241511B (zh) * | 2021-10-21 | 2024-05-03 | 西安科技大学 | 一种弱监督行人检测方法、系统、介质、设备及处理终端 |
CN114494185B (zh) * | 2022-01-25 | 2022-09-30 | 国网吉林省电力有限公司电力科学研究院 | 一种基于rgb-t多尺度特征融合的电气设备故障检测方法 |
CN115170810B (zh) * | 2022-09-08 | 2022-12-13 | 南京理工大学 | 一种可见光红外图像融合目标检测实例分割方法 |
CN115393684B (zh) * | 2022-10-27 | 2023-01-24 | 松立控股集团股份有限公司 | 一种基于自动驾驶场景多模态融合的抗干扰目标检测方法 |
CN116665036B (zh) * | 2023-03-07 | 2024-09-17 | 西北工业大学 | 一种基于单模态辅助监督和YOLOv5的RGB-红外多源图像目标检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101252677A (zh) * | 2007-10-19 | 2008-08-27 | 西安交通大学 | 一种基于多光谱图像传感器的目标跟踪方法 |
CN104361314A (zh) * | 2014-10-21 | 2015-02-18 | 华北电力大学(保定) | 基于红外与可见光图像融合的变电设备定位方法及装置 |
CN106096561A (zh) * | 2016-06-16 | 2016-11-09 | 重庆邮电大学 | 基于图像块深度学习特征的红外行人检测方法 |
CN106251355A (zh) * | 2016-08-03 | 2016-12-21 | 江苏大学 | 一种融合可见光图像与对应夜视红外图像的检测方法 |
CN106599797A (zh) * | 2016-11-24 | 2017-04-26 | 北京航空航天大学 | 一种基于局部并行神经网络的红外人脸识别方法 |
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN107564025A (zh) * | 2017-08-09 | 2018-01-09 | 浙江大学 | 一种基于深度神经网络的电力设备红外图像语义分割方法 |
CN108710910A (zh) * | 2018-05-18 | 2018-10-26 | 中国科学院光电研究院 | 一种基于卷积神经网络的目标识别方法及系统 |
CN109086678A (zh) * | 2018-07-09 | 2018-12-25 | 天津大学 | 一种基于深度监督学习提取图像多级特征的行人检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068171B2 (en) * | 2015-11-12 | 2018-09-04 | Conduent Business Services, Llc | Multi-layer fusion in a convolutional neural network for image classification |
-
2019
- 2019-12-26 CN CN201911364779.4A patent/CN111209810B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101252677A (zh) * | 2007-10-19 | 2008-08-27 | 西安交通大学 | 一种基于多光谱图像传感器的目标跟踪方法 |
CN104361314A (zh) * | 2014-10-21 | 2015-02-18 | 华北电力大学(保定) | 基于红外与可见光图像融合的变电设备定位方法及装置 |
CN106096561A (zh) * | 2016-06-16 | 2016-11-09 | 重庆邮电大学 | 基于图像块深度学习特征的红外行人检测方法 |
CN106251355A (zh) * | 2016-08-03 | 2016-12-21 | 江苏大学 | 一种融合可见光图像与对应夜视红外图像的检测方法 |
CN106599797A (zh) * | 2016-11-24 | 2017-04-26 | 北京航空航天大学 | 一种基于局部并行神经网络的红外人脸识别方法 |
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN107564025A (zh) * | 2017-08-09 | 2018-01-09 | 浙江大学 | 一种基于深度神经网络的电力设备红外图像语义分割方法 |
CN108710910A (zh) * | 2018-05-18 | 2018-10-26 | 中国科学院光电研究院 | 一种基于卷积神经网络的目标识别方法及系统 |
CN109086678A (zh) * | 2018-07-09 | 2018-12-25 | 天津大学 | 一种基于深度监督学习提取图像多级特征的行人检测方法 |
Non-Patent Citations (2)
Title |
---|
jingjing liu等.Multispectral Deep Neural Networks for Pedestrian Detection.arXiv preprint arXiv:1611.02644.2016,全文. * |
曹彦鹏等.红外热成像信号处理技术的研究进展.振动.测试与诊断.2018,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111209810A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111209810B (zh) | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 | |
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
CN111368846B (zh) | 一种基于边界语义分割的道路积水识别方法 | |
CN112686928B (zh) | 一种基于多源信息融合的运动目标视觉跟踪方法 | |
CN103093198B (zh) | 一种人群密度监测方法及装置 | |
CN110555420B (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN105760831A (zh) | 一种基于低空航拍红外视频的行人跟踪方法 | |
CN111965636A (zh) | 一种基于毫米波雷达和视觉融合的夜间目标检测方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN103984955B (zh) | 基于显著性特征和迁移增量学习的多摄像机目标识别方法 | |
CN113762009B (zh) | 一种基于多尺度特征融合及双注意力机制的人群计数方法 | |
Xing et al. | Traffic sign recognition using guided image filtering | |
CN106570885A (zh) | 基于亮度和纹理融合阈值的背景建模方法 | |
Chen et al. | Contrast limited adaptive histogram equalization for recognizing road marking at night based on YOLO models | |
CN106056078A (zh) | 一种基于多特征回归式集成学习的人群密度估计方法 | |
Abujayyab et al. | Integrating object-based and pixel-based segmentation for building footprint extraction from satellite images | |
CN114067273A (zh) | 一种夜间机场航站楼热成像显著人体分割检测方法 | |
CN103903269B (zh) | 球机监控视频的结构化描述方法和系统 | |
CN112580424B (zh) | 一种复杂车路环境的偏振特征多尺度池化分类算法 | |
CN114550016A (zh) | 一种基于上下文信息感知的无人机定位方法及系统 | |
CN108171168B (zh) | 弱小目标变动智能图像检测方法及装置 | |
CN113537397A (zh) | 基于多尺度特征融合的目标检测与图像清晰联合学习方法 | |
Brehar et al. | A study of the impact of HOG and LBP based temporal association on far infrared pedestrian detection | |
Someswari et al. | Traffic sign detection using Deep learning techniques | |
Thayalan et al. | Multifocus object detector for vehicle tracking in smart cities using spatiotemporal attention map |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |