CN114937309A - 基于可见光图像与红外图像融合的行人检测方法、模型、电子设备和计算机可读介质 - Google Patents

基于可见光图像与红外图像融合的行人检测方法、模型、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN114937309A
CN114937309A CN202210516263.2A CN202210516263A CN114937309A CN 114937309 A CN114937309 A CN 114937309A CN 202210516263 A CN202210516263 A CN 202210516263A CN 114937309 A CN114937309 A CN 114937309A
Authority
CN
China
Prior art keywords
image
visible light
infrared
infrared image
light image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210516263.2A
Other languages
English (en)
Other versions
CN114937309B (zh
Inventor
张素民
白日
何睿
刘洁美
李星辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202210516263.2A priority Critical patent/CN114937309B/zh
Priority claimed from CN202210516263.2A external-priority patent/CN114937309B/zh
Publication of CN114937309A publication Critical patent/CN114937309A/zh
Application granted granted Critical
Publication of CN114937309B publication Critical patent/CN114937309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/14Transformations for image registration, e.g. adjusting or mapping for alignment of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Molecular Biology (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于可见光图像与红外图像融合的行人检测方法、模型、电子设备和计算机可读介质,方法包括:对同步获取的包含有行人的红外图像与可见光图像进行标定、配准、构成公共标签文件;对公共标签文件中的图像分别进行特征提取,并获取红外图像的ROI信息;将红外图像的ROI信息映射到对应的可见光图像的特征图上,得到融合后的特征图;对于融合后的特征图,经分类、调整位置,提取出目标类别和识别框,从而实现行人检测。本发明融合红外和光学特征,并将红外图像生成ROI信息映射到可见光图像提取的特征图中,结合了可见光图像纹理清晰、红外图像行人特征显著的优势,有效地克服了光照条件对行人检测的影响。

Description

基于可见光图像与红外图像融合的行人检测方法、模型、电子 设备和计算机可读介质
技术领域
本发明属于目标检测技术领域,特别是涉及基于可见光图像与红外图像融合的行人检测方法、模型、电子设备和计算机可读介质。
背景技术
随着无人驾驶技术的不断发展,汽车驾驶系统对行人检测能力提出了更高要求。传统的行人检测方法基于可见光图像特征完成行人识别任务,但可见光图像在曝光失调或者行人外观纹理特征和背景极其相似的条件下,检测准确率会显著下降,甚至造成漏检、误检,从而引发严重的交通事故。可见光图像通过反射光获取行人的颜色和纹理特征,而红外图像通过目标自身的辐射热信息获取行人特征,因而红外图像不受光照条件、曝光条件等环境信息的干扰。但红外图像成像分辨率低,无法对检测目标的细节纹理特征进行捕捉。
中国专利CN202110971334.3提出了一种基于可见光图像和红外图像融合的行人检测方法,该方法中首先将红外图像和可见光图像采用Dense fuse网络进行图像融合,并生成融合图像,然后基于改进的YOLOv5算法以融合图像为输入进行行人检测。但该方法没有考虑融合图像的真实标签,且在通过可见光图像和红外图像融合生成新图像的过程中,由于算法的局限性,并不能完全保留二者的相关特征(出现图像失真、遗漏特征点等),导致融合图像不能真实的反映现实环境,从而无法直接利用可见光图像的标签或红外图像的标签作为融合图像的标签进行监督学习。部分文献针对此类问题,尝试加入人工标签,但人工标签是否合理没有统一的评判标准,较难实现。
中国专利CN201510473667.8提出了一种基于滤波算法的方式,提取图像信息中的高低频信息,然后进行组合叠加实现图像融合,该方法虽然较为简便,但对所有红外图像和可见光图像进行了无差别融合,不能根据图像特点实现“学习式”融合,融合方案的适用性差。
中国专利CN201810722036.9提出了一种基于通道叠加的方式完成图像融合的方法,一般情况下,可见光图像中的纹理特征和红外图像中的梯度信息是各自比较优的信息,该方法直接叠加了可见光图像和红外图像的信息,未对信息进行筛选,无法充分融合可见光图像和红外图像的优势。
为了解决上述问题,本申请提出了一种基于可见光图像与红外图像融合的行人检测方法。
发明内容
本发明的目的在于提供一种基于可见光图像与红外图像融合的行人检测方法,设计了红外相机和光学相机标定方案,可以更好的融合红外和光学特征,并且将红外图像生成ROI信息映射到可见光图像提取的特征图中,结合了可见光图像纹理清晰、红外图像行人特征显著的优势,可以有效的克服光照条件对行人检测的影响,解决了现有技术中行人检测方法存在的问题。
本发明所采用的技术方案是,基于可见光图像与红外图像融合的行人检测方法,包括:
同步获取包含有行人的红外图像与可见光图像;
对获取的红外图像与可见光图像进行标定、配准;
配准的红外图像与对应的可见光图像组成数据对,各数据对构成公共标签文件;
对公共标签文件中的红外图像和可见光图像分别进行特征提取,获得各自的特征图,并获取其中红外图像的ROI信息;
将红外图像的ROI信息映射到对应的可见光图像的特征图上,得到融合后的特征图;
对于融合后的特征图,采用softmax方法分类,并用目标框回归方法调整位置,最终提取出目标类别和识别框,从而实现行人检测。
进一步地,对红外图像与可见光图像进行标定、配准,具体包括以下步骤:
分别定义红外相机和光学相机在世界坐标系下的坐标,在对应坐标系下对标定板上不同位姿和距离的角点拍摄红外图像和可见光图像;
根据红外相机或光学相机的尺寸因子、角点在像素坐标系和世界坐标系的坐标,得到红外相机或光学相机的单应性矩阵,再根据多组角点坐标和约束性条件,得到红外相机或光学相机的内参矩阵和外参矩阵;红外相机或光学相机的外参矩阵包括角点相对于红外相机或光学相机主点的旋转矩阵和平移矩阵;
根据角点相对于红外相机和光学相机的外参矩阵,得到红外相机相对于光学相机的旋转矩阵和平移矩阵,确定红外相机和光学相机之间的坐标系转变关系,完成标定;
对于获取的包含有行人的红外图像与可见光图像,根据确定的红外相机和光学相机之间的坐标系转变关系,进行配准。
进一步地,在确定红外相机和光学相机之间的坐标系转变关系的过程中,还包括:输入红外相机和光学相机的畸变矩阵。
进一步地,各数据对构成公共标签文件的过程,包括以下步骤:
对配准后的红外图像与对应的可见光图像分别进行标注,形成各自的标注项;由红外图像与可见光图像的标注项,分别构成红外图像与可见光图像的标签文件;
遍历红外图像与可见光图像的标注项,计算两个标签文件中各个标注项之间的交并比;对于一个标签文件中的标注项,在另外一个标签文件中仅有一个对应标注项与之的交并比大于设定阈值时,将该标注项与对应标注项存入共用标签文件中;
当标注项未检索到与之交并比大于设定阈值的对应标注项时,则舍弃该标注项;当标注项检索到多项与之交并比大于设定阈值的对应标注项时,对设定阈值进行更新,再次进入标注过程,直到标签文件所有标注项完成标注过程,结束循环。
进一步地,对于公共标签文件中的红外图像,经过改进的Darknet主干网络进行多次特征提取,得到红外图像的特征图;其中,每次特征提取均由上一层特征图为输入,经过卷积层、残差网络、稠密块处理,分别进行特征提取、跳跃连接、特征重用,得到下一层特征图,最后一层特征提取模块获得的特征图作为红外图像的特征图。
进一步地,获取红外图像的ROI信息的过程,包括以下步骤:
在红外图像的特征图中生成先验框,并设计三个先验框与红外图像的特征图的面积比,以及三个先验框与红外图像的特征图的高宽比;对于红外图像的特征图的每个特征点生成9个先验框;
以红外图像的特征图为输入,通过一个卷积层处理,融合不同通道之间的特征,得到红外图像的融合特征图;
将红外图像的融合特征图分别进行1×1×36和1×1×18卷积;
将经1×1×36卷积输出的特征图进行目标框回归,获得初步的目标框信息;
将经1×1×18卷积输出的特征图利用softmax函数区分前景图像和背景图像,获得特征图中每个先验框的二分类结果,识别为前景的先验框作为候选,识别为背景的先验框视为负样本丢弃;
利用Proposal层综合前景图像和初步的目标框信息生成包含ROI信息的特征图,即获取红外图像的ROI信息。
进一步地,对于公共标签文件中的可见光图像,其特征提取过程,包括以下步骤:
通过随机缩放、裁剪以及排布进行数据增强,得到数据增强的可见光图像特征图;
对数据增强的可见光图像特征图进行切片,获得可见光图像的小块特征图;
以可见光图像的小块特征图为输入,依次输入至CBL模块、CSP1_1模块中,进行特征提取,得到可见光图像的第一特征图;
以可见光图像的第一特征图为输入,通过三个并行的空洞卷积模块,得到三个并行的特征图,合并三个并行的特征图,得到可见光图像的第二特征图;
将可见光图像的第二特征图压缩处理,再依次输入至CBL模块、CSP1_3模块、CBL模块、CSP2_3模块和SPP模块,进一步提取特征,得到可见光图像的特征图。
本发明的另一发明目的,在于提供一种基于可见光图像与红外图像融合的行人检测模型,包括:
获取单元,用于获取包含有行人的红外图像与可见光图像,红外图像与可见光图像用于进行标定、配准、特征提取以及特征融合;
提取单元,用于提取红外图像和可见光图像的特征并进行特征融合;
检测单元,用于对融合的特征图进行分类、调整,实现行人检测。
本发明的又一发明目的,在于提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述方法步骤。
本发明的再一发明目的,在于提供一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述方法步骤。
本发明的有益效果:
(1)本发明实施例提出了一种红外图像和可见光图像融合方法,设计了红外相机和光学相机标定方案,可以更好的融合红外和光学特征,并且将红外图像生成ROI信息映射到可见光图像提取的特征图中,结合了可见光图像纹理清晰、红外图像行人特征显著的优势,可以有效的克服光照条件对行人检测的影响。
(2)本发明实施例在ROI信息提取阶段,在Darknet网络中同时融合了残差块(Residual Block)和稠密块(Dense Block)实现了图像特征在不同层次之间的共享,并利用RPN网络,提取出更加精准的行人特征ROI区域。
(3)本发明实施例提出了红外图像和可见光图像共用标签文件的制作方法和规范,有效的避免了单一图像源标签的误标注或漏标注问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例的流程图。
图2本发明实施例的光学相机和红外相机布置形式图。
图3本发明实施例的红外相机和光学相机联合标定示意图。
图4本发明实施例的红外图像和可见光图像统一标签文件制作流程图。
图5本发明实施例的基于红外图像的ROI提取网络结构示意图。
图6本发明实施例行人检测效果图。
图7采用现有技术进行的行人检测效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于行人的红外特征非常显著,本发明采用红外图像生成感兴趣区域(ROI),然后将上述ROI区域映射到可见光图像的特征图上,随后进行行人检测,流程如图1所示。
基于可见光图像与红外图像融合的行人检测方法,按照以下步骤进行:
步骤1:制作红外图像和可见光图像的行人数据集。
步骤1.1:在试验车上布置红外相机和光学相机。
在一些具体的实施例中,红外相机选用FOTRIC 721C型号相机,相机分辨率为640×480;光学相机选用LOGI 1080P网络相机,红外相机和光学相机布置在试验车的中心纵轴线上,如图2所示。
步骤1.2:分别对红外相机和光学相机进行内外参数联合标定和配准,其中,标定的目的是确定世界坐标系和像素坐标系之间的转换的内外参矩阵,其具体过程包括以下步骤:
1.2.1:制作标定板,红外相机基于热辐射捕捉图像,因此需要制定特定的标定板,才能识别到相应的标记信息。
具体地,标定板基板采用70℃恒温加热板,采用立方体积木块作为标定板的隔热块,制作完成(6×9)~(25×25)mm规格相机标定板。其中标定板基板采用白色外观,隔热块采用黑色外观,从而保证热成像和光学成像产生一致的角点信息。
1.2.2:分别打开红外相机和光学相机,对标定板不同位姿和距离的点位拍摄图像,在一些具体的实施例中,采集20张红外图像和可见光图像对,然后进行标定。
在一些具体的实施例中,为降低环境对红外图像采集的干扰,标定环境选择温度恒定、无强光的室内环境完成。
在一些具体的实施例中,为保证图像中包含丰富的有效角点信息,在相机的有效视觉范围内,选择左、中、右三个相对位置,在不同距离上,记录不同姿态的图像。图像姿态包括竖直、右倾、左倾、上仰、下俯,倾斜角度15°左右即可。
设Pw为标定板某一角点在世界坐标系下的坐标;Pi为红外相机在世界坐标系下的坐标,Pl为光学相机在世界坐标系下的坐标;R、T分别为红外相机相对于光学相机的旋转、平移矩阵;Ri、Ti表示该角点相对于红外相机主点的旋转、平移矩阵;Rl、Tl表示该角点相对于光学相机主点的旋转、平移矩阵。
步骤1.2.2(1):对红外相机进行内参标定:
首先,基于opencv的findChessboardCorners函数提取红外图像中的角点信息。
由相机模型可知,
Figure BDA0003639632260000061
上式中,s表示尺寸因子;
Figure BDA0003639632260000062
表示角点在像素坐标系坐标;
Figure BDA0003639632260000063
表示相机需要标定的内参矩阵,其中α和β是红外图像在u和v轴的比例因子,γ用于描述两个坐标轴倾斜角;(u0,v0)表示红外相机的主点坐标;Ri表示角点相对于红外相机主点的旋转矩阵;Ti表示角点相对于红外相机主点的平移矩阵;X、Y、Z表示像素坐标系下的点(u,v)在世界坐标系下的对应坐标。
为便于计算,将世界坐标系构造在Z=0的平面上,可得
Figure BDA0003639632260000071
上式中,H为红外相机3×3的单应性矩阵。
在获取到的角点坐标中,任选4个代入上式,建立方程组求解,可获得H。
H矩阵包含了红外相机的内参和外参矩阵,利用单应性矩阵和约束条件,求出内参矩阵和外参矩阵。
在一些具体的实施例中,为了消除相机的径向畸变和切向畸变,标定红外相机畸变参数(k1,k2,p1,p2,k3),其中,k1,k2,k3表示红外相机径向畸变,p1,p2表示红外相机切向畸变。
对图像进行重投影,计算图像角点的投影坐标,计算投影坐标和角点坐标之间的偏差,当偏差满足预期要求时,采用该标定结果。
步骤1.2.2(2):对光学相机进行内参标定:
首先,基于opencv的findChessboardCorners函数提取可见光图像中的角点信息。
由相机模型可知,
Figure BDA0003639632260000072
式中,s表示尺寸因子;
Figure BDA0003639632260000073
表示角点在像素坐标系坐标;
Figure BDA0003639632260000074
表示相机需要标定的内参矩阵;其中α'和β'是可见光图像在u和v轴的比例因子;γ'用于描述两个坐标轴倾斜角;(u0',v0')是光学相机的主点坐标;Rl表示角点相对于光学相机主点的旋转矩阵;Tl表示角点相对于光学相机主点的平移矩阵。
为便于计算,将世界坐标系构造在Z=0的平面上,可得
Figure BDA0003639632260000081
上式中,H'表示光学相机3×3的单应性矩阵。
一些具体的实施例中,在获取到的角点坐标中,任选4个代入上式,建立方程组求解,可获得H'。H'矩阵包含了光学相机的内参和外参矩阵,利用单硬性矩阵和约束条件,求出内参矩阵和外参矩阵。
在一些具体的实施例中,为了消除相机的径向畸变和切向畸变,标定畸变参数(k'1,k'2,p'1,p'2,k'3),k'1,k'2,k'3表示光学相机的径向畸变,p'1,p'2表示光学相机的切向畸变。
步骤1.2.3:通过采集的图像对,对光学相机和红外相机进行联合标定,如图3所示。将该角点坐标分别投影到红外相机和光学相机坐标系可得:
Pl=RlPw+Tl
Pi=RiPw+Ti
由红外相机主点相对于光学相机主点关系,可知
Pi=RPl+T
联立上述三式可得,
Figure BDA0003639632260000082
T=Ti-RTl
求得R,T后就可以确定红外相机和光学相机之间的坐标系转换关系,完成标定。
步骤1.3:为尽可能多的采集交通环境中的行人图像,将步骤1.1实验车停滞在交通路口处附近,同步采集红外图像和可见光图像。需采集晴天、雾天、夜间等不同光照条件下的数据,以保证数据集的丰富性,并基于步骤1.2中获得的参数(R,T)进行图像配准。
在一些具体的实施例中,为保证数据具有足够的代表性,数据采集分多个时段进行。
步骤1.4:使用labelImg对配准后的红外图像和可见光图像进行图像标注,标注类别为行人,制作图像标签,如图4所示。
具体地,图像标签必须能够真实的反映图像目标。可见光图像在低光照条件下容易遗漏标注目标,而红外图像中也存在由壁面反射造成的热辐射伪影,单独的标注可见光图像或者红外图像无法真实的反映低光照条件下的真实标签。
因此,提出了一种可见光图像和红外图像联合标注方法,具体步骤如下。
步骤1.4.1:分别对可见光图像和红外图像进行标注,标签以字典形式储存,格式为{frame:Number,imgHeight:H,imgWidth:W,object:[{boundingbox:xmin,ymin,xmax,ymax],label:per son}]}。其中frame对应图像帧,与图像名一致,作为图像标识;Number表示图像帧的索引值;imgHeight,imgWidth分别表示图像的高度和宽度,object中包含标注信息,boundingbox指按矩形的形状制作标签,xmin,ymin,xmax,ymax分别指标注框的左上角x,y坐标和右下角x,y坐标,label指明标注类别,标注对象为行人person。
步骤1.4.2:分别读取红外图像标签和对应的可见光图像标签文件。遍历文件中的标注项,计算两个文件中各个标注项的标签之间的交并比JIOU
Figure BDA0003639632260000091
上式中,area(A)表示标注项A对应标注框的区域,area(B)表示标注项B对应标注框的区域;
步骤1.4.3:对各个标注项标签之间的交并比进行比较,当标注项检索到有且仅存在一个与之交并比大于J的对应标注项时,认为红外图像标注信息和可见光图像标注一致,该标注项存入最终标签文件中;J是设定的标签之间的交并比阈值,在一些具体的实施例中,J初始值设为0.8。
当标注项未检索到与之交并比大于J的对应标签项时,认为该标签项为误标注标签,舍弃该标注项;
当发现有多个标注项与之交并比大于J时,说明多个标注目标框之间有较大重复,更新J,取
Figure BDA0003639632260000092
其中ΔJIOU为交并比阈值变化步长,在一些具体的实施例中,默认值ΔJIOU取0.01。J(i)表示第i次更新的J结果,J(i-1)表示第i-1次更新的J结果。
步骤1.4.4:更新J后,再次进入步骤1.4.3,直到所有标签判断完毕,结束循环,将最终获得的标签文件作为红外图像和可见光图像的公共标签文件。
优选地,为了保证样本的丰富性,通过数据增强方法,对已有图像进行剪切、旋转等操作扩充数据集。
步骤1.5:在数据集中,配准后的红外图像及可见光图像组成数据对,按8:2的数量比随机选择数据对组成训练集和测试集。
步骤2:基于红外图像的ROI信息图获取,如图5所示。
步骤2.1采用改进的Darknet网络提取红外图像的特征图。
将红外图像信息送入改进的Darknet主干网络中,在Darknet网络的基础上引入了稠密块结构获取特征图。首先将输入图像归一化为416×416×3的尺寸,然后逐层卷积提取最终的图像特征图。Darknet网络中引入了残差块。通过残差网络,在保持加深网络的同时,又解决了梯度消失的问题。在每次卷积过程中采用L2正则化,选用Leaky relu激活函数,并进行BatchNormalization标准化。
具体地:
2.1.1:首先将输入图像归一化为416×416×3的尺寸大小,通过卷积核大小为3×3×32的卷积层对图像进行特征提取,得到416×416×32的输出;
2.1.2:采用3×3×64的卷积核对特征层进行降采样得到208×208×64的输出。将208×208×64特征图加入一个残差块(Residual Block),通过跳跃连接,实现特征信息共享,最后得到208×208×64的输出。残差块通过残差网络,在保持加深网络的同时,又解决了梯度消失的问题。
步骤2.1.3:采用稠密块(Dense Block)结构,稠密块中采用四组特征提取单元进行特征提取,每个特征提取单元由6个1×1和6个3×3卷积核组成。稠密块可以降低梯度消失,同时加强整个网络的特征共享和传递。稠密块通过将模块内部所有输入连接到输出层,实现特征重用,最后得到208×208×64的输出。
步骤2.1.4:采用3×3×128的卷积核对特征层进行降采样得到104×104×128的输出。将104×104×128特征图通过1×1×32卷积核调整通道数,然后通过3×3×64卷积核提取特征,而后加入8个残差块,通过跳跃连接,实现特征信息共享,最后得到104×104×128的输出。
步骤2.1.5:采用稠密块结构,稠密块中采用四组特征提取单元进行特征提取,每个特征提取单元由12个1×1和12个3×3卷积核组成。稠密块可以降低梯度消失,同时加强整个网络的特征共享和传递。稠密块通过将模块内部所有输入连接到输出层,实现了特征重用,最后得到104×104×128的输出。
步骤2.1.6:采用3×3×256的卷积核对特征层进行降采样得到52×52×256的输出。将52×52×256特征图加入4个残差块,通过跳跃连接,实现特征信息共享,最后得到52×52×256的输出。
步骤2.1.7:采用稠密块结构,稠密块中采用四组特征提取单元进行特征提取,每个特征提取单元由6个1×1和6个3×3卷积核组成。稠密块可以降低梯度消失,同时加强整个网络的特征共享和传递。稠密块通过将模块内部所有输入连接到输出层,实现了特征重用,最后得到52×52×256的输出。
步骤2.1.8:采用3×3×256的卷积核对特征层进行降采样得到26×26×512的输出。将26×26×512特征图加入8个残差块,通过跳跃连接,实现特征信息共享,最后得到26×26×512的输出。
总体提取网络结构如下表1所示。
表1总体提取网络结构表
Figure BDA0003639632260000111
在一些具体的实施例中,在每个稠密块之后,对输出进行一次1×1卷积,用以融合通道特征,降低计算量。
在一些具体的实施例中,在每次卷积过程中采用L2正则化,选用Leaky relu激活函数,并进行BatchNormalization标准化。
步骤2.2利用RPN网络在特征图中生成先验框:
步骤2.2.1:通过设计三种不同的尺度比例,先验框面积与特征图面积比[0.3,0.5,0.8]和高宽比[1:1,1:2,2:1],在特征图的每个特征点生成9个先验框。
步骤2.2.2:将步骤2.1最后输出的特征图通过一个3×3卷积进一步融合不同通道之间的特征。
步骤2.2.3:将步骤2.2.2的输出分别选取1×1×36、1×1×18进行卷积。
步骤2.2.4:将1×1×36卷积结果进行目标框回归,获得初步的目标框信息。
步骤2.2.5:将1×1×18卷积结果利用softmax函数区分前景和背景图像,获得最终每个先验框的二分类结果,识别为前景的先验框作为候选,识别为背景先验框视为负样本直接丢弃。
步骤2.2.6:最后利用Proposal层综合前景图像和目标框回归结果生成最终的包含ROI信息的特征图,即获取到红外图像的ROI信息。
步骤3:基于改进的CSPDarknet53网络获取可见光图像的特征图,具体步骤如下:
步骤3.1:将可见光图像通过随机缩放、裁剪以及排布进行数据增强。
步骤3.2:将处理后的特征图送入改进的CSPDarknet53主干网络中提取特征。
具体地,步骤3.2.1,利用Focus结构对图像进行切片,对切片后获得的小块特征图进行特征提取。
步骤3.2.2:将特征图送入CBL模块进行特征提取,然后再送入CSP1_1模块中,CBL模块中采用Leaky relu激活函数,对特征图进行特征提取。其中,CBL模块是现有技术中已有的网络模块,由卷积层、Batch normalize层和LeakyRelu激活函数层构成。CSP1_1中包含了残差结构,可以有效地避免因网络加深导致的梯度消失问题。
步骤3.2.3:在CSP1_1模块之后加入三个并行的空洞卷积模块,三个空洞卷积模块都采用3×3卷积核,rate分别选用6、12、18,最后进行合并,合并后的输出通过1×1卷积压缩特征。
步骤3.2.4:在1×1卷积之后,依次输入到CBL模块、CSP1_3模块、CBL模块、CSP2_3模块、SPP模块,进一步提取特征,将最后获得的特征图作为可见光图像特征的提取结果。
其中,CSP1_1模块采用残差单元和卷积并行结构,且残差单元数量为1;CSP1_3采用残差单元和卷积并行结构,且残差单元数量为3;CSP2_3采用两个卷积单元并行结构对图像特征进行提取。
SPP模块是现有技术中已有的网络模块,该模块采用四个并行结构,包括三个并行的最大值池化层和一个跳跃连接结构,能够有效的避免对图像区域裁剪、缩放等操作引起的图像失真问题,同时减少了网络参数,提高计算速度。
步骤4:行人检测流程
步骤4.1通过ROI Pooling层将步骤2.2.6获得的包含ROI的特征图映射到步骤3.2.4可见光图像的特征图上,生成ROI区域特征图。
步骤4.2在ROI区域特征图中,采用softmax方法分类,并用目标框回归方法精细调整位置。最终,提取出目标类别和识别框。
其中,采用现有的目标框回归方法即可实现,具体来说,现有的目标框回归方法通过比较网络输出的预测框和真实标注框相关参数,获取一种映射关系,使得预测框尽可能的接近真实标注框。
采用上述基于可见光与红外图像融合的行人检测方法,实现的检测效果图如图6所示。以现有最新的YOLOv5算法为对比,其检测效果图如图7所示。和本申请方案结果比较,可以发现YOLOV5结果检测准确度低,且存在漏检测情况,说明本申请基于可见光与红外图像融合的行人检测方法相对于现有技术,结合了可见光图像纹理清晰、红外图像行人特征显著的优势,可以有效的克服光照条件对行人检测的影响,具有检测精准的显著优势。
基于可见光图像与红外图像融合的行人检测模型,包括以下单元:
获取单元,用于获取包含有行人的红外图像与可见光图像,红外图像与可见光图像用于进行标定、配准、特征提取以及特征融合;
提取单元,用于提取红外图像和可见光图像的特征并进行特征融合;
检测单元,用于对融合的特征图进行分类、调整,实现行人检测。
上述的基于可见光图像与红外图像融合的行人检测方法可以实施为计算机程序,保存在硬盘中,并可记载到处理器中执行,以实施本发明实施例的方法。
本发明实施例还提供了一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的基于可见光图像与红外图像融合的行人检测方法。
基于可见光图像与红外图像融合的行人检测方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本发明实施例描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上述的实施例仅是示意。本发明描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本发明所述功能的其它电子单元或者其结合内实现。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.基于可见光图像与红外图像融合的行人检测方法,其特征在于,包括:
同步获取包含有行人的红外图像与可见光图像;
对获取的所述红外图像与所述可见光图像进行标定、配准;
配准的红外图像与对应的可见光图像组成数据对,各数据对构成公共标签文件;
对所述公共标签文件中的红外图像和可见光图像分别进行特征提取,获得各自的特征图,并获取其中所述红外图像的ROI信息;
将所述红外图像的ROI信息映射到对应的可见光图像的特征图上,得到融合后的特征图;
对于所述融合后的特征图,采用softmax方法分类,并用目标框回归方法调整位置,最终提取出目标类别和识别框,从而实现行人检测。
2.根据权利要求1所述的基于可见光图像与红外图像融合的行人检测方法,其特征在于,对所述红外图像与所述可见光图像进行标定、配准,具体包括以下步骤:
分别定义红外相机和光学相机在世界坐标系下的坐标,在对应坐标系下对标定板上不同位姿和距离的角点拍摄红外图像和可见光图像;
根据红外相机或光学相机的尺寸因子、角点在像素坐标系和世界坐标系的坐标,得到红外相机或光学相机的单应性矩阵,再根据多组角点坐标和约束性条件,得到红外相机或光学相机的内参矩阵和外参矩阵;所述红外相机或光学相机的外参矩阵包括角点相对于红外相机或光学相机主点的旋转矩阵和平移矩阵;
根据角点相对于红外相机和光学相机的外参矩阵,得到红外相机相对于光学相机的旋转矩阵和平移矩阵,确定红外相机和光学相机之间的坐标系转变关系,完成标定;
对于获取的所述包含有行人的红外图像与可见光图像,根据确定的所述红外相机和光学相机之间的坐标系转变关系,进行配准。
3.根据权利要求2所述的基于可见光图像与红外图像融合的行人检测方法,其特征在于,在确定红外相机和光学相机之间的坐标系转变关系的过程中,还包括:输入红外相机和光学相机的畸变矩阵。
4.根据权利要求1所述的基于可见光图像与红外图像融合的行人检测方法,其特征在于,所述各数据对构成公共标签文件的过程,包括以下步骤:
对配准后的红外图像与对应的可见光图像分别进行标注,形成各自的标注项;由所述红外图像与所述可见光图像的标注项,分别构成所述红外图像与所述可见光图像的标签文件;
遍历所述红外图像与所述可见光图像的标注项,计算两个标签文件中各个标注项之间的交并比;对于一个标签文件中的标注项,在另外一个标签文件中仅有一个对应标注项与之的交并比大于设定阈值时,将该标注项与对应标注项存入共用标签文件中;
当所述标注项未检索到与之交并比大于设定阈值的对应标注项时,则舍弃该所述标注项;当所述标注项检索到多项与之交并比大于设定阈值的对应标注项时,对所述设定阈值进行更新,再次进入标注过程,直到标签文件所有标注项完成标注过程,结束循环。
5.根据权利要求1所述的基于可见光图像与红外图像融合的行人检测方法,其特征在于,对于所述公共标签文件中的红外图像,经过改进的Darknet主干网络进行多次特征提取,得到红外图像的特征图;其中,每次所述特征提取均由上一层特征图为输入,经过卷积层、残差网络、稠密块处理,分别进行特征提取、跳跃连接、特征重用,得到下一层特征图,最后一层特征提取模块获得的特征图作为红外图像的特征图。
6.根据权利要求5所述的基于可见光图像与红外图像融合的行人检测方法,其特征在于,获取所述红外图像的ROI信息的过程,包括以下步骤:
在所述红外图像的特征图中生成先验框,并设计三个所述先验框与所述红外图像的特征图的面积比,以及三个所述先验框与所述红外图像的特征图的高宽比;对于所述红外图像的特征图的每个特征点生成9个先验框;
以所述红外图像的特征图为输入,通过一个卷积层处理,融合不同通道之间的特征,得到红外图像的融合特征图;
将所述红外图像的融合特征图分别进行1×1×36和1×1×18卷积;
将经1×1×36卷积输出的特征图进行目标框回归,获得初步的目标框信息;
将经1×1×18卷积输出的特征图利用softmax函数区分前景图像和背景图像,获得特征图中每个先验框的二分类结果,识别为前景的先验框作为候选,识别为背景的先验框视为负样本丢弃;
利用Proposal层综合前景图像和初步的目标框信息生成包含ROI信息的特征图,即获取红外图像的ROI信息。
7.根据权利要求1所述的基于可见光图像与红外图像融合的行人检测方法,其特征在于,对于所述公共标签文件中的可见光图像,其特征提取过程,包括以下步骤:
通过随机缩放、裁剪以及排布进行数据增强,得到数据增强的可见光图像特征图;
对所述数据增强的可见光图像特征图进行切片,获得可见光图像的小块特征图;
以所述可见光图像的小块特征图为输入,依次输入至CBL模块、CSP1_1模块中,进行特征提取,得到可见光图像的第一特征图;
以所述可见光图像的第一特征图为输入,通过三个并行的空洞卷积模块,得到三个并行的特征图,合并三个并行的特征图,得到可见光图像的第二特征图;
将所述可见光图像的第二特征图压缩处理,再依次输入至CBL模块、CSP1_3模块、CBL模块、CSP2_3模块和SPP模块,进一步提取特征,得到所述可见光图像的特征图。
8.一种基于可见光图像与红外图像融合的行人检测模型,其特征在于,包括:
获取单元,用于获取包含有行人的红外图像与可见光图像,所述红外图像与可见光图像用于进行标定、配准、特征提取以及特征融合;
提取单元,用于提取所述红外图像和可见光图像的特征并进行特征融合;
检测单元,用于对融合的特征图进行分类、调整,实现行人检测。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~7中任一所述的方法步骤。
CN202210516263.2A 2022-05-12 基于可见光图像与红外图像融合的行人检测方法、装置、电子设备和计算机可读介质 Active CN114937309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210516263.2A CN114937309B (zh) 2022-05-12 基于可见光图像与红外图像融合的行人检测方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210516263.2A CN114937309B (zh) 2022-05-12 基于可见光图像与红外图像融合的行人检测方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN114937309A true CN114937309A (zh) 2022-08-23
CN114937309B CN114937309B (zh) 2024-07-02

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969669A (zh) * 2019-11-22 2020-04-07 大连理工大学 基于互信息配准的可见光与红外相机联合标定方法
CN111951160A (zh) * 2020-07-03 2020-11-17 广东工业大学 基于可见光和红外热成像的消防无人机图像融合方法
CN111986240A (zh) * 2020-09-01 2020-11-24 交通运输部水运科学研究所 基于可见光和热成像数据融合的落水人员检测方法及系统
CN113361475A (zh) * 2021-06-30 2021-09-07 江南大学 一种基于多阶段特征融合信息复用的多光谱行人检测方法
US20220044442A1 (en) * 2019-12-17 2022-02-10 Dalian University Of Technology Bi-level optimization-based infrared and visible light fusion method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969669A (zh) * 2019-11-22 2020-04-07 大连理工大学 基于互信息配准的可见光与红外相机联合标定方法
US20220044442A1 (en) * 2019-12-17 2022-02-10 Dalian University Of Technology Bi-level optimization-based infrared and visible light fusion method
CN111951160A (zh) * 2020-07-03 2020-11-17 广东工业大学 基于可见光和红外热成像的消防无人机图像融合方法
CN111986240A (zh) * 2020-09-01 2020-11-24 交通运输部水运科学研究所 基于可见光和热成像数据融合的落水人员检测方法及系统
CN113361475A (zh) * 2021-06-30 2021-09-07 江南大学 一种基于多阶段特征融合信息复用的多光谱行人检测方法

Similar Documents

Publication Publication Date Title
Sakaridis et al. Semantic foggy scene understanding with synthetic data
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
CN107506763B (zh) 一种基于卷积神经网络的多尺度车牌精准定位方法
WO2022088982A1 (zh) 三维场景构建方法、装置、系统和存储介质
EP3499414B1 (en) Lightweight 3d vision camera with intelligent segmentation engine for machine vision and auto identification
Geng et al. Using deep learning in infrared images to enable human gesture recognition for autonomous vehicles
CN107657639A (zh) 一种快速定位目标的方法和装置
CN113408584B (zh) Rgb-d多模态特征融合3d目标检测方法
CN110634131B (zh) 一种裂缝图像识别与建模方法
CN112434119A (zh) 一种基于异构数据融合的高精度地图生产装置
CN111340881A (zh) 一种动态场景下基于语义分割的直接法视觉定位方法
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN111967288A (zh) 智能三维物体识别和定位系统和方法
CN113159043A (zh) 基于语义信息的特征点匹配方法及系统
CN114565675A (zh) 一种在视觉slam前端去除动态特征点的方法
CN114332942A (zh) 基于改进YOLOv3的夜间红外行人检测方法及系统
CN112686872B (zh) 基于深度学习的木材计数方法
CN109740405B (zh) 一种非对齐相似车辆前窗差异信息检测方法
CN114937309B (zh) 基于可见光图像与红外图像融合的行人检测方法、装置、电子设备和计算机可读介质
CN114937309A (zh) 基于可见光图像与红外图像融合的行人检测方法、模型、电子设备和计算机可读介质
CN113449629B (zh) 基于行车视频的车道线虚实识别装置、方法、设备及介质
CN113052118A (zh) 基于高速快球摄像机实现场景变换视频分析检测的方法、系统、装置、处理器及存储介质
Zhang et al. Object detection based on deep learning and b-spline level set in color images
Xie et al. Application of intelligence binocular vision sensor: Mobility solutions for automotive perception system
CN112348823A (zh) 一种面向对象的高分辨率遥感影像分割算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant