CN115273154B - 基于边缘重构的热红外行人检测方法、系统及存储介质 - Google Patents

基于边缘重构的热红外行人检测方法、系统及存储介质 Download PDF

Info

Publication number
CN115273154B
CN115273154B CN202211171768.6A CN202211171768A CN115273154B CN 115273154 B CN115273154 B CN 115273154B CN 202211171768 A CN202211171768 A CN 202211171768A CN 115273154 B CN115273154 B CN 115273154B
Authority
CN
China
Prior art keywords
pedestrian
edge
thermal infrared
image
backbone network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211171768.6A
Other languages
English (en)
Other versions
CN115273154A (zh
Inventor
何震宇
李佳琪
田超
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202211171768.6A priority Critical patent/CN115273154B/zh
Publication of CN115273154A publication Critical patent/CN115273154A/zh
Application granted granted Critical
Publication of CN115273154B publication Critical patent/CN115273154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于边缘重构的热红外行人检测方法、系统及存储介质,热红外行人检测方法包括数据预处理步骤、主干网络预训练步骤、模型训练步骤和预测步骤。本发明的有益效果是:通过引入边缘信息,引导模型深入挖掘热红外图像中的边缘特征;通过引入主干网络预训练方法,提升主干网络的特征提取和学习能力;通过设计全新的算法架构,提升热红外行人检测性能;通过引入针对性训练流程,避免使用额外任务和额外数据,提升模型有效信息量,不影响实际运行速度。

Description

基于边缘重构的热红外行人检测方法、系统及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于边缘重构的热红外行人检测方法、系统及存储介质。
背景技术
热红外行人检测是计算机视觉的重要领域之一,被广泛地应用于视频监控、自动驾驶等领域。热红外图像成像不受光照条件影响,在恶劣天气条件下能正常工作,具有良好的稳定性。但热红外行人检测算法存在可用信息不足、白天性能下降等问题。为了解决上述问题,很多工作使用在可见光域训练的行人检测器,在热红外行人数据集上进行微调,实现域自适应。
在数据使用方面,依据使用的数据种类不同,分为两种范式:
1、仅使用热红外图像进行训练和测试(实际应用)。这类算法使用在可见光域预训练完毕的主干权重,使用热红外数据进行微调训练(finetune),训练完成后在热红外数据上测试(实际应用)。这种方法的实现成本较小,但需要精心设计模型架构,深入挖掘热红外图像中的信息,以提升热红外行人检测器的性能。
2、使用“热红外-可见光”图像对实现双光(RGB-T)检测。这类算法在训练和测试时,都需要使用精准对齐的双光数据。模型的架构也需要面向双模态数据重新设计,一般采用双流或者多流网络,同时对多个输入图像进行特征提取,再进行特征处理。这种方法性能较好,但是对数据和设备要求较高,很难落实到实际应用中。
在模型架构方面,依据热红外数据和可见光数据的结合使用方式,又分为两种范式:
1、单一输入的检测网络。这种模型仅使用热红外数据作为输入,包括提取图像特征的主干网络、处理特征的颈部网络和产生检测结果的检测头,不同的模型还可能包括特征融合、特征对齐等辅助模块。不同的模型中,每个模块的具体实现方式也不完全相同。
2、双输入(甚至更多)的检测网络,同时读入视角配对的“可见光+热红外”数据,分别在两个分支的主干网络进行特征提取,再融合特征进行后续检测步骤,训练完成后,测试(实际应用)时,仍需使用配对的“可见光+热红外”数据,即RGB-T方法。
在一些通用目标检测方法中,出现了一些使用边缘检测来提升检测效果的方法。例如,基于边缘信息引导的可见光显著目标检测模型,其重点在于利用边缘先验知识来细化显著检测结果的边缘轮廓,并不能提升热红外行人检测的性能;还有一些工作使用边缘检测来提升可见光图像分割模型的性能,其目的在于提升模型对于图像中不同区域的敏感度,提升其语义分割能力,但由于目的不同,其方法并不能提升热红外行人检测器的性能。
在数据预处理方面,有一些方法使用特征分析、去噪、增强等突出热红外行人图像有效细节信息并弱化无效信息的方式,以提升行人检测的精准度。这与本发明提出的数据预处理方法完全不同,也不适用于本发明。
在特征融合方面,有大量方法针对RGB-T设计了特征融合方法,用于解决跨模特信息交互问题,但是这些方法面向可见光和热红外特征设计,并不能直接用于热红外和边缘信息交互,从而提升热红外行人检测器的精准度。还有方法针对行人检测的结果进行融合,分别对置信度和位置信息的检测结果进行融合,以提升行人检测性能,但该方法是针对模型预测结果设计融合方案,并不适用于对热红外特征图和边缘特征图进行融合,即与本发明提出的方法无关。
综上,背景技术的缺陷如下:
对于使用单一热红外数据的行人检测模型,它们大多是直接基于可见光检测器,简单在可见光数据上预训练,并利用热红外数据进行微调训练得到。无论是两阶段热红外检测器还是单阶段热红外检测器,它们在温差较小(如白天)的热红外检测性能都比较差,容易导致漏检、错检等问题。
对于使用双光数据的RGB-T行人检测模型,无论是训练,还是在测试(实际应用)中,都需使用视角对齐的“可见光+热红外”双模态数据,总体计算复杂度高,训练数据难以获取,落地困难。
在数据预训练方面,当前主流方法为特征分析、去噪、增强等突出细节信息的方法,但这些方法也不能完全消除背景等干扰信息的影响,其提升热红外行人检测器性能的能力有限。
在使用边缘检测方面,现有方法仅用于可见光图像,方向为显著检测和分割检测,并不能直接应用于热红外行人检测。
在特征融合方面,当前特征融合主要面向可见光和热红外特征的融合,不能直接应用在边缘特征和热红外特征上。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于边缘重构的热红外行人检测方法、系统及存储介质, 提升有效信息量,提高了热红外行人检测器的性能。
本发明提供了一种基于边缘重构的热红外行人检测方法,包括如下步骤:
数据预处理步骤:获取热红外图像对应的边缘图像,抑制其背景表达,获取行人边缘掩模图像,平滑行人边缘,获得更完整和更精准的行人边缘轮廓;
主干网络预训练步骤:使用行人标签对主干网络进行对比学习预训练,使得主干网络能够学习到行人的标签和图像之间存在的关系,提升主干网络对行人特征的学习和分类能力;
模型训练步骤: 同时输入热红外行人图像和行人边缘掩模图像,分别提取两种图像的特征信息,在特征融合模块进行信息交互,经过特征处理模块进一步处理后,送入分类、定位和重构头中进行行人检测和边缘重构;
预测步骤:仅使用热红外行人图像,不使用行人边缘掩模图像,关闭辅助网络通道,实现完全位于热红外域的行人检测。
作为本发明的进一步改进,在数据预处理步骤中,获取行人边缘掩模图像的技术方案是:使用边缘提取算法生成热红外图像对应的边缘图像,将其与热红外图像同时输入模型;利用热红外行人数据集的标注框确定行人区域,抑制所有非行人区域的表达,得到仅包含行人边缘的掩模图像;将行人边缘掩模图像与热红外图像同时输入到行人检测器中。
作为本发明的进一步改进,在所述数据预处理步骤中,使用膨胀和腐蚀操作平滑行人边缘掩模图像。
作为本发明的进一步改进,所述模型训练步骤包括冻结主干网络的训练步骤,在冻结主干网络的训练步骤中,冻结预训练的主干网络,为主干网络的每层注入一组可学习的附加参数,在训练过程中仅更新附加参数和除了主干网络以外的其他模块。
作为本发明的进一步改进,所述主干网络预训练步骤包括:
步骤1:读取一个包含N个标签-图像对的训练块,将N个标签和N个图像特征两两组 合,组成
Figure 934457DEST_PATH_IMAGE001
个标签-图像对,其中含有 N 正样本对,
Figure 883958DEST_PATH_IMAGE002
个负样本对;
步骤2:使用CLIP模型预测出
Figure 645241DEST_PATH_IMAGE001
个可能的文本-图像对的余弦相似度;
步骤3:最大化N个正样本的相似度,同时最小化
Figure 971180DEST_PATH_IMAGE002
个负样本的相似度,从而建 立热红外行人图像和标签之间的联系。
作为本发明的进一步改进,在所述模型训练步骤中,行人边缘特征提取模块包含五个阶段,每个阶段的输出特征图分别为E1、E2、E3、E4和E5,通道数分别为64、128、256、512和1024,尺寸分别为原始输入图像的1/2、1/4、1/8、1/16和 1/32;行人边缘特征提取模块的每个阶段都包含两个深度可分离卷积层,每个深度可分离卷积层包括一个输入通道与输出通道数相同的3*3卷积,一个输入通道与输出通道数不同的1*1卷积,两个卷积后面都有批量归一化操作,第一个卷积后还有ReLU激活操作;在每个阶段的第二个深度可分离卷积层使用残差连接;如公式1所示,输入特征图Ei经过上述顺序的操作后,得到输出特征图Ej,
Ej = ReLU(BN(Conv(Ei)))+ ReLU(BN(Conv(ReLU(BN(Conv(Ei)))))) 公式1;
其中的Conv表示卷积层,BN表示归一化,ReLU为激活函数。
作为本发明的进一步改进,在所述模型训练步骤中,所述特征融合模块执行如下步骤:
第一步:将主干网络最后一个阶段输出的热红外特征图 T5 和行人边缘特征提取网络最后一个阶段输出的边缘特征图 E5 进行逐元素相乘,得到一个尺寸不变的特征图;
第二步:对第一步中得到的尺寸不变的特征图引入全局平均池化操作,得到第一结果;
第三步:将第二步中的第一结果与热红外特征图 T5 相乘,得到第二结果;
第四步:使用残差连接的方式将第三步中的第二结果与原始热红外特征图 T5 相加,得到第三结果;
第五步:将第三结果再经过一个不改变尺寸和通道数的1*1 卷积层、归一化和激活函数进行融合,最终得到特征融合模块的输出特征图。
作为本发明的进一步改进,所述模型训练步骤包括有监督的边缘重构任务,所述边缘重构任务包括如下步骤:
步骤a:首先将热红外图像送入主干网络进行特征提取,其输出热红外特征图为T5;
步骤b:将行人边缘掩模图像送入行人边缘特征提取模块进行特征提取,得到输出边缘特征图E5;
步骤c:将步骤a的输出热红外特征图T5和步骤b的输出边缘特征图E5送入特征融合模块进行特征融合,将融合完毕后的特征图送入重构模块进行边缘重构,得到边缘重构图像Epred
步骤d:将步骤c得到的边缘重构图像Epred与行人边缘掩模图像E0做对比损失,得到损失值;
步骤e:根据步骤d得到的损失值更新辅助网络各模块的权重,各模块包括行人边缘特征提取模块、特征融合模块和重构模块。
作为本发明的进一步改进,所述冻结主干网络的训练步骤包括:
步骤A:
Figure 868729DEST_PATH_IMAGE003
表示第i层的输出特征图,y表示模型的输出结果:
Figure 989132DEST_PATH_IMAGE004
公式4
Figure 503290DEST_PATH_IMAGE005
公式5
步骤B:对主干网络的每一层都插入一个 d 维的向量
Figure 367340DEST_PATH_IMAGE006
作为附加参数,构成集 合P:
Figure 384975DEST_PATH_IMAGE007
公式6
步骤C:训练时,冻结主干网络的权重,仅更新附加参数集合 P:
Figure 941858DEST_PATH_IMAGE008
公式7
Figure 943312DEST_PATH_IMAGE005
公式8
在公式4中,
Figure 611054DEST_PATH_IMAGE009
的含义是:Layer代表主干网络的某一层,用下标i区分,i的 取值范围为1~5;x表示特征图,第i个layer的输入是第i-1个layer的输出特征图x,下标为 i-1;
在公式5中,
Figure 217616DEST_PATH_IMAGE010
的含义是:检测头,能够输出最终结果;
在公式6中,
Figure 679821DEST_PATH_IMAGE006
的含义是:P是一个向量,在主干网络的每一层中插入一个p,用i做 下标区分不同的层;
Figure 634483DEST_PATH_IMAGE011
的含义是:R表示实数,上标d表示维度是d维,即p是一个实数域中的 d维向量;
Figure 840337DEST_PATH_IMAGE012
表示自然数;N表示主干网络最大级数;
在公式7中,
Figure 566984DEST_PATH_IMAGE013
的含义是:将
Figure 465670DEST_PATH_IMAGE014
Figure 379399DEST_PATH_IMAGE006
同时输入第i个layer中,得到输 出特征图x。
本发明还提供了一种基于边缘重构的热红外行人检测系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现热红外行人检测方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现热红外行人检测方法的步骤。
本发明的有益效果是:通过引入边缘信息,引导模型深入挖掘热红外图像中的边缘特征;通过引入主干网络预训练方法,提升主干网络的特征提取和学习能力;通过设计全新的算法架构,提升热红外行人检测性能;通过引入针对性训练流程,避免使用额外任务和额外数据,提升模型有效信息量,不影响实际运行速度。
附图说明
图1是模型训练步骤网络架构示意图;
图2是预测阶段网络架构示意图;
图3是行人边缘特征提取模块的单个阶段结构示意图;
图4是特征融合模块的原理示意图。
具体实施方式
本发明公开了一种基于边缘重构的热红外行人检测方法,包括如下步骤:
数据预处理步骤:获取热红外图像对应的边缘图像,抑制其背景表达,获取行人边缘掩模图像,使用膨胀和腐蚀操作平滑行人边缘,获得更完整和更精准的行人边缘轮廓;在数据预处理步骤,使用膨胀腐蚀操作平滑行人边缘轮廓,获得精准的行人边缘掩模图像,提升模型对行人轮廓的敏感度和学习能力。
主干网络预训练步骤:使用行人标签对主干网络进行对比学习预训练,使得主干网络能够学习到行人的标签和图像之间存在的关系,提升主干网络对行人特征的学习和分类能力;在主干网络的预训练步骤,使用文本标签和对应图像进行对比学习,提升主干网络对热红外行人的特征学习能力。
如图1所示,模型训练步骤:
同时输入热红外行人图像和行人边缘掩模图像,分别提取两种图像的特征信息,在特征融合模块进行信息交互,经过特征处理模块进一步处理后,送入分类、定位和重构头中进行行人检测和边缘重构;在整个训练过程中,冻结预训练的主干网络,为主干网络的每层注入一组可学习的附加参数,在训练过程中仅更新附加参数和除了主干网络以外的其他模块;在模型训练步骤,设计了特征融合模块,利用行人的边缘信息引导模型更加关注行人轮廓;在模型训练步骤,添加有监督的边缘重构任务促进模型更加关注并深入学习行人边缘区域信息;在模型训练方法上,冻结预训练好的主干网络,引入少量可以特定热红外行人检测任务训练的参数,加速模型训练速度。
如图1所示,预测步骤:仅使用热红外行人图像,不使用行人边缘掩模图像,关闭辅助网络通道,实现完全位于热红外域的行人检测。
本发明进行展开说明:
1.在在数据预处理步骤中,获取行人边缘掩模图像的技术方案如下:热红外图像包含信息较少,是影响热红外行人检测器性能提升的关键问题之一。为了解决这一问题,我们使用边缘提取算法生成热红外图像对应的边缘图像,将其与热红外图像同时输入模型。然而边缘图像中不仅仅包含行人的轮廓,还有背景和其他干扰物的轮廓信息,这需要一定的去除干扰信息的处理。为了解决这个问题,我们利用热红外行人数据集的标注框确定行人区域,抑制所有非行人区域的表达,得到仅包含行人边缘的掩模图像。为了使得行人的边缘线条更加流畅,我们使用膨胀和腐蚀操作对其进行平滑连接,最终得到了完整的行人边缘掩模图像,将其与热红外图像同时输入到行人检测器中,提升了输入的有效信息量,也提升了模型对于热红外图像中行人特征的学习能力。
2.基于标签与图像对比学习的预训练机制
模型的主干网络对于学习和提取图像中的有效信息至关重要,为了提升其对于行人特征的学习能力,可以在可见光域对主干网络进行分类任务的训练,使其先学习到一定的图像特征,然而这不仅需要大量的可见光图像,同时也会使主干网络学习到不必要的冗余信息。
为了解决这一问题,我们使用热红外行人图像和对应的行人标签对主干网络进行对比学习预训练,帮助主干网络学习到行人的像素特征和标签之间的联系,提升主干网络对行人特征的敏感度。该方法的具体流程如下:
(1)读取一个包含N个标签-图像对的训练块,将N个标签和N个图像特征两两组合, 组成
Figure 388944DEST_PATH_IMAGE001
个标签-图像对,其中含有 N 正样本对,
Figure 983480DEST_PATH_IMAGE002
个负样本对;
(2)使用CLIP模型预测出
Figure 787488DEST_PATH_IMAGE001
个可能的文本-图像对的余弦相似度;
(3)最大化N个正样本的相似度,同时最小化
Figure 250830DEST_PATH_IMAGE002
个负样本的相似度,从而建立 热红外行人图像和标签之间的联系。
3. 模型架构
(1)行人边缘特征提取模块
为了能够更好地提取行人边缘掩模图像中的有效信息,本发明设计了行人边缘特征提取模块。由于边缘图像仅包含热红外图像中梯度变化剧烈的边缘信息,信息量比较少,同时考虑到模型训练速度,本发明设计了如图3所示的行人边缘特征提取模块。
该模块包含五个阶段,每个阶段的输出特征图分别为E1、E2、E3、E4和E5,通道数分别为64、128、256、512和1024,尺寸分别为原始输入图像的1/2、1/4、1/8、1/16和 1/32。如附图3示,该模块的每个阶段都包含两个深度可分离卷积层,每个深度可分离卷积层包括一个输入通道与输出通道数相同的3*3卷积,一个输入通道与输出通道数不同的1*1卷积,两个卷积后面都有批量归一化(BN)操作,第一个卷积后还有ReLU激活操作。此外,为了防止特征消失,在每个阶段的第二个深度可分离卷积层使用残差连接。如公式1所示,输入特征图Ei经过上述顺序的操作后,得到输出特征图Ej。
Ej = ReLU(BN(Conv(Ei)))+ ReLU(BN(Conv(ReLU(BN(Conv(Ei)))))) 公式1;
其中的Conv表示卷积层,BN表示归一化,ReLU为激活函数。
(2)特征融合模块
为了能够更好地利用边缘特征和热红外特征的优势进行互补,本发明设计了如图4所示的特征融合模块。该模块基于残差注意力机制,能够有效利用边缘特征引导热红外特征选择并突出有效边缘信息。
该模块包含一系列操作,第一步,将主干网络最后一个阶段输出的热红外特征图T5 和行人边缘特征提取网络最后一个阶段输出的边缘特征图 E5 进行逐元素相乘,得到一个尺寸不变的特征图;第二步,对将第一步中得到的尺寸不变的特征图引入全局平均池化操作,得到第一结果;第三步,将第二步中的第一结果与热红外特征图 T5 相乘,得到第二结果;第四步,使用残差连接的方式将第三步中的第二结果与原始热红外特征图 T5 相加,得到第三结果;最后,将第三结果再经过一个不改变尺寸和通道数的1*1 卷积层、归一化和激活函数进行融合,最终得到特征融合模块的输出特征图。如公式2所示,输入特征图E5和T5经过上述操作后,得到输出特征图T5E,T5E的通道数为1024,尺寸为原始输入图像的1/32。
T5E = ReLU(BN(Conv(T5+T5*GAP(T5*E5)))) 公式2
(3)有监督的边缘重构任务
为了充分利用行人边缘掩模图像中的边缘信息,我们设计添加了有监督边缘重构任务,为模型增加了一个重构输出分支,与原有的分类和定位分支并行。重构分支接收特征处理模块的输出作为输入特征图,输出预测的行人边缘重构图像。我们使用生成的行人边缘掩模图像E0作为约束,对边缘重构图像的重构效果进行评价,根据评价的结果更新辅助网络的权重,以此推动模型深入学习行人边缘信息。
该任务流程如下:
1);首先将热红外图像送入主干网络进行特征提取,其输出热红外特征图为T5
2)将行人边缘掩模图像送入行人边缘特征提取模块进行特征提取,得到输出边缘特征图E5;
3)将步骤a的输出热红外特征图T5和步骤b的输出边缘特征图E5送入特征融合模块进行特征融合,将融合完毕后的特征图送入重构模块进行边缘重构,得到边缘重构图像Epred
4)将步骤c得到的边缘重构图像Epred与行人边缘掩模图像E0做对比损失,得到损失值;
5)根据损失值更新辅助网络各模块的权重,包括行人边缘特征提取模块、特征融合模块和重构模块。
(4)损失函数
在训练过程中,模型同时完成两个有监督训练任务,因此存在两个损失函数分别对应热红外行人检测任务和边缘重构任务。
第一个损失函数即主检测网络自身的检测损失,使用Lthermal表示,其具体实现形式由具体的主检测网络模型决定。
第二个损失函数即重构损失函数。为了更好地促进模型学习边缘图像的特征,本 发明引入了结构相似性(SSIM)和均方误差(MSE)的加权和作为损失函数。结构相似性是一 个衡量重构图像和原图像的相似性的指标,它从三个角度对两个图像进行比较:亮度,对比 度和结构。同时添加了均方误差来补充结构相似性,使得损失函数能够更加适合边缘重构 任务。如公式3所示,设置结构相似性和均方误差的权重分别为
Figure 798486DEST_PATH_IMAGE015
Figure 437409DEST_PATH_IMAGE016
Figure 412318DEST_PATH_IMAGE017
公式3
4. 基于冻结主干的训练机制和关闭辅助通道的测试机制:
为了更好更快地推进双任务模型的收敛,我们设计冻结已经预训练完毕的主干网络,只在输入空间中引入少量辅助训练的参数,训练时仅更新其它模块的权重,以此实现快速高效地训练,该训练方式如下所示:
(1)
Figure 97377DEST_PATH_IMAGE003
表示第i层的输出特征图,y表示模型的输出结果:
Figure 448724DEST_PATH_IMAGE004
公式4
Figure 676574DEST_PATH_IMAGE005
公式5
(2)对主干网络的每一层都插入一个 d 维的向量
Figure 87964DEST_PATH_IMAGE006
作为附加参数,构成集合P:
Figure 991811DEST_PATH_IMAGE007
公式6
(3)训练时,冻结主干网络的权重,仅更新附加参数集合 P:
Figure 350111DEST_PATH_IMAGE008
公式7
Figure 229205DEST_PATH_IMAGE005
公式8
在公式4中,
Figure 14758DEST_PATH_IMAGE009
的含义是:Layer代表主干网络的某一层,用下标i区分,i的 取值范围为1~5;x表示特征图,第i个layer的输入是第i-1个layer的输出特征图x,下标为 i-1;
在公式5中,
Figure 143251DEST_PATH_IMAGE010
的含义是:检测头,能够输出最终结果;
在公式6中,
Figure 836401DEST_PATH_IMAGE006
的含义是:P是一个向量,在主干网络的每一层中插入一个p,用i做 下标区分不同的层;
Figure 570002DEST_PATH_IMAGE011
的含义是:R表示实数,上标d表示维度是d维,即p是一个实数域中的 d维向量;
Figure 884046DEST_PATH_IMAGE012
表示自然数;N表示主干网络最大级数,例如为5;
在公式7中,
Figure 765415DEST_PATH_IMAGE013
的含义是:将
Figure 465517DEST_PATH_IMAGE014
Figure 926061DEST_PATH_IMAGE006
同时输入第i个layer中,得到输 出特征图x。
为了更好地面向应用场景和市场需求,降低落地任务对于移动设备的存储容量和计算能力的需求,本方法在测试(实际应用)中,关闭辅助网络通道,仅使用热红外图像完成行人检测任务。
本发明在利用热红外数据进行训练时,不需要使用配对的“可见光+热红外”数据,仅使用热红外数据。在测试(实际应用)中,模型为单一分支架构,仅使用热红外图像即可完成热红外检测任务。
本发明的潜在应用场景包括自动驾驶、智能安防、军事等领域。应用方式为将算法及模型部署到计算设备并对输入的热红外图像中的指定目标进行检测。
本发明的有益效果如下:
1. 通过引入边缘信息,引导模型深入挖掘热红外图像中的边缘特征。
2. 通过引入主干网络预训练方法,提升主干网络的特征提取和学习能力。
3. 通过设计全新的算法架构,提升热红外行人检测性能。
4. 通过引入针对性训练流程,避免使用额外任务和额外数据,提升模型有效信息量,不影响实际运行速度。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于边缘重构的热红外行人检测方法,其特征在于,包括如下步骤:
数据预处理步骤:获取热红外图像对应的边缘图像,抑制其背景表达,获取行人边缘掩模图像,平滑行人边缘,获得更完整和更精准的行人边缘轮廓;
主干网络预训练步骤:使用行人标签对主干网络进行对比学习预训练,使得主干网络能够学习到行人的标签和图像之间存在的关系,提升主干网络对行人特征的学习和分类能力;
模型训练步骤:
同时输入热红外行人图像和行人边缘掩模图像,分别提取两种图像的特征信息,在特征融合模块进行信息交互,经过特征处理模块进一步处理后,送入分类、定位和重构头中进行行人检测和边缘重构;
预测步骤:仅使用热红外行人图像,不使用行人边缘掩模图像,关闭辅助网络通道,实现完全位于热红外域的行人检测;
在所述模型训练步骤中,所述特征融合模块执行如下步骤:
第一步:将主干网络最后一个阶段输出的热红外特征图 T5 和行人边缘特征提取网络最后一个阶段输出的边缘特征图 E5 进行逐元素相乘,得到一个尺寸不变的特征图;
第二步:对第一步中得到的尺寸不变的特征图引入全局平均池化操作,得到第一结果;
第三步:将第二步中的第一结果与热红外特征图 T5 相乘,得到第二结果;
第四步:使用残差连接的方式将第三步中的第二结果与原始热红外特征图 T5 相加,得到第三结果;
第五步:将第三结果再经过一个不改变尺寸和通道数的1*1 卷积层、归一化和激活函数进行融合,最终得到特征融合模块的输出特征图。
2.根据权利要求1所述的热红外行人检测方法,其特征在于,在数据预处理步骤中,获取行人边缘掩模图像的技术方案是:使用边缘提取算法生成热红外图像对应的边缘图像,将其与热红外图像同时输入模型;利用热红外行人数据集的标注框确定行人区域,抑制所有非行人区域的表达,得到仅包含行人边缘的掩模图像;将行人边缘掩模图像与热红外图像同时输入到行人检测器中。
3.根据权利要求2所述的热红外行人检测方法,其特征在于,在所述数据预处理步骤中,使用膨胀和腐蚀操作平滑行人边缘掩模图像。
4.根据权利要求1所述的热红外行人检测方法,其特征在于,所述模型训练步骤包括冻结主干网络的训练步骤,在冻结主干网络的训练步骤中,冻结预训练的主干网络,为主干网络的每层注入一组可学习的附加参数,在训练过程中仅更新附加参数和除了主干网络以外的其他模块。
5.根据权利要求1所述的热红外行人检测方法,其特征在于,所述主干网络预训练步骤包括:
步骤1:读取一个包含N个标签-图像对的训练块,将N个标签和N个图像特征两两组合,组成
Figure DEST_PATH_IMAGE002
个标签-图像对,其中含有 N 正样本对,
Figure DEST_PATH_IMAGE004
个负样本对;
步骤2:使用CLIP模型预测出
Figure 161694DEST_PATH_IMAGE002
个可能的标签-图像对的余弦相似度;
步骤3:最大化N个正样本的相似度,同时最小化
Figure 16517DEST_PATH_IMAGE004
个负样本的相似度,从而建立热红外行人图像和标签之间的联系。
6.根据权利要求1所述的热红外行人检测方法,其特征在于,在所述模型训练步骤中,行人边缘特征提取模块包含五个阶段,每个阶段的输出特征图分别为E1、E2、E3、E4和E5,通道数分别为64、128、256、512和1024,尺寸分别为原始输入图像的1/2、1/4、1/8、1/16和 1/32;行人边缘特征提取模块的每个阶段都包含两个深度可分离卷积层,每个深度可分离卷积层包括一个输入通道与输出通道数相同的3*3卷积,一个输入通道与输出通道数不同的1*1卷积,两个卷积后面都有批量归一化操作,第一个卷积后还有ReLU激活操作;在每个阶段的第二个深度可分离卷积层使用残差连接;如公式1所示,输入特征图Ei经过上述顺序的操作后,得到输出特征图Ej,
Ej = ReLU(BN(Conv(Ei)))+ ReLU(BN(Conv(ReLU(BN(Conv(Ei)))))) 公式1;
其中的Conv表示卷积层,BN表示归一化,ReLU为激活函数。
7.根据权利要求1所述的热红外行人检测方法,其特征在于,所述模型训练步骤包括有监督的边缘重构任务,所述边缘重构任务包括如下步骤:
步骤a:首先将热红外图像送入主干网络进行特征提取,其输出热红外特征图为T5;
步骤b:将行人边缘掩模图像送入行人边缘特征提取模块进行特征提取,得到输出边缘特征图E5;
步骤c:将步骤a的输出热红外特征图T5和步骤b的输出边缘特征图E5送入特征融合模块进行特征融合,将融合完毕后的特征图送入重构模块进行边缘重构,得到边缘重构图像Epred
步骤d:将步骤c得到的边缘重构图像Epred与行人边缘掩模图像E0做对比损失,得到损失值;
步骤e:根据步骤d得到的损失值更新辅助网络各模块的权重,各模块包括行人边缘特征提取模块、特征融合模块和重构模块。
8.根据权利要求4所述的热红外行人检测方法,其特征在于,所述冻结主干网络的训练步骤包括:
步骤A:
Figure DEST_PATH_IMAGE006
表示第i层的输出特征图,y表示模型的输出结果:
Figure DEST_PATH_IMAGE008
公式4
Figure DEST_PATH_IMAGE010
公式5
步骤B:对主干网络的每一层都插入一个 d 维的向量
Figure DEST_PATH_IMAGE012
作为附加参数,构成集合P:
Figure DEST_PATH_IMAGE014
公式6
步骤C:训练时,冻结主干网络的权重,仅更新附加参数集合 P:
Figure DEST_PATH_IMAGE016
公式7
Figure 422353DEST_PATH_IMAGE010
公式8
在公式4中,
Figure DEST_PATH_IMAGE018
的含义是:Layer代表主干网络的某一层,用下标i区分,i的取值范围为1~5;x表示特征图,第i个layer的输入是第i-1个layer的输出特征图x,下标为i-1;
在公式5中,
Figure DEST_PATH_IMAGE020
的含义是:检测头,能够输出最终结果;
在公式6中,
Figure 474072DEST_PATH_IMAGE012
的含义是:P是一个向量,在主干网络的每一层中插入一个p,用i做下标区分不同的层;
Figure DEST_PATH_IMAGE022
的含义是:R表示实数,上标d表示维度是d维,即p是一个实数域中的d维向量;
Figure DEST_PATH_IMAGE024
表示自然数;N表示主干网络最大级数;
在公式7中,
Figure DEST_PATH_IMAGE026
的含义是:将
Figure DEST_PATH_IMAGE028
Figure 318138DEST_PATH_IMAGE012
同时输入第i个layer中,得到输出特征图
Figure 425421DEST_PATH_IMAGE006
9.一种基于边缘重构的热红外行人检测系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述热红外行人检测方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的热红外行人检测方法的步骤。
CN202211171768.6A 2022-09-26 2022-09-26 基于边缘重构的热红外行人检测方法、系统及存储介质 Active CN115273154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211171768.6A CN115273154B (zh) 2022-09-26 2022-09-26 基于边缘重构的热红外行人检测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211171768.6A CN115273154B (zh) 2022-09-26 2022-09-26 基于边缘重构的热红外行人检测方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115273154A CN115273154A (zh) 2022-11-01
CN115273154B true CN115273154B (zh) 2023-01-17

Family

ID=83756322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211171768.6A Active CN115273154B (zh) 2022-09-26 2022-09-26 基于边缘重构的热红外行人检测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115273154B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036923B (zh) * 2023-10-08 2023-12-08 广东海洋大学 一种基于机器视觉的水下机器人目标检测方法
CN117523428B (zh) * 2023-11-08 2024-03-29 中国人民解放军军事科学院系统工程研究院 基于飞行器平台的地面目标检测方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711366A (zh) * 2018-12-29 2019-05-03 浙江大学 一种基于群组信息损失函数的行人重识别方法
CN110443822A (zh) * 2019-07-16 2019-11-12 浙江工业大学 一种语义边缘辅助的高分遥感目标精细提取方法
CN111401339A (zh) * 2020-06-01 2020-07-10 北京金山云网络技术有限公司 识别人脸图像中的人的年龄的方法、装置及电子设备
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
WO2021097442A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Guided training of machine learning models with convolution layer feature data fusion
CN112926667A (zh) * 2021-03-05 2021-06-08 中南民族大学 深度融合边缘与高层特征的显著性目标检测方法及装置
WO2022022368A1 (zh) * 2020-07-28 2022-02-03 宁波环视信息科技有限公司 基于深度学习的监所行为规范检测装置及方法
CN114140480A (zh) * 2021-12-09 2022-03-04 安徽大学 基于边缘辅助学习的热红外电气设备图像语义分割方法
CN114332491A (zh) * 2021-12-03 2022-04-12 安徽理工大学 一种基于特征重构的显著性目标检测算法
CN114708617A (zh) * 2022-04-21 2022-07-05 长沙海信智能系统研究院有限公司 行人重识别方法、装置及电子设备
CN114782882A (zh) * 2022-06-23 2022-07-22 杭州电子科技大学 基于多模态特征融合的视频目标行为异常检测方法和系统
CN114973031A (zh) * 2022-05-25 2022-08-30 武汉大学 一种无人机视角下的可见光-热红外图像目标检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392201B (zh) * 2014-09-28 2017-05-31 燕山大学 一种基于全向视觉的人体跌倒识别方法
CN105825198A (zh) * 2016-03-29 2016-08-03 深圳市佳信捷技术股份有限公司 行人检测方法及装置
US10628705B2 (en) * 2018-03-29 2020-04-21 Qualcomm Incorporated Combining convolution and deconvolution for object detection
CN110660088B (zh) * 2018-06-30 2023-08-22 华为技术有限公司 一种图像处理的方法和设备
WO2020102988A1 (zh) * 2018-11-20 2020-05-28 西安电子科技大学 基于特征融合和稠密连接的红外面目标检测方法
CN112307826A (zh) * 2019-07-30 2021-02-02 华为技术有限公司 行人检测方法、装置、计算机可读存储介质和芯片
CN110705448B (zh) * 2019-09-27 2023-01-20 北京市商汤科技开发有限公司 一种人体检测方法及装置
CN111340766B (zh) * 2020-02-21 2024-06-11 北京市商汤科技开发有限公司 目标对象的检测方法、装置、设备和存储介质
US11361449B2 (en) * 2020-05-06 2022-06-14 Luminar, Llc Neural network for object detection and tracking
CN112733749B (zh) * 2021-01-14 2022-04-12 青岛科技大学 融合注意力机制的实时行人检测方法
CN112926551A (zh) * 2021-04-21 2021-06-08 北京京东乾石科技有限公司 目标检测方法、装置、电子设备和存储介质
CN114627052A (zh) * 2022-02-08 2022-06-14 南京邮电大学 一种基于深度学习的红外图像漏气漏液检测方法及系统
CN114972748B (zh) * 2022-04-28 2024-05-28 北京航空航天大学 一种可解释边缘注意力和灰度量化网络的红外语义分割方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711366A (zh) * 2018-12-29 2019-05-03 浙江大学 一种基于群组信息损失函数的行人重识别方法
CN110443822A (zh) * 2019-07-16 2019-11-12 浙江工业大学 一种语义边缘辅助的高分遥感目标精细提取方法
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
WO2021097442A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Guided training of machine learning models with convolution layer feature data fusion
CN111401339A (zh) * 2020-06-01 2020-07-10 北京金山云网络技术有限公司 识别人脸图像中的人的年龄的方法、装置及电子设备
WO2022022368A1 (zh) * 2020-07-28 2022-02-03 宁波环视信息科技有限公司 基于深度学习的监所行为规范检测装置及方法
CN112926667A (zh) * 2021-03-05 2021-06-08 中南民族大学 深度融合边缘与高层特征的显著性目标检测方法及装置
CN114332491A (zh) * 2021-12-03 2022-04-12 安徽理工大学 一种基于特征重构的显著性目标检测算法
CN114140480A (zh) * 2021-12-09 2022-03-04 安徽大学 基于边缘辅助学习的热红外电气设备图像语义分割方法
CN114708617A (zh) * 2022-04-21 2022-07-05 长沙海信智能系统研究院有限公司 行人重识别方法、装置及电子设备
CN114973031A (zh) * 2022-05-25 2022-08-30 武汉大学 一种无人机视角下的可见光-热红外图像目标检测方法
CN114782882A (zh) * 2022-06-23 2022-07-22 杭州电子科技大学 基于多模态特征融合的视频目标行为异常检测方法和系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"DCFF-Net:A Densely Connected Feature Fusion Network for change detection in High-Resolution Remote Sensing Image";Pan F等;《IEEE Journal of selected topics in Applied Earth observations and remote sensing》;20211119;第11974-11985页 *
"One-stage Deep edge Detection Based on Dense-Scale Feature Fusion and Pixel-Level Imbalance Learning";D Dai等;《arXiv》;20210331;第1-15页 *
"Self-supervised Tracking via target-aware data synthesis";Xin Li等;《arXiv》;20211202;第1-11页 *
"基于深度学习的无人机航拍目标检测研究综述";江波等;《航空学报》;20210425;第42卷(第4期);第1-15页 *
"改进的SSD算法及其在目标检测中的应用";张震等;《计算机应用与软件》;20210930;第38卷(第9期);第226-231页 *
"结合边缘轮廓和姿态特征的人体精确解析模型";甘霖等;《计算机辅助设计与图形学学报》;20210930;第33卷(第9期);第1428-1439页 *

Also Published As

Publication number Publication date
CN115273154A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN110443818B (zh) 一种基于涂鸦的弱监督语义分割方法与系统
CN115273154B (zh) 基于边缘重构的热红外行人检测方法、系统及存储介质
CN111696094B (zh) 免疫组化pd-l1膜染色病理切片图像处理方法、装置和设备
CN112529065B (zh) 一种基于特征对齐和关键点辅助激励的目标检测方法
CN112529005B (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
Shu et al. MTCNet: Multitask consistency network with single temporal supervision for semi-supervised building change detection
CN113469099B (zh) 目标检测模型的训练方法、检测方法、装置、设备及介质
CN112200193B (zh) 基于多属性融合的分布式车牌识别方法、系统、装置
CN114821152B (zh) 基于前景-类别感知对齐的域自适应目标检测方法及系统
Li et al. Robust deep neural networks for road extraction from remote sensing images
CN116403213A (zh) 基于人工智能的循环肿瘤细胞检测仪及其方法
Li et al. Gated auxiliary edge detection task for road extraction with weight-balanced loss
US11948078B2 (en) Joint representation learning from images and text
CN116452818A (zh) 一种基于特征增强的小样本遥感图像目标检测方法
CN116861262B (zh) 一种感知模型训练方法、装置及电子设备和存储介质
Li et al. Progressive attention-based feature recovery with scribble supervision for saliency detection in optical remote sensing image
CN115147727A (zh) 一种遥感影像不透水面提取方法及系统
Toaha et al. Automatic signboard detection and localization in densely populated developing cities
Fu et al. Foreground gated network for surveillance object detection
Yang Continuous epoch distance integration for unsupervised person Re-identification
CN114444597B (zh) 基于渐进式融合网络的视觉跟踪方法及装置
CN116778277B (zh) 基于渐进式信息解耦的跨域模型训练方法
CN114882449B (zh) 一种基于Car-Det网络模型的车辆检测方法及装置
Xu et al. Meta-transfer learning for person re-identification in aerial imagery
Luo et al. Improved Infrared Road Object Detection Algorithm Based on Attention Mechanism in YOLOv8.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant