CN113902965A - 一种基于多层特征融合的多光谱行人检测方法 - Google Patents

一种基于多层特征融合的多光谱行人检测方法 Download PDF

Info

Publication number
CN113902965A
CN113902965A CN202111168693.1A CN202111168693A CN113902965A CN 113902965 A CN113902965 A CN 113902965A CN 202111168693 A CN202111168693 A CN 202111168693A CN 113902965 A CN113902965 A CN 113902965A
Authority
CN
China
Prior art keywords
feature
image
model
layer
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111168693.1A
Other languages
English (en)
Inventor
罗萍
王涛
吕霞付
彭云奉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111168693.1A priority Critical patent/CN113902965A/zh
Publication of CN113902965A publication Critical patent/CN113902965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多层特征融合的多光谱行人检测方法,属于目标检测领域,S1:对数据集进行预处理,划分为训练集和测试集,并扩充训练图像;S2:采用卷积神经网络构建多层特征融合的特征提取模型,采用通道注意力机制对可见光与红外特征进行多层特征融合,根据多层融合特征构建特征金字塔;S3:引用自适应融合机制对待检测特征层的特征图尺度进行调整,通过多尺度检测获得行人边界框;S4:通过非极大值抑制算法进行筛选,去除置信度较低的边界框并输出最终的检测结果。本发明能够提取到更多细节信息,检测性能得以进一步提升,模型在全天候场景下行人检测的准确率得到大幅度提升。

Description

一种基于多层特征融合的多光谱行人检测方法
技术领域
本发明属于目标检测领域,涉及一种基于多层特征融合的多光谱行人检测方法。
背景技术
现阶段,依据特征提取方式不同可将行人检测方法划分为两类:第一类为基于传统手工特征提取的检测方法,此类方法是采用预先设定的特征提取算子获得待检测物体的特征信息;第二类为基于深度学习的检测方法,此类方法是通过自学习的方式获取待检测物体的目标信息。
基于传统手工特征提取的检测方法:首先,使用滤波器获得待检测图像中目标物体的关键点信息;然后,计算每个关键点与其相邻像素间的梯度值并由此生成统计直方图;最后,使用支持向量机(SVM)或Adaboost等分类器对待检测目标进行特征分类从而获得图像中的行人信息。此类方法能够较快的捕获图像中待检测目标的局部特征进而获取其外观和形状的特征描述,其优点在于计算量较低、计算较为简单且具有较好的检测准确率,但该方法对于全天候场景尤其是夜间场景下的行人检测效果不佳并且准确率远不能满足现实要求。全天候场景尤其是夜间场景受光照变化的影响非常严重,行人的部分身体特征甚至全部身体特征可能会因场景过于昏暗而无法识别,而传统方法检测的关键主要就是对行人外观和形状的描述,这导致此类方法在该场景下的检测准确性大幅度下降。
基于深度学习的检测方法:随着计算机视觉的飞速发展,以卷积神经网络为代表的深度学习方法在行人检测任务中表现出强大的检测性能并逐渐取代了传统的手工方法,成为了现阶段行人检测的主流方法。其中,以R-CNN系列为主的两阶段模型和以YOLOv系列为主的一阶段模型以及它们的大量改进版本都被广泛应用于行人检测。得益于卷积神经网络优秀的特征描述能力,此类方法在行人检测准确性上达到了相当高的水平且检测速度也得到进一步优化,但针对全天候场景尤其是夜间场景行人检测准确性大幅度降低的问题仍然还需进一步解决。
部分方法选择红外图像作为模型的输入以改变夜间场景模型因光照影响而无法识别待检测行人的缺陷;然而,红外图像对目标边缘信息描述模糊使得模型无法获取足够的细节特征,最终导致模型在白天场景下的检测精度相比于可见光图像作为模型输入时有所降低。近年来,部分研究者采用像素级或特征级的融合方式将可见光图像和红外图像融合以进行全天候场景下的行人检测。对于像素级的融合方式,将可见光图像转换到HSV或HSL等颜色空间,并将亮度分量图与红外图像进行逐像素加权平均操作从而构建一幅新的亮度分量图;然后将三个分量结合转换回RGB颜色空间;最后将RGB图像作为模型的输入进行检测。该方法虽然一定程度上提升了全天候行人检测的准确率,但融合后图像的质量降低、图像会出现部分失真,最终导致模型的检测准确率没有得到较大的提升。对于特征级的融合方式,部分模型选择将特征提取获得的高层或者低层红外特征与可见光特征进行特征融合并采用融合特征进行最终的检测,此类方法在全天候场景下模型的检测准确率相比于像素级融合方式有较大的提升,但其在对可见光图像与红外图像进行同尺度特征融合时部分细节信息会产生混乱甚至丢失,且模型仍未充分考虑低层特征对小尺度目标的激活程度高而高层特征对目标的语义信息更加敏感等相关特性。
发明内容
有鉴于此,为提升模型在全天候场景尤其是夜间场景下的特征融合效率与行人检测性能,本发明提供一种基于多层特征融合的多光谱行人检测方法。为提升模型的特征融合效率,该方法采用通道注意力机制将特征提取获得的可见光图像特征层与红外图像检测的特征层进行多层特征融合,并根据融合特征层构建特征金字塔以提升模型对有效信息的特征提取能力。另外,为降低模型多尺度检测时产生的尺度冲突,引入自适应特征融合机制对多个待检测特征层的特征图尺度进行调整。
为达到上述目的,本发明提供如下技术方案:
一种基于多层特征融合的多光谱行人检测方法,包括以下步骤:
S1:对数据集进行预处理,划分为训练集和测试集,并扩充训练图像;
S2:采用卷积神经网络构建多层特征融合的特征提取模型,采用通道注意力机制对可见光与红外特征进行多层特征融合,根据多层融合特征构建特征金字塔;
S3:引用自适应融合机制对待检测特征层的特征图尺度进行调整,通过多尺度检测获得行人边界框;
S4:通过非极大值抑制算法进行筛选,去除置信度较低的边界框并输出最终的检测结果。
进一步,步骤S1具体包括以下步骤:
S11:将数据集分类为训练集和测试集,并划分为全天候场景、白天场景和夜间场景三个部分;
S12:对训练图像进行随机比例的缩放,若图像尺寸小于预设尺寸则使用灰度像素点进行填充,若其尺寸大于预设尺寸则对边缘进行裁剪,同时对边界框标签进行位置修正;
S13:对训练图像进行随机的水平翻转,同时修正边界框坐标,扩充训练图像;
S14:将可见光图像从RGB颜色空间转换至HSV或SHL颜色空间后对图像的亮度分量进行随机调整,然后将三个分量结合并转换回RGB颜色空间;
S15:根据标签信息计算获得中心点坐标(x,y),使用二维高斯函数G(·)依据边界框宽和高的标准差{σwh}生成中心点掩膜M
Figure BDA0003290296220000031
其中,M(i,j)表示中心点掩膜,(i,j)表示像素坐标点,(x,y)表示目标中心点坐标,xk和yk分别表示第k个目标序列的中心点坐标,σw和σh分别表示目标边界框宽和高的标准差。
进一步,所述步骤S2具体包括以下步骤:
S21:使用模型的主干网络对预处理后的可见光图像与红外图像进行特征提取,分别获得三层具有不同分辨率的特征图{xv1,xv2,xv3}和{xi1,xi2,xi3};
S22:采用通道注意力机制对特征提取获得的可见光图像特征图{xv1,xv2,xv3}与红外图像特征图{xi1,xi2,xi3}进行同尺度间的特征融合从而获得三层融合特征图{xvi1,xvi2,xvi3};
S23:根据融合特征图{xvi1,xvi2,xvi3}构建特征金字塔网络,特征金字塔网络输出三层特征图{yvi1,yvi2,yvi3}。
进一步,在所述步骤S22中,特征表示如下:
Figure BDA0003290296220000032
Figure BDA0003290296220000033
其中,F'表示注意力机制的输出特征,Ωchn表示特征通道注意力向量,F表示注意力机制的输入特征,σ表示Sigmoid函数操作,MLP(avgpool(F))表示对输入特征进行平均池化操作,MLP(max pool(F))表示对输入特征进行最大池化操作,
Figure BDA0003290296220000034
Figure BDA0003290296220000035
表示分别两个全连接层参数,δ表示ReLU函数,
Figure BDA0003290296220000036
Figure BDA0003290296220000037
表示平均池化和最大池化的特征通道描述符。F′vi表示经过注意力机制处理后获得的红外与可见光加权融合特征,ρ1和ρ2分别表示可见光特征和红外特征的权重参数,Ωchn_v和Ωchn_i分别表示可见光特征通道注意力向量和红外特征通道注意力向量,Fv和Fi分别表示可见光图像特征和红外图像特征,F′v和F′i分别表示经过注意力机制处理后获得的可见光图像特征和红外图像特征。
进一步,所述步骤S3具体包括以下步骤:
S31:引用自适应特征融合机制对特征金字塔的三层输出特征图{yvi1,yvi2,yvi3}进行尺度调整,获得尺度调整后的三个检测特征层{y'vi1,y'vi2,y'vi3};
S32:采用三个检测特征层{y'vi1,y'vi2,y'vi3}对图像进行进行多尺度行人检测,对模型检测出的行人生成检测边界框B={x1,y1,x2,y2},其中{x1,y1}表示边界框的左上角点,{x2,y2}表示边界框的右下角点。
进一步,在所述步骤S31中,尺度调整计算公式为:
Figure BDA0003290296220000041
其中,y'vi_l表示重新进行尺度调整后的第l层检测特征,
Figure BDA0003290296220000042
Figure BDA0003290296220000043
分别表示将
Figure BDA0003290296220000044
Figure BDA0003290296220000045
特征层重新调整到第l层特征,αl、βl和γl分别表示将
Figure BDA0003290296220000046
Figure BDA0003290296220000047
特征层重新调整到第l层的权重矩阵,且存在αlll=1和αlll∈[0,1]等约束条件。
进一步,步骤S4具体包括以下步骤:
S41:对于每一个行人检测边界框B={x1,y1,x2,y2},根据预测框和检测边界框的坐标信息计算两者的IoU值;
S42:采用非极大值抑制算法进行筛选,设定模型的置信度阈值,将边界框的IoU值与置信度阈值进行比较,若边界框的IoU值大于置信度阈值,则该边界框被保留;若边界框的IoU值小于置信度阈值,则去除该边界框,最终输出所有保留的边界框。
进一步,本方法包括训练阶段和测试阶段,训练阶段包括特征提取以及模型权重参数的更新;选择经过预处理的图像对所设计模型进行训练,将模型预测得到的各项数据和标签真实值代入模型损失函数进行计算,从而获得各项损失值,同时依据模型总损失使用梯度反向传播算法更新模型的权重参数;当且仅当模型迭代次数达到了预设值后便终止其训练过程并保存所有权重参数;
测试阶段加载训练阶段保存的模型权重作为模型的权重文件,对于输入图像仅使用尺度缩放的方式使图像尺寸符合模型的输入所需;模型在测试阶段不再进行梯度反向传播而是直接输出检测结果并获得最终的边界框信息。
本发明的有益效果在于:本发明充分考虑到可见光图像和红外图像在进行多层特征融合时易造成融合特征部分细节信息混乱或丢失,以及模型进行多尺度检测时产生的尺度冲突对检测准确率的影响等问题。采用通道注意力机制对可见光特征层与红外特征层进行加权融合并根据多个融合特征层构建特征金字塔,增强融合特征图中的细节信息。另外,通过引入自适应融合机制对模型多个待检测层的特征图尺度进行调整,降低模型检测时因尺度冲突造的影响。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明设计的网络模型结构图;
图2为特征通道注意力模块结构图;
图3为本文发明的网络特征层融合示意图;
图4为本发明引用的自适应特征机制尺度对检测特征层的尺度调整示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,本发明提供了一种基于多层特征融合的多光谱行人检测方法,主要分为四部分,第一部分是对数据集进行预处理,同时采用缩放、旋转和水平翻转等方式扩充训练图像;第二部分是采用卷积神经网络构建多层特征融合的特征提取模块,采用通道注意力机制对可见光与红外特征进行多层特征融合以及根据多层融合特征构建特征金字塔;第三部分是引入自适应融合机制对待检测特征层的特征图尺度进行调整并通过多尺度检测获得行人边界框;第四部分是通过非极大值抑制算法进行筛选,去除置信度较低的边界框并输出最终的检测结果。
本发明提供的一种基于多层特征融合的多光谱行人检测方法的网络模型结构如图1所示,具体包括以下步骤:
1.数据集预处理
1)将数据集分类为训练集和测试集,并进一步划分为全天候场景、白天场景和夜间场景三个部分,便于模型对三个场景进行测试和对比验证。
2)根据数据集中自带的矩形边界框标签,计算获得待检测目标的中心坐标(x,y),并使用高斯函数G(·)依据边界框宽和高的标准差{σwh}生成中心掩膜M。
Figure BDA0003290296220000061
3)采用缩放、旋转和水平翻转等方式扩充训练图像,提升模型对融合特征提取的有效性。
2.行人特征融合
1)本发明采用的通道注意力模块结构如图2所示,本发明设计的可见光与红外特征融合结构如图3所示。使用主干网络对预处理后的可见光与红外图像进行特征提取,选取三张具有不同分辨率的特征图{xv1,xv2,xv3}和{xi1,xi2,xi3},采用通道注意力机制对特征图进行操作,其特征表示如公式2所示;采用图3所示的特征融合方式将可见光与红外图像对应的同分辨率特征图进行特征融合,从而获得三张具有不同分辨率的融合特征图{xvi1,xvi2,xvi3},其特征表示如公式3所示。
Figure BDA0003290296220000071
Figure BDA0003290296220000072
2)采用三张不同分辨率的融合特征图{xvi1,xvi2,xvi3}构建融合特征的特征金字塔,并根据特征金字塔的输出获得三张金字塔输出特征图{yvi1,yvi2,yvi3}。
3.检测特征层尺度调整与多尺度检测
本发明引用的自适应特征融合机制对待检测特征层的特征图进行尺度调整的原理如图4所示。采用自适应特征融合机制对特征金字塔的输出特征层{yvi1,yvi2,yvi3}进行尺度调整,获得三个检测特征层{y'vi1,y'vi2,y'vi3},尺度调整计算如公式4所示。
Figure BDA0003290296220000073
采用模型的三个检测特征层{y'vi1,y'vi2,y'vi3}对图像进行多尺度检测并针对检测到的行人生成检测边界框B={x1,y1,x2,y2}。
4.检测结果筛选
使用非极大值抑制算法筛选行人边界框。根据预测框和检测边界框的坐标信息计算两者的IoU值,并将该值与预设的置信度阈值进行比较,若边界框的IoU值高于置信度阈值,则该边界框被保留,而小于置信度阈值的边界框则被舍弃,最终输出所有保留的边界框。
本发明所设计的一种基于多层特征融合的多光谱行人检测方法主要包含训练和测试两个阶段。
1)训练阶段
训练阶段主要包括特征提取以及模型权重参数的更新。选择经过预处理的图像对所设计模型进行训练,将模型预测得到的各项数据和标签真实值代入模型损失函数进行计算,从而获得各项损失值,同时依据模型总损失使用梯度反向传播算法更新模型的权重参数。当且仅当模型迭代次数达到了预设值后便终止其训练过程并保存所有权重参数。
2)测试阶段
测试阶段需加载训练阶段保存的模型权重作为模型的权重文件,对于输入图像仅使用尺度缩放的方式使图像尺寸符合模型的输入所需。模型在测试阶段不再进行梯度反向传播而是直接输出检测结果并获得最终的边界框信息。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于多层特征融合的多光谱行人检测方法,其特征在于:包括以下步骤:
S1:对数据集进行预处理,划分为训练集和测试集,并扩充训练图像;
S2:采用卷积神经网络构建多层特征融合的特征提取模型,采用通道注意力机制对可见光与红外特征进行多层特征融合,根据多层融合特征构建特征金字塔;
S3:引用自适应融合机制对待检测特征层的特征图尺度进行调整,通过多尺度检测获得行人边界框;
S4:通过非极大值抑制算法进行筛选,去除置信度较低的边界框并输出最终的检测结果。
2.根据权利要求1所述的基于多层特征融合的多光谱行人检测方法,其特征在于:步骤S1具体包括以下步骤:
S11:将数据集分类为训练集和测试集,并划分为全天候场景、白天场景和夜间场景三个部分;
S12:对训练图像进行随机比例的缩放,若图像尺寸小于预设尺寸则使用灰度像素点进行填充,若其尺寸大于预设尺寸则对边缘进行裁剪,同时对边界框标签进行位置修正;
S13:对训练图像进行随机的水平翻转,同时修正边界框坐标,扩充训练图像;
S14:将可见光图像从RGB颜色空间转换至HSV或SHL颜色空间后对图像的亮度分量进行随机调整,然后将三个分量结合并转换回RGB颜色空间;
S15:根据标签信息计算获得中心点坐标(x,y),使用二维高斯函数G(·)依据边界框宽和高的标准差{σwh}生成中心点掩膜M
Figure FDA0003290296210000011
其中,M(i,j)表示中心点掩膜,(i,j)表示像素点坐标,(x,y)表示目标中心点坐标,xk和yk分别表示第k个目标序列的中心点坐标,σw和σh分别表示目标边界框宽和高的标准差。
3.根据权利要求1所述的基于多层特征融合的多光谱行人检测方法,其特征在于:所述步骤S2具体包括以下步骤:
S21:使用模型的主干网络对预处理后的可见光图像与红外图像进行特征提取,分别获得三层具有不同分辨率的特征图{xv1,xv2,xv3}和{xi1,xi2,xi3};
S22:采用通道注意力机制对特征提取获得的可见光图像特征图{xv1,xv2,xv3}与红外图像特征图{xi1,xi2,xi3}进行同尺度间的特征融合从而获得三层融合特征图{xvi1,xvi2,xvi3};
S23:根据融合特征图{xvi1,xvi2,xvi3}构建特征金字塔网络,特征金字塔网络输出三层特征图{yvi1,yvi2,yvi3}。
4.根据权利要求3所述的基于多层特征融合的多光谱行人检测方法,其特征在于:在所述步骤S22中,特征表示如下:
Figure FDA0003290296210000021
Figure FDA0003290296210000022
其中,F'表示注意力机制的输出特征,Ωchn表示特征通道注意力向量,F表示注意力机制的输入特征,σ表示Sigmoid函数操作,MLP(avgpool(F))表示对输入特征进行平均池化操作,MLP(max pool(F))表示对输入特征进行最大池化操作,
Figure FDA0003290296210000023
Figure FDA0003290296210000024
表示分别两个全连接层参数,δ表示ReLU函数,
Figure FDA0003290296210000025
Figure FDA0003290296210000026
表示平均池化和最大池化的特征通道描述符;F'vi表示经过注意力机制处理后获得的红外与可见光加权融合特征,ρ1和ρ2分别表示可见光特征和红外特征的权重参数,
Figure FDA0003290296210000027
Figure FDA0003290296210000028
分别表示可见光特征通道注意力向量和红外特征通道注意力向量,Fv和Fi分别表示可见光图像特征和红外图像特征,F'v和Fi'分别表示经过注意力机制处理后获得的可见光图像特征和红外图像特征。
5.根据权利要求1所述的基于多层特征融合的多光谱行人检测方法,其特征在于:所述步骤S3具体包括以下步骤:
S31:引用自适应特征融合机制对特征金字塔的三层输出特征图{yvi1,yvi2,yvi3}进行尺度调整,获得尺度调整后的三个检测特征层{y'vi1,y'vi2,y'vi3};
S32:采用三个检测特征层{y'vi1,y'vi2,y'vi3}对图像进行进行多尺度行人检测,对模型检测出的行人生成检测边界框B={x1,y1,x2,y2},其中{x1,y1}表示边界框的左上角点,{x2,y2}表示边界框的右下角点。
6.根据权利要求5所述的基于多层特征融合的多光谱行人检测方法,其特征在于:在所述步骤S31中,尺度调整计算公式为:
Figure FDA0003290296210000029
其中,y'vi_l表示重新进行尺度调整后的第l层检测特征,
Figure FDA00032902962100000210
Figure FDA00032902962100000211
分别表示将
Figure FDA0003290296210000031
Figure FDA0003290296210000032
特征层重新调整到第l层特征,αl、βl和γl分别表示将
Figure FDA0003290296210000033
Figure FDA0003290296210000034
特征层重新调整到第l层的权重矩阵,且存在αlll=1和αlll∈[0,1]等约束条件。
7.根据权利要求1所述的基于多层特征融合的多光谱行人检测方法,其特征在于:步骤S4具体包括以下步骤:
S41:对于每一个行人检测边界框B={x1,y1,x2,y2},根据预测框和检测边界框的坐标信息计算两者的IoU值;
S42:采用非极大值抑制算法进行筛选,设定模型的置信度阈值,将边界框的IoU值与置信度阈值进行比较,若边界框的IoU值大于置信度阈值,则该边界框被保留;若边界框的IoU值小于置信度阈值,则去除该边界框,最终输出所有保留的边界框。
8.根据权利要求1所述的基于多层特征融合的多光谱行人检测方法,其特征在于:本方法包括训练阶段和测试阶段,训练阶段包括特征提取以及模型权重参数的更新;选择经过预处理的图像对所设计模型进行训练,将模型预测得到的各项数据和标签真实值代入模型损失函数进行计算,从而获得各项损失值,同时依据模型总损失使用梯度反向传播算法更新模型的权重参数;当且仅当模型迭代次数达到了预设值后便终止其训练过程并保存所有权重参数;
测试阶段加载训练阶段保存的模型权重作为模型的权重文件,对于输入图像仅使用尺度缩放的方式使图像尺寸符合模型的输入所需;模型在测试阶段不再进行梯度反向传播而是直接输出检测结果并获得最终的边界框信息。
CN202111168693.1A 2021-09-30 2021-09-30 一种基于多层特征融合的多光谱行人检测方法 Pending CN113902965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111168693.1A CN113902965A (zh) 2021-09-30 2021-09-30 一种基于多层特征融合的多光谱行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111168693.1A CN113902965A (zh) 2021-09-30 2021-09-30 一种基于多层特征融合的多光谱行人检测方法

Publications (1)

Publication Number Publication Date
CN113902965A true CN113902965A (zh) 2022-01-07

Family

ID=79190377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111168693.1A Pending CN113902965A (zh) 2021-09-30 2021-09-30 一种基于多层特征融合的多光谱行人检测方法

Country Status (1)

Country Link
CN (1) CN113902965A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898105A (zh) * 2022-03-04 2022-08-12 武汉理工大学 一种复杂场景下的红外目标检测方法
CN115410147A (zh) * 2022-08-16 2022-11-29 北京航空航天大学 面向全天候的跨模态自适应融合行人目标检测系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898105A (zh) * 2022-03-04 2022-08-12 武汉理工大学 一种复杂场景下的红外目标检测方法
CN114898105B (zh) * 2022-03-04 2024-04-19 武汉理工大学 一种复杂场景下的红外目标检测方法
CN115410147A (zh) * 2022-08-16 2022-11-29 北京航空航天大学 面向全天候的跨模态自适应融合行人目标检测系统及方法

Similar Documents

Publication Publication Date Title
CN108304873B (zh) 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
US11882357B2 (en) Image display method and device
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN108734189A (zh) 浓雾天气下基于大气散射模型和深度学习的车牌识别系统
CN110443763B (zh) 一种基于卷积神经网络的图像阴影去除方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN111539343B (zh) 一种基于卷积注意力网络的黑烟车检测方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN113052170B (zh) 一种无约束场景下的小目标车牌识别方法
CN113902965A (zh) 一种基于多层特征融合的多光谱行人检测方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN107066916A (zh) 基于反卷积神经网络的场景语义分割方法
CN109886086B (zh) 基于hog特征和线性svm级联分类器的行人检测方法
CN110659550A (zh) 交通标志牌识别方法、装置、计算机设备和存储介质
JP5640621B2 (ja) 赤目オブジェクト候補を分類する方法、コンピューター読み取り可能な媒体および画像処理装置
Ap et al. Automatic number plate detection in vehicles using faster R-CNN
CN111126412A (zh) 基于特征金字塔网络的图像关键点检测方法
CN113592911A (zh) 表观增强深度目标跟踪方法
CN110909724A (zh) 一种多目标图像的缩略图生成方法
CN111860679A (zh) 一种基于YOLO v3改进算法的车辆检测方法
CN115019340A (zh) 一种基于深度学习的夜间行人检测算法
Chen et al. Visual depth guided image rain streaks removal via sparse coding
EP4323952A1 (en) Semantically accurate super-resolution generative adversarial networks
CN114550134A (zh) 基于深度学习的交通标志检测与识别方法
CN112347967A (zh) 一种复杂场景下融合运动信息的行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination