CN115620207A - 一种基于注意力机制的红外行人检测方法 - Google Patents

一种基于注意力机制的红外行人检测方法 Download PDF

Info

Publication number
CN115620207A
CN115620207A CN202211394887.8A CN202211394887A CN115620207A CN 115620207 A CN115620207 A CN 115620207A CN 202211394887 A CN202211394887 A CN 202211394887A CN 115620207 A CN115620207 A CN 115620207A
Authority
CN
China
Prior art keywords
convolution
infrared
model
convolution block
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211394887.8A
Other languages
English (en)
Inventor
徐小雨
詹伟达
葛微
郭人仲
曹可亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202211394887.8A priority Critical patent/CN115620207A/zh
Publication of CN115620207A publication Critical patent/CN115620207A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

一种基于注意力机制的红外行人检测方法,属于计算机视觉技术领域,为解决现有的检测方法检测精度较低的问题,步骤1,构建行人检测网络模型:整个网络包括特征提取、特征融合和输出头三部分;步骤2,建立红外行人目标检测数据集;步骤3,训练行人检测网络模型:将步骤1中准备好的融合图像输入到步骤2中构建好的网络模型中进行训练;步骤4,最小化损失函数值;步骤5,微调模型:用公开红外行人检测数据集对模型进行训练和微调,得到稳定可用的模型参数,最终使得模型对融合的效果更好;步骤6,保存最佳模型:将最终确定的模型参数进行固化,之后需要进行红外行人检测操作时,直接将待检测图像输入到网络中即可得到最终的红外行人检测结果。

Description

一种基于注意力机制的红外行人检测方法
技术领域
本发明涉及一种基于注意力机制的红外行人检测方法,属于计算机视觉技术领域。
背景技术
基于红外与可见光融合的行人检测算法已广泛应用于无人驾驶防碰撞系统以及视频跟踪等领域,尤其是无人驾驶中对行人安全性的检测更是备受关注。常用方法的不足之处在于只关注了融合的特征,没有对单模态特征进行关注,导致在单模态特征提取时,单模态分支上没有显式的监督信息,使得单模态提取的特征表征能力弱。同时较弱的表征能力将降低困难样本的识别能力,导致网络受到严重漏检的问题。即现有的行人检测算法,存在红外-可见光融合特征利用率不高和融合特征提取能力差的问题。
针对这两个问题,我们参考红外-可见光图像融合领域、红外行人检测领域的常用方法,设计了一种基于注意力机制的红外行人检测方法,其中引入注意力机制模块作为行人检测的特征提取部分,并使用红外-可见光图像融合方法合并多模态图像信息。
中国专利公开号为“CN114694001A”,名称为“一种基于多模态图像融合的目标检测方法及装置”,该方法使用纯Transformer结构组成目标检测模型,首先通过特征编码模块提取两种全局特征,再由特征融合模块融合上述特征,最后由全连接层构成的预测模块输出目标类别和目标位置。该方法使用的融合模块会造成红外-可见光图像细节信息丢失;同时,由纯Transformer构成的特征提取部分,无法解决夜晚行人的遮挡问题,且存在捕捉局部特征能力不足的问题,导致在行人检测时无法获得更多细节信息,检测精度较低。
发明内容
本发明为了解决现有的检测方法进行行人检测精度较低的问题,提供了一种基于注意力机制的红外行人检测方法,使得红外行人检测精度显著提高,并明显减少行人遮挡导致的误检漏检,在识别任务上能够达到比卷积神经网络CNN模型更好的效果和泛化能力。
本发明解决技术问题的方案是:
一种基于注意力机制的红外行人检测方法,包括如下步骤:
步骤1,构建行人检测网络模型:整个网络包括特征提取、特征融合和输出头三个部分。特征提取部分由卷积块一、注意力模块一、注意力模块二、注意力模块三和注意力模块四组成,其中卷积块一对输入图片进行下采样操作减小特征图大小,注意力模块一、注意力模块二、注意力模块三、注意力模块四采用注意力机制,增加对窗口内图像的关注,依次对图片进行特征提取且结构相同。特征融合部分由上采样层一、上采样层二、下采样层一、下采样层二和下采样层三依次连接组成,融合不同层次的图像特征。输出头部分由输出头一、输出头二和输出头三组成,其中三个输出头结构相同,其结构由卷积块二、卷积块三、卷积块四、卷积块五和卷积块六组成,通过对融合后的图像特征使用卷积层、正则化层和激活函数后得到检测结果;
步骤2,建立红外行人目标检测数据集:由可见光摄像头、红外摄像头实时获取可见光图像和红外图像,并输入到预先训练好的红外-可见光图像融合网络,得到红外-可见光融合图像,并做好标注;
步骤3,训练行人检测网络模型:将步骤1中准备好的融合图像输入到步骤2中构建好的网络模型中进行训练;
步骤4,最小化损失函数值:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;
步骤5,微调模型:用公开红外行人检测数据集对模型进行训练和微调,得到稳定可用的模型参数,最终使得模型对融合的效果更好;
步骤6,保存最佳模型:将最终确定的模型参数进行固化,之后需要进行红外行人检测操作时,直接将待检测图像输入到网络中即可得到最终的红外行人检测结果。
所述步骤1中卷积块一由卷积层一、正则化层、卷积层二和激活函数依次连接构成;注意力模块一、注意力模块二、注意力模块三和注意力模块四,由卷积块、残差结构一、残差结构二、残差结构三和残差结构四构成,残差结构使用了深度可分离卷积、自适应移动窗口注意力机制;卷积块二、卷积块三、卷积块四、卷积块五和卷积块六结构,由卷积层、正则化层和激活函数依次连接组成。卷积块一的卷积核大小都为3×3,两个卷积层步长依次为2和1;注意力模块一、注意力模块二、注意力模块三和注意力模块四中卷积块的卷积核为3×3,深度可分离卷积的卷积核大小为1×1和3×3;卷积块二、卷积块三、卷积块四、卷积块五和卷积块六的卷积核大小为3×3,步长为1。
所述步骤2中预先训练好的红外-可见光图像融合网络是DenseFuse图像融合网络;
所述步骤4中在训练过程中损失函数选择交叉熵损失函数;损失函数的选择影响模型好坏,能够真实体现预测值与真实值的差异,并能够正确地反馈模型质量。
本发明的有益效果如下:
1、使用DenseFuse图像融合网络处理红外-可见光图像,在加快融合速度的同时,提高了输出图像的融合质量,为后续检测任务提供更好的输入图像。
2、在注意力模块一、注意力模块二、注意力模块三和注意力模块四中使用了深度可分离卷积、自适应移动窗口注意力机制、多层感知机对特征图进行特征提取,并使用多次跳跃连接。可以提供更紧凑的特征表示和更丰富的语义信息、减少注意力模块的计算量,并减少行人遮挡导致的误检漏检情况。
3、在卷积块一中使用两次卷积操作,可增强行人检测网络对图像浅层特征的提取能力。
附图说明
图1为本发明一种基于注意力机制的红外行人检测方法流程图。
图2为本发明一种基于注意力机制的红外行人检测方法的网络结构图。
图3为本发明所述注意力模块的结构图。
图4为本发明所述卷积块二、卷积块三、卷积块四、卷积块五和卷积块六中每一个卷积块的具体组成。
图5为本发明所述卷积块一、注意力模块中卷积块的每一块卷积块的具体组成。
图6为本发明所述输出头的结构图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,一种基于注意力机制的红外行人检测方法,该方法具体包括如下步骤:
步骤1,构建行人检测网络模型:整个网络包括特征提取、特征融合和输出头三个部分。特征提取部分由卷积块一、注意力模块一、注意力模块二、注意力模块三和注意力模块四组成,其中卷积块一对输入图片进行下采样操作减小特征图大小,注意力模块一、注意力模块二、注意力模块三、注意力模块四采用注意力机制,增加对窗口内图像的关注,依次对图片进行特征提取且结构相同。特征融合部分由上采样层一、上采样层二、下采样层一、下采样层二和下采样层三依次连接组成,融合不同层次的图像特征。输出头部分由输出头一、输出头二和输出头三组成,其中三个输出头结构相同,由卷积块二、卷积块三、卷积块四、卷积块五和卷积块六组成,通过对融合后的图像特征使用卷积层、正则化层和激活函数后得到检测结果。卷积块一由卷积层一、正则化层、卷积层二和激活函数依次连接构成;注意力模块一、注意力模块二、注意力模块三和注意力模块四由卷积块、残差结构一、残差结构二、残差结构三和残差结构四构成,残差结构使用了深度可分离卷积、自适应移动窗口注意力机制;卷积块二、卷积块三、卷积块四、卷积块五和卷积块六结构由卷积层、正则化层和激活函数依次连接组成。卷积块一的卷积核大小都为3×3,两个卷积层步长依次为2和1;注意力模块一、注意力模块二、注意力模块三和注意力模块四中卷积块的卷积核为3×3,深度可分离卷积的卷积核大小为1×1和3×3;卷积块二、卷积块三、卷积块四、卷积块五和卷积块六的卷积核大小为3×3,步长为1。
步骤2,建立红外行人目标检测数据集:由可见光摄像头、红外摄像头实时获取可见光图像和红外图像,并输入预先训练好的红外-可见光图像融合网络(DenseFuse图像融合网络),得到红外-可见光融合图像,并做好标注;在行人检测网络进行预训练过程中,使用公开的SCUT FIR行人数据集。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小,作为整个网络的输入。
步骤3,训练行人检测网络模型。将步骤1中得到的融合图像输入到步骤2中构建好的网络模型中进行训练。
步骤4,最小化损失函数值。通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成,保存模型参数。在训练过程中损失函数选择使用原始损失和拼接信息损失两部分结合。其目的在于充分利用正样本的监督信号。同时,如果正样本具有很高的交并比,那么在训练过程中对应损失函数的贡献就要大一些,这样使得训练可以聚焦在那些质量高的样本上。
步骤5,微调模型:用公开红外行人检测数据集对模型进行训练和微调,得到稳定可用的模型参数。在微调模型参数过程中使用KAIST数据集。
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行红外行人检测操作时,直接将待检测图像输入到网络中即可得到最终的红外行人检测结果。
实施例:
如图1所示,一种基于注意力机制的红外行人检测方法,该方法具体包括如下步骤:
步骤1,构建行人检测网络模型。
如图3所示,整个网络包括特征提取、上下采样操作和输出头三个部分。
特征提取部分由卷积块一、注意力模块一、注意力模块二、注意力模块三和注意力模块四组成。如图5所示,卷积块一由卷积层一、正则化层、卷积层二和激活函数依次构成,卷积核大小都为3×3,两个卷积层步长依次为2和1。如图3所示,注意力模块一、注意力模块二、注意力模块三和注意力模块四,由卷积块、残差结构一、残差结构二、残差结构三和残差结构四依次连接构成。其卷积块结构如图5所示,卷积块大小为3×3、步长为2和1。深度可分离卷积的卷积核大小为3×3和1×1,步长为1。残差结构一由深度可分离卷积、正则化层、自适应移动窗口注意力组成残差结构,残差结构二由正则化层和多层感知机连接组成残差结构,残差结构三由深度可分离卷积、正则化层、自适应移动窗口注意力组成残差结构,残差结构四由正则化层和多层感知机连接组成残差结构。
特征融合部分由上采样层一、上采样层二、下采样层一、下采样层二和下采样层三依次连接组成,融合不同层次的图像特征。
输出头部分由输出头一、输出头二和输出头三组成,三个输出头结构相同,由卷积块二、卷积块三、卷积块四、卷积块五和卷积块六组成,先通过卷积块二,再分别通过卷积块三、卷积块四和卷积块五、卷积块六的连接组合,分别得到类别输出和回归输出、物体输出。如图4所示,卷积块二、卷积块三、卷积块四、卷积块五和卷积块六结构,由卷积层、正则化层和激活函数依次连接组成,卷积核大小为3×3,步长为1。
步骤2,建立红外行人目标检测数据集。由可见光摄像头、红外摄像头实时获取可见光图像和红外图像,行人检测网络预训练过程中使用的SCUTFIR,包括211011帧图像,共计477907个检测框,7659位行人。
步骤3,训练行人检测网络模型。对步骤1的融合图片进行图像增强,将同一张图片中进行随机衍射变换,并且裁剪到输入图片的大小,作为整个网络的输入,并做好融合图片的标注。其中随机大小和位置通过软件算法可以实现。
步骤4,最小化损失函数值。网络的输出与标签计算损失函数是通过最小化损失函数达到更好的检测效果。损失函数选择原始损失和拼接信息损失两部分的结合,每种损失再细分为分类损失和回归框损失。对于损失函数,分类层和回归层的输出分别由{pi}和{ti}表示,这两项分别由Ncls和Nreg进行归一化,其中β为权重因子。在反向传播过程中,多分类和回归框的参数进行共享,旨在使不同的特征映射学习到标签信息外更多的语义信息。总损失函数定义为:
Figure BDA0003931674570000061
Figure BDA0003931674570000062
设定训练次数为220,每次输入到网络图片数量大小为8-16左右,每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定,一般每次输入到网络图片数量越大越好,使网络更加稳定。训练过程的学习率设置为0.0001,既能保证网络快速拟合,而不会导致网络过拟合。网络参数优化器选择自适应矩估计算法的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。损失函数函数值阈值设定为0.0003左右,小于0.0003就可以认为整个网络的训练已基本完成。
步骤5,微调模型。使用红外行人检测数据集对整个网络模型参数进行微调,其中数据集为KAIST数据集。
步骤6,保存模型。将网络训练完成后,需要将网络中所有参数保存,之后用配准好的红外和可见光行人检测图像输入到网络中就可以得到检测结果。该网络对两张输入图像大小没有要求,任意尺寸均可,但是必须保证两张图像的尺寸一致。
其中,卷积层、深度可分离卷积、激活函数、上采样层、下采样层、正则化层、多层感知机、自适应移动窗口注意力的实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或者技术文献中查阅到。
本发明通过构建一种基于注意力机制的红外行人检测方法,可以通过红外-可将光行人图像直接检测图中行人目标。通过计算与现有方法得到图像的相关指标,进一步验证了该方法的可行性和优越性。现有技术和本发明提出方法的相关指标对比如表1所示:
表1现有技术和本发明提出方法的相关指标对比
Figure BDA0003931674570000071
从表中可知,本发明提出的方法拥有更高的精度AP和召回率Recall和更低的丢失率MR,这些指标也进一步说明了本发明提出的方法具有更好的行人检测效果。

Claims (4)

1.一种基于注意力机制的红外行人检测方法,其特征是,该方法包括如下步骤:
步骤1,构建行人检测网络模型:整个网络包括特征提取、特征融合和输出头三个部分;
特征提取部分由卷积块一、注意力模块一、注意力模块二、注意力模块三和注意力模块四组成,其中卷积块一对输入图片进行下采样操作减小特征图大小,注意力模块一、注意力模块二、注意力模块三、注意力模块四采用注意力机制,增加对窗口内图像的关注,依次对图片进行特征提取且结构相同;
特征融合部分由上采样层一、上采样层二、下采样层一、下采样层二和下采样层三依次连接组成,融合不同层次的图像特征;
输出头部分由输出头一、输出头二和输出头三组成,其中三个输出头结构相同,其结构由卷积块二、卷积块三、卷积块四、卷积块五和卷积块六组成,通过对融合后的图像特征使用卷积、正则化和激活函数后得到检测结果;
步骤2,建立红外行人目标检测数据集:由可见光摄像头、红外摄像头实时获取可见光图像和红外图像,并输入到预先训练好的DenseFuse图像融合网络,得到红外-可见光融合图像,并做好标注;
步骤3,训练行人检测网络模型:将步骤1中准备好的融合图像输入到步骤2中构建好的网络模型中进行训练;
步骤4,最小化损失函数值:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;
步骤5,微调模型:用公开红外行人检测数据集对模型进行训练和微调,得到稳定可用的模型参数,最终使得模型对融合的效果更好;
步骤6,保存最佳模型:将最终确定的模型参数进行固化,之后需要进行红外行人检测操作时,直接将待检测图像输入到网络中即可得到最终的红外行人检测结果。
2.根据权利要求1所述的一种基于注意力机制的红外行人检测方法,其特征在于,所述步骤1中卷积块一由卷积层一、正则化层、卷积层二和激活函数依次连接构成;注意力模块一、注意力模块二、注意力模块三和注意力模块四,由卷积块、残差结构一、残差结构二、残差结构三和残差结构四构成,残差结构使用了深度可分离卷积、自适应移动窗口注意力机制;卷积块二、卷积块三、卷积块四、卷积块五和卷积块六结构,由卷积层、正则化层和激活函数依次连接组成;
卷积块一的卷积核大小都为3×3,两个卷积层步长依次为2和1;注意力模块一、注意力模块二、注意力模块三和注意力模块四中卷积块的卷积核为3×3,深度可分离卷积的卷积核大小为1×1和3×3;卷积块二、卷积块三、卷积块四、卷积块五和卷积块六的卷积核大小为3×3,步长为1。
3.根据权利要求1所述的一种基于注意力机制的红外行人检测方法,其特征在于,所述步骤2中预先训练好的红外-可见光图像融合网络是DenseFuse图像融合网络。
4.根据权利要求1所上述的一种基于注意力机制的红外行人检测方法,其特征在于,所述步骤4中所述在训练过程中损失函数选择交叉熵损失函数;损失函数的选择影响模型好坏,能够真实体现预测值与真实值的差异,并能够正确地反馈模型质量。
CN202211394887.8A 2022-11-08 2022-11-08 一种基于注意力机制的红外行人检测方法 Pending CN115620207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211394887.8A CN115620207A (zh) 2022-11-08 2022-11-08 一种基于注意力机制的红外行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211394887.8A CN115620207A (zh) 2022-11-08 2022-11-08 一种基于注意力机制的红外行人检测方法

Publications (1)

Publication Number Publication Date
CN115620207A true CN115620207A (zh) 2023-01-17

Family

ID=84878387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211394887.8A Pending CN115620207A (zh) 2022-11-08 2022-11-08 一种基于注意力机制的红外行人检测方法

Country Status (1)

Country Link
CN (1) CN115620207A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645696A (zh) * 2023-05-31 2023-08-25 长春理工大学重庆研究院 一种用于多模态行人检测的轮廓信息引导特征检测方法
CN116664462A (zh) * 2023-05-19 2023-08-29 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN114332780A (zh) * 2021-11-30 2022-04-12 无锡数据湖信息技术有限公司 一种针对小目标的交通人车非目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN114332780A (zh) * 2021-11-30 2022-04-12 无锡数据湖信息技术有限公司 一种针对小目标的交通人车非目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOYU XU等: "Contour Information-Guided Multi-Scale Feature Detection Method for Visible-Infrared Pedestrian Detection", ENTROPY, vol. 25, no. 7, 4 July 2023 (2023-07-04), pages 1 - 23 *
高元浩等: "基于自适应特征融合的红外与可见光图像融合算法", 信息技术与信息化, vol. 06, 25 June 2021 (2021-06-25), pages 278 - 280 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664462A (zh) * 2023-05-19 2023-08-29 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法
CN116664462B (zh) * 2023-05-19 2024-01-19 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法
CN116645696A (zh) * 2023-05-31 2023-08-25 长春理工大学重庆研究院 一种用于多模态行人检测的轮廓信息引导特征检测方法
CN116645696B (zh) * 2023-05-31 2024-02-02 长春理工大学重庆研究院 一种用于多模态行人检测的轮廓信息引导特征检测方法

Similar Documents

Publication Publication Date Title
CN112507898B (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN115620207A (zh) 一种基于注意力机制的红外行人检测方法
US20220230282A1 (en) Image processing method, image processing apparatus, electronic device and computer-readable storage medium
CN113781377B (zh) 基于对抗性语义引导与感知的红外和可见光图像融合方法
CN114764868A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN112784756B (zh) 人体识别跟踪方法
CN116645696B (zh) 一种用于多模态行人检测的轮廓信息引导特征检测方法
CN114639042A (zh) 基于改进CenterNet骨干网络的视频目标检测算法
CN113487530A (zh) 一种基于深度学习的红外与可见光融合成像方法
CN115731597A (zh) 一种人脸口罩掩膜图像自动分割与修复管理平台及方法
CN115393788A (zh) 一种基于增强全局信息注意力的多尺度监控行人重识别方法
CN117557779A (zh) 一种基于yolo的多尺度目标检测方法
CN116486080A (zh) 一种基于深度学习的轻量化图像语义分割方法
CN113052071B (zh) 危化品运输车驾驶员分心行为快速检测方法及系统
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN114972851B (zh) 一种基于遥感影像的船只目标智能检测方法
CN114821752A (zh) 一种基于混合特征的年龄估算方法、电子设备及存储介质
Zhang et al. Real-Time Detection of Small Targets for Video Surveillance Based on MS-YOLOv5
CN111242044B (zh) 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法
CN116468928B (zh) 一种基于视觉感知关联器的热红外小目标检测方法
Li et al. A-YOLO: small target vehicle detection based on improved YOLOv5

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination