CN116645696A - 一种用于多模态行人检测的轮廓信息引导特征检测方法 - Google Patents

一种用于多模态行人检测的轮廓信息引导特征检测方法 Download PDF

Info

Publication number
CN116645696A
CN116645696A CN202310628569.1A CN202310628569A CN116645696A CN 116645696 A CN116645696 A CN 116645696A CN 202310628569 A CN202310628569 A CN 202310628569A CN 116645696 A CN116645696 A CN 116645696A
Authority
CN
China
Prior art keywords
convolution
branch
layer
network
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310628569.1A
Other languages
English (en)
Other versions
CN116645696B (zh
Inventor
詹伟达
徐小雨
郭人仲
陈宇
刘大鹍
刘妍妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Research Institute Of Changchun University Of Technology
Original Assignee
Chongqing Research Institute Of Changchun University Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Research Institute Of Changchun University Of Technology filed Critical Chongqing Research Institute Of Changchun University Of Technology
Priority to CN202310628569.1A priority Critical patent/CN116645696B/zh
Publication of CN116645696A publication Critical patent/CN116645696A/zh
Application granted granted Critical
Publication of CN116645696B publication Critical patent/CN116645696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明属于计算机视觉技术领域,尤其为一种用于多模态行人检测的轮廓信息引导特征检测方法,该方法具体包括如下步骤:步骤1,构建可见光‑红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;步骤2,使用KAIST可见光‑红外配对数据集作为网络训练、测试与验证的数据集;步骤3,训练可见光‑红外行人目标检测网络;将步骤2中得到的可见光‑红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练。本发明,提出一种混合滤波器能够充分抑制背景干扰、增强红外图像中的纹理信息和轮廓信息,并提取可见光图像中的亮度信息,为检测网络提供高质量的输入图像。

Description

一种用于多模态行人检测的轮廓信息引导特征检测方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种用于多模态行人检测的轮廓信息引导特征检测方法。
背景技术
行人检测算法常用于行人目标密集出现的场景中,由于行人目标密集导致不同程度的遮挡、目标轮廓不清晰容易导致行人检测精度下降。目前,由于计算设备性能的不断提升和深度学习技术的日益成熟,基于深度学习的行人检测方法已成为主流的行人检测问题解决方案。相比于基于Haar、HOG特征的Adaboost和SVM算法具有显著的性能优势。相比直接使用深层融合特征进行行人预测,引入高效的特征提取模块和轮廓信息注意力机制,能够帮助网络更加准确地提取并关注行人目标特征,减少因为特征层不断深入导致的空间结构细节信息和边缘信息的丢失。现有一些工作已经取得一定进展,但是其中仍存在几个关键问题:
(1)现有的行人检测算法中,为获得更深层次的行人目标特征,只有不断加深特征提取网络的深度,通过不断加深特征提取网络,挖掘更深层次的目标特征。但更深的特征提取网络会丢失大量的空间结构信息和边缘信息,因此现有方法中的低效特征提取网络并不会显著提高网络行人检测精度;
(2)现有的行人检测算法中,为引导网络关注深层次的行人目标特征,只有使用主流的空间注意力与通道注意力,低效的注意力机制并不会提取边缘信息及全局空间特征并进行融合以强化边缘信息及空间信息,无法保证深层特征图能够保留更多的细节信息与清晰边缘;
(3)现有的行人检测算法中,在亮度较高情景下的行人检测效果较好,但在低照度情景下的行人效果很差,因此现有方法的泛化能力与检测不同情景下行人目标的鲁棒性较差。
针对上述问题,我们参考行人检测领域的常用方法,设计了一种用于多模态行人检测的轮廓信息引导特征检测方法,其中引入了高效的特征信息融合网络、轮廓信息引导注意力网络和混合滤波器。特征信息融合网络能够有效提取图像的多级特征信息,减少特征提取过程中的特征丢失,并在提取过程中实现多级特征复用,减少复用过程中的信息冗余。
中国专利申请公布号为“CN115273154B”,名称为“基于边缘重构的热红外行人检测方法、系统及存储介质”,提出边缘信息概念,引导模型深入挖掘热红外图像中的边缘特征。然而,该方法未加入配对的可见光图像作为热红外图像的补充信息,无法关联可见光与红外行人目标信息;低效的特征提取模块无法充分挖掘红外行人目标的空间结构信息,导致检测精度较低;边缘重构模块对目标轮廓挖掘能力差,无法协助定位准确定位。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种用于多模态行人检测的轮廓信息引导特征检测方法,解决了上述背景技术中所提出的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:
一种用于多模态行人检测的轮廓信息引导特征检测方法,该方法具体包括如下步骤:
步骤1,构建可见光-红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;
步骤2,使用KAIST可见光-红外配对数据集作为网络训练、测试与验证的数据集;
步骤3,训练可见光-红外行人目标检测网络;将步骤2中得到的可见光-红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选择最小化损失函数;通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成,保存模型参数;
步骤5,微调模型:使用可见光-红外行人目标检测数据集对整个网络模型参数进行微调,得到稳定的可用模型参数,进一步提高模型的行人目标检测能力,最终使得模型对行人目标检测效果更好;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行行人目标检测操作时,直接将待检测图像输入到网络中即可得到最终的行人目标检测结果。
进一步地,所述步骤1中的图像预处理部分由Top-Hat、DoG和亮度提取三部分组成,Top-Hat、DoG处理输入图像中的红外图像,亮度提取部分处理输入图像中的可见光图像。
进一步地,所述步骤1中的特征提取部分由多尺度特征信息融合块和下采样层串联组成,每个多尺度特征信息融合块由若干特征信息融合残差块串联组成。特征提取部分的输入是图像预处理部分的输出。特征提取部分中的多尺度特征信息融合块,由三条支路组成。三条支路都由若干特征信息融合残差块、下采样层、上采样层组成。多尺度特征信息融合块中所有卷积核大小为3×3、步长为1。下采样层的步长为2。上采样层采用双三次插值上采样法。每个特征信息融合残差块结构相同,有两个分支,每个分支由若干卷积层、下采样层、上采样层、串联组成。特征信息融合残差块中所有卷积层的卷积核大小为3×3、步长为1。
进一步地,所述步骤1中的轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成,轮廓信息引导注意力部分的输入是特征提取部分的输出。空间注意力分支有两个子分支分支,第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成,第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算。基于扩张卷积的通道注意力分支有两个子分支,第一个子分支由扩张卷积块、通道注意力模块串联组成,第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算,得到轮廓信息引导注意力部分的输出。轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、空间注意力块和若干卷积层组成。基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积和一个通道注意力块组成。空间注意力分支中卷积层的卷积核大小为3,步长为1。基于扩张卷积的通道注意力分支中扩张卷积的卷积核大小为3、步长为1。扩张卷积的扩张率分别为2、4和6。
进一步地,所述步骤2中的KAIST可见光-红外配对数据集,首先在训练集中每隔2张图片取一张,并去掉所有不包含任何行人的图片,且剔除数据集中严重遮挡,只有半截或者小于50个像素的行人,可得到7601张训练集图片。在测试集中每隔19张取一张,保留负样本,可得到2252张图片测试集。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小,作为整个网络的输入。
(三)有益效果
与现有技术相比,本发明提供了一种用于多模态行人检测的轮廓信息引导特征检测方法,具备以下有益效果:
本发明,提出一种混合滤波器能够充分抑制背景干扰、增强红外图像中的纹理信息和轮廓信息,并提取可见光图像中的亮度信息,为检测网络提供高质量的输入图像。
本发明,提出了一种多尺度特征信息融合块,能够在特征提取过程中不断融合不同尺度特征,提高不同深度网络层中不同尺度特征的融合与复用能力。
本发明,提出一种轮廓信息引导注意力网络,能够并行地提取边缘信息及全局空间特征并进行融合以强化边缘信息及空间信息,从而保证深层特征图保留更多的细节信息并具有清晰边缘。
附图说明
图1为本发明流程图;
图2为本发明网络结构图;
图3为本发明图像预处理图;
图4为本发明特征提取部分结构图;
图5为本发明多尺度特征信息融合块结构图;
图6为本发明特征信息融合残差块结构图;
图7为本发明轮廓信息引导注意力结构图;
图8为本发明头部网络结构图;
图9为本发明现有技术和本发明提出方法的相关指标对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-9所示,本发明一个实施例提出的一种用于多模态行人检测的轮廓信息引导特征检测方法,该方法具体包括如下步骤:
步骤1,构建可见光-红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;
图像预处理部分由Top-Hat、DoG和亮度提取三部分组成两个并行分支,其中Top-Hat与DoG并联组成第一个红外图像分支,亮度提取是第二个可见光图像分支,红外图像分支的输入是输入图像中的红外图像,红外图像分别经过Top-Hat和DoG滤波器,得到的输入在通道维度相加得到红外图像分支的输出,可见光图像分支的输入是输入图像中的可见光图像,可见光图像经过亮度提取,得到的输出与红外图像分支输出在通道维度相加得到图像预处理部分的输出。
特征提取部分由多尺度特征信息融合块一、下采样层一、多尺度特征信息融合块二和下采样层二串联组成,每个多尺度特征信息融合块由若干特征信息融合残差块串联组成,特征提取部分的输入是图像预处理部分的输出,特征提取部分中的多尺度特征信息融合块,由三条支路组成,第一条支路由特征信息融合残差块一、下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三、上采样层二组成;第二条支路由下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三和上采样层二组成;第三条支路由特征信息融合残差块二、下采样层二、卷积层、上采样层一组成,多尺度特征信息融合块中所有卷积核大小为3×3、步长为1,下采样层一、下采样层二的步长为2,上采样层一、上采样层二采用双三次插值上采样法,每个特征信息融合残差块结构相同,有两个分支。第一个分支由卷积层一、卷积层二、卷积层三、下采样层一、上采样层、卷积层三串联组成。第二个分支由卷积层三、下采样层一、上采样层串联组成。特征信息融合残差块中所有卷积核大小为3×3、步长为1。
轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成,轮廓信息引导注意力部分的输入是特征提取部分的输出,空间注意力分支有两个子分支分支,第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成,第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算,基于扩张卷积的通道注意力分支有两个子分支,第一个子分支由扩张卷积块、通道注意力模块串联组成,第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算,得到轮廓信息引导注意力部分的输出,轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、卷积层一和空间注意力块和卷积层二组成,基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积一、扩张卷积二、扩张卷积三和一个通道注意力块组成,空间注意力分支中卷积层一和卷积层二的卷积核大小为3,步长为1,基于扩张卷积的通道注意力分支中的扩张卷积一、扩张卷积二和扩张卷积三的卷积核大小为3、步长为1,扩张卷积一、扩张卷积二和扩张卷积三的扩张率分别为2、4和6。
头部网络部分由类别分支、坐标分支和置信度分支三部分组成,有一个输入、三个输出,头部网络的输入是轮廓信息引导注意力部分的输出,三个输出分别是类别分支、坐标分支和置信度分支的输出,类别分支、坐标分支和置信度分支由都由三个卷积层串联组成,头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成,其中卷积层一和卷积层三的卷积核大小为1、步长为1,卷积层二的卷积核大小为3、步长为1,坐标分支由卷积层一、卷积层四和卷积层五组成,卷积层四的卷积核大小为3、步长为1,卷积层五的卷积核大小为1、步长为1,置信度分支由卷积层一、卷积层四和卷积层六组成,卷积层六的卷积核大小为1、步长为1。
步骤2,使用KAIST可见光-红外配对数据集作为网络训练、测试与验证的数据集;该数据集总共包括95328张图片,每张图片都包含RGB彩色图像和红外图像两个版本,总共包含103128个密集注释。数据集分别在白天和晚上捕获了包括校园、街道以及乡下的各种常规交通场景,图片大小为640×480,但该数据集中有大量无行人目标和目标错误标注的图片,因此在训练集每隔2张图片取一张,并去掉所有不包含任何行人的图片,即选出来的图片中至少包含一个目标,且剔除数据集中严重遮挡,只有半截或者小于50个像素的行人,经过此操作可得到7601张训练集图片,包括4755张白天情景图片,2846张夜晚情景图片。测试集每隔19张取一张,保留负样本,经此操作可得到2252张图片测试集,包括1455张白天情景图片,797张夜晚情景图片。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小,作为整个网络的输入;
步骤3,训练可见光-红外行人目标检测网络;将步骤2中得到的可见光-红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选择最小化损失函数;通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成,保存模型参数,在训练过程中损失函数选择使用分类损失和回归损失两部分结合,其目的在于充分利用正样本的监督信号,同时,如果正样本具有很高的交并比,那么在训练过程中对应损失函数的贡献就要大一些,这样使得训练可以聚焦在那些质量高的样本上;
步骤5,微调模型:使用可见光-红外行人目标检测数据集对整个网络模型参数进行微调,得到稳定的可用模型参数,进一步提高模型的行人目标检测能力,最终使得模型对行人目标检测效果更好;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行行人目标检测操作时,直接将待检测图像输入到网络中即可得到最终的行人目标检测结果。
实施例2:
如图1所示,一种用于多模态行人检测的轮廓信息引导特征检测方法,该方法具体包括如下步骤:
步骤1,构建可见光-红外行人目标检测网络;
如图2所示,构建可见光-红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;
如图3所示,图像预处理部分由Top-Hat、DoG和亮度提取三部分组成两个并行分支,其中Top-Hat与DoG并联组成第一个红外图像分支,亮度提取是第二个可见光图像分支。红外图像分支的输入是输入图像中的红外图像,红外图像分别经过Top-Hat和DoG滤波器,分别得到轮廓滤波和高斯滤波的特征,两种滤波输出特征通道维度相加得到红外图像分支的输出,可见光图像分支的输入是输入图像中的可见光图像,可见光图像经过亮度提取得到亮度信息,得到的输出与红外图像分支输出在通道维度相加得到图像预处理部分的输出。
如图4所示,特征提取部分由多尺度特征信息融合块一、下采样层一、多尺度特征信息融合块二和下采样层二串联组成,特征提取部分的输入是图像预处理部分的输出,如图5所示,每个多尺度特征信息融合块由若干特征信息融合残差块、上采样层和下采样层串联、并联组成,其中有三条支路组成,第一条支路由特征信息融合残差块一、下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三、上采样层二组成;第二条支路由下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三和上采样层二组成;第三条支路由特征信息融合残差块二、下采样层二、卷积层、上采样层一组成。多尺度特征信息融合块中所有卷积核大小为3×3、步长为1,下采样层一、下采样层二的步长为2,上采样层一、上采样层二采用双三次插值上采样法,如图6所示,每个特征信息融合残差块结构相同,有两个分支。第一个分支由卷积层一、卷积层二、卷积层三、下采样层一、上采样层、卷积层三串联组成。第二个分支由卷积层三、下采样层一、上采样层串联组成。特征信息融合残差块中所有卷积核大小为3×3、步长为1。
如图7所示,轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成,轮廓信息引导注意力部分的输入是特征提取部分的输出。空间注意力分支有两个子分支分支,第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成,第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算。基于扩张卷积的通道注意力分支有两个子分支,第一个子分支由扩张卷积块、通道注意力模块串联组成,第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算,得到轮廓信息引导注意力部分的输出,轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、卷积层一和空间注意力块和卷积层二组成,基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积一、扩张卷积二、扩张卷积三和一个通道注意力块组成,空间注意力分支中卷积层一和卷积层二的卷积核大小为3,步长为1,基于扩张卷积的通道注意力分支中的扩张卷积一、扩张卷积二和扩张卷积三的卷积核大小为3、步长为1。扩张卷积一、扩张卷积二和扩张卷积三的扩张率分别为2、4和6。
如图8所示,头部网络部分由类别分支、坐标分支和置信度分支三部分组成,有一个输入、三个输出。头部网络的输入是轮廓信息引导注意力部分的输出,三个输出分别是类别分支、坐标分支和置信度分支的输出,类别分支、坐标分支和置信度分支由都由三个卷积层串联组成,头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成,其中卷积层一和卷积层三的卷积核大小为1、步长为1,卷积层二的卷积核大小为3、步长为1。坐标分支由卷积层一、卷积层四和卷积层五组成,卷积层四的卷积核大小为3、步长为1,卷积层五的卷积核大小为1、步长为1。置信度分支由卷积层一、卷积层四和卷积层六组成,卷积层六的卷积核大小为1、步长为1。
步骤3,训练可见光-红外行人目标检测网络;对步骤2的得到的数据集图片进行图像增强,将每一张图片中进行随机衍射变换,根据图片变化方式对标签文件中行人目标数据进行更改,并且裁剪到输入图片的大小,作为整个网络的输入。其中随机大小和位置通过软件算法可以实现;
步骤4,选择最小化损失函数;网络的输出与标签计算损失函数是通过最小化损失函数达到更好的检测效果。
损失函数选择分类损失和回归损失两部分的结合,每种损失再细分为分类损失和回归框损失。对于损失函数,总损失由和LReg表示。/>的计算使用Dice损失函数和交叉熵的方法,并通过每个可见光-红外图像样本生成的每一个行人目标检测结果和其训练样本集中对应的标签计算分类损失值。LReg的计算则是通过每个可见光图像、红外图像样本生成的每个行人目标检测结果和其对应的训练样本集中的一个标签计算行人目标回归框损失值。在反向传播过程中,多分类和回归框的参数进行共享,旨在使不同的特征映射学习到标签信息外更多的语义信息。总损失函数定义为:
其中,表示训练后得到的行人目标输出图像,y表示训练样本集中可见光-红外图像行人目标共用的样本标签。/>表示行人目标回归框预测值,x表示训练样本集中可见光-红外图像行人目标共用的回归框预测值的标签;
设定训练次数为300,每次输入到网络图片数量为1组可见光-红外图像对,每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定,一般每次输入到网络图片数量越大越好,使网络更加稳定。训练过程的学习率设置为0.0001,既能保证网络快速拟合,而不会导致网络过拟合。网络参数优化器选择自适应矩估计算法的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。损失函数函数值阈值设定为0.0003左右,小于0.0003就可以认为整个网络的训练已基本完成;
步骤5,微调模型,使用可见光-红外行人目标数据集OSU-Thermal Pedestrian数据集对整个网络模型参数进行微调,得到稳定的可用模型参数,进一步提高模型的行人目标检测能力,最终使得模型对行人目标检测效果更好;
步骤6,保存模型,将网络训练完成后,需要将网络中所有参数保存,之后将带有行人目标的可见光或红外图像输入到网络中就可以得到检测结果,该网络对输入图像大小没有要求,任意尺寸均可。
其中,卷积层、激活函数、正则化层、上采样层、下采样层和边缘检测器的实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或者技术文献中查阅到。
本发明通过构建一种用于多模态行人检测的轮廓信息引导特征检测方法,可以通过可见光或红外行人目标图像检测图中的行人目标。通过计算与现有方法得到图像的相关指标,进一步验证了该方法的可行性和优越性。现有技术和本发明提出方法的相关指标对比如图9所示,本发明提出的方法拥有更高的精度AP和召回率Recall和更低的丢失率MR,这些指标也进一步说明了本发明提出的方法具有更好的行人目标检测效果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:该方法具体包括如下步骤:
步骤1,构建可见光-红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;
步骤2,使用KAIST可见光-红外配对数据集作为网络训练、测试与验证的数据集;
步骤3,训练可见光-红外行人目标检测网络;将步骤2中得到的可见光-红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选择最小化损失函数;通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成,保存模型参数;
步骤5,微调模型:使用可见光-红外行人目标检测数据集对整个网络模型参数进行微调,得到稳定的可用模型参数,进一步提高模型的行人目标检测能力,最终使得模型对行人目标检测效果更好;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行行人目标检测操作时,直接将待检测图像输入到网络中即可得到最终的行人目标检测结果。
2.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:所述步骤1中的图像预处理部分由Top-Hat、DoG和亮度提取三部分组成,Top-Hat、DoG处理输入图像中的红外图像,亮度提取部分处理输入图像中的可见光图像。
3.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:所述步骤1中的特征提取部分由多尺度特征信息融合块和下采样层串联组成,每个多尺度特征信息融合块由若干特征信息融合残差块串联组成。特征提取部分的输入是图像预处理部分的输出。特征提取部分中的多尺度特征信息融合块,由三条支路组成。三条支路都由若干特征信息融合残差块、下采样层、上采样层组成。多尺度特征信息融合块中所有卷积核大小为3×3、步长为1。下采样层的步长为2。上采样层采用双三次插值上采样法。每个特征信息融合残差块结构相同,有两个分支,每个分支由若干卷积层、下采样层、上采样层、串联组成。特征信息融合残差块中所有卷积层的卷积核大小为3×3、步长为1。
4.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:所述步骤1中的轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成,轮廓信息引导注意力部分的输入是特征提取部分的输出。空间注意力分支有两个子分支分支,第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成,第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算。基于扩张卷积的通道注意力分支有两个子分支,第一个子分支由扩张卷积块、通道注意力模块串联组成,第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算,得到轮廓信息引导注意力部分的输出。轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、空间注意力块和若干卷积层组成。基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积和一个通道注意力块组成。空间注意力分支中卷积层的卷积核大小为3,步长为1。基于扩张卷积的通道注意力分支中扩张卷积的卷积核大小为3、步长为1。扩张卷积的扩张率分别为2、4和6。
5.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:步骤1中的头部网络由类别分支、坐标分支和置信度分支三部分组成。类别分支、坐标分支和置信度分支由都由三个卷积层串联组成。头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成,其中卷积层一和卷积层三的卷积核大小为1、步长为1,卷积层二的卷积核大小为3、步长为1。坐标分支由卷积层一、卷积层四和卷积层五组成,卷积层四的卷积核大小为3、步长为1,卷积层五的卷积核大小为1、步长为1。置信度分支由卷积层一、卷积层四和卷积层六组成,卷积层六的卷积核大小为1、步长为1。
6.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:所述步骤2中的KAIST可见光-红外配对数据集,首先在训练集中每隔2张图片取一张,并去掉所有不包含任何行人的图片,且剔除数据集中严重遮挡,只有半截或者小于50个像素的行人,可得到7601张训练集图片。在测试集中每隔19张取一张,保留负样本,可得到2252张图片测试集。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小,作为整个网络的输入。
CN202310628569.1A 2023-05-31 2023-05-31 一种用于多模态行人检测的轮廓信息引导特征检测方法 Active CN116645696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310628569.1A CN116645696B (zh) 2023-05-31 2023-05-31 一种用于多模态行人检测的轮廓信息引导特征检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310628569.1A CN116645696B (zh) 2023-05-31 2023-05-31 一种用于多模态行人检测的轮廓信息引导特征检测方法

Publications (2)

Publication Number Publication Date
CN116645696A true CN116645696A (zh) 2023-08-25
CN116645696B CN116645696B (zh) 2024-02-02

Family

ID=87618416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310628569.1A Active CN116645696B (zh) 2023-05-31 2023-05-31 一种用于多模态行人检测的轮廓信息引导特征检测方法

Country Status (1)

Country Link
CN (1) CN116645696B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036923A (zh) * 2023-10-08 2023-11-10 广东海洋大学 一种基于机器视觉的水下机器人目标检测方法
CN117274899A (zh) * 2023-09-20 2023-12-22 中国人民解放军海军航空大学 基于可见光和红外光图像特征融合的仓储隐患检测方法
CN117690161A (zh) * 2023-12-12 2024-03-12 上海工程技术大学 一种基于图像融合的行人检测方法、设备和介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898617A (zh) * 2020-06-29 2020-11-06 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、系统
WO2021093435A1 (zh) * 2019-11-12 2021-05-20 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
CN113723377A (zh) * 2021-11-02 2021-11-30 南京信息工程大学 一种基于ld-ssd网络的交通标志检测方法
CN114067126A (zh) * 2021-11-19 2022-02-18 长春理工大学 一种红外图像目标检测方法
CN114092820A (zh) * 2022-01-20 2022-02-25 城云科技(中国)有限公司 目标检测方法及应用其的移动目标跟踪方法
CN114220001A (zh) * 2021-11-25 2022-03-22 南京信息工程大学 基于双注意力神经网络的遥感影像云与云阴影检测方法
CN114241277A (zh) * 2021-12-22 2022-03-25 中国人民解放军国防科技大学 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质
CN115188066A (zh) * 2022-06-02 2022-10-14 广州大学 基于协同注意力和多尺度融合的运动目标检测系统及方法
CN115620207A (zh) * 2022-11-08 2023-01-17 长春理工大学 一种基于注意力机制的红外行人检测方法
CN115620010A (zh) * 2022-09-20 2023-01-17 长春理工大学 一种rgb-t双模态特征融合的语义分割方法
CN115830449A (zh) * 2022-12-01 2023-03-21 北京理工大学重庆创新中心 显式轮廓引导和空间变化上下文增强的遥感目标检测方法
CN115953736A (zh) * 2023-01-19 2023-04-11 华东交通大学 一种基于视频监控与深度神经网络的人群密度估计方法
CN116129289A (zh) * 2023-03-06 2023-05-16 江西理工大学 一种注意力边缘交互的光学遥感图像显著性目标检测方法
US20230154185A1 (en) * 2021-11-12 2023-05-18 Adobe Inc. Multi-source panoptic feature pyramid network

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021093435A1 (zh) * 2019-11-12 2021-05-20 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
CN111898617A (zh) * 2020-06-29 2020-11-06 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、系统
CN113723377A (zh) * 2021-11-02 2021-11-30 南京信息工程大学 一种基于ld-ssd网络的交通标志检测方法
US20230154185A1 (en) * 2021-11-12 2023-05-18 Adobe Inc. Multi-source panoptic feature pyramid network
CN114067126A (zh) * 2021-11-19 2022-02-18 长春理工大学 一种红外图像目标检测方法
CN114220001A (zh) * 2021-11-25 2022-03-22 南京信息工程大学 基于双注意力神经网络的遥感影像云与云阴影检测方法
CN114241277A (zh) * 2021-12-22 2022-03-25 中国人民解放军国防科技大学 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质
CN114092820A (zh) * 2022-01-20 2022-02-25 城云科技(中国)有限公司 目标检测方法及应用其的移动目标跟踪方法
CN115188066A (zh) * 2022-06-02 2022-10-14 广州大学 基于协同注意力和多尺度融合的运动目标检测系统及方法
CN115620010A (zh) * 2022-09-20 2023-01-17 长春理工大学 一种rgb-t双模态特征融合的语义分割方法
CN115620207A (zh) * 2022-11-08 2023-01-17 长春理工大学 一种基于注意力机制的红外行人检测方法
CN115830449A (zh) * 2022-12-01 2023-03-21 北京理工大学重庆创新中心 显式轮廓引导和空间变化上下文增强的遥感目标检测方法
CN115953736A (zh) * 2023-01-19 2023-04-11 华东交通大学 一种基于视频监控与深度神经网络的人群密度估计方法
CN116129289A (zh) * 2023-03-06 2023-05-16 江西理工大学 一种注意力边缘交互的光学遥感图像显著性目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HONGYANG WEI 等: "SARNet: Spatial Attention Residual Network for pedestrian and vehicle detection in large scenes", 《APPLIED INTELLIGENCE》, pages 17718 - 17733 *
李夏露: "基于多层特征融合的显著性目标检测算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, pages 138 - 3466 *
王晓玉: "基于复杂场景下抗干扰网络的小目标检测的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, pages 138 - 2150 *
瞿中 等: "基于注意力机制和轻量级空洞卷积的混凝土路面裂缝检测", 《计算机科学》, vol. 50, no. 2, pages 231 - 236 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274899A (zh) * 2023-09-20 2023-12-22 中国人民解放军海军航空大学 基于可见光和红外光图像特征融合的仓储隐患检测方法
CN117036923A (zh) * 2023-10-08 2023-11-10 广东海洋大学 一种基于机器视觉的水下机器人目标检测方法
CN117036923B (zh) * 2023-10-08 2023-12-08 广东海洋大学 一种基于机器视觉的水下机器人目标检测方法
CN117690161A (zh) * 2023-12-12 2024-03-12 上海工程技术大学 一种基于图像融合的行人检测方法、设备和介质

Also Published As

Publication number Publication date
CN116645696B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN116645696B (zh) 一种用于多模态行人检测的轮廓信息引导特征检测方法
CN108665481A (zh) 多层深度特征融合的自适应抗遮挡红外目标跟踪方法
CN112287912B (zh) 基于深度学习的车道线检测方法以及装置
CN114841244B (zh) 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN115331183A (zh) 改进YOLOv5s的红外目标检测方法
CN107944354A (zh) 一种基于深度学习的车辆检测方法
CN111507337A (zh) 基于混合神经网络的车牌识别方法
CN110008900A (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN114926722A (zh) 基于YOLOv5的尺度自适应目标检测的方法及存储介质
CN117197763A (zh) 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统
CN113537119B (zh) 基于改进Yolov4-tiny的输电线路连接部件检测方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN117037119A (zh) 基于改进YOLOv8的道路目标检测方法及系统
CN112668532A (zh) 基于多阶段混合注意网络的人群计数方法
CN104915641A (zh) 基于android平台获取人脸图像光源方位的方法
CN116311052A (zh) 一种人群计数方法、装置、电子设备及存储介质
CN116129327A (zh) 一种基于改进YOLOv7算法的红外车辆检测方法
CN116229073A (zh) 一种基于改进型ERFNet网络的遥感图像分割方法及装置
CN111986233B (zh) 基于特征自学习的大场景极小目标遥感视频跟踪方法
Gao et al. CP-Net: Channel attention and pixel attention network for single image dehazing
Xu et al. A crowd counting method based on multi-scale attention network
Chen et al. Building extraction from high-resolution remote sensing imagery based on multi-scale feature fusion and enhancement
CN117392392B (zh) 一种割胶线识别与生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant