CN113627504B - 基于生成对抗网络的多模态多尺度特征融合目标检测方法 - Google Patents

基于生成对抗网络的多模态多尺度特征融合目标检测方法 Download PDF

Info

Publication number
CN113627504B
CN113627504B CN202110878261.3A CN202110878261A CN113627504B CN 113627504 B CN113627504 B CN 113627504B CN 202110878261 A CN202110878261 A CN 202110878261A CN 113627504 B CN113627504 B CN 113627504B
Authority
CN
China
Prior art keywords
fusion
feature
modal
scale
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110878261.3A
Other languages
English (en)
Other versions
CN113627504A (zh
Inventor
孙雁飞
叶鑫海
亓晋
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110878261.3A priority Critical patent/CN113627504B/zh
Publication of CN113627504A publication Critical patent/CN113627504A/zh
Application granted granted Critical
Publication of CN113627504B publication Critical patent/CN113627504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于生成对抗网络的多模态多尺度特征融合目标检测方法,将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中,尽可能提取出各自图像中深层次的特征数据,并在最后三个残差网络中提取出三种不同尺度的特征图,将两种模态多尺度的特征图传递给特征融合模块;使用基于条件生成对抗网络中预训练出的生成器将多模态多尺度的特征图进行深层次融合,使原始可见光模态的特征图中注入更多的目标特征信息;最后将生成的多尺度多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务。本发明可以产生最大程度接近于真实状况下的融合特征向量,从而提高目标检测模型在夜间环境下的检测效果。

Description

基于生成对抗网络的多模态多尺度特征融合目标检测方法
技术领域
本发明属于深度学习目标检测领域,特别涉及一种基于条件生成对抗网络的多模态多尺度特征融合目标检测方法。
背景技术
目标检测是计算机视觉领域一个重要的研究方向,在无人驾驶、视频安防监控、商场人流量统计等实际生产生活领域具有不可或缺的应用价值。近年来随着深度学习技术的快速发展,越来越多能够学习图像中语义、高水平、深层次特征的检测算法不断涌现。主流的深度学习目标检测算法主要分为两类,一类是两阶段的目标检测方法,即先生成候选区域,然后对候选区域进行分类和回归,例如Faster R-CNN;另一类是单阶段的目标检测方法,这类方法直接从图像中回归出物体的类别和坐标,无需生成候选框,代表的方法有YOLO(You Look Only Once)、SSD(Single Shot MultiBox Detector)等。虽然这些算法能够在常规的物理环境中能够得到很好的检测效果,但是一旦环境恶化,尤其是在夜间场景下,单纯以可见光摄像设备输出的画面难以达到高有效、高可靠、高鲁棒性的实时目标检测标准。
一般而言,可见光摄像设备的输出对物体具有较好的分辨率,但只有在良好的光照条件下才能得到理想的成像效果。而另一方面,红外录像设备对环境中的温度敏感、能够在可见光不足的条件下对物体成像,不过一般图像对比度低,成像质量不高,视觉分辨能力差。一种能够融合可见光与红外光设备输出的多尺度图像特征的目标检测方法自然而然地成为了解决上述问题的有效途径。
中国专利申请号:CN202010639950.4,发明创造名称:一种基于改进YOLO模型的多模态行人目标检测方法,使用并行特征提取网络提取可见光模态和红外光模态的多尺度特征图,并采用加权特征融合层和CBAM(Convolutional Block Attention Module,卷积块注意力模块)机制使可见光和红外光特征图进行更好的融合,再将多尺度注意力加权融合特征图依次级联并送入YOLO层中进行行人检测,从而提高了在夜间环境下目标多尺度、目标相互遮挡和夜间光照不足情况下的检测效果。但是,由于红外图像自身存在大量的模糊视觉信息,并且纹理细节缺失严重,其与可见光模态特征数据的融合本就是一个动态处理的过程。因而仅仅通过注意力机制实现的多模态特征加权模块难以从各种复杂状况下的红外光模态特征中抽取出深层次的特征信息,最终可能干扰到后续目标检测模块对小目标物体的检测效果。
发明内容
本发明的目的在于提供基于生成对抗网络的多模态多尺度特征融合目标检测方法,基于条件生成对抗网络(Conditional Generative Adversarial Nets,CGAN)预训练的生成器,融合级联后的可见光模态和红外光模态特征图,生成更接近于真实情况下的特征向量,并借助YOLOv3目标检测算法对设备成像中的多尺度目标进行检测,提高网络模型在夜间光照不足情况下的检测效果。
本发明公开的基于生成对抗网络的多模态多尺度特征融合目标检测方法,采用的技术方案为:将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中,尽可能提取出各自图像中深层次的特征数据,并在最后的3个残差网络中提取出三种不同尺度的特征图。并将两种模态多尺度的特征图传递给特征融合模块;使用基于条件生成对抗网络中预训练出的生成器将多模态多尺度的特征图进行深层次融合,使原始可见光模态的特征图中注入更多的目标特征信息;最后将生成的多尺度多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务。
本发明公开的基于生成对抗网络的多模态多尺度特征融合目标检测方法,包括以下步骤:
S1:使用两个并行的预训练Darknet53网络作为特征提取网络,将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中,对可见光摄像设备输出的可见光图像和红外光摄像设备输出的红外光图像进行多尺度特征提取,对图像中的大尺度目标进行深层次的特征提取,对小尺度目标进行浅层次的特征提取,输出相应的特征图;
S2:构建基于条件生成对抗网络的特征融合层,并使用可见光和红外光模态的样本数据训练鉴别器和生成器,经训练后的多模态融合特征层会根据实际输入的可见光特征图和红外光特征图共同导出融合更多目标特征信息的多模态融合特征图;
S3:将生成的多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务。
进一步地,所述Darknet53网络由五个残差模块组成,每个所述残差模块内部包含一个网络结构最小组件CBL和若干个残差组件,每个所述残差模块根据其所包含的残差组件数量被记为ResX。每一个所述残差组件由两个网络结构中最小组件CBL和一个张量相加add操作组成。
进一步地,所述并行Darknet53网络的两个分支会在最后三个残差模块中分别输出提取三个多尺度特征图,根据所输入的图像类型,将可见光图像输出的特征图分别记作
Figure 136194DEST_PATH_IMAGE001
,红外光图像输出的特征图分别记作
Figure 566038DEST_PATH_IMAGE002
所述S2中生成多模态融合特征图,包括如下步骤:
S201: Darknet53中同一残差模块提取出的可见光模态和红外光模态特征图先输入到对应多模态特征融合层的DCL中,DCL将输入的可见光模态特征图压缩转换到一个指定维度,然后加权传递到Concat层,DCL将输入的红外光模态特征图压缩转换到一个指定维度,然后加权分别传递到Concat层和鉴别器;其中,红外光模态特征图经过DCL输出的特征图传递到鉴别器,作为其真实样本的特征输入;
S202: Concat层输出初步的多模态融合特征图,每个尺度输出的初步融合特征图为:
Figure 474DEST_PATH_IMAGE003
其中,
Figure 275598DEST_PATH_IMAGE004
是级联拼接函数,
Figure 856752DEST_PATH_IMAGE005
是DCL层的输出函数,
Figure 191918DEST_PATH_IMAGE006
是指定权值;
S203: 训练条件生成对抗网络时,初步融合特征图与一个指定分布噪声源产生的同维度噪声进行张量相加,然后输入到生成器网络中,生成多模态融合特征图传递给鉴别器网络,作为其伪样本的特征输入。
进一步地,在对抗训练的过程中,生成器生成的多模态融合特征图会逐渐包含更多的红外信息以起到目标强化和提高融合效果的作用,训练过程的优化目标函数为:
Figure 107790DEST_PATH_IMAGE007
其中,
Figure 186605DEST_PATH_IMAGE008
是分布函数的期望值,
Figure 622265DEST_PATH_IMAGE009
为真实数据分布,
Figure 580863DEST_PATH_IMAGE010
为噪声分布,D是鉴别器,G是生成器,z是噪声。
经训练过后抽取出的生成器网络,输入经过DCL + Concat的初步融合特征图会生成接近于真实情况的多模态融合特征图,分别记为
Figure 531501DEST_PATH_IMAGE011
,并传递到下面的YOLO层继续进行目标检测的工作。
进一步地,将三个多模态特征融合层输出的融合特征图输入到各自的YOLO层中进行目标检测任务,输出检测结果,包括以下步骤:
S301:将接近于真实情况的多模态融合特征图中内含大尺度目标的多模态融合特征图N1通过五个网络结构最小组件CBL,传递给YOLO1,输出较大目标的检测结果;
S302:将S301中经过五个CBL输出的特征图进行上采样 + 一个CBL层处理,然后执行与接近于真实情况的多模态融合特征图中内含中等尺度目标的多模态融合特征图进行张量拼接Concat,拼接后的特征图经过五个CBL层处理,传递给YOLO2,输出中等尺度目标的检测结果;
S303: 将S302中五个CBL输出的特征图进行上采样+一个CBL层处理,然后执行与接近于真实情况的多模态融合特征图中内含小尺度目标的多模态融合特征图进行张量拼接Concat,拼接后的特征图经过五个CBL层处理,传递给YOLO3,输出小尺度目标的检测结果。
本发明的有益效果是:本发明在可见光模态与红外光模态特征图的融合过程中采用基于条件生成对抗网络,根据博弈论思想使生成其中的特征分布逐渐趋近于鉴别器网络输入的特征数据,从而产生最大程度接近于真实状况下的融合特征向量,从而提高目标检测模型在夜间环境下的检测效果。
附图说明
图1为本发明公开的多模态多尺度特征融合目标检测网络框架。
图2为本发明公开的特征融合层中的生成对抗网络的训练模型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参见图1多模态多尺度特征融合目标检测网络框架,本发明公开的基于生成对抗网络的多模态多尺度特征融合目标检测方法,包括如下步骤:
S1:使用两个并行的预训练Darknet53网络作为特征提取网络,将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中,对可见光摄像设备输出的可见光图像和红外光摄像设备输出的红外光图像进行多尺度特征提取,输出相应的特征图。
其中,上述所使用的Darknet53特征提取网络,由5个残差模块组成,该模块内部包含一个网络结构最小组件CBL(卷积层Conventional Layer + 批归一化层BatchNormalization Layer + Leaky Relu激活函数)和若干个残差组件(Res Unit)。每一个残差模块根据其所包含的残差组件数量被记为ResX,分别为Res1、Res2、Res8、Res8、Res4。
而每一个残差组件(Res Unit)又由两个网络结构中最小组件CBL和一个张量相加add操作组成。这些残差组件的存在可以使得特征提取网络构建的更深,从而提取出图像中更深层次的图像特征。
Darknet53特征提取网络借鉴了特征金字塔网络(FPN,Feature pyramidnetwork)的思想,对图像中的大尺度目标进行深层次的特征提取而对较小尺度目标进行浅层次的特征提取。因此,并行Darknet53提取网络两个分支会在最后三个残差模块中分别输出提取三个多尺度特征图,根据所输入的图像类型,将可见光图像输出的特征图分别记作
Figure 351690DEST_PATH_IMAGE001
,红外光图像输出的特征图分别为
Figure 202709DEST_PATH_IMAGE002
在本实施例中,其中一个并行的Darknet-53特征提取网络首先输入一张长、宽、通道数为608*608*3的可见光图像,经过第一CBL后输出长、宽、通道数为608*608*32的特征图,接着该特征图会通过剩下的5个残差单元Res1、Res2、Res8、Res8、Res4分别输出长、宽、通道数为304*304*64(Res1)、152*152*128(Res2),76*76*256(Res8)、38*38*512(Res8)和19*19*1024(Res4)的特征图。本发明所述的多模态特融合层只会选择最后三个特征图76*76*256(Res8)、38*38*512(Res8)和19*19*1024(Res4)作为输入,并设为
Figure 332208DEST_PATH_IMAGE001
。同样的,另一个并行的Darknet53网络也会输入一个长、宽、通道数为576*576*3红的红外光模态图像,并经过相同的步骤得到最后三个大小为72*72*1024、36*36*1024、18*18*1024的特征图,并设为
Figure 770142DEST_PATH_IMAGE002
S2:构建基于条件生成对抗网络的特征融合层,并使用可见光和红外光模态的样本数据训练鉴别器和生成器,经训练后的多模态融合特征层会根据实际输入的可见光特征图和红外光特征图共同导出融合更多目标特征信息的多模态融合特征图。参见图2为特征融合层中的生成对抗网络的训练模型。
具体生成多模态融合特征图流程如下:
S201:考虑到可见光和红外光成像特征输出维度并不一致,因此Darknet53中同一残差模块提取出的可见光模态和红外光模态特征图需要各自先输入到对应多模态特征融合层的DCL(Dimension Conversion Layer,维度转换层)中。DCL将输入的可见光模态特征图压缩转换到一个指定维度,然后加权传递到Concat(张量拼接)层。由于可见光模态特征图中包含的特征信息更为丰富,而红外光模态特征图中的特性信息较少,所以初步融合的特征图中可见光模态的特征比重较大。基于此,DCL将输入的红外光模态特征图压缩转换到一个指定维度,然后加权分别传递到Concat(张量拼接)层和鉴别器。红外光模态特征图经过DCL输出的特征图传递到鉴别器,作为其真实样本的特征输入。
S202: Concat(张量拼接)层输出初步的多模态融合特征图,每个尺度输出的初步融合特征图为:
Figure 128443DEST_PATH_IMAGE012
其中,
Figure 805541DEST_PATH_IMAGE004
是级联拼接函数,
Figure 918990DEST_PATH_IMAGE005
是DCL层的输出函数,
Figure 781904DEST_PATH_IMAGE006
是指定权值;
S203: 训练条件生成对抗网络时,初步融合特征图会与一个指定分布(一般为高斯分布)噪声源产生的同维度噪声进行张量相加,然后输入到生成器网络中。生成器网络会生成多模态融合特征图传递给鉴别器网络,作为其伪样本的特征输入。
根据生成对抗网络博弈论的思想,在对抗训练的过程中,生成器生成的多模态融合特征图会逐渐包含更多的红外信息以起到目标强化和提高融合效果的作用。训练过程的优化目标函数为:
Figure 193163DEST_PATH_IMAGE013
其中,
Figure 254660DEST_PATH_IMAGE008
是分布函数的期望值,
Figure 476694DEST_PATH_IMAGE009
为真实数据分布,
Figure 76171DEST_PATH_IMAGE010
为噪声分布,D是鉴别器,G是生成器,z是噪声。
经训练过后抽取出的生成器网络,输入经过DCL + Concat的初步融合特征图会生成接近于真实情况的多模态融合特征图,分别记为
Figure 104170DEST_PATH_IMAGE014
,并传递到下面的YOLO层继续进行目标检测的工作。
为了方便和更多图像特征的保留,该实施例将维度转换DCL目标边长分别设置为76、38和19。以最小尺寸大小的特征图为例,它会经过其所对应的多模态特征融合层,输出长宽通道数为19*19*1024的融合特征图,设为
Figure 223436DEST_PATH_IMAGE015
S3:将三个多模态特征融合层输出的融合特征图输入到各自的YOLO层中进行目标检测任务,输出检测结果,具体步骤如下:
S301:将多模态融合特征图中内含中等尺度目标的多模态融合特征图
Figure 413109DEST_PATH_IMAGE015
通过五个网络结构最小组件CBL,因为该特征图感受野较大,所以传递给YOLO1,输出较大目标的检测结果;
S302:将步骤S301中经过五个CBL输出的特征图进行上采样 + 一个CBL层处理,然后执行与多模态融合特征图中内含中等尺度目标的多模态融合特征图N2输出进行张量拼接Concat,拼接后的特征图经过五个CBL层处理,因为该输出特征图感受野中等,所以传递给YOLO2,输出中等尺度目标的检测结果;
S303:将步骤S302中五个CBL输出的特征图进行上采样+一个CBL层处理,然后执行与多模态融合特征图中内含小尺度目标的多模态融合特征图N1行张量拼接Concat,拼接后的特征图经过五个CBL层处理,因为该输出特征图感受野较小,所以传递给YOLO3,输出小尺度目标的检测结果。
在本实施例中,特征图
Figure 499882DEST_PATH_IMAGE015
会在后续经过一系列的卷积层后进入YOLO1层,通过大小为(4+1+80)×3的卷积核进行目标边界框预测,其中4表示描述边界框的参数数量,1表示目标置信度参数的个数,80表示检测类别数量,3表示默认预设边界框数量。最终该支路会输出大小为19*19*255的特征图。根据实施步骤S301,该实施例就可以从中对大尺度的目标进行相应的检测。
本发明在可见光模态与红外光模态特征图的融合过程中采用基于条件生成对抗网络,根据博弈论思想使生成其中的特征分布逐渐趋近于鉴别器网络输入的特征数据,从而产生最大程度接近于真实状况下的融合特征向量,从而提高目标检测模型在夜间环境下的检测效果。
本发明在具体实施时,做好各类型状况下可见光和红外光成像设备的输出图像数据准备,并训练好相应的特征提取网络、用于特征融合的生成对抗网络以及目标检测网络,之后在实际场景下同时输入可见光图像和红外光图像检测其中存在的目标。
本发明采用并行Darknet53特征提取网络,利用特征金字塔网络结构思想,从不同模态的图像中提取出具有尺度针对性的特征图。并基于条件生成对抗网络构建多模态多尺度的特征融合层,将图像相同尺度下的各个模态特征图进行融合,输出多模态融合特征图。最后利用YOLO目标检测算法对最大程度还原真实状况的融合特征图进行分类别检测,从中检测出多种尺度下的图像目标。该方法特别适合在夜间等恶劣环境下的目标检测工作,显著地解决了传统目标检测算法在类似场景下的不足。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.基于生成对抗网络的多模态多尺度特征融合目标检测方法,其特征在于,包括以下步骤:
S1:使用两个并行的预训练Darknet53网络作为特征提取网络,将可见光摄像设备和红外光摄像设备生成的图像分别传入到并行的预训练Darknet53网络中,对可见光摄像设备输出的可见光图像和红外光摄像设备输出的红外光图像进行多尺度特征提取,对图像中的大尺度目标进行深层次的特征提取,对小尺度目标进行浅层次的特征提取,输出相应的特征图;
S2:构建基于条件生成对抗网络的特征融合层,并使用可见光和红外光模态的样本数据训练鉴别器和生成器,经训练后的多模态融合特征层会根据实际输入的可见光特征图和红外光特征图共同导出融合更多目标特征信息的模态融合特征图,包括如下步骤:
S201: Darknet53网络中同一残差模块提取出的可见光模态和红外光模态特征图先输入到对应多模态特征融合层的维度转换层中,维度转换层将输入的可见光模态特征图压缩转换到一个指定维度,然后加权传递到Concat层,维度转换层将输入的红外光模态特征图压缩转换到一个指定维度,然后加权分别传递到Concat层和鉴别器;其中,红外光模态特征图经过维度转换层输出的特征图传递到鉴别器,作为其真实样本的特征输入;
S202: Concat层输出初步的多模态融合特征图,每个尺度输出的初步融合特征图为:
Figure 218914DEST_PATH_IMAGE001
其中,
Figure 136055DEST_PATH_IMAGE002
是级联拼接函数,
Figure 853475DEST_PATH_IMAGE003
是维度转换层的输出函数,
Figure 248684DEST_PATH_IMAGE004
是指定权值,
Figure 250007DEST_PATH_IMAGE005
是可见光图像输出的特征图,
Figure 10153DEST_PATH_IMAGE006
红外光图像输出的特征图;
S203: 训练条件生成对抗网络时,初步融合特征图与一个指定分布噪声源产生的同维度噪声进行张量相加,然后输入到生成器网络中,生成多模态融合特征图传递给鉴别器网络,作为其伪样本的特征输入;
S3:将生成的多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务,包括如下步骤:
S301:将多模态融合特征图中内含大尺度目标的多模态融合特征图通过五个网络结构最小组件CBL,传递给YOLO1,输出较大目标的检测结果;
S302:将S301中经过五个CBL输出的特征图进行上采样+一个CBL层处理,然后执行与多模态融合特征图中内含中等尺度目标的多模态融合特征图进行张量拼接Concat,拼接后的特征图经过五个CBL层处理,传递给YOLO2,输出中等尺度目标的检测结果;
S303: 将S302中五个CBL输出的特征图进行上采样+一个CBL层处理,然后执行与多模态融合特征图中内含小尺度目标的多模态融合特征图进行张量拼接Concat,拼接后的特征图经过五个CBL层处理,传递给YOLO3,输出小尺度目标的检测结果。
2.根据权利要求1所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法,其特征在于,所述Darknet53网络由五个残差模块组成,每个所述残差模块内部包含一个网络结构最小组件CBL和若干个残差组件,每个所述残差模块根据其所包含的残差组件数量被记为ResX。
3.根据权利要求2所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法,其特征在于,每一个所述残差组件由两个网络结构中最小组件CBL和一个张量相加add操作组成。
4.根据权利要求1所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法,其特征在于,所述并行的预训练Darknet53网络的两个分支会在最后三个残差模块中分别输出提取三个多尺度特征图,根据所输入的图像类型,将可见光图像输出的特征图分别记作
Figure 277186DEST_PATH_IMAGE007
,红外光图像输出的特征图分别记作
Figure 663037DEST_PATH_IMAGE008
5.根据权利要求1所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法,其特征在于,在对抗训练的过程中,生成器生成的多模态融合特征图会逐渐包含更多的红外信息以起到目标强化和提高融合效果的作用,训练过程的优化目标函数为:
Figure 331916DEST_PATH_IMAGE009
其中,
Figure 262962DEST_PATH_IMAGE010
是分布函数的期望值,
Figure 204243DEST_PATH_IMAGE011
为真实数据分布,
Figure 941254DEST_PATH_IMAGE012
为噪声分布。
6.根据权利要求5所述的基于生成对抗网络的多模态多尺度特征融合目标检测方法,其特征在于,经训练过后抽取出的生成器网络,输入经过维度转换 + Concat的初步融合特征图会生成接近于真实情况的多模态融合特征图,并传递到下面的YOLO层继续进行目标检测的工作。
CN202110878261.3A 2021-08-02 2021-08-02 基于生成对抗网络的多模态多尺度特征融合目标检测方法 Active CN113627504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878261.3A CN113627504B (zh) 2021-08-02 2021-08-02 基于生成对抗网络的多模态多尺度特征融合目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878261.3A CN113627504B (zh) 2021-08-02 2021-08-02 基于生成对抗网络的多模态多尺度特征融合目标检测方法

Publications (2)

Publication Number Publication Date
CN113627504A CN113627504A (zh) 2021-11-09
CN113627504B true CN113627504B (zh) 2022-06-14

Family

ID=78382060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878261.3A Active CN113627504B (zh) 2021-08-02 2021-08-02 基于生成对抗网络的多模态多尺度特征融合目标检测方法

Country Status (1)

Country Link
CN (1) CN113627504B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372944B (zh) * 2021-12-30 2024-05-17 深圳大学 一种多模态和多尺度融合的候选区域生成方法及相关装置
CN117671472B (zh) * 2024-01-31 2024-05-14 吉林大学 一种基于动态视觉传感器的水下多目标群体识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325931A (zh) * 2018-08-22 2019-02-12 中北大学 基于生成对抗网络和超分辨率网络的多模态图像融合方法
CN112541483A (zh) * 2020-12-25 2021-03-23 三峡大学 Yolo和分块-融合策略结合的稠密人脸检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034369A (zh) * 2018-06-26 2018-12-18 陕西师范大学 一种基于深度卷积生成式对抗网络的桥梁裂缝图像生成模型
CN109118467B (zh) * 2018-08-31 2021-11-16 武汉大学 基于生成对抗网络的红外与可见光图像融合方法
CN110322423B (zh) * 2019-04-29 2023-03-31 天津大学 一种基于图像融合的多模态图像目标检测方法
CN111145131B (zh) * 2019-11-28 2023-05-26 中国矿业大学 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法
CN111767882A (zh) * 2020-07-06 2020-10-13 江南大学 一种基于改进yolo模型的多模态行人检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325931A (zh) * 2018-08-22 2019-02-12 中北大学 基于生成对抗网络和超分辨率网络的多模态图像融合方法
CN112541483A (zh) * 2020-12-25 2021-03-23 三峡大学 Yolo和分块-融合策略结合的稠密人脸检测方法

Also Published As

Publication number Publication date
CN113627504A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN109522819B (zh) 一种基于深度学习的火灾图像识别方法
CN109685072B (zh) 一种基于生成对抗网络的复合降质图像高质量重建方法
Kim et al. High-speed drone detection based on yolo-v8
CN108780508A (zh) 用于归一化图像的系统和方法
CN113627504B (zh) 基于生成对抗网络的多模态多尺度特征融合目标检测方法
CN112424795B (zh) 人脸防伪方法、处理器芯片及电子设备
CN109801232A (zh) 一种基于深度学习的单幅图像去雾方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
Yao et al. CGNet: Detecting computer-generated images based on transfer learning with attention module
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN111242868B (zh) 暗视觉环境下基于卷积神经网络的图像增强方法
CN115457428A (zh) 融入可调节坐标残差注意力的改进YOLOv5火灾检测方法及装置
CN114463677B (zh) 一种基于全局注意力的安全帽配戴检测方法
CN114998757A (zh) 用于无人机航摄图像分析的目标检测方法
Li et al. Fire flame image detection based on transfer learning
Xu et al. Tackling small data challenges in visual fire detection: a deep convolutional generative adversarial network approach
CN117237994B (zh) 一种油气作业区人员计数及行为检测方法、装置及系统
CN112818774A (zh) 一种活体检测方法及装置
CN116645711A (zh) 一种基于YOLOv5的复杂场景人脸检测方法
CN112215122B (zh) 基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质
Thiruthanigesan et al. Suspicious Object Detection in Environments with Tear Gas
Gao et al. Study of improved Yolov5 algorithms for gesture recognition
CN113486734B (zh) 一种步态识别方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant