CN112508863A - 一种基于rgb图像和msr图像双通道的目标检测方法 - Google Patents

一种基于rgb图像和msr图像双通道的目标检测方法 Download PDF

Info

Publication number
CN112508863A
CN112508863A CN202011306712.8A CN202011306712A CN112508863A CN 112508863 A CN112508863 A CN 112508863A CN 202011306712 A CN202011306712 A CN 202011306712A CN 112508863 A CN112508863 A CN 112508863A
Authority
CN
China
Prior art keywords
image
msr
feature
rgb image
fpn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011306712.8A
Other languages
English (en)
Other versions
CN112508863B (zh
Inventor
向友君
董庆州
童逸轩
李乐民
傅予力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011306712.8A priority Critical patent/CN112508863B/zh
Publication of CN112508863A publication Critical patent/CN112508863A/zh
Application granted granted Critical
Publication of CN112508863B publication Critical patent/CN112508863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于,包括以下步骤:S1、通过在原始RGB图像上应用灰度化和MSR(Multi Scale Retinex)算法,得到具有颜色恒常性的MSR图像;S2、对于步骤S1得到的原始RGB图像和MSR图像,分别采用特征金字塔网络(Feature Pyramid Networks,FPN)模型对图像进行深度特征的学习S3、通过注意力机制对原始RGB图像和MSR图像的特征进行特征融合;S4、通过Focal Loss和DIoU Loss对特征金字塔网络模型进行分类和回归过程进行监督;S5、利用特征金字塔网络模型对预测目标进行检测。

Description

一种基于RGB图像和MSR图像双通道的目标检测方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于RGB图像和MSR图像双通道的目标检测方法。
背景技术
如今,目标检测是计算机视觉和图像处理的一个重要方向,它可以利用一些现有的算法,将目标进行识别、定位和分割。计算机通过对目标的自动识别,减少了对人力资本的消耗,同时大大缩短了工程项目的时间,提高了现代技术应用的效率。因此,目标检测具有重大的现实意义。其广泛应用于生物识别、步态识别、人群的统计计数、实例分割、工业检测、智能视频监控、航空航天、医学手术器械定位等诸多领域。正是因为目标检测的巨大发展潜力,它成为了近年来研究人员们研究计算机视觉及图像处理理论和应用的热门方向。
目前,目标检测的发展较为成熟,但这些方法大多都是基于原始的RGB图像进行训练和检测。RGB图像具有很好的纹理信息,在训练过程中可以很好的学习到目标的细节部分。但是由于拍摄图片的设备、光照以及角度的不同,RGB图像对于光照较为敏感,这会大大影响目标检测的性能,在很多应用场景下不能很好的发挥作用(比如对于无人机拍摄的图片会有很强的光照的变化)。
为了配合目标检测的发展,许多关于图像处理的研究也同时在进行着。旨在改善图像的视觉效果,有目的性地强调图像的某些特点或具体部分,同时,也为了增强目标检测的准确性和可靠性,提高目标检测的检测效率,一种图像增强技术MSR(Multi ScaleRetinex)算法得到了发展,并受到了计算机视觉领域的研究人员们的高度关注。
发明内容
有鉴于此,本发明实施例提供一种基于RGB图像和MSR图像双通道的目标检测方法,将原始RGB图像以及MSR图像作为双通道输入到网络中学习特征,并通过注意力机制将特征进行融合,以解决光照对于目标检测任务性能的影响。
本发明实施例提供了一种基于RGB图像和MSR图像双通道的目标检测方法,包括以下步骤:
一种基于RGB图像和MSR图像双通道的目标检测方法,包括以下步骤:
S1、通过在原始RGB图像上应用灰度化和MSR(Multi Scale Retinex)算法,得到具有颜色恒常性的MSR图像;
S2、对于步骤S1得到的原始RGB图像和MSR图像,分别采用特征金字塔网络(Feature Pyramid Networks,FPN)模型对其进行深度特征的学习;
S3、通过注意力机制对原始RGB图像和MSR图像的特征进行特征融合;
S4、通过Focal Loss和DIoU Loss对网络训练的分类和回归过程进行监督;
S5、利用特征金字塔网络模型对预测目标进行检测。
优选的,步骤S1具体为:
S11、对原始图像进行灰度化,得到灰度图像S(x,y);
S12、对步骤S11得到的灰度图像应用到三个不同尺度的SSR(Single ScaleRetinex)算
法上;
S13、对步骤S12得到的不同尺度的SSR图像通过加权求和得到具有颜色恒常性的MSR图像。
优选的,步骤S11包括确定上中下三种高斯环绕尺度。
优选的,所述灰度图像公式如下:
S(x,y)=R(x,y)·L(x,y)
其中R(x,y)表示MSR图像,L(x,y)为入射图像,是入射光作用在物体上的图像,同时R(x,y)和L(x,y)包含不同的频率分量,R(x,y)侧重于高频成分,L(x,y)侧重于低频成分。
优选的,所述MSR图像获取如下:
log[S(x,y)]=log[R(x,y)]+log[L(x,y)]
L(x,y)通过中心环绕函数F(x,y)和灰度图像S(x,y)卷积生成,故SSR图像Ri(x,y)由如下公式求得:
log[Ri(x,y)]=log S(x,y)-log[S(x,y)*Fi(x,y)]
其中F(x,y)可取高斯滤波器:
Figure BDA0002788522590000021
其中,c为高斯环绕尺度,K取值应满足:
∫∫F(x,y)dxdy=1
最后,MSR图像R(x,y)由SSR图像Ri(x,y)和权重ai加权求和得到,公式为:
Figure BDA0002788522590000031
优选的,所述FPN模型通过h个Bottleneck单元块、f*f最大池化层和全连接层进行组合得到骨干网络Resnet-50架构,其中每个Bottleneck单元块包括两层一层点卷积层和位于两层一层点卷积层中间的一层深度卷积层。
优选的,骨干网络Resnet-50由s层卷积层组成,第j层卷积层的输出为特征图Cj,Cj将作为FPN模型的输入,定义五个级别的FPN特征图为{P3,P4,P5,P6,P7},其中第一级别FPN特征图P3、第二级别FPN特征图P4和第三级别FPN特征图P5是由对应的骨干网络Resnet-50的特征图C3、C4和C5生成的,骨干网络获得的特征图Cj经过一个1×1的卷积核,并将高层的FPN特征图Pj+1上采样后和Cj相加得到Pj,第四级别FPN特征图P6、第五级别FPN特征图P7分别由第三级别FPN特征P5、第四级别FPN特征图P6经过一个1×1步长为2的卷积核得到。
优选的,所述步骤S3具体为:给定一组特征{fk,k=1,...,N},fi表示特征组,N示特征的数量,将学习与特征对应的一组权重{ωk,k=1,...,N}以生成聚合特征v:
Figure BDA0002788522590000032
其中,表示ωk学习等式的权重,要融合的是RGB图像的深度特征fRGB和MSR图像的深度特征fMSR,为了学习权重ωk,首先要学习具有与fk相同维数的内核q,内核q通过点积操作过滤特征向量,生成的向量dk表示相应特征的重要性:
dk=qTfk
为了将重要性转换为权重ωk
Figure BDA0002788522590000033
将向量dk传递给softmax运算,并获得所有正权重ωk
Figure BDA0002788522590000034
其中,S表示特征向量的个数,s=1~N。
优选的,使用Focal Loss对分类网络分支进行监督,公式如下:
Figure BDA0002788522590000041
其中,p是预测标签,y是真实标签,α、γ分别为需要网络学习的超参数;
使用DIoU Loss对回归网络分支进行监督,公式如下:
Figure BDA0002788522590000042
其中,A和B为预测框和真实框,b是预测框的中心点,bgt是Ground Truth的中心点,ρ2(b,bgt)代表两个中心点的欧式距离平方,c2是能包含预测框和真实框的最小矩形框的对角线长度的平方。
优选的,步骤S5具体为将图像灰度化、获取MSR图像这两个操作衔接在数据输入与FPN网络模型之间,将原始RGB图像作为整个网络模型的输入可得到预测目标的分类以及矩形框的位置
综上所述,相较于现有技术,发明具有以下优点:
1.本发明在传统使用RGB图像进行检测的基础上加入了MSR图像。RGB图像和MSR图像是互补的:RGB图像具有详细的纹理信息,但是对光照较为敏感,而MSR图像具有较少的纹理信息,但是可以提取高频信息成分,同时对光照不敏感。
2.本发明采用了注意力机制将RGB和MSR通道学习到的特征更好地融合到一起,从而获得更好地性能。
附图说明
图1为本实施例一种基于RGB图像和MSR图像双通道的目标检测方法的流程图;
图2为本实施例MSR算法流程图;
图3为本实施例Resnet-50生成骨干网络结构图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,本实施例的一种基于RGB图像和MSR图像双通道的目标检测方法,包括以下步骤:
S1.通过在原RGB图像上应用灰度化和MSR算法,得到具有颜色恒常性的MSR图像。
首先将原始图像灰度化,得到灰度图像S(x,y),(x,y)代表像素点的坐标,再通过MSR算法得到MSR图像R(x,y),其中MSR算法框图如图2所示,MSR在灰度图像S(x,y)上应用3个不同尺度的SSR算法,并将得到的不同尺度SSR图像Ri(x,y)根据权值ωi加权求和得到具有颜色恒常性的MSR图像R(x,y)。
具体而言,所述灰度图像公式如下:
S(x,y)=R(x,y)·L(x,y)
其中R(x,y)表示MSR图像,L(x,y)也称为入射图像,是入射光作用在物体上的图像,反映物质受环境光的影响。同时R(x,y)和L(x,y)包含不同的频率分量。R(x,y)侧重于高频成分,L(x,y)侧重于低频成分。
MSR图像公式如下:
log[S(x,y)]=log[R(x,y)]+log[L(x,y)]
L(x,y)可通过中心环绕函数F(x,y)和原图像S(x,y)卷积生成,故SSR图像Ri(x,y)可由如下公式求得:
log[Ri(x,y)]=log S(x,y)-log[S(x,y)*Fi(x,y)]
其中F(x,y)可取高斯滤波器:
Figure BDA0002788522590000052
其中,c为高斯环绕尺度,本实施例中c分别取15、80、120,K取值应满足:
∫∫F(x,y)dxdy=1
最后,MSR图像R(x,y)可由SSR图像Ri(x,y)和权重ai加权求和得到,公式为:
Figure BDA0002788522590000051
在本实例中n取3,表示上中下三种尺度的SSR。为了取得良好的泛化性能,权值ai分别为1/3、1/3、1/3。
S2.对于步骤S1得到的MSR图像和原RGB图像,分别采用FPN模型对其进行深度特征的学习。
S21.通过Resnet-50生成骨干网络的特征映射,通过16个Bottleneck单元块、一个7*7最大池化层和一个全连接层进行组合得到一个骨干网络架构,其中Bottleneck单元块的具体组成以及顺序为:一层点卷积层,一层深度卷积层,最后再经过一层点卷积层。
具体的,Resnet-50由5层卷积层组成,第j层卷积层的输出为特征图Cj。Cj将作为FPN算法的输入。
具体的,如表1所示,Resnet-50的5层卷积层的具体组成为:
第一层C1:由7*7*64步长为2的卷积核组成;
第二层C2:由3*3步长为2的最大池化和3组1*1*64卷积核、3*3*64卷积核和1*1*256卷积核为一组的卷积层组成;
第三层C3:由4组1*1*128卷积核、3*3*128卷积核和1*1*512卷积核为一组的卷积层组成;
第四层C4:由6组1*1*256卷积核、3*3*256卷积核和1*1*1024卷积核为一组的卷积层组成;
第五层C5:由3组1*1*512卷积核、3*3*512卷积核和1*1*2048卷积核为一组的卷积层组成。
其中所有卷积核作用后的输出都要连接批归一化层和ReLU激活函数。
表1Resnet-50生成骨干网络结构数据表
Figure BDA0002788522590000061
Figure BDA0002788522590000071
S22.使用FPN算法利用特征映射生成用于最终预测的FPN特征映射。
具体的,定义五个级别的FPN特征图为{P3,P4,P5,P6,P7},其中第一级别FPN特征图P3、第二级别FPN特征图P4和第三级别FPN特征图P5是由对应的骨干网络Resnet-50的特征图C3、C4和C5生成的,。具体的,骨干网络获得的特征图Cj经过一个1×1的卷积核,并将高层的FPN特征图Pj+1上采样后和Cj相加得到Pj。P6、P7分别由P5、P6经过一个1×1步长为2的卷积核得到。
S23.无锚检测器边框回归方式。
对特征图上的点直接预测其到真实框四条边的距离pr=(l,r,t,b),(l,r,t,b分别代表特征图上的点到预测框左边、右边、顶边和底边的距离)。设框中某一点的坐标为(x,y),Ground Truth(真实框)的左上角坐标为(x1,y1),右下角坐标为(x2,y2),则训练过程中该位置的回归目标为:
l=x-x1,r=x2-x,t=y-y1,b=y2-y
S24.正负样本确定方式:
在无锚分支里,对特征图上的点直接预测其到四条边的距离,因此每一点成为划分正负样本的最小单元。首先,遍历五张特征图{P3,P4,P5,P6,P7}上的所有点,若该点映射回原图后落在真实框内,则将该样本点视为正样本。对于特征图Pj上上任意一点(x,y),采用如下公式将其映射回原图上的点(x',y'):
Figure BDA0002788522590000072
其中,s是特征图Pi对应的下采样步长。
在FPN网络结构中共有5层特征图构成的金字塔,根据各层特征图大小设定6个阈值m2,m3,m4,m5,m6,m7=0,32,64,128,256,∞,mj代表特征图Pj上的点所能回归的最大距离。
遍历所有特征图上的每个位置以计算其回归目标,并取得回归目标的最大值m,其中m=max(l,r,t,b)。如果m满足m>mj或m<mj-1,此位置设置为负样本,并且不会进行回归预测。该操作使得大目标将在较高级别的特征图上进行预测,而较小的目标将在较低级别的特征图上进行预测,并且由于目标的大小不同,重叠区域中的位置将分配给不同的特征级别。在目标大小相似且重叠的复杂情况下,只需将重叠区域中的目标分配给面积较小的Ground Truth即可。
S3.通过注意力机制对原RGB图像和MSR图像的特征进行特征融合。
给定一组特征{fk,k=1,...,N},将学习与特征对应的一组权重{ωk,k=1,...,N}以生成聚合特征v,公式如下:
Figure BDA0002788522590000081
注意力方法的关键部分是学习上面公式的权重ωk,在本次任务中,N=2,要融合的特征是RGB图像的深度特征fRGB和MSR图像的深度特征fMSR。为了学习权重ωk,首先要学习具有与fk相同维数的内核q。q通过点积操作过滤特征向量,生成的向量dk表示相应特征的重要性,公式如下:
dk=qTfk
为了将重要性转换为权重
Figure BDA0002788522590000082
将di传递给softmax运算,并获得所有正权重ωk,公式如下:
Figure BDA0002788522590000083
其中s=2。
S4.通过Focal Loss和DIoU Loss对网络训练的分类和回归过程进行监督。
具体的,使用Focal Loss对分类网络分支进行监督,公式如下:
Figure BDA0002788522590000091
其中,p是预测标签,y是真实标签,α,γ分别为需要网络学习的超参数。
使用DIoU Loss对回归网络分支进行监督,公式如下:
Figure BDA0002788522590000092
其中,A和B为预测框和真实框,b是预测框的中心点,bgt是Ground Truth的中心点,ρ2(b,bgt)代表两个中心点的欧式距离平方,c2是能包含两个框的最小矩形框的对角线长度的平方。S5.通过将上述步骤进行整合,利用特征金字塔网络模型对预测目标进行检测,实现一个端到端的目标检测系统。
具体为将图像灰度化、获取MSR图像这两个操作衔接在数据输入与网络模型之间,只需将图像作为系统的输入即可得到预测目标的分类以及矩形框位置的结果,从而实现系统的端到端功能。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于,包括以下步骤:
S1、通过在原始RGB图像上应用灰度化和MSR(Multi Scale Retinex)算法,得到具有颜色恒常性的MSR图像;
S2、对于步骤S1得到的原始RGB图像和MSR图像,分别采用特征金字塔网络(FeaturePyramid Networks,FPN)模型对图像进行深度特征的学习;
S3、通过注意力机制对原始RGB图像和MSR图像的特征进行特征融合;
S4、通过Focal Loss和DIoU Loss对特征金字塔网络模型进行分类和回归过程进行监督;
S5、利用特征金字塔网络模型对预测目标进行检测。
2.根据权利要求1所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:步骤S1具体为:
S11、对原始图像进行灰度化,得到灰度图像S(x,y);
S12、对步骤S11得到的灰度图像应用到三个不同尺度的SSR(Single Scale Retinex)算法上;
S13、对步骤S12得到的不同尺度的SSR图像通过加权求和得到具有颜色恒常性的MSR图像。
3.根据权利要求2所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:步骤S11包括确定上中下三种高斯环绕尺度。
4.根据权利要求3所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:所述灰度图像公式如下:
S(x,y)=R(x,y)·L(x,y)
其中R(x,y)表示MSR图像,L(x,y)为入射图像,是入射光作用在物体上的图像,同时R(x,y)和L(x,y)包含不同的频率分量,R(x,y)侧重于高频成分,L(x,y)侧重于低频成分。
5.根据权利要4所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:所述MSR图像获取如下:
log[S(x,y)]=log[R(x,y)]+log[L(x,y)]
L(x,y)通过中心环绕函数F(x,y)和灰度图像S(x,y)卷积生成,故SSR图像Ri(x,y)由如下公式求得:
log[Ri(x,y)]=logS(x,y)-log[S(x,y)*Fi(x,y)]
其中F(x,y)可取高斯滤波器:
Figure FDA0002788522580000021
其中,c为高斯环绕尺度,K取值应满足:
∫∫F(x,y)dxdy=1
最后,MSR图像R(x,y)由SSR图像Ri(x,y)和权重ai加权求和得到,公式为:
Figure FDA0002788522580000022
6.根据权利要5所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:所述FPN模型通过h个Bottleneck单元块、f*f最大池化层和全连接层进行组合得到骨干网络Resnet-50架构,其中每个Bottleneck单元块包括两层一层点卷积层和位于两层一层点卷积层中间的一层深度卷积层。
7.根据权利要6所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:骨干网络Resnet-50由s层卷积层组成,第j层卷积层的输出为特征图Cj,Cj将作为FPN模型的输入,定义五个级别的FPN特征图为{P3,P4,P5,P6,P7},其中第一级别FPN特征图P3、第二级别FPN特征图P4和第三级别FPN特征图P5是由对应的骨干网络Resnet-50的特征图C3、C4和C5生成的,骨干网络获得的特征图Cj经过一个1×1的卷积核,并将高层的FPN特征图Pj+1上采样后和Cj相加得到Pj,第四级别FPN特征图P6、第五级别FPN特征图P7分别由第三级别FPN特征P5、第四级别FPN特征图P6经过一个1×1步长为2的卷积核得到。
8.根据权利要求7所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:所述步骤S3具体为:给定一组特征{fk,k=1,...,N},fi表示特征组,N示特征的数量,将学习与特征对应的一组权重{ωk,k=1,...,N}以生成聚合特征v:
Figure FDA0002788522580000023
其中,表示ωk学习等式的权重,要融合的是RGB图像的深度特征fRGB和MSR图像的深度特征fMSR,为了学习权重ωk,首先要学习具有与fk相同维数的内核q,内核q通过点积操作过滤特征向量,生成的向量dk表示相应特征的重要性:
dk=qTfk
为了将重要性转换为权重ωk
Figure FDA0002788522580000031
将向量dk传递给softmax运算,并获得所有正权重ωk
Figure FDA0002788522580000032
其中,S表示特征向量的个数,s=1~N。
9.根据权利要8所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:使用FocalLoss对分类网络分支进行监督,公式如下:
Figure FDA0002788522580000033
其中,p是预测标签,y是真实标签,α、γ分别为需要网络学习的超参数;
使用DIoU Loss对回归网络分支进行监督,公式如下:
Figure FDA0002788522580000034
其中,A和B为预测框和真实框,b是预测框的中心点,bgt是Ground Truth的中心点,ρ2(b,bgt)代表两个中心点的欧式距离平方,c2是能包含预测框和真实框的最小矩形框的对角线长度的平方。
10.根据权利要9所述的一种基于RGB图像和MSR图像双通道的目标检测方法,其特征在于:步骤S5具体为将图像灰度化、获取MSR图像这两个操作衔接在数据输入与FPN网络模型之间,将原始RGB图像作为整个网络模型的输入可得到预测目标的分类以及矩形框的位置。
CN202011306712.8A 2020-11-20 2020-11-20 一种基于rgb图像和msr图像双通道的目标检测方法 Active CN112508863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011306712.8A CN112508863B (zh) 2020-11-20 2020-11-20 一种基于rgb图像和msr图像双通道的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011306712.8A CN112508863B (zh) 2020-11-20 2020-11-20 一种基于rgb图像和msr图像双通道的目标检测方法

Publications (2)

Publication Number Publication Date
CN112508863A true CN112508863A (zh) 2021-03-16
CN112508863B CN112508863B (zh) 2023-07-18

Family

ID=74958940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011306712.8A Active CN112508863B (zh) 2020-11-20 2020-11-20 一种基于rgb图像和msr图像双通道的目标检测方法

Country Status (1)

Country Link
CN (1) CN112508863B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240653A (zh) * 2021-05-19 2021-08-10 中国联合网络通信集团有限公司 大米质量检测方法、装置、服务器及系统
CN113822927A (zh) * 2021-09-22 2021-12-21 易联众智鼎(厦门)科技有限公司 一种适用弱质量图像的人脸检测方法、装置、介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222396A (zh) * 2019-10-23 2020-06-02 江苏大学 一种全天候多光谱行人检测方法
CN111461110A (zh) * 2020-03-02 2020-07-28 华南理工大学 一种基于多尺度图像和加权融合损失的小目标检测方法
CN111652247A (zh) * 2020-05-28 2020-09-11 大连海事大学 一种基于深度卷积神经网络的双翅目昆虫识别方法
CN111666836A (zh) * 2020-05-22 2020-09-15 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222396A (zh) * 2019-10-23 2020-06-02 江苏大学 一种全天候多光谱行人检测方法
CN111461110A (zh) * 2020-03-02 2020-07-28 华南理工大学 一种基于多尺度图像和加权融合损失的小目标检测方法
CN111666836A (zh) * 2020-05-22 2020-09-15 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN111652247A (zh) * 2020-05-28 2020-09-11 大连海事大学 一种基于深度卷积神经网络的双翅目昆虫识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240653A (zh) * 2021-05-19 2021-08-10 中国联合网络通信集团有限公司 大米质量检测方法、装置、服务器及系统
CN113822927A (zh) * 2021-09-22 2021-12-21 易联众智鼎(厦门)科技有限公司 一种适用弱质量图像的人脸检测方法、装置、介质及设备
CN113822927B (zh) * 2021-09-22 2024-01-23 易联众智鼎(厦门)科技有限公司 一种适用弱质量图像的人脸检测方法、装置、介质及设备

Also Published As

Publication number Publication date
CN112508863B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN110378381B (zh) 物体检测方法、装置和计算机存储介质
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
Melekhov et al. Image-based localization using hourglass networks
CN111291809B (zh) 一种处理装置、方法及存储介质
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
WO2021147325A1 (zh) 一种物体检测方法、装置以及存储介质
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN110288555B (zh) 一种基于改进的胶囊网络的低照度增强方法
Cepni et al. Vehicle detection using different deep learning algorithms from image sequence
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
Huang et al. Multiple objects tracking in the UAV system based on hierarchical deep high-resolution network
CN113221731B (zh) 一种多尺度遥感图像目标检测方法及系统
CN112508863B (zh) 一种基于rgb图像和msr图像双通道的目标检测方法
CN116704273A (zh) 一种自适应红外可见光双模融合检测方法
CN110222718A (zh) 图像处理的方法及装置
CN111145145A (zh) 一种基于MobileNets的图像表面缺陷检测方法
CN112084897A (zh) 一种gs-ssd的交通大场景车辆目标快速检测方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
Wu et al. Fish Target Detection in Underwater Blurred Scenes Based on Improved YOLOv5
Zhu et al. PODB: A learning-based polarimetric object detection benchmark for road scenes in adverse weather conditions
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant