CN112508863A

CN112508863A - 一种基于rgb图像和msr图像双通道的目标检测方法

Info

Publication number: CN112508863A
Application number: CN202011306712.8A
Authority: CN
Inventors: 向友君; 董庆州; 童逸轩; 李乐民; 傅予力
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-03-16
Anticipated expiration: 2040-11-20
Also published as: CN112508863B

Abstract

本发明公开了一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于，包括以下步骤：S1、通过在原始RGB图像上应用灰度化和MSR(Multi Scale Retinex)算法，得到具有颜色恒常性的MSR图像；S2、对于步骤S1得到的原始RGB图像和MSR图像，分别采用特征金字塔网络(Feature Pyramid Networks，FPN)模型对图像进行深度特征的学习S3、通过注意力机制对原始RGB图像和MSR图像的特征进行特征融合；S4、通过Focal Loss和DIoU Loss对特征金字塔网络模型进行分类和回归过程进行监督；S5、利用特征金字塔网络模型对预测目标进行检测。

Description

一种基于RGB图像和MSR图像双通道的目标检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于RGB图像和MSR图像双通道的目标检测方法。

背景技术

如今，目标检测是计算机视觉和图像处理的一个重要方向，它可以利用一些现有的算法，将目标进行识别、定位和分割。计算机通过对目标的自动识别，减少了对人力资本的消耗，同时大大缩短了工程项目的时间，提高了现代技术应用的效率。因此，目标检测具有重大的现实意义。其广泛应用于生物识别、步态识别、人群的统计计数、实例分割、工业检测、智能视频监控、航空航天、医学手术器械定位等诸多领域。正是因为目标检测的巨大发展潜力，它成为了近年来研究人员们研究计算机视觉及图像处理理论和应用的热门方向。

目前，目标检测的发展较为成熟，但这些方法大多都是基于原始的RGB图像进行训练和检测。RGB图像具有很好的纹理信息，在训练过程中可以很好的学习到目标的细节部分。但是由于拍摄图片的设备、光照以及角度的不同，RGB图像对于光照较为敏感，这会大大影响目标检测的性能，在很多应用场景下不能很好的发挥作用(比如对于无人机拍摄的图片会有很强的光照的变化)。

为了配合目标检测的发展，许多关于图像处理的研究也同时在进行着。旨在改善图像的视觉效果，有目的性地强调图像的某些特点或具体部分，同时，也为了增强目标检测的准确性和可靠性，提高目标检测的检测效率，一种图像增强技术MSR(Multi ScaleRetinex)算法得到了发展，并受到了计算机视觉领域的研究人员们的高度关注。

发明内容

有鉴于此，本发明实施例提供一种基于RGB图像和MSR图像双通道的目标检测方法，将原始RGB图像以及MSR图像作为双通道输入到网络中学习特征，并通过注意力机制将特征进行融合，以解决光照对于目标检测任务性能的影响。

本发明实施例提供了一种基于RGB图像和MSR图像双通道的目标检测方法，包括以下步骤：

一种基于RGB图像和MSR图像双通道的目标检测方法，包括以下步骤：

S1、通过在原始RGB图像上应用灰度化和MSR(Multi Scale Retinex)算法，得到具有颜色恒常性的MSR图像；

S2、对于步骤S1得到的原始RGB图像和MSR图像，分别采用特征金字塔网络(Feature Pyramid Networks，FPN)模型对其进行深度特征的学习；

S3、通过注意力机制对原始RGB图像和MSR图像的特征进行特征融合；

S4、通过Focal Loss和DIoU Loss对网络训练的分类和回归过程进行监督；

S5、利用特征金字塔网络模型对预测目标进行检测。

优选的，步骤S1具体为：

S11、对原始图像进行灰度化，得到灰度图像S(x,y)；

S12、对步骤S11得到的灰度图像应用到三个不同尺度的SSR(Single ScaleRetinex)算

法上；

S13、对步骤S12得到的不同尺度的SSR图像通过加权求和得到具有颜色恒常性的MSR图像。

优选的，步骤S11包括确定上中下三种高斯环绕尺度。

优选的，所述灰度图像公式如下：

S(x,y)＝R(x,y)·L(x,y)

其中R(x,y)表示MSR图像，L(x,y)为入射图像，是入射光作用在物体上的图像，同时R(x,y)和L(x,y)包含不同的频率分量，R(x,y)侧重于高频成分，L(x,y)侧重于低频成分。

优选的，所述MSR图像获取如下：

log[S(x,y)]＝log[R(x,y)]+log[L(x,y)]

L(x,y)通过中心环绕函数F(x,y)和灰度图像S(x,y)卷积生成，故SSR图像R_i(x,y)由如下公式求得：

log[R_i(x,y)]＝log S(x,y)-log[S(x,y)*F_i(x,y)]

其中F(x,y)可取高斯滤波器：

其中，c为高斯环绕尺度，K取值应满足：

∫∫F(x,y)dxdy＝1

最后，MSR图像R(x,y)由SSR图像R_i(x,y)和权重a_i加权求和得到，公式为：

优选的，所述FPN模型通过h个Bottleneck单元块、f*f最大池化层和全连接层进行组合得到骨干网络Resnet-50架构，其中每个Bottleneck单元块包括两层一层点卷积层和位于两层一层点卷积层中间的一层深度卷积层。

优选的，骨干网络Resnet-50由s层卷积层组成，第j层卷积层的输出为特征图C_j，C_j将作为FPN模型的输入，定义五个级别的FPN特征图为{P₃,P₄,P₅,P₆,P₇}，其中第一级别FPN特征图P₃、第二级别FPN特征图P₄和第三级别FPN特征图P₅是由对应的骨干网络Resnet-50的特征图C₃、C₄和C₅生成的，骨干网络获得的特征图C_j经过一个1×1的卷积核，并将高层的FPN特征图P_j+1上采样后和C_j相加得到P_j，第四级别FPN特征图P₆、第五级别FPN特征图P₇分别由第三级别FPN特征P₅、第四级别FPN特征图P₆经过一个1×1步长为2的卷积核得到。

优选的，所述步骤S3具体为：给定一组特征{f_k,k＝1,...,N}，f_i表示特征组，N示特征的数量，将学习与特征对应的一组权重{ω_k,k＝1,...,N}以生成聚合特征v：

其中，表示ω_k学习等式的权重，要融合的是RGB图像的深度特征f_RGB和MSR图像的深度特征f_MSR，为了学习权重ω_k，首先要学习具有与f_k相同维数的内核q，内核q通过点积操作过滤特征向量，生成的向量d_k表示相应特征的重要性：

d_k＝q^Tf_k

为了将重要性转换为权重ω_k，

将向量d_k传递给softmax运算，并获得所有正权重ω_k：

其中，S表示特征向量的个数，s＝1～N。

优选的，使用Focal Loss对分类网络分支进行监督，公式如下：

其中，p是预测标签，y是真实标签，α、γ分别为需要网络学习的超参数；

使用DIoU Loss对回归网络分支进行监督，公式如下：

其中，A和B为预测框和真实框，b是预测框的中心点，b^gt是Ground Truth的中心点，ρ²(b,b^gt)代表两个中心点的欧式距离平方，c²是能包含预测框和真实框的最小矩形框的对角线长度的平方。

优选的，步骤S5具体为将图像灰度化、获取MSR图像这两个操作衔接在数据输入与FPN网络模型之间，将原始RGB图像作为整个网络模型的输入可得到预测目标的分类以及矩形框的位置

综上所述，相较于现有技术，发明具有以下优点：

1.本发明在传统使用RGB图像进行检测的基础上加入了MSR图像。RGB图像和MSR图像是互补的：RGB图像具有详细的纹理信息，但是对光照较为敏感，而MSR图像具有较少的纹理信息，但是可以提取高频信息成分，同时对光照不敏感。

2.本发明采用了注意力机制将RGB和MSR通道学习到的特征更好地融合到一起，从而获得更好地性能。

附图说明

图1为本实施例一种基于RGB图像和MSR图像双通道的目标检测方法的流程图；

图2为本实施例MSR算法流程图；

图3为本实施例Resnet-50生成骨干网络结构图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本实施例的一种基于RGB图像和MSR图像双通道的目标检测方法，包括以下步骤：

S1.通过在原RGB图像上应用灰度化和MSR算法，得到具有颜色恒常性的MSR图像。

首先将原始图像灰度化，得到灰度图像S(x,y)，(x,y)代表像素点的坐标，再通过MSR算法得到MSR图像R(x,y)，其中MSR算法框图如图2所示，MSR在灰度图像S(x,y)上应用3个不同尺度的SSR算法，并将得到的不同尺度SSR图像R_i(x,y)根据权值ω_i加权求和得到具有颜色恒常性的MSR图像R(x,y)。

具体而言，所述灰度图像公式如下：

S(x,y)＝R(x,y)·L(x,y)

其中R(x,y)表示MSR图像，L(x,y)也称为入射图像，是入射光作用在物体上的图像，反映物质受环境光的影响。同时R(x,y)和L(x,y)包含不同的频率分量。R(x,y)侧重于高频成分，L(x,y)侧重于低频成分。

MSR图像公式如下：

log[S(x,y)]＝log[R(x,y)]+log[L(x,y)]

L(x,y)可通过中心环绕函数F(x,y)和原图像S(x,y)卷积生成，故SSR图像R_i(x,y)可由如下公式求得：

log[R_i(x,y)]＝log S(x,y)-log[S(x,y)*F_i(x,y)]

其中F(x,y)可取高斯滤波器：

其中，c为高斯环绕尺度，本实施例中c分别取15、80、120，K取值应满足：

∫∫F(x,y)dxdy＝1

最后，MSR图像R(x,y)可由SSR图像R_i(x,y)和权重a_i加权求和得到，公式为：

在本实例中n取3，表示上中下三种尺度的SSR。为了取得良好的泛化性能，权值a_i分别为1/3、1/3、1/3。

S2.对于步骤S1得到的MSR图像和原RGB图像，分别采用FPN模型对其进行深度特征的学习。

S21.通过Resnet-50生成骨干网络的特征映射，通过16个Bottleneck单元块、一个7*7最大池化层和一个全连接层进行组合得到一个骨干网络架构，其中Bottleneck单元块的具体组成以及顺序为：一层点卷积层，一层深度卷积层，最后再经过一层点卷积层。

具体的，Resnet-50由5层卷积层组成，第j层卷积层的输出为特征图C_j。C_j将作为FPN算法的输入。

具体的，如表1所示，Resnet-50的5层卷积层的具体组成为：

第一层C₁：由7*7*64步长为2的卷积核组成；

第二层C₂：由3*3步长为2的最大池化和3组1*1*64卷积核、3*3*64卷积核和1*1*256卷积核为一组的卷积层组成；

第三层C₃：由4组1*1*128卷积核、3*3*128卷积核和1*1*512卷积核为一组的卷积层组成；

第四层C₄：由6组1*1*256卷积核、3*3*256卷积核和1*1*1024卷积核为一组的卷积层组成；

第五层C₅：由3组1*1*512卷积核、3*3*512卷积核和1*1*2048卷积核为一组的卷积层组成。

其中所有卷积核作用后的输出都要连接批归一化层和ReLU激活函数。

表1Resnet-50生成骨干网络结构数据表

S22.使用FPN算法利用特征映射生成用于最终预测的FPN特征映射。

具体的，定义五个级别的FPN特征图为{P₃,P₄,P₅,P₆,P₇}，其中第一级别FPN特征图P₃、第二级别FPN特征图P₄和第三级别FPN特征图P₅是由对应的骨干网络Resnet-50的特征图C₃、C₄和C₅生成的，。具体的，骨干网络获得的特征图C_j经过一个1×1的卷积核，并将高层的FPN特征图P_j+1上采样后和C_j相加得到P_j。P₆、P₇分别由P₅、P₆经过一个1×1步长为2的卷积核得到。

S23.无锚检测器边框回归方式。

对特征图上的点直接预测其到真实框四条边的距离p_r＝(l,r,t,b)，(l,r,t,b分别代表特征图上的点到预测框左边、右边、顶边和底边的距离)。设框中某一点的坐标为(x,y)，Ground Truth(真实框)的左上角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，则训练过程中该位置的回归目标为：

l＝x-x₁，r＝x₂-x,t＝y-y₁,b＝y₂-y

S24.正负样本确定方式：

在无锚分支里，对特征图上的点直接预测其到四条边的距离，因此每一点成为划分正负样本的最小单元。首先，遍历五张特征图{P₃,P₄,P₅,P₆,P₇}上的所有点，若该点映射回原图后落在真实框内，则将该样本点视为正样本。对于特征图P_j上上任意一点(x,y)，采用如下公式将其映射回原图上的点(x',y')：

其中，s是特征图P_i对应的下采样步长。

在FPN网络结构中共有5层特征图构成的金字塔，根据各层特征图大小设定6个阈值m₂,m₃,m₄,m₅,m₆,m₇＝0,32,64,128,256,∞，m_j代表特征图P_j上的点所能回归的最大距离。

遍历所有特征图上的每个位置以计算其回归目标，并取得回归目标的最大值m，其中m＝max(l,r,t,b)。如果m满足m＞m_j或m＜m_j-1，此位置设置为负样本，并且不会进行回归预测。该操作使得大目标将在较高级别的特征图上进行预测，而较小的目标将在较低级别的特征图上进行预测，并且由于目标的大小不同，重叠区域中的位置将分配给不同的特征级别。在目标大小相似且重叠的复杂情况下，只需将重叠区域中的目标分配给面积较小的Ground Truth即可。

S3.通过注意力机制对原RGB图像和MSR图像的特征进行特征融合。

给定一组特征{f_k,k＝1,...,N}，将学习与特征对应的一组权重{ω_k,k＝1,...,N}以生成聚合特征v，公式如下：

注意力方法的关键部分是学习上面公式的权重ω_k，在本次任务中，N＝2，要融合的特征是RGB图像的深度特征f_RGB和MSR图像的深度特征f_MSR。为了学习权重ω_k，首先要学习具有与f_k相同维数的内核q。q通过点积操作过滤特征向量，生成的向量d_k表示相应特征的重要性，公式如下：

d_k＝q^Tf_k

为了将重要性转换为权重

将d_i传递给softmax运算，并获得所有正权重ω_k，公式如下：

其中s＝2。

S4.通过Focal Loss和DIoU Loss对网络训练的分类和回归过程进行监督。

具体的，使用Focal Loss对分类网络分支进行监督，公式如下：

其中，p是预测标签，y是真实标签，α,γ分别为需要网络学习的超参数。

使用DIoU Loss对回归网络分支进行监督，公式如下：

其中，A和B为预测框和真实框,b是预测框的中心点，b^gt是Ground Truth的中心点，ρ²(b,b^gt)代表两个中心点的欧式距离平方，c²是能包含两个框的最小矩形框的对角线长度的平方。S5.通过将上述步骤进行整合，利用特征金字塔网络模型对预测目标进行检测，实现一个端到端的目标检测系统。

具体为将图像灰度化、获取MSR图像这两个操作衔接在数据输入与网络模型之间，只需将图像作为系统的输入即可得到预测目标的分类以及矩形框位置的结果，从而实现系统的端到端功能。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于，包括以下步骤：

S2、对于步骤S1得到的原始RGB图像和MSR图像，分别采用特征金字塔网络(FeaturePyramid Networks，FPN)模型对图像进行深度特征的学习；

S4、通过Focal Loss和DIoU Loss对特征金字塔网络模型进行分类和回归过程进行监督；

S5、利用特征金字塔网络模型对预测目标进行检测。

2.根据权利要求1所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：步骤S1具体为：

S11、对原始图像进行灰度化，得到灰度图像S(x,y)；

S12、对步骤S11得到的灰度图像应用到三个不同尺度的SSR(Single Scale Retinex)算法上；

3.根据权利要求2所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：步骤S11包括确定上中下三种高斯环绕尺度。

4.根据权利要求3所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：所述灰度图像公式如下：

S(x,y)＝R(x,y)·L(x,y)

5.根据权利要4所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：所述MSR图像获取如下：

log[S(x,y)]＝log[R(x,y)]+log[L(x,y)]

log[R_i(x,y)]＝logS(x,y)-log[S(x,y)*F_i(x,y)]

其中F(x,y)可取高斯滤波器：

其中，c为高斯环绕尺度，K取值应满足：

∫∫F(x,y)dxdy＝1

6.根据权利要5所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：所述FPN模型通过h个Bottleneck单元块、f*f最大池化层和全连接层进行组合得到骨干网络Resnet-50架构，其中每个Bottleneck单元块包括两层一层点卷积层和位于两层一层点卷积层中间的一层深度卷积层。

7.根据权利要6所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：骨干网络Resnet-50由s层卷积层组成，第j层卷积层的输出为特征图C_j，C_j将作为FPN模型的输入，定义五个级别的FPN特征图为{P₃,P₄,P₅,P₆,P₇}，其中第一级别FPN特征图P₃、第二级别FPN特征图P₄和第三级别FPN特征图P₅是由对应的骨干网络Resnet-50的特征图C₃、C₄和C₅生成的，骨干网络获得的特征图C_j经过一个1×1的卷积核，并将高层的FPN特征图P_j+1上采样后和C_j相加得到P_j，第四级别FPN特征图P₆、第五级别FPN特征图P₇分别由第三级别FPN特征P₅、第四级别FPN特征图P₆经过一个1×1步长为2的卷积核得到。

8.根据权利要求7所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：所述步骤S3具体为：给定一组特征{f_k,k＝1,...,N}，f_i表示特征组，N示特征的数量，将学习与特征对应的一组权重{ω_k,k＝1,...,N}以生成聚合特征v：

d_k＝q^Tf_k

为了将重要性转换为权重ω_k，

将向量d_k传递给softmax运算，并获得所有正权重ω_k：

其中，S表示特征向量的个数，s＝1～N。

9.根据权利要8所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：使用FocalLoss对分类网络分支进行监督，公式如下：

使用DIoU Loss对回归网络分支进行监督，公式如下：

10.根据权利要9所述的一种基于RGB图像和MSR图像双通道的目标检测方法，其特征在于：步骤S5具体为将图像灰度化、获取MSR图像这两个操作衔接在数据输入与FPN网络模型之间，将原始RGB图像作为整个网络模型的输入可得到预测目标的分类以及矩形框的位置。