CN111222396B

CN111222396B - 一种全天候多光谱行人检测方法

Info

Publication number: CN111222396B
Application number: CN201911011783.2A
Authority: CN
Inventors: 沈继锋; 韦浩; 左欣; 孙俊
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-07-18
Anticipated expiration: 2039-10-23
Also published as: CN111222396A

Abstract

本发明提供了一种全天候多光谱行人检测方法，分别采用可见光和红外相机采集全天候行人图像数据，将获得的红外和可见光图像数据集训练出两个RetinaNet网络模型，该网络模型内的特征采集网络为VGG16，训练后得到的两个网络模型分别记为RetinaNet‑C和RetinaNet‑T，截取这两个网络模型的特征采集网络的参数作为本次特征采集网络的初始化权重；将RetinaNet网络模型划分为双分支特征提取网络VGG16、特征金字塔FPN和双分支的分类回归网络的主体框架，最后进行网络测试，将测试集作为与预训练模型的输入，输出即为检测结果。本方法采用无锚框生成策略，参数较少，并且网络去掉了全连接层，采用全卷积网络，因此检测速度会非常快。

Description

一种全天候多光谱行人检测方法

技术领域

本发明涉及智能网联汽车应用平台的行人的自动检测技术。属于车辆智能检测技术领域。

背景技术

近年来多光谱行人检测是计算机视觉领域比较火热的研究课题，精度与速度一直以来是评判行人检测算法的两个重要标准。但由于目前的行人检测算法在精度和速度上都有所欠缺，很难移植到移动端，所以此类算法还只是停留在实验室阶段。传统的行人检测方法只适用于检测高亮度条件下的行人，而对低光照夜间或者恶劣天气场景下的行人检测效果很差。

发明内容

针对现有技术的不足，本发明提供一种全天候多光谱行人检测算法的优化方法，旨在提升算法的精度和速度。该算法利用可见光和红外图像，基于全卷积网络的多通道特征融合技术，提出一种新的锚框生成机制和低质量锚框抑制算法，使本发明算法能够高效的检测到白天和夜间的行人。

本发明采用的技术方案如下：

一种全天候多光谱行人检测方法，包括以下步骤：

步骤1：分别采用可见光和红外相机采集全天候行人图像数据，将获得的红外和可见光图像数据集训练出两个RetinaNet网络模型，该网络模型内的特征采集网络为VGG16，训练后得到的两个网络模型分别记为RetinaNet-C和RetinaNet-T，截取这两个网络模型的特征采集网络的参数作为本次特征采集网络的初始化权重；

步骤2：将步骤1的RetinaNet网络模型划分为双分支特征提取网络VGG16、特征金字塔FPN和双分支的分类回归网络的主体框架，采用双分支特征提取网络VGG16来提取红外和可见光的特征，为了加强网络对于小目标的识别精度，将特征金字塔FPN融入到网络模型中，接下来对特征金字塔每一层进行卷积，并在双分支的分类回归网络做对此进行分类和回归；

步骤3：网络测试，将测试集作为与预训练模型的输入，输出即为检测结果。

进一步，所述双分支特征提取网络VGG16的具体搭建步骤为：

特征采集网络采用双分支特征提取网络VGG16的网络框架，分别提取红外和可见光的特征，将第二层的可见光和红外光卷积层的特征图先进行基于通道上的叠加，再通过1×1卷积进行降维处理，同样步骤在第三层卷积层、第四层卷积层、第五层卷积层上执行，其初始化的权重为步骤1得到的模型权重，且训练时双分支特征提取网络VGG16的权重不共享。

进一步，将特征金字塔FPN融入到网络模型中的具体搭建步骤为：为了检测图像中小尺寸的行人，使得网络对尺度不敏感，提出了一种金字塔多特征融合方法，先对第三层卷积层，即可见光和红外融合的特征图进行上采样，再与第二层卷积层的可见光和红外融合的特征图相叠加，得到金字塔的第一层，按此步骤继续对第四层卷积层、第五层卷积层执行，每相邻两层特征图进行通道上的叠加，便可得到金字塔的其中一层，最终一共得到三层特征金字塔，并且这三层特征图都包含红外和可见光的融合特征。

进一步，所述双分支的分类回归网络的具体搭建步骤为：已知得到的三层特征金字塔，之后把每一层特征图送入后续网络中进行分类回归处理：金字塔每一层特征图后面加入两分支网络，一分支用来分类，一分支用来回归；且每一分支先对特征图进行4次卷积，主要是消除上采样出现的混叠效应，且卷积核大小为3×3，个数为256。

进一步，整个RetinaNet网络模型的损失函数公式如下：

其中p_x,y为(x,y)像素点的预测框内有目标的概率，为该预测目标真实类别；

t_x,y为点(x,y)处经过网络得出的要回归的四维变量，t^* _x,y为点(x,y)处对应原图的真实标注框，N_pos为正样本的个数，表示只有正样本才计算损失，否则为0，λ为一个超参数，实验中取1。L_cls为分类损失函数，L_reg为回归损失函数。

进一步，步骤2还包括提出一种新的无锚框方法，回归的是目标的左上和中心点的坐标；本网络回归过程是对特征图进行逐像素扫描，每个像素都会回归出4维向量，对应原图生成一个矩形的检测框；因此真实目标框周围会产生大量低质量预测框，为了抑制这些低质量预测框的出现，提出了一种全新的约束损失函数，公式如下：

假设真实标注框的中心点坐标：实际预测框的左上点坐标：(x₁,y₁),中心点坐标:(x₂,y₂)，其中Cscore为一个中心损失函数；预测框中心点与真实标注框中心点距离越小，Cscore越大，反之Cscore越小；假设输入到检测网络的图片尺寸为H*W，将坐标做归一化处理，统一除以输入尺寸，使得/>在0到1之间，则/>的取值范围：/>最终Cscore取值范围：/>这个分支被设在并行于分类分支的下面，该分支输出结果乘上分类得分即为分类总得分，得分太小的会被非极大值抑制算法处理掉。

本发明的技术效果为：由于本算法采用无锚框生成策略，参数较少，并且网络去掉了全连接层，采用全卷积网络，因此检测速度会非常快。再加上特征金字塔的方法和中心损失函数，使得本算法检测精度大幅度提升。具体网络的检测性能可见图3，图4和表1。

本发明算法相比Jinjin Liu提出的双通道faster rcnn算法的优点为：

(1)首先本发明算法采用无锚框机制，真正意义上的端到端训练，并且是全卷积网络，参数较少，网络结构简洁。而faster rcnn采用滑动窗口生成锚框,其锚框大小是由超参数来设定的，并且它的分类回归网络为全连接层，很大程度上消耗了计算资源，所以本算法在速度上领先于Jinjin Liu的算法。

(2)其次本发明算法的特征金子塔网络和一个中心损失函数，在检测小目标上有了很大的提升，而faster rcnn算法对于小目标的检测效果很差，最终在精度上也超越了faster rcnn。本算法运行速度为16FPS，而faster rcnn为11FPS。

附图说明

图1为网络的检测示意图；

图2为网络的整体框架；

图3为实际检测结果；

图4为本发明算法的FPPI曲线；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

本发明提出一种全天候多光谱行人检测的优化方法，算法框架如图2所示，采用以下技术方案：

步骤1，本发明提出了一种新的网络预训练方法，分别用红外和可见光数据集训练两个RetinaNet(特征采集网络为VGG16)网络,用这两个模型的特征采集网络的权重作为本次发明的双通道RetinaNet中VGG16的初始化权重，这样做法有两个优点：一是让模型收敛的更快，二是有助于提高模型的整体性能,并且在训练时双分支特征采集网络(即VGG16)的权重不共享。

步骤2：本发明改进了算法框架，提出一种新的锚框生成机制、低质量边界框抑制算法、模型预训练方法以及多特征融合方法，最终本算法能够在精度和速度上都得到提升，结果如表1。

表1为本算法与Jinjin Liu的双通道faster rcnn性能的比较

步骤2.1：主体框架。本发明算法采用RetinaNet作为网络的主体框架，这个框架主要由三部分组成，双分支特征提取网络(VGG16)、特征金字塔(FPN)和双分支的分类回归网络。之所以采用双分支的VGG16特征采集网络是因为本次发明的算法框架是需要采集红外和可见光两种特征，所以需要双分支特征采集网络来提取红外和可见光的特征。将步骤1得到的权重初始化这双分支VGG16。根据之前学者提出的多光谱行人检测算法，都是只采用特征提取网络最后一层的特征图来检测行人，而诸多实验表明，若只采用最后一层，尺寸较小的行人很难被检测到。因为最后一层虽然有较高级的抽象特征，但缺少了底层特有的细节语义特征。所以本次算法也兼顾了底层特征图的信息，一共用到了4层特征图信息,分别是第二、三、四、五层卷积层特征图。选好特征层之后再进行特征图融合，将第二层卷积层的红外和可见光的特征图进行通道上的叠加，再通过1×1卷积进行降维和特征融合，按此步骤依次对第三、四、五层卷积层执行(如图1)。这样便得到了4层融合红外和可见光的特征图，为接下来的特征金字塔做好准备。其初始化的权重为步骤1得到的模型权重，且训练时两分支VGG16权重不共享。

步骤2.2：特征金字塔(FPN)。为了检测图像中小尺寸的行人，使得网络对尺度不敏感。本算法提出了一种金字塔多特征融合方案，具体步骤为先对第三层卷积层(可见光和红外融合的特征图)进行上采样再与第二层卷积层(可见光和红外融合的特征图)相叠加得到金字塔的第一层，按此步骤继续对第四层卷积层、第五层卷积层执行。每相邻两层特征图进行通道上的叠加，便可得到金字塔的其中一层，最终一共得到三层，并且这三层特征图都包含红外和可见光的融合特征。

考虑到智能网联汽车平台上有许多距离较远的小尺寸行人，为了加强网络对于小目标的识别精度，将特征金字塔方法融入到本算法网络中，并提出了一种多特征的金字塔融合方案。特征金字塔第一层得出的具体步骤是：

(1)已知步骤2得出了第二，三层融合红外和可见光的特征图，先对第三层融合特征图进行1×1卷积，然后用上采样使得它与第二层特征图尺寸和维度保持相等。

(2)再将这两层进行通道上的叠加，便得到特征金字塔的第一层特征图，按此步骤依次对后面三层执行，每相邻两层叠加就会得到金字塔的一层，因此本网络的特征金字塔一共三层。

步骤2.3：分类和回归。已知步骤2.2得到一个特征金字塔(包含三层特征图)，接下来对特征金字塔每一层进行4次卷积(如图2的*4)，卷积核大小为3×3，一共256个，并对此进行分类和回归。具体网络搭建是每一层特征图后面加入两分支网络，一分支用来分类，另一分支用来回归。其中对特征金字塔进行4次卷积的目的是消除上采样出现的混叠效应。其中整个网络的损失函数(这是由Zhi Tian在FCOS这篇论文中提出)的公式如下：

其中p_x,y为(x,y)像素点的预测框内有目标的概率，为该预测目标真实类别。

t_x,y为点(x,y)处经过网络得出的要回归的四维变量，t^* _x,y为点(x,y)处对应原图的真实标注框，N_pos为正样本的个数，表示只有正样本菜计算损失，否则为0，λ为一个超参数，实验中取1。本算法提出一种新的无锚框策略，回归的是目标的左上和中心点的坐标，回归中心点的坐标目的在于更好的定位目标的位置。本算法是在特征图上用逐像素扫描法直接在原图上生成目标框坐标再做回归，因此真实边界框周围会产生许多预测边界框，其中就会有大量低质量的预测框，为了抑制这些低质量预测框的出现，本算法便在此处提出了一个约束损失函数，公式如下：

其中Cscore一个中心损失函数。假设真实标注框的中心点坐标为实际预测框左上点坐标：(x₁,y₁),中心点坐标:(x₂,y₂)，实验中输入到检测网络的图片尺寸为H*W，将坐标做归一化处理，统一除以输入尺寸，使得/>在0到1之间，/>的取值范围/>最终Cscore取值范围：/>预测框中心点到真实边界框中心点距离越小，Cscore越大，反之Cscore越小。这个分支被设在并行于分类分支的下面，这是为了将Cscore结果乘上分类得分，得到总的分类得分，那么中心点偏离过大的Cscore自然很低，最后会被NMS(非极大值抑制算法)排除掉，这就达到了降低低质量预测框数量的目的。

本网络分类损失函数使用focal loss(由Tsung-Yi Lin提出)，该损失函数降低了大量简单负样本在训练中的权重，也可以理解为一种困难样本挖掘，这有助于网络对困难样本的学习。

本网络回归损失函数使用GIoU loss(由Hamid Rezatofifighi提出)。IoU loss的缺点是不能回归IoU＝0的目标，并且对尺度敏感，而GIoU避免了这个缺点。

(3)首先本发明算法采用无锚框机制，真正意义上的端到端训练，并且是全卷积网络，参数较少，网络结构简洁。而faster rcnn采用滑动窗口生成锚框,其锚框大小是由超参数来设定的，并且它的分类回归网络为全连接层，很大程度上消耗了计算资源，所以本算法在速度上领先于Jinjin Liu的算法。

(4)其次本发明算法的特征金子塔网络和一个中心损失函数，在检测小目标上有了很大的提升，而faster rcnn算法对于小目标的检测效果很差，最终在精度上也超越了faster rcnn。本算法运行速度为16FPS，而faster rcnn为11FPS。

实验结果如图3,4，和表1。图3是本算法在一对夜间的红外和可见光图像上测试出的结果；图4是本算法和fatser rcnn在KAIST数据集上测试出的FPPI曲线图；横坐标：平均每张图中能正确检索到目标的数目；纵坐标：丢失率＝测试集正例判别为负例的数目/测试集正例数；表1是本算法与Jinjin Liu的双通道faster rcnn算法性能对比表。

实验结果步骤4：网络测试，示意图如图1所示。成对的红外和可见光图像输入到本算法网络中，可见光图像输入到可见光特征提取网络，红外图像输入到红外特征提出网络中去，再经过本算法网络的后续部分得到输出，并且输出的是一个5维坐标，前四维代表行人的矩形检测框坐标，最后一维代表此处存在行人的概率。测试结果可见图3。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种全天候多光谱行人检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种全天候多光谱行人检测方法，其特征在于，所述双分支特征提取网络VGG16的具体搭建步骤为：

3.根据权利要求1所述的一种全天候多光谱行人检测方法，其特征在于，将特征金字塔FPN融入到网络模型中的具体搭建步骤为：先对第三层卷积层，即可见光和红外融合的特征图进行上采样，再与第二层卷积层的可见光和红外融合的特征图相叠加，得到金字塔的第一层，按此步骤继续对第四层卷积层、第五层卷积层执行，每相邻两层特征图进行通道上的叠加，便可得到金字塔的其中一层，最终一共得到三层特征金字塔，并且这三层特征图都包含红外和可见光的融合特征。

4.根据权利要求3所述的一种全天候多光谱行人检测方法，其特征在于，所述双分支的分类回归网络的具体搭建步骤为：已知得到的三层特征金字塔，之后把每一层特征图送入后续网络中进行分类回归处理：金字塔每一层特征图后面加入两分支网络，一分支用来分类，一分支用来回归；且每一分支先对特征图进行4次卷积，主要是消除上采样出现的混叠效应，且卷积核大小为3×3，个数为256。

5.根据权利要求1所述的一种全天候多光谱行人检测方法，其特征在于，整个RetinaNet网络模型的损失函数公式如下：

其中p_x,y为(x,y)像素点的预测框内有目标的概率，为预测目标真实类别；

t _x,y为点(x,y)处经过网络得出的要回归的四维变量，t^* _x,y为点(x,y)处对应原图的真实标注框，N_pos为正样本的个数，1_{C*x,y＞0}表示只有正样本才计算损失，否则为0，λ为一个超参数，实验中取1，L_cls为分类损失函数，L_reg为回归损失函数。

6.根据权利要求1所述的一种全天候多光谱行人检测方法，其特征在于，网络回归过程是对特征图进行逐像素扫描，每个像素都会回归出4维向量，对应原图生成一个矩形的检测框；其对应一种全新的约束损失函数，公式如下：

假设真实标注框的中心点坐标：实际预测框的左上点坐标：(x₁,y₁),中心点坐标:(x₂,y₂)，其中Cscore为一个中心损失函数；预测框中心点与真实标注框中心点距离越小，Cscore越大，反之Cscore越小；假设输入到检测网络的图片尺寸为H*W，将坐标做归一化处理，统一除以输入尺寸，使得/>在0到1之间，则/>的取值范围：最终Cscore取值范围：/>这个分支被设在并行于分类分支的下面，该分支输出结果乘上分类得分即为分类总得分，得分太小的会被非极大值抑制算法处理掉。