CN111898427A

CN111898427A - 一种基于特征融合深度神经网络的多光谱行人检测方法

Info

Publication number: CN111898427A
Application number: CN202010573215.8A
Authority: CN
Inventors: 耿杰; 周书倩; 蒋雯; 邓鑫洋; 孙祎芸; 田欣雨; 杨艺云; 宋丽娜
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-11-06

Abstract

本发明公开了一种基于特征融合深度神经网络的多光谱行人检测方法，包括以下步骤：步骤一、分别提取多光谱图像的特征信息；步骤二、特征信息融合得到第三张量；步骤三、对第三张量进行卷积操作，得到第四张量；步骤四、改进Faster R‑CNN网络作为行人检测模型；步骤五、将第四张量输入到改进后的Faster R‑CNN算法中，输出行人检测结果。本发明结构简单、设计合理，融合可见光图像和红外图像的特征信息形成互补，采用focal loss损失函数改进Faster R‑CNN算法中RCNN的交叉熵损失函数，不仅解决正负样本不平衡的问题，而且合理度量难分类和易分类样本，采用KL loss损失函数改进Faster R‑CNN算法的边框回归损失函数，降低边界框回归器在模糊边界框上的损失。

Description

一种基于特征融合深度神经网络的多光谱行人检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于特征融合深度神经网络的多光谱行人检测方法。

背景技术

随着大数据时代的到来，计算机视觉在我们生活的方方面面都得到广泛应用，它是一门通过使用计算机代替人眼，对目标进行检测识别跟踪等目的学科。基于计算机视觉的行人检测是自动驾驶、夜间驾驶应用中非常重要的一部分。行人检测作为目标检测的一个重要分支，是对图像或者视频中的行人进行检测，目的在于确定行人的位置和大小，从而可用于后续目标轨迹分析，对于规范交通减少车辆事故，提高车辆流动效率，减少能源损耗和排放等方面都有着非常重要的作用。

全时段的行人检测技术是车载视觉系统中非常重要的模式，但目前国内的绝大多数车载视觉系统都是基于可见光来实现行人检测，而这种系统在夜间行驶中存在很大的弊端。

红外成像主要是利用红外摄像机采集目标与背景的自身辐射热量的情况，其根据不同的红外光源，可以分为被动和主动红外技术。在国内红外摄像起步比较晚，在2003年才开始快速发展，因为造价较高，主要用于军事方面，民用较少。被动红外技术是根据目标与背景的不同热辐度强度形成图像，利用目标和背景之间的温度差来突出目标。被动红外热像仪接收的工作波段为8～14um，而人体发出的红外线波段为9.3um，因此红外图像成为基于视觉进行全时段行人检测的重要手段。红外成像技术有许多可见光成像技术没有的优点，它不受光照条件的变化，对夜晚目标识别有帮助，有穿透雾、霾、烟的能力，不受闪光、强光的影响，并在夜间也能正常工作，比可见光图像有更广的适用面。

现如今人们对驾驶安全的要求越来越高，基于可见光来实现行人检测的系统在全时段的应用弊端已经成为计算机视觉领域的重要解决问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于特征融合深度神经网络的多光谱行人检测方法，其结构简单、设计合理，融合可见光图像和红外图像的特征信息，可以弥补各自的缺陷，采用focal loss损失函数改进Faster R-CNN目标检测网络中RCNN的交叉熵损失函数，不仅解决正负样本不平衡的问题，而且合理度量难分类和易分类样本，采用KL loss损失函数改进Faster R-CNN目标检测网络的边框回归损失函数，降低边界框回归器在模糊边界框上的损失。

为解决上述技术问题，本发明采用的技术方案是：一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于，包括以下步骤：

步骤一、分别提取多光谱图像的特征信息：

步骤101、提取可见光图像的特征信息，得到第一张量；

步骤102、提取红外图像的特征信息，得到第二张量；

步骤二、特征信息融合：对第一张量和第二张量进行融合得到第三张量；

步骤三、对第三张量进行卷积操作，得到第四张量；

步骤四、改进Faster R-CNN网络作为行人检测模型：

步骤401、采用focal loss损失函数改进Faster R-CNN目标检测网络中RCNN的交叉熵损失函数；

步骤402、采用KL loss损失函数改进Faster R-CNN目标检测网络的边框回归损失函数；

步骤五、将第四张量输入到改进后的Faster R-CNN目标检测网络中，输出行人检测结果。

上述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：步骤四中的交叉熵损失函数表示为：FL(p_t)＝-a_t(1-p_t)^γlog(p_t)，其中(1-p_t)^γ表示调制系数，

y表示样本标签，p表示图像特征属于正样本的概率，a_t表示权重系数，

a表示图像特征属于正样本的权重。

上述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：参数γ取值为2，参数a取值为0.25。

上述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：步骤五中的边框回归损失函数表示为：L_reg＝D_KL(P_D(x)||P_θ(x))，其中P_D(x)表示通过狄拉克函数得到的样本的标准分布，P_θ(x)表示通过高斯函数得到的样本的最小化预测分布，D_KL表示KL散度。

上述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：边框回归损失函数的最小化预测分布

其中σ表示标准差，x_e表示估计的边界框位置。

上述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：边框回归损失函数的标准分布P_D(x)＝δ(x-x_g)，其中x_g表示真实边界框位置。

上述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：步骤一和步骤二中的提取特征采用Faster R-CNN目标检测网络的基础网络模块，基础网络模块可以使用在图片分类任务上预训练好的卷积神经网络VGG16或ResNet。

上述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：所述第一张量、第二张量和第三张量均为四阶张量。

上述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：步骤三中对第三张量进行卷积操作采用m×m卷积核进行卷积，卷积个数为512。

本发明与现有技术相比具有以下优点：

1、本发明的结构简单、设计合理，实现及使用操作方便。

2、本发明将可见光和红外图像实现特征融合来完成两者信息的互补，降低基于Faster R-CNN网络模型的多光谱图像算法的漏检率。

3、本发明采用focal loss损失函数改进Faster R-CNN算法中RCNN的交叉熵损失函数，引入权重系数a_t用于控制正负样本对总的损失函数的共享权重，解决正负样本不平衡的问题；引入调制系数(1-p_t)^γ，通过控制调制系数(1-p_t)^γ合理度量难分类和易分类样本对总的损失的贡献。

4、本发明采用KL loss损失函数改进Faster R-CNN算法的边框回归损失函数，当估计的边界框位置x_e不准确时，会得到更大的方差σ²，从边框回归损失函数L_reg可知，L_reg会被拉低，让边界框回归器在模糊边界框上得到的损失更小。

综上所述，本发明结构简单、设计合理，融合可见光图像和红外图像的特征信息形成互补，采用focal loss损失函数改进Faster R-CNN算法中RCNN的交叉熵损失函数，不仅解决正负样本不平衡的问题，而且合理度量难分类和易分类样本，采用KL loss损失函数改进Faster R-CNN算法的边框回归损失函数，降低边界框回归器在模糊边界框上的损失。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

需要说明的是，在不冲突的情况下，本方法中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本方法的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本方法的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本方法的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

如图1所示，本发明包括以下步骤：

步骤一、分别提取多光谱图像的特征信息：

实际使用时，红外图像采集模块用于采集区域内的红外图像；可见光图像采集模块用于采集区域内的可见光图像。红外图像采集模块和可见光图像采集模块的镜头需要安装在相同位置，用于采集同一场景下相同语义的图像。实际使用时，对每一个目标同时采集可见光图像和红外图像，即对于每一个场景都有一张可用的可见光图像和红外图像。其中v张为可见光图像样本，u张为红外图像样本，v＝u，v为正整数。

步骤101、提取可见光图像的特征信息，得到第一张量；

步骤102、提取红外图像的特征信息，得到第二张量。

可见光波段能更多地反映目标中的颜色和纹理等细节信息，但受照明情况的影响较大，容易导致晚上图像不清晰。红外波段根据行人目标和背景的不同热幅度强度形成图像，抗干扰能力强，但分辨率较低。因此本方法同时使用可见光图像和红外图像，实现两者图像携带信息的互补。

本实施例中步骤一中提取特征采用Faster R-CNN目标检测网络的基础网络模块，基础网络模块可以使用在图片分类任务上预训练好的卷积神经网络VGG16、ResNet或其他卷积神经网络。具体实施时，本方法采用VGG16网络。

本方法使用的预训练的卷积神经网络VGG16是基于可见光图像获得的，可见光图像为三通道彩色图像，例如RGB图片即为三通道彩色图像，因此第一个卷积层的卷积核通道数为3。为了方便后续步骤进行特征信息融合，我们将红外图像采集模块得到的单通道灰度图转换为三通道的灰度图，使其能够输入到预训练的卷积神经网络VGG16中。

单通道灰度图转换为三通道灰度图的做法有很多种，本实施例中采用OpenCV平台进行转换。OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库，OpenCV里有将灰度图转为三通道RGB的应用程序。

可见光图像经过VGG16网络进行特征提取后，得到大小为(1，38，47，512)的第一张量，红外图像经过VGG16网络进行特征提取后，得到大小为(1，38，47，512)的第二张量。

步骤二、特征信息融合：对第一张量和第二张量进行融合得到第三张量。实际使用时，进行融合的第一张量和第二张量分别对应具有相同语义的可见光图像和红外图像，将大小为(1，38，47，512)的第一张量和大小为(1，38，47，512)的第二张量进行拼接，形成大小为(1，38，47，1024)的第三张量，并将融合后的第三张量确定为用于表征目标在该语义下的特征信息，实现了可见光图像和红外图像的图像融合，完成了两者的信息互补，使得第三张量既具有可见光图像携带的场景细节信息，又具有红外图像携带的温度信息，可以弥补各自的缺陷，提高了对目标的识别能力，行人检测效果更加客观真实和可靠，使用效果好。

步骤三、对第三张量进行卷积操作，得到第四张量。实际实施时，将第三张量输入到一个卷积核大小为1×1、卷积个数为512的卷积层进行卷积，得到第四张量。

对第三张量进行卷积操作，是为了提取第三张量中更高维的特征信心，卷积完成后得到的第四张量大小缩小为(1，38，47，512)。

步骤四、改进Faster R-CNN网络作为行人检测模型：

传统的Faster R-CNN网络中，分类损失函数使用的是交叉熵损失函数，对于交叉熵损失函数来说，如果训练集和测试集的正例比例不同，那么模型越复杂，越接近临界值的样本，即越难判断结果的样本就越容易受到训练集中正例比例的影响而偏离真实分布，这会导致检测目标和背景的不平衡，因此本方法对传统的Faster R-CNN网络中的RCNN的交叉熵损失函数进行改进，RPN的交叉熵损失函数保持不变。

步骤401、采用focal loss损失函数改进Faster R-CNN目标检测网络中RCNN的交叉熵损失函数，交叉熵损失函数表示为：FL(p_t)＝-a_t(1-p_t)^γlog(p_t)，其中(1-p_t)^γ表示调制系数，

a表示图像特征属于正样本的权重。

训练集和测试集的类型存在不平衡的问题，Faster R-CNN网络在训练的时候正负样本的数量差距很大，所以在交叉熵损失函数中引入权重系数a_t，权重系数a_t用于控制正负样本对总的损失函数的共享权重，降低了出现频次多的负样本的权重，提高了出现频次少的正样本的权重，解决了正负样本不平衡的问题。

同时，本方法中，对于难分类样本和易样本，引入调制系数(1-p_t)^γ。当参数γ取值为0时，由于任何一个非零数的零次方为1，因此调制系数(1-p_t)^γ不对损失函数产生影响。

当参数γ增加的时候，调制系数(1-p_t)^γ也会增加。对于易分类样本来说，p_t取值越大，调制系数(1-p_t)^γ越小。针对难分类样本，p_t取值越小，调制系数(1-p_t)^γ越大，使得Faster R-CNN网络倾向于利用这样的样本来进行参数的更新。focal loss损失函数通过控制调制系数(1-p_t)^γ合理度量难分类和易分类样本对总的损失的贡献。

经过多次实验观察，当参数a取值为0.25、参数γ取值为2时得到的检测效果最好，因此本方法在参数γ取值为2时构造调制系数(1-p_t)^γ。

步骤402、采用KL loss损失函数改进Faster R-CNN目标检测网络的边框回归损失函数，边框回归损失函数表示为：L_reg＝D_KL(P_D(x)||P_θ(x))，其中P_D(x)表示通过狄拉克函数得到的样本的标准分布，P_θ(x)表示通过高斯函数得到的样本的最小化预测分布，D_KL表示KL散度。

本方法中，边框回归损失函数的最小化预测分布

其中σ表示标准差，x_e表示估计的边界框位置。边框回归损失函数的标准分布P_D(x)＝δ(x-x_g)，其中x_g表示真实边界框位置。

传统的Faster R-CNN网络中，边框回归损失函数使用的是Smooth L1损失函数，其对离群点、异常值(outlier)不敏感，梯度变化相对更小，训练时不容易跑飞，但是SmoothL1损失函数没有考虑到边界框回归器在边界框的模糊性。因此本方法构建新的边框回归损失函数，采用KL散度作为损失函数，输入通过狄拉克函数得到的样本的标准分布P_D(x)与通过高斯函数得到的样本的最小化预测分布P_θ(x)之间的KL散度，得到预测样本标记的概率分布。

当估计的边界框位置x_e不准确时，会得到更大的方差σ²，从边框回归损失函数L_reg可知，L_reg会被拉低，让边界框回归器在模糊边界框上得到的损失更小。

实际使用时，使用步骤401中的focal loss损失函数改进Faster R-CNN算法中RCNN的交叉熵损失函数，使用步骤402中的KL loss损失函数改进Faster R-CNN算法的边框回归损失函数，构成一个统一Faster R-CNN目标检测网络。

将待检测的第四张量输入到Faster R-CNN目标检测网络，Faster R-CNN目标检测网络自动进行候选区域生成、特征提取、候选区域分类以及位置精修，然后输出行人检测结果，可以实现全时段的行人检测，降低了基于Faster R-CNN网络的漏检率，使用效果好。

以上所述，仅是本发明的实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于，包括以下步骤：

步骤一、分别提取多光谱图像的特征信息：

步骤101、提取可见光图像的特征信息，得到第一张量；

步骤102、提取红外图像的特征信息，得到第二张量；

步骤三、对第三张量进行卷积操作，得到第四张量；

步骤四、改进Faster R-CNN网络作为行人检测模型：

2.按照权利要求1所述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：步骤四中的交叉熵损失函数表示为：

FL(p_t)＝-a_t(1-p_t)^γlog(p_t)，其中(1-p_t)^γ表示调制系数，

a表示图像特征属于正样本的权重。

3.按照权利要求2所述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：参数γ取值为2，参数a取值为0.25。

4.按照权利要求1所述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：步骤五中的边框回归损失函数表示为：

L_reg＝D_KL(P_D(x)||P_θ(x))，其中P_D(x)表示通过狄拉克函数得到的样本的标准分布，P_θ(x)表示通过高斯函数得到的样本的最小化预测分布，D_KL表示KL散度。

5.按照权利要求4所述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：边框回归损失函数的最小化预测分布

其中σ表示标准差，x_e表示估计的边界框位置。

6.按照权利要求4所述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：边框回归损失函数的标准分布P_D(x)＝δ(x-x_g)，其中x_g表示真实边界框位置。

7.按照权利要求1所述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：步骤一和步骤二中的提取特征采用Faster R-CNN目标检测网络的基础网络模块，基础网络模块可以使用在图片分类任务上预训练好的卷积神经网络VGG16或ResNet。

8.按照权利要求1所述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：所述第一张量、第二张量和第三张量均为四阶张量。

9.按照权利要求1所述的一种基于特征融合深度神经网络的多光谱行人检测方法，其特征在于：步骤三中对第三张量进行卷积操作采用m×m卷积核进行卷积，卷积个数为512。