CN110956094A

CN110956094A - 一种基于非对称双流网络的rgb-d多模态融合人员检测方法

Info

Publication number: CN110956094A
Application number: CN201911090619.5A
Authority: CN
Inventors: 张文利; 郭向; 杨堃; 王佳琪
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-11-09
Filing date: 2019-11-09
Publication date: 2020-04-03
Anticipated expiration: 2039-11-09
Also published as: WO2021088300A1; CN110956094B

Abstract

本发明公开了一种基于非对称双流网络的RGB‑D多模态融合人员检测方法，属于计算机视觉与图像处理领域。包含RGBD图像采集，深度图像预处理，RGB特征提取和Depth特征提取，RGB多尺度融合和Depth多尺度融合，多模态特征通道重加权以及多尺度人员预测；本发明针对传统对称型RGBD双流网络易导致深度特征流失的问题，设计非对称RGBD双流卷积神经网络模型。对RGBD双流网络分别设计多尺度融合结构，实现多尺度信息互补。构建多模态重加权结构，合并RGB和Depth特征图，并对合并后的每个特征通道加权赋值，实现模型自动学习贡献占比。利用多模态特征进行人员的分类和边框回归，在保证实时性的同时，提高人员检测的准确性，并增强对夜间低照度以及人员遮挡下检测的鲁棒性。

Description

一种基于非对称双流网络的RGB-D多模态融合人员检测方法

技术领域

本发明属于计算机视觉与图像处理领域，具体涉及一种基于非对称双流网络的RGB-D多模态融合人员检测方法。

背景技术

近年来，智慧家居、智慧建筑以及智能安防等领域得到了飞速发展，视频提取与分析技术的广泛应用成为推动其进步的关键动力，其中人员的检测与统计逐渐成为图像视频分析和人工智能领域的一个热门研究课题。在智慧家居方面，通过检测室内人员可以对人的位置进行定位，记录人员的行为习惯进行记录，进一步调节室内照明、空调等智能设备，为人们提供更为舒适智慧的家庭环境。在智慧建筑方面，人员检测技术可以应用于服务型机器人实现精准避障与办公文件传递，同时依据室内人员位置以及密集程度，可以自动化调节办公区舒适度，提高办公效率。在智能安防方面，安防监控视频中进行的人员检测可以用于身份核验，有效应对陌生人非法闯入，对可疑人员进行跟踪调查和异常行为分析，为智能安防体系提供核心的视频信息支撑。

目前人员检测主要有两种方式：基于RGB图像的人员检测和基于多模态图像融合的人员检测。

1)基于RGB图像的人员检测方法是仅在RGB图像下进行人员的检测，典型的人员方法有通过基于RGB人脸的人员检测方法和基于RGB全身的人员检测方法。基于RGB人脸的人员检测方法通过在仅RGB图像下，对人脸所在区域进行人脸关键点标定、人脸特征编码等方式，提取人脸的通用特征表示，并采用机器学习或深度学习的方法训练人脸检测模型，通过模型预测输出的外接矩形框，在测试样本图像中框选并定位人物的人脸区域，从而达到人员检测的目的。基于RGB全身的人员检测方法不同于人脸检测，该方法是仅在RGB图像下，提取包含人物整个身体或具有辨识力的主要身体部位的图像区域进行特征表示，并训练基于全身图像的人员检测模型，通过模型预测输出的外接矩形框，框选并定位人物的全身区域，从而达到人员检测的目的。但该方法易受到场景的限制和图像成像分辨率的影响。由于可见光相机的光学成像原理，可见光相机捕获的 RGB彩色图像对于光照条件变化的抗扰动性差，尤其在夜间、雨雪雾天等低照度场景下，相机实时拍摄捕获的图像呈现一片黑暗或相似背景，无法从图像中清晰地分辨出的前景人员和背景信息，会很大程度上影响检测模型的训练收敛，降低人员检测的精确度。此外在对场景内的多个人物进行检测时，通常会产生人与物体之间的遮挡或者人与人之间的交叉遮挡，可见光相机无法获得场景中物体或人员的深度信息和热辐射信息，因此其捕获二维平面图像无法有效凸显被遮挡目标的边缘轮廓、纹理等解决人员遮挡问题的关键信息，甚至被相似背景信息淹没，导致人员检测的查准率和查全率大幅下降。

2)基于多模态图像融合的人员检测方法不同于基于RGB图像的人员检测方法，其输入数据是来源于同一检测场景下的不同图像源的图像，例如RGB图像、深度图像、红外热图像，每一种图像源通过不同的相机设备捕获，图像本身具备不同的特性。多模态图像融合的检测方法主要是利用不同模态的图像交叉融合，以实现特征强化和互补关联。红外热图像和深度图像相比RGB彩色图像对光照变化的鲁棒性较好，能够在夜间等低照度条件下稳定成像，并且由于红外热相机、深度相机与可见光相机的成像原理不同，二者能够较好地捕获部分遮挡下的人员边缘轮廓等辅助线索，在一定程度上可以缓解部分遮挡的问题。现如今多采用深度学习的方法实现多模态信息的特征融合和关联建模，训练完成的模型对于多约束多场景条件下(例如夜间低照度、严重遮挡、远距离拍摄等)的人员检测具有更好的鲁棒性。但是现存方法对于多模态图像融合方式，多采用传统手工提取多模态特征融合以及利用RGBT或RGBD(彩色图像+热红外图像，彩色图像+深度图像)双流神经网络进行附加四通道融合、单一尺度融合以及加权决策融合等简单融合方式。传统手工多模态融合方法需要人为设计并提取多模态特征，依赖于主观经验且费时费力，无法实现端到端的人员检测。而简单的双流神经网络多模态融合策略，无法充分有效地利用彩色图像的色彩、纹理等细粒度信息和深度图像提供的边缘、深度等语义信息，实现多模态数据之间的关联互补，甚至由于模型复杂度过高而产生过拟合现象，导致人员检测的查准率和查全率不升反降。而RGB-T人员检测由于红热成像相机价格昂贵，在实际应用中由于成本过高具有很大的局限性。

现有代表性技术1项。

(1)发明名称：一种基于RGBD的行人检测和身份识别方法及系统(申请号：201710272095)

本发明提供了一种基于RGBD的行人检测和身份识别方法，方法包括：输入RGB和深度图像，并对图像进行预处理，转换颜色通道；然后构建RGB和深度图像的多通道特征，具体的，首先计算RGB图像的水平梯度和垂直梯度构建RGB梯度方向直方图特征，以及深度图像的水平梯度、垂直梯度和深度法向量方向，构建深度图像的梯度方向直方图，作为RGBD的多通道特征；计算深度图像每个像素点对应的尺度，对尺度进行量化，获取尺度列表；根据多通道特征，采用Adaboost算法训练行人检测分类器；采用检测分类器，搜索尺度列表对应的尺度空间，得到包含行人信息的外接矩形框，完成行人检测

但此方法需要手工提取传统的RGBD图像的梯度方向直方图作为图像特征，耗时费力且占用较大存储空间，无法端到端的实现行人检测；梯度方向直方图特征较为简单，难以提取RGB和深度图像中具有辨识力的特征进行行人检测；该方法采用RGB和深度图像特征的简单融合，难以充分有效地挖掘利用RGB图像的色彩、纹理等细粒度信息和深度图像提供的边缘、深度等语义信息，实现多模态数据之间的关联互补，在提升行人检测的精确度方面具有很大的局限性。

发明内容

针对现有技术中的缺陷，本发明提供了一种基于非对称双流网络的RGBD 多模态融合人员检测方法，但不限于人员检测，也可以应用于目标检测、车辆检测等任务。

本发明提供的一种基于非对称双流网络的RGBD多模态融合人员检测方法代表图如图1所示，包含RGBD图像采集，深度图像预处理，RGB特征提取和 Depth特征提取，RGB多尺度融合和Depth多尺度融合，多模态特征通道重加权以及多尺度人员预测，各步骤的具体功能如下：

S1 RGBD图像采集；

利用具有同时拍摄RGB图像和深度图像功能的相机获取原始RGB图像和深度图像(以下简称为Depth图像),并对RGB和Depth图像进行匹配分组，每组图像由一张RGB图像和同场景下捕获的Depth图像组成，输出分组匹配后的 RGB和Depth图像。原始RGB图像和Depth图像也可以从公开RGBD数据集获取。

S2深度图像预处理；

从S1的RGBD图像采集获取分组匹配后的Depth图像，首先消除Depth图像的部分噪声，然后进行空洞填充，最后将单通道Depth图像重新编码为三个通道图像，并将三个通道的图像数值重新规范化到0-255，输出编码规范化后的 Depth图像。

S3 RGB特征提取和Depth特征提取；

从所述S1的RGBD图像采集获取原始RGB图像，输入到RGB特征提取(非对称双流网络模型的RGB网络流)，进行下采样特征提取，输出RGB图像的高、中、低分辨率特征图，分别记为RGB_FP_H、RGB_FP_M、RGB_FP_L，代表RGB图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示；从深度图像预处理获取编码规范化后的Depth图像，输入到Depth特征提取(非对称双流网络模型的Depth网络流)，进行下采样特征提取，输出Depth图像的高、中、低分辨率特征图，分别记为D_FP_H、D_FP_M、D_FP_L，代表Depth图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示。RGB网络流和Depth网络流是对称结构的，即RGB网络流和Depth网络流的结构完全相同。但Depth图像所包含的特征相对于RGB图像更简单，当采用与RGB网络相同深度的卷积网络结构提取Depth特征时，会由于网络传递过深而导致Depth特征消失，同时网络参数增加了过拟合的风险。基于上述原因，设计非对称双流卷积神经网络模型提取RGB图像和Depth图像特征。图2-1至图2-4为本方法设计的非对称双流卷积神经网络模型的一种具体实施例结构，但不限于图2-1至图2-4所示的结构。图2-1所述DarkNet-53和图2-2所述MiniDepth-30分别代表RGB网络流和Depth 网络流，二者的网络结构具有非对称的特性。

S4 RGB多尺度融合和Depth多尺度融合；

从RGB特征提取获取RGB特征图RGB_FP_H、RGB_FP_M、RGB_FP_L 输入到RGB多尺度融合，首先将获取的RGB_FP_L通过上采样层拓展到与 RGB_FP_M相同尺寸，然后与RGB_FP_M进行通道合并，实现RGB网络深层的高级语义特征与中间层的中级边缘轮廓特征的互补融合，输出通道合并后的新特征图RGB_FP_M；然后对输出通道合并后的新特征图RGB_FP_M，通过上采样层拓展到与RGB_FP_H相同尺寸，与RGB_FP_H进行通道合并，实现RGB 网络深层的高级语义特征、中间层的中级边缘轮廓特征以及浅层的低级色彩纹理特征的互补融合，输出通道合并后的新特征图RGB_FP_H；从Depth特征提取获取Depth特征图D_FP_H、D_FP_M、D_FP_L输入到Depth多尺度融合，与RGB 多尺度融合执行同样的操作。最终Depth多尺度融合的输出为原始输入 RGB_FP_L、通道合并后的新特征图RGB_FP_M和RGB_FP_H；Depth多尺度融合的输出为原始输入D_FP_L、通道合并后的新特征图D_FP_M和D_FP_H。

S5多模态特征通道重加权；

从RGB多尺度融合获取RGB特征图RGB_FP_L、RGB_FP_M、RGB_FP_H 和从Depth多尺度融合获取Depth特征图D_FP_L、D_FP_M、D_FP_H，按照分辨率分组输入到多模态特征通道重加权中对应相同分辨率的通道重加权结构中，实现更有效的RGB与Depth的多模态特征融合，提高处理多种限制场景下的检测鲁棒性。具体做法以RGB_FP_L与D_FP_L通道重加权为例，从RGB多尺度融合获取RGB_FP_L以及从Depth多尺度融合获取D_FP_L，首先进行通道合并，获得通道合并后的特征图记为Concat_L；然后应用通道重加权模块(以下简称为 RW_Module)对Concat_L的特征通道进行线性加权，为每个特征通道赋予权重，输出通道重加权后的特征图记为RW_L。RGB_FP_M与D_FP_M，RGB_FP_H 与D_FP_H的通道重加权采用与所述RGB_FP_L和D_FP_L相同方式完成。最终多模态特征通道重加权输出通道重加权后的低、中、高分辨率特征图，分别记为RW_L,RW_M,RW_H。

S6多尺度人员预测；

从所述S5的多模态特征通道重加权获取通道重加权后的特征图RW_L, RW_M,RW_H，分别输入到多尺度人员预测中对应的预测分支中进行分类和边框坐标回归，获得较大、中等以及较小尺寸人员的预测结果。由于特征图分辨率不同，特征图上每个预测点对应的感受野也不同。RW_L上的每个预测点具有较大感受野，用来预测图像中的较大目标；RW_M上的每个预测点具有中等感受野，用来预测图像中的中等目标；RW_H上的每个预测点具有较小感受野，用来预测图像中的较小目标。对上述三种不同尺度的预测结果进行汇总，采用非极大值抑制(以下简称NMS)算法[1]剔除重叠目标边框，输出最终保留的人员检测结果，即人员的类别置信分数C_i和预测矩形边框

在本实施例中，i代表人员的ID编号，N为在当前图像中保留的人员检测结果总数。

分别代表所有包含人员的矩形边框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。

与现有技术相比较，本发明针对传统对称型RGBD双流网络(RGB网络流 +Depth网络流)由于Depth网络过深而易导致深度特征流失的问题，本发明设计非对称RGBD双流卷积神经网络模型，Depth网络流通过对RGB网络流进行有效地模型剪枝获得，在降低参数的同时，能够降低模型过拟合的风险，提高检测精度。RGB网络流和Depth网络流分别用于提取RGB和深度图像(以下简称为Depth图像)的高、中、低分辨率特征图，分别代表RGB和Depth图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示；其次对RGB网络流和Depth 网络流分别设计多尺度融合结构，实现低分辨率特征图所包含的高级语义特征与中、高分辨率特征图所包含的中级边缘轮廓、低级色彩纹理特征的多尺度信息互补；然后构建多模态特征通道加权结构，合并RGB与Depth特征图，并为合并后的每个特征通道进行加权赋值，使模型能够自动学习贡献比重，完成特征选择和去除冗余的功能，从而实现RGB和Depth特征在对应高、中、低分辨率下的多模态特征融合；最后，利用多模态特征进行人员的分类和边框回归，在保证实时性的同时，提高人员检测的准确性，并增强对夜间低照度以及人员遮挡下检测的鲁棒性。

附图说明

图1本发明提供的一种基于非对称双流网络的RGBD多模态融合人员检测方法的代表图

图2-1为一种RGB网络流——DarkNet-53结构图，图2-2为一种Depth网络流——MiniDepth-30结构图，图2-3为一种卷积块通用结构图，图2-4为一种残差卷积块通用结构图。

图3本发明实施例提供的一种基于非对称双流网络的RGBD多模态融合人员检测方法的流程图

图4本发明实施例提供的一种通道重加权模块的通用结构图

图5本发明实施例提供的NMS算法的流程图

具体实施方式

为使本发明实施例的目的、技术方案和有点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面通过具体实施例对本发明进行详细说明。

本发明的实施例提供的方法示意图如图3所示，包括如下步骤：

S1：利用具有同时拍摄RGB图像和深度图像功能的相机获取原始RGB图像和深度图像，对图像进行匹配和分组，输出分组匹配后的RGB和Depth图像。

步骤S110：利用具有同时拍摄RGB图像和深度图像功能的相机获取原始 RGB图像，原始RGB图像也可以从公开RGBD数据集获取。

步骤S120：从所述步骤S110同步获取与RGB图像匹配的Depth图像，并对RGB和Depth图像进行分组，每组图像由一张RGB图像和同场景下捕获的深度图像组成，输出分组匹配后的Depth图像。

S2：从所述步骤S120中获取的分组匹配后的Depth图像，对Depth图像进行去噪、空洞修复和编码规范化，输出编码预处理后的Depth图像。

从所述步骤S120获取的原始深度图像作为输入，首先消除Depth图像的部分噪声，然后进行空洞填充，最后将单通道Depth图像重新编码为三通道图像，并将三个通道的数值重新规范化到0-255，输出编码规范化后的Depth图像。在本实施例中去除噪声采用5x5的高斯滤波器；空洞修复采用[2]提出的图像修复算法，提取Depth图像中的局部法线向量和遮挡边界，然后应用全局优化进行 Depth图像空洞填充；Depth图像编码采用HHA编码[3](horizontal disparity, height above ground,and the angle the pixel)，三个通道分别为水平视差，高于地面的高度以及表面法向量的角度。

S3：从所述步骤S110获取原始RGB图像，采用非对称双流网络模型的RGB网络流在不同网络层级分别提取RGB图像的通用、低级、中级和高级特征之后，输出对应通用特征图以及高、中、低三种分辨率的RGB特征图，分别记为 RGB_FP_C、RGB_FP_H、RGB_FP_M、RGB_FP_L，并将RGB_FP_H、RGB_FP_M、RGB_FP_L其输入到S4。在本实施例中，非对称双流网络模型的RGB网络流采用DarkNet-53[4]，DarkNet-53的网络结构如图2-1所示。网络共包含52个卷积层，其中网络的L1～L10层用于提取RGB图像的通用特征，输出RGB_FP_C； L11～L27层用于提取RGB图像的低级色彩纹理特征，输出RGB_FP_H；L28～L44 层用于提取RGB图像的中级边缘轮廓特征，输出RGB_FP_M；L45～L52层用于提取RGB图像的高级语义特征，输出RGB_FP_L。值得注意的是，本实施例使用的DarkNet-53模型仅为所述非对称双流网络的RGB网络流的一个具体实施例，不限于上述DarkNet-53模型，下文仅以DarkNet-53为例进行方法论述。

步骤S310：从所述S110获取原始RGB图像，经过DarkNet-53网络的L1～L10 层提取RGB图像的通用特征，并将图像分辨率下采样K倍，输出RGB通用特征图RGB_FP_C，其尺寸变为原始输入尺寸的K分之一。在本实施例中，K取值为8。L1～L10层可以划分为L1～L2、L3～L5和L6～L10三个子采样层，每个子采样层将来自上一层的输入图像分辨率下采样2倍。第一子采样层包括1个步长为1的标准卷积块(记为Conv0)和1个步长为2的池化卷积块(记为Conv0_pool)，其中卷积块的通用结构如图2-3所示，包括标准图像卷积层、批规范化层和Leaky_ReLU激活层；第二子采样层包括一个残差卷积块(记为Residual_Block_1) 和1个所述池化卷积块(记为Conv1_pool)，其中残差卷积块的通用结构如图2-4 所示，包含一个1x1xM的标准卷积块、一个3x3xN的标准卷积块以及一个将输入的恒等映射传递到输出的Add模块，M代表输入特征通道数，N表示输出特征通道数，此处M,N取值分别为32；第三子采样层包括2个所述残差卷积块(记为Residual_Block_2_1～2_2)和1个所述池化卷积块(记为Conv2_pool)。在本实施例中，K取值为8，M,N的取值见图3的L1～L10层。

步骤S320：从所述S310获取RGB_FP_C，经过DarkNet-53网络的L11～L27 层提取RGB图像的低级色彩纹理特征，并将图像分辨率下采样K倍，输出RGB 高分辨率特征图RGB_FP_H，其尺寸变为原始输入尺寸的K分之一。在本实施例中，L11～L27由8个所述残差卷积块(记为Residual_Block_3_1～3_8)和1个所述池化卷积块(Conv3_pool)组成。K取值为2，M,N的取值见图3的L11～L27层。

步骤S330：从所述S320获取RGB_FP_H，经过DarkNet-53网络的L28～L44 层提取RGB图像的中级边缘轮廓特征，并将图像分辨率下采样K倍，输出RGB 中分辨率特征图RGB_FP_M，其尺寸变为原始输入尺寸的K分之一。在本实施例中，L28～L44由8个所述残差卷积块(记为Residual_Block_4_1～4_8)和1个所述池化卷积块(Conv4_pool)组成。K取值为2，M,N的取值见图3的L28～L44层。

步骤S340：从所述S320获取RGB_FP_M，经过DarkNet-53网络的L45～L52 层提取RGB图像的高级语义特征，并将图像分辨率下采样K倍，输出RGB低分辨率特征图RGB_FP_L，其尺寸变为原始输入尺寸的K分之一。在本实施例中，L45～L52由4个所述残差卷积块(记为Residual_Block_5_1～5_4)组成。K取值为2，M,N的取值见图3的L45～L52层。

S3’:从所述S2获取编码规范化后的Depth图像，采用非对称双流网络模型的Depth网络流在不同网络层级上分别提取Depth图像的通用、低级、中级和高级特征之后，输出对应通用特征图以及高、中、低三种分辨率的RGB特征图，分别记为D_FP_C、D_FP_H、D_FP_M、D_FP_L，并将D_FP_H、D_FP_M、D_FP_L 输入到S4’。在本实施例中，非对称双流网络模型的Depth网络流是在RGB网络流DarkNet-53的基础上对模型进行剪枝获得，下文简称之为MiniDepth-30。 MiniDepth-30网络能更有效更清晰地提取深度图像的边缘轮廓等语义特征，同时达到减少网络参数，防止过拟合的效果。MiniDepth-30的网络结构如图2-2所示。网络共包含30个卷积层，其中网络的L1～L10层用于提取Depth图像的通用特征，输出D_FP_C；L11～L17层用于提取Depth图像的低级色彩纹理特征，输出 D_FP_H；L18～L24层用于提取Depth图像的中级边缘轮廓特征，输出D_FP_M； L25～L30层用于提取Depth图像的高级语义特征，输出D_FP_L。值得注意的是，本实施例使用的MiniDepth-30模型仅为所述非对称双流网络的Depth网络流的一个具体实施例，不限于上述MiniDepth-30模型，下文仅以MiniDepth-30为例进行方法论述。

步骤S310’：从所述S2获取编码规范化后的Depth图像，经过MiniDepth-30 网络的L1～L10层提取RGB图像的通用特征，并将图像分辨率下采样K倍，输出Depth通用特征图D_FP_C，其尺寸变为原始输入尺寸的K分之一。在本实施例中，MiniDepth-30的L1～L10网络层与步骤S310中DarkNet-53的L1～L10网络层具有相同结构，K取值为8。

步骤S320’：从所述步骤S310’获取D_FP_C，经过MiniDepth-30网络的 L11～L17层提取Depth图像的低级色彩纹理特征，并将图像分辨率下采样K倍，输出Depth高分辨率特征图D_FP_H，其尺寸变为原始输入尺寸的K分之一。在本实施例中，L11～L17由3个所述残差卷积块(记为Residual_Block_D_3_1～3_3) 和1个所述池化卷积块(Conv3_D_pool)组成。K取值为2，M,N的取值见图3的 L11～L17层。

步骤S330’：从所述步骤S320’获取D_FP_H，经过MiniDepth-30网络的 L18～L24层提取Depth图像的中级边缘轮廓特征，并将图像分辨率下采样K倍，输出Depth中分辨率特征图D_FP_M，其尺寸变为原始输入尺寸的K分之一。在本实施例中，L18～L24由3个所述残差卷积块(记为Residual_Block_D_4_1～ 4_3)和1个所述池化卷积块(Conv4_D_pool)组成。K取值为2，M,N的取值见图 3的L18～L24层。

步骤S340’：从所述步骤S330’获取D_FP_M，经过DarkNet-53网络的 L25～L30层提取Depth图像的高级语义特征，并将图像分辨率下采样K倍，输出Depth低分辨率特征图D_FP_L，其尺寸变为原始输入尺寸的K分之一。在本实施例中，L25～L30由3个所述残差卷积块(记为Residual_Block_D_5_1～5_3) 组成。K取值为2，M,N的取值见图3的L25～L30层。

S4：从所述S3获取RGB_FP_H、RGB_FP_M和RGB_FP_L，利用上采样拓展特征图尺寸，合并具有相同分辨率的RGB特征图的特征通道实现特征融合，输出特征融合之后的特征图RGB_FP_H、RGB_FP_M和RGB_FP_L到S5。

步骤S410：从所述步骤S340获取的RGB_FP_L，上采样M倍后与所述步骤 S330获取的RGB_FP_M进行通道合并，实现RGB网络深层的高级语义特征和中间层的中级边缘轮廓特征的互补融合，输出特征融合后的新特征图 RGB_FP_M。通道合并具体做法：RGB_FP_L的通道数为C1，RGB_FP_M的通道数为C2，二者通道合并C1+C2后获得C3，C3为特征融合后新特征图 RGB_FP_M的通道数。在本实施例中M取值为2，C1，C2，C3取值分别为256, 512,768。

步骤S420：从所述步骤S410获取特征融合后的新特征图RGB_FP_M，上采样M倍后与所述步骤S320获取的RGB_FP_H进行通道合并，实现RGB网络深层的高级语义特征、中间层的中级边缘轮廓特征以及浅层的低级色彩纹理特征的互补融合,输出特征融合后的新特征图D_FP_H。通道合并具体做法：RGB_FP_M 的通道数为C1，RGB_FP_H的通道数为C2，二者通道合并C1+C2后获得C3， C3为特征融合后新特征图RGB_FP_H的通道数。在本实施例中M取值为2，C1，C2，C3取值分别为128,256,384。

S4’：从所述S3’获取D_FP_H、D_FP_M、D_FP_L，利用上采样拓展特征图尺寸，合并具有相同分辨率的Depth特征图的特征通道实现特征融合，输出特征融合之后的特征图D_FP_H、D_FP_M、D_FP_L到S5。

步骤S410’：从所述步骤S340’获取的D_FP_L，上采样M倍后与所述步骤S330’获取的D_FP_M进行通道合并，实现Depth网络深层的高级语义特征和中间层的中级边缘轮廓特征的互补融合，输出特征融合后的新特征图D_FP_M。通道合并具体做法：D_FP_L的通道数为C1，D_FP_M的通道数为C2，二者通道合并C1+C2后获得C3，C3为特征融合后新特征图D_FP_M的通道数。在本实施例中M取值为2，C1，C2，C3取值分别为256,512,768。

步骤S420’：从所述步骤S410获取特征融合后的新特征图D_FP_M，上采样M倍后与所述步骤S320’获取的D_FP_H进行通道合并，实现Depth网络深层的高级语义特征、中间层的中级边缘轮廓特征以及浅层的低级色彩纹理特征的互补融合,输出特征融合后的新特征图D_FP_H。通道合并具体做法：D_FP_M 的通道数为C1，D_FP_H的通道数为C2，二者通道合并C1+C2后获得C3，C3 为特征融合后新特征图D_FP_H的通道数。在本实施例中M取值为2，C1，C2， C3取值分别为128,256,384。

S5：从所述S4获取特征融合后新特征图RGB_FP_H、RGB_FP_M和RGB_FP_L，从S4’获取特征融合后新特征图D_FP_H、D_FP_M、D_FP_L，在对应相等的分辨率上分别进行特征通道合并，获得通道合并后的特征图，分别记为Concat_L、 Concat_M、Concat_H，然后应用通道重加权模块(以下简称为RW_Module)分别对Concat_L、Concat_M、Concat_H进行线性加权，输出通道重加权后的高、中、低分辨率特征图，分别记为RW_H,RW_M,RW_L。

步骤S510：从所述S4获取RGB_FP_L和D_FP_L，首先将RGB_FP_L和 D_FP_L的特征通道进行合并获得Concat_L，实现RGB和Depth在网络深层多模态信息的互补融合，然后应用通道重加权模块RW_Module对Concat_L进行线性加权，为每个特征通道赋予权重，输出通道重加权后的特征图RW_L。以 RGB_FP_L和D_FP_L的通道重加权为例，本实施例提供的一种通道重加权模块的通用结构如图4所示。具体做法，RGB_FP_L的通道数为C1，D_FP_L的通道数为C2，通道合并后的新特征图Concat_L的通道数为C3，其中C3＝C1+C2；然后对所述Concat_L依次经过1个1x1的Ave-Pooling层、1个由C3/s(s为缩减步长)个1x1卷积核组成的标准卷积层、1个C3个1x1卷积核组成的标准卷积层和1个Sigmoid层，获取C3个数值范围在0～1之间的权重值；最后将获取的C3个权重值与所述Concat_L的C3个特征通道相乘，为每个特征通道赋予权重，输出通道重加权后的C3个特征通道，即RW_L。在本实施例中，C1、C2、 C3的取值分别为1024,1024,2048，缩减步长s的取值分别为16。

步骤S520：从所述步骤S410获取RGB_FP_M和所述步骤S410’获取D_FP_M，首先将RGB_FP_M和D_FP_M的特征通道进行合并获得Concat_M，实现RGB 和Depth在网络中间层多模态信息的互补融合，然后应用通道重加权模块 RW_Module对Concat_M进行线性加权，为每个特征通道赋予权重，输出通道重加权后的特征图RW_M。在本实施例中，RGB_FP_M和D_FP_M的通道重加权方式与所述步骤S510中RGB_FP_L和D_FP_L的通道重加权方式保持一致，其中C1、C2、C3的取值分别为512,512,1024，缩减步长s的取值分别为16。

步骤S530：从所述步骤S420获取RGB_FP_H和所述步骤S420’获取D_FP_H，首先将RGB_FP_H和D_FP_H的特征通道进行合并获得Concat_H，实现RGB 和Depth在网络浅层多模态信息的互补融合，然后应用通道重加权模块 RW_Module对Concat_H进行线性加权，为每个特征通道赋予权重，输出通道重加权后的特征图RW_H。在本实施例中，RGB_FP_H和D_FP_H的通道重加权方式与所述步骤S510中RGB_FP_L和D_FP_L的通道重加权方式保持一致，其中，C1、C2、C3的取值分别为256,256,512，缩减步长s的取值分别为16。

S6：从所述S5获取通道重加权后的特征图RW_L,RW_M,RW_H，分别进行分类和边框坐标回归，获得较大、中等以及较小尺寸人员的预测结果，对上述三种不同尺度的预测结果进行汇总，采用非极大值抑制(以下简称NMS)算法剔除重叠目标边框，输出最终保留的人员检测结果，即人员的类别置信分数C_i和预测矩形边框

步骤S610：从所述步骤S510获取通道重加权后的低分辨率特征图RW_L，传输到SoftMax分类层和坐标回归层，输出在低分辨率特征图下预测较大尺寸人员的类别置信分数

和矩形边框的左上角、右下角坐标

其中下标 L表示在低分辨率特征图下的预测结果。

步骤S620：从所述步骤S520获取通道重加权后的低分辨率特征图RW_M，传输到SoftMax分类层和坐标回归层，输出在中分辨率特征图下预测中等尺寸人员的类别置信分数

和矩形边框的左上角、右下角坐标

其中下标M表示在中分辨率特征图下的预测结果。

步骤S630：从所述步骤S530获取通道重加权后的高分辨率特征图RW_H，传输到SoftMax分类层和坐标回归层，输出在高分辨率特征图下预测较小尺寸人员的类别置信分数

和矩形边框的左上角、右下角坐标

其中下标 H表示在高分辨率特征图下的预测结果。

步骤S640：从所述步骤S610、S620和S630获取较大、中等和较小尺寸人员的类别置信分数

和矩形边框左上右下坐标

对三种尺度的预测结果进行汇总，然后采用NMS算法去除重叠的目标边框，输出最终保留的人员检测结果。即人员的类别置信分数C_i和预测矩形边框

NMS算法流程图如图5所示。

NMS算法步骤如下：

步骤S640-1：从所述步骤S610、S620和S630获取较大、中等、较小尺寸的人员类别置信分数

和矩形边框左上右下坐标

对三种尺度的预测结果进行汇总，利用置信阈值对预测框进行筛选，保留类别置信分数大于置信阈值的预测边框，将其加入到预测列表中。在本实施例中置信阈值设置为0.3。

步骤S640-2：从所述步骤S640-1获取的预测列表，对预测列表中未处理的预测边框按照置信分数降序排列，输出降序排列后的预测列表。

步骤S640-3：从所述步骤S640-2中获取降序排列后的预测列表，选取最大置信分数对应的边框作为当前基准边框，将当前基准边框的类别置信分数和边框坐标加入到最终结果列表中，并将基准边框从预测列表中剔除，其余所有预测边框与当前基准边框计算交并比(IoU)。

步骤S640-4：从所述步骤S640-3获取预测列表以及预测列表中所有边框与基准边框的IoU值，若当前边框的IoU大于预设NMS阈值，则认为其与基准边框为重复目标，将其从预测边框列表中剔除，否则保留当前边框。输出筛选后的预测列表。

步骤S640-5：从所述步骤S640-4获取筛选后的预测列表，若预测列表中所有边框都处理完毕即预测边框为空，则算法结束，返回最终结果列表；反之，当前预测列表中仍存在未处理的边框，则返回步骤S640-2重复算法流程。

步骤S640-6：对所述步骤S640-5，当预测列表中不存在未处理的预测边框时，输出最终结果列表为最终保留的人员检测结果。

参考文献：

[1]Neubeck A,Gool LV.Efficient Non-Maximum Suppression[C]//International Conference on Pattern Recognition.2006.

[2]Zhang Y,Funkhouser T.Deep Depth Completion of a Single RGB-D Image[J].2018.

[3]Gupta S,Girshick R,Arbeláez P,et al.Learning Rich Features fromRGB-D Images for Object Detection and Segmentation[C]//2014.

[4]Redmon J,Farhadi A.YOLOv3:An Incremental Improvement[J].2018。

Claims

1.一种基于非对称双流网络的RGB-D多模态融合人员检测方法，其特征在于：包含RGBD图像采集，深度图像预处理，RGB特征提取和Depth特征提取，RGB多尺度融合和Depth多尺度融合，多模态特征通道重加权以及多尺度人员预测。

2.根据权利要求1所述的一种基于非对称双流网络的RGB-D多模态融合人员检测方法，其特征在于：S1RGBD图像采集；

利用具有同时拍摄RGB图像和深度图像功能的相机获取原始RGB图像和Depth图像,并对RGB和Depth图像进行匹配分组，每组图像由一张RGB图像和同场景下捕获的Depth图像组成，输出分组匹配后的RGB和Depth图像；原始RGB图像和Depth图像也能够从公开RGBD数据集获取。

3.根据权利要求2所述的一种基于非对称双流网络的RGB-D多模态融合人员检测方法，其特征在于：S2深度图像预处理；

从S1的RGBD图像采集获取分组匹配后的Depth图像，首先消除Depth图像的部分噪声，然后进行空洞填充，最后将单通道Depth图像重新编码为三个通道图像，并将三个通道的图像数值重新规范化到0-255，输出编码规范化后的Depth图像。

4.根据权利要求3所述的一种基于非对称双流网络的RGB-D多模态融合人员检测方法，其特征在于：S3RGB特征提取和Depth特征提取；

从所述S1的RGBD图像采集获取原始RGB图像，输入到RGB特征提取，进行下采样特征提取，输出RGB图像的高、中、低分辨率特征图，分别记为RGB_FP_H、RGB_FP_M、RGB_FP_L，代表RGB图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示；从深度图像预处理获取编码规范化后的Depth图像，输入到Depth特征提取，进行下采样特征提取，输出Depth图像的高、中、低分辨率特征图，分别记为D_FP_H、D_FP_M、D_FP_L，代表Depth图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示；RGB网络流和Depth网络流是对称结构的，即RGB网络流和Depth网络流的结构完全相同；设计非对称双流卷积神经网络模型提取RGB图像和Depth图像特征；DarkNet-53和MiniDepth-30分别代表RGB网络流和Depth网络流，DarkNet-53和MiniDepth-30的网络结构具有非对称的特性。

5.根据权利要求4所述的一种基于非对称双流网络的RGB-D多模态融合人员检测方法，其特征在于：S4RGB多尺度融合和Depth多尺度融合；

从RGB特征提取获取RGB特征图RGB_FP_H、RGB_FP_M、RGB_FP_L输入到RGB多尺度融合，首先将获取的RGB_FP_L通过上采样层拓展到与RGB_FP_M相同尺寸，然后与RGB_FP_M进行通道合并，实现RGB网络深层的高级语义特征与中间层的中级边缘轮廓特征的互补融合，输出通道合并后的新特征图RGB_FP_M；然后对输出通道合并后的新特征图RGB_FP_M，通过上采样层拓展到与RGB_FP_H相同尺寸，与RGB_FP_H进行通道合并，实现RGB网络深层的高级语义特征、中间层的中级边缘轮廓特征以及浅层的低级色彩纹理特征的互补融合，输出通道合并后的新特征图RGB_FP_H；从Depth特征提取获取Depth特征图D_FP_H、D_FP_M、D_FP_L输入到Depth多尺度融合，与RGB多尺度融合执行同样的操作；最终Depth多尺度融合的输出为原始输入RGB_FP_L、通道合并后的新特征图RGB_FP_M和RGB_FP_H；Depth多尺度融合的输出为原始输入D_FP_L、通道合并后的新特征图D_FP_M和D_FP_H。

6.根据权利要求5所述的一种基于非对称双流网络的RGB-D多模态融合人员检测方法，其特征在于：S5多模态特征通道重加权；

从RGB多尺度融合获取RGB特征图RGB_FP_L、RGB_FP_M、RGB_FP_H和从Depth多尺度融合获取Depth特征图D_FP_L、D_FP_M、D_FP_H，按照分辨率分组输入到多模态特征通道重加权中对应相同分辨率的通道重加权结构中，实现更有效的RGB与Depth的多模态特征融合，提高处理多种限制场景下的检测鲁棒性；具体做法以RGB_FP_L与D_FP_L通道重加权为例，从RGB多尺度融合获取RGB_FP_L以及从Depth多尺度融合获取D_FP_L，首先进行通道合并，获得通道合并后的特征图记为Concat_L；然后应用通道重加权模块简称为RW_Module对Concat_L的特征通道进行线性加权，为每个特征通道赋予权重，输出通道重加权后的特征图记为RW_L；RGB_FP_M与D_FP_M，RGB_FP_H与D_FP_H的通道重加权采用与所述RGB_FP_L和D_FP_L相同方式完成；最终多模态特征通道重加权输出通道重加权后的低、中、高分辨率特征图，分别记为RW_L,RW_M,RW_H。

7.根据权利要求6所述的一种基于非对称双流网络的RGB-D多模态融合人员检测方法，其特征在于：S6多尺度人员预测；

从所述S5的多模态特征通道重加权获取通道重加权后的特征图RW_L,RW_M,RW_H，分别输入到多尺度人员预测中对应的预测分支中进行分类和边框坐标回归，获得较大、中等以及较小尺寸人员的预测结果；由于特征图分辨率不同，特征图上每个预测点对应的感受野也不同；RW_L上的每个预测点具有较大感受野，用来预测图像中的较大目标；RW_M上的每个预测点具有中等感受野，用来预测图像中的中等目标；RW_H上的每个预测点具有较小感受野，用来预测图像中的较小目标；对上述三种不同尺度的预测结果进行汇总，采用非极大值抑制算法剔除重叠目标边框，输出最终保留的人员检测结果，即人员的类别置信分数C_i和预测矩形边框