CN110956094B - 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 - Google Patents

一种基于非对称双流网络的rgb-d多模态融合人员检测方法 Download PDF

Info

Publication number
CN110956094B
CN110956094B CN201911090619.5A CN201911090619A CN110956094B CN 110956094 B CN110956094 B CN 110956094B CN 201911090619 A CN201911090619 A CN 201911090619A CN 110956094 B CN110956094 B CN 110956094B
Authority
CN
China
Prior art keywords
rgb
depth
image
prediction
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911090619.5A
Other languages
English (en)
Other versions
CN110956094A (zh
Inventor
张文利
郭向
杨堃
王佳琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911090619.5A priority Critical patent/CN110956094B/zh
Priority to PCT/CN2020/080991 priority patent/WO2021088300A1/zh
Publication of CN110956094A publication Critical patent/CN110956094A/zh
Application granted granted Critical
Publication of CN110956094B publication Critical patent/CN110956094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于非对称双流网络的RGB‑D多模态融合人员检测方法,属于计算机视觉与图像处理领域。包含RGBD图像采集,深度图像预处理,RGB特征提取和Depth特征提取,RGB多尺度融合和Depth多尺度融合,多模态特征通道重加权以及多尺度人员预测;本发明针对传统对称型RGBD双流网络易导致深度特征流失的问题,设计非对称RGBD双流卷积神经网络模型。对RGBD双流网络分别设计多尺度融合结构,实现多尺度信息互补。构建多模态重加权结构,合并RGB和Depth特征图,并对合并后的每个特征通道加权赋值,实现模型自动学习贡献占比。利用多模态特征进行人员的分类和边框回归,在保证实时性的同时,提高人员检测的准确性,并增强对夜间低照度以及人员遮挡下检测的鲁棒性。

Description

一种基于非对称双流网络的RGB-D多模态融合人员检测方法
技术领域
本发明属于计算机视觉与图像处理领域,具体涉及一种基于非对称双流网络的RGB-D多模态融合人员检测方法。
背景技术
近年来,智慧家居、智慧建筑以及智能安防等领域得到了飞速发展,视频提取与分析技术的广泛应用成为推动其进步的关键动力,其中人员的检测与统计逐渐成为图像视频分析和人工智能领域的一个热门研究课题。在智慧家居方面,通过检测室内人员可以对人的位置进行定位,记录人员的行为习惯进行记录,进一步调节室内照明、空调等智能设备,为人们提供更为舒适智慧的家庭环境。在智慧建筑方面,人员检测技术可以应用于服务型机器人实现精准避障与办公文件传递,同时依据室内人员位置以及密集程度,可以自动化调节办公区舒适度,提高办公效率。在智能安防方面,安防监控视频中进行的人员检测可以用于身份核验,有效应对陌生人非法闯入,对可疑人员进行跟踪调查和异常行为分析,为智能安防体系提供核心的视频信息支撑。
目前人员检测主要有两种方式:基于RGB图像的人员检测和基于多模态图像融合的人员检测。
1)基于RGB图像的人员检测方法是仅在RGB图像下进行人员的检测,典型的人员方法有通过基于RGB人脸的人员检测方法和基于RGB全身的人员检测方法。基于RGB人脸的人员检测方法通过在仅RGB图像下,对人脸所在区域进行人脸关键点标定、人脸特征编码等方式,提取人脸的通用特征表示,并采用机器学习或深度学习的方法训练人脸检测模型,通过模型预测输出的外接矩形框,在测试样本图像中框选并定位人物的人脸区域,从而达到人员检测的目的。基于RGB全身的人员检测方法不同于人脸检测,该方法是仅在RGB图像下,提取包含人物整个身体或具有辨识力的主要身体部位的图像区域进行特征表示,并训练基于全身图像的人员检测模型,通过模型预测输出的外接矩形框,框选并定位人物的全身区域,从而达到人员检测的目的。但该方法易受到场景的限制和图像成像分辨率的影响。由于可见光相机的光学成像原理,可见光相机捕获的 RGB彩色图像对于光照条件变化的抗扰动性差,尤其在夜间、雨雪雾天等低照度场景下,相机实时拍摄捕获的图像呈现一片黑暗或相似背景,无法从图像中清晰地分辨出的前景人员和背景信息,会很大程度上影响检测模型的训练收敛,降低人员检测的精确度。此外在对场景内的多个人物进行检测时,通常会产生人与物体之间的遮挡或者人与人之间的交叉遮挡,可见光相机无法获得场景中物体或人员的深度信息和热辐射信息,因此其捕获二维平面图像无法有效凸显被遮挡目标的边缘轮廓、纹理等解决人员遮挡问题的关键信息,甚至被相似背景信息淹没,导致人员检测的查准率和查全率大幅下降。
2)基于多模态图像融合的人员检测方法不同于基于RGB图像的人员检测方法,其输入数据是来源于同一检测场景下的不同图像源的图像,例如RGB图像、深度图像、红外热图像,每一种图像源通过不同的相机设备捕获,图像本身具备不同的特性。多模态图像融合的检测方法主要是利用不同模态的图像交叉融合,以实现特征强化和互补关联。红外热图像和深度图像相比RGB彩色图像对光照变化的鲁棒性较好,能够在夜间等低照度条件下稳定成像,并且由于红外热相机、深度相机与可见光相机的成像原理不同,二者能够较好地捕获部分遮挡下的人员边缘轮廓等辅助线索,在一定程度上可以缓解部分遮挡的问题。现如今多采用深度学习的方法实现多模态信息的特征融合和关联建模,训练完成的模型对于多约束多场景条件下(例如夜间低照度、严重遮挡、远距离拍摄等)的人员检测具有更好的鲁棒性。但是现存方法对于多模态图像融合方式,多采用传统手工提取多模态特征融合以及利用RGBT或RGBD(彩色图像+热红外图像,彩色图像+深度图像)双流神经网络进行附加四通道融合、单一尺度融合以及加权决策融合等简单融合方式。传统手工多模态融合方法需要人为设计并提取多模态特征,依赖于主观经验且费时费力,无法实现端到端的人员检测。而简单的双流神经网络多模态融合策略,无法充分有效地利用彩色图像的色彩、纹理等细粒度信息和深度图像提供的边缘、深度等语义信息,实现多模态数据之间的关联互补,甚至由于模型复杂度过高而产生过拟合现象,导致人员检测的查准率和查全率不升反降。而RGB-T人员检测由于红热成像相机价格昂贵,在实际应用中由于成本过高具有很大的局限性。
现有代表性技术1项。
(1)发明名称:一种基于RGBD的行人检测和身份识别方法及系统(申请号:201710272095)
本发明提供了一种基于RGBD的行人检测和身份识别方法,方法包括:输入RGB和深度图像,并对图像进行预处理,转换颜色通道;然后构建RGB和深度图像的多通道特征,具体的,首先计算RGB图像的水平梯度和垂直梯度构建RGB梯度方向直方图特征,以及深度图像的水平梯度、垂直梯度和深度法向量方向,构建深度图像的梯度方向直方图,作为RGBD的多通道特征;计算深度图像每个像素点对应的尺度,对尺度进行量化,获取尺度列表;根据多通道特征,采用Adaboost算法训练行人检测分类器;采用检测分类器,搜索尺度列表对应的尺度空间,得到包含行人信息的外接矩形框,完成行人检测
但此方法需要手工提取传统的RGBD图像的梯度方向直方图作为图像特征,耗时费力且占用较大存储空间,无法端到端的实现行人检测;梯度方向直方图特征较为简单,难以提取RGB和深度图像中具有辨识力的特征进行行人检测;该方法采用RGB和深度图像特征的简单融合,难以充分有效地挖掘利用RGB图像的色彩、纹理等细粒度信息和深度图像提供的边缘、深度等语义信息,实现多模态数据之间的关联互补,在提升行人检测的精确度方面具有很大的局限性。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于非对称双流网络的RGBD 多模态融合人员检测方法,但不限于人员检测,也可以应用于目标检测、车辆检测等任务。
本发明提供的一种基于非对称双流网络的RGBD多模态融合人员检测方法代表图如图1所示,包含RGBD图像采集,深度图像预处理,RGB特征提取和 Depth特征提取,RGB多尺度融合和Depth多尺度融合,多模态特征通道重加权以及多尺度人员预测,各步骤的具体功能如下:
S1 RGBD图像采集;
利用具有同时拍摄RGB图像和深度图像功能的相机获取原始RGB图像和深度图像(以下简称为Depth图像),并对RGB和Depth图像进行匹配分组,每组图像由一张RGB图像和同场景下捕获的Depth图像组成,输出分组匹配后的 RGB和Depth图像。原始RGB图像和Depth图像也可以从公开RGBD数据集获取。
S2深度图像预处理;
从S1的RGBD图像采集获取分组匹配后的Depth图像,首先消除Depth图像的部分噪声,然后进行空洞填充,最后将单通道Depth图像重新编码为三个通道图像,并将三个通道的图像数值重新规范化到0-255,输出编码规范化后的 Depth图像。
S3 RGB特征提取和Depth特征提取;
从所述S1的RGBD图像采集获取原始RGB图像,输入到RGB特征提取(非对称双流网络模型的RGB网络流),进行下采样特征提取,输出RGB图像的高、中、低分辨率特征图,分别记为RGB_FP_H、RGB_FP_M、RGB_FP_L,代表RGB图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示;从深度图像预处理获取编码规范化后的Depth图像,输入到Depth特征提取(非对称双流网络模型的Depth网络流),进行下采样特征提取,输出Depth图像的高、中、低分辨率特征图,分别记为D_FP_H、D_FP_M、D_FP_L,代表Depth图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示。RGB网络流和Depth网络流是对称结构的,即RGB网络流和Depth网络流的结构完全相同。但Depth图像所包含的特征相对于RGB图像更简单,当采用与RGB网络相同深度的卷积网络结构提取Depth特征时,会由于网络传递过深而导致Depth特征消失,同时网络参数增加了过拟合的风险。基于上述原因,设计非对称双流卷积神经网络模型提取RGB图像和Depth图像特征。图2-1至图2-4为本方法设计的非对称双流卷积神经网络模型的一种具体实施例结构,但不限于图2-1至图2-4所示的结构。图2-1所述DarkNet-53和图2-2所述MiniDepth-30分别代表RGB网络流和Depth 网络流,二者的网络结构具有非对称的特性。
S4 RGB多尺度融合和Depth多尺度融合;
从RGB特征提取获取RGB特征图RGB_FP_H、RGB_FP_M、RGB_FP_L 输入到RGB多尺度融合,首先将获取的RGB_FP_L通过上采样层拓展到与 RGB_FP_M相同尺寸,然后与RGB_FP_M进行通道合并,实现RGB网络深层的高级语义特征与中间层的中级边缘轮廓特征的互补融合,输出通道合并后的新特征图RGB_FP_M;然后对输出通道合并后的新特征图RGB_FP_M,通过上采样层拓展到与RGB_FP_H相同尺寸,与RGB_FP_H进行通道合并,实现RGB 网络深层的高级语义特征、中间层的中级边缘轮廓特征以及浅层的低级色彩纹理特征的互补融合,输出通道合并后的新特征图RGB_FP_H;从Depth特征提取获取Depth特征图D_FP_H、D_FP_M、D_FP_L输入到Depth多尺度融合,与RGB 多尺度融合执行同样的操作。最终Depth多尺度融合的输出为原始输入 RGB_FP_L、通道合并后的新特征图RGB_FP_M和RGB_FP_H;Depth多尺度融合的输出为原始输入D_FP_L、通道合并后的新特征图D_FP_M和D_FP_H。
S5多模态特征通道重加权;
从RGB多尺度融合获取RGB特征图RGB_FP_L、RGB_FP_M、RGB_FP_H 和从Depth多尺度融合获取Depth特征图D_FP_L、D_FP_M、D_FP_H,按照分辨率分组输入到多模态特征通道重加权中对应相同分辨率的通道重加权结构中,实现更有效的RGB与Depth的多模态特征融合,提高处理多种限制场景下的检测鲁棒性。具体做法以RGB_FP_L与D_FP_L通道重加权为例,从RGB多尺度融合获取RGB_FP_L以及从Depth多尺度融合获取D_FP_L,首先进行通道合并,获得通道合并后的特征图记为Concat_L;然后应用通道重加权模块(以下简称为 RW_Module)对Concat_L的特征通道进行线性加权,为每个特征通道赋予权重,输出通道重加权后的特征图记为RW_L。RGB_FP_M与D_FP_M,RGB_FP_H 与D_FP_H的通道重加权采用与所述RGB_FP_L和D_FP_L相同方式完成。最终多模态特征通道重加权输出通道重加权后的低、中、高分辨率特征图,分别记为RW_L,RW_M,RW_H。
S6多尺度人员预测;
从所述S5的多模态特征通道重加权获取通道重加权后的特征图RW_L, RW_M,RW_H,分别输入到多尺度人员预测中对应的预测分支中进行分类和边框坐标回归,获得较大、中等以及较小尺寸人员的预测结果。由于特征图分辨率不同,特征图上每个预测点对应的感受野也不同。RW_L上的每个预测点具有较大感受野,用来预测图像中的较大目标;RW_M上的每个预测点具有中等感受野,用来预测图像中的中等目标;RW_H上的每个预测点具有较小感受野,用来预测图像中的较小目标。对上述三种不同尺度的预测结果进行汇总,采用非极大值抑制(以下简称NMS)算法[1]剔除重叠目标边框,输出最终保留的人员检测结果,即人员的类别置信分数Ci和预测矩形边框在本实施例中,i代表人员的ID编号,N为在当前图像中保留的人员检测结果总数。/>分别代表所有包含人员的矩形边框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。
与现有技术相比较,本发明针对传统对称型RGBD双流网络(RGB网络流 +Depth网络流)由于Depth网络过深而易导致深度特征流失的问题,本发明设计非对称RGBD双流卷积神经网络模型,Depth网络流通过对RGB网络流进行有效地模型剪枝获得,在降低参数的同时,能够降低模型过拟合的风险,提高检测精度。RGB网络流和Depth网络流分别用于提取RGB和深度图像(以下简称为Depth图像)的高、中、低分辨率特征图,分别代表RGB和Depth图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示;其次对RGB网络流和Depth 网络流分别设计多尺度融合结构,实现低分辨率特征图所包含的高级语义特征与中、高分辨率特征图所包含的中级边缘轮廓、低级色彩纹理特征的多尺度信息互补;然后构建多模态特征通道加权结构,合并RGB与Depth特征图,并为合并后的每个特征通道进行加权赋值,使模型能够自动学习贡献比重,完成特征选择和去除冗余的功能,从而实现RGB和Depth特征在对应高、中、低分辨率下的多模态特征融合;最后,利用多模态特征进行人员的分类和边框回归,在保证实时性的同时,提高人员检测的准确性,并增强对夜间低照度以及人员遮挡下检测的鲁棒性。
附图说明
图1本发明提供的一种基于非对称双流网络的RGBD多模态融合人员检测方法的代表图
图2-1为一种RGB网络流——DarkNet-53结构图,图2-2为一种Depth网络流——MiniDepth-30结构图,图2-3为一种卷积块通用结构图,图2-4为一种残差卷积块通用结构图。
图3本发明实施例提供的一种基于非对称双流网络的RGBD多模态融合人员检测方法的流程图
图4本发明实施例提供的一种通道重加权模块的通用结构图
图5本发明实施例提供的NMS算法的流程图
具体实施方式
为使本发明实施例的目的、技术方案和有点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面通过具体实施例对本发明进行详细说明。
本发明的实施例提供的方法示意图如图3所示,包括如下步骤:
S1:利用具有同时拍摄RGB图像和深度图像功能的相机获取原始RGB图像和深度图像,对图像进行匹配和分组,输出分组匹配后的RGB和Depth图像。
步骤S110:利用具有同时拍摄RGB图像和深度图像功能的相机获取原始 RGB图像,原始RGB图像也可以从公开RGBD数据集获取。
步骤S120:从所述步骤S110同步获取与RGB图像匹配的Depth图像,并对RGB和Depth图像进行分组,每组图像由一张RGB图像和同场景下捕获的深度图像组成,输出分组匹配后的Depth图像。
S2:从所述步骤S120中获取的分组匹配后的Depth图像,对Depth图像进行去噪、空洞修复和编码规范化,输出编码预处理后的Depth图像。
从所述步骤S120获取的原始深度图像作为输入,首先消除Depth图像的部分噪声,然后进行空洞填充,最后将单通道Depth图像重新编码为三通道图像,并将三个通道的数值重新规范化到0-255,输出编码规范化后的Depth图像。在本实施例中去除噪声采用5x5的高斯滤波器;空洞修复采用[2]提出的图像修复算法,提取Depth图像中的局部法线向量和遮挡边界,然后应用全局优化进行 Depth图像空洞填充;Depth图像编码采用HHA编码[3](horizontal disparity, height above ground,and the angle the pixel),三个通道分别为水平视差,高于地面的高度以及表面法向量的角度。
S3:从所述步骤S110获取原始RGB图像,采用非对称双流网络模型的RGB网络流在不同网络层级分别提取RGB图像的通用、低级、中级和高级特征之后,输出对应通用特征图以及高、中、低三种分辨率的RGB特征图,分别记为 RGB_FP_C、RGB_FP_H、RGB_FP_M、RGB_FP_L,并将RGB_FP_H、RGB_FP_M、RGB_FP_L其输入到S4。在本实施例中,非对称双流网络模型的RGB网络流采用DarkNet-53[4],DarkNet-53的网络结构如图2-1所示。网络共包含52个卷积层,其中网络的L1~L10层用于提取RGB图像的通用特征,输出RGB_FP_C; L11~L27层用于提取RGB图像的低级色彩纹理特征,输出RGB_FP_H;L28~L44 层用于提取RGB图像的中级边缘轮廓特征,输出RGB_FP_M;L45~L52层用于提取RGB图像的高级语义特征,输出RGB_FP_L。值得注意的是,本实施例使用的DarkNet-53模型仅为所述非对称双流网络的RGB网络流的一个具体实施例,不限于上述DarkNet-53模型,下文仅以DarkNet-53为例进行方法论述。
步骤S310:从所述S110获取原始RGB图像,经过DarkNet-53网络的L1~L10 层提取RGB图像的通用特征,并将图像分辨率下采样K倍,输出RGB通用特征图RGB_FP_C,其尺寸变为原始输入尺寸的K分之一。在本实施例中,K取值为8。L1~L10层可以划分为L1~L2、L3~L5和L6~L10三个子采样层,每个子采样层将来自上一层的输入图像分辨率下采样2倍。第一子采样层包括1个步长为1的标准卷积块(记为Conv0)和1个步长为2的池化卷积块(记为Conv0_pool),其中卷积块的通用结构如图2-3所示,包括标准图像卷积层、批规范化层和Leaky_ReLU激活层;第二子采样层包括一个残差卷积块(记为Residual_Block_1) 和1个所述池化卷积块(记为Conv1_pool),其中残差卷积块的通用结构如图2-4 所示,包含一个1x1xM的标准卷积块、一个3x3xN的标准卷积块以及一个将输入的恒等映射传递到输出的Add模块,M代表输入特征通道数,N表示输出特征通道数,此处M,N取值分别为32;第三子采样层包括2个所述残差卷积块(记为Residual_Block_2_1~2_2)和1个所述池化卷积块(记为Conv2_pool)。在本实施例中,K取值为8,M,N的取值见图3的L1~L10层。
步骤S320:从所述S310获取RGB_FP_C,经过DarkNet-53网络的L11~L27 层提取RGB图像的低级色彩纹理特征,并将图像分辨率下采样K倍,输出RGB 高分辨率特征图RGB_FP_H,其尺寸变为原始输入尺寸的K分之一。在本实施例中,L11~L27由8个所述残差卷积块(记为Residual_Block_3_1~3_8)和1个所述池化卷积块(Conv3_pool)组成。K取值为2,M,N的取值见图3的L11~L27层。
步骤S330:从所述S320获取RGB_FP_H,经过DarkNet-53网络的L28~L44 层提取RGB图像的中级边缘轮廓特征,并将图像分辨率下采样K倍,输出RGB 中分辨率特征图RGB_FP_M,其尺寸变为原始输入尺寸的K分之一。在本实施例中,L28~L44由8个所述残差卷积块(记为Residual_Block_4_1~4_8)和1个所述池化卷积块(Conv4_pool)组成。K取值为2,M,N的取值见图3的L28~L44层。
步骤S340:从所述S320获取RGB_FP_M,经过DarkNet-53网络的L45~L52 层提取RGB图像的高级语义特征,并将图像分辨率下采样K倍,输出RGB低分辨率特征图RGB_FP_L,其尺寸变为原始输入尺寸的K分之一。在本实施例中,L45~L52由4个所述残差卷积块(记为Residual_Block_5_1~5_4)组成。K取值为2,M,N的取值见图3的L45~L52层。
S3’:从所述S2获取编码规范化后的Depth图像,采用非对称双流网络模型的Depth网络流在不同网络层级上分别提取Depth图像的通用、低级、中级和高级特征之后,输出对应通用特征图以及高、中、低三种分辨率的RGB特征图,分别记为D_FP_C、D_FP_H、D_FP_M、D_FP_L,并将D_FP_H、D_FP_M、D_FP_L 输入到S4’。在本实施例中,非对称双流网络模型的Depth网络流是在RGB网络流DarkNet-53的基础上对模型进行剪枝获得,下文简称之为MiniDepth-30。 MiniDepth-30网络能更有效更清晰地提取深度图像的边缘轮廓等语义特征,同时达到减少网络参数,防止过拟合的效果。MiniDepth-30的网络结构如图2-2所示。网络共包含30个卷积层,其中网络的L1~L10层用于提取Depth图像的通用特征,输出D_FP_C;L11~L17层用于提取Depth图像的低级色彩纹理特征,输出 D_FP_H;L18~L24层用于提取Depth图像的中级边缘轮廓特征,输出D_FP_M; L25~L30层用于提取Depth图像的高级语义特征,输出D_FP_L。值得注意的是,本实施例使用的MiniDepth-30模型仅为所述非对称双流网络的Depth网络流的一个具体实施例,不限于上述MiniDepth-30模型,下文仅以MiniDepth-30为例进行方法论述。
步骤S310’:从所述S2获取编码规范化后的Depth图像,经过MiniDepth-30 网络的L1~L10层提取RGB图像的通用特征,并将图像分辨率下采样K倍,输出Depth通用特征图D_FP_C,其尺寸变为原始输入尺寸的K分之一。在本实施例中,MiniDepth-30的L1~L10网络层与步骤S310中DarkNet-53的L1~L10网络层具有相同结构,K取值为8。
步骤S320’:从所述步骤S310’获取D_FP_C,经过MiniDepth-30网络的 L11~L17层提取Depth图像的低级色彩纹理特征,并将图像分辨率下采样K倍,输出Depth高分辨率特征图D_FP_H,其尺寸变为原始输入尺寸的K分之一。在本实施例中,L11~L17由3个所述残差卷积块(记为Residual_Block_D_3_1~3_3) 和1个所述池化卷积块(Conv3_D_pool)组成。K取值为2,M,N的取值见图3的 L11~L17层。
步骤S330’:从所述步骤S320’获取D_FP_H,经过MiniDepth-30网络的 L18~L24层提取Depth图像的中级边缘轮廓特征,并将图像分辨率下采样K倍,输出Depth中分辨率特征图D_FP_M,其尺寸变为原始输入尺寸的K分之一。在本实施例中,L18~L24由3个所述残差卷积块(记为Residual_Block_D_4_1~ 4_3)和1个所述池化卷积块(Conv4_D_pool)组成。K取值为2,M,N的取值见图 3的L18~L24层。
步骤S340’:从所述步骤S330’获取D_FP_M,经过DarkNet-53网络的 L25~L30层提取Depth图像的高级语义特征,并将图像分辨率下采样K倍,输出Depth低分辨率特征图D_FP_L,其尺寸变为原始输入尺寸的K分之一。在本实施例中,L25~L30由3个所述残差卷积块(记为Residual_Block_D_5_1~5_3) 组成。K取值为2,M,N的取值见图3的L25~L30层。
S4:从所述S3获取RGB_FP_H、RGB_FP_M和RGB_FP_L,利用上采样拓展特征图尺寸,合并具有相同分辨率的RGB特征图的特征通道实现特征融合,输出特征融合之后的特征图RGB_FP_H、RGB_FP_M和RGB_FP_L到S5。
步骤S410:从所述步骤S340获取的RGB_FP_L,上采样M倍后与所述步骤 S330获取的RGB_FP_M进行通道合并,实现RGB网络深层的高级语义特征和中间层的中级边缘轮廓特征的互补融合,输出特征融合后的新特征图 RGB_FP_M。通道合并具体做法:RGB_FP_L的通道数为C1,RGB_FP_M的通道数为C2,二者通道合并C1+C2后获得C3,C3为特征融合后新特征图 RGB_FP_M的通道数。在本实施例中M取值为2,C1,C2,C3取值分别为256, 512,768。
步骤S420:从所述步骤S410获取特征融合后的新特征图RGB_FP_M,上采样M倍后与所述步骤S320获取的RGB_FP_H进行通道合并,实现RGB网络深层的高级语义特征、中间层的中级边缘轮廓特征以及浅层的低级色彩纹理特征的互补融合,输出特征融合后的新特征图D_FP_H。通道合并具体做法:RGB_FP_M 的通道数为C1,RGB_FP_H的通道数为C2,二者通道合并C1+C2后获得C3, C3为特征融合后新特征图RGB_FP_H的通道数。在本实施例中M取值为2,C1,C2,C3取值分别为128,256,384。
S4’:从所述S3’获取D_FP_H、D_FP_M、D_FP_L,利用上采样拓展特征图尺寸,合并具有相同分辨率的Depth特征图的特征通道实现特征融合,输出特征融合之后的特征图D_FP_H、D_FP_M、D_FP_L到S5。
步骤S410’:从所述步骤S340’获取的D_FP_L,上采样M倍后与所述步骤S330’获取的D_FP_M进行通道合并,实现Depth网络深层的高级语义特征和中间层的中级边缘轮廓特征的互补融合,输出特征融合后的新特征图D_FP_M。通道合并具体做法:D_FP_L的通道数为C1,D_FP_M的通道数为C2,二者通道合并C1+C2后获得C3,C3为特征融合后新特征图D_FP_M的通道数。在本实施例中M取值为2,C1,C2,C3取值分别为256,512,768。
步骤S420’:从所述步骤S410获取特征融合后的新特征图D_FP_M,上采样M倍后与所述步骤S320’获取的D_FP_H进行通道合并,实现Depth网络深层的高级语义特征、中间层的中级边缘轮廓特征以及浅层的低级色彩纹理特征的互补融合,输出特征融合后的新特征图D_FP_H。通道合并具体做法:D_FP_M 的通道数为C1,D_FP_H的通道数为C2,二者通道合并C1+C2后获得C3,C3 为特征融合后新特征图D_FP_H的通道数。在本实施例中M取值为2,C1,C2, C3取值分别为128,256,384。
S5:从所述S4获取特征融合后新特征图RGB_FP_H、RGB_FP_M和RGB_FP_L,从S4’获取特征融合后新特征图D_FP_H、D_FP_M、D_FP_L,在对应相等的分辨率上分别进行特征通道合并,获得通道合并后的特征图,分别记为Concat_L、 Concat_M、Concat_H,然后应用通道重加权模块(以下简称为RW_Module)分别对Concat_L、Concat_M、Concat_H进行线性加权,输出通道重加权后的高、中、低分辨率特征图,分别记为RW_H,RW_M,RW_L。
步骤S510:从所述S4获取RGB_FP_L和D_FP_L,首先将RGB_FP_L和 D_FP_L的特征通道进行合并获得Concat_L,实现RGB和Depth在网络深层多模态信息的互补融合,然后应用通道重加权模块RW_Module对Concat_L进行线性加权,为每个特征通道赋予权重,输出通道重加权后的特征图RW_L。以 RGB_FP_L和D_FP_L的通道重加权为例,本实施例提供的一种通道重加权模块的通用结构如图4所示。具体做法,RGB_FP_L的通道数为C1,D_FP_L的通道数为C2,通道合并后的新特征图Concat_L的通道数为C3,其中C3=C1+C2;然后对所述Concat_L依次经过1个1x1的Ave-Pooling层、1个由C3/s(s为缩减步长)个1x1卷积核组成的标准卷积层、1个C3个1x1卷积核组成的标准卷积层和1个Sigmoid层,获取C3个数值范围在0~1之间的权重值;最后将获取的C3个权重值与所述Concat_L的C3个特征通道相乘,为每个特征通道赋予权重,输出通道重加权后的C3个特征通道,即RW_L。在本实施例中,C1、C2、 C3的取值分别为1024,1024,2048,缩减步长s的取值分别为16。
步骤S520:从所述步骤S410获取RGB_FP_M和所述步骤S410’获取D_FP_M,首先将RGB_FP_M和D_FP_M的特征通道进行合并获得Concat_M,实现RGB 和Depth在网络中间层多模态信息的互补融合,然后应用通道重加权模块 RW_Module对Concat_M进行线性加权,为每个特征通道赋予权重,输出通道重加权后的特征图RW_M。在本实施例中,RGB_FP_M和D_FP_M的通道重加权方式与所述步骤S510中RGB_FP_L和D_FP_L的通道重加权方式保持一致,其中C1、C2、C3的取值分别为512,512,1024,缩减步长s的取值分别为16。
步骤S530:从所述步骤S420获取RGB_FP_H和所述步骤S420’获取D_FP_H,首先将RGB_FP_H和D_FP_H的特征通道进行合并获得Concat_H,实现RGB 和Depth在网络浅层多模态信息的互补融合,然后应用通道重加权模块 RW_Module对Concat_H进行线性加权,为每个特征通道赋予权重,输出通道重加权后的特征图RW_H。在本实施例中,RGB_FP_H和D_FP_H的通道重加权方式与所述步骤S510中RGB_FP_L和D_FP_L的通道重加权方式保持一致,其中,C1、C2、C3的取值分别为256,256,512,缩减步长s的取值分别为16。
S6:从所述S5获取通道重加权后的特征图RW_L,RW_M,RW_H,分别进行分类和边框坐标回归,获得较大、中等以及较小尺寸人员的预测结果,对上述三种不同尺度的预测结果进行汇总,采用非极大值抑制(以下简称NMS)算法剔除重叠目标边框,输出最终保留的人员检测结果,即人员的类别置信分数Ci和预测矩形边框在本实施例中,i代表人员的ID编号,N为在当前图像中保留的人员检测结果总数。/>分别代表所有包含人员的矩形边框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。
步骤S610:从所述步骤S510获取通道重加权后的低分辨率特征图RW_L,传输到SoftMax分类层和坐标回归层,输出在低分辨率特征图下预测较大尺寸人员的类别置信分数和矩形边框的左上角、右下角坐标/>其中下标 L表示在低分辨率特征图下的预测结果。
步骤S620:从所述步骤S520获取通道重加权后的低分辨率特征图RW_M,传输到SoftMax分类层和坐标回归层,输出在中分辨率特征图下预测中等尺寸人员的类别置信分数和矩形边框的左上角、右下角坐标/>其中下标M表示在中分辨率特征图下的预测结果。
步骤S630:从所述步骤S530获取通道重加权后的高分辨率特征图RW_H,传输到SoftMax分类层和坐标回归层,输出在高分辨率特征图下预测较小尺寸人员的类别置信分数和矩形边框的左上角、右下角坐标/>其中下标 H表示在高分辨率特征图下的预测结果。
步骤S640:从所述步骤S610、S620和S630获取较大、中等和较小尺寸人员的类别置信分数和矩形边框左上右下坐标/>对三种尺度的预测结果进行汇总,然后采用NMS算法去除重叠的目标边框,输出最终保留的人员检测结果。即人员的类别置信分数Ci和预测矩形边框/>NMS算法流程图如图5所示。
NMS算法步骤如下:
步骤S640-1:从所述步骤S610、S620和S630获取较大、中等、较小尺寸的人员类别置信分数和矩形边框左上右下坐标/>对三种尺度的预测结果进行汇总,利用置信阈值对预测框进行筛选,保留类别置信分数大于置信阈值的预测边框,将其加入到预测列表中。在本实施例中置信阈值设置为0.3。
步骤S640-2:从所述步骤S640-1获取的预测列表,对预测列表中未处理的预测边框按照置信分数降序排列,输出降序排列后的预测列表。
步骤S640-3:从所述步骤S640-2中获取降序排列后的预测列表,选取最大置信分数对应的边框作为当前基准边框,将当前基准边框的类别置信分数和边框坐标加入到最终结果列表中,并将基准边框从预测列表中剔除,其余所有预测边框与当前基准边框计算交并比(IoU)。
步骤S640-4:从所述步骤S640-3获取预测列表以及预测列表中所有边框与基准边框的IoU值,若当前边框的IoU大于预设NMS阈值,则认为其与基准边框为重复目标,将其从预测边框列表中剔除,否则保留当前边框。输出筛选后的预测列表。
步骤S640-5:从所述步骤S640-4获取筛选后的预测列表,若预测列表中所有边框都处理完毕即预测边框为空,则算法结束,返回最终结果列表;反之,当前预测列表中仍存在未处理的边框,则返回步骤S640-2重复算法流程。
步骤S640-6:对所述步骤S640-5,当预测列表中不存在未处理的预测边框时,输出最终结果列表为最终保留的人员检测结果。
参考文献:
[1]Neubeck A,Gool LV.Efficient Non-Maximum Suppression[C]//International Conference on Pattern Recognition.2006.
[2]Zhang Y,Funkhouser T.Deep Depth Completion of a Single RGB-D Image[J].2018.
[3]Gupta S,Girshick R,Arbeláez P,et al.Learning Rich Features fromRGB-D Images for Object Detection and Segmentation[C]//2014.
[4]Redmon J,Farhadi A.YOLOv3:An Incremental Improvement[J].2018。

Claims (3)

1.一种基于非对称双流网络的RGB-D多模态融合人员检测方法,其特征在于:包含RGBD图像采集,深度图像预处理,RGB特征提取和Depth特征提取,RGB多尺度融合和Depth多尺度融合,多模态特征通道重加权以及多尺度人员预测;
S1,RGBD图像采集;
利用具有同时拍摄RGB图像和深度图像功能的相机获取原始RGB图像和Depth图像,并对RGB和Depth图像进行匹配分组,每组图像由一张RGB图像和同场景下捕获的Depth图像组成,输出分组匹配后的RGB和Depth图像;原始RGB图像和Depth图像或从公开RGBD数据集获取;
S2,深度图像预处理;
从S1的RGBD图像采集获取分组匹配后的Depth图像,首先消除Depth图像的部分噪声,然后进行空洞填充,最后将单通道Depth图像重新编码为三个通道图像,并将三个通道的图像数值重新规范化到0-255,输出编码规范化后的Depth图像;
S3,RGB特征提取和Depth特征提取;
从所述S1的RGBD图像采集获取原始RGB图像,输入到RGB特征提取,进行下采样特征提取,输出RGB图像的高、中、低分辨率特征图,分别记为RGB_FP_H、RGB_FP_M、RGB_FP_L,代表RGB图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示;从深度图像预处理获取编码规范化后的Depth图像,输入到Depth特征提取,进行下采样特征提取,输出Depth图像的高、中、低分辨率特征图,分别记为D_FP_H、D_FP_M、D_FP_L,代表Depth图像的低级色彩纹理、中级边缘轮廓和高级语义特征表示;RGB网络流和Depth网络流是对称结构的,即RGB网络流和Depth网络流的结构完全相同;设计非对称双流卷积神经网络模型提取RGB图像和Depth图像特征;DarkNet-53和MiniDepth-30分别代表RGB网络流和Depth网络流,DarkNet-53和MiniDepth-30的网络结构具有非对称的特性;
S4RGB多尺度融合和Depth多尺度融合;
从RGB特征提取获取RGB特征图RGB_FP_H、RGB_FP_M、RGB_FP_L输入到RGB多尺度融合,首先将获取的RGB_FP_L通过上采样层拓展到与RGB_FP_M相同尺寸,然后与RGB_FP_M进行通道合并,实现RGB网络深层的高级语义特征与中间层的中级边缘轮廓特征的互补融合,输出通道合并后的新特征图RGB_FP_M;然后对输出通道合并后的新特征图RGB_FP_M,通过上采样层拓展到与RGB_FP_H相同尺寸,与RGB_FP_H进行通道合并,实现RGB网络深层的高级语义特征、中间层的中级边缘轮廓特征以及浅层的低级色彩纹理特征的互补融合,输出通道合并后的新特征图RGB_FP_H;从Depth特征提取获取Depth特征图D_FP_H、D_FP_M、D_FP_L输入到Depth多尺度融合,与RGB多尺度融合执行同样的操作;最终Depth多尺度融合的输出为原始输入RGB_FP_L、通道合并后的新特征图RGB_FP_M和RGB_FP_H;Depth多尺度融合的输出为原始输入D_FP_L、通道合并后的新特征图D_FP_M和D_FP_H;
S5多模态特征通道重加权;
从RGB多尺度融合获取RGB特征图RGB_FP_L、RGB_FP_M、RGB_FP_H和从Depth多尺度融合获取Depth特征图D_FP_L、D_FP_M、D_FP_H,按照分辨率分组输入到多模态特征通道重加权中对应相同分辨率的通道重加权结构中;RGB_FP_L与D_FP_L通道重加权中,从RGB多尺度融合获取RGB_FP_L以及从Depth多尺度融合获取D_FP_L,首先进行通道合并,获得通道合并后的特征图记为Concat_L;然后应用通道重加权模块简称为RW_Module对Concat_L的特征通道进行线性加权,为每个特征通道赋予权重,输出通道重加权后的特征图记为RW_L;RGB_FP_M与D_FP_M,RGB_FP_H与D_FP_H的通道重加权采用与所述RGB_FP_L和D_FP_L相同方式完成;最终多模态特征通道重加权输出通道重加权后的低、中、高分辨率特征图,分别记为RW_L,RW_M,RW_H;
S6多尺度人员预测;
从所述S5的多模态特征通道重加权获取通道重加权后的特征图RW_L,RW_M,RW_H,分别输入到多尺度人员预测对应的预测分支中进行分类和边框坐标回归,获得较大、中等以及较小尺寸人员的预测结果;RW_L上的每个预测点具有较大感受野,用来预测图像中的较大目标;RW_M上的每个预测点具有中等感受野,用来预测图像中的中等目标;RW_H上的每个预测点具有较小感受野,用来预测图像中的较小目标;对上述三种不同尺度的预测结果进行汇总,采用非极大值抑制算法剔除重叠目标边框,输出最终保留的人员检测结果,即人员的类别置信分数Ci和预测矩形边框i代表人员的ID编号,N为在当前图像中保留的人员检测结果总数;/>分别代表所有包含人员的矩形边框的左上角横坐标、左上角纵坐标、右下角横坐标以及右下角纵坐标。
2.根据权利要求1所述的一种基于非对称双流网络的RGB-D多模态融合人员检测方法,其特征在于:获取较大、中等和较小尺寸人员的类别置信分数和矩形边框左上右下坐标
对三种尺度的预测结果进行汇总,然后采用NMS算法去除重叠的目标边框,输出最终保留的人员检测结果;即人员的类别置信分数Ci和预测矩形边框
3.根据权利要求2所述的一种基于非对称双流网络的RGB-D多模态融合人员检测方法,其特征在于:
NMS算法步骤如下:
步骤S640-1:从获取较大、中等、较小尺寸的人员类别置信分数和矩形边框左上右下坐标/>对三种尺度的预测结果进行汇总,利用置信阈值对预测框进行筛选,保留类别置信分数大于置信阈值的预测边框,将其加入到预测列表中;置信阈值设置为0.3;
步骤S640-2:从所述步骤S640-1获取的预测列表,对预测列表中未处理的预测边框按照置信分数降序排列,输出降序排列后的预测列表;
步骤S640-3:从所述步骤S640-2中获取降序排列后的预测列表,选取最大置信分数对应的边框作为当前基准边框,将当前基准边框的类别置信分数和边框坐标加入到最终结果列表中,并将基准边框从预测列表中剔除,其余所有预测边框与当前基准边框计算交并比IoU;
步骤S640-4:从所述步骤S640-3获取预测列表以及预测列表中所有边框与基准边框的IoU值,若当前边框的IoU大于预设NMS阈值,则认为其与基准边框为重复目标,将其从预测边框列表中剔除,否则保留当前边框;输出筛选后的预测列表;
步骤S640-5:从所述步骤S640-4获取筛选后的预测列表,若预测列表中所有边框都处理完毕即预测边框为空,则算法结束,返回最终结果列表;反之,当前预测列表中仍存在未处理的边框,则返回步骤S640-2重复算法流程;
步骤S640-6:对所述步骤S640-5,当预测列表中不存在未处理的预测边框时,输出最终结果列表为最终保留的人员检测结果。
CN201911090619.5A 2019-11-09 2019-11-09 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 Active CN110956094B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911090619.5A CN110956094B (zh) 2019-11-09 2019-11-09 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
PCT/CN2020/080991 WO2021088300A1 (zh) 2019-11-09 2020-03-25 一种基于非对称双流网络的rgb-d多模态融合人员检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911090619.5A CN110956094B (zh) 2019-11-09 2019-11-09 一种基于非对称双流网络的rgb-d多模态融合人员检测方法

Publications (2)

Publication Number Publication Date
CN110956094A CN110956094A (zh) 2020-04-03
CN110956094B true CN110956094B (zh) 2023-12-01

Family

ID=69977120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911090619.5A Active CN110956094B (zh) 2019-11-09 2019-11-09 一种基于非对称双流网络的rgb-d多模态融合人员检测方法

Country Status (2)

Country Link
CN (1) CN110956094B (zh)
WO (1) WO2021088300A1 (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767882A (zh) * 2020-07-06 2020-10-13 江南大学 一种基于改进yolo模型的多模态行人检测方法
CN111968058B (zh) * 2020-08-25 2023-08-04 北京交通大学 一种低剂量ct图像降噪方法
CN111986240A (zh) * 2020-09-01 2020-11-24 交通运输部水运科学研究所 基于可见光和热成像数据融合的落水人员检测方法及系统
CN112434654B (zh) * 2020-12-07 2022-09-13 安徽大学 一种基于对称卷积神经网络的跨模态行人重识别方法
CN113221659B (zh) * 2021-04-13 2022-12-23 天津大学 一种基于不确定感知网络的双光车辆检测方法及装置
CN113240631B (zh) * 2021-04-22 2023-12-12 北京中科慧眼科技有限公司 基于rgb-d融合信息的路面检测方法、系统和智能终端
CN113468954B (zh) * 2021-05-20 2023-04-18 西安电子科技大学 基于多通道下局部区域特征的人脸伪造检测方法
CN113360712B (zh) * 2021-05-21 2022-12-06 北京百度网讯科技有限公司 视频表示的生成方法、装置和电子设备
CN113313688B (zh) * 2021-05-28 2022-08-05 武汉乾峯智能科技有限公司 一种含能材料药桶识别方法、系统、电子设备及存储介质
CN113362224A (zh) * 2021-05-31 2021-09-07 维沃移动通信有限公司 图像处理方法、装置、电子设备及可读存储介质
CN113298094B (zh) * 2021-06-10 2022-11-04 安徽大学 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法
CN113536978B (zh) * 2021-06-28 2023-08-18 杭州电子科技大学 一种基于显著性的伪装目标检测方法
CN113538615B (zh) * 2021-06-29 2024-01-09 中国海洋大学 基于双流生成器深度卷积对抗生成网络的遥感图像上色方法
CN113361466B (zh) * 2021-06-30 2024-03-12 江南大学 一种基于多模态交叉指导学习的多光谱目标检测方法
CN113486781B (zh) * 2021-07-02 2023-10-24 国网电力科学研究院有限公司 一种基于深度学习模型的电力巡检方法及装置
CN113537326B (zh) * 2021-07-06 2024-06-25 安徽大学 一种rgb-d图像显著目标检测方法
CN113658134A (zh) * 2021-08-13 2021-11-16 安徽大学 一种多模态对齐校准的rgb-d图像显著目标检测方法
CN113657521B (zh) * 2021-08-23 2023-09-19 天津大学 一种分离图像中两种互斥成分的方法
CN113887332B (zh) * 2021-09-13 2024-04-05 华南理工大学 一种基于多模态融合的肌肤作业安全监测方法
CN113848234A (zh) * 2021-09-16 2021-12-28 南京航空航天大学 一种基于多模态信息的航空复合材料的检测方法
CN113887425B (zh) * 2021-09-30 2024-04-12 北京工业大学 一种面向低算力运算装置的轻量化物体检测方法与系统
CN113902903A (zh) * 2021-09-30 2022-01-07 北京工业大学 一种基于下采样的双注意力多尺度融合方法
CN113989245B (zh) * 2021-10-28 2023-01-24 杭州中科睿鉴科技有限公司 多视角多尺度图像篡改检测方法
CN114037938B (zh) * 2021-11-09 2024-03-26 桂林电子科技大学 一种基于NFL-Net的低照度目标检测方法
CN113902783B (zh) * 2021-11-19 2024-04-30 东北大学 一种融合三模态图像的显著性目标检测系统及方法
CN114170174B (zh) * 2021-12-02 2024-01-23 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114372986B (zh) * 2021-12-30 2024-05-24 深圳大学 注意力引导多模态特征融合的图像语义分割方法及装置
CN114049508B (zh) * 2022-01-12 2022-04-01 成都无糖信息技术有限公司 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114219807B (zh) * 2022-02-22 2022-07-12 成都爱迦飞诗特科技有限公司 乳腺超声检查图像分级方法、装置、设备和存储介质
CN114708295B (zh) * 2022-04-02 2024-04-16 华南理工大学 一种基于Transformer的物流包裹分离方法
CN114581838B (zh) * 2022-04-26 2022-08-26 阿里巴巴达摩院(杭州)科技有限公司 图像处理方法、装置和云设备
CN114663436A (zh) * 2022-05-25 2022-06-24 南京航空航天大学 一种基于深度学习的跨尺度缺陷检测方法
CN115100409B (zh) * 2022-06-30 2024-04-26 温州大学 一种基于孪生网络的视频人像分割算法
CN114821488B (zh) * 2022-06-30 2022-11-01 华东交通大学 基于多模态网络的人群计数方法、系统及计算机设备
CN115909182B (zh) * 2022-08-09 2023-08-08 哈尔滨市科佳通用机电股份有限公司 一种动车组闸片磨损故障图像识别方法
CN115273154B (zh) * 2022-09-26 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于边缘重构的热红外行人检测方法、系统及存储介质
CN115731473B (zh) * 2022-10-28 2024-05-31 南开大学 面向农田植物非正常变化的遥感图像分析方法
CN115937791B (zh) * 2023-01-10 2023-05-16 华南农业大学 一种适用于多种养殖模式的家禽计数方法及其计数装置
CN115984672B (zh) * 2023-03-17 2023-05-30 成都纵横自动化技术股份有限公司 基于深度学习的高清图像内小目标的检测方法和装置
CN116343308B (zh) * 2023-04-04 2024-02-09 湖南交通工程学院 一种融合人脸图像检测方法、装置、设备及存储介质
CN116311077B (zh) * 2023-04-10 2023-11-07 东北大学 一种基于显著性图的多光谱融合的行人检测方法及装置
CN116206133B (zh) * 2023-04-25 2023-09-05 山东科技大学 一种rgb-d显著性目标检测方法
CN116758117B (zh) * 2023-06-28 2024-02-09 云南大学 可见光与红外图像下的目标跟踪方法及系统
CN116519106B (zh) * 2023-06-30 2023-09-15 中国农业大学 一种用于测定生猪体重的方法、装置、存储介质和设备
CN116715560B (zh) * 2023-08-10 2023-11-14 吉林隆源农业服务有限公司 控释肥料的智能化制备方法及其系统
CN117475182B (zh) * 2023-09-13 2024-06-04 江南大学 基于多特征聚合的立体匹配方法
CN117237343B (zh) * 2023-11-13 2024-01-30 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备
CN117350926B (zh) * 2023-12-04 2024-02-13 北京航空航天大学合肥创新研究院 一种基于目标权重的多模态数据增强方法
CN117392572B (zh) * 2023-12-11 2024-02-27 四川能投发展股份有限公司 一种基于无人机巡检的输电杆塔鸟巢检测方法
CN117635953B (zh) * 2024-01-26 2024-04-26 泉州装备制造研究所 一种基于多模态无人机航拍的电力系统实时语义分割方法
CN118172615A (zh) * 2024-05-14 2024-06-11 山西新泰富安新材有限公司 用于降低加热炉烧损率的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956532A (zh) * 2016-04-25 2016-09-21 大连理工大学 一种基于多尺度卷积神经网络的交通场景分类方法
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN110309747A (zh) * 2019-06-21 2019-10-08 大连理工大学 一种支持多尺度快速深度行人检测模型

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140049152A (ko) * 2012-10-16 2014-04-25 한국전자통신연구원 사람 추종 방법 및 로봇 장치
CN107045630B (zh) * 2017-04-24 2020-06-09 杭州艾芯智能科技有限公司 一种基于rgbd的行人检测和身份识别方法及系统
CN111712830B (zh) * 2018-02-21 2024-02-09 罗伯特·博世有限公司 使用深度传感器的实时对象检测
CN109543697A (zh) * 2018-11-16 2019-03-29 西北工业大学 一种基于深度学习的rgbd图像目标识别方法
CN109598301B (zh) * 2018-11-30 2020-12-01 腾讯科技(深圳)有限公司 检测区域去除方法、装置、终端和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956532A (zh) * 2016-04-25 2016-09-21 大连理工大学 一种基于多尺度卷积神经网络的交通场景分类方法
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN110309747A (zh) * 2019-06-21 2019-10-08 大连理工大学 一种支持多尺度快速深度行人检测模型

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Li Sun等.A Novel Weakly-supervised approach for RGB-D-based Nuclear Waste Object Detection and Categorization.《IEEE Sensors Journal》.2019,第1-14页. *
王得成等.基于卷积神经网络和RGB-D图像的车辆检测算法.《激光与光电子学进展》.2019,第1-8页. *
程文韬.基于RGB-D图像多模态融合的手势识别研究.《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》.2019,第2-3章. *

Also Published As

Publication number Publication date
WO2021088300A1 (zh) 2021-05-14
CN110956094A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN108446617B (zh) 抗侧脸干扰的人脸快速检测方法
CN104809443B (zh) 基于卷积神经网络的车牌检测方法及系统
CN107622258B (zh) 一种结合静态底层特征和运动信息的快速行人检测方法
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
Battiato et al. Depth map generation by image classification
CN111582201A (zh) 一种基于几何注意力感知的车道线检测系统
CN111797716A (zh) 一种基于Siamese网络的单目标跟踪方法
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
KR102103770B1 (ko) 보행자 검출 장치 및 방법
CN105574488A (zh) 一种基于低空航拍红外图像的行人检测方法
CN112288008A (zh) 一种基于深度学习的马赛克多光谱图像伪装目标检测方法
CN110472634A (zh) 基于多尺度深度特征差值融合网络的变化检测方法
CN117152443B (zh) 一种基于语义前导指引的图像实例分割方法及系统
Zhu et al. Towards automatic wild animal detection in low quality camera-trap images using two-channeled perceiving residual pyramid networks
CN114627269A (zh) 一种基于深度学习目标检测的虚拟现实安防监控平台
CN112613392A (zh) 基于语义分割的车道线检测方法、装置、系统及存储介质
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN112926667B (zh) 深度融合边缘与高层特征的显著性目标检测方法及装置
CN109064444B (zh) 基于显著性分析的轨道板病害检测方法
CN114463205A (zh) 一种基于双分支Unet噪声抑制的车辆目标分割方法
CN112785610A (zh) 一种融合低层特征的车道线语义分割方法
Jin et al. Fusing Canny operator with vibe algorithm for target detection
CN115147450B (zh) 基于运动帧差图像的移动目标检测方法及检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant