CN110909615B

CN110909615B - 基于多尺度输入混合感知神经网络的目标检测方法

Info

Publication number: CN110909615B
Application number: CN201911032300.7A
Authority: CN
Inventors: 魏平; 夏春龙; 王熔; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2023-03-28
Anticipated expiration: 2039-10-28
Also published as: CN110909615A

Abstract

本发明公开了一种基于多尺度输入混合感知神经网络的目标检测方法。本发明通过数据预处理、生成候选区域及不同尺度的单通道网络检测，在目标检测与识别网络框架下，针对不同的通道计算不同的尺度特征，然后将检测结果进行融合，解决了直接进行不同尺度特征的融合，导致提取的特征存在混淆的问题。测试结果表明，本发明使混合感知神经网络在三维目标检测与识别中的性能得到提高。

Description

基于多尺度输入混合感知神经网络的目标检测方法

技术领域

本发明涉及基于混合感知神经网络的三维目标检测与识别领域，具体涉及利用多尺度输入神经网络进行图像特征识别。

背景技术

目前在目标检测与识别领域性能最好的2.5D方法为Amodal3Det算法，2.5D方法通常指的是深度图信息被类似于颜色信息方式处理的一种检测方法，这种方法通常是在颜色和深度图中挖掘有效的特征表示，然后利用建立的模型将2D结果转化到3D空间。Amodal3Det算法通过单层特征图进行特征的提取、感兴趣物体的类别判断和真实的物理世界位置回归。由于单层特征图往往对某一尺度的感兴趣物体检测性能最好，距离尺度越近的物体，越容易检测正确。而一幅图像中，感兴趣物体的尺度往往有多个，同一个训练测试集拥有的尺度则更多，针对这一现象，可以使用混合感知神经网络模型来进行特征的提取以及后续的类别判断和位置推理。但在复杂场景中，融合不同尺度的感知层特征，使单尺度混合感知神经网络(HPN)的性能会急剧下降。而导致性能急剧下降的原因包括：研究的对象场景比较复杂且存在大量的遮挡等情况下，直接使用同一通道进行不同尺度的融合，提取的特征存在混淆的可能。

目前，仅见到孙元辉报道了“基于多尺度分支结构特征融合的目标检测研究”(2019年6月)，但是，其多尺度分支结构特征融合是直接将提取出的多种尺度的特征融合后再进行检测，以实现高速的特征提取。

发明内容

本发明的目的在于提供一种基于多尺度输入混合感知神经网络的目标检测方法，通过提取多种尺度的特征单独训练，及将测试结果融合，解决不同尺度图像融合时特征混淆的问题。

为了实现上述目的，本发明采用了以下技术方案：

1)利用图像不同尺度的样本集对基于混合感知神经网络的检测器分别进行训练，得到对应尺度下的混合感知神经网络的模型参数；

2)经过步骤1)后，将待检测图像缩放至对应的不同尺度后分别输入所述混合感知神经网络，并利用对应尺度下的模型参数得到对应尺度下的检测结果，将各检测结果融合后输出待检测图像的特征识别结果。

优选的，所述特征识别结果包括待检测图像内的三维物体类别和该物体的位置。

优选的，所述检测器在图像上的检测区域为位置关系对应的颜色图及深度图的候选区域。

优选的，所述候选区域的生成方法包括以下步骤：

1.1)在颜色图上计算2D目标(物体)候选区域，该目标候选区域为对应深度图的2D目标候选区域；

1.2)根据所述颜色图及深度图的2D目标候选区域确定对应的3D目标候选区域。

优选的，所述深度图选自经过空洞区和噪点修复的复杂场景图像。

优选的，所述缩放采用双线性插值法。

本发明的有益效果体现在：

本发明将不同尺度的图像单独进行训练形成不同的检测通道，最后将各尺度下检测结果进行融合，这样可以明显降低特征的混淆程度，保证特征的精度，经在NYUV2数据集上进行测试，本发明比Amodal3Det算法、单尺度混合感知神经网络的性能均有明显提高。

进一步的，本发明针对复杂场景图像，利用空洞区和噪点修复，结合尺度缩放、3D目标候选区域生成，解决了由于深度图存在较大的空洞，并且图像场景中物体之间存在堆叠、大面积遮挡和截断等现象，导致利用单尺度神经网络模型参数直接从2D分割区域推断物体的3D位置具有很大的误差和不确定性的问题，从而可以在信息存在缺失的情况下，使混合感知神经网络在三维目标检测与识别中的性能得到提高。

附图说明

图1为多尺度输入神经网络模型框架图，其中，cls：目标类别，Bbox Reg：3D目标候选区域，Classifiation：目标类别，Bbox Regress：最终预测出的目标位置。

图2为多尺度输入神经网络模型训练过程流程图。

图3为缩放变换原理示意图。

图4为一维线性插值示意图。

图5为双线性插值示意图，其中：(a)待插值的图像；(b)双线性插值第一步；(c)双线性插值第二步；(d)双线性插值第三步。

图6为多尺度输入神经网络可视化测试结果图，其中：奇数行为输入的不同复杂场景的图像(属于NYUV2数据集)，该图像下方一行为对应的经过修复后的图像(图中的立体框表示经过多尺度输入神经网络模型最终预测出的目标位置)。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

参见图1，本发明提出了一种基于混合感知神经网络的多尺度输入神经网络(MSI)，其将不同的尺度特征放在不同的通道里进行计算，然后将各通道结果进行融合。

(一)利用多尺度输入神经网络进行图像特征(三维物体类别和位置)提取的具体步骤

步骤1：数据预处理。

数据预处理包括两个部分，先进行深度图像修复，再进行图像尺度缩放(深度图和颜色图都进行缩放处理)。

1.1深度图像修复

由于深度相机的精度问题，采集的深度图具有较大的空洞和噪声，直接在原始数据上进行研究，可能会因为信息缺失而无法得到有效的特征，为三维目标检测算法的设计与验证增加了难度。同时，由于图像场景复杂(例如，NYUV2数据集)，物体之间存在堆叠、大面积遮挡和截断等现象。所以直接从2D分割区域推断物体的3D位置具有很大的误差和不确定性。即便使用深度学习算法来推断，由于信息的缺失，仍然具有很大的挑战。

为此，本发明首先采用了一种联合颜色与深度信息的深度图像修复方法，即自适应滤波算法。该深度图像修复方法获取待修复深度图及待修复深度图深度处理前的颜色原图；然后根据待修复深度图的掩码获取待修复深度图的空洞和噪点坐标，从而确认深度图的空洞和噪点坐标信息；最后，对于待修复深度图中的噪点，采用双边滤波方法进行图像噪点修复，对于待修复深度图中的空洞，获取颜色原图中与待修复深度图相同位置像素点的像素值并利用该像素值覆盖待修复深度图中相同位置的像素点的像素值，完成空洞的修复。这种深度图像修复方法有效地解决了单一滤波器不能处理深度图像中大面积空洞的问题，减小了深度图像修复误差，实现了场景的深度图像有效修复。

1.2图像尺度缩放

图像(颜色图和深度图)的尺度缩放是指将原图按照一定的比例或者固定尺寸放大或者缩小。

例如在图3中，将原图按照0.5的比例进行了缩放。假设图像在x轴方向的缩放比例是S_x，在y轴方向的缩放比例是S_y，那么目标图与原图之间的变换表达式如公式(1)所示：

它们之间的逆运算由公式(1)可得，如公式(2)所示：

按照上述公式(1)、(2)计算目标图与原图之间像素位置的映射关系，有些情况下目标图的像素位置对应在原图上可能不是整数坐标。例如，将图像缩小0.4倍，目标图像素(0，1)的位置对应在原图上像素位置为(0，2.5)，这个坐标是非整数的，因此，利用图像插值等近似操作完成缩放，常见的图像插值方式有：双线性插值，最近邻插值和双三次插值法。考虑到时间和精度，本发明采用的尺度缩放算法为双线性插值。

双线性插值就是对于一个目标像素点来说，用原始图像上对应位置周围四个像素值在x轴和y轴分别进行一次插值结果来代替。在介绍双线性插值算法之前，先简单介绍一下一维的线性插值算法。

已知f(x)是一次线性函数，如图4所示。x₁、x₂分别为直线x上的两点，f(x₁)、f(x₂)是点x₁、x₂对应的函数值。现在求直线上点x_nk对应的一次线性函数f(x)上的值。

根据图4，可以得到公式(3)的结果：

对上述公式(3)进行变形可得如公式(4)所示的形式：

令

化简公式(4)，可得如公式(5)所示形式：/>

f(x_nk)＝(1-α)f(x₁)+αf(x₂) (5)

双线性插值算法流程参见图5，在图5(a)中，P(u，v)为目标图像映射到原始图像的位置，P(u₁，v₁)、P(u₂，v₁)、P(u₁，v₂)、P(u₂，v₂)是点P(u，v)周围的四个坐标，f(u₁，v₁)、f(u₂，v₁)、f(u₁，v₂)、f(u₂，v₂)分别是四个点的像素值。f(u，v₁)是在直线{(u₁，v₁)→(u₂，v₁)}上的插值，如图5(b)中虚线部分所示。f(u，v₂)是在直线{(u₁，v₂)→(u₂，v₂)}上的插值，如图5(c)中虚线部分所示；f(u，v)是在直线{(u，v₁)→(u，v₂)}上的插值，如图5(d)中虚线部分所示。f(u，v₁)、f(u，v₂)和f(u，v)分别用公式(6)、公式(7)和公式(8)计算得到：

f(u，v₁)＝(1-α)f(u₁，v₁)+αf(u₂，v₁) (6)

f(u，v₂)＝(1-α)f(u₁，v₂)+αf(u₂，v₂) (7)

f(u，v)＝(1-β)f(u，v₁)+βf(u，v₂) (8)

整理公式(6)、(7)和(8)可得如公式(9)的形式：

f(u，v)＝(1-α)(1-β)f(u₁，v₁)+α(1-β)f(u₂，v₁)

+β(1-α)f(u₁，v₂)+αβf(u₂，v₂) (9)

其中，α由公式(10)计算得到，β由公式(11)计算得到：

从公式(9)可以看出，插值结果与插值的先后顺序无关。

在NYUV2数据集中，原图像大小是427×561。结合单尺度检测通道的结构，最小化图像大小为100×100，然后按照2倍的图像扩增操作，依次得到200×200，400×400的尺度图像，最后再添加上原图像，即构成多尺度图像集{(100，100)，(200，200)，(400，400)，(427，561)}。具体可使用opencv的resize函数，在程序里调用形式为：

im＝cv2.resize(img，(a，b)，interpolation＝cv2.INTER_CUBIC)

其中a、b代表缩放后图像尺度大小，例如，a×b＝100×100或200×200或400×400。

步骤2：生成候选区域。

生成候选区域包括两部分，分别是2D候选区域生成和3D候选区域生成。

2.1 2D目标候选区域的生成。

从很多的RGB-D相关研究来看，颜色图和深度图之间有很强的相关性。它们之间的信息可以相互补充。神经网络可以从颜色图中提取丰富的表征信息，从深度图中可以提取丰富的几何特征。而直接对3D空间的信息进行编码，需要很大的计算资源，同时由于3D空间信息点较为稀疏，提取的特征不一定合理。因此，利用丰富的2D信息推断3D空间要比直接在3D空间进行推断更加的有效和准确。在本发明中，由于针对某一复杂场景的深度图和颜色图位置是一一对应关系。因此，在颜色图上应用MCG算法计算了2D目标候选区域，这个目标候选区域同时也是对应深度图的2D目标候选区域(先生成颜色图上的，对应到深度图即可)。

2.2 3D目标候选区域的生成。

从2D目标候选区域人为生成一个3D目标候选区域时，首先从数据集中分别计算各类目标物体的平均大小，然后根据2D目标候选区域对应的物体类别联合对应深度图生成3D目标候选区域的中心点的位置和尺寸大小。

对于实际待检测图像，其3D目标候选区域的尺寸，直接用对应类别物体的平均尺寸生成，即在生成2D目标候选区域基础上可以人工标出3D目标候选区域(后续网络训练的目的就是利用颜色图和深度图的3D目标候选区域预测出目标真实的3D位置)。

步骤3：单通道网络训练。

本发明的网络框架(图1)是通过分步训练得到的，整个混合特征感知网络的训练流程如图2所示。每一次只训练一个尺度的三维特征检测器(检测器就是神经网络模型，即混合感知神经网络，具体可以采用混合特征感知神经网络模型，该模型设计了一种混合特征感知器，这种感知器挑选特征提取过程中不同感知层的特征串联在一起形成最后的特征，即混合特征，利用混合特征来进行后续的类别判断和位置推理，相比已报道的其他单尺度混合感知神经网络模型具有更好的目标检测性能)，因此，其他尺度的三维特征检测器参数冻结。所有的单尺度三维特征检测器用相同的方法初始化，学习率，最大迭代次数，优化方法等超参数都选择相同。依次对所有的尺度图像进行模型训练。在训练过程中，单独训练尺度大小为100×100的样本(随机选择小批量样本，样本大小为2)，得到对应的模型参数；紧接着对于200×200，400×400和427×561的样本分别重复进行上述操作来得到完整的模型参数(一个尺度对应一个通道，即得到多个通道)。

步骤4：结果融合。

本发明采用NMS算法进行各通道测试结果(预测的物体的类别以及物体位置)的融合(图6)。

(二)利用多尺度输入神经网络进行图像特征提取的结果评价

对于每个尺度的测试结果按照类别进行合并，评价指标mAP(平均准确率，meanAverage Precision)是测试结果与真实值对比计算所得。

表1.不同算法在NYUV2数据集上的性能比较

对通过测试提取的不同类别三维物体的统计结果表明(表1)，本发明比Amodal3Det算法的性能(例如，mAP)提高3.6％，比单尺度混合感知神经网络提高1.6％。

Claims

1.一种基于多尺度输入混合感知神经网络的目标检测方法，其特征在于：包括以下步骤：

1)利用图像不同尺度的样本集对基于混合感知神经网络的检测器分别进行训练，得到对应尺度下的单通道混合感知神经网络的模型参数，从而通过挑选特征提取过程中不同感知层的特征进行串联形成混合特征；

所述检测器在图像上的检测区域为位置关系对应的颜色图及深度图的候选区域；

所述候选区域的生成方法包括以下步骤：

1.1)在颜色图上应用MCG算法计算2D目标候选区域，该目标候选区域为对应深度图的2D目标候选区域；

1.2)根据所述颜色图及深度图的2D目标候选区域确定对应的3D目标候选区域；从2D目标候选区域生成一个3D目标候选区域时，首先从数据集中分别计算各类目标物体的平均大小，然后根据2D目标候选区域对应的物体类别联合对应深度图生成3D目标候选区域的中心点的位置和尺寸大小；对于实际待检测图像，其3D目标候选区域的尺寸，直接用对应类别物体的平均尺寸生成，即在生成2D目标候选区域基础上可以人工标出3D目标候选区域；

所述深度图选自经过空洞区和噪点修复的复杂场景图像：获取待修复深度图及待修复深度图深度处理前的颜色原图；然后根据待修复深度图的掩码获取待修复深度图的空洞和噪点坐标，从而确认深度图的空洞和噪点坐标信息；最后，对于待修复深度图中的噪点，采用双边滤波方法进行图像噪点修复，对于待修复深度图中的空洞，获取颜色原图中与待修复深度图相同位置像素点的像素值并利用该像素值覆盖待修复深度图中相同位置的像素点的像素值，完成空洞的修复；

2)经过步骤1)后，将待检测图像缩放至对应的不同尺度后分别输入各单通道混合感知神经网络，并利用对应尺度下的单通道混合感知神经网络的模型参数得到对应尺度下的检测结果，将各单通道混合感知神经网络的检测结果融合后输出待检测图像的特征识别结果；

所述特征识别结果包括待检测图像内的三维物体类别和该物体的位置。

2.根据权利要求1所述一种基于多尺度输入混合感知神经网络的目标检测方法，其特征在于：所述缩放采用双线性插值法。