CN108416780B

CN108416780B - 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法

Info

Publication number: CN108416780B
Application number: CN201810255893.2A
Authority: CN
Inventors: 余春艳; 林晖翔; 陈吕财; 郭文忠
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2021-08-31
Anticipated expiration: 2038-03-27
Also published as: CN108416780A

Abstract

本发明涉及一种基于孪生‑感兴趣区域池化模型的物体检测与匹配方法，使用了一个融合了全卷积网络结构和感兴趣区域池化层两个方法的孪生‑感兴趣区域池化模型，采用了全卷积网络结构以适应不同大小的输入单元，通过网络逐层抽象获得判别性特征，并引入相关卷积层用于判定目标框与当前视频帧的特征相似性并输出目标框在当前视频帧中对应位置的响应图，再添加ROI Pooling层以应用于目标检测。本发明能够在复杂情形下仍旧良好地进行检测。

Description

一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法

技术领域

本发明涉及目标检测领域，特别是一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法。

背景技术

目标检测是从图像序列中将变化的区域从背景图像中提取出来，从而检测出运动的目标。在医疗诊断方面，目标检测可以有效地分析器官、细胞的运动，为医生提供了辅助诊断信息；在智能交通方面，目标检测可以为车流量统计、行人违规行为检测、车辆超速监测、交通拥堵分析等提供有力的技术支持；在人机交互方面，目标检测为人类提供了一种新的与电脑非接触、灵活的交互方式，例如通过捕捉手势的运动轨迹进而识别以产生输入信息；在自动驾驶方面，可以采用目标检测技术检测并跟踪当前行车前方的行人、车辆和动物等，通过实时收集与目标之间的距离信息控制制动装置以实现车辆在安全行车范围，可以减少事故发生概率。

目标检测的效果会影响目标对象的分类、行为识别等一些后期处理。所以目标检测十分重要。下面介绍一下一些常用的动态视频目标检测与匹配的方法：

背景减除：背景减除方法是目前运动检测中最常用的一种方法，它是利用当前图像与背景图像的差分来检测出运动目标的一种技术。它一般能够提供相对来说比较全面的运动目标的特征数据，但对于动态场景的变化，如光线照射情况和外来无关事件的干扰等也特别敏感。由于该模型是固定的，一旦建立之后，对于该场景图像所发生的任何变化都比较敏感，比如阳光照射方向，影子，树叶随风摇动等。

时间差分：时间差分方法充分利用了视频图像的特征，从连续得到的视频流中提取所需要的动态目标信息。在一般情况下采集的视频图像，若仔细对比相邻两帧，可以发现其中大部分的背景像素均保持不变。只有在有前景移动目标的部分相邻帧的像素差异比较大。时间差分方法就是利用相邻帧图像的相减来提取出前景移动目标的信息的。但在目标运动缓慢时，差分后的运动目标区域内会产生空洞，从而不能完全提取出所有相关的特征像素点，一般不能够完整地分割运动对像，不利于进行相关分析，因此差分法很少被单独使用。

光流法：基于光流方法的运动检测采用了运动目标随时间变化的光流特性，如Meyer等通过计算位移向量光流场来初始化基于轮廓的跟踪算法，从而有效地提取和跟踪运动目标。该方法的优点是在所摄场所运动存在的前提下也能检测出独立的运动目标。然而大多数的光流计算方法相当复杂，且抗噪性能差，如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。

近年来，基于检测的跟踪方法得益于机器学习方法的不断成熟和应用，主要思想是将目标与背景当作两类对象区分，在有效范围内采用目标检测的方法选取相似度最高的区域。此类方法的主要工作在特征选取和匹配函数的设计上，常见的特征包括局部二值模式特征、方向梯度直方图，以及目前流行的卷积特征，匹配函数主要有支持向量机分类器、基于深度学习的分类、聚类方法等。这类方法能有效克服复杂背景的干扰以应对目标形变、遮挡等问题，但其算法效率较低。

发明内容

有鉴于此，本发明的目的是提出一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，能够在复杂情形下仍旧良好地进行检测。

本发明采用以下方案实现：一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，具体包括以下步骤：

步骤S1：将初始帧和候选样本帧输入全卷积网络获取判别性特征；

步骤S2：引入相关卷积层用于判定目标框与当前视频帧的特征相似性并输出目标框在当前视频帧中对应位置的响应图；

步骤S3：添加ROI Pooling层以应用于目标检测。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：获取初始帧和候选样本帧；

步骤S12：构建全卷积网络，把初始帧和候选帧输入全卷积网络，获取判别性特征；

其中，所述全卷积网络为深度卷积神经网络。

进一步地，所述深度卷积神经网络的结构如下：

第一层为卷积层，用以获取低层特征，该层的卷积核尺寸为11×11，卷积核个数为96，步长为2；输出经过正则化函数Batch Normalization正则化，用于防止梯度消失，加快网络训练深度；

第二层为最大池化层，用以降低特征维度，防止模型过拟合；池化层尺寸为3×3，步长为2；

第三层也为卷积层，用以获取抽象特征，该层的卷积核尺寸为5×5，卷积核个数为256，步长为1；输出经过正则化函数Batch Normalization正则化，用于防止梯度消失，加快网络训练深度；

第四层为最大池化层，用以降低特征维度；该层的池化层尺寸为3×3，步长为1；

第五层、第六层、以及第七层均为卷积层，用以获取抽象特征，该层的卷积核尺寸均为3×3，卷积核个数分别为192、192和128，第五层和第六层的输出都通过正则化函数batch normalization正则化，第七层没有正则化操作。

进一步地，步骤S2中，所述相关卷积层包括复制层、去卷积层以及关联层，所述步骤S2具体包括以下步骤：

步骤S21：将步骤S1获得的初始帧和候选样本帧的判别性特征分别输入复制层和去卷积层，还原特征信息；

步骤S22：将S21还原的特征信息输入关联层进行特征融合，获得融合特征；其中，在关联层中将去卷积层的输出与复制层的输出进行逐像素点乘，得到目标框在当前视频帧中对应位置的响应图。

进一步地，步骤S21中，所述复制层的参数为：复制层复制行系数为17，列系数为17；所述去卷积层的参数为：去卷积核为18×18，步长为4，滤波器个数为1。

进一步地，步骤S3具体包括以下步骤：

步骤S31：对原图进行感兴趣区域抽取，选取与目标区域IoU值最大的样本，将其区域及对应原图坐标输入到ROI Pooling层中；

步骤S32：将步骤S22获得的融合特征输入ROI Pooling层，输出17×17的得分图。

与现有技术相比，本发明有以下有益效果：本发明提出了一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，采用孪生网络可以同时完成特征表示与特征匹配两个学习任务。借助于这一特性，可以协同完成运动目标的特征提取与候选样本间的匹配任务。而且本发明采用全卷积网络结构适应不同大小的候选样本输入，同时引入相关卷积层和ROI Pooling实现目标匹配与定位，使得本发明能够在形变和遮挡的情况下具有良好的检测效果。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例应用的ROI Polling网络的结构图。

图3为本发明实施例中应用的基于孪生-感兴趣区域池化的模型的网络结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1、图2以及图3所示，本实施例提供了一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，具体包括以下步骤：

步骤S3：添加ROI Pooling层以应用于目标检测。

在本实施例中，所述步骤S1具体包括以下步骤：

步骤S11：获取初始帧和候选样本帧；

其中，所述全卷积网络为深度卷积神经网络。

在本实施例中，所述深度卷积神经网络的结构如下：

在本实施例中，步骤S2中，所述相关卷积层包括复制层、去卷积层以及关联层，所述步骤S2具体包括以下步骤：

在本实施例中，步骤S21中，所述复制层的参数为：复制层复制行系数为17，列系数为17；所述去卷积层的参数为：去卷积核为18×18，步长为4，滤波器个数为1。

在本实施例中，步骤S3具体包括以下步骤：

特别的，本实施例以遮挡人脸检测为例，具体给出以下步骤：

步骤1：将人脸初始帧和当前候选样本帧输入全卷积网络获取判别性特征，具体步骤如下：

步骤11：获取人脸初始帧和当前候选样本帧，人脸初始帧为3×127×127，当前候选样本帧为3×255×255。

步骤12：构建深度卷积神经网络，把人脸初始帧和当前候选样本帧输入深度卷积神经网络，获取判别性特征；

构建深度卷积神经网络并得到对应结果：

第一层为卷积层，获取低层特征；卷积核尺寸为11×11，卷积核个数为96，步长为2；输出经过正则化函数Batch Normalization，用于防止梯度消失，加快网络训练深度。人脸初始帧对应变为96×59×59，候选样本帧对应变为96×123×123。

第二层为最大池化层，用于降低特征维度，防止模型过拟合；池化层尺寸为3×3，步长为2。人脸初始帧对应变为96×29×29，候选样本帧对应变为96×61×61。

第三层为卷积层，获取抽象特征，卷积核尺寸为5×5，卷积核个数为256，步长为1；输出经过正则化函数Batch Normalization，用于防止梯度消失，加快网络训练深度。人脸初始帧对应变为256×25×25，候选样本帧对应变为256×57×57。

第四层为最大池化层，用于降低特征维度；池化层尺寸为3×3，步长为1。人脸初始帧对应变为256×12×12，候选样本帧对应变为256×28×28。

第五、六、七层均为卷积层，获取抽象特征，卷积核尺寸均为3×3，卷积核个数分别为192、192和128，第五层和第六层输出都需要进行batch normalization正则化，第七层没有正则化操作。人脸初始帧对应变为192×10×10，192×8×8，128×6×6，候选样本帧对应变为192×26×26，192×24×24，128×22×22。

步骤2：引入相关卷积层用于判定人脸目标框与当前视频帧的特征相似性并输出目标框在当前视频帧中对应位置的响应图。具体步骤如下：

步骤21：将人脸初始帧和候选样本帧经过1步骤获得的判别性特征分别输入复制层和去卷积层，还原特征信息；

复制层参数如下：

复制层复制行系数为17，列系数为17。得到102×102的特征。

去卷积层参数如下：

去卷积核为18×18，步长为4，滤波器个数为1。得到102×102的特征。

步骤22：将21还原的特征信息输入关联层进行特征融合，获得融合特征；

关联层操作如下：

将去卷积层输出与复制层输出进行逐像素点乘。

步骤3：添加ROI Pooling层以应用于目标检测。具体步骤如下：

步骤31：对人脸初始帧进行感兴趣区域抽取，选取与目标区域IoU值最大的样本，将其区域及对应原图坐标输入到ROI Pooling层中；

步骤32：将融合特征输入ROI Pooling层，输出17×17的得分图，从而预测人脸目标的正确位置。

以上所述仅为本发明的较佳实施例，可应用在视频监控、无人驾驶、人机交互、医疗诊断等领域，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，其特征在于：包括以下步骤：

步骤S3：添加ROI Pooling层以应用于目标检测；

其中，步骤S2中，所述相关卷积层包括复制层、去卷积层以及关联层，所述步骤S2具体包括以下步骤：

2.根据权利要求1所述的一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，其特征在于：所述步骤S1具体包括以下步骤：

步骤S11：获取初始帧和候选样本帧；

其中，所述全卷积网络为深度卷积神经网络。

3.根据权利要求2所述的一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，其特征在于：所述深度卷积神经网络的结构如下：

第一层为卷积层，用以获取低层特征，该层的卷积核尺寸为11×11，卷积核个数为96，步长为2；输出经过正则化函数Batch Normalization正则化；

第三层也为卷积层，用以获取抽象特征，该层的卷积核尺寸为5×5，卷积核个数为256，步长为1；输出经过正则化函数Batch Normalization正则化；

第五层、第六层、以及第七层均为卷积层，用以获取抽象特征，该层的卷积核尺寸均为3×3，卷积核个数分别为192、192和128，第五层和第六层的输出都通过正则化函数batchnormalization正则化，第七层没有正则化操作。

4.根据权利要求1所述的一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，其特征在于：步骤S21中，所述复制层的参数为：复制层复制行系数为17，列系数为17；所述去卷积层的参数为：去卷积核为18×18，步长为4，滤波器个数为1。

5.根据权利要求1所述的一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法，其特征在于：步骤S3具体包括以下步骤：