CN109615016A

CN109615016A - 一种基于金字塔输入增益的卷积神经网络的目标检测方法

Info

Publication number: CN109615016A
Application number: CN201811560431.8A
Authority: CN
Inventors: 刘峡壁; 刘伟华; 李慧玉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-12
Anticipated expiration: 2038-12-20
Also published as: CN109615016B

Abstract

本发明涉及一种基于金字塔输入增益的卷积神经网络的目标检测方法，属于计算机视觉及目标检测技术领域。所述目标检测方法基于包括特征提取模块和多任务预测模块的卷积神经网络模型PiaNet；所述目标检测方法，包括训练阶段和测试阶段；训练阶段采用两阶段迁移学习策略，包括：步骤(1)数据增强和数据预处理，产生第一阶段训练的训练集、第二阶段训练的训练集和测试集；步骤(2)在二分类网络中进行第一阶段训练；步骤(3)进行第二阶段训练，得到训练后的PiaNet网络；测试阶段即精确检测目标，具体为：将测试集输入到训练后的PiaNet网络，通过多任务损失函数输出检测框位置和分类结果。适用面广泛，且具有很高的鲁棒性。

Description

一种基于金字塔输入增益的卷积神经网络的目标检测方法

技术领域

本发明涉及一种基于金字塔输入增益的卷积神经网络的目标检测方法，属于计算机视觉及目标检测技术领域。

背景技术

目标检测是指在图像中找出所有感兴趣目标的具体位置和大小等定位信息，该问题是计算机视觉、模式识别等领域中的基础问题之一，解决该问题的方法在汽车自动驾驶、视频监控及分析、人脸识别及其医学CT图像的结节或肿瘤检测等应用中得到广泛使用。

现有的目标检测方法主要分为两类：

1)传统目标检测方法。传统目标检测一般采用滑动窗口的框架，主要包括图像空间分割、特征设计和提取、分类识别等步骤，它需要在尺度和位置等几个维度空间内进行搜索，待处理的窗口数量巨大，使得计算量过大，且手工设计的特征对多样性目标的鲁棒性不强，很难设计出高效的特征，检测精度较低。

2)基于卷积神经网络的目标检测方法。基于卷积神经网络的目标检测方法也主要分成两类。一类是两阶段方法，其中包括第一阶段的候选区域提取，第二阶段对区域进行卷积特征提取和分类，比如R-CNN,Faster R-CNN等；另一类是端到端的检测方法，如Yolo，SSD等，这类方法只需要一个卷积神经网络，直接输出所有的检测结果。

现有技术的缺陷：

1)传统的检测方法，尽管简单，但由于图像中的目标往往在姿态、尺度、灰度空间等方面呈现多样性，检测精度往往达不到实际应用的要求。

2)已有的基于卷积神经网络的目标检测方法，因为采用了复杂的神经网络结构，尽管检测精度优于传统方法，但在训练过程中需要固定输入尺度，且这些模型结构具有层级卷积下采样的特点，对部分尺度相对小的目标提取的特征信息和位置信息经常丢失，使得无法准确定位大尺度目标且经常漏检小尺度目标。这使得在具体目标的检测上，其召回率和准确率不能达到良好的效果。

发明内容

本发明的目的是针对现有基于卷积神经网络进行目标检测的方法存在可靠性低、漏检率高的技术缺陷，提出了一种基于金字塔输入增益的卷积神经网络的目标检测方法，所述方法提出了一种基于金字塔输入增益的卷积神经网络模型PiaNet，PiaNet融合了多尺度处理和多任务学习有效地提高了检测精度和检测准确率。

一种基于金字塔输入增益的卷积神经网络的目标检测方法，提出了一种基于金字塔输入增益的卷积神经网络模型PiaNet，网络模型PiaNet主要包括特征提取模块和多任务预测模块；

其中，所述特征提取模块包括特征压缩模块和特征放大模块；其中，特征压缩模块包括N个卷积块，沿着一条融合源连接输入的特征压缩路径展开；特征放大模块包括M个反卷积块，沿着一条融合了跳跃连接的特征放大路径展开；

其中，源连接对预处理后的图像分别进行average pooling操作得到多尺度源图像并构成了图像金字塔，降低了特征压缩路径上的信息损失；

特征压缩路径上的每个卷积块包含一次卷积、BN、激活和Pooling操作，对输入图像进行特征提取得到特征图；

从特征压缩路径上的第一个卷积块开始，每一层输出的特征图和相应尺度的源图像拼接构成下一层卷积操作的输入；特征放大路径上的每个卷积块包含一次Unpooling、反卷积、BN和激活操作，对特征压缩路径输出的特征图进行特征放大；

从特征放大路径上的第一个反卷积块开始，每一层输出的特征图和来自特征压缩路径的特征图拼接构成下一层反卷积操作的输入，使得压缩路径上具有的目标细节信息能够传输到具有高层语义信息的放大特征层路径上；

多任务预测模块包含多任务损失函数。

一种基于金字塔输入增益的卷积神经网络的目标检测方法，包括训练阶段和测试阶段；

其中，训练阶段采用两阶段迁移学习策略，具体实现步骤如下：

步骤(1)数据增强和数据预处理，具体为：基于数据划分、数据增强以及预处理从带标记的原始数据中产生第一阶段训练的训练集、第二阶段训练的训练集和测试集；

其中，数据增强的使用是为了解决了小样本的学习问题；

步骤(1)又包含如下子步骤：

步骤(1A)将带标记的原始数据划分为带有检测目标的正样本训练集、不带有检测目标的负样本训练集以及测试集；

步骤(1B)采用数据增强手段处理正样本训练集，再与正样本训练集一起构成新的正样本训练集；

其中，数据增强手段包括旋转、缩放和平移操作；

其中，新训练集补充了带有检测目标的正样本训练集，其原因是：带标记的原始数据的数量较少不足以完成PiaNet网络模型的训练；

步骤(1C)对步骤(1B)构成的新的正样本训练集和步骤(1A)输出的负样本训练集以及测试集中的每一幅图像进行灰度归一化和去均值的预处理，分别得到正样本训练集和负样本训练集组成的训练集以及测试集，并将训练集平均划分为第一阶段训练所需的训练集和第二阶段训练所需的训练集；

步骤(2)基于步骤(1)生成的第一阶段训练所需的训练集进行第一阶段训练；

其中，第一阶段训练在二分类网络中进行，二分类网络由PiaNet模型中的特征提取模块和average pooling层以及softmax层相连接组成；步骤(2)的具体训练过程，具体为：将步骤(1C)获得的用于第一阶段训练的训练集输入二分类网络，采用随机梯度下降算法优化softmax损失函数，得到训练后的二分类网络，此训练后的二分类网络中包括训练好的特征提取模块；

由于此分类网络只处理二分类问题，而且训练集中仅包含小尺寸图像，所以在第一阶段训练中仅需很小的计算代价便可获得较好的初始化特征提取模块；

步骤(3)基于步骤(1)生成的第二阶段训练所需的训练集进行第二阶段训练，得到训练后的PiaNet网络；

其中，第二阶段训练在PiaNet网络中进行，且PiaNet网络中的特征提取模块来自步骤(2)中训练好的特征提取模块；

步骤(3)又包含如下子步骤：

步骤(3A)将步骤(2A)训练得到的训练好的特征提取模块载入到PiaNet网络中；

步骤(3B)将步骤(1C)获得的用于第二阶段训练的训练集输入到PiaNet网络，通过特征提取模块中的放大特征路径获得不同尺度的特征图；

步骤(3C)对步骤(3B)输出的不同尺度的特征图进行多尺度锚点设计，并将特征图划分到多尺度锚点中；

步骤(3D)步骤(3C)中的每个锚点对标签中相应的ground-truth检测框进行回归计算，同时对检测框进行优化分类，输出检测框的位置信息和分类结果，采用随机梯度下降算法优化多任务损失函数，得到训练后的PiaNet网络；

测试阶段，即步骤(4)精确检测目标，具体为：

步骤(4A)将步骤(1C)获得的测试集输入到步骤(3D)训练得到的PiaNet网络中，通过多任务损失函数输出检测框的位置信息和分类结果；

步骤(4B)将步骤(4A)中的回归和分类结果输出。

有益效果

本发明是一种基于金字塔输入增益的卷积神经网络的目标检测方法，与现有目标检测方法相比，具有如下有益效果：

1)所述方法采用的检测网络PiaNet适用面广泛，且具有很高的鲁棒性；PiaNet网络中的源链接保留了原始图像的多尺度信息，特征提取模块不仅能把检测目标的细致空间定位信息融合到高层的语义信息，而且能进一步保证检测的准确性和多尺度范围的包容性，在不影响计算速度的前提下，解决了检测中的尺度问题，保证了小目标检测的精度要求；

2)通过实施所述方法，可在各种实际应用场景下获得快速、高精度、高可靠的目标检测效果，解决了小目标检测中的精度下降问题；在3D CT图像的肺结节检测中的应用已表明：即便是小目标的结节检测，检测准确率也能达到99％以上。

附图说明

图1为本发明一种基于金字塔输入增益的卷积神经网络的目标检测方法的PiaNet框架图；

图2为本发明一种基于金字塔输入增益的卷积神经网络的目标检测方法的PiaNet网络所使用的原始输入CT图像；

图3为输入图像经过源连接路径上的多级average pooling操作所生成的多尺度源图像构成的图像金字塔；

图4为特征放大路径输出的多尺度特征图输入多任务预测模块，同时进行检测框位置回归和目标分类操作；

图5为本发明一种基于金字塔输入增益的卷积神经网络的目标检测方法的PiaNet网络检测结果示例。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步说明。

实施例

按照发明内容所述的方法步骤，一种本发明的对CT图像进行肺结节检测的实施例对应的PiaNet网模型结构如图1所示。

步骤(1)数据预处理；

对原始图像进行去均值和灰度归一化的预处理得到预处理后的图像，其中原始CT输入图像如图2所示；

步骤(2)将步骤(1)输出的预处理后的图像输入PiaNet网络；

步骤(2)又包括如下子步骤：

步骤(2A)输入图像经过源连接路径上的average pooling操作得到压缩后的源图像。其中，多级average pooling所生成的多尺度源图像可构成图像金字塔，如图3所示；

步骤(2B)同时，输入图像经过特征压缩路径上的卷积、BN、激活和Pooling操作进行特征提取，得到特征图。

步骤(2C)从特征压缩路径上的第一个卷积块开始，步骤(2A)和步骤(2B)中的输出会经过拼接操作输入到下一层的卷积块中。最终得到压缩后的特征图。

步骤(2D)步骤(2C)输出的特征图经过放大路径上的Unpooling、反卷积、BN和激活操作，对特征压缩路径输出的特征图进行特征放大。从特征压放大径上的第一个反卷积块开始，每一层输出的特征图和来自对称的特征压缩路径的特征图拼接构成下一层反卷积操作的输入。最终得到多尺度的特征图。

步骤(3)将步骤(2)输出的多尺度的特征图作为预测模块的输入，同时进行目标检测和类别分类操作。其中，这一多任务预测过程，如图4所示；

步骤(3)又包括如下子步骤：

步骤(3A)步骤(2D)输出的每张特征图中的每个位置进行不同尺度的锚点设计；

步骤(3B)对每个锚点同时进行位置回归和类别分类,输出检测框位置信息及相应的置信分数；

步骤(3C)通过非极大值抑制方法去掉步骤(3B)输出的重复检测框，最终输出少量精确的检测结果。图5显示了一些最终的最优检测结节例子。其中白色的框是标签，灰色的框为检测结果。可以看出PiaNet不仅能检测出非常微小的结节，而且还能检测出不典型不规则的结节。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于金字塔输入增益的卷积神经网络的目标检测方法，其特征在于：提出了一种基于金字塔输入增益的卷积神经网络模型PiaNet，网络模型PiaNet主要包括特征提取模块和多任务预测模块；

多任务预测模块包含多任务损失函数；

所述目标检测方法，包括训练阶段和测试阶段；

其中，数据增强的使用是为了解决了小样本的学习问题；

步骤(3)基于步骤(1)生成的第二阶段训练所需的训练集进行第二阶段训练，得到训练后的PiaNet网络，包含如下子步骤：

测试阶段，即步骤(4)精确检测目标，具体为：

步骤(4B)将步骤(4A)中的回归和分类结果输出。

2.根据权利要求1所述的一种基于金字塔输入增益的卷积神经网络的目标检测方法，其特征在于：步骤(1)又包含如下子步骤：

步骤(1C)对步骤(1B)构成的新的正样本训练集和步骤(1A)输出的负样本训练集以及测试集中的每一幅图像进行灰度归一化和去均值的预处理，分别得到正样本训练集和负样本训练集组成的训练集以及测试集，并将训练集平均划分为第一阶段训练所需的训练集和第二阶段训练所需的训练集。

3.根据权利要求2所述的一种基于金字塔输入增益的卷积神经网络的目标检测方法，其特征在于：步骤(1B)中，数据增强手段包括旋转、缩放和平移操作。

4.根据权利要求2所述的一种基于金字塔输入增益的卷积神经网络的目标检测方法，其特征在于：步骤(3)中，第二阶段训练在PiaNet网络中进行，且PiaNet网络中的特征提取模块来自步骤(2)中训练好的特征提取模块。