CN110599448B

CN110599448B - 基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统

Info

Publication number: CN110599448B
Application number: CN201910698605.5A
Authority: CN
Inventors: 张聚; 俞伦端; 周海林; 吴崇坚; 吕金城; 陈坚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-03-15
Anticipated expiration: 2039-07-31
Also published as: CN110599448A

Abstract

基于MaskScoring R‑CNN网络的迁移学习肺部病变组织检测系统，包括存储肺癌、肺炎、肺结核、肺气肿4种肺部疾病的存储模块，还包括一个诊断模块，诊断模块与存储模块通信连接，诊断模块包括：步骤1)医学图像预处理；步骤2)构建MaskScoring R‑CNN网络模型：1.构建共享卷积神经网络骨干(作特征提取)，2.对共享卷积神经网络做迁移学习，3.构建FPN网络，4.构建RPN网络5.构建ROIAlign层，6.添加MaskIoU head；步骤3)肺部医学图像病变组织识别：向构建好的MaskScoring R‑CNN网络，输入待检测的肺部CT影像，网络输出得到识别之后的图像，框出并掩膜mask识别到的病变组织，并标注出病变的类别。本发明满足医学图像分割高精度的要求，也能让网络拥有良好的泛化性。

Description

基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统

技术领域

本发明涉及肺部病变的检测系统。

技术背景

近半个世纪以来，肺癌的发病率和死亡率不断上升，相隔15年约增加1倍，工业发达地区肺癌发病率高，吸烟越多发病率越高，呈明显剂量关系，我国的肺癌发病率和死亡率均占恶性肿瘤的首位。为了能够提早发现，在肺部病变的早期能够给予及时的治疗，准确的病变组织检测方法极为关键。

常见的肺部疾病包括肺脓肿、肺气肿、肺结核、肺结节等。在医学上，胸部X线检查是肺部疾病必做的基础检查项目之一，有助于诊断肺部炎症、肺不张、肺气肿、气胸、胸腔积液等疾病。胸部CT检查有助于对X线胸片发现的问题作出定性诊断，如肺部肿块性质的鉴别，肿块位置、范围、与纵隔的解剖联属等。这些病变组织的辨别难度很大，对医生的能力与经验的要求往往也非常的高。在现有的技术里，没有有效的帮助医生诊断肺部病变组织的技术。因此，我们将人工智能的技术运用到了肺部病变组织检测中来。

医学图像分割是医学图像处理与分析领域的复杂而关键的步骤，其目的是将医学图像中具有某些特殊含义的部分分割出来，并提取相关特征，为临床诊疗和病理学研究提供可靠的依据，辅助医生做出更为准确的诊断。随着人工智能的发展，尤其是人工神经网络的快速发展，每年都能涌现出大量的优秀论文以及算法和神经网络结构。在图像分割领域，不断地有新的网络结构刷新着图像分割精度的记录,这些网络分割的对象，通常是自然界的某些物体或者人和动物等，我们也可以将应用到医学图像分割中来。但把分割的对象直接换成医学图像，其分割准度定会大大降低，因为医学图像如CT图像几乎都是灰度图，在一张CT图像中，各个组织的形似度非常高，极容易造成误差，这对于精准度要求极高的医学图像分割来说是完全不能接受的。

本发明提出了一种基于MaskScoring R-CNN(一种的语义分割卷积神经网络)网络的迁移学习肺部病变组织检测系统。通过迁移学习训练MaskScoring R-CNN，提高了该网络对肺部医学图像中病变组织分割的准度，为医生的检测提供技术支持，降低误检率。

发明内容

为解决现有技术的上述不足，本发明提出基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统。本发明将用于自然图像语义分割的MaskScoring R-CNN神经网络能够应用到医学图像分割中来，用于解决肺部病变组织的分割问题。

图像分割领域近年来，涌现出非常多优秀的网络模型，它们不再是以往的单任务的网络结构，取而代之是集成、复杂的多任务网络模型。获得2017年国际计算机视觉大会ICCV的最佳论文的Mask R-CNN就是其中的代表。在实例分割的Mask R-CNN框架中主要完成了目标检测、目标分类、像素级目标分割任务，相较于之前的网络其显著提高了分割效果，同时结合了目标检测，在完成分割任务的同时能将目标识别并分类出来。本发明所用的MaskScoring R-CNN是在Mask R-CNN基础上改进而来，关键就在名字里的“Scoring”(打分)，提出一种新的算法给“实例分割假设”打分的新方法，这个分数打得是否准确就会影响实力分割模型的性能。通过这个算法，进一步地提升了mask检测的精度。

由于用于上述网络训练和测试的数据均为自然图像数据，若直接运用于医学图像分割中，不会取得良好的效果，故本发明通过迁移学习的方法提高MaskScoring R-CNN对医学图像实例分割的性能，并用于肺部的病变组织检测。

为使本发明的目的、技术方案和优点更加清晰，下面就对本发明的技术方案作进一步描述，基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统，包括存储肺癌、肺炎、肺结核、肺气肿4种肺部疾病的存储模块，其特征在于：还包括一个诊断模块，诊断模块与存储模块通信连接，诊断模块具体包括：

步骤1)医学图像预处理；

对采集到的肺部医学CT图像做数据增强处理。将处理后的数据80％用作网络的训练集，10％作为验证集，最后10％作为测试集。

步骤2)构建MaskScoring R-CNN网络模型；

2.1构建共享卷积神经网络骨干，作特征提取；

共享卷积层的目的是将步骤1)中的医学图像输入，输出为提出的特征称为特征图谱feature maps，供后续网络做进一步处理。使用已经用ImageNet数据集预训练好的卷积网络模型VGG-16网络，每一层卷积网络都在前一层的信息基础上提取更加抽象的特征。第一层通常学习到简单的边缘，第二层寻找目标边缘的模式，以激活后续卷积网络中更加复杂的形状。最终，我们得到一个在空间维度上比原始图片小，但表征更深的卷积特征图。特征图的长和宽会随着卷积层间的池化而缩小，深度会随着卷积层滤波器的数量而增加。

2.2对共享卷积神经网络做迁移学习；

由于使用的是ImageNet数据集预训练好的VGG-16网络，ImageNet数据集包含上百万个自然图像，本发明用于训练的医学图像数据量与其相差巨大。故将靠近网络开头的第三层卷积层预先训练过的层级删掉，向第一二层后添加新的全连接层，随机化设置新的完全连接层的权重，冻结预先训练过的网络中的所有权重，最后训练该网络以更新新连接层的权重。

经过上述的迁移学习方法，使得用于特征提取的卷积神经网络能够有效地从医学图像上进行特征图谱feature maps的提取。

2.3构建特征金字塔网络，即FPN网络；

FPN的提出是为了实现更好的feature maps融合，一般的网络都是直接使用最后一层的feature maps，虽然最后一层的feature maps语义强，但是位置和分辨率都比较低，容易检测不到比较小的物体。FPN的功能就是融合了底层到高层的feature maps，从而充分的利用了提取到的各个阶段的特征。

2.4构建区域建议网络，即RPN网络；

RPN是专门用来推荐候选区域的，它可以理解为一种全卷积神经网络。RPN就是上面的共享卷积网络后接一个3*3的卷积层，再接两个1*1的卷积层，其中一个是用来进行分类，另一个用于给候选区域精确定位。

2.5构建ROI Align层；

对从共享卷积层得到的feature maps上感兴趣区域ROI被划分后的各网格区域选取固定数目的等间隔采样点，根据采样点邻近特征值利用双线性插值计算采样点的特征值，然后对采样点的特征值进行池化操作。

ROIAlign后有两个分支，第一个分支是利用之前检测到的ROI进行分类和回归。第二个分支则是掩膜mask，一般用来对图像目标部分进行遮挡的预测，通过全卷积神经网络FCN来进行对ROI进行语义分割，这样就能用mask逐像素覆盖住医学图像中的想要得到的病变组织。

2.6添加MaskIoU head；

在实例分割现有框架MaskR-CNN中，物体的mask的得分直接来自于物体的分类得分，这个得分并没有考虑到物体的mask的质量,于是就会出现有些物体mask质量很差但是得分很高的问题，这个问题对mask检测精度带来影响很大，MaskScoring R-CNN就是要解决这个问题。MaskScoring R-CNN要给物体的mask打分，这个打分既要考虑到物体的分类得分也要考虑到物体mask的质量。MaskScoring R-CNN注意到评判mask好坏的标准是这个预测的mask和真实mask的交并比IoU,于是就在现在框架的基础上再拉一个分支学习这个IoU,为了方便起见，MaskScoring R-CNN不再去学一个mask的分类得分，而是直接用物体的分类得分，然后将分类得分和学习到的IoU相乘，将这个得分作为mask的得分，最后可以显著提高mask检测的精度，将病变组织精准地逐像素mask出来。

步骤3)肺部医学图像病变组织识别；

向步骤2)中构建好的MaskScoring R-CNN网络，输入待检测的肺部CT影像，网络输出得到识别之后的图像，框出并掩膜mask识别到的病变组织，并标注出病变的类别,说明本发明能辅助肺部病变组织的检测。

本发明具有以下优点：

1.提出了用MaskScoring R-CNN网络进行医学图像分割，使得目标检测、目标分类、像素级目标分割三个任务能够同时进行，在分割出病变组织的同时还能对组织进行分类并标注病变类型，分割精度达到了像素级并用mask掩膜覆盖病变组织，满足医学图像分割高精度的要求。

2.采用了迁移学习的方法，使得训练神经网络时不需要太大的医学图像数据集，也能让网络拥有良好的泛化性。

附图说明

图1是本发明的整体网络框架结构示意图；

图2是本网络中采用的VGG-16特征提取网络示意图；

图3是网络中FPN网络结构示意图；

图4是网络中RPN网络功能示意图；

图5是网络中RPN网络中的anchor示意图；

图6是本发明网络的肺部组织病变组织检测示意图；

图7是本发明的方法流程图；

具体实施方式：

以下结合附图对本发明做具体的解释说明

本发明的基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统，包括存储肺癌、肺炎、肺结核、肺气肿4种肺部疾病的存储模块，还包括一个诊断模块，诊断模块与存储模块通信连接，诊断模块具体包括：

步骤1)医学图像预处理；

选取4种不同的肺部疾病肺癌，肺炎，肺结核，肺气肿的CT图像，对数据采用NLP的方法进行标注，并以此类数据作为正样本。选取正常的正常的肺部CT图像作为负样本。

对采集到的肺部医学图像做数据增强处理。将处理后的数据80％用作网络的训练集，10％作为验证集，最后10％作为测试集，并将图像像素的大小设置为224*224。

步骤2)构建MaskScoring R-CNN网络模型；(具体结构如图1所示)

2.1构建共享卷积神经网络骨干，作特征提取；

共享卷积层的目的是将步骤1)中的医学图像输入，输出为提出的特征称为特征图谱feature maps，供后续网络做进一步处理。本发明使用已经用ImageNet数据集预训练好的卷积网络模型VGG-16网络，每一层卷积网络都在前一层的信息基础上提取更加抽象的特征。第一层通常学习到简单的边缘，第二层寻找目标边缘的模式，以激活后续卷积网络中更加复杂的形状。最终，我们得到一个在空间维度上比原始图片小很多，但表征更深的卷积特征图。特征图的长和宽会随着卷积层间的池化而缩小，深度会随着卷积层滤波器的数量而增加。

采用VGG-16所有卷积层的卷积核大小均为3*3*3，步长stride＝1，填充padding＝1，池化pooling均采用2*2的最大池化方式；输入224*224*1的图片；经过64个卷积核的两次卷积后，采用一次pooling操作；之后又经过两次128的卷积核卷积之后，采用一次pooling操作；再经过三次256的卷积核的卷积之后，采用pooling，重复两次三个512的卷积核卷积之后再pooling，最后经过三次全连接层后，得到特征图谱feature map输出；加载用ImageNet数据集预训练好的权重，为下一步迁移学习做准备；

2.2对共享卷积神经网络做迁移学习；

由于使用的是ImageNet数据集预训练好的VGG-16网络，ImageNet数据集包含上百万个自然图像，用于训练的医学图像数据量与其相差巨大；故将靠近网络开头的第三层卷积层预先训练过的层级删掉，向第一二层后添加新的全连接层，随机化设置新的完全连接层的权重，冻结预先训练过的网络中的所有权重，最后训练改网络以更新新连接层的权重；

经过上述的迁移学习方法，使得用于特征提取的卷积神经网络能够有效地从医学图像上进行特征图谱feature maps的提取；

2.3构建特征金字塔网络，即FPN网络；

FPN的提出是为了实现更好的feature maps融合，一般的网络都是直接使用最后一层的feature maps，虽然最后一层的feature maps语义强，但是位置和分辨率都比较低，容易检测不到比较小的物体；FPN的功能就是融合了底层到高层的feature maps，在共享卷积网络后构建1*1卷积层自上而下的路径都经过2层的上采样过程，融合底层到高层的feature maps,从而充分的利用了提取到的各个阶段的特征；为了防止因为医学图像中的某些组织不清晰，利用FPN将各个阶段的特征充分提取，提高分割的准确度，防止漏检或者误判；(结构如图3所示)

2.4构建区域建议网络，即RPN网络；

RPN网络是专门用来推荐候选区域的，它可以理解为一种全卷积神经网络；RPN网络就是FPN网络后接一个3*3的卷积层，再接两个1*1的卷积层，其中一个是用来进行分类，另一个用于给候选区域精确定位；

RPN网络使用卷积神经网络CNN产生的区域建议Region Proposal分割出一张肺部CT图像中病变组织所在的位置，利用滑动窗口在生成的共享特征图谱feature maps上滑动，如图4所示；

滑动过程中为每个位置生成9种预先设置好长宽比与面积的目标框，即锚anchor；这9种初始anchor包含三种面积(128×128，256×256，512×512)，每种面积又包含三种长宽比(1:1，1:2，2:1)；对于RPN输出的特征图中的每一个点，一个1×1的卷积层输出了18个值，因为是每一个点对应9个anchor，每个anchor有一个前景分数和一个背景分数，所以9×2＝18；另一个1×1的卷积层输出了36个值，因为是每一个点对应9个anchor，每个anchor对应了4个修正坐标的值，所以9×4＝36；那么，要得到这些值，RPN网络需要训练；在训练的时候，就需要对应的标签；判定一个anchor是前景还是背景的定义如下：如果一个anchor与正确的标记数据groundtruth的重叠度IoU在0.7以上，那这个anchor就算positive前景；类似地，如果这个anchor与groundtruth的IoU在0.3以下，那么这个anchor就算negative背景；在进行RPN网络训练的时候，只使用了上述两类anchor，与groundtruth的IoU介于0.3和0.7的anchor没有使用；在训练anchor属于前景与背景的时候，是在一张图中，随机抽取了128个前景anchor与128个背景anchor；

anchor边框修正的训练方法如下：边框修正主要由4个值完成，t_x,t_y,t_w,t_h。由t_x,t_y分别是修正后的框在anchor的x和y方向上做出平移，t_w,t_h分别是长和宽各自放大的倍数；采用SmoothL1loss进行训练，具体描述为比较预测平移缩放参数

和真实平移缩放参数v＝(v_x,v_y,v_w,v_h)的差别：

只对前景anchors进行anchor包围框修正的参数训练；因此，在训练RPN的时候，只有对128个随机抽取的positive anchors有这一步训练，训练RPN的损失函数可以写成：

其中λ被设置为10，N_cls为256为训练批次的大小，N_reg为2400为anchor的数量。如此设置RPN的两部分loss值能保持平衡。p_i为anchor预测为目标的概率，t_i＝{t_x,t_y,t_w,t_h}是一个向量，表示预测的boundingbox的4个参数化目标，

是与positive anchor对应的ground truth包围的坐标向量。

是回归损失，用

计算，其中R是SmoothL1函数，式(2)中的

就是(1)式中的L_loc(t^u,v)。L_cls是两个类别(目标和非目标的对数损失)对数损失。

2.5构建ROIAlign层；

对从共享卷积层得到的feature maps上感兴趣区域ROI被划分后的各网格区域选取固定数目的等间隔采样点，根据采样点邻近特征值利用双线性插值计算采样点的特征值，然后对采样点的特征值进行池化操作；

ROIAlign后有两个分支，第一个分支是利用之前检测到的ROI Bounding Box进行分类和回归；第二个分支则是掩膜mask的预测，通过全卷积神经网络FCN来进行对ROI进行语义分割，对于预测的二值掩膜mask输出，对每个像素点应用sigmoid函数；

sigmoid函数定义如下：

引入预测K个输出的机制，允许每个类都生成独立的mask掩膜，避免类间竞争。这样做解耦了掩膜和种类预测。

2.6添加MaskIoU head；

在现有图像分割框架MaskR-CNN中，物体的mask的得分直接来自于物体的分类得分，这个得分并没有考虑到物体的mask的质量,于是就会出现有些物体mask质量很差但是得分很高的问题，这个问题对mask检测精度带来影响较大，MaskScoring R-CNN解决了这个问题；MaskScoring R-CNN给物体的mask打分，这个打分既要考虑到物体的分类得分也要考虑到物体mask的质量；在MaskScoring R-CNN中，评判mask好坏的标准是这个mask和真实mask的交并比IoU,于是在现在框架的基础上添加了一个分支学习这个IoU，MaskScoringR-CNN不再去学习一个mask的分类得分，而是直接用物体的分类得分，然后将分类得分和学习到的IoU相乘，将这个得分作为mask的得分，综合分类得分与mask的质量得分评估算法，提高了算法质量，最后可以显著提高mask检测的精度，将病变组织精确地逐像素掩膜出来；

MaskIoU head是在经典评估指标平均正确率AP启发下得到的，将预测蒙版与物体特征进行对比；MaskIoU head同时接收蒙版head的输出与ROI的特征作为输入，用一种简单的回归损失进行训练，来计算预测的Mask和ground truth mask的IoU分数；

根据分类得分和iou分数来计算最后的mask score，如果分类得分高，但mask iou分数低，则会惩罚最后得到的mask score；mask score计算如下：

S_mask＝S_cls*S_iou (4)

其中S_cls是物体的分类得分，S_iou是Mask和groundtruth mask的IoU分数

步骤3)肺部医学图像病变组织识别；

向步骤2)中构建好的MaskScoring R-CNN网络，输入待检测的肺部CT影像，网络输出得到识别之后的图像，框出并掩膜mask识别到的病变组织，并标注出病变的类别。如图6示意图所示，说明本发明能辅助肺部病变组织的检测。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于MaskScoring-RCN网络和迁移学习的肺部病变检测系统，包括存储肺癌、肺炎、肺结核、肺气肿4种肺部疾病的存储模块，其特征在于：还包括一个诊断模块，诊断模块与存储模块通信连接，诊断模块具体包括：

步骤1)医学图像预处理；

选取4种不同的肺部疾病，肺癌，肺炎，肺结核，肺气肿，的CT图像，对数据采用NLP的方法进行标注，并以此类数据作为正样本；选取正常的正常的肺部CT图像作为负样本；

对采集到的肺部医学图像做数据增强处理；将处理后的数据80％用作网络的训练集，10％作为验证集，最后10％作为测试集，并将图像像素的大小设置为224*224；

步骤2)构建MaskScoring R-CNN网络模型；

2.1构建共享卷积神经网络骨干，作特征提取；

使用已经用ImageNet数据集预训练好的卷积网络模型VGG-16网络，每一层卷积网络都在前一层的信息基础上提取更加抽象的特征；第一层通常学习到简单的边缘，第二层寻找目标边缘的模式，以激活后续卷积网络中更加复杂的形状；最终，得到一个在空间维度上比原始图片小，但表征更深的卷积特征图；特征图的长和宽会随着卷积层间的池化而缩小，深度会随着卷积层滤波器的数量而增加；

2.2对共享卷积神经网络做迁移学习；

将靠近网络开头的第三层卷积层预先训练过的层级删掉，向第一二层后添加新的全连接层，随机化设置新的完全连接层的权重，冻结预先训练过的网络中的所有权重，最后训练改网络以更新新连接层的权重；

2.3构建特征金字塔网络，即FPN网络；

在共享卷积网络后构建1*1卷积层自上而下的路径都经过2层的上采样过程，融合底层到高层的feature maps，从而充分的利用了提取到的各个阶段的特征；

2.4构建区域建议网络，即RPN网络；

在FPN网络后接一个3*3的卷积层，再接两个1*1的卷积层，其中一个是用来进行分类，另一个用于给候选区域精确定位；

使用卷积神经网络CNN产生的区域建议Region Proposal分割出一张肺部CT图像中病变组织所在的位置，利用滑动窗口在生成的共享特征图谱feature maps上滑动；

滑动过程中为每个位置生成9种预先设置好长宽比与面积的目标框，即锚anchor；这9种初始anchor包含三种面积，即128×128，256×256，512×512，每种面积又包含三种长宽比，即1:1，1:2，2:1；对于RPN输出的特征图中的每一个点，一个1×1的卷积层输出了18个值，每一个点对应9个anchor，每个anchor有一个前景分数和一个背景分数；另一个1×1的卷积层输出了36个值，每一个点对应9个anchor，每个anchor对应了4个修正坐标的值；那么，要得到这些值，RPN网络需要训练；在训练的时候，就需要对应的标签；判定一个anchor是前景还是背景的定义如下：如果一个anchor与正确的标记数据ground truth的重叠度IoU在0.7以上，那这个anchor就算positive前景；如果这个anchor与ground truth的IoU在0.3以下，那么这个anchor就算negative背景；在进行RPN网络训练的时候，只使用了上述两类anchor，与ground truth的IoU介于0.3和0.7的anchor没有使用；在训练anchor属于前景与背景的时候，是在一张图中，随机抽取了128个前景anchor与128个背景anchor；

anchor边框修正的训练方法如下；边框修正由4个值完成，t_x,t_y,t_w,t_h；t_x,t_y分别是修正后的框在anchor的x和y方向上做出平移，t_w,t_h分别是长和宽各自放大的倍数；采用SmoothL1loss进行训练，具体描述为比较预测平移缩放参数

和真实平移缩放参数v＝(v_x,v_y,v_w,v_h)的差别：

其中λ被设置为10，N_cls为256为训练批次的大小，N_reg为2400为anchor的数量；如此设置RPN的两部分loss值能保持平衡；p_i为anchor预测为目标的概率，t_i＝{t_x,t_y,t_w,t_h}是一个向量，表示预测的bounding box的4个参数化目标，

是与positive anchor对应的groundtruth包围的坐标向量；

是回归损失，用

计算，其中R是SmoothL1函数，式(2)中的

就是(1)式中的L_loc(t^u,v)；L_cls是目标和非目标的对数损失；

2.5构建ROIAlign层；

对从共享卷积层和RPN网络得到的feature maps上感兴趣区域ROI被划分后的各网格区域选取固定数目的等间隔采样点，根据采样点邻近特征值利用双线性插值计算采样点的特征值，然后对采样点的特征值进行池化操作；

sigmoid函数定义如下：

2.6添加MaskIoU head；

在现在框架的基础上添加了一个MaskIoU head分支学习IoU，不再去学习一个mask的分类得分，而是直接用物体的分类得分，然后将分类得分和学习到的IoU相乘，将这个得分作为mask的得分，综合分类得分与mask的质量得分评估算法；

MaskIoU head同时接收蒙版head的输出与ROI的特征作为输入，用一种简单的回归损失进行训练，来计算预测的Mask和ground truth mask的IoU分数；

S_mask＝S_cls*S_iou (4)

其中S_cls是物体的分类得分，S_iou是Mask和ground truth mask的IoU分数；

步骤3)肺部医学图像病变组织识别；

向步骤2)中构建好的MaskScoring R-CNN网络，输入待检测的肺部CT影像，网络输出得到识别之后的图像，框出并掩膜mask识别到的病变组织，并标注出病变的类别。