CN110930378A

CN110930378A - 基于低数据需求的肺气肿影像处理方法及系统

Info

Publication number: CN110930378A
Application number: CN201911127982.XA
Authority: CN
Inventors: 党康; 张腾骥; 王子龙; 丁晓伟
Original assignee: Shanghai Tisu Information Technology Co Ltd
Current assignee: Shanghai Tisu Information Technology Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-03-27
Anticipated expiration: 2039-11-18
Also published as: CN110930378B

Abstract

本发明提供了一种基于低数据需求的肺气肿影像处理方法及系统，包括：步骤M1：准备标注好肺气肿病灶阴阳性的肺部CT影片，为一组医学数字成像和通信文件；步骤M2：对准备的肺部CT影片进行预处理,由一组医学数字成像和通信文件得到三维数组；步骤M3：搭建深度卷积神经网络架构，通过三维数据训练深度卷积神经网络，以深度卷积神经网络判断肺气肿影像；本发明会自动从带有肺气肿阴阳性标注的胸部CT中学习所需特征并进行影像处理阴阳性判断。相比于常见的CT深度神经网络影像处理辅助诊断技术，这个技术避开了3D模型占用大量内存并在层厚较厚的CT上表现不佳的问题，也避开了2D模型无法全面利用三维空间信息的局限，充分利用了层与层之间的空间关系。

Description

基于低数据需求的肺气肿影像处理方法及系统

技术领域

本发明涉及医学影像领域，具体地，涉及一种基于低数据需求的肺气肿影像处理方法、系统及介质，尤其涉及基于低数据需求的高速轻量胸部CT图像肺气肿影像处理方法、系统及介质，用弱标记医学影像数据训练的基于深度卷积神经网络自动处理在胸部CT影像的方式及其训练方式。

背景技术

CT影像所属的3D医学影像大类，其对于目前以深度神经网络为基础的计算机辅助诊断模型来说，最大的挑战在于其影像数据在长宽和层深三个维度上每个像素所代表的物理空间距离(spacing)高度不统一(anisotropic)，通常层维度上每个像素代表了长宽维度上数倍的距离，这对计算机在处理影像体积时感知空间距离造成了很大的挑战。经对现有技术检索检查，目前的技术在处理这个问题中有如下几种做法：

一种做法是通过对图像在层深轴上的上采样来统一三个维度上的spacing。这种做法在Automatic segmentation of MR brain images with a convolutional neuralnetwork[arXiv:1704.03295[cs.CV]]中有记录。另一种，也有研究人员因为这个问题在3D医学影像上放弃了使用3D网络，转而使用2D网络，并通过对2D网络在每一层上输出的合并，得到所需要的在整体3D影像上的结果。这种做法在Accurate Pulmonary NoduleDetection in Computed Tomography Images Using Deep Convolutional NeuralNetworks[arXiv:1706.04303[cs.CV]]中使用的Object Detection网络上有采用。

对图像上采样的方法只有在长宽和层深维度空间信息密度差距较小的时候管用。当二者差距巨大时，图像上采样添加的大多是冗余的信息，不但对提升模型表现没有帮助，还会无端增加显存占用和计算成本。

放弃3D神经网络转而采用纯2D神经网络这类做法不能很好的利用三维空间的所有信息，尤其是不同层之间的关系，往往需要牺牲模型性能或用复杂的后续处理方法来改善性能。譬如在上文中，研究人员采用了在2D结果上二次用较为简单的3D假阳性检测网络来利用三维空间信息。这使神经网络架构更为复杂，训练更耗时费力，显存占用量显著上升，并且模型推理速度大幅下降。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于低数据需求的肺气肿影像处理方法及系统。

根据本发明提供的一种基于低数据需求的肺气肿影像处理方法，包括：

步骤M1：准备标注好肺气肿病灶阴阳性的肺部CT影片，为一组医学数字成像和通信文件；

步骤M2：对准备的肺部CT影片进行预处理,由一组医学数字成像和通信文件得到三维数组；

步骤M3：搭建深度卷积神经网络架构，通过三维数据训练深度卷积神经网络，以深度卷积神经网络判断肺气肿影像。

优选地，所述步骤M2包括：

步骤M2.1：将肺部CT影片根据医学数字成像和通信文件内尺度信息统一调整为预设像素，每个CT序列调整后肺部CT影片层数保持不变，将CT序列文件信息读取为肺部CT影片三维数组；

步骤M2.2：将肺部CT影片三维数组通过使用在阅片时所用的影像窗位，突出识别肺气肿像素灰度值；

步骤M2.3：将突出识别肺气肿像素灰度值分别除以预设值进行归一化，使每一个像素灰度值大小都在0到1之间，得到处理后的肺部CT影片；

步骤M2.4：将处理后的肺部CT影片进行包括拉伸、旋转和翻转的任意一种或多种的处理，增加训练数据的数量。

优选地，所述步骤M3包括：

步骤M3.1：通过三维数据训练不断学习改进版AlexNet网络编码器和深度卷积神经网络架构；

步骤M3.2：使用训练后的改进版AlexNet网络编码器为CT序列中每一层的影像编码，得到通道数为预设值的特征张量；

步骤M3.3：将通道数为预设值的特征张量经过按照肺气肿影像病种定制的训练后的深度卷积神经网络架构，最终输出处理后的肺气肿阴阳性判断结果；

所述改进版AlexNet网络编码器包括：

改进版AlexNet网络编码器具有多个卷积层，是在ImageNet数据集上进行过预训练；

对于改进版AlexNet网络编码器的神经网络，每个卷积层后都有一层ReLU层对特征张量进行非线性处理；

所述ReLU层的公式为：

f(x)＝max(0，x)，其中：x表示待处理的特征张量；

对于第1卷积层、第2卷积层，特征张量经过ReLU层处理后还会经过卷积核尺寸为预设值，卷积步长为预设值的MaxPool层进行处理；

MaxPool层的公式表述为：

当X为m×n矩阵，卷积核尺寸为p，r＝(0，1，2…p-1)，y_ij＝max(x_i+r，j+r)其中i≤m-p，j≤n-p；

其中，X表示特征张量；m表示特征张量第一个维度大小；n表示特征张量第二个维度大小；p表示卷积核大小，为MaxPool层的参数；r表示卷积核尺寸内的枚举变量，遍历从0到p-1；y表示结果张量中的元素；下标i表示结果张量第一个维度；下标j表示结果张量第二个维度；下标r表示：卷积核尺寸内的枚举变量，遍历从0到p-1。

优选地，所述步骤M3.1包括：

步骤M3.1.1：使用加权交叉熵函数计算损失函数，其函数公式为：

l_n＝-w_n[y_n*logx_n+(1-y_n)*log(1-x_n)]

其中，l_n表示：损失值；w_n表述：损失权重；y_n表示：CT影像阴阳性标注值向量；x_n表示：模型阴阳性预测值向量；下标n表示：n个输入影像；

在训练过程中，对每个训练集中的阴性或阳性样本的判断计算损失函数结果时，我们将取1减去对应阴阳性在整个训练集中占比为权重来通过损失函数进行损失计算，即：假设数据集中有P个阳性样本，N个阴性样本，那么阳性样本的损失权重为N/(N+P)，阴性样本的损失权重为P/(N+P)；

步骤M3.1.2：使用Adam优化算法作为损失函数的优化算法来不断学习改进版AlexNet编码器和深度卷积神经网络架构中每一层参数；

步骤M3.1.3：对所有参数使用L2权重衰减规则化；实现L2权重衰减即在计算损失函数时加上

其中λ权重我们取值为预设值；n表示：批次训练样本的数量；

表示：模型权重；

步骤M3.1.4：改进版AlexNet网络编码器和深度卷积神经网络架构共同训练预设数个循环，采用稳定期减小学习率策略，实现对学习率的动态调整。

优选地，所述步骤M3.3包括：

步骤M3.3.1：以通道数为预设值的特征张量的第一维度和第二维度为轴进行全局平均池化，对于每一个特征维度取全局平均，使CT影像每一层经过深度卷积神经网络架构编码后的特征张量的尺寸统一为预设值；

步骤M3.3.2：令整个CT影像的特征向量通过以层深为轴的全局最大值池化层来获取一个尺寸为预设值的特征向量；因为使用全局最大值池提取层深为轴的特征向量上的最大值，只要有一层CT影像显示出了典型肺气肿的特征，就做出精确的判断。

根据本发明提供的一种基于低数据需求的肺气肿影像处理系统，包括：准备标注好肺气肿病灶阴阳性的肺部CT影片，为一组医学数字成像和通信文件；

模块M2：对准备的肺部CT影片进行预处理,由一组医学数字成像和通信文件得到三维数组；

模块M3：搭建深度卷积神经网络架构，通过三维数据训练深度卷积神经网络，以深度卷积神经网络判断肺气肿影像。

优选地，所述模块M2包括：

模块M2.1：将肺部CT影片根据医学数字成像和通信文件内尺度信息统一调整为预设像素，每个CT序列调整后肺部CT影片层数保持不变，将CT序列文件信息读取为肺部CT影片三维数组；

模块M2.2：将肺部CT影片三维数组通过使用在阅片时所用的影像窗位，突出识别肺气肿像素灰度值；

模块M2.3：将突出识别肺气肿像素灰度值分别除以预设值进行归一化，使每一个像素灰度值大小都在0到1之间，得到处理后的肺部CT影片；

模块M2.4：将处理后的肺部CT影片进行包括拉伸、旋转和翻转的任意一种或多种的处理，增加训练数据的数量。

优选地，所述模块M3包括：

模块M3.1：通过三维数据训练不断学习改进版AlexNet网络编码器和深度卷积神经网络架构；

模块M3.2：使用训练后的改进版AlexNet网络编码器为CT序列中每一层的影像编码，得到通道数为预设值的特征张量；

模块M3.3：将通道数为预设值的特征张量经过按照肺气肿影像病种定制的训练后的深度卷积神经网络架构，最终输出处理后的肺气肿阴阳性判断结果；

所述改进版AlexNet网络编码器包括：

所述ReLU层的公式为：

f(x)＝max(0，x)，其中：x表示待处理的特征张量；

MaxPool层的公式表述为：

优选地，所述模块M3.1包括：

模块M3.1.1：使用加权交叉熵函数计算损失函数，其函数公式为：

l_n＝-w_n[y_n*logx_n+(1-y_n)*log(1-x_n)]

模块M3.1.2：使用Adam优化算法作为损失函数的优化算法来不断学习改进版AlexNet编码器和深度卷积神经网络架构中每一层参数；

模块M3.1.3：对所有参数使用L2权重衰减规则化；实现L2权重衰减即在计算损失函数时加上

表示：模型权重；

模块M3.1.4：改进版AlexNet网络编码器和深度卷积神经网络架构共同训练预设数个循环，采用稳定期减小学习率策略，实现对学习率的动态调整。

优选地，所述模块M3.3包括：

模块M3.3.1：以通道数为预设值的特征张量的第一维度和第二维度为轴进行全局平均池化，对于每一个特征维度取全局平均，使CT影像每一层经过深度卷积神经网络架构编码后的特征张量的尺寸统一为预设值；

模块M3.3.2：令整个CT影像的特征向量通过以层深为轴的全局最大值池化层来获取一个尺寸为预设值的特征向量；因为使用全局最大值池提取层深为轴的特征向量上的最大值，只要有一层CT影像显示出了典型肺气肿的特征，就做出精确的判断。

与现有技术相比，本发明具有如下的有益效果：

1、它会自动从带有肺气肿阴阳性标注的胸部CT中学习所需特征并进行影像处理阴阳性判断。

2、相比于常见的CT深度神经网络影像处理辅助诊断技术，这个技术避开了3D模型占用大量内存并在层厚较厚的CT上表现不佳的问题，也避开了2D模型无法全面利用三维空间信息的局限，充分利用了层与层之间的空间关系；

3、本发明在占用极其少量显存(填最新数据)的前提下，实现了分钟级别(填最新数据)的快速训练，并达到了行业领先的表现；

4、与之对比，常见的3D模型往往需要占用数(填最新数据)GB的显存和大量的训练时间。即便使用最先进最昂贵的显卡也需要训练上(填最新数据)之久。本发明使用了(填最新数据)张由专业人员标注的肺部CT影像进行训练，并在(填最新数据)张的测试数据集上达到了(填最新数据)的准确度，与人类相当(填最新数据)。这个通过测试数据集数千的数量级别也为本发明提供了可靠性的验证。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本方案发明了一种由数据驱动的基于深度卷积神经网络自动学习数据特征来自动处理在肺气肿胸部CT影像，中检测肺气肿的技术。通过对影像科业内专家工作模式的研究与剖析，我们设计出了创新性的实现类似影片分析模式的神经网络。

本发明的技术方法包括：预处理有肺气肿阴阳性标记的肺部CT数据；在公开库高质量ImageNet预训练的经典模型的基础上，加以为处理肺气肿影像定制的创新性卷积特征张量后处理神经层，以简洁的概念，廉价的运算，精确地从特征张量中捕捉出与判别肺气肿相关的特征，使模型相对较少的数据量下，以非常少批次的训练，实现训练的收敛及行业领先的模型表现。

具体地，所述步骤M2包括：

步骤M2.1：将肺部CT影片根据医学数字成像和通信文件内尺度信息统一调整为512x512像素，每个CT序列调整后肺部CT影片层数保持不变，将CT序列文件信息读取为肺部CT影片三维数组；

步骤M2.2：借鉴使用影像科医生在阅片时常用的影像窗位(window)，将肺部CT影片三维数组通过影像窗位，突出识别肺气肿有关的像素灰度值，使其更容易被模型学习；

步骤M2.3：将突出识别肺气肿像素灰度值统一除以所有像素上的最大值进行归一化，使每一个像素灰度值大小都在0到1之间，得到处理后的肺部CT影片；这有助于使模型的训练更为稳定。

步骤M2.4：将处理后的肺部CT影片进行包括拉伸、旋转和翻转的任意一种或多种的处理，增加训练数据的数量来提高训练效果。

具体地，所述步骤M3包括：

更为具体地，所述步骤M3.1包括：

l_n＝-w_n[y_n*logx_n+(1-y_n)*log(1-x_n)]

在训练过程中，对每个训练集中的阴性或阳性样本的判断计算损失函数结果时，我们将取1减去对应阴阳性在整个训练集中占比为权重来通过损失函数进行损失计算，即：假设数据集中有P个阳性样本，N个阴性样本，那么阳性样本的损失权重为N/(N+P)，阴性样本的损失权重为P/(N+P)；该损失函数和其计算方式有利于改善数据集不平衡，即中阴性样本数量显著大于阳性样本，所导致的损失扭曲。

步骤M3.1.3：对所有参数使用L2权重衰减规则化；其作用是避免参数数值过大，从而导致过拟合。实现L2权重衰减即在计算损失函数时加上

其中λ权重我们取值为0.01；n表示：批次训练样本的数量；

表示：模型权重；

每个网络至多训练50个循环epoch。对学习率(learning rate)的动态调整，我们在这里采用稳定期减小学习率(Reduce LR On Plateau)策略。每当在当前学习率下损失函数值连续五个epoch后下降幅度仍然小于1e-4时，我们将下调学习率到目前值的30％，结束50个循环后就结束。

步骤M3.3：将通道数为256的特征张量经过按照肺气肿影像病种定制的训练后的深度卷积神经网络架构，最终输出处理后的肺气肿阴阳性判断结果；

所述改进版AlexNet网络编码器包括：

所述ReLU层的公式为：

f(x)＝max(0，x)，其中：x表示待处理的特征张量；这一操作是必须的，否则整个编码器就会成为一个处理能力极其受限的线性方程。

对于第1卷积层、第2卷积层，特征张量经过ReLU层处理后还会经过卷积核尺寸为3，卷积步长为2的MaxPool层进行处理；

MaxPool层的公式表述为：

其中，X表示特征张量；m表示特征张量第一个维度大小；n表示特征张量第二个维度大小；p表示卷积核大小，为MaxPool层的参数；r表示卷积核尺寸内的枚举变量，遍历从0到p-1；y表示结果张量中的元素；下标i表示结果张量第一个维度；下标j表示结果张量第二个维度；下标r表示：卷积核尺寸内的枚举变量，遍历从0到p-1。这一操作有助于压缩特征张量的尺寸，并以此缩小整个编码器网络的参数数量和显存占用量。

更为具体地，所述步骤M3.3包括：

步骤M3.3.1：以通道数为256的特征张量的第一维度和第二维度为轴进行全局平均池化，对于每一个特征维度取全局平均，使CT影像每一层经过深度卷积神经网络架构编码后的特征张量的尺寸统一为1x1x256；这一操作有利于降低模型的复杂度，在避免模型过度拟合风险的同时，降低了模型的计算成本。

步骤M3.3.2：令整个CT影像的特征向量通过以层深为轴的全局最大值池化层来获取一个尺寸为256的特征向量；这一层的设计建立在对影像医生阅片习惯的理解之上，模拟影像科医生阅片分析是否有肺气肿时，因为使用全局最大值池提取层深为轴的特征向量上的最大值，只要有一层CT影像显示出了典型肺气肿的特征，即只要有一层CT影像有较高的信号，就做出精确的判断。这一阅片模式可以很好地用以层深为轴的全局最大值池化模拟，因为它会捕捉到最具有某类特征的层。

这个特征向量最后会通过一个全连接层和一个Sigmoid激活函数来获得一个0到1之间的肺气肿阳性概率预测值。

具体地，所述模块M2包括：

模块M2.1：将肺部CT影片根据医学数字成像和通信文件内尺度信息统一调整为512x512像素，每个CT序列调整后肺部CT影片层数保持不变，将CT序列文件信息读取为肺部CT影片三维数组；

模块M2.2：借鉴使用影像科医生在阅片时常用的影像窗位(window)，将肺部CT影片三维数组通过影像窗位，突出识别肺气肿有关的像素灰度值，使其更容易被模型学习；

模块M2.3：将突出识别肺气肿像素灰度值统一除以所有像素上的最大值进行归一化，使每一个像素灰度值大小都在0到1之间，得到处理后的肺部CT影片；这有助于使模型的训练更为稳定。

模块M2.4：将处理后的肺部CT影片进行包括拉伸、旋转和翻转的任意一种或多种的处理，增加训练数据的数量来提高训练效果。

具体地，所述模块M3包括：

更为具体地，所述模块M3.1包括：

l_n＝-w_n[y_n*logx_n+(1-y_n)*log(1-x_n)]

在训练过程中，对每个训练集中的阴性或阳性样本的判断计算损失函数结果时，我们将取1减去对应阴阳性在整个数据集中占比为权重来通过损失函数进行损失计算，即：假设数据集中有P个阳性样本，N个阴性样本，那么阳性样本的损失权重为N/(N+P)，阴性样本的损失权重为P/(N+P)；该损失函数和其计算方式有利于改善数据集不平衡，即中阴性样本数量显著大于阳性样本，所导致的损失扭曲。

模块M3.1.3：对所有参数使用L2权重衰减规则化；其作用是避免参数数值过大，从而导致过拟合。实现L2权重衰减即在计算损失函数时加上

其中λ权重我们取值为0.01；n表示：批次训练样本的数量；

表示：模型权重；

模块M3.3：将通道数为256的特征张量经过按照肺气肿影像病种定制的训练后的深度卷积神经网络架构，最终输出处理后的肺气肿阴阳性判断结果；

所述改进版AlexNet网络编码器包括：

所述ReLU层的公式为：

MaxPool层的公式表述为：

更为具体地，所述模块M3.3包括：

模块M3.3.1：以通道数为256的特征张量的第一维度和第二维度为轴进行全局平均池化，对于每一个特征维度取全局平均，使CT影像每一层经过深度卷积神经网络架构编码后的特征张量的尺寸统一为1x1x256；这一操作有利于降低模型的复杂度，在避免模型过度拟合风险的同时，降低了模型的计算成本。

模块M3.3.2：令整个CT影像的特征向量通过以层深为轴的全局最大值池化层来获取一个尺寸为256的特征向量；这一层的设计建立在对影像医生阅片习惯的理解之上，模拟影像科医生阅片分析是否有肺气肿时，因为使用全局最大值池提取层深为轴的特征向量上的最大值，只要有一层CT影像显示出了典型肺气肿的特征，即只要有一层CT影像有较高的信号，就做出精确的判断。这一阅片模式可以很好地用以层深为轴的全局最大值池化模拟，因为它会捕捉到最具有某类特征的层。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于低数据需求的肺气肿影像处理方法，其特征在于，包括：

步骤M1：准备标注好肺气肿病灶阴阳性的肺部CT影片为一组医学数字成像和通信文件；

步骤M2：对准备的肺部CT影片进行预处理得到训练三维数组；

2.根据权利要求1所述的一种基于低数据需求的肺气肿影像处理方法，其特征在于，所述步骤M2包括：

步骤M2.4：将处理后的肺部CT影片进行包括拉伸、旋转和翻转的任意一种或多种的处理，增加训练三维数组的数量。

3.根据权利要求1所述的一种基于低数据需求的肺气肿影像处理方法，其特征在于，所述步骤M3包括：

所述改进版AlexNet网络编码器包括：

所述ReLU层的公式为：

f(x)＝max(0，x)，其中：x表示待处理的特征张量；

MaxPool层的公式表述为：

4.根据权利要求3所述的一种基于低数据需求的肺气肿影像处理方法，其特征在于，所述步骤M3.1包括：

l_n＝-w_n[y_n*logx_n+(1-y_n)*log(1-x_n)]

表示：模型权重；

5.根据权利要求3所述的一种基于低数据需求的肺气肿影像处理方法，其特征在于，所述步骤M3.3包括：

6.一种基于低数据需求的肺气肿影像处理系统，其特征在于，包括：准备标注好肺气肿病灶阴阳性的肺部CT影片为一组医学数字成像和通信文件；

7.根据权利要求6所述的一种基于低数据需求的肺气肿影像处理系统，其特征在于，所述模块M2包括：

8.根据权利要求6所述的一种基于低数据需求的肺气肿影像处理系统，其特征在于，所述模块M3包括：

所述改进版AlexNet网络编码器包括：

所述ReLU层的公式为：

f(x)＝max(0，x)，其中：x表示待处理的特征张量；

MaxPool层的公式表述为：

9.根据权利要求8所述的一种基于低数据需求的肺气肿影像处理系统，其特征在于，所述模块M3.1包括：

l_n＝-w_n[y_n*logx_n+(1-y_n)*log(1-x_n)]

表示：模型权重；

10.根据权利要求8所述的一种基于低数据需求的肺气肿影像处理方法，其特征在于，所述模块M3.3包括：