CN111784593A

CN111784593A - 一种面向深度学习的肺结节ct图像数据增强方法及系统

Info

Publication number: CN111784593A
Application number: CN202010509491.8A
Authority: CN
Inventors: 吴亮生; 焦泽昱; 陈再励; 唐宇; 钟震宇; 雷欢; 马敬奇
Original assignee: Guangdong Institute of Intelligent Manufacturing
Current assignee: Guangdong Institute of Intelligent Manufacturing
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-10-16

Abstract

本发明公开了一种面向深度学习的肺结节CT图像数据增强方法及系统，所述方法包括：将肺结节CT图像转换为肺结节灰度图像，基于所述肺结节灰度图像提取肺实质区域；将所述肺结节灰度图像中的肺结节图像进行类别标记，获取所述肺结节图像中的可扩充肺结节和不可扩充肺结节；利用过采样算法对所述可扩充肺结节进行样本数据扩充，并基于所述不可扩充肺结节对所述肺结节灰度图像进行更新；基于数据增强算法对更新后的肺结节灰度图像进行数量扩充，生成肺结节灰度图像副本；获取所述肺结节灰度图像副本中的肺结节图像副本，对所述肺结节图像副本进行数据扩充处理。本发明实施例可解决深度学习模型中所存在的肺结节数据集不平衡与数据量不足的难题。

Description

一种面向深度学习的肺结节CT图像数据增强方法及系统

技术领域

本发明涉及医疗技术领域，尤其涉及一种面向深度学习的肺结节CT图像增强方法及系统。

背景技术

肺癌是世界上最常见的恶性肿瘤，近年来我国肺癌的新发现病例和死亡病例远超其他国家。我国肺癌患者5年生存率仅为16.1％，远低于西方发达国家，发现太晚是其主要原因之一，早发现早治疗是提升存活率的唯一有效途径，而低剂量CT(ComputedTomography，即计算机断层扫描)是目前唯一可以使用的早期肺癌筛查手段。早期肺癌的主要表现为无症状的肺结节，由于其形态复杂，即使是经验丰富的医生也难以做出准确的判断。

随着计算机技术与深度学习的快速发展，计算机辅助检测技术可有效地检测与识别肺结节。基于深度学习的肺结节检测可提升对肺结节的识别精度，但仍需要大型、有代表性和高质量的肺结节数据集，目前在这方面还未能得到完善。因此，扩充现有数据集是获取肺结节数据的有效方法。在此基础上已提出一种数据增强方法，主要对原有的CT图像进行缩放、平移、旋转、拉伸及仿射变换等一种或多种方法来实现图像扩充，同时对彩色图像进行颜色空间的转换、滤波等。然而此方法也存在一定的弊端：对大中型目标(即目标面积占据整个图像面积10％以上)的对象可有效地提升深度学习模型的泛性，由于绝大部分肺结节像素面积在CT图像面积中所占比例均在5％以下，尤其是早期肺结节像素面积所占比例就更小，故现有的数据增强方法无法完全满足肺结节的数据增强。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种面向深度学习的肺结节CT图像数据增强方法及系统，可解决在深度学习模型的训练过程中所存在的肺结节数据集不平衡以及数据量不足的难题，使得深度学习模型能够提供更准确的肺结节预测数据来辅助医生进行诊断，进一步可提高医生的工作效率。

为了解决上述问题，本发明提出了一种面向深度学习的肺结节CT图像数据增强方法，所述方法包括：

将肺结节CT图像转换为肺结节灰度图像，并基于所述肺结节灰度图像提取肺实质区域；

以所述肺实质区域作为处理区域，将所述肺结节灰度图像中的肺结节图像进行类别标记，获取所述肺结节图像中的可扩充肺结节和不可扩充肺结节；

利用过采样算法对所述可扩充肺结节进行样本数据扩充，并基于所述不可扩充肺结节对所述肺结节灰度图像进行更新；

基于数据增强算法对更新后的肺结节灰度图像进行数量扩充，生成肺结节灰度图像副本；

获取所述肺结节灰度图像副本中的肺结节图像副本，对所述肺结节图像副本进行数据扩充处理。

可选的，所述将肺结节CT图像转换为肺结节灰度图像，并基于所述肺结节灰度图像提取肺实质区域包括：

计算所述肺结节CT图像的一阶统计量；

基于所述一阶统计量对所述肺结节CT图像进行图像预处理，生成所述肺结节灰度图像；

对所述肺结节灰度图像进行腐蚀、膨胀及消除孔洞处理，提取所述肺实质区域。

可选的，所述基于所述一阶统计量对所述肺结节CT图像进行图像预处理包括：

基于所述一阶统计量对所述肺结节CT图像进行图像变换；

获取经图像变换后的肺结节CT图像中心区域的均值，以及所述经图像变换后的肺结节CT图像的最大值和最小值；

对所述最大值和所述最小值进行所述均值的替换，并将所述均值作为阈值对所述经图像变换后的肺结节CT图像进行二值化处理，生成所述肺结节灰度图像。

可选的，所述可扩充肺结节包括孔洞状结节和毛玻璃状结节，所述不可扩充肺结节包括孤立结节和黏连结节。

可选的，所述利用过采样算法对所述可扩充肺结节进行样本数据扩充包括：

获取所述可扩充肺结节中的每一个样本数据，以欧式距离为基准计算每一个样本数据所对应的k近邻；

从所述k近邻中随机选取M个样本数据，基于所述M个样本数据中每一个样本数据构建新的样本数据。

可选的，所述获取所述肺结节灰度图像副本中的肺结节图像副本，对所述肺结节图像副本进行数据扩充处理包括：

对所述肺结节灰度图像副本沿着肺结节轮廓边缘进行截取，获取所述肺结节图像副本；

基于所述肺结节灰度图像副本中所保留的所述肺实质区域，将所述肺结节图像副本按照限定数量进行复制粘贴。

可选的，所述限定数量是根据所述肺结节图像副本中的肺结节直径进行设置的。

另外，本发明实施例还提供了一种面向深度学习的肺结节CT图像数据增强系统，所述系统包括：

转换模块，用于将肺结节CT图像转换为肺结节灰度图像，并基于所述肺结节灰度图像提取肺实质区域；

归类模块，用于以所述肺实质区域作为处理区域，将所述肺结节灰度图像中的肺结节图像进行类别标记，获取所述肺结节图像中的可扩充肺结节和不可扩充肺结节；

更新模块，用于利用过采样算法对所述可扩充肺结节进行样本数据扩充，并基于所述不可扩充肺结节对所述肺结节灰度图像进行更新；

增强模块，用于基于数据增强算法对更新后的肺结节灰度图像进行数量扩充，生成肺结节灰度图像副本；

扩充模块，用于获取所述肺结节灰度图像副本中的肺结节图像副本，对所述肺结节图像副本进行数据扩充处理。

在本发明实施例中，通过引入过采样算法对肺结节图像中的小样本对象进行数据扩充，实现平衡肺结节图像中各类样本对象的占比，解决在深度学习模型的训练过程中对小样本对象的学习特征不足而导致识别率偏低的问题；通过复制粘贴的方式来实现提升肺结节图像在整个CT图像中的占比，解决在深度学习模型的训练过程中所存在的数据量不足以及数据量不均的难题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例公开的一种面向深度学习的肺结节CT图像增强方法的流程示意图；

图2是本发明实施例公开的一种面向深度学习的肺结节CT图像增强系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1是本发明实施例中的一种面向深度学习的肺结节CT图像增强方法的流程示意图，所述方法包括如下步骤：

S101、将肺结节CT图像转换为肺结节灰度图像，并基于所述肺结节灰度图像提取肺实质区域；

具体实施过程包括：

(1)计算所述肺结节CT图像的一阶统计量，即计算所述肺结节CT图像中所有像素点的均值和方差，其中所述均值反映的是所述肺结节CT图像整体HU值的核心分布区域，所述方差反映的是所述肺结节CT图像整体HU值之间的差异度，即分布范围的广度。

需要说明的是，所述HU值为亨氏单位，用来表示所述肺结节CT图像上组织结构的相对密度。

(2)基于所述一阶统计量对所述肺结节CT图像进行图像预处理，生成所述肺结节灰度图像；

进一步的，首先基于所述一阶统计量对所述肺结节CT图像进行图像变换，如下所示：

new_pixels＝(source-source_mean)/source_std

其中，new_pixels为经图像变换后的肺结节CT图像所对应的HU值，source为所述肺结节CT图像中的任一像素点，source_mean为所述肺结节CT图像中所有像素点的均值，source_std为所述肺结节CT图像中所有像素点的方差；

其次，获取经图像变换后的肺结节CT图像的最大值和最小值，以及所述经图像变换后的肺结节CT图像中心区域的均值为：

其中，300*300为所述经图像变换后的肺结节CT图像的中心区域，V_x,y为所述中心区域内的任意一个像素点；

最后，对所述最大值和所述最小值进行所述均值的替换，并将所述均值作为阈值对所述经图像变换后的肺结节CT图像进行二值化处理，生成所述肺结节灰度图像。

(3)对所述肺结节灰度图像进行腐蚀、膨胀及消除孔洞处理，提取所述肺实质区域。

在本发明实施例中，腐蚀和膨胀是两种常见的形态学图像处理方法，其中腐蚀运算可以消除小于结构元素的明亮区域，从而可以有效地去除所述肺结节灰度图像中的孤立噪声点和边界上不平滑的突起部分；膨胀运算是腐蚀运算的对偶运算，可以填补所述肺结节灰度图像中的空洞区域从而形成连通域，并填平边界上不平滑的凹陷部分。通过上述两种运算方法对所述肺结节灰度图像进行修补，以得到所述肺实质区域的分割图像。

S102、以所述肺实质区域作为处理区域，将所述肺结节灰度图像中的肺结节图像进行类别标记，获取所述肺结节图像中的可扩充肺结节和不可扩充肺结节；

在本发明实施例中，根据肺结节的不同形态特征可分为孤立结节、黏连结节、孔洞状结节和毛玻璃状结节这四个类别，在此基础上根据现有肺结节图像中各类样本对象的占比信息可将这四个类别分为扩充肺结节和不可扩充肺结节，其中所述可扩充肺结节包括孔洞状结节和毛玻璃状结节，所述不可扩充肺结节包括孤立结节和黏连结节。

考虑到少数类样本对象在深度学习模型的训练过程中所存在的学习特征不足而导致对其识别检测难度大等问题，在本发明实施例中优先对所述可扩充肺结节和所述不可扩充肺结节进行标记区分，具体为：首先设定将孤立结节的样本数据均标记为1，黏连结节的样本数据均标记为2，孔洞状结节的样本数据均标记为3，毛玻璃状结节的样本数据均标记为4；其次，根据形态特征对所述肺结节图像中的所有样本数据进行类别标记；最后，对所述肺结节图像中的标记信息进行识别，并将识别到的标记信息为1的样本数据和标记信息为2的样本数据均归类为所述不可扩充肺结节，将识别到的标记信息为3的样本数据和标记信息为4的样本数据均归类为所述可扩充肺结节。

需要说明的是，所述肺结节图像中可能同时存在所述可扩充肺结节中的一类或两类肺结节以及所述不可扩充肺结节中的一类或两类肺结节，或者仅存在所述可扩充肺结节中的一类或者两类肺结节，或者仅存在所述不可扩充肺结节中的一类或者两类肺结节，在本发明实施例中未作具体限定，对于多类肺结节的处理将由技术人员制定先后处理顺序。

S103、利用过采样算法对所述可扩充肺结节进行样本数据扩充，并基于所述不可扩充肺结节对所述肺结节灰度图像进行更新；

具体的，获取所述可扩充肺结节中的每一个样本数据，以欧式距离为基准计算每一个样本数据所对应的k近邻；从所述k近邻中随机选取M个样本数据，基于所述M个样本数据中每一个样本数据构建新的样本数据。假设所述肺结节图像中存在孤立结节、黏连结节和毛玻璃状结节这三类肺结节时，此时仅需要对所述毛玻璃状结节的样本数据扩充过程来展开说明如下：

(1)假设所述毛玻璃状结节的样本数据总量为N，从中获取第i个样本数据x_i(从i＝1开始)，计算第i个样本数据x_i到其它N-1个样本数据的欧式距离，根据距离由小到大的规则获取第i个样本数据x_i的k近邻，其中的k值由技术人员自行设定；

(2)根据所述毛玻璃状结节在所述肺结节图像中的不平衡比例设置一个采样比例，并基于所述采样比例确定采样倍率；

(3)基于所述采样倍率从所述k近邻中随机选取M个样本数据，并对所述M个样本数据中每一个样本数据构建新的样本数据，假设选择所述M个样本数据中的一个样本数据o，此时所构建出来的新样本数据为：

x_new＝x_i+rand(0,1)*|x_i-o|

需要说明的是，步骤(3)应循环执行M次，以针对所述M个样本数据中每一个样本数据对应构建出一个新的样本数据。

(4)判断i<N是否成立；若不成立，则继续执行步骤S104；若成立，则令i＝i+1并返回执行步骤(1)，通过循环方式对所述毛玻璃状结节进行样本数据扩充(即增大所述毛玻璃状结节在所述肺结节图像中的比例)，与此同时也对所述肺结节灰度图像进行更新，其中的所述孤立结节和所述黏连结节的占比保持不变。

需要说明的是，若所述肺结节图像中未包含所述可扩充肺结节中的一类或者两类肺结节时，说明此时更新后的肺结节灰度图像仍为步骤S102中的所述肺结节灰度图像。

S104、基于数据增强算法对更新后的肺结节灰度图像进行数量扩充，生成肺结节灰度图像副本；

在本发明实施例中，由于肺结节的异质性程度较高，在肺结节的边界通常会呈现出各种不规则的形状，若要对所述更新后的肺结节灰度图像进行高效的图像扩充时，除了常用的旋转操作外，还可利用非线性的仿射变换，此步骤作为现有技术常用的方法，在本发明实施例中不作详细说明。

S105、获取所述肺结节灰度图像副本中的肺结节图像副本，对所述肺结节图像副本进行数据扩充处理。

具体的，对所述肺结节灰度图像副本沿着肺结节轮廓边缘进行截取，获取所述肺结节图像副本；基于所述肺结节灰度图像副本中所保留的所述肺实质区域，将所述肺结节图像副本按照限定数量进行复制粘贴。在本发明实施例中，由步骤S101可知所述肺实质区域是从所述肺结节灰度图像中分割出来的，在所述肺结节灰度图像经由步骤S103至步骤S104的处理得到所述肺结节灰度图像副本的过程中，所述肺实质区域未受到影响，即所述肺结节灰度图像副本中也保留有所述肺实质区域。

其中，所述限定数量是根据所述肺结节图像副本中的肺结节直径进行设置的，具体表现为：当所述肺结节图像副本中所存在的A类肺结节直径大于20mm时，说明可对所述A类肺结节进行复制粘贴的个数为2；当所述肺结节图像副本中所存在的B类肺结节直径在8mm～20mm之间时，说明可对所述B类肺结节进行复制粘贴的个数为3；当所述肺结节图像副本中所存在的C类肺结节直径小于8mm时，说明可对所述C类肺结节进行复制粘贴的个数为4。此设定方式可平衡所述肺结节图像副本中各类肺结节的比例，解决在深度学习模型的训练过程中会偏向比例较大的某一类肺结节导致整体识别精度偏低的问题。

需要说明的是，所述A类肺结节、所述B类肺结节和所述C类肺结节均为步骤S102中所提及到的四类肺结节中的一类。另外，所述肺结节图像副本在复制粘贴过程中应对新的肺结节图像副本按照步骤S104的方法进行图像变换，保证其对象特征的区别性。

进一步的，本发明实施还提出利用前后训练结果的对比来验证肺结节数据增强的效果，具体表现为：将所述肺结节灰度图像经过传统的数据增强算法获取第一肺结节灰度图像，并将所述第一肺结节灰度图像所包含的数据集输入至深度学习网络中进行训练，得到原始训练数据；其次，将扩充处理后的肺结节灰度图像副本所包含的数据集输入至深度学习网络中进行训练，得到现有训练数据；最后，将所述原始训练数据与所述现有训练数据进行比较，根据比较结果的不一致性来验证肺结节检测的准确率，比如所述原始训练数据中没有体现出对毛玻璃状结节的检测结果，而所述现有训练数据中可体现出来。

图2是本发明实施例中的一种面向深度学习的肺结节CT图像增强系统的结构组成示意图，所述系统包括：

转换模块201，用于将肺结节CT图像转换为肺结节灰度图像，并基于所述肺结节灰度图像提取肺实质区域；

归类模块202，用于以所述肺实质区域作为处理区域，将所述肺结节灰度图像中的肺结节图像进行类别标记，获取所述肺结节图像中的可扩充肺结节和不可扩充肺结节，其中所述可扩充肺结节包括孔洞状结节和毛玻璃状结节，所述不可扩充肺结节包括孤立结节和黏连结节；

更新模块203，用于利用过采样算法对所述可扩充肺结节进行样本数据扩充，并基于所述不可扩充肺结节对所述肺结节灰度图像进行更新；

增强模块204，用于基于数据增强算法对更新后的肺结节灰度图像进行数量扩充，生成肺结节灰度图像副本；

扩充模块205，用于获取所述肺结节灰度图像副本中的肺结节图像副本，对所述肺结节图像副本进行数据扩充处理。

其中，所述系统被配置用于执行上述的面向深度学习的肺结节CT图像增强方法，针对所述系统中的各个模块的具体实施方式请参考上述的实施例，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种面向深度学习的肺结节CT图像增强方法及系统进行了详细介绍，本文中采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向深度学习的肺结节CT图像数据增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的肺结节CT图像数据增强方法，其特征在于，所述将肺结节CT图像转换为肺结节灰度图像，并基于所述肺结节灰度图像提取肺实质区域包括：

计算所述肺结节CT图像的一阶统计量；

3.根据权利要求2所述的肺结节CT图像数据增强方法，其特征在于，所述基于所述一阶统计量对所述肺结节CT图像进行图像预处理包括：

基于所述一阶统计量对所述肺结节CT图像进行图像变换；

4.根据权利要求1所述的肺结节CT图像数据增强方法，其特征在于，所述可扩充肺结节包括孔洞状结节和毛玻璃状结节，所述不可扩充肺结节包括孤立结节和黏连结节。

5.根据权利要求4所述的肺结节CT图像数据增强方法，其特征在于，所述利用过采样算法对所述可扩充肺结节进行样本数据扩充包括：

6.根据权利要求1所述的肺结节CT图像数据增强方法，其特征在于，所述获取所述肺结节灰度图像副本中的肺结节图像副本，对所述肺结节图像副本进行数据扩充处理包括：

7.根据权利要求6所述的肺结节CT图像数据增强方法，其特征在于，所述限定数量是根据所述肺结节图像副本中的肺结节直径进行设置的。

8.一种面向深度学习的肺结节CT图像数据增强系统，其特征在于，所述系统包括：

9.根据权利要求8所述的肺结节CT图像数据增强系统，其特征在于，所述可扩充肺结节包括孔洞状结节和毛玻璃状结节，所述不可扩充肺结节包括孤立结节和黏连结节。