CN112365464B

CN112365464B - 一种基于gan的医学图像病变区域弱监督定位方法

Info

Publication number: CN112365464B
Application number: CN202011242653.2A
Authority: CN
Inventors: 李孝杰; 严喆; 史沧红; 张宪; 任勇鹏; 宋玉琪; 吴锡; 吕建成
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-08-10
Anticipated expiration: 2040-11-09
Also published as: CN112365464A

Abstract

本发明公开了一种基于GAN的医学图像病变区域弱监督定位方法。该方法具体包括以下步骤：收集数据并制作数据集，将每一次CT扫描的成像文件重采样成固定分辨率并保存为NPY格式并保存对应的标签信息；构建基于卷积神经网络的分类器，使用上述的数据集对分类器进行预训练，学习高级语义特征；构建基于生成对抗网络的框架，使用生成器学习正常人与病人的检查结果的影像学差异，使用判别器和预训练的分类器来强化生成器的学习效果并使生成器能够捕捉到病人的病变区域；本发明可以自动学习病人与正常人之间的差别，实现了无需对病变区域进行标注而能有效的对病变的区域进行定位，提供辅助诊断信息。

Description

一种基于GAN的医学图像病变区域弱监督定位方法

技术领域

本发明涉及医学图像领域，尤其涉及一种GAN的医学图像病变区域弱监督定位方法。

背景技术

随着计算机技术的发展，电子计算机断层扫描(CT)和磁共振成像(MRI)广泛的用于辅助医生对疾病的诊断。对部分疾病而言，可以观察到明显的影像学改变，通过专业的影像科医师阅读患者的CT或MRI图像可以给医生提供有效的临床诊断信息，辅助医生对疾病进行诊断。

目前，图像分割方法在医学图像领域已经取得了巨大的进展，然而图像分割方法面临的一个巨大问题是需要事先对图像进行密集标注，而这项工作通常会耗费资深的影像科医师大量的时间和精力来完成。且在面临突发的新型疾病时，通常没有时间来完成数据的密集标注工作。针对图像分割方法需要大量标注数据的缺点，目前有一种称为弱监督定位的技术也开始应用于医学图像领域。与图像分割方法不同，弱监督定位方法只需要进行图像级的标注而不是像素级的标注，这将大幅度减少数据标注工作的强度。对于医学图像来说，虽然某种疾病的病变特征可能相同，但不同病人的器官存在大小，形态等差异，且病变区域的位置和大小也存在随机性，对图像的弱监督定位方法的研究仍然是一项具有挑战的工作。

目前大部分弱监督定位方法基于类激活映射CAM技术及其改进方法，此类方法利用训练好的分类器生成的特征图结合其与各个类别的权重来生成目标区域的热力图。但此类方法需要分类器能成功学习到病变区域的高级语义特征并依据此类特征做出正确的分类决策，并且需要较高分辨率的特征图才能取得较好的效果。其不足之处在于：基于分类器的分类决策特征来决定病变区域，然而分类器的又是只会依据一些显著特征便可做出分类决策，这可能会忽视部分不明显特征而导致定位不完全，且CAM技术的定位区域较为粗略。

此外还有基于生成对抗网络的图像分割方法，该方法利用生成器生成一幅图像叠加到病人的图像上来获得病人与正常人之间的差异，并认为此类差异即可代表病人的病变区域，但此方法需要预先对数据进行分割、配准等处理，消除无关背景区域的干扰，否则会产生大量噪声，严重影响分割性能。

因此，如何进一步提高医学图像的病变区域弱监督定位精度和性能，仍然是医学图像处理领域研究的热点和难点。

发明内容

针对现有技术之不足，提出一种基于GAN的医学图像病变区域弱监督定位方法，所述方法包括：

步骤1：制作数据集，采集正常人和病人的胸部CT图像并将对其进行预处理，将预处理后的CT扫描图像保存为NPY格式并按比例分为训练数据集和验证数据集；

步骤2：预训练分类器网络，将训练数据集输入到构建好的分类器网络中进行训练，训练完成后使用验证数据集进行验证，保存验证效果最好的网络模型，该预训练的分类器将作为后续生成对抗网络模型中的关键附加组件，训练方法具体包括：

步骤21：将训练数据集中的胸部CT图像输入到ResNet网络中，提取输入图像的高级语义特征并生成特征图；其中，高级语义特征包括边缘，线条，纹理，颜色等人类视觉可以理解的特征以及更为抽象的人类无法理解但机器能做出判断的高级特征。

步骤22：将所述特征图经过全局平均池化后通过全连接层，输出所述胸部CT图像为病人或正常人的概率，并根据步骤1制作数据集时已知的标签信息计算误差，依据计算出的误差使用反向传播算法计算出各个参数的梯度并使用梯度下降算法更新神经网络参数，最后得到一个最优的分类器函数f_θ(x)能正确地对输入数据分类；

步骤23：当训练数据集中的所有训练数据迭代一次后，将验证数据集输入到训练完成的分类器中，评估分类器效果，最终保存验证指标最高的分类器模型。

步骤3：训练生成对抗网络，所述生成对抗网络包括用于生成伪图像的生成器和用于判别真实图像和伪图像的判别器，还包括步骤2中训练好的分类器；训练方法具体包括：将训练数据集中的病人数据样本输入到生成器，然后将训练数据集中的正常人数据样本和生成器生成的伪图像输入到判别器，同时将生成器生成的伪图像输入到步骤2训练好的分类器，交替训练生成器和判别器；

具体的训练步骤如下：

步骤31：将训练数据集中的病人CT图像输入到生成器，生成一幅指示病变区域的图像；

步骤32：将生成器生成的病变区域图像叠加到步骤31中的所述病人CT图像上获得类似正常人CT图像的伪正常人CT图像；

步骤33：训练生成器，冻结判别器的参数，将所述伪正常人CT图像和所述正常人CT图像输入到判别器，同时将所述伪正常人CT图像输入到步骤2训练好的分类器中；

生成器的优化目标是真实数据分布和伪数据分布之间的JS散度，当该值足够小时，说明两者的分布近似，即生成器生成的伪正常人CT图像和正常人CT图像具有相同的数据分布，此步要求判别器把输入的伪图像判断为真实图像，即生成器成功的伪造出数据来“欺骗”判别器；

生成器的目标函数由四种误差项构成，通过反向传播算法计算梯度，并使用梯度下降法更新生成器的参数；

步骤34：训练判别器，冻结生成器的参数，在步骤32后，将所述伪正常人CT图像和所述正常人CT图像输入到判别器，与步骤33相反，此步要求判别器对伪造图像判断为假，即判别器能成功的识破生成器的造假行为；

判别器定义为由一组参数

参数化的函数

对于伪正常人CT图像判别器应当将其判断为假，对于正常人CT图像判别器应当判断为真，通过下述公式计算误差，并更新判别器的参数使其能做出更准确的判断；误差计算公式如下：

其中z＝G(x)，其中D,G分别代表生成器和判别器，P_real，P_fake分别代表正常人的分布和生成器生成的伪正常人的分布；

当判别器对于所述伪正常人图像和正常人图像的输出概率达到平衡状态，且分类器对于所述伪正常人图像分类为正常人的概率较高时，表示生成对抗网络训练完成；

步骤4：验证训练好的弱监督定位网络性能，将验证数据集中的病人CT数据输入到训练完成的生成器中，获得其病变区域，具体步骤包括：

步骤41：使用与步骤1中相同的预处理方式处理病人CT数据，然后将其输入到步骤3已经训练完成的生成器中；

步骤42：将生成器的输出叠加到生成器的输入图像上并通过Tanh激活函数限制像素值的范围，然后减去输入图像并取绝对值后便可获得病变区域定位图。

根据一种优选的实施方式，所述方法包括：预处理后的病人胸部CT图像和正常人胸部CT图像分别构成病人数据集和正常人数据集，一次CT扫描图像存成一个文件夹，根据文件名保存对应的标签信息；

预处理包括重采样到固定的分辨率并进行归一化处理使所有数据的像素值范围为-1到1，标签信息为正常人或病人。

根据一种优选的实施方式，步骤22计算误差的方法具体为：使用二分类交叉熵损失函数来计算误差，误差计算公式如下：

CrossEntropy(x,y)＝-[ylogp(x)+(1-y)log(1-p(x))]

x代表输入的图像，y代表其对应的标签信息，病人和正常人的标签信息分别为0和1，p(x)代表分类器输出的x是病人或正常人的概率，当预测值p(x)与标签y相等时，此公式可以得到最小值0，分类器定义为一个由一组参数θ参数化的函数f_θ(x)，该函数使用神经网络来实现。

根据一种优选的实施方式，生成器的目标函数的四种误差项具体如下：

第一误差项为判别器的输出，即伪正常人CT图像和真实正常人CT图像在数据的概率分布上的误差；

第二误差项是分类器的输出，即分类器提取输入数据的高级语义特征并依据这些高级语义特征来判断输入数据是正常人数据的可能性，可以表述成输入分类器的伪正常人CT图像和正常人CT图像之间在高级语义特征上的误差；

第三误差项是在生成器的输入数据和输出的伪正常人CT图像之间施加了1范数的约束来作为重构误差，目的是保证输入和输出的相似性，减少无关区域的噪声表达；

第四误差项是在生成器生成的病变区域图上施加了1范数约束，目的是保证尽量少的病变区域覆盖就可以转化为一个正常人，同样是为了减少无关噪声表达。

根据一种优选的实施方式，步骤42预测病变区域的公式如下：

output＝|Tanh(x+g(x))-x|

其中，x输入生成器的数据，g(x)代表生成器的输出，Tanh激活函数的作用是保证输出图像的像素值在(-1，1)之间以免溢出，output即最后得到的指示病变区域的图像。

本发明的有益效果在于：

1、本发明采用弱监督技术对病变区域进行定位，降低医师对数据进行密集标注的时间和精力成本，提高了疾病诊断效率。传统的医学图像分割的方法需要大量进行手工标注有病变区域的掩膜作为训练数据集。而本发明只需要标注一幅图像是属于病人还是正常人，相对于分割所使用的掩膜、图像级标签提供的信息有限，通过输入病人和正常人的图像，生成器将自动学习两者图像之间的差异，通过差异来定位病变区域。

2、本发明无需对输入图像进行分割、配准等预处理即可实现对病变区域的定位，并比现有技术效果更好，噪声更少。现有基于生成对抗网络的分割方法需要对目标器官进行预分割以消除无关背景区域的干扰。考虑到病人和正常人之间在图像表现上虽然具有差异，但差异部分一般较小，大部分区域并不是病变区域。因此本发明额外引入了输入数据和输出数据之间的重构误差作为损失项来消除无关区域干扰，通过约束输入与输出之间的1范数可以保证两幅图之间的差异尽可能小，通过此项误差来减少无关区域的噪声表达而不需要预分割，提高了分割的效率。

3、本发明通过引入预训练分类器加入到生成对抗网络的训练过程中，使得生成器生成的图像不仅仅近似于正常人图像的数据分布，同时也与正常人图像具有相似的高级语义特征，将分类器的分类结果作为辅助判断而不是提取特征，提高了病变区域的定位精度，也不用要求得到较高分辨率的特征图，降低了图像分割对原始数据的要求。

附图说明

图1是本发明弱监督定位方法的方法流程图；和

图2是本发明和现有技术的实验结果比较图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明使用胸部CT图像，具体针对肺部的病变区域定位。但拥有训练数据集的前提下，也可应用于其他有影像学差异的器官及病理，如心脏，肾脏等疾病。

下面结合附图进行详细说明。

图1是本发明弱监督定位方法的流程图，如图1所示，本发明的弱监督定位方法包括：

步骤1：制作数据集，采集正常人和病人的胸部CT图像并将对其进行预处理，将预处理后的CT扫描图像保存为NPY格式并按比例分为训练数据集和验证数据集；其中，预处理后的病人胸部CT图像和正常人胸部CT图像分别构成病人数据集和正常人数据集，一次CT扫描图像存成一个文件夹，根据文件名保存对应的标签信息。

本发明技术方案中至少需要1000次病人的CT扫描图像以及500次正常人的CT扫描图像来分别构成病人数据集和正常人数据集。

步骤22：将所述特征图经过全局平均池化后通过全连接层，输出所述胸部CT图像为病人或正常人的概率，并根据步骤1制作数据集时已知的标签信息计算误差，具体的，使用二分类交叉熵损失函数来计算误差，误差计算公式如下：

CrossEntropy(x,y)＝-[ylogp(x)+(1-y)log(1-p(x))]

x代表输入的图像，y代表其对应的标签信息，病人和正常人的标签信息分别为0和1，p(x)代表分类器输出的x是病人或正常人的概率。当预测值p(x)与标签y相等时，此公式可以得到最小值0。分类器定义为一个由一组参数θ参数化的函数f_θ(x)，该函数使用神经网络来实现。

依据计算出的误差使用反向传播算法计算出各个参数的梯度并使用梯度下降算法更新神经网络参数，最后得到一个最优的分类器函数f_θ(x)能正确地对输入数据分类。

步骤23：当训练数据集中的所有训练数据迭代一次后，将验证数据集输入到训练完成的分类器中，评估分类器效果，最终保存验证指标(准确率)最高的分类器模型。

步骤3：训练生成对抗网络，所述生成对抗网络包括用于生成伪图像的生成器和用于判别真实图像和伪图像的判别器，还包括步骤2中训练好的分类器；训练方法具体包括：将训练数据集中的病人数据样本输入到生成器，然后将训练数据集中的正常人数据样本和生成器生成的伪图像输入到判别器，同时将生成器生成的伪图像输入到步骤2训练好的分类器，交替训练生成器和判别器。

现有的基于生成对抗网络(GAN)的算法只使用了生成器和判别器两者进行对抗训练，使用判别器来约束生成器生成的数据分布与真实数据分布相似，并使生成器能生成更加真实的伪数据。此方式存在的问题是，即使生成的数据分布已经与真实数据的分布高度相似，但仍然会保留一部分输入的病人的特征。我们的发明通过引入预训练的分类器联合判别器一起对生成器进行约束，判别器与传统的GAN框架一样用来约束伪样本和真实数据具有相同的分布，分类器通过训练可以从高级语义特征来分辨输入数据的类别，以此来约束生成器生成的数据具有更多的正常人的特征也就是变相减少了病人的特征。

具体的训练步骤如下：

步骤31：将训练数据集中的病人CT图像输入到生成器，生成一幅指示病变区域的图像。

步骤32：将生成器生成的病变区域图像叠加到步骤31中的所述病人CT图像上获得类似正常人CT图像的伪正常人CT图像。

步骤33：训练生成器，冻结判别器的参数，将所述伪正常人CT图像和所述正常人CT图像输入到判别器，同时将所述伪正常人CT图像输入到步骤2训练好的分类器中。

生成器的优化目标是真实数据分布和伪数据分布之间的JS散度，当该值足够小时，说明两者的分布近似，即生成器生成的伪正常人CT图像和正常人CT图像具有相同的数据分布，此步要求判别器把输入的伪图像判断为真实图像，即生成器成功的伪造出数据来“欺骗”判别器。

生成器的目标函数由四种误差项构成，具体包括：

第一误差项为判别器的输出，即伪正常人CT图像和真实正常人CT图像在数据的概率分布上的误差。

第二误差项是分类器的输出，即分类器提取输入数据的高级语义特征并依据这些高级语义特征来判断输入数据是正常人数据的可能性，可以表述成输入分类器的伪正常人CT图像和正常人CT图像之间在高级语义特征上的误差。

第三误差项是在生成器的输入数据和输出的伪正常人CT图像之间施加了1范数的约束来作为重构误差，目的是保证输入和输出的相似性，减少无关区域的噪声表达。

最后通过上述四个误差项的总和作为生成器的误差，通过反向传播算法计算梯度，并使用梯度下降法更新生成器的参数。

步骤34：训练判别器，冻结生成器的参数，在步骤32后，将所述伪正常人CT图像和所述正常人CT图像输入到判别器，与步骤33相反，此步要求判别器对伪造图像判断为假，即判别器能成功的识破生成器的造假行为。

判别器定义为由一组参数

参数化的函数

其中z＝G(x)，其中D,G分别代表生成器和判别器，P_real，P_fake分别代表正常人的分布和生成器生成的伪正常人的分布。

当判别器对于所述伪正常人图像和正常人图像的输出概率达到平衡状态，且分类器对于所述伪正常人图像分类为正常人的概率较高时，表示生成对抗网络训练完成。

步骤41：使用与步骤1中相同的预处理方式处理病人CT数据，然后将其输入到步骤3已经训练完成的生成器中。

步骤42：将生成器的输出叠加到生成器的输入图像上并通过Tanh激活函数限制像素值的范围，然后减去输入图像并取绝对值后便可获得病变区域定位图，公式如下：

output＝|Tanh(x+g(x))-x|

表1为采用中国国家生物信息中心公开的胸部CT扫描数据作为数据集，本发明与现有两种方法的实验对比客观评价结果：

表1

方法	归一化互相关(NCC)分数
		CAM	0.1154
VAGAN	0.1066
		本发明方法	0.2033

表1中，归一化互相关分数NCC越高代表预测的病变区域与实际病变区域越相似，在该指标上，本发明的方法性能优于VAGAN与CAM。在最终生成的病变区域图像上也比VAGAN噪声更少。

图2是本发明与现有技术的效果对比图，从图2中可以直观的看出，与现有分割技术相比，本发明提出的方法识别出来的病变区域在结构和形状上更加接近真实病变区域，且存在更少的背景噪声。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于GAN的医学图像病变区域弱监督定位方法，其特征在于，所述方法包括：

步骤2：预训练分类器网络，将训练数据集输入到构建好的分类器网络中进行训练，训练完成后使用验证数据集进行验证，保存验证效果最好的网络模型，该预训练的分类器将作为后续生成对抗网络模型中的关键附加组件；

具体的训练步骤如下：

生成器的优化目标是真实数据分布和伪数据分布之间的JS散度，当所述JS散度足够小时，说明两者的分布近似，即生成器生成的伪正常人CT图像和正常人CT图像具有相同的数据分布，此步要求判别器把输入的伪图像判断为真实图像，即生成器成功的伪造出数据来“欺骗”判别器；

生成器的目标函数的四种误差项具体如下：

第二误差项是分类器的输出，即分类器提取输入数据的高级语义特征并依据这些高级语义特征来判断输入数据是正常人数据的可能性，并表述成输入分类器的伪正常人CT图像和正常人CT图像之间在高级语义特征上的误差；

第四误差项是在生成器生成的病变区域图上施加了1范数约束，目的是保证尽量少的病变区域覆盖就可以转化为一个正常人，同样是为了减少无关噪声表达；

判别器定义为由一组参数

参数化的函数

，对于伪正常人CT图像判别器应当将其判断为假，对于正常人CT图像判别器应当判断为真，通过下述公式计算误差，并更新判别器的参数使其能做出更准确的判断；误差计算公式如下：

其中

，其中D,G分别代表生成器和判别器，

，

分别代表正常人的分布和生成器生成的伪正常人的分布；

当判别器对于所述伪正常人CT图像和正常人CT图像的输出概率达到平衡状态，且分类器对于所述伪正常人CT图像分类为正常人的概率较高时，表示生成对抗网络训练完成；

2.如权利要求1所述的病变区域弱监督定位方法，其特征在于，所述分类器网络的训练方法具体包括：

步骤21：将训练数据集中的胸部CT图像输入到ResNet网络中，提取输入图像的高级语义特征并生成特征图；其中，高级语义特征包括边缘，线条，纹理，颜色人类视觉可以理解的特征以及更为抽象的人类无法理解但机器能做出判断的高级特征；

步骤22：将所述特征图经过全局平均池化后通过全连接层，输出所述胸部CT图像为病人或正常人的概率，并根据步骤1制作数据集时已知的标签信息计算误差，依据计算出的误差使用反向传播算法计算出各个参数的梯度并使用梯度下降算法更新神经网络参数，最后得到一个最优的分类器函数

能正确地对输入数据分类；

3.如权利要求2所述的病变区域弱监督定位方法，其特征在于，所述方法包括：预处理后的病人胸部CT图像和正常人胸部CT图像分别构成病人数据集和正常人数据集，一次CT扫描图像存成一个文件夹，根据文件名保存对应的标签信息；

4.如权利要求3所述的病变区域弱监督定位方法，其特征在于，步骤22计算误差的方法具体为：使用二分类交叉熵损失函数来计算误差，误差计算公式如下：

代表输入的图像，

代表其对应的标签信息，病人和正常人的标签信息分别为0和1，

代表分类器输出的

是病人或正常人的概率，当预测值

与标签

相等时，此公式可以得到最小值0，分类器定义为一个由一组参数

参数化的函数

，该函数使用神经网络来实现。

5.如权利要求4所述的病变区域弱监督定位方法，其特征在于，步骤42预测病变区域的公式如下：

其中，

输入生成器的数据，

代表生成器的输出，Tanh激活函数的作用是保证输出图像的像素值在（-1，1）之间以免溢出，

即最后得到的指示病变区域的图像。