CN108492873B

CN108492873B - 一种用于辅助诊断阿兹海默症的知识迁移学习方法

Info

Publication number: CN108492873B
Application number: CN201810204007.3A
Authority: CN
Inventors: 吴强; 顾久驭; 刘琚; 孔祥茂
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2021-03-16
Anticipated expiration: 2038-03-13
Also published as: CN108492873A

Abstract

本发明公开了一种基于辅助域迁移学习诊断阿兹海默症的方法。通过将医学影像与自然图像聚类，得到自然图像数据集的一个子集，这个子集中的自然图像的“距离”与医学影像更近，用它们训练网络可以使CNN间接学习到医学影像的特征，再通过迁移学习的方式训练医学影像数据，提高了CNN自动识别阿兹海默症的精度。本发明使用OASIS数据集作为AD数据集，ImageNet数据集作为自然图像数据集完成了实验，并做了5次交叉验证。与直接训练CNN和使用SVM分类器等方法比较后，本发明提出的方法的准确率有明显提升，表明本发明提出的方法是有效的，并可以可解决传统深度学习中训练速度慢，大量消耗计算资源，容易过拟合等问题。

Description

一种用于辅助诊断阿兹海默症的知识迁移学习方法

技术领域

本发明设计了一种用于辅助诊断阿兹海默症的知识迁移学习方法，属于医学影像处理领域。

背景技术

阿兹海默症(Alzheimer's disease，AD)是一种常见的老年病，会导致记忆、思维和行为方面的问题，具体表现在记忆和其他认知能力丧失，对患者的生活产生很大影响。已知导致阿兹海默症的最大因素是衰老，随着时间的推移，患者的病情会逐渐加重并最终导致死亡。阿兹海默症的尽早确诊对病人护理有重要作用，可以提高治愈机率。阿兹海默症患者的脑部磁共振影像是一种有效的临床诊断手段。

近年来，卷积神经网络(Convolutive Neural Netowrk,CNN)在计算机视觉领域获得了巨大成功，在医学影像分析领域也有广泛的应用。CNN的强大之处在于更深的网络结构能够提取大量抽象特征，但是从头训练一个CNN十分消耗时间和计算资源。首先，训练CNN需要大量有标签的数据，这些标签很难获得，尤其在医学影像处理领域，这些标签需要耗费专业医师大量时间进行标注，并且相关病理的数量稀少。训练一个深度卷积神经网络经常会遇到过拟合和损失函数不收敛等问题，解决方法是反复调整网络结构和学习参数，这需要大量的计算资源和内存/显存资源，而且极其耗费时间。

为加快CNN训练速度，目前在医学影像分类问题中通常采用的做法是用自然图像数据集上训练得到的参数直接初始化CNN，但医学影像和自然图像之间差异巨大，直接在两者直接做知识迁移导致CNN分类准确率不能得到保障，且后期微调CNN工作繁重。

发明内容

本发明针对上述问题提出一种新的解决方案：先将自然图像数据集与医学影像数据集聚类，得到一个自然图像数据集的子集，这个子集中的自然图像与医学影像“距离”更近，因此用子集训练CNN更有针对性，CNN能间接学习到医学影像的特征，然后再用医学影像微调CNN。这样做的分类效果比直接做知识迁移的分类效果好。

本发明提出了一种用于辅助诊断阿兹海默症的知识迁移学习方法，在自然图像与医学影像之间聚类形成一个相关度高的自然图像子集，利用该子集做医学影像的迁移学习。该方法首先利用AD数据集与自然图像数据集做聚类，选出与AD影像“距离”相近的自然图像，用这部分自然图像微调VGG16网络，把网络中的卷积-池化层对的参数保留下来，用这些参数初始化CNN分类AD影像，并经过交叉验证得到实验结果。

本发明的技术方案如下：

一种用于辅助诊断阿兹海默症AD的知识迁移学习方法，包括以下步骤：

(一)数据预处理：将AD数据集中的AD图像进行下采样，保持图像高度和宽度不变，使其通道数降为3，以适应VGG16卷积神经网络输入数据的格式；

(二)聚类：

(1)取自然图像数据集的前N类图像，将此N类自然图像的高度和宽度调整成与AD图像相同；

(2)降维：为了有效提取特征得到最好的聚类效果，采用自编码器进行特征降维，假设AD图像的宽度为w、高度为h、通道数为c则自编码器的输入输出大小均为w*h*c，中间层大小为2*2*1，将AD图像和自然图像送入自编码器，利用自编码器提取它们的4维特征向量；

(3)聚类：得到AD图像和自然图像的特征向量后，用KMeans算法将AD图像和自然图像的特征向量聚为2类，统计每个AD图像得到的类别标签，将大多数AD图像得到的类别标签作为所有AD图像的类别标签，将自然图像中得到的类别标签与AD图像的类别标签一致的自然图像选取出来，构成原自然图像数据集的一个子集；

(三)自然图像的迁移学习:更改VGG16网络的全连接层和输出层，将输出层神经元个数改为N，变成一个N类的分类网络，利用上一步得到的类别标签与AD图像的类别标签一致的自然图像数据集的子集训练该分类网络，并将学习到的卷积—池化层对的参数保留下来；

(四)AD图像的迁移学习：修改VGG16网络的全连接层和输出层，将输出层神经元个数改为2，同时增加Dropout层防止过拟合，重构一个2分类的卷积神经网络，用步骤(三)中保留的参数初始化该2分类卷积神经网络中的卷积—池化层对，训练该2分类网络，用训练好的该网络对AD图像进行2分类，通过分类结果判断病人是否患有AD。

为了更好地评估训练出来模型的准确率，采用交叉验证。与直接训练CNN和使用SVM分类器对降维后的AD数据分类两种方法相比，本发明提出的方法的准确率有明显提升，且模型收敛更快。利用本发明方法得到的验证集准确率达到91.84±3.26％。未采用知识迁移方法而直接训练CNN的方法得到的验证集准确率为87.36±1.63％，将数据降维后用SVM分类器分类的平均准确率为54.02±3.41％。

附图说明

图1是本发明基于的辅助域迁移学习的医学影像分类系统结构图。

具体实施方式

我们使用OASIS数据集作为AD数据集，ImageNet数据集作为自然图像数据集完成了实验，并做了5次交叉验证。下面结合实验和图1对本发明做进一步说明。

(一)数据预处理：假设AD数据集中样本大小均为w*h*c，其中w、h、c分别代指医学影像的宽度、高度、通道数，首先将AD数据集中w*h*c大小的三维脑部磁共振影像调整大小成w*h*3，把医学影像的通道数下采样到3是为了使数据格式符合VGG16网络输入数据格式的要求，然后根据每个病人对应的说明文件中CDR值判断病人是否患有阿尔茨海默病，CDR值为0.5和1的判为阳性，数据缺失(为空)和为0的全部判为阴性，缺失数据的是年轻患者的样本，不可能患有阿尔茨海默病，故判别为阴性，这样就是一个二分类问题。通过预处理磁共振影像将分散的医学影像和影像对应的标签信息处理成CSV格式的统计文件，为下一步聚类和迁移学习做准备。

(二)聚类:将预处理过的AD数据集和自然图像数据集的前N类数据做聚类，在实验中本发明取N为100。将自然图像数据集前N类的数据调整宽度和高度，预处理成和医学影像一样的w*h*3大小。

(1)降维：为了有效提取特征得到最好的聚类效果，采用自编码器进行特征降维，自编码器的输入输出大小均为w*h*c，中间层大小为2*2*1，将AD数据和自然图像送入自编码器，利用自编码器提取它们的4维特征向量。

(2)聚类：得到AD数据和自然图像的特征向量后，用KMeans算法将AD数据和自然图像的特征向量聚为2类。统计AD数据中每个样本得到的标签，若大部分样本得到的标签为0，则将0作为AD数据的标签，反之亦然。将自然图像数据集中标签与AD数据一致的样本选取出来，得到原自然图像数据集的一个子集。

(三)自然图像的迁移学习：更改VGG16网络的全连接层和输出层，将输出层神经元改为N，变成一个N类的分类网络，本发明中取N为100，利用上一步得到的自然图像数据集的子集训练该网络，并将网络学习到的卷积—池化层对的参数保留下来，用于训练AD影像时初始化2分类CNN的卷积—池化层对的参数。

(四)医学影像的迁移学习：修改VGG16网络结构，更改全连接层和输出层，将输出层神经元个数改为2，同时增加Dropout层防止过拟合，重构一个2分类的CNN。步骤(三)中的CNN已经通过自然图像数据集的子集间接学习到了医学影像的大量特征，用步骤(三)中保留的参数初始化2分类CNN中的卷积—池化层对，训练2分类CNN，并将AD数据集打乱后分成Z份，每次取(Z-1)份做训练，1份做验证，做Z次交叉验证，得到最终实验结果，本发明中取Z为5进行实验。

Claims

1.一种用于辅助诊断阿兹海默症AD的知识迁移学习方法，包括以下步骤：

(二)聚类：