CN109920538B

CN109920538B - 一种基于数据增强的零样本学习方法

Info

Publication number: CN109920538B
Application number: CN201910171535.8A
Authority: CN
Inventors: 罗涛; 郭克华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2022-11-25
Anticipated expiration: 2039-03-07
Also published as: CN109920538A

Abstract

本发明公开了一种基于数据增强的零样本学习方法，画出病灶的轮廓，对轮廓采用形态学操作方法处理病灶轮廓，然后用连续梯度颜色填充方法对病灶填充颜色；使用矩阵线性变换方法丰富填充了颜色的病灶的多样性，生成多张仿真的病灶图片，再使用图像融合技术将仿真病灶图片与疾病背景图片进行融合，对融合后的图片加以高斯白噪声就得到扩充的样本集；用扩充的样本集训练VGG分类器，训练一个最优的分类器；利用所述最优的分类器测试皮肤病病例。本发明有效解决了罕见疾病的零样本学习辅助诊断问题。

Description

一种基于数据增强的零样本学习方法

技术领域

本发明涉及医疗影像辅助诊断领域，特别是一种基于数据增强的零样本学习方法。

背景技术

现阶段医疗资源匮乏，专业医生短缺，医生培养周期长；医疗资源分配不均，大医院人满为患，小医院无人问津。深度学习在医学上的应用，可以帮助医疗欠发达地区和医院开发智能医疗诊断机器人；提供专业而准确的诊断辅助，提高医疗诊断水平，降低误诊率；降低医生的工作压力，提高医务工作者的工作效率。但是目前的医疗影像辅助诊断存在以下问题：现阶段的医疗影像辅助诊断大多为有监督学习，需要收集大量已标注的医疗影像数据去训练模型。但出于保护病人隐私等原因，某些疾病往往收集不到足够的数据去训练模型，尤其是某些罕见疾病更难获得数据，使得传统的有监督学习方法无法在这些疾病辅助诊断上应用。可以用零样本学习解决数据难以收集的问题，但现阶段已有的零样本学习方法在医疗影像上并不适用。

目前零样本学习还是不能摆脱对其他语义信息的依赖：比如标注的属性，或者用词向量去提语义特征。文献[1]在2009年首次提出零样本学习，它是基于属性的，包括直接属性预测和间接属性预测两种模型。基于属性的零样本学习的主要做法是将类别预测转化为属性预测，视觉特征被映射到属性空间，再利用属性空间的最近邻思想实现对未见类的分类。直接属性预测的准确率为40.5％，间接属性预测的准确率为27.8％。文献[2]是一篇零样本学习的综述。文章总结了目前的零样本学习方法，列举了目前的一些公开的零样本学习数据集，指出现有的零样本学习存在域漂移问题并指出未来的研究方向。文献[3]提出了一种用于学习零样本学习无偏嵌入的直接但有效的方法。这种方法假设标注的源数据和未标注的目标数据在模型训练的过程中可以使用。文章提出准全监督学习，将图片映射到语义空间，在语义空间近邻的点属于同一类别。同时文章也指出，大多数现有的零样本学习方法存在着强偏的问题，导致在测试阶段中，在目标数据集中的新类图像倾向于被分到源类当中。

现有的零样本学习技术大多基于属性实现，通过属性预测去实现类别预测，需要事先准备用于属性分类器训练的其他类别图片。即现有零样本学习太依赖语义信息(包括属性等语义信息)，而在医疗影像领域，没办法通过属性预测实现类别预测，基于属性的零样本学习在医疗影像领域并不适用。现有零样本学习技术不符合以下场景中医生对疾病的学习认知过程：专家医生教新手医生识别某种疾病，只需要专家医生画出疾病的大致轮廓和特征，新手医生通过抽象理解就可以分辨实际医疗图像。在这个实际场景中，新手医生并未看到真实的疾病图片，仅根据专家医生对疾病的轮廓等属性的描述就可以对疾病进行辨认，现阶段的零样本学习并不符合新手医生对疾病的学习认知过程。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于数据增强的零样本学习方法，

为解决上述技术问题，本发明所采用的技术方案是：一种基于数据增强的零样本学习方法，包括以下步骤：

1)画出病灶的轮廓，对轮廓采用形态学操作中的闭运算处理，即对轮廓先膨胀后腐蚀，使得病灶轮廓连续且封闭；

2)用连续梯度颜色填充方法对病灶填充颜色：在轮廓的几何中心M处选择填充颜色，在填充了颜色的轮廓上任意取一点A，A点的颜色填充为待融合时背景图片上该点处的颜色，连接几何中心M与A，在线段MA上每一点填充的颜色RGB像素值随与M点的距离均匀变化，越靠近M的点RGB像素值越接近M的像素值；

3)使用矩阵线性变换方法丰富填充了颜色的病灶的多样性，生成多张仿真病灶图片；

4)使用图像融合技术将仿真病灶图片与疾病背景图片进行融合：先用仿真病灶图片覆盖在背景图片上，然后将轮廓周围3个像素范围内像素点改为病灶颜色和背景图片颜色的平均值，最后对融合后的图片加以高斯白噪声就得到扩充的样本集；

5)用扩充的样本集训练VGG分类器，训练一个最优的分类器；

6)利用所述最优的分类器测试皮肤病病例，判断测试准确率是否达到阈值，若是，则结束；否则，返回步骤2)。

步骤1)中，搭建Python环境，利用Python的Pyqt5包进行交互界面设计，所述交互界面包括皮肤病的选择、皮肤病背景图片选择、病灶轮廓的描绘、批量生成扩充样本集、扩充样本集的训练、实际皮肤病的病例分类测试六个部分；在所述就界面上选择疾病名称、疾病背景图片，画出病灶的轮廓。

步骤4)中，使用经典的卷积神经网络结构VGG作为分类器，设置卷积神经网络每个超参数取不同的值，训练出多个分类器，根据分类器对真实疾病图片的分类正确率，选取正确率最高的超参数作为最终的超参数，利用最终的超参数，训练得到最优的分类器；所述超参数包括迭代次数、学习率。

所述阈值为0.80。

与现有技术相比，本发明所具有的有益效果为：本发明利用图像融合以及形态学变换等操作，得到扩充后的疾病数据集；利用扩充后的数据集训练一个能对疾病分类的分类器；将训练好的分类器用于实际的医疗影像图片。经过实验证明，经过数据增强后的数据集训练出的深度学习模型，可以很好地对真实医疗图片进行分类，有效解决了罕见疾病的零样本学习辅助诊断问题。

附图说明

图1为本发明方法流程图；

图2为本发明选择背景图片示意图；

图3为本发明画出病灶范围示意图；

图4为本发明画出病灶的轮廓示意图；

图5为本发明生成训练集图片示意图；

具体实施方式

结合传统医疗影像诊断过程和深度学习技术特点，本发明采用tensorflow框架，利用数据增强技术，将专家医生对罕见疾病的特征描绘图与背景图片融合，批量生成医疗影像图片作为训练样本，并放在深度卷积神经网络模型中训练，得到相对应疾病的医疗诊断模型，最后将诊断模型用于真实的医疗影像图片病例分类。

本发明最重要的数据增强部分在医生交互界面模块。医生交互界面模块包括疾病背景图片选择、病灶范围的选择、病灶轮廓的描绘、病灶中心颜色的选取、批量生成扩充样本集、扩充样本集的训练、实际皮肤病的病例分类七个部分。

具体的技术分为以下三个部分：

1)数据增强：基于用户交互与图像融合的零样本学习数据增强技术

首先，搭建Python环境，利用Python的Pyqt5包进行交互界面设计。医生交互界面模块包括皮肤病的选择、皮肤病背景图片选择、病灶轮廓的描绘、批量生成扩充样本集、扩充样本集的训练、实际皮肤病的病例分类测试六个部分。每个部分都有对应的控件以及事件响应。在医生选择疾病名称、疾病背景图片之后，医生画出病灶的轮廓，对轮廓采用OpenCV中的形态学操作方法处理病灶轮廓，然后用连续梯度颜色填充方法对病灶填充颜色，再使用矩阵线性变换方法丰富病灶的多样性，就可以生成多张仿真的病灶图片，再使用图像融合技术将仿真病灶图片与疾病背景图片进行融合，最后为增强模型的鲁棒性，对融合后的图片加以高斯白噪声就得到扩充的样本集。

2)学习：面向深度卷积神经网络的扩充样本集特征学习

在得到数据增强后的扩充样本集后，需要设计一个深度卷积网络训练一个对疾病进行诊断的分类器。使用Python语言的TensorFlow框架构建深度学习环境，使用经典的卷积神经网络结构VGG作为分类器，利用预训练权重初始化网络参数，达到迁移学习的目的。用扩充的样本集去训练VGG分类器，使得分类器对扩充的样本集可以正确分类，学习到了扩充样本集的特征。但神经网络有一些人为设置的参数(称为超参数)，比如迭代次数、学习率等。不同的超参数取值，训练出来的分类器是有差别的。超参数合适的取值才能有利于分类器对疾病的分类。为了探索合适的超参数取值，我们设置每个超参数取不同的值，训练出多个分类器，根据分类器对真实疾病图片的分类正确率，选取正确率最高的超参数作为最终的超参数。最后利用挑选的超参数，训练一个最优的分类器。

3)病例分类：面向皮肤病医疗影像的病例分类方法研究

利用中南大学湘雅医院提供的数据：毛囊虫、扁平疣等皮肤病医疗影像数据，先用数据增强得到扩充后的样本集，再用样本集训练卷积网络分类器，最后用分类器测试真实的皮肤病病例，根据多个评价指标对测试结果分析并反思改进数据增强的方法以达到更好测试效果。对于毛囊虫这种皮肤病，一共收集到240张无毛囊虫的CT图片和248张有毛囊虫的CT图片。先从无毛囊虫的CT图片中选取一张包含毛囊的图片作为背景图片，让医生在背景图片上画出毛囊虫的轮廓等特征，再用数据增强方法得到500张有毛囊虫的仿真图片和500张无毛囊虫的仿真图片，将这1000张仿真图片作为扩充样本集去训练卷积神经网络，最后将卷积神经网络对240张无毛囊虫的CT和248张有毛囊虫的CT图片进行测试，对测试准确率进行分析。

参考文献：

[1]Lampert C H,Nickisch H,Harmeling S.Learning to detect unseenobject classes by between-class attribute transfer.In Computer Vision andPattern Recognition,2009.

[2]Fu Y,Xiang T,Jiang Y G,et al.Recent Advances in Zero-shotRecognition.In Computer Vision and Pattern Recognition,2017.

[3]Song J,Shen C,Yang Y,et al.Transductive Unbiased Embedding forZero-Shot Learning.In Computer Vision and Pattern Recognition,2018.

[4]Sung F,Yang Y,Zhang L,et al.Learning to Compare:Relation Networkfor Few-Shot Learning.In Computer Vision and Pattern Recognition,2017.

[5]Kodirov E,Xiang T,Gong S,et al.Semantic Autoencoder for Zero-ShotLearning.In Computer Vision and Pattern Recognition,2017.

Claims

1.一种基于数据增强的零样本学习方法，其特征在于，包括以下步骤：

2)用连续梯度颜色填充方法对病灶填充颜色：在轮廓的几何中心M处选择填充颜色，在填充了颜色的轮廓上任意取一点A，A点的颜色填充为待融合时背景图片上该点处的颜色；

5)用扩充的样本集训练VGG分类器，训练一个最优的分类器；

2.根据权利要求1所述的基于数据增强的零样本学习方法，其特征在于，步骤1)中，搭建Python环境，利用Python的Pyqt5包进行交互界面设计，所述交互界面包括皮肤病的选择、皮肤病背景图片选择、病灶轮廓的描绘、批量生成扩充样本集、扩充样本集的训练、实际皮肤病的病例分类测试六个部分；在所述交互界面上选择疾病名称、疾病背景图片，画出病灶的轮廓。

3.根据权利要求1所述的基于数据增强的零样本学习方法，其特征在于，步骤4)中，使用经典的卷积神经网络结构VGG作为分类器，设置卷积神经网络每个超参数取不同的值，训练出多个分类器，根据分类器对真实疾病图片的分类正确率，选取正确率最高的超参数作为最终的超参数，利用最终的超参数，训练得到最优的分类器；所述超参数包括迭代次数、学习率。

4.根据权利要求1所述的基于数据增强的零样本学习方法，其特征在于，所述阈值为0.80。