CN108763874A

CN108763874A - 一种基于生成对抗网络的染色体分类方法及装置

Info

Publication number: CN108763874A
Application number: CN201810545914.4A
Authority: CN
Inventors: 路通; 岳义盛; 巫义锐
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-11-06

Abstract

本发明提出一种基于生成对抗网络的染色体分类方法，所述方法包括：将染色体样本图像利用生成对抗网络进行数据扩充得到染色体模拟图像，利用染色体样本图像和/或染色体模拟图像训练分类器，并根据所述分类器进行染色体分类，所述生成对抗网络的输入为：染色体样本图像数据和多维向量数据；其中，所述多维向量数据包括一组多分布生成的随机向量和一组用于表示染色体类别的特征向量；所述特征向量的维度与染色体样本图像中染色体类别数量一致。使用多个分布的随机生成数据代替原始的单一分布随机数据来训练生成对抗网络，生成对抗网络对原有少量染色体图像数据进行数据增强，然后使用增强后的数据训练分类器，从而提高染色体分类的准确率。

Description

一种基于生成对抗网络的染色体分类方法及装置

技术领域

本发明属于机器学习技术领域，尤其涉及一种基于生成对抗网络的染色体分类方法及装置。

背景技术

人体染色体的分类和识别是医学遗传学中的一项重要任务。但人体染色体分类任务需要大量的专家经验和数据标注才能得到比较好的效果。人体染色体组主要分为23对染色体信息，其图像往往是弯曲、不规则或重叠的。而且染色体数据属于个人隐私数据，往往难以收集，数据量小。如何高效的对染色体进行分类一直是个难题，即使是经验丰富的专家往往也需要花费大量的时间经验对染色体进行分类。

现有对染色体进行分类的方法往往都是采用深度学习方法，对染色体数据进行分类。但是这些方法往往需要大量的染色体标注数据，而标注好的染色体图像数据涉及到个人隐私数据，因此往往很难获得。若只使用少量数据则很难实现染色体的多分类问题。

对于少量数据下进行分类问题，数据增强是一个常用手段。数据增强是指通过一定的技术手段产生出类似于原始数据的新数据。但是染色体图像多样而且敏感，传统的裁剪、缩放等数据增强方式不适合对于其进行数据增强。而生成对抗网络能够根据已有样本数据生成新的同类型样本，并且越来越多的被用做数据增强的手段。但是生成对抗网络也存在容易模型崩溃、训练困难等问题。

鉴于染色体数据敏感且获取困难、数据增强不易等问题，需要一种能够实现在少量样本情况下，实现染色体数据的新分类。

发明内容

本发明所要解决的技术问题是针对上述现有技术存在的不足，提供一种能够在少量样本情况下，对染色体进行分类的方法。从而达到不需要大量隐私样本数据，就能实现对于染色体类别的确定。

为解决上述技术问题，本发提出一种基于生成对抗网络的染色体分类方法，所述方法包括：将染色体样本图像利用生成对抗网络进行数据扩充得到染色体模拟图像，利用染色体样本图像和/或染色体模拟图像训练分类器，并根据所述分类器进行染色体分类，所述生成对抗网络的输入为：染色体样本图像数据和多维向量数据；其中，所述多维向量数据包括一组随机向量和一组用于表示染色体类别的特征向量；所述特征向量的维度与染色体样本图像中染色体类别数量一致。

作为本发明的一种优选技术方案：所述多维向量数据由高斯混合模型生成。

作为本发明的一种优选技术方案：所述生成对抗网络包括生成器和判别器，所述生成器和判别器交错训练。

作为本发明的一种优选技术方案：采用迁移学习的方法训练所述分类器，具体为：

获取ImageNet大型自然图像数据集上训练的VGG16网络作为预训练网络；

利用染色体模拟图像数据训练所述预训练网络的特定层，更新特定层的权重。

本发明还提出一种基于生成对抗网络的染色体分类装置，所述装置包括：

数据获取模块，用于获取染色体样本图像数据，所述样本图像数据包括不同染色体类别；

数据增强模块，用于将所述样本图像数据和多维向量数据输入生成对抗网络进行训练，得到对应染色体类别的染色体模拟图像数据；其中，所述多维向量数据包括一组随机向量和一组用于表示染色体类别的特征向量；所述特征向量的维度与染色体样本图像中染色体类别数量一致；

分类器模块，利用所述染色体样本图像和/或染色体模拟图像训练的分类器进行染色体分类。

本发明对原始生成对抗网络模型进行改进，提出使用多个分布的随机生成数据代替原始的单一分布随机数据，生成对抗网络对原有少量染色体图像数据进行数据增强，然后使用增强后的数据训练分类器，从而提高染色体分类的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是算法流程示意图；

图2是生成对抗网络的网络结构图；

图3是部分真实染色体图像样例；

图4为生成对抗网络中生成器生成的染色体图像。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面结合附图对本发明的技术方案进行详细说明：

步骤1，收集少量染色体标注图像数据，并对其进行预处理：

收集了226个人的染色体数据，每个人的染色体数据包括包含46张图片，分别对应23对不同的染色体。因为染色体的原始图片规格大小并不统一，先将其扩充边缘到正方形，然后再将其大小变换到224x224，使其具有相同的大小，便于后边训练数据。处理后的图像数据如图3所示。需要注意的是，尽管人体有23对染色体，但第23对染色体男性为XY，女性为XX，所以实际上人体内有24种类别的染色体信息。

步骤2，使用收集的少量标注数据训练生成对抗网络：

生成对抗网络由两部分组成，一部分是生成器，另一部分是判别器，目的是使生成器生成的图片接近真实图片。其生成器结构如表1所示，判别器结构如表2所示。

表1生成器网络结构

网络类型	输入维度	输出维度	卷积核大小	步长	边距
						全连接	88	4096	-	-	-
转置卷积层	256	128	6	2	2
						转置卷积层	128	64	6	2	2
转置卷积层	64	32	6	2	2
						转置卷积层	32	32	6	2	2
转置卷积层	32	16	6	2	2
						转置卷积层	16	3	6	2	18

表2判别器网络结构

网络类型	输入维度	输出维度	卷积核大小	步长	边距
						卷积层	27	64	5	5	2
卷积层	64	128	5	2	2
						卷积层	128	256	5	2	2
卷积层	256	256	5	2	2
						卷积层	256	256	5	2	2
全连接	4096	1	-	-	-

现有的生成对抗网络中，生成器输入的是一个单一随机分布生成的数据，然后输出一个图像数据。相当于是将一个高维空间向量与一个对应图像建立映射关系。但当图像数据集较复杂时，如有多个染色体类别的染色体图像数据，单一分布的随机输入数据并不能很好表达需要生成的数据。因此使用多分布随机生成向量作为生成器的输入向量，使生成器能够更好的表达图像信息，增加生成器生成样本的质量。

生成器的输入是一个88维度的向量，其中64维为一个使用高斯混合模型生成的随机向量，剩余的24维为一个one-hot向量，用于表示要生成的染色体图像类别，如果是第n类的染色体类别，则第n位为1，其余23位都为0。然后通过一系列卷积，生成一个224x224大小的图像。其中每一层转置卷积后面跟一个batchnormalization操作，中间每一层使用relu函数作为激活函数，最后一层使用sigmoid函数作为激活函数。最后生成一个224x224的值范围为0到1之间矩阵，并通过乘以256得到生成的染色体图像。

判别器输入的是一个224x224x27维的矩阵，其中224x224x3维的矩阵为染色体图像数据，其余的224x224x24维矩阵为一个1x1x24维的onehot特征向量填充到224x224x24的对应矩阵，用于表示输入的染色体数据类型。通过一系列卷积操作，最后得到一个4096维的特征向量，然后通过一个全连接层输出一个1维特征，表示特征的真实程度。其中全连接层每一层后面跟一个batchnormalization操作，并且采用leaky relu函数作为激活函数。最后的全连接层采用sigmoid函数作为激活函数。

训练过程是生成器和判别器交错训练，达到生成器生成的图像接近真实图像的效果。训练判别器时，将生成器生成的图片和真实图像数据以前送入判别器，提高判别器的分辨能力，使其对真实数据输出接近1，模拟数据接近0。训练生成器时，只将生成器生成的结果输入到判别器，并根据判别器输出的结果更新生成器，使得判别器的输出值接近1，从而提高生成器生成图片的质量。生成器和判别器交错训练，最后得到使得生成器生成的图片趋向于真实图像。

步骤3：使用生成对抗网络生成的数据训练染色体分类器：

使用步骤2中训练好的生成器生成新的染色体图片数据作为染色体模拟图像，如图4所示，其中(a)～(f)的染色体类别分别对应于图3中(a)～(f)的染色体类别，染色体模拟图像用于染色体分类器的新的训练数据，从而起到了扩充数据集的效果，使得能够在少量数据样本条件下，达到提高染色体分类器识别率的效果。

在训练染色体分类器时，使用了vgg16网络作为分类器的网络结构。Vgg16是一个比较大的网络，训练起来比较耗时。为了节省时间提高效率，使用了迁移学习加速了网络的训练过程。

Vgg16网络结构是2015年google提出的一个比较成熟的网络结构，其结构是通过一系列卷积、池化、全连接操作对物体进行分类。对一个完整的vgg16网络从头开始训练需要耗费大量的时间与精力，而且这是一个要在大规模数据集上训练的过程。因此，使用在imagenet数据集上训练好的vgg16网络作为的预训练网络。然后在这个预训练网络的基础上，使用的染色体数据集只训练网络结构的最后两层，从而加速其训练过程。相当于网络的底层特征不变，只改变高层特征用于表示染色体图像数据。通过这种方式，实现在相对小规模的染色体数据集上实现分类效果。

步骤4：测试分类器

对步骤3中训练好的分类器，使用真实的染色体数据进行测试，求得其准确率。

实施例包括以下部分：

1.染色体图像数据集

本实例的数据集是个人收集的染色体标注数据。其中染色体数据有24中、种类别，男性为22+XY，女性为22+XX。数据一共收集了345个人的染色体信息，使用其中的226个人的数据作为训练集，剩下的119个人的数据作为测试集。

2.实验

使用数据集中226个人的数据作为训练集，剩下的119个人的作为测试集，然后通过提出的算法进行训练。结果如表3所示。其中，表头P⁴P¹⁸P²²P^T分别代表第四类染色体、第18类染色体、第22类染色体和全部类别染色体的分类准确率。方法部分分别是全部原始数据训练和原始数据与50、150、250新生成数据混合后一起训练的结果。通过表可以看出，将原有数据与数据增强后的新数据相结合，能搞明显提高染色体分类的准确率。

表3

方法	P⁴	P¹⁸	P²²	P^T
					原始数据	0.684	0.600	0.600	0.589
原始数据+50生成数据	0.696	0.720	0.625	0.635
					原始数据+150生成数据	0.867	0.708	0.533	0.628
原始数据+250生成数据	0.636	0.600	0.500	0.605

Claims

1.一种基于生成对抗网络的染色体分类方法，所述方法包括：将染色体样本图像利用生成对抗网络进行数据扩充得到染色体模拟图像，利用染色体样本图像和/或染色体模拟图像训练分类器，并根据所述分类器进行染色体分类，其特征在于，所述生成对抗网络的输入为：染色体样本图像数据和多维向量数据；其中，所述多维向量数据包括一组多分布生成的随机向量和一组用于表示染色体类别的特征向量；所述特征向量的维度与染色体样本图像中染色体类别数量一致。

2.根据权利要求1所述的基于生成对抗网络的染色体分类方法，其特征在于，所述多维向量数据由高斯混合模型生成。

3.根据权利要求1所述的基于生成对抗网络的染色体分类方法，其特征在于，所述生成对抗网络包括生成器和判别器，所述生成器和判别器交错训练。

4.根据权利要求1所述的基于生成对抗网络的染色体分类方法，其特征在于，采用迁移学习的方法训练所述分类器，具体为：

5.一种基于生成对抗网络的染色体分类装置，其特征在于，所述装置包括：

数据增强模块，用于将所述样本图像数据和多维向量数据输入生成对抗网络进行训练，得到对应染色体类别的染色体模拟图像数据；其中，所述多维向量数据包括一组多分布生成的随机向量和一组用于表示染色体类别的特征向量；所述特征向量的维度与染色体样本图像中染色体类别数量一致；