CN108763874A - 一种基于生成对抗网络的染色体分类方法及装置 - Google Patents

一种基于生成对抗网络的染色体分类方法及装置 Download PDF

Info

Publication number
CN108763874A
CN108763874A CN201810545914.4A CN201810545914A CN108763874A CN 108763874 A CN108763874 A CN 108763874A CN 201810545914 A CN201810545914 A CN 201810545914A CN 108763874 A CN108763874 A CN 108763874A
Authority
CN
China
Prior art keywords
chromosome
data
confrontation network
vector
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810545914.4A
Other languages
English (en)
Inventor
路通
岳义盛
巫义锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201810545914.4A priority Critical patent/CN108763874A/zh
Publication of CN108763874A publication Critical patent/CN108763874A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提出一种基于生成对抗网络的染色体分类方法,所述方法包括:将染色体样本图像利用生成对抗网络进行数据扩充得到染色体模拟图像,利用染色体样本图像和/或染色体模拟图像训练分类器,并根据所述分类器进行染色体分类,所述生成对抗网络的输入为:染色体样本图像数据和多维向量数据;其中,所述多维向量数据包括一组多分布生成的随机向量和一组用于表示染色体类别的特征向量;所述特征向量的维度与染色体样本图像中染色体类别数量一致。使用多个分布的随机生成数据代替原始的单一分布随机数据来训练生成对抗网络,生成对抗网络对原有少量染色体图像数据进行数据增强,然后使用增强后的数据训练分类器,从而提高染色体分类的准确率。

Description

一种基于生成对抗网络的染色体分类方法及装置
技术领域
本发明属于机器学习技术领域,尤其涉及一种基于生成对抗网络的染色体分类方法及装置。
背景技术
人体染色体的分类和识别是医学遗传学中的一项重要任务。但人体染色体分类任务需要大量的专家经验和数据标注才能得到比较好的效果。人体染色体组主要分为23对染色体信息,其图像往往是弯曲、不规则或重叠的。而且染色体数据属于个人隐私数据,往往难以收集,数据量小。如何高效的对染色体进行分类一直是个难题,即使是经验丰富的专家往往也需要花费大量的时间经验对染色体进行分类。
现有对染色体进行分类的方法往往都是采用深度学习方法,对染色体数据进行分类。但是这些方法往往需要大量的染色体标注数据,而标注好的染色体图像数据涉及到个人隐私数据,因此往往很难获得。若只使用少量数据则很难实现染色体的多分类问题。
对于少量数据下进行分类问题,数据增强是一个常用手段。数据增强是指通过一定的技术手段产生出类似于原始数据的新数据。但是染色体图像多样而且敏感,传统的裁剪、缩放等数据增强方式不适合对于其进行数据增强。而生成对抗网络能够根据已有样本数据生成新的同类型样本,并且越来越多的被用做数据增强的手段。但是生成对抗网络也存在容易模型崩溃、训练困难等问题。
鉴于染色体数据敏感且获取困难、数据增强不易等问题,需要一种能够实现在少量样本情况下,实现染色体数据的新分类。
发明内容
本发明所要解决的技术问题是针对上述现有技术存在的不足,提供一种能够在少量样本情况下,对染色体进行分类的方法。从而达到不需要大量隐私样本数据,就能实现对于染色体类别的确定。
为解决上述技术问题,本发提出一种基于生成对抗网络的染色体分类方法,所述方法包括:将染色体样本图像利用生成对抗网络进行数据扩充得到染色体模拟图像,利用染色体样本图像和/或染色体模拟图像训练分类器,并根据所述分类器进行染色体分类,所述生成对抗网络的输入为:染色体样本图像数据和多维向量数据;其中,所述多维向量数据包括一组随机向量和一组用于表示染色体类别的特征向量;所述特征向量的维度与染色体样本图像中染色体类别数量一致。
作为本发明的一种优选技术方案:所述多维向量数据由高斯混合模型生成。
作为本发明的一种优选技术方案:所述生成对抗网络包括生成器和判别器,所述生成器和判别器交错训练。
作为本发明的一种优选技术方案:采用迁移学习的方法训练所述分类器,具体为:
获取ImageNet大型自然图像数据集上训练的VGG16网络作为预训练网络;
利用染色体模拟图像数据训练所述预训练网络的特定层,更新特定层的权重。
本发明还提出一种基于生成对抗网络的染色体分类装置,所述装置包括:
数据获取模块,用于获取染色体样本图像数据,所述样本图像数据包括不同染色体类别;
数据增强模块,用于将所述样本图像数据和多维向量数据输入生成对抗网络进行训练,得到对应染色体类别的染色体模拟图像数据;其中,所述多维向量数据包括一组随机向量和一组用于表示染色体类别的特征向量;所述特征向量的维度与染色体样本图像中染色体类别数量一致;
分类器模块,利用所述染色体样本图像和/或染色体模拟图像训练的分类器进行染色体分类。
本发明对原始生成对抗网络模型进行改进,提出使用多个分布的随机生成数据代替原始的单一分布随机数据,生成对抗网络对原有少量染色体图像数据进行数据增强,然后使用增强后的数据训练分类器,从而提高染色体分类的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1是算法流程示意图;
图2是生成对抗网络的网络结构图;
图3是部分真实染色体图像样例;
图4为生成对抗网络中生成器生成的染色体图像。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面结合附图对本发明的技术方案进行详细说明:
步骤1,收集少量染色体标注图像数据,并对其进行预处理:
收集了226个人的染色体数据,每个人的染色体数据包括包含46张图片,分别对应23对不同的染色体。因为染色体的原始图片规格大小并不统一,先将其扩充边缘到正方形,然后再将其大小变换到224x224,使其具有相同的大小,便于后边训练数据。处理后的图像数据如图3所示。需要注意的是,尽管人体有23对染色体,但第23对染色体男性为XY,女性为XX,所以实际上人体内有24种类别的染色体信息。
步骤2,使用收集的少量标注数据训练生成对抗网络:
生成对抗网络由两部分组成,一部分是生成器,另一部分是判别器,目的是使生成器生成的图片接近真实图片。其生成器结构如表1所示,判别器结构如表2所示。
表1生成器网络结构
网络类型 输入维度 输出维度 卷积核大小 步长 边距
全连接 88 4096 - - -
转置卷积层 256 128 6 2 2
转置卷积层 128 64 6 2 2
转置卷积层 64 32 6 2 2
转置卷积层 32 32 6 2 2
转置卷积层 32 16 6 2 2
转置卷积层 16 3 6 2 18
表2判别器网络结构
网络类型 输入维度 输出维度 卷积核大小 步长 边距
卷积层 27 64 5 5 2
卷积层 64 128 5 2 2
卷积层 128 256 5 2 2
卷积层 256 256 5 2 2
卷积层 256 256 5 2 2
全连接 4096 1 - - -
现有的生成对抗网络中,生成器输入的是一个单一随机分布生成的数据,然后输出一个图像数据。相当于是将一个高维空间向量与一个对应图像建立映射关系。但当图像数据集较复杂时,如有多个染色体类别的染色体图像数据,单一分布的随机输入数据并不能很好表达需要生成的数据。因此使用多分布随机生成向量作为生成器的输入向量,使生成器能够更好的表达图像信息,增加生成器生成样本的质量。
生成器的输入是一个88维度的向量,其中64维为一个使用高斯混合模型生成的随机向量,剩余的24维为一个one-hot向量,用于表示要生成的染色体图像类别,如果是第n类的染色体类别,则第n位为1,其余23位都为0。然后通过一系列卷积,生成一个224x224大小的图像。其中每一层转置卷积后面跟一个batchnormalization操作,中间每一层使用relu函数作为激活函数,最后一层使用sigmoid函数作为激活函数。最后生成一个224x224的值范围为0到1之间矩阵,并通过乘以256得到生成的染色体图像。
判别器输入的是一个224x224x27维的矩阵,其中224x224x3维的矩阵为染色体图像数据,其余的224x224x24维矩阵为一个1x1x24维的onehot特征向量填充到224x224x24的对应矩阵,用于表示输入的染色体数据类型。通过一系列卷积操作,最后得到一个4096维的特征向量,然后通过一个全连接层输出一个1维特征,表示特征的真实程度。其中全连接层每一层后面跟一个batchnormalization操作,并且采用leaky relu函数作为激活函数。最后的全连接层采用sigmoid函数作为激活函数。
训练过程是生成器和判别器交错训练,达到生成器生成的图像接近真实图像的效果。训练判别器时,将生成器生成的图片和真实图像数据以前送入判别器,提高判别器的分辨能力,使其对真实数据输出接近1,模拟数据接近0。训练生成器时,只将生成器生成的结果输入到判别器,并根据判别器输出的结果更新生成器,使得判别器的输出值接近1,从而提高生成器生成图片的质量。生成器和判别器交错训练,最后得到使得生成器生成的图片趋向于真实图像。
步骤3:使用生成对抗网络生成的数据训练染色体分类器:
使用步骤2中训练好的生成器生成新的染色体图片数据作为染色体模拟图像,如图4所示,其中(a)~(f)的染色体类别分别对应于图3中(a)~(f)的染色体类别,染色体模拟图像用于染色体分类器的新的训练数据,从而起到了扩充数据集的效果,使得能够在少量数据样本条件下,达到提高染色体分类器识别率的效果。
在训练染色体分类器时,使用了vgg16网络作为分类器的网络结构。Vgg16是一个比较大的网络,训练起来比较耗时。为了节省时间提高效率,使用了迁移学习加速了网络的训练过程。
Vgg16网络结构是2015年google提出的一个比较成熟的网络结构,其结构是通过一系列卷积、池化、全连接操作对物体进行分类。对一个完整的vgg16网络从头开始训练需要耗费大量的时间与精力,而且这是一个要在大规模数据集上训练的过程。因此,使用在imagenet数据集上训练好的vgg16网络作为的预训练网络。然后在这个预训练网络的基础上,使用的染色体数据集只训练网络结构的最后两层,从而加速其训练过程。相当于网络的底层特征不变,只改变高层特征用于表示染色体图像数据。通过这种方式,实现在相对小规模的染色体数据集上实现分类效果。
步骤4:测试分类器
对步骤3中训练好的分类器,使用真实的染色体数据进行测试,求得其准确率。
实施例包括以下部分:
1.染色体图像数据集
本实例的数据集是个人收集的染色体标注数据。其中染色体数据有24中、种类别,男性为22+XY,女性为22+XX。数据一共收集了345个人的染色体信息,使用其中的226个人的数据作为训练集,剩下的119个人的数据作为测试集。
2.实验
使用数据集中226个人的数据作为训练集,剩下的119个人的作为测试集,然后通过提出的算法进行训练。结果如表3所示。其中,表头P4P18P22PT分别代表第四类染色体、第18类染色体、第22类染色体和全部类别染色体的分类准确率。方法部分分别是全部原始数据训练和原始数据与50、150、250新生成数据混合后一起训练的结果。通过表可以看出,将原有数据与数据增强后的新数据相结合,能搞明显提高染色体分类的准确率。
表3
方法 P4 P18 P22 PT
原始数据 0.684 0.600 0.600 0.589
原始数据+50生成数据 0.696 0.720 0.625 0.635
原始数据+150生成数据 0.867 0.708 0.533 0.628
原始数据+250生成数据 0.636 0.600 0.500 0.605

Claims (5)

1.一种基于生成对抗网络的染色体分类方法,所述方法包括:将染色体样本图像利用生成对抗网络进行数据扩充得到染色体模拟图像,利用染色体样本图像和/或染色体模拟图像训练分类器,并根据所述分类器进行染色体分类,其特征在于,所述生成对抗网络的输入为:染色体样本图像数据和多维向量数据;其中,所述多维向量数据包括一组多分布生成的随机向量和一组用于表示染色体类别的特征向量;所述特征向量的维度与染色体样本图像中染色体类别数量一致。
2.根据权利要求1所述的基于生成对抗网络的染色体分类方法,其特征在于,所述多维向量数据由高斯混合模型生成。
3.根据权利要求1所述的基于生成对抗网络的染色体分类方法,其特征在于,所述生成对抗网络包括生成器和判别器,所述生成器和判别器交错训练。
4.根据权利要求1所述的基于生成对抗网络的染色体分类方法,其特征在于,采用迁移学习的方法训练所述分类器,具体为:
获取ImageNet大型自然图像数据集上训练的VGG16网络作为预训练网络;
利用染色体模拟图像数据训练所述预训练网络的特定层,更新特定层的权重。
5.一种基于生成对抗网络的染色体分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取染色体样本图像数据,所述样本图像数据包括不同染色体类别;
数据增强模块,用于将所述样本图像数据和多维向量数据输入生成对抗网络进行训练,得到对应染色体类别的染色体模拟图像数据;其中,所述多维向量数据包括一组多分布生成的随机向量和一组用于表示染色体类别的特征向量;所述特征向量的维度与染色体样本图像中染色体类别数量一致;
分类器模块,利用所述染色体样本图像和/或染色体模拟图像训练的分类器进行染色体分类。
CN201810545914.4A 2018-05-25 2018-05-25 一种基于生成对抗网络的染色体分类方法及装置 Pending CN108763874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810545914.4A CN108763874A (zh) 2018-05-25 2018-05-25 一种基于生成对抗网络的染色体分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810545914.4A CN108763874A (zh) 2018-05-25 2018-05-25 一种基于生成对抗网络的染色体分类方法及装置

Publications (1)

Publication Number Publication Date
CN108763874A true CN108763874A (zh) 2018-11-06

Family

ID=64001021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810545914.4A Pending CN108763874A (zh) 2018-05-25 2018-05-25 一种基于生成对抗网络的染色体分类方法及装置

Country Status (1)

Country Link
CN (1) CN108763874A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492706A (zh) * 2018-11-27 2019-03-19 微医云(杭州)控股有限公司 一种基于循环神经网络的染色体分类预测装置
CN109635850A (zh) * 2018-11-23 2019-04-16 杭州健培科技有限公司 一种基于生成对抗网络优化医学图像分类性能的方法
CN110008338A (zh) * 2019-03-04 2019-07-12 华南理工大学 一种融合gan和迁移学习的电商评价情感分析方法
CN110610207A (zh) * 2019-09-10 2019-12-24 重庆邮电大学 一种基于迁移学习的小样本sar图像舰船分类方法
WO2020168511A1 (zh) * 2019-02-21 2020-08-27 中国医药大学附设医院 染色体异常检测模型、其检测系统及染色体异常检测方法
CN111709470A (zh) * 2020-06-08 2020-09-25 北京百度网讯科技有限公司 图像生成方法、装置、设备及介质
WO2020224403A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN112541555A (zh) * 2020-12-22 2021-03-23 中国医学科学院北京协和医院 一种基于深度学习的分类器模型的训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220600A (zh) * 2017-05-17 2017-09-29 清华大学深圳研究生院 一种基于深度学习的图片生成方法及生成对抗网络
CN107609587A (zh) * 2017-09-11 2018-01-19 浙江工业大学 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法
CN108021936A (zh) * 2017-11-28 2018-05-11 天津大学 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220600A (zh) * 2017-05-17 2017-09-29 清华大学深圳研究生院 一种基于深度学习的图片生成方法及生成对抗网络
CN107609587A (zh) * 2017-09-11 2018-01-19 浙江工业大学 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法
CN108021936A (zh) * 2017-11-28 2018-05-11 天津大学 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹志义等: ""基于半监督学习生成对抗网络的人脸还原算法研究"", 《电子与信息学报》 *
陈宗海: ""深度卷积对抗生成网络综述"", 《系统仿真技术及其应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635850A (zh) * 2018-11-23 2019-04-16 杭州健培科技有限公司 一种基于生成对抗网络优化医学图像分类性能的方法
CN109492706A (zh) * 2018-11-27 2019-03-19 微医云(杭州)控股有限公司 一种基于循环神经网络的染色体分类预测装置
WO2020168511A1 (zh) * 2019-02-21 2020-08-27 中国医药大学附设医院 染色体异常检测模型、其检测系统及染色体异常检测方法
JP2021531812A (ja) * 2019-02-21 2021-11-25 中國醫藥大學附設醫院China Medical University Hospital 染色体異常のテストモデル、そのテストシステム及び染色体異常のテスト方法
CN110008338A (zh) * 2019-03-04 2019-07-12 华南理工大学 一种融合gan和迁移学习的电商评价情感分析方法
WO2020224403A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN110610207A (zh) * 2019-09-10 2019-12-24 重庆邮电大学 一种基于迁移学习的小样本sar图像舰船分类方法
CN110610207B (zh) * 2019-09-10 2022-11-25 重庆邮电大学 一种基于迁移学习的小样本sar图像舰船分类方法
CN111709470A (zh) * 2020-06-08 2020-09-25 北京百度网讯科技有限公司 图像生成方法、装置、设备及介质
CN111709470B (zh) * 2020-06-08 2023-10-03 北京百度网讯科技有限公司 图像生成方法、装置、设备及介质
CN112541555A (zh) * 2020-12-22 2021-03-23 中国医学科学院北京协和医院 一种基于深度学习的分类器模型的训练方法

Similar Documents

Publication Publication Date Title
CN108763874A (zh) 一种基于生成对抗网络的染色体分类方法及装置
CN104102919B (zh) 一种有效防止卷积神经网络过拟合的图像分类方法
CN110210486A (zh) 一种基于素描标注信息的生成对抗迁移学习方法
CN103208001B (zh) 结合形状自适应邻域和纹理特征提取的遥感图像处理方法
CN107220277A (zh) 基于手绘草图的图像检索算法
CN110414601A (zh) 基于深度卷积对抗网络的光伏组件故障诊断方法、系统及设备
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN106780466A (zh) 一种基于卷积神经网络的宫颈细胞图像识别方法
CN107945153A (zh) 一种基于深度学习的路面裂缝检测方法
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
CN106067161A (zh) 一种对图像进行超分辨的方法
CN109102014A (zh) 基于深度卷积神经网络的类别不平衡的图像分类方法
CN106981080A (zh) 基于红外图像和雷达数据的夜间无人车场景深度估计方法
CN106600595A (zh) 一种基于人工智能算法的人体特征尺寸自动测量方法
CN109410114A (zh) 基于深度学习的压缩感知图像重建算法
CN105975912A (zh) 基于神经网络的高光谱图像非线性解混方法
CN107944483A (zh) 基于双通道dcgan和特征融合的多光谱图像分类方法
CN106485259A (zh) 一种基于高约束高分散主成分分析网络的图像分类方法
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN108573284A (zh) 基于正交实验分析的深度学习人脸图像扩充方法
CN107392213A (zh) 基于深度图模型特征学习的人脸画像合成方法
CN109740734A (zh) 一种优化卷积神经网络中神经元空间排布的方法
CN107341440A (zh) 基于多任务度量多核学习的室内rgb‑d场景图像识别方法
CN113537496A (zh) 一种深度学习模型可视化构建系统及其应用和设计方法
CN104680190B (zh) 目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication