CN113723535A - 基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质 - Google Patents

基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质 Download PDF

Info

Publication number
CN113723535A
CN113723535A CN202111026073.4A CN202111026073A CN113723535A CN 113723535 A CN113723535 A CN 113723535A CN 202111026073 A CN202111026073 A CN 202111026073A CN 113723535 A CN113723535 A CN 113723535A
Authority
CN
China
Prior art keywords
images
micronucleus
image
training
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111026073.4A
Other languages
English (en)
Inventor
贾光
胡贵平
王保民
胡丽华
陈章健
王天成
龙昌茂
胥嘉钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202111026073.4A priority Critical patent/CN113723535A/zh
Publication of CN113723535A publication Critical patent/CN113723535A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及细胞微核检测技术领域,提供了一种基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质,所述方法通过获取无假阳性微核组学图像与有染色质真阳性微核组学图像,将其进行相同的分割后划分为训练集与测试集,之后通过深度学习中的经典生成模型CycleGAN算法训练由无染色质微核组学图像向所述Y类图像转换的神经网络,训练完成后,固定网络中的生成器参数,即可实现将任意输入的无染色质微核组学图像转换为有染色质微核组学图像。本发明解决了相关技术中微核组学图像检测训练样本标签不足导致监督学习任务出现困难,不能有效生成和判别微核组学图像和图像处理效率低的问题。

Description

基于CycleGAN深度学习的细胞微核组学图像处理方法及存储 介质
技术领域
本发明涉及细胞微核检测技术领域,具体涉及一种基于CycleGAN 深度学习的细胞微核组学图像处理方法及存储介质。
背景技术
微核组学检测在综合图像处理外源性化学物质(如药品、食品添加剂、化妆品、环境污染物等)的遗传作用类型和模式以及癌症人群的高风险筛查和风险图像处理中具有重要意义。深度学习已经被广泛的应用于生物医学图像检测、分割的各种任务中,相比较于传统图像处理算法有更高的精度以及速度。但是受限于深度学习依赖大量的数据标注样本,而含微核的双核细胞数量在一般人群中通常为几千分之到数十千分之不等,在微核组学染色切片的微核阳性率双核细胞样本较少,且人群外周血等生物样本中含有多种细胞,导致存在很大一部分无染色质而形似含微核的假阳性微核组学样本,这样有染色质的真阳性微核组学样本较少,而无染色质的假阳性微核组学样本较多,所以直接选择有染色质真阳性微核组学样本作训练样本,面临数据不足和准确率低的困难,导致在检测过程中往往存在较高的假阳性率。
图像风格迁移技术可以实现将A类图像的风格迁移到B类图像中,例如将风景图像从夏天风格迁移到冬季,或者将作家莫奈的绘画作品风格迁移到作家梵高的绘画作品中,使得作家梵高的绘画作品具有作家莫奈的风格。为了充分利用微核组学染色切片中的无染色质假阳性微核组学样本,发挥切片中有染色质样本较少,无染色质样本多的特点,本发明提供了一种基于CycleGAN深度学习的细胞微核组学图像处理方法,采用CycleGAN图像风格迁移网络,将有染色质微核组学真阳性样本迁移生成无染色质假阳性微核组学样本,实现真阳性微核组学训练样本数据扩充的目的,通过增加训练样本数量,提高了图像处理精度。
发明内容
针对上述现有技术中存在的技术问题,本发明提供了一种基于 CycleGAN深度学习的细胞微核组学图像处理方法及存储介质,所述方法通过获取无染色质假阳性微核组学图像与有染色质真阳性微核组学图像,将其进行相同的分割后划分为训练集与测试集,之后通过深度学习中的经典生成模型CycleGAN算法训练由无染色质微核组学图像向有染色质微核组学图像转换的神经网络,训练完成后,固定网络中的生成器参数,即可实现将任意输入的无染色质微核组学图像转换为有染色质微核组学图像。本发明解决了相关技术中微核组学图像检测训练样本标签不足导致监督学习任务出现困难,不能有效生成和判别微核组学图像和图像处理效率低的问题。
第一个方面,本发明提供了一种基于CycleGAN深度学习的细胞微核组学图像处理方法,包括:
获取若干无染色质的假阳性微核组学图像;将所述无染色质的假阳性微核组学图像进行预处理并设为X类图像;按照预定比例将所述X类图像划分为第一训练集和第一测试集;获取若干有染色质的真阳性微核组学图像并通过上述步骤的方法进行预处理得到Y类图像,按照所述预定比例将所述Y类图像划分为第二训练集和第二测试集;确定训练的网络参数,所述网络参数包括轮数和学习率;将所述第一训练集和所述第二训练集数据输入CycleGAN网络进行训练,并用所述第一测试集和所述第二测试集数据测试训练效果;提取训练好的所述 CycleGAN网络模型的生成器G的参数;将目标无染色质微核组学图像输入所述训练好的模型,生成风格转换的所述Y类图像。
进一步地,将所述无染色质的假阳性微核组学图像进行预处理并设为X类图像包括,按照预定尺寸将染色切片内的无染色质的假阳性微核组学图像进行分割成若干子图;
进一步地,所述预定尺寸为96*96,所述子图允许部分区域重叠。
进一步地,所述预定比例包括,所述第一训练集与所述第一测试集之比为8∶2;或,所述第一训练集与所述第一测试集之比为9∶1。
进一步地,确定训练的网络参数包括,将轮数设置为100,对于前30轮训练,将学习率设为0.0002,对于30轮后的训练,将学习率逐步衰减。
进一步地,将所述第一训练集和所述第二训练集数据输入 CycleGAN网络进行训练,并用所述第一测试集和所述第二测试集数据测试训练效果包括,采用以下损失函数计算所述X类图像向所述Y 类图像迁移的对抗损失: Lgan(G,DY,X,Y)=Ey~Pdata(y)[logDY(y)]+Ex~Pdata(x)[log(1-DY(G(x))];采用以下损失函数计算所述Y类图像向所述X类图像迁移的对抗损失: Lgan(F,Dx,Y,X)=Ex~Pdata(x)[logDx(x)]+Ey~Pdata(y)[log(1-Dx(F(y))];采用以下损失函数计算所述X类图像与所述Y类图像的循环一致性损失: Lcycle(G,F)=Ex~Pdata(x)[||F(G(x))-x||1]+Ey~Pdata(y)[||G(F(y))-y||1];采用以下损失函数计算所述X类图像与所述Y类图像的身份一致性损失: LIdentity(G,F)=Ey~Pdata(y)[||G(y)-y||1]+Ex~Pdata(x)[||F(x))-x||1];采用以下损失函数计算所述X类图像与所述Y类图像的总体损失: L(G,F,Dx,Dy)=Lgan(G,Dy,X,Y)+Lgan(F,Dx,Y,X)+λ1Lcycle(G,F)+λ2LIdentity(G,F,其中,λ1为对抗损失与循环一致性损失之间的平衡参数,取值为10,λ2为对抗损失与身份一致性损失之间的平衡参数,取值为5。
进一步地,所述细胞采用外周血双核淋巴细胞。
第二个方面,本发明还提供了一种存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如上述的基于CycleGAN深度学习的细胞微核组学图像处理方法。
本发明实施例提供的技术方案至少带来以下有益技术效果:
本发明提供的方法采用深度学习中的循环生成对抗网络进行微核组学图像的仿真,充分利用图像中所包含的数据信息,可以有效地生成高质量的有染色质微核组学仿真图像,做到了对数据的充分挖掘和高效利用,提高了图像处理精度;通过对染色切片中的高质量微核组学图像进行仿真处理生成仿真图像,大量的有标签的微核组学图像数据可以作为该方法的数据来源,使得该方法具有相当高的普适性;利用该方法生成仿真图像,可有效地解决微核组学领域数据标注不足地问题,生成的微核组学仿真图像可进一步用于深度学习的各类常见任务,包括语义分割、目标检测等;采用计算机视觉领域较为成熟的CycleGAN算法进行微核组学仿真图像的生成,具有可靠的理论支撑与良好的实际效果,算法的收敛速度较快,具有可观的运行效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的一种基于CycleGAN深度学习的细胞微核组学图像处理方法的流程图;
图2是根据本发明实施例提供的一种无染色质微核组学图像(左侧)及其向有染色质微核组学图像转换后的效果图(右侧);
图3为CycleGAN理论模型示意图;
图4为生成器网络架构示意图;
图5为判别器网络架构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例以及实施例中的特征可以相互组合。本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如包含了一系列步骤S或单元的过程、方法、系统、产品或设备不必限于清楚的列出的那些步骤S或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤S和单元。
为使本技术领域的人员更好地理解本发明方案,下面结合本发明实施例中的附图,对本发明实施例中的方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得所有其他实施例,都应当属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于CycleGAN深度学习的细胞微核组学图像处理方法,图1是根据本发明实施例图像处理方法的流程图,如图1所示,包括:
步骤S11、获取若干无染色质的假阳性微核组学图像。
具体的,通过在数据库或者互联网中尽可能多地获取无染色质的假阳性微核组学图像,或者通过获取染色切片内的微核组学图像,经过人工或机器进行比对筛选出无染色质的假阳性微核组学图像。
步骤S12、将所述无染色质的假阳性微核组学图像进行预处理并设为X类图像。
具体的,将所述无染色质的假阳性微核组学图像进行预处理包括,将在数据库或者互联网中获取的无染色质的假阳性微核组学图像进行裁剪以统一尺寸;或者将染色切片内的无染色质的假阳性微核组学图像按照统一的尺寸切割为若干子图;或者当样本数量较少时,对无染色质的假阳性微核组学图像进行数据增强,比如根据图片分类场景,将图片进行翻转、旋转、缩放比例、crop、移位、加高斯噪声等处理,达到增加样本数量的目的。
进一步,将经过预处理后的图像设为数据集合X类图像。
步骤S13、按照预定比例将所述X类图像划分为第一训练集和第一测试集。
在CycleGAN深度学习模型中,不能通过直接将泛化误差作为了解模型泛化能力的信号,因为在部署环境和训练模型之间往复,代价很高,也不能使用模型对训练数据集的拟合程度来作为了解模型泛化能力的信号,因为我们获得的数据往往不干净。更好的方式就是将数据分割成两部分:训练集和测试集。因此可以使用训练集的数据来训练模型,然后用测试集上的误差作为最终模型在应对现实场景中的泛化误差。有了测试集,想要验证模型的最终效果,只需将训练好的模型在测试集上计算误差,即可认为此误差即为泛化误差的近似,然后将训练好的模型在测试集上的误差最小即可。例如通常情况下将数据集的80%作为训练集,20%作为测试集。
步骤S14、获取若干有染色质的真阳性微核组学图像并通过上述步骤的方法进行预处理得到Y类图像,按照所述预定比例将所述Y类图像划分为第二训练集和第二测试集。
具体的,可参照上述本实施例中获取无染色质的假阳性微核组学图像的方法以及上述预处理和划分训练集与测试集的方法。
步骤S15、确定训练的网络参数,所述网络参数包括轮数和学习率。
具体的,通常将轮数设置为100轮以上,并在前三分之一至一半轮数的训练中学习率设为0.0002,对于三分之二轮后的训练,进行学习率的逐步衰减。在检验训练效果不满意的情况下,可以适当增加轮数,提高学习率。
步骤S16、将所述第一训练集和所述第二训练集数据输入 CycleGAN网络进行训练,并用所述第一测试集和所述第二测试集数据测试训练效果。
具体实施过程中,根据CycleGAN的理论模型,构建神经网络模型,CycleGAN理论模型具体如图3所示,在模型中,G与F是数据域 X与Y的映射函数,功能为将X映射到Y以及将Y映射到X,其中: G:X→Y,F:Y→X;
此外,DX与DY是X与Y的判别函数,其中:DX:判别X与F(Y), DY:判别Y与G(X)。DX会输出[0,1]之间的一个数,在理想状态下, DX(F(Y))=0;DX(Y)=1,同样地,DY会输出[0,1]之间的一个数,在理想状态下,DY(G(X))=0;DY(Y)=1;
因此,对于映射函数G与其判别器DY的对抗损失(adversarial loss)为:Lgan(G,DY,X,Y)=Ey~Pdata(y)[logDY(y)]+Ex~Pdata(x)[log(1-DY(G(x))];对于映射函数F与其判别器DX的对抗损失(adversarial loss)为: Lgan(F,Dx,Y,X)=Ex~Pdata(x)[logDx(x)]+Ey~Pdata(y)[log(1-Dx(F(y))]。
在此,我们对上述两个式子出现的符号进行解释说明:表示的是当随机变量x满足pdata的概率分布时,f(x)关于pdata(x)的期望。
同时,根据CycleGAN的性质,应满足:F(G(x))≈x,G(F(y)) ≈y,为缩减映射函数G与F的映射空间,因此将循环一致性损失 (cycle consistency loss)激励:LGAN(G,F,X,Y)= Ey~Pdata(y)[||F(G(X))-x||1]+Ex~Pdata(x)[||G(F(y))-y||1]
综上所述,完整的CycleGAN理论模型对象如下,其中λ系数的作用是控制两个对象的相对重要性:LGAN(G,F,DX,DY)= LGAN(G,DY,X,Y)+LGAN(G,DX,Y,X)+λLGAN(G,F,X,Y)。
以上为CycleGAN的理论模型,在一个优选的实施例中,采取以下的神经网络模型:
我们构建的生成器为:
(1)编码(Encoder):有3个卷积层,输入通道为1,第一个卷积层滤波器数量(ngf)为13,步长为1,padding策略为0,卷积核大小为7*7;第二个卷积层滤波器数量为26,步长为2;padding策略为 1;第三个卷积层滤波器数量为52,步长为1,padding策略为1;激活函数均为LeakRelu;
(2)转换(Transformer):由若干个残差模块(Resnet Block)组成,是X→Y图像转换的关键步骤,输入通道和输出通道均为52;激活函数均为LeakRelu;经过实验,将残差模的个数定为9个;
(3)解码(Decoder):有2个反卷积层,1个卷积层,输入通道为52;第一个反卷积层滤波器数量为26,步长为2,padding策略为1;第二个反卷积层滤波器数量为13,步长为2,padding策略为1;卷积层滤波器数量为1,padding策略为0,反卷积核大小为7*7;前2个反卷积层用的激活函数为LeakRelu,最后一个卷积层用的激活函数为Tanh解码(Decoder)作用是将图像还原为输入图像大小 (1024*1024),并输出图像。
我们构建的判别器采用Patch-GAN中判别器的patch策略,将输入图像裁剪为若干个70*70大小子图像,将子图像输入判别器的卷积神经网络,判别器的神经网络模型有5个卷积层,输入通道为1,第一个卷积层滤波器数量(ndf)为13,步长为2;第二个卷积层滤波器数量为26,步长为2;第三个卷积层滤波器数量为52,步长为2;第四个卷积层滤波器数量为104,步长为1;第五个卷积层滤波器数量为1,步长为1;padding策略均为1;运用的激活函数均为LeakReLu;判别器最终会输出一个通道为1的预测映射(prediction map)。
需要说明的是,通常需要在开始构建模型之前把数据集进行划分,防止数据窥探偏误,以此避免了解太多关于测试集中的样本特点,防止人为挑选有助于测试集数据的模型,这样的结果会过于乐观,但是实际上并没有预期的那样优秀。因此通常我们在构建模型的时候需要将数据进行处理,包括一些数据的清洗,数据的特征缩放(标准化或者归一化),此时我们只需要在训练集上进行这些操作,然后将其在训练集上得到的参数应用到测试集中,也就是说,在工作流程中,不能使用在测试数据集上计算的得到的任何结果。比如得到的属性中可能有缺失值,因为在这些操作之前,已经把数据集分成了训练集和测试集,通常的做法是通过计算属性值的中位数来填充缺失值,注意此时计算属性值的中位数是通过训练集上的数据进行计算的,当我们得到一个模型的时候,如果想要测试模型的测试误差来近似泛化误差的时候,可能此时的测试集也会有一些缺失值,此时对应属性的缺失值是通过训练集计算的中位数来进行填充的。
步骤S17、提取训练好的所述CycleGAN网络模型的生成器G的参数。
由于测试集作为对泛化误差的近似,所以训练好模型,最后在测试集上近似估计模型的泛化能力。此时假设有两个不同的机器学习模型,犹豫不决的时候,可以通过训练两个CycleGAN网络模型,然后对比他们在测试数据上的泛化误差,选择泛化能力强的模型,并固定生成器G的参数。
图4为生成器网络架构示意图,图5为判别器网络架构示意图, 从图4和图5可知,训练集数据在该模型中的运行过程如下:
(1)将亮度异常图像(X类)realA输入生成器G,经过生成器网络后,得到了输出图像fakeB;
(2)将fakeB输入判别器Dx,由判别器判定fakeB的类别,若判断其属于Y类图像(亮度均匀图像)则输出1,否则为0;
(3)将fakeB输入生成器F,经过生成器网络后,得到输出图像 cycA;
(4)将正常图像(Y类,亮度均匀图像)realB输入生成器F,经过生成器网络后,得到输出图像fakeA;
(5)将fakeA输入判别器Dy,由判别器判定fakeA的类别,若判断其属于Y类图像(亮度均匀图像)则输出0,否则为1;
(6)将fakeA输入生成器G,经过生成器网络后,得到输出图像 cycB。
步骤S18、将目标无染色质微核组学图像输入所述训练好的模型,生成风格转换的所述Y类图像。图2是根据本发明实施例提供的一种无染色质微核组学图像及其向有染色质微核组学图像转换后的效果图,如图2所示。
通过上述步骤,实现将任意输入的无染色质微核组学图像转换为有染色质微核组学图像。
由此可见,本发明实施例中,所述基于CycleGAN深度学习的细胞微核组学图像处理方法,与现有技术相比,至少具备以下技术效果:本发明提供的方法采用深度学习中的循环生成对抗网络进行微核组学图像的仿真,充分利用图像中所包含的数据信息,可以有效地生成高质量的有染色质微核组学仿真图像,做到了对数据的充分挖掘和高效利用,提高了图像处理精度;通过对染色切片中的高质量微核组学图像进行仿真处理生成仿真图像,大量的有标签的微核组学图像数据可以作为该方法的数据来源,使得该方法具有相当高的普适性;利用该方法生成仿真图像,可有效地解决微核组学领域数据标注不足地问题,生成的微核组学仿真图像可进一步用于深度学习的各类常见任务,包括语义分割、目标检测等;采用计算机视觉领域较为成熟的 CycleGAN算法进行微核组学仿真图像的生成,具有可靠的理论支撑与良好的实际效果,算法的收敛速度较快,具有可观的运行效率。
实施例二
在上述方法实施例的基础上,本发明实施例还提供了一种基于 CycleGAN深度学习的细胞微核组学图像处理方法,包括:
步骤S11-S19及其具体实施方式可参照上述实施例一中的详细说明,本发明实施例中不再赘述。
其中,步骤S12、将所述无染色质的假阳性微核组学图像进行预处理并设为X类图像包括,按照预定尺寸将染色切片内的无染色质的假阳性微核组学图像进行分割成若干子图。
具体的,将微核组学染色切片内的无染色质假阳性微核组学图像进行分割,并划分为训练集和测试集。由于深度学习的训练需要一次性输入多个数据,因此需对图像进行分割处理,以获取更多的训练样本。
例如,采用预定尺寸为512*512像素的滑动窗口方法对整幅微核组学图像进行切块,遍历整幅微核组学图像,获得所述微核组学图像的子图像块。并对该图像执行数据增强操作,同时可对所述子图像块执行旋转、移动、翻转、缩放等操作,并保存所述数据增强操作前后的所有所述子图像块数据,达到数据样本扩充的目的,从而可以训练出泛化能力更强的模型,提高细胞微核组学图像的处理精度。
优选的,所述预定尺寸为96*96,所述子图允许部分区域重叠。
通常,分割图像的大小可依据原始图像大小和计算机的计算能力进行调整,本方法将其分割为96*96的子图,可以在保证图像分辨率的情况下,尽可能多的分割成为子图,达到扩充数据样本,提高训练效果的目的。
在一个优选的实施例中,所述预定比例包括,所述第一训练集与所述第一测试集之比为8∶2。
通常,将训练集与测试集的比例设为8∶2,针对大多数的模型都能达到较好的训练效果,训练集和测试集的划分依照深度学习训练的一般性原则划分即可,提高便捷性和训练效率。
在另一个优选的实施例中,所述预定比例包括,所述第一训练集与所述第一测试集之比为9∶1。
具体的,将训练集与测试集的比例设为9∶1,在满足测试集的基本需求数量的情况下,可以更大程度的扩充训练集的数据样本,从而提高训练效果。
在一个优选的实施例中,确定训练的网络参数包括,将轮数设置为100,对于前30轮训练,将学习率设为0.0002,对于30轮后的训练,将学习率逐步衰减。
优选的,采用Adam优化器,轮数设置为100,对于前30轮训练,将学习率设为0.0002,对于30轮后的训练,将学习率逐步衰减,最终在200次训练完毕时降为0,选择Adam是因为其有效的随机优化方式,其计算效率高、对内存需求低,Adam优化器的模型在训练时收敛得更快,损失函数更小,最终细胞微核组学图像的处理效果更好;
在一个优选的实施例中,将所述第一训练集和所述第二训练集数据输入CycleGAN网络进行训练,并用所述第一测试集和所述第二测试集数据测试训练效果包括,采用以下损失函数计算所述X类图像向所述Y类图像迁移的对抗损失: Lgan(G,DY,X,Y)=Ey~Pdata(y)[logDY(y)]+Ex~Pdata(x)[log(1-DY(G(x))];采用以下损失函数计算所述Y类图像向所述X类图像迁移的对抗损失: Lgan(F,Dx,Y,X)=Ex~Pdata(x)[logDx(x)]+Ey~Pdata(y)[log(1-Dx(F(y))];采用以下损失函数计算所述X类图像与所述Y类图像的循环一致性损失: Lcycle(G,F)=Ex~Pdata(x)[||F(G(x))-x||1]+Ey~Pdata(y)[||G(F(y))-y||1];采用以下损失函数计算所述X类图像与所述Y类图像的身份一致性损失: LIdentity(G,F)=Ey~Pdata(y)[||G(y)-y||1]+Ex~Pdata(x)[||F(x))-x||1];采用以下损失函数计算所述X类图像与所述Y类图像的总体损失: L(G,F,Dx,Dy)=Lgan(G,Dy,X,Y)+Lgan(F,Dx,Y,X)+λ1Lcycle(G,F)+λ2LIdentity(G,F,其中,λ1为对抗损失与循环一致性损失之间的平衡参数,取值为10,λ2为对抗损失与身份一致性损失之间的平衡参数,取值为5。
训练完成后,固定网络中的生成器G的参数。将目标X类图像输入至网络,即可生成迁移后的微核组学仿真Y类图像。
本发明可应用于含染色质微核组学仿真图像的生成,有效地解决了含染色质微核组学图像标签不足的问题,生成的图像可进一步用于各类有监督的计算机视觉方法,具有广阔的市场前景和应用价值。
在一个优选的实施例中,所述细胞采用外周血双核淋巴细胞。
外周血淋巴细胞微核测定作为对职业性放射性工作者所受辐射损伤的评价是一项非常有意义的指标,亦列为我国慢性放射病诊断的重要检测指标之一,具有重大临床意义。已经证实,微核率的大小是和作用因子的剂量或辐射累积效应呈正相关,这一点与染色体畸变的情况一样。所以许多人认为可用简易的周期微核计数来代替繁杂的中期畸变染色体计数。由于大量新的化合物的合成,原子能的应用,各种各样工业废物的排出等都存在污染环境的可能性,欲了解这些因素对机体潜在的遗传危害,需要有一套高度灵敏,技术简单易行的测试系统来监测环境的变化。只有真核类的测试系统更能直接推测诱变物质对人类或其它高等生物的遗传危害,在这方面,微核测试是一种比较理想的方法。目前国内外不少部门已把微核测试用于辐射损伤、辐射防护、化学诱变剂、新药试验、食品添加剂的安全评价,以及染色体遗传疾病和癌症前期诊断等各个方面。因此,通过采用外周血淋巴细胞微核组学图像进行相关指标的检测,可有效地对相关疾病的风险的进行图像处理。
实施例三
本发明实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如上述实施例所述的基于CycleGAN深度学习的细胞微核组学图像处理方法。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行。
本发明实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行上述实施例中的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。

Claims (8)

1.一种基于CycleGAN深度学习的细胞微核组学图像处理方法,其特征在于,包括:
获取若干无染色质的假阳性微核组学图像;
将所述无染色质的假阳性微核组学图像进行预处理并设为X类图像;
按照预定比例将所述X类图像划分为第一训练集和第一测试集;
获取若干有染色质的真阳性微核组学图像并通过上述步骤的方法进行预处理得到Y类图像,按照所述预定比例将所述Y类图像划分为第二训练集和第二测试集;
确定训练的网络参数,所述网络参数包括轮数和学习率;
将所述第一训练集和所述第二训练集数据输入CycleGAN网络进行训练,并用所述第一测试集和所述第二测试集数据测试训练效果;
提取训练好的所述CycleGAN网络模型的生成器G的参数;
将目标无染色质微核组学图像输入所述训练好的模型,生成风格转换的所述Y类图像。
2.如权利要求1所述的基于CycleGAN深度学习的细胞微核组学图像处理方法,其特征在于,将所述无染色质的假阳性微核组学图像进行预处理并设为X类图像包括,按照预定尺寸将染色切片内的无染色质的假阳性微核组学图像进行分割成若干子图。
3.如权利要求2所述的基于CycleGAN深度学习的细胞微核组学图像处理方法,其特征在于,所述预定尺寸为96*96,所述子图允许部分区域重叠。
4.如权利要求1至3任一项所述的基于CycleGAN深度学习的细胞微核组学图像处理方法,其特征在于,所述预定比例包括,所述第一训练集与所述第一测试集之比为8∶2;或,所述第一训练集与所述第一测试集之比为9∶1。
5.如权利要求4所述的基于CycleGAN深度学习的细胞微核组学图像处理方法,其特征在于,确定训练的网络参数包括,将轮数设置为100,对于前30轮训练,将学习率设为0.0002,对于30轮后的训练,将学习率逐步衰减。
6.如权利要求1所述的基于CycleGAN深度学习的细胞微核组学图像处理方法,其特征在于,将所述第一训练集和所述第二训练集数据输入CycleGAN网络进行训练,并用所述第一测试集和所述第二测试集数据测试训练效果包括,采用以下损失函数计算所述X类图像向所述Y类图像迁移的对抗损失:Lgan(G,DY,X,Y)=Ey~Pdata(y)[logDY(y)]+Ex~Pdata(x)[log(1-DY(G(x))];采用以下损失函数计算所述Y类图像向所述X类图像迁移的对抗损失:Lgan(F,Dx,Y,X)=Ex~Pdata(x)[logDx(x)]+Ey~Pdata(y)[log(1-Dx(F(y))];采用以下损失函数计算所述X类图像与所述Y类图像的循环一致性损失:Lcycle(G,F)=Ex~Pdata(x)[||F(G(x))-x||1]+Ey~Pdata(y)[||G(F(y))-y||1];采用以下损失函数计算所述X类图像与所述Y类图像的身份一致性损失:LIdentity(G,F)=Ey~Pdata(y)[||G(y)-y||1]+Ex~Pdata(x)[||F(x))-x||1];采用以下损失函数计算所述X类图像与所述Y类图像的总体损失:L(G,F,Dx,Dy)=Lgan(G,Dy,X,Y)+Lgan(F,Dx,Y,X)+λ1Lcycle(G,F)+λ2LIdentity(G,F,其中,λ1为对抗损失与循环一致性损失之间的平衡参数,取值为10,λ2为对抗损失与身份一致性损失之间的平衡参数,取值为5。
7.如权利要求1所述的基于CycleGAN深度学习的细胞微核组学图像处理方法,其特征在于,所述细胞采用外周血双核淋巴细胞。
8.一种存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于CycleGAN深度学习的细胞微核组学图像处理方法。
CN202111026073.4A 2021-09-02 2021-09-02 基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质 Pending CN113723535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111026073.4A CN113723535A (zh) 2021-09-02 2021-09-02 基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111026073.4A CN113723535A (zh) 2021-09-02 2021-09-02 基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质

Publications (1)

Publication Number Publication Date
CN113723535A true CN113723535A (zh) 2021-11-30

Family

ID=78680970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111026073.4A Pending CN113723535A (zh) 2021-09-02 2021-09-02 基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质

Country Status (1)

Country Link
CN (1) CN113723535A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463320A (zh) * 2022-02-17 2022-05-10 厦门大学 一种磁共振成像脑胶质瘤idh基因预测方法及系统
CN115082299A (zh) * 2022-07-21 2022-09-20 中国科学院自动化研究所 非严格对齐的小样本不同源图像转换方法、系统及设备
CN117830806A (zh) * 2024-03-06 2024-04-05 广东琴智科技研究院有限公司 一种红外图像收集的方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599423A (zh) * 2019-09-16 2019-12-20 陕西师范大学 一种基于深度学习CycleGAN模型处理SAR图像亮度补偿方法
CN111882521A (zh) * 2020-06-21 2020-11-03 浙江大学山东工业技术研究院 一种细胞涂片的图像处理方法
CN112529774A (zh) * 2020-12-28 2021-03-19 南开大学 一种基于CycleGAN的遥感仿真图像生成方法
CN112613505A (zh) * 2020-12-18 2021-04-06 安徽丹姆斯生物科技有限公司 一种基于深度学习的细胞微核识别、定位和计数方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599423A (zh) * 2019-09-16 2019-12-20 陕西师范大学 一种基于深度学习CycleGAN模型处理SAR图像亮度补偿方法
CN111882521A (zh) * 2020-06-21 2020-11-03 浙江大学山东工业技术研究院 一种细胞涂片的图像处理方法
CN112613505A (zh) * 2020-12-18 2021-04-06 安徽丹姆斯生物科技有限公司 一种基于深度学习的细胞微核识别、定位和计数方法
CN112529774A (zh) * 2020-12-28 2021-03-19 南开大学 一种基于CycleGAN的遥感仿真图像生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIN HE 等: "CycleGAN With an Improved Loss Function for Cell Detection Using Partly Labeled Images", IEEE *
古万荣 等: "基于多模型优化的超声图像肿瘤自动识别", 计算机科学, vol. 47, no. 6 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463320A (zh) * 2022-02-17 2022-05-10 厦门大学 一种磁共振成像脑胶质瘤idh基因预测方法及系统
CN114463320B (zh) * 2022-02-17 2024-01-26 厦门大学 一种磁共振成像脑胶质瘤idh基因预测方法及系统
CN115082299A (zh) * 2022-07-21 2022-09-20 中国科学院自动化研究所 非严格对齐的小样本不同源图像转换方法、系统及设备
CN115082299B (zh) * 2022-07-21 2022-11-25 中国科学院自动化研究所 非严格对齐的小样本不同源图像转换方法、系统及设备
CN117830806A (zh) * 2024-03-06 2024-04-05 广东琴智科技研究院有限公司 一种红外图像收集的方法及相关装置
CN117830806B (zh) * 2024-03-06 2024-05-07 广东琴智科技研究院有限公司 一种红外图像收集的方法及相关装置

Similar Documents

Publication Publication Date Title
CN113723535A (zh) 基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质
Vlasblom et al. Markov clustering versus affinity propagation for the partitioning of protein interaction graphs
US10606862B2 (en) Method and apparatus for data processing in data modeling
Ballabio et al. The Kohonen and CP-ANN toolbox: a collection of MATLAB modules for self organizing maps and counterpropagation artificial neural networks
US9070203B2 (en) Identification and quantification of microtextured regions in materials with ordered crystal structure
CN112990222B (zh) 一种基于图像边界知识迁移的引导语义分割方法
CN114187979A (zh) 数据处理、模型训练、分子预测和筛选方法及其装置
Berry et al. Panel: context-dependent evaluation of tools for NL RE tasks: recall vs. precision, and beyond
CN113641906A (zh) 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质
CN115730947A (zh) 银行客户流失预测方法及装置
CN111310122A (zh) 一种模型的数据处理方法、电子设备及存储介质
Wojciechowska et al. Early detection of liver fibrosis using graph convolutional networks
AU2021204470A1 (en) Benefit surrender prediction
CN111666748B (zh) 一种自动化分类器的构造方法以及识别决策的方法
Malone et al. Automated trend analysis of proteomics data using an intelligent data mining architecture
CN112598443A (zh) 一种基于深度学习的线上渠道业务数据处理方法及系统
Saputri et al. A study of cross-national differences in Happiness factors using machine learning approach
Gruca et al. Rule based functional description of genes–estimation of the multicriteria rule interestingness measure by the UTA method
CN113538239B (zh) 一种基于时空自回归神经网络模型的插值方法
Cattinelli et al. Computational intelligence for the Balanced Scorecard: Studying performance trends of hemodialysis clinics
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
CN115410642A (zh) 一种生物关系网络信息建模方法与系统
Cruz et al. Fast evaluation of segmentation quality with parallel computing
CN107665291A (zh) 一种基于云计算平台Spark的变异检测方法
CN114170245A (zh) 一种基于SAA-Unet网络的蜂窝肺病灶分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination