CN117497063A - Gan模型的构建方法和基于gan模型的数据拟合、表型预测、样本扩充以及育种的方法 - Google Patents
Gan模型的构建方法和基于gan模型的数据拟合、表型预测、样本扩充以及育种的方法 Download PDFInfo
- Publication number
- CN117497063A CN117497063A CN202311601745.9A CN202311601745A CN117497063A CN 117497063 A CN117497063 A CN 117497063A CN 202311601745 A CN202311601745 A CN 202311601745A CN 117497063 A CN117497063 A CN 117497063A
- Authority
- CN
- China
- Prior art keywords
- data
- generator
- real
- phenotype
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013256 Gubra-Amylin NASH model Methods 0.000 title claims abstract description 34
- 238000009395 breeding Methods 0.000 title claims abstract description 28
- 238000010276 construction Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000001488 breeding effect Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 47
- 239000000126 substance Substances 0.000 claims description 30
- 230000002776 aggregation Effects 0.000 claims description 21
- 238000004220 aggregation Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 10
- 108010026552 Proteome Proteins 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000006116 polymerization reaction Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 108700028369 Alleles Proteins 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 125000000524 functional group Chemical group 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Physiology (AREA)
- Ecology (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种GAN模型的构建方法和基于GAN模型的数据拟合、表型预测、样本扩充以及育种的方法。所述GAN模型的构建首先根据输入的真实多组学数据,进入到真实多组学数据生成器G1,提取特征,然后进入到真实表型判别器D1,实现G1和D1的训练;然后,随机生成一组噪音,输入到拟合多组学数据生成器G2,以及真实数据输入到G1,两个的输出进入到拟合多组学数据判别器D2,进行G2和D2的训练。本发明的方法能够实现至少用于弥补数据量不足的同时,充分发挥深度学习算法的优势,全面提升基因组选择的准确性。
Description
技术领域
本申请涉及生物技术领域,尤其涉及一种GAN模型的构建方法和基于GAN模型的数据拟合、表型预测、样本扩充以及育种的方法。GAN(Generative Adversarial Network)为生成对抗式网络,是一种基于对抗学习的深度生成模型。
背景技术
基因组选择实现了数据驱动的科学育种方案,根据个体基因组全部可获得的遗传信息,通过参考群体的基因型和表型的关系,构建育种模型估算单核苷酸多态性的效应值,进而估算候选群体的育种值,通过筛选育种价值较高的个体,进行实际的育种,实现快速改良育种群体的目的。当前广泛应用的育种模型,根据数据的使用可分为两类:基于基因组数据的模型和基于多组学数据的模型;根据算法模型的使用同样可分为两类:基于统计学方法的模型和基于机器学习方法的模型。这四种不同类型的育种模型,对基因组选择的发展,尤其是智慧育种体系的发展意义重大,切实推进了当代生物育种的进程。然而,随着研究的不断深入,仍然存在诸多问题,主要表现在以下几个方面:
首先,在基因组选择研究发展早期,利用统计学方法针对基因组数据建模,在实际应用中取得了很好的效果,尤其是针对遗传力比较高,主效效应显著的表型预测性能很好。但是,重要经济性状多属于数量性状,除了受主效位点调控外,还受到大量微效位点的协同调控,并且与环境存在密切的互作关系。此外,个体外在表型的内在互作模式,除了加性效应之外,还存在显性效应,上位效应等。也就意味着,基因型和表型间的关联,并不是简单的线性关系,还存在复杂的非线性关联。而这种复杂的非线性关联并不能被统计学模型很好地捕捉到。
其次,虽然针对上述不足,逐渐延伸出多组学数据的应用:不仅仅在基因组层面尽可能多地包含潜在的因果分子标记位点,还通过多组学数据的引入,给予SNP更多的功能信息;以及深度学习算法的应用:自主学习育种关键数据和表型的关联,不仅仅包括线性关联,还包括复杂的非线性关联。这两种应用,在一定程度上弥补了基因组数据和统计学算法的不足,已经被证实切实提升基因组选择的准确性和算法运行效率,满足大数据时代下智慧育种体系的需求。但是,获取完备的多组学数据成本很高,在实际实施中对每一个候选个体进行多组学数据的测定有一定的难度,那么如何通过训练群体的多组学数据,间接获取候选个体的多组学数据还需要系统深入地探究。此外,深度学习模型需要大量的数据来训练以达到最优状态。但是当前基因组选择所面临的困境是,往往数万甚至上千万个SNP的效应值需要在数百个或者数千个个体内估计,这就导致了深度学习模型的优势不能被最大化出来。具体的表现形式有,虽然有很多的工作都表明深度学习算法的引入,尤其是整合多组学数据,可以提升表型预测精度,但是提升幅度并没有期望的那么高。
因此,我们需要一个更加完备的以深度学习算法来构建的智慧育种体系,在弥补数据量不足的同时,充分发挥深度学习算法的优势,全面提升基因组选择的准确性。
发明内容
本申请的一个目的是提供一种GAN模型的构建方法和基于GAN模型的数据拟合、表型预测、样本扩充以及育种的方法,至少用以解决现有用于育种的数据量不足、基因组选择的准确性不够高的问题。
为实现上述目的,本申请的一些实施例提供了以下几个方面:
第一方面,本申请的一些实施例提供了一种GAN模型的构建方法:所述GAN模型包括第一生成器G1、第二生成器G2、第一判别器D1、第二判别器D2;
所述构建方法包括:获取真实多组学数据和获取拟合基因型数据,所述真实多组学数据包括基因型数据,选择性地包括目标物种的表观组数据、转录组数据、蛋白组数据、代谢组数据、功能组数据中的至少一种以及真实表型数据yreal;所述拟合基因型数据为与所述基因型数据维度相同的一组随机数值;所述真实多组学数据的标签值为True真,所述拟合基因型数据的标签值为False假;
将所述真实多组学数据输入到所述第一生成器G1,通过所述第一生成器G1聚合的数据特征输入到所述第一判别器D1,得到预测表型数据ypre,基于所述预测表型数据ypre和所述真实表型数据yreal的差值构建损失函数训练,得到训练好的第一生成器G1和第一判别器D1;
初始构建所述第二生成器G2的网络结构和基本参数与所述训练好的第一生成器G1保持一致;将所述真实多组学数据通过所述第一生成器G1聚合特征输入到所述第二判别器D2,得到第一判定结果,将所述拟合基因型数据通过所述第二生成器G2聚合特征输入到所述第二判别器D2,得到第二判定结果,基于所述第一判定结果为True真和所述第二判定结果为False假的损失函数值更新所述第二判别器D2参数,基于所述第二判定结果为True真的损失函数值更新所述第二生成器G2参数,经过对抗训练直到所述第二判别器D2无法正确区分输入的真或假,得到训练好的第二生成器G2和第二判别器D2。
在优选实施例中,所述基于所述预测表型数据和所述真实表型数据的差值构建损失函数训练,损失函数通过平均绝对误差定义,损失函数L(x)=|D1(x|G1)-yreal|。
在优选实施例中,所述对抗训练采用的损失函数通过交叉损失熵来定义,交叉损失熵定义为:H(p,q)=-∑ipilogqi;
当接收第一生成器G1的输入,并判定为真,损失函数
接收第二生成器G2的输入,并判定为False假,损失函数
接收第二生成器G2的输入,并判定为True真,损失函数
所述判别器D2的损失函数为极小化极大估值函数V(G2,D2):
所述生成器G2的损失函数定义为极小化估值函数V(G2):
其中,G1(x|real)为所述G1处理所述真实多组学数据的输出,G2(x|fake)为所述G2处理所述拟合基因型数据的输出。
在优选实施例中,所述对抗训练步骤为:
步骤A、从指定的数据分布中随机选择与真实基因型数据相同维度的一组随机变量;
步骤B、利用G2接收步骤A生成的随机变量,拟合数据特征,标签为False;
步骤C、从真实数据中选取一定数目的样本,利用G1得到真实数据特征,标签为True;
步骤D、利用B和C按照所述交叉损失熵损失函数V(G2,D2)训练D2;
步骤E、重新按照A生成一组随机变量,标签定义为True,按照所述交叉损失熵损失函数V(G2)训练G2;
步骤F、按照指定步数重复上述A-E步骤,直到满足设定条件停止训练。
第二方面,本申请的一些实施例还提供了一种数据拟合的方法,采用如上所述的构建方法构建的GAN模型进行多组学数据拟合,包括以下步骤:候选群体基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,实现多组学数据的拟合。
第三方面,本申请的一些实施例还提供了一种表型预测的方法,采用如上所述的构建方法构建的GAN模型进行表型预测,包括以下步骤:
将候选群体多组学数据输入到所述G1,通过所述G1聚合的数据特征输入到所述D1,得到候选群体的预测表型;
或者,将候选群体基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,输入所述G1得到聚合特征,再通过所述D1得到候选群体的预测表型;
或者,将候选群体基因型数据输入所述G2得到聚合特征,再进入到所述D1,得到候选群体的预测表型。
第四方面,本申请的一些实施例还提供了一种样本扩充的方法,采用如上所述的方法构建的GAN模型进行样本扩充,包括以下步骤:
获取拟合基因型数据,将所述拟合基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,输入所述G1得到聚合特征,再通过所述D1得到拟合基因型数据对应的预测表型;
或者,将获取的拟合基因型数据输入所述G2得到聚合特征,进入到所述D1得到拟合基因型数据对应的预测表型。
第五方面,本申请的一些实施例还提供了一种育种方法,采用如上所述的方法构建的GAN模型进行表型预测,根据获取的预测表型,用于育种;所述预测表型通过如上所述的方法获得。
第六方面,本申请的一些实施例还提供一种计算机设备,所述设备包括:一个或多个处理器;以及存储有计算机程序指令的存储器,所述计算机程序指令在被执行时使所述处理器执行如前所述的方法。
第七方面,本申请的一些实施例还提供一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如前所述的方法。
相较于现有技术,本发明具有如下有益效果:
一、聚焦GAN到基因组选择模型上,通过生成器不断拟合真实数据特征,通过判别器不断进行真假数据的鉴定。在生成器和判别器不断对抗式学习中,实现生成器生成符合预期数据特征的数据的目的。
二、针对测定多组学数据成本很高,在实际育种实验中不易获得的缺陷,本发明的这种生成对抗式基因组选择体系,可以利用已经测定包括基因组、表观组、转录组、蛋白组、代谢组、表型组等在内的多组学数据的训练群体,构建多组学数据生成器,自主学习和拟合多组学数据特征,并对候选群体进行多组学数据特征的生成。
三、针对训练群体个数远低于分子标记数目的缺陷,本发明的这种生成对抗式基因组选择体系,可以利用训练群体的多组学数据,构建群体数据生成器,自主学习和拟合多组学数据特征和表型的关联,并进行候选群体的扩充。
附图说明
图1为本申请实施例提供的一种GAN模型的架构示意图;
图2为本申请实施例提供的表型预测的实验数据。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本文中使用以下术语:GAN(Generative Adversarial Network)为生成对抗式网络,是一种基于对抗学习的深度生成模型;LASSO(LeastAbsolute Shrinkage andSelection Operator):最小绝对收缩和选择算子;SVR(Support Vector Regression):支持向量回归;SVC(Support Vector Classification):支持向量分类;RFC(Random ForestClassification):随机森林分类;PCC(Pearson correlation coefficient):皮尔森相关系数;SNP(Single Nucleotide Polymorphism):单核苷酸多态性;AA:代表等位基因是AA;AT:代表等位基因是AT;TT:代表等位基因是TT。
实施例一
一种GAN模型的构建方法,所述GAN模型包括第一生成器G1、第二生成器G2、第一判别器D1、第二判别器D2。如图1所示,为本发明的GAN模型的架构示意图,GAN模型由四部分组成:第一生成器G1、第二生成器G2、第一判别器D1和第二判别器D2。第一生成器G1负责多组学数据特征提取,主要包括,接收真实多组学数据作为输入,通过多层神经网络的处理,将提取的聚合特征作为输出。第二生成器G2负责多组学数据特征拟合,主要包括,接收拟合基因型数据作为输入,通过多层神经网络的处理,将拟合的聚合特征作为输出。其中,拟合基因型数据为与真实基因型数据维度相同的随机数值,该随机数值的取值空间就是真实基因型的取值空间。并且,G2的多层神经网络的结构和基本参数与G1保持一致。第一判别器D1负责利用提取的信息特征预测表型,主要包括,接收来自第一生成器G1中提取的聚合特征,或者来自第二生成器G2中拟合的聚合特征作为输入,通过多层神经网络的处理,将预测的表型数据作为输出。第二判别器D2负责判断数据来源于第一生成器G1(真实数据)还是第二生成器G2(拟合数据),主要包括,接收来自第一生成器G1中提取的聚合特征,或者来自第二生成器G2中拟合的聚合特征作为输入,通过多层神经网络的处理,将判别信息输出。
本实施例的GAN模型的构建方法包括以下步骤:
步骤S101,获取真实多组学数据,所述真实多组学数据包括基因型数据,可选择地包括多学组数据以及真实表型数据yreal,多学组数据包括目标物种的表观组数据、转录组数据、蛋白组数据、代谢组数据、功能组数据中的至少一种。
获取拟合基因型数据,所述拟合基因型数据为与所述基因型数据维度相同的一组随机数值;所述真实多组学数据的标签值为True真,所述拟合基因型数据的标签值为False假;
步骤S102,将所述真实多组学数据输入到所述第一生成器G1,通过所述第一生成器G1聚合的数据特征输入到所述第一判别器D1,得到预测表型数据ypre,基于所述预测表型数据ypre和所述真实表型数据yreal的差值构建损失函数训练,得到训练好的第一生成器G1和第一判别器D1;
步骤S103,初始构建所述第二生成器G2的网络结构和基本参数与所述训练好的第一生成器G1保持一致;将所述真实多组学数据通过所述第一生成器G1聚合特征输入到所述第二判别器D2,得到第一判定结果,将所述拟合基因型数据通过所述第二生成器G2聚合特征输入到所述第二判别器D2,得到第二判定结果,基于所述第一判定结果为True真和所述第二判定结果为False假的损失函数值更新所述第二判别器D2参数,基于所述第二判定结果为True真的损失函数值更新所述第二生成器G2参数,经过对抗训练直到所述第二判别器D2无法正确区分输入的真或假,得到训练好的第二生成器G2和第二判别器D2。
具体的,步骤S101中,目前常见的应用比较广泛的多组学数据库,包括cbioPortal,ISwine,FAANG,GWAS Atlas,IAnimal,iSMOD,CottonMD,Teabase,SoyOmics等数据库。
在本申请一些实施例中,
真实多组学数据生成器G1:
根据多组学数据的结构,构建深度神经网络,从最底层的基因型数据开始,逐层进行数据特征的提取,直至最顶层聚合特征的输出。
一般来说,应该至少包括1个输入层和1个输出层用于满足最少基因型数据的输入要求。
真实多组学数据生成器,即第一生成器G1的输入必须输入的数据是基因型数据,定义为real_g1;其次是可以选择性输入的多组学数据,比如表观组数据real_e1,转录组数据real_t1,蛋白组数据real_p1,代谢组数据real_m1,功能组数据real_f1。
对于接收输入数据(其中基因型数据是必须数据,其他数据选择性输入当然也可以全部输入)的输出函数可以为:F(x)=G1(x|real_g1)或者为F(x)=G1(x|real_g1,real_e1),F(x)=G1(x|real_g1,real_e1,real_t1,real_p1,real_m1,real_f1)等。
这一步的F(x)主要目的是为了配合下面的D1生成器,确认需要拟合的多组学特征,也可以理解为定量多组学数据特征。
拟合多组学数据生成器G2:
拟合多组学数据生成器,即第二生成器G2的输入数据是和real_g1相同维度的一组随机数值fake_g1,其随机空间就是real_g1的取值空间;
这里真实的基因型数据有几种编码方式,比如[-1,0,1]或者[0,1,2]等等;
如果对于一个样本而言,real_g1有10个SNP,对于第一种编码情况[-1,0,1],real_g1的10个数值就是这三种取值,也因此fake_g1也是随机选取的这三种值。
G2网络结构和基本参数与真实多组学数据生成器G1保持一致,主要目的是为了保证生成的多组学数据和真实的多组学数据是符合相同的数据分布。这么设计,当整个过程完成以后,G2生成的数据就是符合G1数据特征的数据。而G1的每一层设计是针对于多组学数据每一层的,因此G2的每一层也对应于拟合多组学数据的每一层。
当模型训练完成,就可以通过模型回溯,提取每一层的值,来一一对应每一层的多组学数据。
又因为G2输入的随机基因型数据其实就是一个假定的样本,因此,就可以针对这个样本,实现多组学数据的生成。
因为G1和G2的输出是一致的,而G1和G2的模型框架又是一致的,对于G1而言,接收的多组学数据是真实的多组学数据,所以G2得到的每一层的数据就可以对应于G2样本的多组学数据。
这一步的F(x)主要目的是为了配合前面的第一生成器G1和下面的第二判别器D2,生成符合真实数据real特征分布的多组学数据。
对于接收输入数据(只有随机噪音,可以视为某个样本的基因型数据)的输出函数为:
F(x)=G2(x|fake_g1)
这一步的F(x)是为了配合下面的D2判别器,实现生成与真实数据相同分布的目的。
真实表型判别器D1
根据真实多组学数据生成器所提取的聚合特征,构建深度神经网络,逐层进行特征的汇总,直至最顶层表型值的输出。
一般来说,应该至少包括1个输入层和1个输出层。
真实表型判别器,即第一生成器D1的输入数据是经过G1生成的聚合的数据特征,输出定义为:
F(x)=D1(x|G1)
这一步的F(x)主要目的是为了固定真实多组学数据特征。
具体的过程名字为表型预测,也就是对于输入G1的多组学数据,通过G1聚合的数据特征,实现样本表型(yreal)的输出。因此目标是尽可能的接近真实的表型。
损失函数通过平均绝对误差来定义:L(x)=|D1(x|G1)-yreal|
拟合多组学数据判别器D2
拟合多组学数据判别,即第二判别器D2根据拟合多组学数据生成器所提取的聚合特征,构建深度神经网络,逐层进行特征的汇总,直至最顶层判别信息的输出。
一般来说,应该至少包括1个输入层和1个输出层。
这一步的判别器D2就是经典GAN的判别器,主要目的就是确保G2的输出和G1的输出是一致的,也就是判别器不能判断数据是来源于真实数据还是拟合数据,就实现了以假乱真的效果,也就是生成符合真实数据特征的数据。
接收的数据是来自于G1的输入和G2的输入,输出数据是判别是否为真的概率:
F(x)=D2(x|G1),数据概率变化范围是[0,1]
F(x)=D2(x|G2),数据概率变化范围是[0,1]
主要过程如下:
接收判别器G1的输入(数据分布用P代替),并判定为真,损失函数通过交叉损失熵来定义:
其中交叉损失熵定义为:
损失函数定义为:
接收判别器G2的输入(数据分布用P代替),并判定为假,损失函数通过交叉损失熵来定义:
损失函数定义为:
接收判别器G2的输入(数据分布用P代替),并判定为真,损失函数通过交叉损失熵来定义:
损失函数定义为:
整个判别器D2的损失函数就可以定义为极小化极大估值函数V(G2,D2):
整个生成器G2的损失函数就可以定义为极小化估值函数V(G2):
其中,G1(x|real)为所述G1处理所述真实多组学数据的输出,G2(x|fake)为所述G2处理所述拟合基因型数据的输出。
训练过程如下:
步骤A、从指定的数据分布中随机选择与真实基因型数据相同维度的一组随机变量;
步骤B、利用G2接收A生成的随机变量,拟合数据特征,标签为False;
步骤C、从真实数据中选取一定数目的样本,利用G1得到真实数据特征,标签为True;
步骤D、利用步骤B和C按照V(G2,D2)定义的损失函数训练D2;
步骤E、重新按照步骤A生成一组随机变量,标签定义为True,按照V(G2)定义的损失函数训练G2;
步骤F、按照指定步数重复上述过程。
一般来说,更新G2的时候D2是固定的,更新D2的时候,G2是固定的。
实施例二
采用上述构建方法构建的GAN模型进行多组学数据拟合,包括以下步骤:将候选群体的基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,实现多组学数据的拟合。
实施例三
采用上述构建方法构建的GAN模型进行表型预测,包括以下方式:将候选群体多组学数据输入到所述G1,通过所述G1聚合的数据特征输入到所述D1,得到候选群体的预测表型;或者,将候选群体基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,输入所述G1得到聚合特征,再通过所述D1得到候选群体的预测表型;或者,将候选群体基因型数据输入所述G2得到聚合特征进入到所述D1,得到候选群体的预测表型。
如图2所示,为本申请实施例提供的表型预测的实验数据的图示,左图为GAN模型相对于其他四个模型相对提升幅度(%)的柱状图,右图为GAN模型预测表型和拟合表型的散点图分布。左图表明,针对同一批样本,发明人通过计算由模型得到的预测表型和真实表型间的皮尔森相关系数(PCC)来进行性能评估,在所有相关系数的计算方法里面,生物领域最常见的就是皮尔森相关系数,也称皮尔森积差相关系数,是一种线性相关系数,用来反映两个变量线性相关程度的统计量。性能评估的结果表明,与最小绝对收缩和选择算子(LASSO)、支持向量回归(SVR)、支持向量分类(SVC)和随机森林分类(RFC)四个模型相比,在PCC指标上,GAN模型的相对于所述的四个模型,提升幅度分别是28%,10%,54%和20%,能够充分发挥深度学习算法的优势,提升基因组选择的准确性。右图表明,针对同一组基因型数据,通过第一判别器D1接收来自第一生成器G1中提取的聚合特征所得到预测表型,和通过第一判别器D1接收来自第二生成器G2中拟合的聚合特征所得到预测表型,两者间的相关系数(PCC)可达0.5,能够弥补数据量的不足。
实施例四
用上述方法构建的GAN模型进行样本扩充:获取拟合基因型数据,将所述拟合基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,输入所述G1得到聚合特征,再通过所述D1得到拟合基因型数据对应的预测表型;或者,获取拟合基因型数据输入所述G2得到聚合特征进入到所述D1,得到拟合基因型数据对应的预测表型。
实施例五
采用上述方法获得的预测表型进行育种:根据所述预测表型的数据,能够用于育种,给育种提供参考。
所述预测表型通过表型预测的方法得到,包括但不限于以下方式:将候选群体多组学数据输入到所述G1,通过所述G1聚合的数据特征输入到所述D1,得到候选群体的预测表型;或者,将候选群体基因型数据输入所述G2,得到G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,输入所述G1得到聚合特征,再通过所述D1得到候选群体的预测表型;或者,将候选群体基因型数据输入所述G2得到聚合特征进入到所述D1,得到候选群体的预测表型。
综上所述,本申请基于上述GAN模型的构建,根据输入的真实多组学数据,进入到G1,提取特征,然后进入到D1,实现G1和D1的训练;然后,随机生成一组噪音,输入到G2,以及真实数据输入到G1,两个的输出进入到D2,进行G2和D2的训练。可以至少用于弥补数据量不足的同时,充分发挥深度学习算法的优势,全面提升基因组选择的准确性。
具体来说,通过本发明实施例可以实现如下技术效果:
一、真实多组学数据的拟合
通过真实多组学数据生成器G1,真实表型判别器D1,实现训练群体多组学数据和表型关联的学习。随后,通过拟合多组学数据生成器G2和拟合多组学数据判别器D2,实现真实多组学数据的拟合。
输入一组基因型已知,但是多组学数据未知的数据,通过G2得到模型中G2各层参数的估计,提取G2中各层的参数,对应于G1模型中多组学数据输入的位置,实现多组学数据的拟合。
二、候选群体的预测
在实现一的基础上,通过候选群体基因型数据的输入,通过拟合多组学数据生成器进行多组学数据的拟合,并通过真实表型判别器,实现候选群体表型的预测。
这一实施方案,可以跨过候选群体多组学数据测定,通过候选群体多组学数据的特征,根据候选群体的基因型,拟合生成一套符合多组学数据的聚合特征的输出。
如果这个样本的多组学数据已知:输入的多组学数据,经过G1,进入到D1,实现表型的预测。
如果这个样本的多组学数据未知,但是基因型是肯定知道的:输入的基因型数据,经过G2,进入到D1,实现表型的预测。
三、训练群体的扩充
在实现一的基础上,通过随机噪音的输入,通过拟合多组学数据生成器进行多组学数据的拟合,并通过真实表型判别器,实现扩充群体表型的填充。通过提取多组学数据生成器各层网络的具体参数,实现填充多组学数据的提取。
随机产生一组随机噪音(参考二、拟合多组学数据生成器G2中的描述),输入到G2,通过G2得到模型中G2各层参数的估计,提取G2中各层的参数,对应于G1模型中多组学数据输入的位置,再输入到G1得到聚合特征,进入到D1,得到预测的表型值;或者,随机产生一组随机噪音,输入到G2得到聚合特征,进入到D1,得到预测的表型值。这样样本基因型有了,表型值也有了,就实现了训练群体的扩充。
四、采用上述预测表型数据,能够用于育种。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种GAN模型的构建方法,其特征在于,所述GAN模型包括第一生成器G1、第二生成器G2、第一判别器D1、第二判别器D2;
所述构建方法包括:获取真实多组学数据和获取拟合基因型数据,所述真实多组学数据包括基因型数据,选择性地包括目标物种的表观组数据、转录组数据、蛋白组数据、代谢组数据、功能组数据中的至少一种以及真实表型数据yreal;所述拟合基因型数据为与所述基因型数据维度相同的一组随机数值;所述真实多组学数据的标签值为True真,所述拟合基因型数据的标签值为False假;
将所述真实多组学数据输入到所述第一生成器G1,通过所述第一生成器G1聚合的数据特征输入到所述第一判别器D1,得到预测表型数据ypre,基于所述预测表型数据ypre和所述真实表型数据yreal的差值构建损失函数训练,得到训练好的第一生成器G1和第一判别器D1;
初始构建所述第二生成器G2的网络结构和基本参数与所述训练好的第一生成器G1保持一致;将所述真实多组学数据通过所述第一生成器G1聚合特征输入到所述第二判别器D2,得到第一判定结果,将所述拟合基因型数据通过所述第二生成器G2聚合特征输入到所述第二判别器D2,得到第二判定结果,基于所述第一判定结果为True真和所述第二判定结果为False假的损失函数值更新所述第二判别器D2参数,基于所述第二判定结果为True真的损失函数值更新所述第二生成器G2参数,经过对抗训练直到所述第二判别器D2无法正确区分输入的真或假,得到训练好的第二生成器G2和第二判别器D2。
2.根据权利要求1所述的方法,其特征在于,所述基于所述预测表型数据和所述真实表型数据的差值构建损失函数训练,损失函数通过平均绝对误差定义,损失函数L(x)=|D1(x|G1)-yreal|。
3.根据权利要求1所述的方法,其特征在于,所述对抗训练采用的损失函数通过交叉损失熵来定义,交叉损失熵定义为:H(p,q)=-∑ipilogqi;
当接收第一生成器G1的输入,并判定为真,损失函数
接收第二生成器G2的输入,并判定为False假,损失函数
接收第二生成器G2的输入,并判定为True真,损失函数
所述判别器D2的损失函数为极小化极大估值函数V(G2,D2):
所述生成器G2的损失函数定义为极小化估值函数V(G2):
其中,G1(x|real)为所述G1处理所述真实多组学数据的输出,G2(x|fake)为所述G2处理所述拟合基因型数据的输出。
4.根据权利要求3所述的方法,其特征在于,所述对抗训练步骤为:
步骤A、从指定的数据分布中随机选择与真实基因型数据相同维度的一组随机变量;
步骤B、利用G2接收步骤A生成的随机变量,拟合数据特征,标签为False;
步骤C、从真实数据中选取一定数目的样本,利用G1得到真实数据特征,标签为True;
步骤D、利用B和C按照所述交叉损失熵损失函数V(G2,D2)训练D2;
步骤E、重新按照A生成一组随机变量,标签定义为True,按照所述交叉损失熵损失函数V(G2)训练G2;
步骤F、按照指定步数重复上述A-E步骤,直到满足设定条件停止训练。
5.一种数据拟合的方法,其特征在于,采用如权利要求1-4任一项所述的构建方法构建的GAN模型进行多组学数据拟合,包括以下步骤:
候选群体基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,实现多组学数据的拟合。
6.一种表型预测的方法,其特征在于,采用如权利要求1-4任一项所述的构建方法构建的GAN模型进行表型预测,包括以下步骤:
将候选群体多组学数据输入到所述G1,通过所述G1聚合的数据特征输入到所述D1,得到候选群体的预测表型;
或者,将候选群体基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,输入所述G1得到聚合特征,再通过所述D1得到候选群体的预测表型;
或者,将候选群体基因型数据输入所述G2得到聚合特征,再进入到所述D1,得到候选群体的预测表型。
7.一种样本扩充的方法,其特征在于,采用如权利要求1-4任一项所述的方法构建的GAN模型进行样本扩充,包括以下步骤:
获取拟合基因型数据,将所述拟合基因型数据输入所述G2,得到所述G2中各层参数的估计值,提取所述G2中各层参数的估计值,对应于G1模型中多组学数据输入的位置,输入所述G1得到聚合特征,再通过所述D1得到拟合基因型数据对应的预测表型;
或者,将获取的拟合基因型数据输入所述G2得到聚合特征,进入到所述D1得到拟合基因型数据对应的预测表型。
8.一种育种方法,其特征在于,采用如权利要求1-4任一项所述的方法构建的GAN模型进行表型预测,根据获取的预测表型,用于育种;所述预测表型通过如权利要求6或7所述的方法获得。
9.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;以及
存储有计算机程序指令的存储器,所述计算机程序指令在被执行时使所述处理器执行如权利要求1-7任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311601745.9A CN117497063A (zh) | 2023-11-27 | 2023-11-27 | Gan模型的构建方法和基于gan模型的数据拟合、表型预测、样本扩充以及育种的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311601745.9A CN117497063A (zh) | 2023-11-27 | 2023-11-27 | Gan模型的构建方法和基于gan模型的数据拟合、表型预测、样本扩充以及育种的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117497063A true CN117497063A (zh) | 2024-02-02 |
Family
ID=89681227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311601745.9A Pending CN117497063A (zh) | 2023-11-27 | 2023-11-27 | Gan模型的构建方法和基于gan模型的数据拟合、表型预测、样本扩充以及育种的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117497063A (zh) |
-
2023
- 2023-11-27 CN CN202311601745.9A patent/CN117497063A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Flagel et al. | The unreasonable effectiveness of convolutional neural networks in population genetic inference | |
Nevado et al. | Resequencing studies of nonmodel organisms using closely related reference genomes: optimal experimental designs and bioinformatics approaches for population genomics | |
CN111046930A (zh) | 一种基于决策树算法的供电服务满意度影响因素识别方法 | |
CN113364751A (zh) | 网络攻击预测方法、计算机可读存储介质及电子设备 | |
Huang et al. | Harnessing deep learning for population genetic inference | |
EP3929928A1 (en) | Associating pedigree scores and similarity scores for plant feature prediction | |
US20230108241A1 (en) | Predicting variant pathogenicity from evolutionary conservation using three-dimensional (3d) protein structure voxels | |
CN109635008B (zh) | 一种基于机器学习的设备故障检测方法 | |
CN117497063A (zh) | Gan模型的构建方法和基于gan模型的数据拟合、表型预测、样本扩充以及育种的方法 | |
CN116563602A (zh) | 基于类别级软目标监督的细粒度图像分类模型训练方法 | |
US20220336057A1 (en) | Efficient voxelization for deep learning | |
US11515010B2 (en) | Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures | |
Zhai et al. | Parameter estimation method of mixture distribution for construction machinery | |
Himani et al. | A comparative study on machine learning based prediction of citations of articles | |
WO2022221593A1 (en) | Efficient voxelization for deep learning | |
KR20230171930A (ko) | 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들 | |
CN110955811B (zh) | 基于朴素贝叶斯算法的电力数据分类方法及系统 | |
CN111863136A (zh) | 一种多组学数据集间关联分析的集成系统和方法 | |
CN113177604B (zh) | 一种基于改进l1正则化和聚类的高维数据特征选择方法 | |
US20230343413A1 (en) | Protein structure-based protein language models | |
CN118298929A (zh) | 基于全基因组评估育种表现型的方法、设备和存储介质 | |
KR20240082269A (ko) | 3차원(3d) 단백질 구조 복셀을 사용하는 진화 보존으로부터의 변이체 병원성 예측 | |
Oliveira et al. | On Clustering Validation in Metagenomics Sequence Binning | |
WO2023059750A1 (en) | Combined and transfer learning of a variant pathogenicity predictor using gapped and non-gapped protein samples | |
KR20240088641A (ko) | 갭 단백질 샘플 및 비-갭 단백질 샘플을 사용하는 변이체 병원성 예측자의 결합 학습 및 전이 학습 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |