CN116895334A - 用于估算或预测基因型和表型的方法和组成 - Google Patents

用于估算或预测基因型和表型的方法和组成 Download PDF

Info

Publication number
CN116895334A
CN116895334A CN202310873417.8A CN202310873417A CN116895334A CN 116895334 A CN116895334 A CN 116895334A CN 202310873417 A CN202310873417 A CN 202310873417A CN 116895334 A CN116895334 A CN 116895334A
Authority
CN
China
Prior art keywords
genotype
potential
phenotype
encoder
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310873417.8A
Other languages
English (en)
Inventor
A·鲍姆加滕
J·P·格克
E·罗杰斯-梅尔尼克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Hi Bred International Inc
Original Assignee
Pioneer Hi Bred International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Hi Bred International Inc filed Critical Pioneer Hi Bred International Inc
Publication of CN116895334A publication Critical patent/CN116895334A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6895Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/13Plant traits
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Abstract

提供了用于估算或预测基因型、单倍型、分子表型、农艺表型和/或共祖率的方法和组成。所提供的方法和组成包括使用潜在空间来生成独立于基础的基因型或表型数据的潜在空间表示或潜在向量。所述方法可以包括通过借助基于机器学习的编码器框架将源自基因型或表型数据的离散或连续变量编码成潜在向量来生成通用的潜在空间表示。本文提供了将获得自一个或多个群体或样品集的基因型或表型数据进行参数化表示以估算或预测目的基因型或表型的通用方法。

Description

用于估算或预测基因型和表型的方法和组成
相关申请的交叉引用
本申请要求于2020年1月13日提交的美国临时申请号62/960363、于2019年4月12日提交的美国临时申请号62/833497和于2019年3月11日提交的美国临时申请号62/816719的权益和优先权,这些中的每一个通过引用以其全文并入本文。
技术领域
本公开总体上涉及估算(imputation)和预测领域。
背景技术
在过去的60到70年里,植物育种对农业生产力的贡献是惊人的(Smith(1998)53rdAnnual corn and sorghum research conference[第53届玉米和高粱年度研究会议],American Seed Trade Association[美国种子贸易协会],Washington,D.C.[华盛顿特区];Duvick(1992)Maydica[Maydica期刊]37:69)。这种情况的发生在很大程度上是因为植物育种家善于吸收和整合来自对源自多个优良自交系杂交的分离子代的广泛评估的信息。进行这样的育种计划需要大量的资源。例如,一名商业玉蜀黍育种家可以在跨广阔的地理区域的重复田间试验中对源自100至200个杂交的1,000至10,000个F3顶交子代进行评估。
发明内容
在一个实施例中,本文提供了一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中估算或预测基因型和/或表型的通用方法。在一些方面,所述方法包括通过借助基于机器学习的全局编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示。在一些实例中,所述编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的编码器框架是生成式对抗网络(GAN)。在一些方面,所述基于机器学习的编码器框架是神经网络。
在一些方面,全局潜在空间或全局潜在空间表示独立于用于表示基因或表型信息的基础的基因型或表型关联。例如,所生成的潜在表示对特定基因型或表型关联特征的选择是不变的。在一些方面,所述方法包括通过借助基于机器学习的局部编码器框架将源自基因型或表型关联训练数据集的离散或连续变量子集编码成潜在向量来生成局部潜在表示,其中所述局部潜在空间或局部潜在空间表示用来自所述局部编码器和所述全局编码器的输入生成。在一些实例中,所述局部编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的编码器框架是生成式对抗网络(GAN)。在一些方面,所述基于机器学习的编码器框架是神经网络。
在一些方面,所述方法包括通过局部解码器对所述全局潜在表示和所述局部潜在表示进行解码,从而通过所解码的全局潜在表示和所述局部潜在表示的组合对所述测试数据的所述基因型或表型进行估算或预测。
在一些方面,所述基因型关联数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。所述离散变量的子集可以是定位于染色体区段的多个SNP。在一些方面,所述编码器基于神经网络算法。在一些方面,所估算或预测的表型是预测的增产量。在一些方面,所估算或预测的表型是根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性、耐旱性、或其组合。在一些方面,所估算或预测的基因型是多个单倍型。在一些方面,所述局部解码器估算或预测局部高密度(HD)SNP。
在一些方面,所述基因型关联数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型关联数据对应的标记或SNP的相同集。在一些方面,所述局部解码器基于对一个群体的基因型关联数据的解码,对另一个群体的局部HDSNP进行估算。在一些方面,所述局部解码器基于对一个群体的基因型关联数据的解码,对另一个群体的单倍型进行估算。在一些方面,所述局部解码器估算或预测的分子表型包括但不限于:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合。在一些方面,所述局部解码器估算或预测测试群体中的一个或多个的群体共祖率。
在一个实施例中本文还提供了一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中推断目的特性(例如期望特性)的通用方法。在一些方面,所述方法包括通过借助基于机器学习的全局编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间或全局潜在空间表示独立于基础的基因型或表型关联。在一些实例中,所述全局编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的编码器框架是生成式对抗网络(GAN)。在一些方面,所述基于机器学习的编码器框架是神经网络。在一些方面,所述方法包括通过局部解码器对所述全局潜在表示进行解码,从而通过所解码的全局潜在表示推断所述测试数据的期望特性。
在一些方面,所述目的特性(例如期望特性)不限于确定两个或更多个植物群体的共祖率或预测增产量或目的农艺表型。在一些方面,所述编码器基于神经网络算法。
本文还提供了一种开发基因型或表型数据的通用表示的通用方法,所述方法包括由第一神经网络接收一个或多个基因型或表型训练数据,其中所述第一神经网络包括全局编码器。在一些方面,所述方法包括由全局编码器通过基于机器学习的神经网络训练框架将来自一个或多个基因型或表型训练数据的信息编码成潜在向量。在一些方面,所述方法包括将所编码的潜在向量(由其他基因型或表型数据生成)提供给第二基于机器学习的神经网络,其中所述第二神经网络包括解码器。在一些方面,所述方法包括训练所述解码器以基于预先指定的或学习的目标函数针对所编码的潜在向量预测目的基因型或表型。在一些方面,所述方法包括由所述解码器针对所述目标函数解码所编码的潜在向量。在一些方面,所述方法包括提供所解码的潜在向量的对于所述目标函数而言的输出。
本文还提供了一种基于基因型或表型数据选择目的属性的方法。在一些方面,所述方法包括由第一神经网络接收一个或多个全局基因型或表型训练数据,其中所述第一神经网络包括全局编码器。在一些实例中,所述全局编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的神经网络是生成式对抗网络(GAN)。
在一些方面,所述方法包括由所述全局编码器将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成潜在向量。在一些方面,所述方法包括使用所述潜在向量对所述全局编码器进行训练以学习基础的基因型或表型相关性和/或关联性。在一些方面,所述方法包括由第二神经网络接收一个或多个局部基因型或表型训练数据,其中所述局部基因型或表型数据指向全局基因型或表型数据的子集,所述子集对应于某个目的属性,其中所述第二神经网络包括局部编码器。在一些实例中,所述局部编码器是自编码器。在一些实例中,所述自编码器是变分自编码器。在一些方面,所述方法包括由所述局部编码器将来自所述一个或多个局部基因型或表型训练数据的基因型或表型信息编码成潜在向量。在一些方面,所述方法包括使用所述潜在向量对所述局部编码器进行训练以学习所述目的属性的基础基因型相关性和/或关联性。在一些方面,所述方法包括将来自所述全局编码器和/局部编码器的所编码的潜在向量提供给第三神经网络,其中所述第三神经网络包括解码器。在一些方面,所述方法包括训练所述解码器以使用预先指定的或学习的目标函数来预测对于来自所述全局编码器和/所述局部编码器的所编码的潜在向量而言的所述目的属性。在一些方面,所述方法包括由所述解码器针对所述目标函数解码所编码的潜在向量。在一些方面,所述方法包括提供所解码的潜在向量的对于所述目标函数而言的输出。
所述解码器可以包括一个或多个解码器。在一些方面,所述解码器是局部解码器。在一些方面,所述解码器是全局解码器并解码来自所述全局编码器的所编码的潜在向量。在一些方面,所述全局基因型训练数据包括整个基因组的标记。在一些方面,所述局部基因型数据来自特定的目的染色体基因组区域或等位基因。在一些方面,所述方法包括同时训练所述全局编码器和解码器。
在一些方面,所述局部属性可以包括但不限于:SNP、等位基因、标记、数量性状基因座(QTL)、基因表达、表型变异、代谢物水平、或其组合。在一些方面,所述编码器可以是自编码器。在一些方面,所述自编码器是变分自编码器。
在一些方面,所述基因型训练数据包括但不限于SNP或indel(插入/缺失)序列信息。在一些方面,所述基因型或表型训练数据包括来自计算机模拟杂交的序列信息。在一些方面,将编码器的权重相对于重构误差进行更新,以便使基因型或表型训练数据信息在潜在空间内分离。在一些方面,用现有的基因型或表型数据训练所述解码器。
本文还提供了一种用于生成基因型或表型数据确定的计算机系统。在一个实施例中,所述系统包括第一神经网络和第二神经网络,所述第一神经网络包括编码器,所述编码器被配置成将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成通用潜在变量,其中所述编码器已经过训练以通过基于机器学习的神经网络框架表示基因型或表型关联;所述第二神经网络包括解码器,所述解码器被配置成解码所编码的潜在向量并生成对于目标函数而言的输出。在一些方面,所述编码器可以是自编码器。在一些方面,所述自编码器是变分自编码器。
在一个实施例中本文还提供了一种对获得自群体或样品集的基因型或表型数据进行参数化表示以估算或预测期望基因型和/或表型的通用方法。在一些方面,所述方法包括通过借助基于机器学习的编码器框架将源自基因型或表型数据的离散或连续变量编码成潜在向量来生成通用的潜在空间表示,其中所述潜在空间或潜在空间表示独立于基础的基因型或表型数据。在一些方面,所述方法包括由解码器将所述潜在表示解码,从而通过所解码的潜在表示估算或预测所述期望基因型或表型。
在一些方面,所述基因型数据是来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。在一些方面,所述离散变量的子集是定位于染色体区段的多个SNP。在一些方面,所述编码器基于神经网络算法。在一些方面,所估算或预测的表型是增产量、根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性、耐旱性、或其组合。
在一些方面,所估算或预测的基因型是多个单倍型。
在一些方面,所述解码器估算或预测SNP,如局部高密度(HD)SNP,和/或indel。
在一些方面,基因型数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不具有与所述基因型数据对应的标记或SNP的相同集。在一些方面,所述解码器基于对一个群体的基因型数据的解码,对另一个群体的局部HD SNP进行估算或预测。在一些方面,所述解码器基于对一个群体的基因型数据的解码,对另一个群体的单倍型进行估算或预测。
在一些方面,所述解码器估算或预测选自以下的分子表型:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合。在一些方面,所述解码器估算或预测群体中的一个或多个的群体共祖率。
本文还提供了一种用于生成基因型或表型数据确定的计算机系统。在一个实施例中,所述系统包括:第一网络和第二网络,所述第一网络包括编码器,所述编码器被配置成将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成通用潜在变量,其中所述编码器已经过训练以通过基于机器学习的网络框架表示基因型或表型关联;所述第二网络包括解码器,所述解码器被配置成解码所编码的潜在向量并生成对于目标函数而言的输出。在一些方面,所述编码器可以是自编码器。在一些方面,所述自编码器是变分自编码器。在一些方面,所述基于机器学习的神经网络框架是生成式对抗网络(GAN)。在一些方面,所述基于机器学习的神经框架是神经网络。
本文还提供了一种用于训练神经网络以在基因分型平台之间转换的计算装置。在一个实施例中,所述计算装置包括存储器和一个或多个处理器。所述一个或多个处理器被配置用于获得与来自所述基因分型平台的至少两个群体相关的训练数据;通过使用第一编码器机器学习网络将源自所述训练数据的变量编码成第一潜在向量集来生成第一潜在空间表示;通过使用第二编码器机器学习网络将来自所述训练数据的变量的子集编码成第二潜在向量集来生成第二潜在表示;将全局潜在表示和局部潜在表示组合以训练解码器机器学习网络;并对来自所组合的全局潜在表示和局部潜在表示的一个或多个潜在向量进行解码,以使用所述解码器机器学习网络估算或预测与所述一个或多个潜在向量对应的训练数据的基因型或表型。
在一些实施例中,所述训练数据可以包括全基因组基因型关联训练数据和/或全表型组表型关联训练数据。
在一些实施例中,所述全基因组基因型关联训练数据可以包括来自多个基因上趋异的群体的基因型标记、indel、和/或单核苷酸多态性(SNP)。
在一些实施例中,所述变量的子集可以是多个indel和/或定位于染色体区段的单核苷酸多态性(SNP)。
在一些实施例中,所述全基因组基因型关联训练数据可以获得自源自两个或更多个育种计划的植物群体。所述育种计划可能不包括与所述基因型关联数据对应的标记、indel、和/或单核苷酸多态性(SNP)的相同集。
在一些实施例中,所述第一编码器机器学习网络可以包括全局变分自编码器框架。
在一些实施例中,所述第二编码器机器学习网络可以包括局部变分自编码器框架。
在一些实施例中,所述第一潜在空间表示可以独立于所述基础的基因型或表型关联。
在一些实施例中,所估算或预测的表型可以是预测的增产量。
在一些实施例中,所估算或预测的表型可以是根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性和/或耐旱性。
在一些实施例中,所估算或预测的基因型可以是多个单倍型。
在一些实施例中,所估算或预测的基因型可以是局部高密度(HD)SNP。
在一些实施例中,对来自所述所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码可以包括对来自所述所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码以基于对第二群体的全基因组基因型关联训练数据的解码来估算或预测第一群体的局部高密度(HD)SNP。
在一些实施例中,对来自所述所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码可以包括对来自所述所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码以基于对第二群体的基因型关联数据的解码来估算或预测第一群体的单倍型。
在一些实施例中,所估算或预测的表型可以包括基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置和/或转录因子结合状态。
在一些实施例中,对来自所述所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码可以包括对来自所述所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码以估算或预测所述训练数据的所述测试群体中的一个或多个的群体共祖率。
本文还提供了一种用于训练神经网络以在基因分型平台之间转换的系统。所述系统包括一个或多个服务器以及以通信方式耦接至所述一个或多个服务器的计算装置。所述一个或多个服务器中的每一个存储与一个或多个群体相关的训练数据。所述计算装置进一步包括存储器和一个或多个处理器。所述一个或多个处理器被配置用于获得训练数据;通过使用第一编码器机器学习网络将源自所述训练数据的变量编码成第一潜在向量集来生成第一潜在空间表示;通过使用第二编码器机器学习网络将来自所述训练数据的变量的子集编码成第二潜在向量集来生成第二潜在表示;将全局潜在表示和局部潜在表示组合以训练解码器机器学习网络;并对来自所组合的全局潜在表示和局部潜在表示的一个或多个潜在向量进行解码,以使用所述解码器机器学习网络估算或预测与所述一个或多个潜在向量对应的训练数据的基因型或表型。
附图说明
根据以下具体实施方式和附图,可以更全面地理解本发明,所述具体实施方式和附图形成本申请的一部分。
图1是根据如本文所公开的实施例的展示示例性计算机系统的框图,所述计算机系统包括服务器和计算装置;
图2是示意图,其展示了基于基础标记信息的潜在表示使用来自两个不同平台的标记信息估算标记、单倍型或其他信息(例如群体遗传学、基因组预测);
图3是示意图,其展示了基于基础SNP信息的潜在表示将单倍型估算到种质上的方法的一个实施例中的步骤;
图4是流程图,其示出了基于基础标记信息的潜在表示将单独的标记群体估算到种质(其中种质的历史关系是未知的)并使用所得的所估算的信息促进分子育种应用、单倍型框架生成、和/或独立于基因分型平台的多样性表征的一个实例;
图5A和图5B是示意图,其展示了估算来自两个不同组(A组和B组)的经组合的产量标记的方法的一个实施例中的步骤。步骤1和2在图5A中示出并且步骤3在图5B中示出;
图6是一个实例的示意图,所述示意图示出了可以使用所估算信息的潜在应用,所述所估算信息基于来自多个标记平台的基础标记信息(如遗传元件)的共同潜在表示;
图7是预测基因型之间共祖率的一个方法的一个实例的示意图;
图8是一个实例的示意图,所述示意图示出了基于来自多个标记平台的基础标记信息的共同潜在表示的所估算信息可以用于聚类、选择推断、Fstats、历史人口统计中;
图9是示例性图,其展示了基础的不相交标记信息的通用转换如何可以导致稳健的、有遗传意义的表示;
图10展示了潜在表示如何可以用于预测不同群体内和不同群体间个体的共祖率;
图11展示了可以如何利用单倍型信息(其可以基于通用潜在空间估算)以在基于单倍型水平复制的分子功能研究中汇集统计功效的实施例;
图12展示了通过潜在表示的单倍型信息的利用如何实现增加的统计功效以基于ATAC-seq测定检测可及染色质;并且
图13-20是编码器和解码器的示例输入和输出。
具体实施方式
应当理解,本发明不限于特定实施例,所述实施例当然可以变化。还应当理解,本文使用的术语仅用于描述特定实施例的目的,而不旨在是限制性的。此外,出于引用的目的,本文提及的所有出版物均以相同的范围以引用方式并入,如同各自被明确且单独地表明通过引用并入。
本文提供的方法和系统将正常情况下与机器学习应用相关的劳动密集型步骤最小化,所述机器学习应用例如是与问题范围相关的特征集的构建、将使用的一种或多种算法的约束满足度以及对测试数据的最小预测误差。
参照图1,示出了用于对基因型或表型关联数据进行参数化表示的计算机系统100的框图。为此,系统100可以包括计算装置110和与计算机系统相关联的服务器130。系统100可以进一步包括与其他计算机系统相关联的一个或多个服务器140,使得计算装置110可以与运行不同平台的不同计算机系统通信。然而,应理解的是,在一些实施例中,单个服务器(例如,服务器130)可以运行多个平台。计算装置110经由网络150(例如,局域网(LAN)、广域网(WAN)、个人区域网(PAN)、互联网等)以通信方式耦接至所述一个或多个服务器130、140。
在使用时,计算装置110可以通过训练神经网络以在基因分型平台之间通用转换来预测基因型和/或表型关联。更具体地,计算装置110可以从多个平台或潜在不相交平台获得数据并将数据转换成通用的、平台独立的(例如,标记独立的)潜在空间。例如,在基因组表征的背景下,潜在空间的平滑空间组织捕获存在于数据集内的不同水平的祖先关系。群体内的基因组变异,如植物育种计划,可以通过多种方法来表征。例如,用公用平台对基因型进行表征,所述公用平台询问局部性变体,如单核苷酸多态性(SNP)和/或插入/删除(indel)。由于群体的祖先重组和人口统计历史,这些变体倾向于在连锁的区段内共分离(单倍型)。此外,然后可以通过单基因型含有的单倍型集对所述单基因型进行进一步表征。如下文进一步所述,变分自编码器(VAE)可用于将给定产量标记集内所含有的信息压缩到能够捕获全基因组的这些共分离模式的公用的、标记不变的潜在空间。
通常,计算装置110可以包括任何现有的或未来的能够训练神经网络的装置。例如,计算装置可以是但不限于计算机、笔记本电脑、膝上型电脑、移动装置、智能手机、平板电脑、可穿戴设备、智能眼镜或能够与服务器130通信的任何其他合适的计算装置。
计算装置110包括处理器112、存储器114、输入/输出(I/O)控制器116(例如,网络收发器)、存储器单元118和数据库120,所述所有都可以经由一个或多个地址/数据总线互连。应理解的是,虽然仅示出了一个处理器112,但计算装置110可以包括多个处理器。尽管I/O控制器116以单个框示出,但应理解的是,I/O控制器116可以包括许多不同类型的I/O组件(例如,显示器、用户界面(例如,显示屏、触摸屏、键盘)、扬声器和麦克风)。
如本文所公开的处理器112可以是能够处理数据的任何电子装置,例如中央处理单元(CPU)、图形处理单元(GPU)、片上系统(SoC)或任何其他合适类型的处理器。应理解的是,本文所述的示例方法的各种操作(即,由计算装置110执行的)可以由一个或多个处理器112执行。存储器114可以是随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、或任何其他合适类型的存储器,所述存储器能够实现对处理器112为了实施本文所公开的任何方法而需要访问的数据(如指令代码)的存储。应理解的是,在一些实施例中,计算装置110可以是计算装置或多个具有分布式处理的计算装置。
如本文所用,术语“数据库”可以指单个数据库或其他结构化数据存储,或指两个或更多个不同数据库或结构化数据存储组件的集合。在说明性实施例中,数据库120是计算装置110的一部分。在一些实施例中,计算装置110可以经由网络(如网络150)访问数据库120。数据库120可以存储生成通用连续潜在空间表示所必需的数据(例如,输入、输出、中间数据)。例如,数据可以包括获得自一个或多个服务器130、140的基因型数据,如单核苷酸多态性(SNP)、遗传标记、单倍型、序列信息和/或表型数据。
计算装置110可以进一步包括存储在存储器单元118中的若干软件应用,可以将所述存储器单元118称为程序存储器。计算装置110上的各种软件应用可以包括用于执行与本文所述方法相关联的处理功能的特定程序、例程或脚本。另外地或替代性地,计算装置110上的各种软件应用可以包括如下通用软件应用,所述通用软件应用用于数据处理、数据库管理、数据分析、网络通信、web服务器操作或本文所述的或典型地由服务器执行的其他功能。各种软件应用可以在相同的计算机处理器上或在不同的计算机处理器上执行。另外地或替代性地,软件应用可以与可以安装在计算装置110内或连接到所述计算装置的各种硬件模块交互。此类模块可以实施本文所讨论的各种示例性方法功能的一部分或全部、或其他相关实施例。
虽然图1中仅示出了一个计算装置110,但服务器130、140能够与类似于计算装置110的多个计算装置进行通信。尽管未在图1中示出,但与计算装置110类似,服务器130、140也包括处理器(例如,微处理器、微控制器)、存储器和输入/输出(I/O)控制器(例如,网络收发器)。服务器130、140可以是单个服务器或多个具有分布式处理的服务器。服务器130、140可以从计算装置110接收数据和/或向计算装置110传输数据。
网络150是任何合适类型的计算机网络,其在功能上将至少一个计算装置110与服务器130、140耦接。网络150可以包括专有网络、安全公共因特网、虚拟专用网络和/或一种或多种其他类型的网络,如专用存取线路、简单普通电话线路、卫星链路、蜂窝数据网络、或其组合。在网络150包括因特网的实施例中,数据通信可以经由因特网通信协议在网络150上进行。
现在参照图2,示出了示意图,所述示意图展示了来自多个平台的标记信息用于构建对输入标记平台不敏感的基因型的通用潜在表示的用途。如下文进一步所述,通用潜在表示可用于各种下游分析,如标记估算、单倍型估算、基因组预测或群体遗传推断。为此,不同的基因型/表型应用可以涉及使用变分自编码器(VAE)。一个这样的实例是针对基因分型平台间的通用转换。VAE是深度神经网络和概率图模型的混合,其能够实现压缩的潜在表示的构建,所述压缩的潜在表示独立于基础数据生成(例如,基因分型平台)并充当对期望数据集(例如,多个种质表征)的特性进行估算的基础。由于花在为机器学习应用定制调整上的时间往往产生范围有限的应用,深度学习方法的使用通过基于原始输入的最优特征空间的构建自动化减少了劳动力并拓宽了机器学习的应用,所述原始输入用于搭建本文所述的各种VAE。
VAE的核心植根于贝叶斯推断(Bayesian inference),所述贝叶斯推断包括对数据的基础概率分布建模,这样就可以从该分布中抽样新的数据,而不依赖于产生该概率分布的数据集。VAE具有使其不同于标准自编码器的性质,所述性质适合生成式建模:按照框架的性质,VAE生成的潜在空间是概率分布,因此允许更简单的随机抽样和用于理想的最终用途的插值。VAE通过使其编码器不输出大小为n的编码向量,而是输出大小为n的两个向量来实现这种潜在空间表示:一个均值向量μ,以及另一个标准偏差向量σ。VAE的一些基本概念包括例如:
X:需要建模的数据,例如,基因型数据(如SNP、标记、单倍型、序列信息)
z:潜在变量
P(X):数据(例如,基因型数据)的概率分布
P(z):潜在变量(例如,来自基础基因型数据的基因型关联)的概率分布
P(X|z):生成数据给定的潜在变量的分布,例如基于潜在变量的期望结果的预测或估算。
VAE基于如下原理:如果存在隐变量z(其生成观察或结果x),那么目标之一就是对数据进行建模,即,以找到P(X)。然而,可以观察到x,但需要对z的特性进行推断。因此,需要计算p(z|x)。
p(z|x)=p(x|z)p(z)/p(x)
然而,计算p(x)是基于与z相关的概率论。可以将该函数表示如下:
p(x)=∫p(x|z)p(z)dz。
当p(x)函数是难解分布时,使用变分推断优化x和z的联合分布。函数p(z|x)近似于另一个分布q(z|x),将所述另一个分布定义为使得其是易于处理的分布。将q(z|x)的参数定义为使得其高度类似于p(z|x),并且因此其可以用于执行难解分布的近似推断。KL散度是两种概率分布之间差异的度量。因此,如果目的是将两种分布之间的KL散度最小化,则将该最小化函数表示为:
min KL(q(z|x)||p(z|x))。
该表达式通过最大化以下来最小化:
Eq(z|x)logp(x|z)-KL(q(z|x)||p(z))。
重构似然由第一部分表示,并且第二项对q中的概率质量与先验分布p的偏离进行惩罚。q用于推断隐变量(潜在表示),这被构建到神经网络架构中,其中编码器模型学习从x到z的映射关系,并且解码器模型学习从z回到x的映射。因此,针对该函数的神经网络包括两个项——一个惩罚重构误差或最大化重构似然并且另一个鼓励所学习的分布q(z|x)针对潜在空间的每个维度j均与真先验分布p(z)高度相似,认为所述真先验分布遵循单元高斯分布(Gaussian distribution)。这由以下来表示:
应理解的是,变分自编码器是几种可以用于产生原始样品(例如,基因型关联数据)的压缩潜在表示的技术之一。像其他自编码器一样,变分自编码器在编码器和解码器神经网络之间设置了降维瓶颈层。然后,相对于重构误差优化神经网络权重在潜在空间内产生样品分离。然而,与生成式对抗网络(GAN)不同,编码器神经网络的输出是具有标准的N(0,1)先验的参数化的单变量高斯分布。因此,与倾向于记忆输入并将所述输入放置在潜在空间内任意小的位置中的其他自编码器不同,变分自编码器产生平滑的、连续的潜在空间,在其中语义相似的样品倾向于几何上接近——例如,共分离以提供某个表型的单倍型。
例如,在基因组表征的背景下,潜在空间的平滑空间组织捕获存在于数据集内的不同水平的祖先关系。群体内的基因组变异,如植物育种计划,可以通过多种方法来表征。例如,用公用平台对基因型进行表征,所述公用平台询问局部性变体,如单核苷酸多态性(SNP)和/或插入/删除(indel)。由于群体的祖先重组和人口统计历史,这些变体倾向于在连锁的区段内共分离(单倍型)。此外,然后可以通过单基因型含有的单倍型集对所述单基因型进行进一步表征。例如,如下文进一步所述,VAE可用于将给定产量标记集内所含有的信息压缩到能够捕获全基因组的这些共分离模式的公用的、标记不变的潜在空间。
在表征基因型关联特性的实施例中,可以将VAE的某些特征分为两个来源:第一来源,即与最近的家族结构相关联的大相关区域;第二来源,即与古代祖先相关联的高度局部性统计关联一一连锁不平衡(LD)。为此,如图3所展示,通过训练两个阶段,围绕这些特征构造了深度神经网络,所述深度神经网络包括全局编码器网络、局部编码器网络和局部解码器网络。
首先,可以用来自整个基因组的输入训练VAE。输入可以包括产量标记。确定重构误差的输出也可以取自整个基因组;所述输出可以构成与输入标记不同的集。将来自全局编码器的所得潜在空间在几何上配置为近似估计种质中最近的亲属关系和较远的祖先关系。例如,如图3所展示,将全局编码器训练为基于完整的输入SNP集来表示遗传标记共分离和系谱关系,并且这是在全局潜在表示内编码的。
其次,然后可以针对基因组的每个更小的分段训练局部编码器和解码器神经网络。局部编码器网络提供局部基因组区域内LD的高分辨率表示。例如,到局部编码器的一个这种输入是定位以涵盖目的区域(例如染色体或特定的QTL)的产量SNP的子集。一旦训练了局部编码器,就可以训练局部解码器网络以估算该局部区域的确定基因组箱(genomicbin)内的单倍型。到局部解码器的输入是来自局部编码器和现在冻结的全局编码器的潜在输出的组合,如图3所示。例如,针对局部编码器/解码器组合的重构目标是较小连续区域(例如遗传图谱上的1厘摩(cM))内的标记集,所述较小连续区域鼓励局部潜在表示捕获可能已经被全局编码器忽略的高度局部性连锁不平衡(LD)。应理解的是,在一些实施例中,可以用物理坐标定义连续区域。一旦构建完成,区域内全局潜在空间和局部潜在空间的组合提供单倍型重构以及(引申开来)以基因型数据为条件的任何推断方法所需的可用信息的压缩表示。
应理解的是,在一些实施例中,例如,如图4和5所示,到全局编码器和局部编码器的编码器输入可以包括来自多个或可能不相交平台的产量标记,用于将统一的标记集估算到单独的种质群体上。如图4所示,两个群体可能在其传统标记平台之间具有未知的历史群体和/或几乎不具有或不具有共享标记。图5A和5B中所描述的估算过程以基础标记信息的潜在表示为条件,产生了两个群体中跨传统平台的标记的统一视图。然后这个统一的标记集使分子育种应用、单倍型框架生成和/或独立于原始基因分型平台的多样性表征得以实现。
图5A和5B中示出的估算过程类似于图3中所描述的估算过程。然而,图5A和5B的估算过程的不同之处在于,可以通过输入来自两个不同的种质组或群体(A组和B组)的经组合产量标记来产生经组合的潜在表示。尽管图5A和5B中示出了两个组,但应理解的是,可以将来自多于两个组的产量标记用作输入以产生经组合的潜在表示。图5A的步骤1展示了全局潜在表示的构建,所述全局潜在表示表示独立于起源组的标记共分离和系谱关系,因为需要在组之间重构共同的高密度SNP集。图5A的步骤2展示了在考虑了全局关系后,在每个区域内提供局部LD的潜在表示的本地编码器网络的训练。组合的潜在表示然后允许通过本地解码器网络估算统一的产量SNP集,如图5B的步骤3所展示。
现在参照图13-15,示出了到全局和局部编码器的输入和来自局部解码器的输出的实例。在说明性实施例中,用编码为针对特定等位基因纯合的、杂合的或缺失的输入来训练全局编码器。例如,如图13所示,向每个标记分配一个或多个数值以表明等位基因是纯合的、杂合的还是缺失的。在说明性实施例中,整个基因组有M个标记,并且每个标记是碱基(腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T))之间或插入和缺失(I,D)之间的选择。在特定等位基因处,每个标记都在第一碱基和第二碱基之间具有选择。如果示例基因型(即,样品)具有纯合的第一碱基,那么给该标记分配数值1。然而,如果示例基因型具有纯合的第二碱基,那么给该标记分配数值-1。应理解的是,在说明性实施例中,标记是概率调用而不是强制调用(hard call),如标记M-1所表明。例如,针对标记M-1,基于样品亲本的基因型,可以预测样品可能具有纯合的第一碱基A(概率为0.9)和纯合的第二碱基C(概率为0.1)。因此,在说明性实施例中,针对该标记的示例输入按(0.9x1)+(0.1x-1)=0.8来计算。
在说明性实施例中,还生成通道2以表明标记是纯合的(0)、杂合的(1)还是缺失的(-1)。然而,应理解的是,尽管图13中示出了两个通道,但仅有一个通道可以用作一个或多个编码器的输入。还应理解的是,可以分配任何数字、值或代码,以便区分这些特征以生成到一个或多个编码器的格式化输入。
如图14所示,然后使用整个基因组的标记的编码来训练全局编码器以产生潜在分布的表示。然后,全局解码器从潜在分布中提取样品作为输入并重构原始标记集(M个标记)。例如,在示例全局输出的第一列中,值0.99表示在与标记1对应的基因座处存在第一等位基因(即,如图13所示的该实例中的纯合碱基C)的概率很高。然而,在示例全局输出的第三列至最后一列中,值-0.95表示在与标记M-2对应的基因座处有第二等位基因(即,在如图13所示的该实例中,碱基的缺失)的概率很高。在第二列中,值-0.3表示在与标记2对应的基因座处有第二等位基因(即,如图13所示的该实例中的纯合碱基G)的概率不确定。应理解的是,在说明性实施例中,全局编码器的参数在训练期间保持不变。
随后,如图15所示,局部编码器从位于连续基因组区域(即,该实例中的染色体C)内的M个标记的子集中接收输入并且然后在考虑了全局潜在表示后产生编码局部信息的潜在表示。局部解码器接收全局和局部潜在表示样品作为输入,并针对给定基因组窗口内的标记提供重构。为了解释本地解码器的输出,可以基于期望的准确率水平预定义不同的阈值。应注意的是,在估算值内的准确率和缺失之间存在权衡。例如,通过提高准确率水平,某个标记可能会由于置信度不足而被设置为缺失。例如,可以将预定义阈值设置为0.75。换言之,如果标记的输出值大于或等于0.75,则表示该标记对等位基因调用具有足够的置信度1。然而,如果输出的绝对值小于0.75,那么该标记对估算不具有足够的置信度,并被设置为从该特定基因组区域缺失。因此,在说明性实施例中,产生的在C染色体上的输出标记被转换为“C G T G...T D A I”。
应注意的是,图16、17和20(下文将进一步描述)利用示例输入作为全局和/或局部编码器的输入。尽管图15中仅示出了一个局部编码器和一个局部解码器,但应理解的是,在一些实施例中,系统可以包括针对不同基因组区域的多个局部编码器和相应的局部解码器。每个局部编码器和解码器都经过训练,以在特定基因组区域内产生并转换潜在表示。
所描述的全局和局部变分自编码器框架提供了用于转换为通用的、平台独立的(例如,标记独立的)潜在空间的一般方法。很容易对网络结构和训练方法的细节进行修改或调整以适应任何特定的应用。例如,卷积神经网络用于编码器和/或解码器,以便在隐藏层表示上强化已知的空间结构。通常,测试数据集中的最佳表现需要数据增强,而增强机制以生物学机制和目的群体结构为条件。
观察到的基因型用可信计算机模拟预测杂交来补充以将初始的有限训练集扩展为能够表示潜在单倍型组合的全分集的有效无限训练集。还可以用在初始数据集中观察到的缺失模式随机地将输入标记掩蔽。生物杂交增强机制允许编码器和解码器神经网络两者超出初始测序材料外推出任何可能的单倍型组合,而用缺失数据的增强确保在潜在空间和数据重构两者内良好校准的不确定性度量。
现在参照图6,示出了基于潜在表示的潜在基因组预测应用。基于传统综合图谱中标记的线性组合,可以估算出统一的传统标记集,并且然后直接用于全基因组预测。替代性地,可以对解码器神经网络进行训练以将潜在表示直接转换为目的表型。应注意的是,以下实例1-3中进一步描述了潜在基因组预测应用的一些实例。
图7是预测基因型之间共祖率的示例性方法。将来自两个基因型的潜在表示给予神经网络,然后所述神经网络估计它们之间的共祖率。这两个基因型可以来自相同或不同的群体,并且标记集可以是相交的或可以是不相交的。应注意的是,以下实例6中进一步描述了估算共祖率。
图8展示了基于来自多个标记平台的基础标记信息的共同潜在表示的估算信息可以用于聚类、选择推断、群体遗传学总结(如F统计量)、和/或历史人口统计。
现在参照图9,其是示例性图,展示了基础的不相交标记信息的通用转换如何可以导致稳健的、有遗传意义的表示。图A示出了具有不相交标记集的两个群体(即,群体1和群体2)的全局潜在空间的降维可视化。尽管输入不相交,但来自在群体1标记平台上基因分型的群体2的种质的潜在表示会导致与那些自交系的群体1的基因分型版本的聚类。
现在参照图9的图B和C,示出了潜在表示的欧几里德距离(Euclidean distance)(图B)和潜在表示的皮尔逊相关性(Pearson correlation)(图C)。如图B所示,由全局编码器(其具有相同育种系的不同标记平台输入)产生的潜在表示的欧几里德距离接近于零,这在图B中表示为“自性(Self)”。这表明相同育种系的不同标记平台输入彼此接近。另一方面,当将不同育种系的不同标记平台输入用作全局编码器的输入时,欧几里德距离显著大于零,这在图B中表示为“非自性(Non-Self)”。
同样地,如图9的图C所示,由全局编码器(其具有相同育种系的不同标记平台输入)产生的潜在表示的皮尔逊相关性接近于一,这在图C中表示为“自性”。另一方面,当将不同育种系的不同标记平台输入用作全局编码器的输入时,皮尔逊相关性显著大致为零,这在图C中表示为“非自性”。换言之,对于不同的基因型,这些度量是显著不同的。图9的图B和C再次展示了编码器对标记平台是稳健的并且只要标记来自相同育种系,编码器对使用的标记平台是相对不变的。
图10展示了潜在表示可以用于预测不同群体内和不同群体间个体的共祖率,如图A所示。另外,如图B所示,还可以将潜在表示用于预测整个生物体的表型(如此处针对小麦产率所示)。
图11展示了可以如何利用单倍型信息(其可以基于通用潜在空间估算)以在基于单倍型水平复制的分子功能研究中汇集统计功效的实施例。
图12是实例,其示出了通过潜在表示的单倍型信息的利用如何实现增加的统计功效以基于ATAC-seq测定检测可及染色质。图A展示了单倍型汇集方法的准确率和功效。将检测到的ATAC-seq峰的位置与来自染色质可及性的独立测定的那些进行比较。相对于随机期望,经汇集或未经汇集情况下检测到的峰都高度富集在先前检测到的峰附近中。然而,单倍型汇集使检测到的峰的数量增加了一个数量级以上,而在准确率方面没有实质损失。图B和C展示了使用单倍型汇集检测到的峰的实例。灰线对应的组织峰只有使用单倍型汇集才可以检测到。图B展示了在单个基因的替代性TSS处的峰检测,而图C展示了在玉蜀黍中与最近的蛋白编码基因相距65kb的已知主要QTL处的峰检测。
当在本说明书和所附权利要求中使用时,单数和单数形式的术语例如“一个/一种”以及“所述”包括复数指代物,除非上下文中另外明确指明。因此,例如提及“植物、所述植物、或一个/一种植物”也包括多个/多种植物;也取决于上下文,使用的术语“植物”也可包括该植物遗传相似或相同的子代;使用的术语“核酸”实际上任选地包括该核酸分子的多个拷贝;同样地,术语“探针”任选地(并且典型地)涵盖许多相似或相同的探针分子。
如本文所用,术语“包括/包括(comprises、comprising)”、“包括(includes、including)”、“具有(has、having)”、“含有(contains、containing)”、“特征在于”或其任何其他变型旨在覆盖非排他性的包括,以任何明确指明的限制为条件。例如,包含一系列元素的组合物、混合物、工艺、方法、制品、或设备不必仅限于那些元素,而是可以包括其他未明确列出的元素,或此类组合物、混合物、工艺、方法、制品或设备固有的元素。
如本文所用,术语“单倍型”通常是指个体的基因组的任何部分的基因型,或个体的组的基因组的任何部分(在其基因组的所述部分中共享基本上相同的基因型)的基因型。
如本文所用,术语“编码器”通常是指如下网络,所述网络接收输入并生成表示(编码),所述表示含有与网络下一阶段相关的信息,以将其处理成所需的输出格式。通常,将编码器与网络的其他部分并行训练并经由反向传播进行优化以产生对所需输出特别有用的表示。例如,合适的编码器可以使用卷积神经网络(CNN)结构,并且产生多维编码或表示。自编码器使编码器生成对重构其自身/先验输入有用的编码或表示,可以将整个网络作为一个整体训练,目的是最小化重构损失。
如本文所用,术语“全局编码器”通常是指如下网络,所述网络接收全基因组基因型或全表型组表型数据作为输入并生成表示(编码),所述表示含有与网络下一阶段相关的信息,以将其处理成所需的输出格式。
如本文所用,术语“局部编码器”通常是指如下网络,所述网络接收全基因组基因型或全表型组表型数据的子集用作全局编码器的输入并生成表示(编码),所述表示含有与网络下一阶段相关的信息,以将其处理成所需的输出格式。
如本文所用,术语“解码器”通常是指如下网络,所述网络接收编码器的输出并重构所需的输出格式。
如本文所用,术语“全局解码器”通常是指如下网络,所述网络接收全局编码器的输出并重构所需的输出格式。
如本文所用,术语“局部解码器”通常是指如下网络,所述网络接收全局编码器的输出和来自一个或多个局部编码器的输出并重构所需的输出格式。
本文所呈现的公开的实施例提供了用于使用数据的潜在表示来估算或预测信息的方法和组成。
在一个实施例中,所估算或预测的基因型或表型信息用于基因组预测,包括但不限于全基因组预测(WGP)。非限制性实例包括但不限于描述于以下的那些:WO 2016/069078Improved Molecular Breeding Methods[改进的分子育种方法],发表于2016年5月6日;和WO 2015/100236Improved Molecular Breeding Methods[改进的分子育种方法],发表于2015年7月2日,所述文献中的每一个通过引用以其全文并入本文。例如,所估算的基因型或所预测的表型信息和任选地与生物模型(例如包含基因网络、生化途径、生理作物生长模型(CGM)或其组合的生物模型)可用于预测不同类型环境条件下个体的表型或性状表现。示例性类型的环境条件包括但不限于增加的或减少的土壤水分供应、温度、植物密度,以及疾病或害虫胁迫条件。可以产生、生长具有期望的所预测表型或性状表现的一个或多个个体或将其自交或与另一个个体杂交以产生具有期望的所预测表型或性状表现的后代。相应地,在一个实施例中,所述方法用于选择用于在育种计划中使用的个体。在另一个实施例中,可以将具有不期望的预测表型或性状表现的一个或多个个体从育种计划中剔除。
在另一个实施例中,所估算的分子和整个植物信息可以用于预测个体的表型或性状表现。
在一个实施例中,本文提供了一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中估算基因型和/或表型的通用方法。
任何目的群体都可以与本文所述的方法和组成一起使用。虽然主要使用植物群体对本文所公开的方法进行了例示和描述,但所述方法同样适用于动物群体,例如非人类动物,如家畜、实验动物、伴侣动物等。动物可以是家禽物种、猪物种、牛物种、羊物种、马物种、或伴侣动物,等等。因此,在一些实施例中,群体是植物或动物群体,例如,用于在育种计划中使用的植物或动物群体。在一些实例中,所述一个或多个群体包括以下的植物群体:自交植物、杂交植物、双单倍体植物(包括但不限于F1或F2双单倍体植物)、其后代或子代(包括来自计算机模拟杂交的那些)、或前述一种或多种的任何组合。任何单子叶植物或双子叶植物均可与本文提供的方法和组成一起使用,包括但不限于大豆、玉蜀黍、高粱、棉花、低芥酸菜籽、向日葵、水稻、小麦、甘蔗、紫花苜蓿烟草、大麦、木薯、花生、粟、油棕、马铃薯、黑麦或甜菜植物。在一些实施例中,所述基因型数据和/或表型数据是从以下群体获得的:大豆、玉蜀黍、高粱、棉花、低芥酸菜籽、向日葵、水稻、小麦、甘蔗、紫花苜蓿烟草、大麦、木薯、花生、粟、油棕、马铃薯、黑麦或甜菜植物。
在一些实例中,目的基因型与目的期望性状和/或缺乏目的不期望性状相关联。
经估算或预测具有期望的目的基因型或目的表型的植物或动物群体或其一个或多个成员可以被选择用于在育种计划中使用。例如,可以将群体或一个或多个成员用于轮回选择、集团选择、混合选择、回交、系谱育种、开放授粉育种和/或遗传标记增强选择。在一些情况下,可以将具有所估算或预测的期望的目的基因型或目的表型的植物与另一植物杂交或回交,以便可以通过有性异型杂交或其他常规育种方法将所估算或预测的期望的基因型渗入植物。
在一些实例中,可以将具有所估算或预测的期望的目的基因型或目的表型的植物用于与来自相同或不同群体的另一植物杂交以产生子代群体。可以根据与特定育种计划有关的任何育种方案来选择植物并使其杂交。
在其他实例中,可以将具有所估算或预测的期望的目的基因型或目的表型的植物反选择并从育种计划中去除。
在一些方面,所述方法包括通过借助基于机器学习的全局变分自编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示。在一些方面,所述全局潜在空间独立于所述基础的基因型或表型关联。在一些方面,所述方法包括通过借助基于机器学习的局部变分自编码器框架将源自基因型或表型关联训练数据集的离散或连续变量子集编码成潜在向量来生成局部潜在表示,其中所述局部潜在空间用来自所述局部变分自编码器和所述全局变分自编码器的输入生成。在一些方面,所述方法包括通过局部解码器对所述全局潜在表示和所述局部潜在表示进行解码,从而通过所解码的全局潜在表示和所述局部潜在表示的组合对所述测试数据的所述基因型或表型进行估算或预测。
在一些方面,所述基因型关联数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。所述离散变量的子集可以是定位于染色体区段的多个单核苷酸多态性(SNP)。在一些方面,所述变分自编码器基于神经网络算法。在一些方面,在测试数据或测试样品中估算或预测的表型是预测的增产量。在一些方面,在测试数据或测试样品中,所估算或预测的表型是根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性、耐旱性、或其组合。在一些方面,在测试数据或测试样品中估算或预测的基因型是多个单倍型。在一些方面,所述局部解码器估算局部高密度(HD)SNP。
在一些方面,所述基因型关联数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型关联数据对应的标记或单核苷酸多态性(SNP)的相同集。在一些方面,所述局部解码器基于对一个群体的基因型关联数据的解码,对另一个群体的局部高密度(HD)SNP进行估算。在一些方面,所述局部解码器基于对一个群体的基因型关联数据的解码,对另一个群体的单倍型进行估算。在一些方面,所述局部解码器估算或预测的分子表型包括但不限于:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合。基因表达可以包括转录物、基因或其他转录的核苷酸序列(包括那些全局(全基因组)或局部或其子集、基因群体(子集)或目的基因)的活性或表达水平的变化。在一些方面,所述局部解码器估算或预测测试群体中的一个或多个的群体共祖率。
在一个实施例中本文还提供了一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中推断目的特性(例如期望特性)的通用方法。在一些方面,所述方法包括通过借助基于机器学习的全局变分自编码器框架将源自全基因组基因型关联或全表型组表型训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间独立于所述基础的基因型或表型关联。在一些方面,所述方法包括通过局部解码器对所述全局潜在表示进行解码,从而通过所解码的全局潜在表示推断所述测试数据的目的特性,例如,期望特性。
在一些方面,所述目的特性(例如期望特性)不限于确定两个或更多个植物群体的共祖率或预测增产量或目的农艺表型。在一些方面,所述变分自编码器基于神经网络算法。
本文还提供了一种开发基因型或表型数据的通用表示的通用方法,所述方法包括由第一神经网络接收一个或多个基因型或表型训练数据,其中所述第一神经网络包括全局变分自编码器。在一些方面,所述方法包括由全局编码器通过基于机器学习的神经网络训练框架将来自一个或多个基因型或表型训练数据的信息编码成潜在向量。在一些方面,所述方法包括将所编码的潜在向量(由其他基因型或表型数据生成)提供给第二基于机器学习的神经网络,其中所述第二神经网络包括解码器。在一些方面,所述方法包括训练所述解码器以基于所编码的潜在向量的目标函数学习目的基因型或表型的预测或估算。在一些方面,所述方法包括由所述解码器针对所述目标函数解码所编码的潜在向量。在一些方面,所述方法包括提供所解码的潜在向量的对于所述目标函数而言的输出。
本文还提供了一种基于基因型或表型数据选择目的属性的方法。在一些方面,所述方法包括由第一神经网络接收一个或多个全局基因型或表型训练数据,其中所述第一神经网络包括全局变分自编码器。在一些方面,所述方法包括由所述全局变分自编码器将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成潜在向量。在一些方面,所述方法包括使用所述潜在向量对所述全局变分自编码器进行训练以学习基础的基因型或表型相关性和/或关联性。在一些方面,所述方法包括由第二神经网络接收一个或多个局部基因型或表型训练数据,其中所述局部基因型或表型数据指向全局基因型或表型数据的子集,所述子集对应于某个目的属性,其中所述第二神经网络包括局部变分自编码器。在一些方面,所述方法包括由所述局部变分自编码器将来自所述一个或多个局部基因型或表型训练数据的基因型或表型信息编码成潜在向量。在一些方面,所述方法包括使用所述潜在向量对所述局部变分自编码器进行训练以学习所述目的属性的基础的基因型相关性和/或关联性。在一些方面,所述方法包括将来自所述全局变分自编码器和/局部编码器的所编码的潜在向量提供给第三神经网络,其中所述第三神经网络包括解码器。在一些方面,所述方法包括训练所述解码器以使用预先指定的或学习的目标函数来预测对于来自所述全局变分自编码器和/所述局部变分自编码器的所编码的潜在向量而言的所述目的属性。在一些方面,所述方法包括由所述解码器针对所述目标函数解码所编码的潜在向量。在一些方面,所述方法包括提供所解码的潜在向量的对于所述目标函数而言的输出。
所述解码器可以包括一个或多个解码器。在一些方面,所述解码器是局部解码器。在一些方面,所述解码器是全局解码器并解码来自所述全局编码器的所编码的潜在向量。在一些方面,所述全局基因型训练数据包括整个基因组的标记。在一些方面,所述局部基因型数据来自特定的目的染色体基因组区域或等位基因。在一些方面,所述方法包括同时训练所述全局编码器和解码器。
在一些方面,所述局部属性可以包括但不限于:SNP、等位基因、标记、QTL、基因表达、表型变异、代谢物水平、或其组合。在一些方面,所述编码器可以是自编码器。在一些方面,所述自编码器是变分自编码器。
在一些方面,所述基因型训练数据包括但不限于SNP或indel序列信息。在一些方面,所述基因型或表型训练数据包括来自计算机模拟杂交的序列信息。在一些方面,将编码器的权重相对于重构误差进行更新,以便使基因型或表型训练数据信息在潜在空间内分离。在一些方面,用现有的基因型或表型数据训练所述解码器。
本文还提供了一种用于生成基因型或表型数据确定的计算机系统。在一个实施例中,所述系统包括第一神经网络和第二神经网络,所述第一神经网络包括变分自编码器,所述变分自编码器被配置成将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成通用潜在变量,其中所述编码器已经过训练以通过基于机器学习的神经网络框架表示基因型或表型关联;所述第二神经网络包括解码器,所述解码器被配置成解码所编码的潜在向量并生成对于目标函数而言的输出。
在实施例中,计算机系统包括一个或多个计算机程序或其他软件元件或特殊可编程指令、或计算机实施逻辑,所述逻辑被配置为将基因型数据、表型数据、关联数据、或其组合参数化为如本文所述的潜在空间。在实施例中,通过网络将计算机系统连接至一个或多个数据资源。
实例
通过以下实例对本发明进行说明。本发明的上下文描述以及各种实例不旨在限制本发明,而是对其进行说明。因此,应当理解,本发明不限于这些实例的具体细节。
实例1
跨不同种质和标记平台的标记估算
该分析使用来自不同封闭育种计划的玉蜀黍种质收集。这些不同的种质群体最初是在不同的标记平台上进行基因分型的,其中在所述群体间少数(约2%)的标记是共有的。全基因组测序和外显子组捕获测序工作为可用的自交系的较小子集(约1200个育种计划A、约2500个育种计划B)提供了高密度单核苷酸多态性(SNP)标记,并将这些映射到玉蜀黍参考基因组。在两个高密度标记集之间鉴定出大约350,000个共有的高密度标记的子集,并选择这些标记来提供将跨两个传统种质集的重构误差的度量。在高密度数据中,还鉴定出大约7,000个SNP,其被用作一个或另一个育种计划的产量标记。在训练自编码器神经网络期间,选择了这些标记来增强产量标记输入和输出。当在训练期间标记完全不相交时,预留标记子集以作为对杂交育种计划估算的准确率进行评分的基础。
如上文所讨论的,可以对自编码器神经网络进行训练以将来自不同种质群体的产量标记转换为通用的、平台独立的(例如,标记独立的)潜在空间。为此,训练过程涉及三个步骤,如上文关于图5A和5B所描述的。步骤1和2在全局和局部尺度上建立两个种质集之间的共同潜在空间,而步骤3提供解码器以将共同潜在空间转换为传统产量标记的并集。在该实例中,为了将训练集增强到超过具有高密度数据的约3700个自交系,基于来自高密度基因分型的训练集的预先指定的自交系对之间的计算机模拟杂交对合成的F1双单倍体进行模拟。
在步骤1中,用包括传统育种计划标记的并集的输入对全局编码器进行训练。在说明性实施例中,标记被编码为针对等位基因A纯合的、针对等位基因B纯合的、或缺失的。通过随机输入方案增强了标记不变潜在表示。对于每个小批次内的每个输入,将产量标记集随机选择为来自育种计划A的那些、来自育种计划B的那些、或来自基于来自高密度SNP的产量标记增强的并集的那些。将全局潜空间的维数设为32,以便基于全局编码器输出抽样32个实数并发送至全局解码器。然后,全局解码器将潜在输入转换成为针对全局训练选择的高密度SNP子集(10,000)的重构,并基于重构误差以及潜在表示与单变量高斯先验之间的KL散度计算损失。
在步骤2中,跨育种计划A玉蜀黍遗传图谱在10cM箱内对局部编码器和高密度局部解码器进行训练。在含有目的10cM箱的染色体内,局部编码器的输入局限于育种计划A和B产量SNP两者的并集。输入SNP集的随机化按照步骤1中所述进行。将每个局部潜在空间的大小设置为16,其中高斯参数化在其他方面与全局编码器的相同。每个局部解码器接收局部编码器的抽样潜在输出连同全局编码器的抽样潜在输出作为输入。在该实例中,在局部训练过程期间没有更新全局编码器权重。在步骤3中,局部解码器将组合的全局和局部潜在表示转换为位于每个目的10cM区域内的完整高密度SNP集的重构。使用重构误差与来自局部潜在高斯先验的KL散度的组合计算损失。
冻结全局和所有局部编码器的权重,并针对每个10cM箱训练新的局部产量标记解码器,其中每个局部产量标记解码器的输入对应于步骤2中描述的高密度标记解码器的输入。该步骤的损失仅取决于组合的产量标记集的重构误差,并且损失仅针对给定自交系中不缺失的产量标记而累积。针对输入标记的随机化方案遵循步骤1和步骤2中描述的方案。
在训练之后,在预先指定的保留的、跨传统组织的随机选择的测试集上评估估算准确性和潜在空间的表征。由传统组织的不相交标记集编码的针对相同自交系的潜在向量的欧几里德距离接近于零地聚类,而非相同系的距离形成众数在8左右的高斯分布。相较于非相同系的分布在0左右,具有不相交标记集的相同自交系的潜在向量的皮尔逊相关性接近于1地聚类。所估算的高密度SNP的测试准确率的范围为97.4%(在100%的高密度SNP中,当未设定置信度截止值时)到99.1%准确率(在93.3%的SNP中,当使用中等阈值0.9时)到99.7%准确率(在86.1%的SNP中,当使用较高阈值0.99时)。
产量SNP的估算准确率随育种计划和针对关联标记的训练方案的不相交性变化。在所有测试种质和标记中,在0.9的所选中等阈值下,估算准确率为99.2%并覆盖育种计划B和育种计划A产量标记的并集的91.5%。在育种计划A内,在训练期间增强的育种计划B产量标记的测试准确率为98.5%,其中88.1%是估算的。在训练期间完全不相交的育种计划B标记的育种计划A测试准确率为96.6%,其中85.4%的这些不相交标记是估算的。针对育种计划b,在训练期间增强的育种计划A产量标记的测试准确率为99.3%,其中93%的标记是估算的。针对育种计划B非增强标记,准确率为97.5%,其中90%的标记是估算的。
因此,该实例证明,通过将基于机器学习的变分自编码器框架用于全局和局部编码,然后解码,可在不一定共享基本上相同的基因型关联数据集(例如,标记或序列信息)的不同育种计划中成功地估算标记数据。该实例还证明,这种估算效率可以加速育种,所述育种包括例如育种对的选择、预测杂交表现(如产量、倒伏和其他期望特性)。
实例2
来自潜在空间的单倍型估算
单倍型(在本文通常指的是群体中的共分离标记的连锁集)为可视化遗传变异和将功能信息估算到给定群体中具有相同序列的区域提供了一种有用的手段。如实例1所述,使用育种计划B和育种计划A种质之间共有的350,000个高密度标记,可通过将每个指定区域内近似相同的序列的组分配给共同的单倍型在育种计划数据集之间建立共同的单倍型框架。此类区域已经在遗传图谱(例如1cM)和物理(例如1Mb)图谱上定义,包括单个基因水平上的单倍型。在1cM遗传尺度上,认为高密度SNP同一性为至少97%的区域具有共同的单倍型。然而,将单倍型框架推广到没有高密度标记的自交系需要使用在全局和局部潜在表示内捕获的基因型信息。
在实例1中所述的杂交育种计划全局和局部编码器的训练之后,在每个单倍型箱内训练局部单倍型解码器。作为输入,每个单倍型解码器接收含单倍型箱的区域的全局潜在表示和局部潜在表示。将每个解码器的输出层设置为大小与箱中单倍型的总数相同,并将输出激活函数指定为使得区域中所有单倍型的所有得分之和为1。即,可以将任何单倍型的得分解释为概率。使用相同的输入随机化和实例1中描述的计算机模拟杂交方案继续进行训练。在实例1中,训练和测试集的定义也从全局和局部编码器的训练中得到了维护。
例如,图16展示了单倍型解码器的示例输入和输出。一旦如实例1中所述训练了全局和局部编码器,它们的参数就保持不变。然后对局部解码器进行训练以预测每个单倍型在作为局部编码器范围的子集的基因组箱(即,该实例中的染色体C)内的概率。局部解码器输出的每一列都与特定的单倍型相关联,并且每一列中的值表示相应的单倍型在染色体C上的指定箱内存在的概率。例如,第三列中的0.99表示来自染色体C上1-2cM的箱具有单倍型3的概率为0.99。
在完成解码器训练后,对育种计划A和育种计划B两者的测试种质进行单倍型估算准确率表征。在选择的单倍型调用阈值为0.9时,能以96%的准确率估算出育种计划A内77.3%的单倍型箱,而能以98.3%的准确率调用86.9%的育种计划B单倍型。对于两个育种计划(A和B),特定的育种系(其具有在训练数据内良好表示的单倍型)在总估算频率和准确率方面的表现均远高于平均水平。准确率的损失主要是由于较老的自交系、来自育种计划之外的不同来源的自交系以及标记数量少的自交系。
因此,该实例证明,可以基于基础基因型数据(例如,高密度标记)的潜在表示使用变分自编码框架通过全局编码、局部编码和解码来估算测试育种群体的单倍型。
实例3
多种作物中单倍型的估算
单倍型框架是用玉米以外的作物(包括单子叶禾本科稻和双子叶豆科大豆)的育种计划A种质启动的。在对源自每种作物的育种计划的代表系进行全基因组测序和对其中的高密度SNP变异表征之后,使用实例2中所述的方法构建单倍型集。在构建了单倍型框架后,使用来自全局和局部潜在空间的推断启动对每个物种的非测序成员的单倍型估算。
收集了水稻中大约700个产量标记和大豆中2000个产量标记以作为所有全局和局部编码器的输入。在训练之前,将测试集定义为使其将仅用于估算准确率的表征。还收集了育种系之间的可信杂交集,以允许在用观察系之间的计算机模拟杂交训练期间的数据增强。
使用针对全局编码器的输入和全局解码器的输出两者均相同的产量标记,首先用变分自编码目标对全局编码器进行训练。在训练期间,全局解码器从全局编码器接收抽样的潜在向量。针对每个物种,将全局潜在空间的维数设置为32,并且全局自编码器框架的目标函数包括产量标记的重构误差项和潜在空间的单位高斯KL散度惩罚。在训练期间,除了标记的随机退出以模拟大量缺失场景的样品外,还对观察到的和计算机模拟的杂交进行抽样。
在完成全局编码器和解码器训练后,启动对局部编码器和局部单倍型解码器的训练。同时训练局部编码器和解码器,其中每个局部编码器跨单个染色体的分段,并且每个局部解码器跨给定局部编码器的物理跨度内的单个单倍型箱。如在全局编码器的训练中那样,继续进行计算机模拟杂交的抽样和标记的随机退出。每个局部编码器的输入由仅来自其所分配的染色体的产量标记组成,而局部解码器的输入包括来自全局编码器的抽样的全局潜在向量和来自局部编码器的抽样的局部潜在向量。如实例1和2中所提及的,在局部编码器和解码器的训练期间,未更新全局编码器的权重。将每个局部解码器的输出设置为给定箱内单倍型数量的大小,其中针对实例的所有单倍型得分的总和为1,如在实例2中。局部编码器和解码器的目标函数由所估算单倍型的重构误差和单位高斯先验与局部潜在空间分布之间的KL散度组成。
在所有全局和局部神经网络的完成后,对每种作物物种的测试集进行单倍型估算准确率的评估。在水稻内,0.75的中等阈值允许对每个基因组的平均81%进行单倍型估算,其中使用其约700个标记的准确率为97.5%。在大豆中,针对基因组的平均79.8%,用约2000个标记情况下的相同阈值得到96.8%的测试准确率。
因此,该实例证明,针对玉米开发的估算框架同样也对其他作物(如稻和双子叶大豆)有效。如上所证明,稻和大豆的单倍型估算的准确率显著较高。
实例4
估算分子表型
在该实例中,以下将许多目的分子特征(如基因表达、染色质可及性、DNA甲基化、组蛋白修饰和转录因子结合状态)统称为分子表型,所述分子特征是由短DNA序列局部或顺式调控的。因此,可以推断出观察到的与特定阶段和/或组织内的给定单倍型对应的分子表型存在于来自含有相同单倍型的群体的其他样品内。此外,不同的组织和阶段在分子水平上具有不同程度的相似性,这允许在单体型和组织水平上都有一些信息共享。在育种计划A内,将潜在空间转换和单倍型框架组合以最优地估算对玉米中单倍型水平的染色质可及性。
使用测序(ATAC-seq)对11个多样化自交玉米系中的11个组织运行转座酶可及染色质测定,其中自交系中的2个具有每个组织的数据。虽然选择自交系来代表育种计划A玉蜀黍种质的多样性,但各个系之间共享许多单倍型位点。此外,一个系没有高密度标记可用,而是使用了实例1和2中描述的方法对其单倍型进行了估算。抽样的组织包括从幼苗早期(V1)到花期后期(R1)各个阶段的根和芽衍生的器官。
在比对读取数据并调用各个样品内的读取深度峰后,对变分自编码器框架进行训练以便形成在单倍型和组织中共享的峰的潜在表示。如在玉蜀黍参考基因组中的物理空间中所分区的,选择百分之一的基因组作为潜在空间的训练集。除查询组织j中的查询单倍型i外,编码器接收所有样品的所有组织重复中给定区域的峰信号。将来自在基因组的给定区域处具有单倍型i的组织j的所有样品重复设置为缺失。如实例1-3所示,编码器将峰信号输入转换为实值潜在向量,所述实值潜在向量表示单倍型和组织中的峰的共现。然后将抽样的潜在表示传递给解码器,然后解码器将潜在表示转换为所有单倍型和组织中的峰信号的重构。然后,通过基于潜在空间分布的KL散度和单位高斯的正则化,目标函数的优化使重构误差最小化。
用于训练用于预测分子表型的编码器的示例输入和输出如图18所示。为此,鉴定基因组区域内每个自交系的单倍型,并且将该信息与每个个体样品的已知组织类型组合。对于每个样品,通道1表示获得自用峰调用算法运行的单个样品的-log(p)峰信号的值,并且通道2表示是否将峰指定为缺失。出于训练神经网络的目的,将目的组织和单倍型中的一个或多个信号设置为缺失。具体地,在说明性实施例中,将叶片(即,样品1和3)中的单倍型3的峰设置为缺失,如由通道1中值0和通道2中值1所表示的。随后,将单个样品峰强度的测量结果传递到具有样品1和3的缺失峰的编码器。同时训练解码器以重构完整的信号集。可以将输出数据用于进一步训练。
另外,用于训练用于预测分子表型的转换器的示例输入和输出如图19所示。保持编码器的参数不变,同时对转换器进行训练以预测给定单倍型和组织组合内真信号的先验概率,所述给定单倍型和组织组合被设置为在输入(即样品1和3)内缺失。换言之,即使将叶片(即,样品1和3)中单倍型3的信号设置为缺失,在叶片中在基因组区域中具有真信号的单倍型3的先验概率为0.9。然后可以通过似然函数将这种先验信息与来自缺失输入的数据组合,以便量化基因组区域内真信号的全部证据。
在拟合潜在空间后,在ATAC-seq信号的概率模型的背景下开始训练转换器网络。转换器网络接收潜在表示作为输入并将其转换为目的组织和单倍型中信号的先验概率。编码器的输入保持除目的单倍型和组织外所有单倍型和组织的信号,这允许仅通过所需推断空间之外的信息为验概率模型提供信息。然后将该先验模型合并到两个分布的混合模型中,一个表示值来自真基础染色质可及性信号并且另一个表示值来自具有零真信号的区域。通过γ分布对两者进行参数化,其中具有针对特定重复的功效的项和(在真信号分布的情况下)针对真信号强度的项。使用贝叶斯因子进行推断,比较真信号和无信号分布下所观察到信号强度的边际似然,其中在真实信号分布上进行积分。这些贝叶斯因子将每个分布的先验概率考虑在内,从而允许单倍型和组织共享信息。
使用模拟和实际数据评估的组合对所得模型进行了评价。在模拟下,利用真信号区域与无信号区域的源自经验的比率和合理的样品噪声水平,发现所有真无信号区域的贝叶斯因子都小于或等于1。灵敏度也相当高,其中针对所有组织的精度-召回率曲线下面积都大于0.8。单个重复统计功效的估计值和组织中信号的协方差与真值高度正相关。当应用于实际数据时,在与玉蜀黍参考基因组对应的单倍型中,除了不应用单倍型框架就能鉴定的峰之外,还能鉴定出大约500万个另外的峰基。该峰空间的百分之六十在先前鉴定的可及区域(来自使用微球菌核酸酶(MNase)灵敏度的完全独立测定)的100个碱基对范围内,这相对于先前鉴定的峰要比随机分布下的预期高出600%。
该实例证明,通过采用基于变分自编码器的训练模型,能以大于其他方法的准确率预测染色质可及性(分子表型)。
实例5
预测农艺表型
遗传空间的潜在表示还允许对农艺表型的遗传贡献进行推断,从而在即使没有共享的标记集的情况下实现作物的一致基因组预测。一个目的表型是用风力机筛选玉米杂交种所提供的脆断茎倒伏得分。获得测量到的脆断得分的训练集和测试集,并对测试集进行分层,以含有杂交种,使得在至少1个训练杂交种内存在0个亲本、1个亲本或两个亲本都存在。
例如,如图20所示,如实例1和2所概述的对全局和局部编码器进行训练,并对解码器进行训练以接收给定杂交种的亲本的全局和局部编码器表示作为输入。应理解是,在说明性实施例中,每个局部编码器都与每个表型相关联。虽然图20中仅示出了一个表型解码器,但应理解的是针对每个表型都有不同的表型解码器。解码器的输出(2.4±0.1)由脆断得分的连续预测组成。应理解的是,在训练期间,全局和局部编码器的权重是固定的,而解码器的权重是更新的,以便最小化表型得分的预测误差。
训练完成后,对保留的杂交种评估测试准确率。准确率是通过所预测和观察到的脆断得分之间的皮尔逊相关系数来测量的。从训练集中完全缺乏1个自交系的杂交种的准确率为0.625,而训练集(但不包括测试组合)中有两个自交系亲本的杂交种的准确率为0.737。这些值与表型高度相关。该实例证明,商业相关的农艺特性是基于本文描述的变分自编码器框架预测的。
实例6
来自潜在空间的群体共祖率
任何两个样品之间的共祖率是进行定量遗传学分析的基本度量。由于遗传空间的潜在空间变换允许基础遗传学的标记不变型(或标记独立型)表示,其还可以用于计算群体遗传学特征,如样品之间的共祖率,如图7所示。
在对全局编码器进行训练之后,在给定每个系的全局潜在表示的情况下,对解码器进行训练以计算玉米中任意两个自交系之间的共祖率。用观察到的基因型和它们之间的计算机模拟杂交的组合继续进行训练,如实例1-3所概述。在训练期间使用的所有观察到的基因型都与用于全局编码器训练的基因型相同,其中留出单独的测试集用于最终的准确率评估。还执行了对全局编码器的输入标记的随机退出,如实例1-3所概述。在训练期间未更新全局编码器的权重。将目标函数设置为使所预测的共祖率和观察到的共祖率之间的误差最小化,所述观察到的共祖率由状态相同的任意两个系之间的单倍型箱的分数计算得出。最后,根据真共祖率对训练对的抽样进行分层,使得箱内的具有0-0.1、0.1-0.2、0.2-0.3、0.3-0.5和0.5-1的共祖率的对的抽样率为偶数。这种分层方案的动机是具有接近于零的共祖率的对的优势,这促使在没有分层的情况下,高共祖率预测的方差更高。
例如,图17描述了来自潜在空间的共祖率解码器的训练。共祖率解码器接收来自两个不同基因型(即,自交系1和2)的全局编码的输入。所述共祖率解码器输出对基因型之间的共祖率的估计以及对该预测中的不确定性的估计。在该实例中,自交系1和2之间的共祖率预测值为0.75±0.03。
在训练之后,如果自交系在测试集内,则对3200对的随机集评估共祖率计算的准确率。所预测的共祖率与真共祖率之间的整体皮尔逊相关性为0.964,其中预测值的众数沿对角线方向并且表明所预测共祖率的校准良好。因此,该实例证明,变分自编码器框架可以用于基于那些系的潜在表示来确定的两个或更多个单独系的祖先关系。这种潜在的表示可以是标记不变的或标记独立的,为检验祖先关系提供了强有力的方式,而不需要使用相同的标记集进行大量的标记分析。

Claims (81)

1.一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中估算或预测基因型和/或表型的通用方法,所述通用方法包括:
通过借助基于机器学习的全局变分自编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间独立于基础的基因型或表型关联;
通过借助基于机器学习的局部变分自编码器框架将源自基因型或表型关联训练数据集的离散或连续变量子集编码成潜在向量来生成局部潜在表示,其中所述局部潜在空间用来自所述局部变分自编码器和所述全局变分自编码器的输入生成;并且
通过局部解码器对所述全局潜在表示和所述局部潜在表示进行解码,从而通过所解码的全局潜在表示和所述局部潜在表示的组合对所述测试数据的所述基因型或表型进行估算或预测。
2.如权利要求1所述的方法,其中所述基因型关联数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。
3.如权利要求1所述的方法,其中所述离散变量的子集是定位于染色体区段的多个单核苷酸多态性(SNP)。
4.如权利要求1所述的方法,其中所述变分自编码器基于神经网络算法。
5.如权利要求1所述的方法,其中所估算的或预测的表型是增产量、根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性和/或耐旱性。
6.如权利要求1所述的方法,其中所估算的或预测的基因型是多个单倍型。
7.如权利要求1所述的方法,其中所述基因型关联数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型关联数据对应的标记或单核苷酸多态性(SNP)的相同集。
8.如权利要求1所述的方法,所述方法包括:
(a)通过所述局部解码器对局部高密度(HD)SNP进行估算或预测;
(b)基于对一个群体的基因型关联数据的解码,通过所述局部解码器对另一个群体的局部高密度(HD)SNP或单倍型进行估算或预测;
(c)通过所述局部解码器对选自以下的分子表型进行估算或预测:基因表达、染色质可及性、DNA甲基化、组蛋自修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合;或
(d)通过所述局部解码器对所述测试群体中的一个或多个的群体共祖率进行估算或预测。
9.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求1-8所述的方法的步骤。
10.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求1-8所述的方法的步骤。
11.一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中推断期望特性的通用方法,所述通用方法包括:
通过借助基于机器学习的全局变分自编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间独立于基础的基因型或表型关联;并且
通过局部解码器对所述全局潜在表示进行解码,从而通过所解码的全局潜在表示推断所述测试数据的所述期望特性。
12.如权利要求11所述的方法,其中所述期望特性是确定两个或更多个植物群体的共祖率。
13.如权利要求11所述的方法,其中所述期望特性是预测增产量或目的农艺表型。
14.如权利要求11所述的方法,其中所述变分自编码器基于神经网络算法。
15.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求11-14所述的方法的步骤。
16.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求11-14所述的方法的步骤。
17.一种开发基因型或表型数据的通用表示的方法,所述方法包括:
由第一神经网络接收一个或多个基因型或表型训练数据,其中所述第一神经网络包含全局变分自编码器;
由全局编码器通过基于机器学习的神经网络训练框架将来自一个或多个基因型或表型训练数据的信息编码成潜在向量;
将所编码的潜在向量(由其他基因型或表型数据生成)提供给第二基于机器学习的神经网络,其中所述第二神经网络包含解码器;
训练所述解码器以基于所编码的潜在向量的目标函数学习目的表型或基因型的预测或估算;
由所述解码器针对所述目标函数解码所编码的潜在向量;并且
提供所解码的潜在向量的对于所述目标函数而言的输出。
18.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求17所述的方法的步骤。
19.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求17所述的方法的步骤。
20.一种基于基因型或表型数据选择目的属性的方法,所述方法包括:
由第一神经网络接收一个或多个全局基因型或表型训练数据,其中所述第一神经网络包含全局变分自编码器;
由所述全局变分自编码器将来自一个或多个基因型或表型训练数据的基因型信息编码成潜在向量;
使用所述潜在向量对所述全局变分自编码器进行训练以学习基础的基因型相关性和/或关联性;
由第二神经网络接收一个或多个局部基因型或表型训练数据,其中所述局部基因型或表型数据指向全局基因型或表型数据的子集,所述子集对应于某个目的属性,其中所述第二神经网络包含局部变分自编码器;
由所述局部变分自编码器将来自所述一个或多个局部基因型或表型训练数据的所述基因型信息编码成潜在向量;
使用所述潜在向量对所述局部变分自编码器进行训练以学习所述目的属性的基础的基因型相关性和/或关联性;
将来自所述全局变分自编码器和/局部编码器的所编码的潜在向量提供给第三神经网络,其中所述第三神经网络包含解码器;
训练所述解码器以预测对于来自所述全局变分自编码器和/或所述局部变分自编码器的所编码的潜在向量而言的所述目的属性;
由所述解码器针对目标函数解码所编码的潜在向量;并且
提供所解码的潜在向量的对于所述目标函数而言的输出。
21.如权利要求20所述的方法,其中所述解码器包括一个或多个解码器。
22.如权利要求20所述的方法,其中所述解码器是局部解码器。
23.如权利要求20所述的方法,其中所述解码器是全局解码器并解码来自所述全局编码器的所编码的潜在向量。
24.如权利要求20所述的方法,其中所述全局基因型训练数据包括整个基因组的标记。
25.如权利要求20所述的方法,其中所述局部基因型数据来自特定的目的染色体基因组区域或等位基因。
26.如权利要求20所述的方法,所述方法进一步包括同时训练所述全局编码器和解码器。
27.如权利要求20所述的方法,其中所述局部属性选自由以下组成的组:SNP、等位基因、标记、QTL、基因表达、表型变异和代谢物水平。
28.如权利要求20所述的方法,其中所述基因型训练数据包含单核苷酸多态性(SNP)或插入/缺失(indel)序列信息。
29.如权利要求20所述的方法,其中所述基因型训练数据包含来自计算机模拟杂交的序列信息。
30.如权利要求20所述的方法,其中用现有的基因型或表型数据训练所述解码器。
31.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求20-30所述的方法的步骤。
32.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求20-30所述的方法的步骤。
33.一种用于生成基因型或表型数据确定的计算机系统,所述系统包含:
第一神经网络,所述第一神经网络包含变分自编码器,所述变分自编码器被配置成将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成通用潜在变量,其中所述编码器已经过训练以通过基于机器学习的神经网络框架对基因型或表型关联进行表示;以及
第二神经网络,所述第二神经网络包含解码器,所述解码器被配置成解码所编码的潜在向量并生成对于目标函数而言的输出。
34.一种对获得自群体或样品集的基因型或表型数据进行参数化表示以估算或预测期望基因型和/或表型的通用方法,所述通用方法包括:
通过借助基于机器学习的编码器框架将源自基因型或表型数据的离散或连续变量编码成潜在向量来生成通用的潜在空间表示,其中所述潜在空间独立于基础的基因型或表型数据;并且
由解码器将所述潜在表示解码,从而通过所解码的潜在表示估算或预测所述期望基因型或表型。
35.如权利要求34所述的方法,其中所述基因型数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)的集合。
36.如权利要求34所述的方法,其中所述离散变量的子集是定位于染色体区段的多个单核苷酸多态性(SNP)。
37.如权利要求34所述的方法,其中所述编码器基于神经网络算法。
38.如权利要求34所述的方法,其中所估算或预测的表型是增产量、根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性、耐旱性、或其组合。
39.如权利要求34所述的方法,其中所估算的或预测的基因型是多个单倍型。
40.如权利要求34所述的方法,所述方法包括:
(a)通过所述解码器对局部高密度(HD)SNP进行估算或预测;
(b)基于对一个群体的基因型关联数据的解码,通过所述解码器对另一个群体的局部高密度(HD)SNP或单倍型进行估算或预测;
(c)通过所述解码器对选自以下的分子表型进行估算或预测:基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置、转录因子结合状态、或其组合;或
(d)通过所述解码器对所述测试群体中的一个或多个的群体共祖率进行估算或预测。
41.如权利要求34所述的方法,其中所述基因型数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型数据对应的标记或单核苷酸多态性(SNP)的相同集。
42.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求34-41所述的方法的步骤。
43.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求34-41所述的方法的步骤。
44.一种将来自获得自群体或样品集的训练数据集的基因型或表型关联数据进行参数化表示以在获得自测试群体或测试样品数据的测试数据中推断期望特性的通用方法,所述通用方法包括:
通过借助基于机器学习的全局编码器框架将源自全基因组基因型或全表型组表型关联训练数据的离散或连续变量编码成潜在向量来生成通用的连续全局潜在空间表示,其中所述全局潜在空间独立于基础的基因型或表型关联;并且
通过局部解码器对所述全局潜在表示进行解码,从而通过所解码的全局潜在表示推断所述测试数据的所述期望特性。
45.如权利要求44所述的方法,其中所述期望特性是确定两个或更多个植物群体的共祖率。
46.如权利要求44所述的方法,其中所述期望特性是预测增产量或目的农艺表型。
47.如权利要求44所述的方法,其中所述编码器基于神经网络算法。
48.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求44-47所述的方法的步骤。
49.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求44-47所述的方法的步骤。
50.一种开发基因型或表型数据的通用表示的方法,所述方法包括:
由第一神经网络接收一个或多个基因型或表型训练数据,其中所述第一神经网络包含全局编码器;
由所述全局编码器通过基于机器学习的神经网络训练框架将来自一个或多个训练基因型或表型的信息编码成潜在向量;
将所编码的潜在向量(由其他基因型或表型数据生成)提供给第二基于机器学习的神经网络,其中所述第二神经网络包含解码器;
训练所述解码器以基于所编码的潜在向量的目标函数学习目的基因型或表型的预测或估算;
由所述解码器针对所述目标函数解码所编码的潜在向量;并且
提供所解码的潜在向量的对于所述目标函数而言的输出。
51.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求50所述的方法的步骤。
52.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求50所述的方法的步骤。
53.一种基于基因型或表型数据选择目的属性的方法,所述方法包括:
由第一神经网络接收一个或多个全局基因型或表型训练数据,其中所述第一神经网络包含全局编码器;
由所述全局编码器将来自一个或多个基因型或表型训练数据的基因型信息编码成潜在向量;
使用所述潜在向量对所述全局编码器进行训练以学习基础的基因型表型相关性和/或关联性;
由第二神经网络接收一个或多个局部基因型或表型训练数据,其中所述局部基因型或表型数据指向全局基因型或表型数据的子集,所述子集对应于某个目的属性,其中所述第二神经网络包含局部编码器;
由所述局部编码器将来自所述一个或多个局部基因型或表型训练数据的基因型或表型信息编码成潜在向量;
使用所述潜在向量对所述局部编码器进行训练以学习所述目的属性的基础的基因型或表型相关性和/或关联性;
将来自所述全局编码器和/局部编码器的所编码的潜在向量提供给第三神经网络,其中所述第三神经网络包含解码器;
训练所述解码器以预测对于来自所述全局编码器和/或所述局部编码器的所编码的潜在向量而言的所述目的属性;
由所述解码器针对目标函数解码所编码的潜在向量;并且
提供所解码的潜在向量的对于所述目标函数而言的输出。
54.如权利要求53所述的方法,其中所述解码器包括一个或多个解码器。
55.如权利要求53所述的方法,其中所述解码器是局部解码器。
56.如权利要求53所述的方法,其中所述解码器是全局解码器并解码来自所述全局编码器的所编码的潜在向量。
57.如权利要求53所述的方法,其中所述全局基因型训练数据包括整个基因组的标记。
58.如权利要求53所述的方法,其中所述局部基因型数据来自特定的目的染色体基因组区域或等位基因。
59.如权利要求53所述的方法,所述方法进一步包括同时训练所述全局编码器和解码器。
60.如权利要求53所述的方法,其中所述局部属性选自由以下组成的组:SNP、等位基因、标记、QTL、基因表达、表型变异和代谢物水平。
61.如权利要求53所述的方法,其中所述基因型训练数据包含单核苷酸多态性(SNP)或插入/缺失(indel)序列信息。
62.如权利要求53所述的方法,其中所述基因型训练数据包含来自计算机模拟杂交的序列信息。
63.如权利要求53所述的方法,其中用现有的基因型或表型数据训练所述解码器。
64.一种计算装置,所述计算装置包含处理器,所述处理器被配置成用于执行如权利要求53-63所述的方法的步骤。
65.一种计算机可读介质,所述计算机可读介质包含指令,所述指令当由计算装置执行时会使所述计算装置执行如权利要求53-63所述的方法的步骤。
66.一种用于生成基因型或表型数据确定的计算机系统,所述系统包含:
第一网络,所述第一网络包含编码器,所述编码器被配置成将来自一个或多个基因型或表型训练数据的基因型或表型信息编码成通用潜在变量,其中所述编码器已经过训练以通过基于机器学习的神经网络框架表示基因型或表型关联;以及
第二神经网络,所述第二神经网络包含解码器,所述解码器被配置成解码所编码的潜在向量并生成对于目标函数而言的输出。
67.一种用于训练神经网络以在基因分型平台之间转换的计算装置,所述计算装置包含:
存储器;以及
一个或多个处理器,所述一个或多个处理器被配置成用于:
获得与来自所述基因分型平台的至少两个群体相关的训练数据;
通过使用第一编码器机器学习网络将源自所述训练数据的变量编码成第一潜在向量集来生成第一潜在空间表示;
通过使用第二编码器机器学习网络将来自所述训练数据的变量的子集编码成第二潜在向量集来生成第二潜在表示;
将全局潜在表示和局部潜在表示组合以训练解码器机器学习网络;并且
对来自所组合的全局潜在表示和局部潜在表示的一个或多个潜在向量进行解码,以使用所述解码器机器学习网络估算或预测与所述一个或多个潜在向量对应的训练数据的基因型或表型。
68.如权利要求67所述的计算装置,其中所述训练数据包括全基因组基因型关联训练数据或全表型组表型关联训练数据。
69.如权利要求68所述的计算装置,其中所述全基因组基因型关联训练数据包括来自多个基因上趋异的群体的基因型标记或单核苷酸多态性(SNP)。
70.如权利要求67所述的计算装置,其中所述变量的所述子集是定位于染色体区段的多个单核苷酸多态性(SNP)。
71.如权利要求67所述的计算装置,其中所述全基因组基因型关联训练数据获得自源自两个或更多个育种计划的植物群体,其中所述育种计划不包括与所述基因型关联数据对应的标记或单核苷酸多态性(SNP)的相同集。
72.如权利要求67所述的计算装置,其中所述第一编码器机器学习网络包括全局变分自编码器框架。
73.如权利要求67所述的计算装置,其中所述第二编码器机器学习网络包括局部变分自编码器框架。
74.如权利要求67所述的计算装置,其中所述第一潜在空间表示独立于基础的基因型或表型关联。
75.如权利要求67所述的计算装置,其中所估算的或预测的表型是增产量、根倒伏、茎倒伏、脆断、穗高、籽粒水分、株高、抗病性和/或耐旱性。
76.如权利要求67所述的计算装置,其中所估算或预测的基因型是多个单倍型或局部高密度(HD)SNP。
77.如权利要求67所述的计算装置,其中对来自所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码包括对来自所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码以基于对第二群体的全基因组基因型关联训练数据的解码来估算或预测第一群体的局部高密度(HD)SNP。
78.如权利要求67所述的计算装置,其中对来自所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码包括对来自所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码以基于对第二群体的基因型关联数据的解码来估算或预测第一群体的单倍型。
79.如权利要求67所述的计算装置,其中所估算或预测的表型包括基因表达、染色质可及性、DNA甲基化、组蛋白修饰、重组热点、转基因的基因组着落位置和/或转录因子结合状态。
80.如权利要求67所述的计算装置,其中对来自所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码包括对来自所组合的全局潜在表示和局部潜在表示的所述一个或多个潜在向量进行解码以估算或预测所述训练数据的所述测试群体中的一个或多个的群体共祖率。
81.一种用于训练神经网络以在基因分型平台之间转换的系统,所述系统包含:
一个或多个服务器,所述一个或多个服务器中的每一个都存储与一个或多个群体相关的训练数据;以及
计算装置,所述计算装置以通信方式耦接至所述一个或多个服务器,所述计算装置包含:
存储器;以及
一个或多个处理器,所述一个或多个处理器被配置用于:
获得训练数据;
通过使用第一编码器机器学习网络将源自所述训练数据的变量编码成第一潜在向量集来生成第一潜在空间表示;
通过使用第二编码器机器学习网络将来自所述训练数据的变量的子集编码成第二潜在向量集来生成第二潜在表示;
将全局潜在表示和局部潜在表示组合以训练解码器机器学习网络;并且
对来自所组合的全局潜在表示和局部潜在表示的一个或多个潜在向量进行解码,以使用所述解码器机器学习网络估算或预测与所述一个或多个潜在向量对应的训练数据的基因型或表型。
CN202310873417.8A 2019-03-11 2020-03-10 用于估算或预测基因型和表型的方法和组成 Pending CN116895334A (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201962816719P 2019-03-11 2019-03-11
US62/816719 2019-03-11
US201962833497P 2019-04-12 2019-04-12
US62/833497 2019-04-12
US202062960363P 2020-01-13 2020-01-13
US62/960363 2020-01-13
CN202080020734.XA CN113519028B (zh) 2019-03-11 2020-03-10 用于估算或预测基因型和表型的方法和组成
PCT/US2020/021790 WO2020185725A1 (en) 2019-03-11 2020-03-10 Methods and compositions for imputing or predicting genotype or phenotype

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202080020734.XA Division CN113519028B (zh) 2019-03-11 2020-03-10 用于估算或预测基因型和表型的方法和组成

Publications (1)

Publication Number Publication Date
CN116895334A true CN116895334A (zh) 2023-10-17

Family

ID=70155368

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202080020734.XA Active CN113519028B (zh) 2019-03-11 2020-03-10 用于估算或预测基因型和表型的方法和组成
CN202310873417.8A Pending CN116895334A (zh) 2019-03-11 2020-03-10 用于估算或预测基因型和表型的方法和组成

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202080020734.XA Active CN113519028B (zh) 2019-03-11 2020-03-10 用于估算或预测基因型和表型的方法和组成

Country Status (7)

Country Link
US (2) US11174522B2 (zh)
EP (1) EP3939046A1 (zh)
CN (2) CN113519028B (zh)
AU (1) AU2020236982A1 (zh)
BR (1) BR112021018005A2 (zh)
CA (1) CA3130155A1 (zh)
WO (1) WO2020185725A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3641531A1 (en) * 2017-06-22 2020-04-29 Aalto University Foundation sr Method and system for selecting a plant variety
JP2023541193A (ja) * 2020-09-14 2023-09-28 シーゼット・バイオハブ・エスエフ・リミテッド・ライアビリティ・カンパニー ゲノム配列データセット生成
CN112562786B (zh) * 2020-12-24 2022-07-26 华中农业大学 一种基于遗传群体组装基因组的方法、装置及存储介质
CN114418182B (zh) * 2021-12-17 2023-01-31 北京市农林科学院信息技术研究中心 基于机器学习的肉牛育种优选方法及装置
WO2023129746A1 (en) * 2021-12-31 2023-07-06 Benson Hill, Inc. Systems and methods for selecting recommended crosses with increased an probability of meeting plant-based product specifications
WO2023147474A1 (en) * 2022-01-28 2023-08-03 The Scripps Research Institute Systems and methods for genetic imputation, feature extraction, and dimensionality reduction in genomic sequences
US11810644B2 (en) 2022-03-08 2023-11-07 Avalo, Inc. System and method for genomic association
WO2023250482A1 (en) * 2022-06-24 2023-12-28 Pioneer Hi-Bred International, Inc. Methods and systems to enhance a plant breeding pipeline
WO2024020441A1 (en) * 2022-07-21 2024-01-25 Pioneer Hi-Bred International, Inc. Artificial intelligence-guided marker assisted selection
CN116343913B (zh) * 2023-03-15 2023-11-14 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0410656A (pt) * 2003-05-28 2006-07-18 Pioneer Hi Bred Int método de melhoramento de planta e planta obtida
EP1962212A1 (en) * 2007-01-17 2008-08-27 Syngeta Participations AG Process for selecting individuals and designing a breeding program
US20100037342A1 (en) * 2008-08-01 2010-02-11 Monsanto Technology Llc Methods and compositions for breeding plants with enhanced yield
CA2766914C (en) * 2009-06-30 2019-02-26 Daniel Caraviello Mining association rules in plant and animal data sets and utilizing features for classification or prediction
BR112016015033B1 (pt) 2013-12-27 2022-09-06 Pioneer Hi-Bred International, Inc Método para selecionar indivíduos vegetais
CA2963768C (en) 2014-10-27 2023-03-07 Pioneer Hi-Bred International, Inc. Improved molecular breeding methods
WO2018236852A1 (en) * 2017-06-19 2018-12-27 Jungla Inc. INTERPRETATION OF GENETIC AND GENOMIC VARIANTS VIA A MUTATIONAL LEARNING SYSTEM IN EXPERIMENTAL DEPTH AND INTEGRATED COMPUTER SCIENCE
CN107590364A (zh) * 2017-08-29 2018-01-16 集美大学 一种新的估计基因组育种值的快速贝叶斯方法

Also Published As

Publication number Publication date
WO2020185725A1 (en) 2020-09-17
CA3130155A1 (en) 2020-09-17
US20200291489A1 (en) 2020-09-17
CN113519028A (zh) 2021-10-19
AU2020236982A1 (en) 2021-09-02
US20220090215A1 (en) 2022-03-24
US11174522B2 (en) 2021-11-16
EP3939046A1 (en) 2022-01-19
BR112021018005A2 (pt) 2021-11-16
CN113519028B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN113519028B (zh) 用于估算或预测基因型和表型的方法和组成
Speed et al. Relatedness in the post-genomic era: is it still useful?
Morota et al. Kernel-based whole-genome prediction of complex traits: a review
Ratcliffe et al. A comparison of genomic selection models across time in interior spruce (Picea engelmannii× glauca) using unordered SNP imputation methods
Chang et al. High density marker panels, SNPs prioritizing and accuracy of genomic selection
Heffner et al. Genomic selection accuracy using multifamily prediction models in a wheat breeding program
Daetwyler et al. Genomic prediction in animals and plants: simulation of data, validation, reporting, and benchmarking
Gain et al. LEA 3: Factor models in population genetics and ecological genomics with R
Henryon et al. Animal-breeding schemes using genomic information need breeding plans designed to maximise long-term genetic gains
Hejase et al. A deep-learning approach for inference of selective sweeps from the ancestral recombination graph
EP4118229A1 (en) Multi-modal methods and systems
De Roos et al. Genomic breeding value estimation using genetic markers, inferred ancestral haplotypes, and the genomic relationship matrix
Naderi et al. Random forest estimation of genomic breeding values for disease susceptibility over different disease incidences and genomic architectures in simulated cow calibration groups
Lorenz et al. Training population design and resource allocation for genomic selection in plant breeding
Habyarimana Genomic prediction for yield improvement and safeguarding of genetic diversity in CIMMYT spring wheat ('Triticum aestivum'L.)
Garduño‐Sánchez et al. Phylogeographic relationships and morphological evolution between cave and surface Astyanax mexicanus populations (De Filippi 1853)(Actinopterygii, Characidae)
Hejase et al. Sia: Selection inference using the ancestral recombination graph
Pook et al. The Modular Breeding Program Simulator (MoBPS) allows efficient simulation of complex breeding programs
Cooke et al. Fine-tuning of approximate Bayesian computation for human population genomics
Varona et al. Genomic prediction methods accounting for nonadditive genetic effects
Khatkar Genomic selection in aquaculture breeding programs
Aono et al. A divide-and-conquer approach for genomic prediction in rubber tree using machine learning
Hu et al. Marker-based estimation of genetic parameters in genomics
Besnier et al. Applying QTL analysis to conservation genetics
Grandke et al. Bioinformatic tools for polyploid crops

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination