CN114743601A - 基于多组学数据和深度学习的育种方法、装置、设备 - Google Patents
基于多组学数据和深度学习的育种方法、装置、设备 Download PDFInfo
- Publication number
- CN114743601A CN114743601A CN202210404221.XA CN202210404221A CN114743601A CN 114743601 A CN114743601 A CN 114743601A CN 202210404221 A CN202210404221 A CN 202210404221A CN 114743601 A CN114743601 A CN 114743601A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- coding region
- acquiring
- functional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009395 breeding Methods 0.000 title claims abstract description 64
- 238000013135 deep learning Methods 0.000 title claims abstract description 39
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 97
- 230000006870 function Effects 0.000 claims abstract description 83
- 230000001488 breeding effect Effects 0.000 claims abstract description 33
- 230000002068 genetic effect Effects 0.000 claims abstract description 32
- 108091026890 Coding region Proteins 0.000 claims description 46
- 239000002773 nucleotide Substances 0.000 claims description 39
- 125000003729 nucleotide group Chemical group 0.000 claims description 39
- 238000013136 deep learning model Methods 0.000 claims description 33
- 230000014509 gene expression Effects 0.000 claims description 30
- 230000001105 regulatory effect Effects 0.000 claims description 30
- 108091092724 Noncoding DNA Proteins 0.000 claims description 28
- 230000033228 biological regulation Effects 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 16
- 239000000126 substance Substances 0.000 claims description 9
- 230000001973 epigenetic effect Effects 0.000 claims description 8
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 7
- 210000001519 tissue Anatomy 0.000 claims description 7
- 108010077544 Chromatin Proteins 0.000 claims description 6
- 210000003483 chromatin Anatomy 0.000 claims description 6
- 102000004169 proteins and genes Human genes 0.000 claims description 6
- 210000000349 chromosome Anatomy 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 108700026244 Open Reading Frames Proteins 0.000 claims description 2
- 241000894007 species Species 0.000 description 38
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000003147 molecular marker Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000001364 causal effect Effects 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 108010033040 Histones Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000009394 selective breeding Methods 0.000 description 3
- 108091023040 Transcription factor Proteins 0.000 description 2
- 102000040945 Transcription factor Human genes 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000004049 epigenetic modification Effects 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 102000042567 non-coding RNA Human genes 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 230000009885 systemic effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 238000001353 Chip-sequencing Methods 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical compound OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 210000001726 chromosome structure Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 229940075799 deep sea Drugs 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004879 molecular function Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 230000007363 regulatory process Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Business, Economics & Management (AREA)
- Epidemiology (AREA)
- Marine Sciences & Fisheries (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Software Systems (AREA)
- Mining & Mineral Resources (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
Abstract
本发明实施例公开了基于多组学数据和深度学习的育种方法、装置、设备,能够提高表型预测的准确度。其中,育种方法包括获取目标物种的生物遗传信息;其中,所述生物遗传信息包括多组学数据,所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据;根据所述生物遗传信息获取基于深度学习的基因组选择模型;根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息,以用于育种。
Description
技术领域
本发明涉及生物技术领域。更具体地说,本发明涉及基于多组学数据和深度学习的育种方法、装置、设备和介质。
背景技术
生物表型性状的预测在生物技术领域具有广泛的应用,例如选择性育种、疾病控制等。以育种为例,选择性育种作为现代农业产业链中的重要环节,是获取优良农业品种的重要途径之一。在数字化信息时代背景下,传统经验育种模式逐渐发展成为更加精密的,依赖于高密度分子遗传标记的基因组选择(genomic selection,GS)辅助育种体系,在当前选择性育种领域中占据重要地位。该育种策略本质上是一门预测的科学,根据高通量测序的全基因组分子标记,依托表型预测模型辅助品种选择,实现了育种的精细化、信息化、定量化。
虽然基因组选择理论体系日渐成熟,在实践中取得了巨大的成就,然而当前关注的重点多集中于单一的基因组数据。由遗传信息传递到最终的表型还包括表观修饰、转录、翻译等多个中间过程,每一个中间过程都代表着一个模糊了遗传信息和性状之间联系的额外复杂水平,这表明当前的基因组选择模型还有很大的发展空间。
当前基因组选择领域研究最多的是根据单一的基因型数据来预测目的表型。这种策略,在最初的研究阶段,极大的促进了GS在农业品种改良理论体系的完善。然而,由遗传突变传递到表型并不是一蹴而就的,譬如说,核苷酸突变影响转录水平的变化,进一步影响蛋白功能的变化,反过来影响蛋白复合体、细胞进程、细胞器,直至影响细胞、组织,甚至是复杂生物的表型。
随着后基因组工具的发展,以及功能组学数据的累积,整合多组学数据的模型开始进入了人们的视野,与单一组学数据相比,切实提升了预测性能。
但是如何利用多组学数据生成能够提高表型预测准确度的基因组选择模型,在目前仍然存在很大的挑战。
发明内容
本发明的一个目的是解决上述问题,并提供后面将说明的优点。
本发明还有一个目的是提供一种基于多组学数据和深度学习的育种方法、装置、设备和介质,能够提高物种表型预测的准确度。
具体地,本发明通过如下技术方案实现:
本发明实施例的第一方面提供了基于多组学数据和深度学习的育种方法,包括:
获取目标物种的生物遗传信息;其中,所述生物遗传信息包括多组学数据,所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据;
根据所述生物遗传信息获取基于深度学习的基因组选择模型;
根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息,以用于育种。
在一些实施方式中,所述生物遗传信息还包括:根据所述多组学数据获取的组学背景信息、功能背景信息、功能调控网络信息中的至少一种;其中,
所述多组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种;
所述功能背景信息包括单核苷酸多态性在非编码区的功能信息和单核苷酸多态性在编码区的功能信息;
所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息。
在一些实施方式中,所述生物遗传信息还包括组学背景信息、功能背景信息、功能调控网络信息;
所述获取目标物种的生物遗传信息,包括:
根据目标物种的样本群体信息获取所述多组学数据;
根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息;
根据所述组学背景信息获取所述功能背景信息;
根据所述功能背景信息获取所述功能调控网络信息。
在一些实施方式中,根据所述生物遗传信息对选取的深度学习模型进行训练,获得所述基因组选择模型,包括:
获取深度学习模型,所述深度学习模型包括输入层、输出层以及位于所述输入层和所述输出层之间的至少一个中间可见层和至少一个中间隐藏层;
对所述深度学习模型各层的超参数进行优化,确定最优超参数,得到优化的深度学习模型;其中,所述超参数包括核函数、节点数、激活函数、丢弃率、正则化类型中的至少一种;
根据所述生物遗传信息对所述优化的深度学习模型进行训练,得到所述基因组选择模型。
在一些实施方式中,所述至少一个中间可见层包括第一中间可见层、第二中间可见层、第三中间可见层,所述至少一个隐藏层包括第一中间隐藏层、第二中间隐藏层、第三中间隐藏层;
所述输入层、所述第一中间可见层、所述第二中间可见层、所述第三中间可见层、所述第一中间隐藏层、所述第二中间隐藏层、所述第三中间隐藏层、所述输出层依次连接;
所述输入层的输入数据包括所述基因型数据;
所述第一中间可见层的输入数据包括所述功能背景信息;
所述第二中间可见层的输入数据包括所述组学背景信息;
所述第三中间可见层的输入数据包括所述调控网络信息;
所述输出层的输入数据包括所述表型数据。
在一些实施方式中,所述获取目标物种的生物遗传信息,包括:
获取目标物种的样本群体信息;
根据所述样本群体信息中的个体信息获取所述基因型数据和所述表型数据;
根据所述样本群体信息获取所述表观基因组数据、所述转录组数据、所述基因功能注释数据;
其中,所述表观基因组数据和转录组数据可以根据样本群体在不同发育时期的不同组织信息获取;
所述表观基因组数据至少包括染色质开放区数据。
在一些实施方式中,所述组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种,所述功能背景信息包括单核苷酸多态性在非编码区的功能信息和单核苷酸多态性在编码区的功能信息,所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息;
所述根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息,包括:根据所述表观基因组数据获取对应的染色体上峰值区域的位置信息,构建表观基因组数据的标记矩阵,根据所述标记矩阵获取所述非编码区序列的调控模式信息;根据所述转录组数据获取基因表达水平信息,构建基因表达矩阵,根据所述基因表达矩阵和所述基因功能注释数据获取所述编码区基因的表达模式信息和所述编码区基因的功能信息;
所述根据所述组学背景信息获取功能背景信息,包括:根据所述非编码区序列的调控模式信息,获取单核苷酸多态性在非编码区的功能信息;根据所述编码区基因的表达模式信息和所述编码区基因的功能信息,获取单核苷酸多态性与编码区基因的位置信息,根据所述位置信息和单核苷酸多态性对蛋白质结构和功能的影响程度信息,获取所述单核苷酸多态性在编码区的功能信息;
所述根据所述功能背景信息获取功能调控网络信息,包括:根据所述单核苷酸多态性在编码区的功能信息、所述单核苷酸多态性在非编码区的功能信息,获取所述调控信息。
本发明的第二方面提供了基于多组学数据和深度学习的育种装置,包括:
生物遗传信息获取模块,用于获取目标物种的生物遗传信息;其中,所述生物遗传信息包括多组学数据,所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据;
基因组选择模型获取模块,用于根据所述生物遗传信息获取基于深度学习的基因组选择模型;
表型获取模块,用于根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息,以用于育种。
本发明的第三方面提供了电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机指令程序,所述计算机指令程序被所述处理器执行时实现第一方面所述的基于多组学数据和深度学习的育种方法的步骤。
本发明的第四方面提供了计算机可读存储介质,所述计算机可读存储介质上存储有计算机指令程序,所述计算机指令程序被处理器执行时实现第一方面所述的基于多组学数据和深度学习的育种方法的步骤。
本发明的实施例的技术效果至少包括:
根据本申请实施例提供的育种方法,能够将目标物种的多组学数据和深度学习模型结合在一起,获得对育种性状表达更加准确的基因组选择模型。因此,根据所述基因组选择模型,可以为目标物种的待测基因型更加准确地预测到待育种个体的表型,从而使得物种的育种工作更加高效、精准和便捷。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明实施例的基于多组学数据和深度学习的育种方法的一个流程图;
图2为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图;
图3为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图;
图4为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图;
图5为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图;
图6为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图;
图7为本发明实施例的基于多组学数据和深度学习的育种装置的一个图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本申请实施例中的术语“包括”和“设置有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
除以上所述外,仍需要强调的是,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在相同遗传力的前提下,基因组选择的准确度很大程度上取决于基因型和表型间复杂关联的捕捉,而这种复杂关联的精确识别依赖于基因组选择模型的设计和应用。
在农业育种工作中,应用深度学习技术来整合多层级组学数据,可以切实提升表型预测的精度。但是,具体如何通过深度学习技术整合多层级组学信息来获取高准确度的基因组选择模型,在目前,仍然面临诸多困难。
譬如说,从遗传角度来讲,生物遗传性状的形成是一个复杂的调控过程,遗传信息通过包括表观修饰、转录、翻译等多个复杂中间过程传递到表型的,每一个中间过程都代表着一个模糊了遗传信息和性状之间联系的额外复杂水平。也就是说,生物的表型性状除了受到基因型的直接调控以外,还会受到诸多其他相关因素的影响。这就导致如何准确地获取到基因型和表型之间的对应关系提供了很多难以克服的困难。
从技术角度来说,以深度学习算法为代表的人工智能技术促进了海量的多组学数据的深入挖掘,能够过滤冗余噪音,提升数据信息的利用率。因此,本发明在深度学习算法和多组学数据的支持下,构建基因组选择模型,对遗传分子标记和表型的复杂关联进行捕捉,提升表型预测的准确度,能够帮助理解生物遗传性状形成的分子机制,切实推进农业种业育种工作。
基于此,如图1所示,本发明实施例的第一方面提供了一种基于多组学数据和深度学习的育种方法,包括以下步骤S101至S103:
S101、获取目标物种的生物遗传信息;其中,所述生物遗传信息包括多组学数据,所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据。
需要说明的是,表观基因记录着一生物体的DNA和组蛋白的一系列化学变化。这些变化可以被传递给该生物体的子代;改变表观基因会导致染色体结构以及基因作用发生变化;表观基因参与基因表达、个体发展、组织分化和转座子的抑制过程。因此,表观基因组数据能够反映出生物体的基因表达信息。基因组功能注释(Genome annotation)是利用生物遗传信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释。因此,基因功能注释数据能够反映出基因组中各基因的功能信息。
目标物种可以由本领域技术人员根据需要选择,例如猪马牛羊等动物,也可以是水稻、小麦等植物。
S102、根据所述生物遗传信息获取基于深度学习的基因组选择模型。
具体来说,可以将所述生物遗传信息作为样本,再选择相应的深度学习模型对其进行训练,即可得到所述基因组选择模型。所述基因组选择模型包含目标物种的基因型与表型之间的对应关系。
容易理解的是,深度学习模型一般包括输入层、至少一个中间层和输出层。因此,对于本实施例中的深度学习模型,可以按照如下方式进行训练:将基因型数据作为输入层的输入数据,表型数据作为输出层的输出数据;将多组学数据中的其他数据,例如根据表观基因组数据、转录组数据、基因功能注释数据等形成的数据作为深度学习模型的中间层的输入数据,这样就可以获取到目标物种的基因型与表型之间的对应关系。根据该对应关系即可得到所述基因组选择模型。这里的深度学习模型,本领域技术人员可以根据实际需要进行确定,例如DSPN(the Deep Structured Phenotype Network)模型、DeepGS(predictphenotypes from genotypes using a deep convolutional neural network)模型等。
S103、根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息,以用于育种。具体地,在获取到步骤S102中所述的基因组选择模型后,可以向基因组选择模型中输入待测基因型信息,基因组选择模型即可以输出对应的表型信息。更具体地,可以利用基因编辑的方式设计出一种待测基因型,生成所述待测基因型信息;当然,在某些实施方式中,也可以根据目标物种选取其待育种的个体的待测基因型信息,然后通过所述基因组选择模型预测待测基因型信息对应的表型信息,根据该表型信息判断如何进行进一步的育种工作。
相比于传统的统计学回归模型,机器学习(machine learning,ML)模型通过对分子标记数据的智能挖掘,往往能够取得更高的表型预测精度。同时,相比于单一的基因型数据,整合多种类型的组学数据可以有效提升这种复杂关联的捕捉。因此,以机器学习的一种——深度学习为切入点,通过海量组学数据的深入挖掘,构建关于物种的多层级功能映射网络系统,可以提升基因组选择的准确度;同时还能够实现因果分子标记的精细定位,定量由遗传突变逐层传递到育种经济性状的复杂中间过程。
综上,根据本申请实施例提供的育种方法,能够将目标物种的多组学数据和深度学习模型结合在一起,获得对育种性状表达更加准确的基因组选择模型。因此,根据所述基因组选择模型,可以为目标物种的待测基因型更加准确地预测到待育种个体的表型,从而使得物种的育种工作更加高效、精准和便捷。
此外,根据上述育种方法不仅可以获取高精度的基因组选择模型,还可以扩展到人类遗传疾病等的研究中。该发明将辅助推测遗传突变到农业育种表型的多层级传递过程,辅助加深育种工作者对基因组选择的理解,将更精确地指导育种工作的进行,节省大量的人力、物力、财力,将促进基因组选择成果的交流和推广,推动我国乃至全世界育种工作的进程。
在一些实施例中,所述生物遗传信息还包括:根据所述多组学数据获取的组学背景信息、功能背景信息、功能调控网络信息中的至少一种。
在至少一个实施例中,所述组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种。
在至少一个实施例中,所述功能背景信息包括单核苷酸多态性(英文简称为SNP)在非编码区的功能信息和单核苷酸多态性在编码区的功能信息。需要说明的是,单核苷酸多态性在非编码区的功能信息指的是单核苷酸多态性在全基因组的非编码区的功能信息,单核苷酸多态性在编码区的功能信息指的是单核苷酸多态性在全基因组的编码区的功能信息,
在至少一个实施例中,所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息。示例性地,所述基因调控元件包括启动子、增强子、SD(Shine-Dalgarno)序列与终止子中的至少一种。
在上文基础上,继续如图2所示,在一些实施例中,当所述生物遗传信息还包括所述组学背景信息时,步骤S101、获取目标物种的生物遗传信息,包括:
S1011、根据目标物种的样本群体获取所述多组学数据;
S1012、根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息。
进一步地,当所述生物遗传信息还包括所述功能背景信息时,步骤S101、获取目标物种的生物遗传信息,还包括:
S1013、根据所述组学背景信息获取所述功能背景信息。
进一步地,当所述生物遗传信息还包括所述功能调控网络信息时,步骤S101、获取目标物种的生物遗传信息,还包括:
S1014、根据所述功能背景信息获取所述功能调控网络信息。
在一些实施例中,如图3所示,步骤S102、根据所述生物遗传信息获取基于深度学习的基因组选择模型,包括:
S1021、获取深度学习模型,所述深度学习模型包括输入层、输出层以及位于所述输入层和所述输出层之间的至少一个中间可见层和至少一个中间隐藏层;其中,每个所述中间可见层的输入数据包括功能背景信息、组学背景信息、功能调控网络信息中的其中一种。
S1022、对所述深度学习模型各层的超参数进行优化,确定最优超参数,得到优化的深度学习模型;其中,所述超参数包括核函数、节点数、激活函数、丢弃率、正则化类型中的至少一种。各层的超参数指的是输入层的超参数、输出层的超参数、中间可见层的超参数、中间隐藏层的超参数。
S1023、根据所述生物遗传信息对所述优化的深度学习模型进行训练,得到所述基因组选择模型。
在一些实施例中,所述输入层、所述至少一个中间可见层、所述至少一个隐藏层、所述输出层依次连接。譬如说,所述至少一个中间可见层包括第一中间可见层、第二中间可见层、第三中间可见层,所述至少一个隐藏层包括第一中间隐藏层、第二中间隐藏层、第三中间隐藏层;那么输入层、第一中间可见层、第二中间可见层、第三中间可见层、第一中间隐藏层、第二中间隐藏层、第三中间隐藏层、输出层依次连接。
容易理解的是,每个所述中间可见层的输入数据包括所述功能背景信息、所述组学背景信息、所述功能调控网络信息中的其中一种之外,还可以包括与其连接的前一层的输出数据。譬如说,第一中间可见层的输入数据还可以包括输入层的输出数据,第二中间可见层的输入数据还可以包括第一中间可见层的输出数据。
进一步地,在一些实施例中,所述第一中间可见层的输入数据包括所述功能背景信息和所述输入层的输出数据;所述第二中间可见层的输入数据包括所述组学背景信息和所述第一中间可见层的输出数据;所述第三中间可见层的输入数据包括所述调控网络信息和所述第二中间可见层的输出数据。
上述实施例提供的育种方法聚焦基因组、转录组、表观基因组、基因功能注释等多组学数据和深度学习技术到基因组选择模型上,把基因型数据作为底层,功能背景信息、组学背景信息和调控网络信息作为中间层,根据前述各种信息生成的更高维度聚合特征作为隐藏层,表型数据作为顶层,能够大大提升基因组选择的准确度。同时在此基础上,还可以用于实现自下而上自主学习各层的中间分子标记和表型的关联关系,自上而下反向逆推显著关联分子标记的传递过程,辅助因果分子标记的精细定位,从而提高基因组选择模型中基因型与表型间对应关系的准确度,为分子设计育种提供更好的设计思路。
在一些实施例中,S1023、根据所述生物遗传信息对所述优化的深度学习模型进行训练,得到所述基因组选择模型包括:
在所述深度学习模型的迭代更新中,根据所述生物遗传信息获取所述深度学习模型的各中间可见层的分子标记;在一些实施例中,所述分子标记携带有可遗传的并可检测的DNA序列信息、蛋白质信息或者基因功能信息;
获取所述各中间可见层的分子标记的权重的错误发现率;
根据所述错误发现率计算所述各中间可见层的分子标记与表型关联的显著性信息;
根据所述显著性信息获取所述各中间可见层的分子标记中与表型显著关联的分子标记;以及
根据所述显著关联的分子标记建立所述各中间可见层与所述生物遗传信息的对应关系。具体来说,在一些实施方式中,就是建立功能调控网络信息与第三中间可见层之间的对应关系,组学背景信息和第二中间可见层之间的对应关系,功能背景信息和第一中间可见层之间的对应关系。
上述实施例的目的是为了在训练过程中对所述深度学习模型迭代更新,以获取更加准确的基因组选择模型。
具体来说,在迭代更新中,通过读取、检索所述深度学习模型保存的变量和变量值文件,获得所述深度学习模型各中间可见层的分子标记的权重,通过秩和检验获取随机情形下分子标记的权重,统计分子标记的权重的错误发现率,以此来计算各中间可见层的分子标记与表型关联的显著性信息,从而可以获取到各中间可见层与表型显著关联的分子标记。
根据显著关联的分子标记在所述深度学习模型中的层级顺序,将功能调控网络和第三中间可见层对应起来,将全基因组的编码区的基因和第二中间可见层对应起来,将全基因组的非编码区和编码区的SNP和第一中间可见层对应起来,实现功能调控网络信息、组学背景信息、功能背景信息和深度学习模型的各中间可见层一一对应。
这样可以辅助预测多层级功能映射下分子标记与表型关联的网络。同时可以实现自下而上的学习关联水平,自上而下的反向逆推因果变异,在多组学数据的层面辅助精细定位出与表型相关的因果分子标记。
在一些实施例中,所述至少一个中间隐藏层与所述至少一个中间可见层的数量相等。
在一些实施例中,如图4所示,步骤S1011、所述根据目标物种的样本群体信息获取所述多组学数据包括:
S10111、获取目标物种的样本群体信息。具体地,可以先选取目标物种的样本群体,然后采集样本群体信息并保存,留待使用。譬如说,采集样本群体中每个个体的生物遗传信息,记录并保存,即可得到所述样本群体信息。
S10112、根据所述样本群体信息中的个体信息获取所述基因型数据和所述表型数据;容易理解的是,每个个体都拥有一套基因型信息和表型信息,因此从样本群体中选择或者确定一个个体,根据该个体信息就能够获取到目标物种的基因型数据和表型数据。
S10113、根据所述样本群体信息获取所述表观基因组数据、所述转录组数据、所述基因功能注释数据。
需要说明的是,在某些实施方式中,这里的表观基因组数据和转录组数据可以根据样本群体在不同发育时期的不同组织获取;需要说明的是,这里的组织指的是生物学上的器官组织。
进一步地,所述表观基因组数据至少包括染色质开放区数据。在一些实施例中,所述表观基因组数据还可以包括组蛋白数据、转录因子修饰数据、甲基化数据、非编码RNA数据、三维基因组结构数据中的一种或者多种;所述基因功能注释数据可以根据GO数据库获取,在某些实施例中,也可以根据GO数据库和KEGG数据库的共同作用来获取。
需要说明的是,染色质开放区数据可以根据ATAC-seq(Assay for Transposase-Accessible Chromatin with high throughput sequencing)技术获取,ATAC-seq是一种创新的表观遗传学研究技术,该技术通过转座酶对某种特定时空下开放的核染色质区域进行切割,进而获得在该特定时空下基因组中所有活跃转录的调控序列。组蛋白数据和转录因子修饰数据数据可以根据ChIP-seq(Chromatin Immunoprecipitation sequencing)技术获取。甲基化数据数据可以根据WGBS(Whole Genome Bisulfite Sequencing)技术获取。非编码RNA数据可以根据RNA-seq技术获取。三维基因组结构数据可以根据Hi-C(Chromosome conformation capture,3C)技术获取。
需要说明的是,所述基因功能注释数据可以根据GO(Gene Ontology)数据库获取,它涵盖生物学的三个方面:细胞组分、分子功能、生物过程;还可以根据KEGG(KyotoEncyclopedia of Genes and Genomes)数据库获取,它是一个整合了基因组、化学和系统功能信息的数据库,把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来。
在一些实施例中,如图5所示,步骤S1012、根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息,包括:
S10121、根据所述表观基因组数据获取对应的染色体上峰值区域的位置信息,构建表观基因组数据的标记矩阵,根据所述标记矩阵获取所述非编码区序列的调控模式信息。
更进一步地,可以通过深度学习模型,对所述标记矩阵和峰值区域序列信息建模,得到所述非编码区序列的调控模式信息。
需要说明的是,根据相关研究表明,根据序列特征可以高精度地学习表观基因组信息,并用于未知表观基因组信息序列的综合推断,比如基于深度学习技术的DeepSEA模型。因此,利用深度学习表观基因组的调控模式的方法,用于非编码区SNP功能的预测,就能够实现全基因组非编码区SNP调控功能注释的补全,从而获取到非编码区序列的调控模式信息。
S10122、根据所述转录组数据获取基因表达水平信息,构建基因表达矩阵,根据所述基因表达矩阵和所述基因功能注释数据获取所述编码区基因的表达模式信息和所述编码区基因的功能信息。
更进一步地,可以通过主成分分析(principle component analysis,PCA)方法,对所述基因表达矩阵进行分解,结合所述基因功能注释数据得到编码区基因的表达模式信息和编码区基因的功能信息。
需要说明的是,根据相关研究表明,基于样本的第一主成分(英文名称为principle component 1,简称PC1)可以解释原数据80%到90%的信息。因此根据上述方法能够更加准确地获取到编码区基因的表达模式信息和编码区基因的功能信息。
在一些实施例中,如图6所示,步骤S1013、根据所述组学背景信息数据获取功能背景信息,包括:
S10131、根据所述非编码区序列的调控模式信息,获取所述单核苷酸多态性在非编码区的功能信息;示例性地,可以利用DeepSEA模型学习全基因组范围内非编码区表观基因组信号特征,以用于获取所述单核苷酸多态性在非编码区的功能信息。
S10132、根据所述编码区基因的表达模式信息和所述编码区基因的功能信息,获取单核苷酸多态性与编码区基因的位置信息,根据所述位置信息和单核苷酸多态性对蛋白质结构和功能的影响程度信息,获取所述单核苷酸多态性在编码区的功能信息。
基因功能是编码区蛋白功能注释的重要依据之一,是解释分子标记和表型关联的重要基础,因此基因功能的准确注释是解析相关调控机制的重要前提。有研究表明可以通过转录组数据辅助基因功能注释数据的完善,对基因表达数据进行矩阵分解(matrixfactorization,MF),得到反映基因关联的增幅矩阵(amplitude matrix,AM),其中的系数值代表每个基因对于每个表达模式(metagene)的相对贡献,根据GO和KEGG等数据库注释的功能信息,构建统计学检验模型,实现基因功能补全。更具体地,可以从GO和KEGG等数据库下载对应的基因功能注释文件,利用easyMF模型从转录组数据中学习每一类基因功能的表达特征,进而补全所有基因的基因功能。
然后,通过定位SNP与编码区基因的位置,结合SNP对蛋白质结构和功能的影响,将基因的功能赋值给SNP,就可以实现全基因组编码区SNP功能注释的补全。
在一些实施例中,步骤S1014、根据所述功能背景信息获取功能调控网络信息,包括:
根据所述单核苷酸多态性在编码区的功能信息、所述单核苷酸多态性在非编码区的功能信息,获取所述调控信息。
在一些实施例中,所述育种方法还包括:
根据皮尔森相关系数(PCC)对所述基因组选择模型的预测效果进行评估。
更具体是,结合皮尔森相关系数,将所述基因组选择模型与rrBLUP等经典基因组选择模型进行比较分析,随后通过建立的独立验证集,综合评估基因组选择效果。
根据本发明实施例提供的育种方法在纯种杜洛克公猪上进行性能分析,结果表明不管是在测试集还是独立验证集,逐层加入转录调控多层级功能注释信息的DeepAnnotation模型预测性能均优于经典的rrBLUP模型。
基于与前述第一方面实施例提供的育种方法同样的构思,本发明实施例的第二方面提供了基于多组学数据和深度学习的育种装置10,包括:
生物遗传信息获取模块100,用于获取目标物种的生物遗传信息;其中,所述生物遗传信息包括多组学数据,所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据;
基因组选择模型获取模块200,用于根据所述生物遗传信息获取基于深度学习的基因组选择模型;
表型获取模块300,用于根据所述基因组选择模型获取与目标物种的选育个体的待测基因型对应的表型,以用于育种。
本发明实施例的第三方面提供了电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机指令程序,所述计算机指令程序被所述处理器执行时实现第一方面所述的基于多组学数据和深度学习的育种方法的步骤。
本发明实施例的第四方面提供了计算机可读存储介质,所述计算机可读存储介质上存储有计算机指令程序,所述计算机指令程序被处理器执行时实现第一方面所述的基于多组学数据和深度学习的育种方法的步骤。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (10)
1.基于多组学数据和深度学习的育种方法,其特征在于,包括:
获取目标物种的生物遗传信息;其中,所述生物遗传信息包括多组学数据,所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据;
根据所述生物遗传信息获取基于深度学习的基因组选择模型;
根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息,以用于育种。
2.根据权利要求1所述的育种方法,其特征在于,所述生物遗传信息还包括:根据所述多组学数据获取的组学背景信息、功能背景信息、功能调控网络信息中的至少一种;其中,
所述组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种;
所述功能背景信息包括单核苷酸多态性在非编码区的功能信息和单核苷酸多态性在编码区的功能信息;
所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息。
3.根据权利要求1所述的育种方法,其特征在于,所述生物遗传信息还包括组学背景信息、功能背景信息、功能调控网络信息;
所述获取目标物种的生物遗传信息,包括:
根据目标物种的样本群体信息获取所述多组学数据;
根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息;
根据所述组学背景信息获取所述功能背景信息;
根据所述功能背景信息获取所述功能调控网络信息。
4.根据权利要求1所述的育种方法,其特征在于,根据所述生物遗传信息对选取的深度学习模型进行训练,获得所述基因组选择模型,包括:
获取深度学习模型,所述深度学习模型包括输入层、输出层以及位于所述输入层和所述输出层之间的至少一个中间可见层和至少一个中间隐藏层;
对所述深度学习模型各层的超参数进行优化,确定最优超参数,得到优化的深度学习模型;其中,所述超参数包括核函数、节点数、激活函数、丢弃率、正则化类型中的至少一种;
根据所述生物遗传信息对所述优化的深度学习模型进行训练,得到所述基因组选择模型。
5.根据权利要求4所述的育种方法,其特征在于,所述至少一个中间可见层包括第一中间可见层、第二中间可见层、第三中间可见层,所述至少一个隐藏层包括第一中间隐藏层、第二中间隐藏层、第三中间隐藏层;
所述输入层、所述第一中间可见层、所述第二中间可见层、所述第三中间可见层、所述第一中间隐藏层、所述第二中间隐藏层、所述第三中间隐藏层、所述输出层依次连接;
所述输入层的输入数据包括所述基因型数据;
所述第一中间可见层的输入数据包括所述功能背景信息;
所述第二中间可见层的输入数据包括所述组学背景信息;
所述第三中间可见层的输入数据包括所述调控网络信息;
所述输出层的输入数据包括所述表型数据。
6.根据权利要求1所述的育种方法,其特征在于,所述获取目标物种的生物遗传信息,包括:
获取目标物种的样本群体信息;
根据所述样本群体信息中的个体信息获取所述基因型数据和所述表型数据;
根据所述样本群体信息获取所述表观基因组数据、所述转录组数据、所述基因功能注释数据;
其中,所述表观基因组数据和所述转录组数据根据所述样本群体在不同发育时期的不同组织信息获取;
所述表观基因组数据至少包括染色质开放区数据。
7.根据权利要求3所述的育种方法,其特征在于,所述多组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种,所述功能背景信息包括单核苷酸多态性在非编码区的功能信息和单核苷酸多态性在编码区的功能信息,所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息;
根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息,包括:根据所述表观基因组数据获取对应的染色体上峰值区域的位置信息,构建表观基因组数据的标记矩阵,根据所述标记矩阵获取所述非编码区序列的调控模式信息;根据所述转录组数据获取基因表达水平信息,构建基因表达矩阵,根据所述基因表达矩阵和所述基因功能注释数据获取所述编码区基因的表达模式信息和所述编码区基因的功能信息;
所述根据所述组学背景信息获取功能背景信息,包括:根据所述非编码区序列的调控模式信息,获取所述单核苷酸多态性在非编码区的功能信息;根据所述编码区基因的表达模式信息和所述编码区基因的功能信息,获取单核苷酸多态性与编码区基因的位置信息,根据所述位置信息和单核苷酸多态性对蛋白质结构和功能的影响程度信息,获取所述单核苷酸多态性在编码区的功能信息;
所述根据所述功能背景信息获取功能调控网络信息数据,包括:根据所述单核苷酸多态性在编码区的功能信息、所述单核苷酸多态性在非编码区的功能信息,获取所述调控信息。
8.基于多组学数据和深度学习的育种装置,其特征在于,包括:
生物遗传信息获取模块,用于获取目标物种的生物遗传信息;其中,所述生物遗传信息包括多组学数据,所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据;
基因组选择模型获取模块,用于根据所述生物遗传信息获取基于深度学习的基因组选择模型;
表型获取模块,用于根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息,以用于育种。
9.电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机指令程序,所述计算机指令程序被所述处理器执行时实现权利要求1-7任一所述的基于多组学数据和深度学习的育种方法的步骤。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令程序,所述计算机指令程序被处理器执行时实现权利要求1-7所述的基于多组学数据和深度学习的育种方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404221.XA CN114743601B (zh) | 2022-04-18 | 2022-04-18 | 基于多组学数据和深度学习的育种方法、装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404221.XA CN114743601B (zh) | 2022-04-18 | 2022-04-18 | 基于多组学数据和深度学习的育种方法、装置、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114743601A true CN114743601A (zh) | 2022-07-12 |
CN114743601B CN114743601B (zh) | 2023-02-03 |
Family
ID=82282193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404221.XA Active CN114743601B (zh) | 2022-04-18 | 2022-04-18 | 基于多组学数据和深度学习的育种方法、装置、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743601B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831636A (zh) * | 2024-03-04 | 2024-04-05 | 北京市农林科学院信息技术研究中心 | 利用融合模型实施基因组选择的方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016088949A1 (ko) * | 2014-12-05 | 2016-06-09 | 연세대학교 산학협력단 | 애기장대 유전자네트워크를 이용한 식물의 복합 형질 관련 유전자 예측 시스템 |
US20180025110A1 (en) * | 2015-01-29 | 2018-01-25 | Massachusetts Institute Of Technology | Analyzing characteristics of genomic regions of a genome |
CN109524059A (zh) * | 2018-12-28 | 2019-03-26 | 华中农业大学 | 一种快速稳定的动物个体基因组育种值评估方法 |
CN109727640A (zh) * | 2019-01-22 | 2019-05-07 | 袁隆平农业高科技股份有限公司 | 基于自动机器学习技术的全基因组预测方法及装置 |
US20200357481A1 (en) * | 2019-05-08 | 2020-11-12 | X Development Llc | Methods and compositions for governing phenotypic outcomes in plants |
WO2021183408A1 (en) * | 2020-03-09 | 2021-09-16 | Pioneer Hi-Bred International, Inc. | Multi-modal methods and systems |
WO2021202910A1 (en) * | 2020-04-02 | 2021-10-07 | Embark Veterinary, Inc. | Methods and systems for determining pigmentation phenotypes |
CN114360651A (zh) * | 2021-12-28 | 2022-04-15 | 中国海洋大学 | 一种基因组预测方法、预测系统及应用 |
-
2022
- 2022-04-18 CN CN202210404221.XA patent/CN114743601B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016088949A1 (ko) * | 2014-12-05 | 2016-06-09 | 연세대학교 산학협력단 | 애기장대 유전자네트워크를 이용한 식물의 복합 형질 관련 유전자 예측 시스템 |
US20180025110A1 (en) * | 2015-01-29 | 2018-01-25 | Massachusetts Institute Of Technology | Analyzing characteristics of genomic regions of a genome |
CN109524059A (zh) * | 2018-12-28 | 2019-03-26 | 华中农业大学 | 一种快速稳定的动物个体基因组育种值评估方法 |
CN109727640A (zh) * | 2019-01-22 | 2019-05-07 | 袁隆平农业高科技股份有限公司 | 基于自动机器学习技术的全基因组预测方法及装置 |
US20200357481A1 (en) * | 2019-05-08 | 2020-11-12 | X Development Llc | Methods and compositions for governing phenotypic outcomes in plants |
WO2021183408A1 (en) * | 2020-03-09 | 2021-09-16 | Pioneer Hi-Bred International, Inc. | Multi-modal methods and systems |
WO2021202910A1 (en) * | 2020-04-02 | 2021-10-07 | Embark Veterinary, Inc. | Methods and systems for determining pigmentation phenotypes |
CN114360651A (zh) * | 2021-12-28 | 2022-04-15 | 中国海洋大学 | 一种基因组预测方法、预测系统及应用 |
Non-Patent Citations (6)
Title |
---|
MILANPICARD ET.AL: "Integration strategies of multi-omics data for machine learning analysis", 《COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL》 * |
YA-LAN ET.AL: "Future livestock breeding: Precision breeding based on multi-omics information and population personalization", 《JOURNAL OF INTEGRATIVE AGRICULTURE》 * |
岑海燕等: "深度学习在植物表型研究中的应用现状与展望", 《农业工程学报 》 * |
肖静等: "《现代医学检验技术》", 31 January 2018, 天津科学技术出版社 * |
袁泽湖等: "整合生物学先验信息的全基因组选择方法及其在家畜育种中的应用进展", 《畜牧兽医学报 》 * |
钟雅婷等: "多组学数据整合分析和应用研究综述", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831636A (zh) * | 2024-03-04 | 2024-04-05 | 北京市农林科学院信息技术研究中心 | 利用融合模型实施基因组选择的方法、装置、设备及介质 |
CN117831636B (zh) * | 2024-03-04 | 2024-06-11 | 北京市农林科学院信息技术研究中心 | 利用融合模型实施基因组选择的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114743601B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Genomic prediction of breeding values using a subset of SNPs identified by three machine learning methods | |
Bernardo | Reinventing quantitative genetics for plant breeding: something old, something new, something borrowed, something BLUE | |
Ramstein et al. | Breaking the curse of dimensionality to identify causal variants in Breeding 4 | |
Walsh et al. | Evolution and selection of quantitative traits | |
Speed et al. | Relatedness in the post-genomic era: is it still useful? | |
Simon et al. | Coadapted genomes and selection on hybrids: Fisher's geometric model explains a variety of empirical patterns | |
Hey et al. | The study of structured populations—new hope for a difficult and divided science | |
Waldmann | Genome-wide prediction using Bayesian additive regression trees | |
Xu | Principles of statistical genomics | |
Hejase et al. | From summary statistics to gene trees: methods for inferring positive selection | |
CN114743601B (zh) | 基于多组学数据和深度学习的育种方法、装置、设备 | |
Liu | Bioinformatics in aquaculture: principles and methods | |
Zhao et al. | Interpretable artificial neural networks incorporating Bayesian alphabet models for genome-wide prediction and association studies | |
Schweizer et al. | Big data in conservation genomics: Boosting skills, hedging bets, and staying current in the field | |
CN116580773A (zh) | 基于集成学习的育种跨代表型预测方法与系统、电子设备 | |
Williams et al. | Genetic and molecular network analysis of behavior | |
Kijas | Detecting regions of homozygosity to map the cause of recessively inherited disease | |
Azevedo et al. | Using visual scores for genomic prediction of complex traits in breeding programs | |
JP2019096340A (ja) | 哺乳類の形態を決定するための方法及びアレンジメント | |
Varona et al. | Genomic prediction methods accounting for nonadditive genetic effects | |
Wu et al. | advances in genomics of crossbred farm animals | |
Kadarmideen | Systems Biology in Animal Production and Health, Vol. 1 | |
Xu | QTL analysis in plants | |
Lampert et al. | No evidence for female mate choice based on genetic similarity in the túngara frog Physalaemus pustulosus | |
Le Rouzic et al. | Estimating genetic architectures from artificial-selection responses: A random-effect framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |