CN106169034B - 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择 - Google Patents

基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择 Download PDF

Info

Publication number
CN106169034B
CN106169034B CN201610351525.9A CN201610351525A CN106169034B CN 106169034 B CN106169034 B CN 106169034B CN 201610351525 A CN201610351525 A CN 201610351525A CN 106169034 B CN106169034 B CN 106169034B
Authority
CN
China
Prior art keywords
breeding
parent
information
snp
pav
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610351525.9A
Other languages
English (en)
Other versions
CN106169034A (zh
Inventor
郑天清
黎志康
韦朝春
王文生
胡智强
余泓
王春超
傅彬英
赵秀琴
高用明
周永力
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Original Assignee
Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Crop Sciences of Chinese Academy of Agricultural Sciences filed Critical Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Priority to CN201610351525.9A priority Critical patent/CN106169034B/zh
Publication of CN106169034A publication Critical patent/CN106169034A/zh
Application granted granted Critical
Publication of CN106169034B publication Critical patent/CN106169034B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本发明涉及一种利用SNP聚类和PAV变异进行亲本选择的基因组信息辅助育种方法。本发明的实质是借助基因组学和生物信息学方法,获得候选亲本的基因组测序信息,一方面通过序列比对获得高质量SNP数据集并计算候选亲本的遗传距离矩阵,借助聚类树判断候选亲本间的亲缘关系;另一方面,将Denovo组装的候选亲本contig定位到参考基因组,再根据物理位置获取候选亲本目标性状相关基因的PAV变异。结合PAV变异和基于SNP的亲缘关系信息,从大量候选亲本中筛选出亲本子集用于表型鉴定;最终结合亲本子集的表型鉴定结果确定入选育种亲本。该方法属于水稻分子育种领域,能够从大量的候选亲本中有效的缩小用于表型鉴定的材料范围,减少表型鉴定的工作量,提高育种工作效率。

Description

基因组信息辅助育种方法I-基于SNP聚类信息和PAV变异信息 的育种亲本选择
技术领域
本发明涉及一种利用SNP聚类信息和PAV变异信息进行育种亲本选择的基因组信息辅助育种方法。该方法属于作物分子育种领域,适用于在水稻等作物中高效的进行育种亲本的选择。
背景技术
基因组技术与信息技术的结合,使得科研人员可以方便的获取所需要的海量的基因数据并深入的挖掘相关的遗传信息;数据库平台使得育种家能够对海量数据进行存储和深入的挖掘并实现信息共享。亲本选择是作物育种中至关重要的一个步骤,直接决定一个育种周期(3-5 年)内全部工作的成败。随着基因组时代的到来,分子育种已经向基于全基因组信息的方向演进;育种亲本的选择也不仅仅根据表型数据,更要包括目标性状关键基因的重要基因组信息数据。基因组信息的强大支持,也将使得育种工作的可重复性大大增强,育种工作的效率大大提高。
SNP信息是基因组中多态性最好的分子标记,其在基因组中广泛存在,既可以出现在基因内区域,也可以出现在基因间区域;利用足够量的SNP信息进行育种亲本材料的聚类分析无疑是十分准确的。PAV变异(Presence/Absence Variation,存在/缺失变异,或译作获得/缺失变异)是近年来在基因组变异研究中新兴的一种研究尺度,它比通常的插入缺失(InDel, 20bp以下)的尺寸要大(通常在50-2000bp),因此PAV变异对于基因功能的影响要更加显著。二者相结合,能够较好的反应个体基因组在不同尺度的变异水品和相似性。
通过大规模全基因组测序和生物信息学分析,一方面我们可以获取海量的SNP和PAV变异信息;另一方面,对于个别重要的PAV变异,我们可以进一步将其开发成单个的基于PCR (聚合酶链式反应)的育种用分子标记,应用于标记辅助选择育种。在人类、动物以及大豆、高粱和玉米上,PAV变异都得到了比较充分的挖掘和利用;反观水稻,PAV变异的应用还比较少。
随着基因组测序技术飞速发展,伴随着测序成本的急剧下降和大量基因组数据的便于获取,如何将基因组数据与育种实践有效结合,成为摆在分子育种工作者面前的一个重要命题。在作物育种过程中,仅仅通过表型,即便是易于观察的抽穗期等表型,来筛选所需亲本也是一个繁重且周期较长的任务。到目前为止,全球测序的水稻品种已经不下5000份;其中由中国农业科学院作物科学研究所负责与华大基因及国际水稻研究所合作,完成了全球3000余份水稻种质资源的测序工作。如何从海量的数据中获取与育种相关的重要选择指标,有效的缩小表型鉴定的范围是一个重要的研究课题。如果能够将基因组信息与表型鉴定相结合,借助基因组手段缩小用于表型鉴定材料范围,无疑能够极大的提高育种工作表型鉴定的效率。以我国北方粳稻特别是东北粳稻的亲本选择为例,由于育种目标是选育感温性强而感光性弱甚至于无感光性的品种,因此可以选用的亲本在与感光性相关的基因位点上是否具有合适的基因型,是一个非常重要的选择指标。
发明内容
(一)技术问题
本发明针对上述研究背景,利用基因组测序技术,通过对候选育种亲本进行基因组SNP 和PAV变异数据的采集和分析,构建基于SNP信息的聚类树,获取重要目标性状基因位点的 PAV变异信息,建立候选育种亲本的基于SNP聚类的亲缘关系信息和PAV变异信息数据库,利用该数据库对育种亲本有效的进行基于基因组数据的辅助选择,主要应用于水稻等作物的育种。
(二)技术方案
1.一种利用SNP聚类信息和PAV变异信息进行育种亲本选择的基因组信息辅助育种方法,按照如下步骤进行:
1)通过基因组重测序获得候选育种亲本的大量基因组reads信息;
2)通过常规的序列比对方法与参考基因组进行比对,获取物理位置信息,然后提取SNP 信息数据集;通过设置参数,过滤SNP信息数据集,获得缺失数据最少的高质量SNP数据亚集;
3)在高质量SNP数据亚集的基础上,通过常规的方法计算获得候选育种亲本的遗传距离矩阵,利用常规方法构建SNP聚类树,根据候选育种亲本的SNP聚类信息,判断候选育种亲本之间的亲缘关系远近;
4)通过Denovo组装,形成候选育种亲本的contig,然后将其通过常规的序列比对分析方法定位到参考基因组,获得相应候选育种亲本contig的物理位置;
5)根据育种计划所设定的目标性状,选择重要的相关基因位点,根据该基因的物理位置区间,分析候选育种亲本contig中目标性状控制基因对应区间序列的PAV变异基因型;
6)根据PAV变异分析的结果和基于SNP聚类的亲缘关系信息,从大量候选育种亲本中筛选获得用于表型鉴定的亲本子集;
7)结合亲本子集的表型重复鉴定结果最终确定育种计划所需的入选育种亲本。
该方法可以在水稻及其它作物的基因组信息辅助育种中应用。
(三)有益效果
本发明与现有技术相比具有以下优点及效果:
1.通过将PAV变异信息、SNP聚类信息与表现型筛选相结合,能够比较准确有效的获得目标性状所需的入选育种亲本。
2.能够从大量候选育种亲本中比较有效的缩小进一步表型鉴定的亲本材料范围,减少表型鉴定的工作量,提高育种工作效率;
3.本发明获得的育种亲本SNP聚类信息和DTH8基因位点为代表的PAV变异信息可用于早熟粳稻育种亲本的基因型选择,有效地鉴别弱感光性且与粳稻亲缘关系较远的候选育种亲本,便于及时的杂交转育,加快育种进程。
附图说明
图1 通过基因ID检索DTH8基因的基本信息示例。
图2 DTH8基因的PAV变异信息及其在不同育种亲本SNP聚类树上的分布示例。
图3 不同类型的候选育种亲本中的DTH8基因PAV变异图示示例,左侧为基于SNP的聚类树,右侧为PAV变异。
具体实施方式
下面结合具体实施实例,进一步阐述本发明。其中所用方法如无特别说明均为常规方法。以下示例不以任何形式限定本发明。
(一)亲本材料的基因组信息获取
1.供试材料
育种家的任意候选育种亲本材料。
2.DNA提取及全基因组高通量测序
参考Temnykh等(2000年)的DNA提取方法,对各单株分别提取基因组DNA。
考虑成本,基因组测序可以采用基于shot-gun测序技术,建库和测序方法都同常规。获得质量较好的数据覆盖度建议在10X以上。为了保证测序数据的质量,原始数据中如果某个 Read超过50%的碱基quality值小于5的或者有接头污染,则予以过滤淘汰。
(二)SNP信息提取及育种亲本聚类分析
考虑到育种亲本在目标性状适宜的情况下,有必要尽可能的保持其多样性,因此,我们对于候选育种亲本的亲缘关系要有一个基本的了解。
我们在基因组DNA测序数据的基础上,将每个样本获得的reads与参考基因组(例如 Os-Nipponbare-Reference-IRGSP-1.0,IRGSP-1.0)利用免费分析工具如BWA等进行比对分析,将比对的结果生成BAM格式文件。在BAM文件的基础上,利用免费分析工具如GenomeAnalysis Toolkit(GATK)等提取SNP信息。为了提高SNP信息提取的可靠性,质量控制参数设置为:每个位点的mapping质量值大于20、变异质量值大于50,而且每个碱基至少有来自2个以上reads数据的支持,MAF值>0.001。从提取的SNP数据集中随机挑选缺失数据最少的高质量SNP数据亚集,总数不超过200K,用于下一步的育种亲本聚类分析。
在上述高质量SNP数据亚集的基础上,计算育种亲本的遗传距离矩阵,免费工具如Tree BeST构建聚类树,展示候选育种亲本之间的亲缘关系,boot straps参数设置为1000。
(三)PAV信息的提取和数据库的构建
经过过滤的高质量reads数据利用拼接软件,例如SOAP denovo等进行从头拼接,获得不同长度的Contig/Scaffold。
将所有测序亲本的Contig/Scaffold分别用免费工具BLAT(Kent 2002)与参考基因组(例如Os-Nipponbare-Reference-IRGSP-1.0或者多个基因组数据整合成的Pan-genome)进行序列快速比对,获得每个Contig/Scaffold的物理位置;在此基础上,通过免费工具LASTZ (http://www.bx.psu.edu/miller_lab/)将Contig/Scaffold比对定位到参考基因组上。对于没有比对上的Contig/Scaffold可以进一步用免费工具BLASTn(Altschulet al.1990)做进一步的比对。
在50-2,600bp范围内或者以某个基因全长的85%或编码区的95%作为阈值判断该基因位点是否属于PAV变异。将相应的PAV变异信息依照不同的候选育种亲本创建数据库,便于检索和访问。PAV变异图示的方式可以采用开源的JBrowse等浏览器技术进行实现。
(四)目标性状相关关键基因位点(仅以感光性为例)的PAV变异分析
以下分析可以通过依据上述步骤创建的类似http://www.rmbreeding.cn/pan3k的数据库网站来完成。
已经知道DTH8是控制感光性的关键基因位点;我们选择该基因位点(RAP-DB的登录 ID号:Os08g0174500)作为PAV变异的主要分析对象。首先在检索中输入基因ID号,获得相应的基因PAV变异信息(图1)。检索表明DTH8在不同基因组间存在PAV变异,其中主要在粳稻(JAP)中携带,其最高基因频率可达96.8%(图2)。
(五)确定入选育种亲本
下一步我们要筛选对光照长度不敏感的育种亲本,那么就要对DTH8基因位点有缺失的个体进行选择。首先我们依据SNP聚类树的结果,随机挑选了8个分属不同聚类群即亲缘关系尽可能较远的样本(图3)作为操作范例进行说明,实际可以同时选取的样本数可以达到 50个以上。接着,点击“提交(submit)”按钮,展示这8个亲本的DTH8基因的图示PAV 变异基因型。我们发现,其中有两个亲本(CX106和B026)具备DTH8基因全长,而其它6 个(B024、IRIS_313-11275、B060、B067、B112和IRIS_313-11859)都有不同大小的DTH8 基因缺失。这样我们就能够将用于表型鉴定的候选育种亲本数减少25%,从而减少了25%的表型鉴定工作量。
最后,我们将依据前期收集的这6份亲本在中国北方长日照条件下的抽穗期,我们选取了B024——既具备DTH8的缺失类型的PAV变异所导致日照长度不敏感(无感光性),同时其与普通粳稻的亲缘关系又比较远,适合作为北方粳稻育种改良的亲本使用。

Claims (2)

1.一种利用SNP聚类信息和PAV变异信息进行育种亲本选择的基因组信息辅助育种方法,按照如下步骤进行:
1)通过基因组重测序获得候选育种亲本的大量基因组reads信息;
2)通过常规的序列比对方法与参考基因组进行比对,获取物理位置信息,然后提取SNP信息数据集;通过设置参数,过滤SNP信息数据集,获得缺失数据最少的高质量SNP数据亚集;
3)在高质量SNP数据亚集的基础上,通过常规的方法计算获得候选育种亲本的遗传距离矩阵,利用常规方法构建SNP聚类树,根据候选育种亲本的SNP聚类信息,判断候选育种亲本之间的亲缘关系远近;
4)通过Denovo组装,形成候选育种亲本的contig,然后将其通过常规的序列比对分析方法定位到参考基因组,获得相应候选育种亲本contig的物理位置;
5)根据育种计划所设定的目标性状,选择重要的相关基因位点,根据该基因的物理位置区间,分析候选育种亲本contig中目标性状控制基因对应区间序列的PAV变异基因型;
6)根据PAV变异分析的结果和基于SNP聚类的亲缘关系信息,从大量候选育种亲本中筛选获得用于表型鉴定的亲本子集;
7)结合亲本子集的表型重复鉴定结果最终确定育种计划所需的入选育种亲本。
2.依据权利要求1所述的方法,其特征在于,该方法在水稻基因组信息辅助育种中的应用。
CN201610351525.9A 2016-05-26 2016-05-26 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择 Expired - Fee Related CN106169034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610351525.9A CN106169034B (zh) 2016-05-26 2016-05-26 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610351525.9A CN106169034B (zh) 2016-05-26 2016-05-26 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择

Publications (2)

Publication Number Publication Date
CN106169034A CN106169034A (zh) 2016-11-30
CN106169034B true CN106169034B (zh) 2019-03-26

Family

ID=57359173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610351525.9A Expired - Fee Related CN106169034B (zh) 2016-05-26 2016-05-26 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择

Country Status (1)

Country Link
CN (1) CN106169034B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3679575A1 (en) * 2017-09-07 2020-07-15 Regeneron Pharmaceuticals, Inc. Systems and methods for leveraging relatedness in genomic data analysis
CN110211631B (zh) * 2018-02-07 2024-02-09 深圳先进技术研究院 一种全基因组关联分析方法、系统及电子设备
CN108376210B (zh) * 2018-02-12 2020-06-09 中国农业科学院作物科学研究所 基因组信息辅助育种方法ⅱ-一种基于全基因组snp有利单倍型挖掘的育种亲本选择方法
CN108363906B (zh) * 2018-02-12 2021-12-28 中国农业科学院作物科学研究所 水稻多样本变异整合图谱OsMS-IVMap1.0的创建
CN108681661B (zh) * 2018-05-16 2022-02-18 杭州迈迪科生物科技有限公司 一种伴随实验生成样本id的方法
CN109698009A (zh) * 2019-03-01 2019-04-30 华中农业大学 一种基于存在/缺失变异的泛基因组构建方法
CN115443907B (zh) * 2022-07-26 2023-04-21 开封市农林科学研究院 基于全基因组选择的高产大果花生杂交组配选择的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090104601A1 (en) * 2003-02-27 2009-04-23 Methexis Genomics N.V. Genetic diagnosis using multiple sequence variant analysis
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN103942466A (zh) * 2014-05-12 2014-07-23 中国水产科学研究院黑龙江水产研究所 一种基于遗传背景的鱼类亲本选择系统及方法
CN105010233A (zh) * 2015-08-11 2015-11-04 吉林康大食品有限公司 一种应用snp辅助选择育种技术培育高繁殖性能种兔的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090104601A1 (en) * 2003-02-27 2009-04-23 Methexis Genomics N.V. Genetic diagnosis using multiple sequence variant analysis
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN103942466A (zh) * 2014-05-12 2014-07-23 中国水产科学研究院黑龙江水产研究所 一种基于遗传背景的鱼类亲本选择系统及方法
CN105010233A (zh) * 2015-08-11 2015-11-04 吉林康大食品有限公司 一种应用snp辅助选择育种技术培育高繁殖性能种兔的方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Highly efficient genotyping of rice biparental populations by GoldenGate assays based on parental resequencing;Wei Chen 等;《Theoretical and Applied Genetics》;20131105;第127卷;第297-307页 *
InDel和SNP标记在水稻图位克隆中的应用;潘存红 等;《中国水稻科学》;20070930;第21卷(第5期);第447-453页 *
PAV markers in Sorghum bicolour : genome pattern, affected genes and pathways, and genetic linkage map construction;Xin Shen 等;《Theoretical and Applied Genetics》;20150130;第128卷;第623-637页 *
大丽轮枝菌不同毒力菌株全基因组测序及重测序分析;陈相永;《中国博士学位论文全文数据库 农业科技辑》;20121015(第10期);第D046-8页 *
大豆3个核心亲本及其衍生品系基于PAV分子标记的亲缘关系研究;王自力 等;《大豆科学》;20160131;第35卷(第1期);第1-10页 *
小麦育种亲本材料SSR标记遗传多样性及其亲缘关系分析;王升星 等;《麦类作物学报》;20140512;第34卷(第5期);第621-627页 *
水稻功能基因组育种数据库(RFGB):3K水稻SNP与InDel子数据库;郑天清 等;《科学通报》;20150228;第60卷(第4期);第367-371页 *

Also Published As

Publication number Publication date
CN106169034A (zh) 2016-11-30

Similar Documents

Publication Publication Date Title
CN106169034B (zh) 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择
Xu et al. Draft genome of spinach and transcriptome diversity of 120 Spinacia accessions
Korir et al. Plant variety and cultivar identification: advances and prospects
Civáň et al. Three geographically separate domestications of Asian rice
Wang et al. Genetic diversity and classification of Oryza sativa with emphasis on Chinese rice germplasm
Qin et al. Identification of associated SSR markers for yield component and fiber quality traits based on frame map and upland cotton collections
Johnson et al. Genome‐wide population structure analyses of three minor millets: Kodo millet, little millet, and proso millet
CN105740650B (zh) 一种快速准确鉴定高通量基因组数据污染源的方法
CN105567857B (zh) 384个snp位点及其在大豆品种资源鉴定中的应用
Albuquerque et al. Identification of duplicates in cassava germplasm banks based on single-nucleotide polymorphisms (SNPs)
Keep et al. High-throughput genome-wide genotyping to optimize the use of natural genetic resources in the grassland species perennial ryegrass (Lolium perenne L.)
Wang et al. Analysis of the genetic structure and diversity of upland cotton groups in different planting areas based on SNP markers
Ebadi et al. Genetic diversity of Iranian and some European grapes as revealed by nuclear and chloroplast microsatellite and SNP molecular markers
Iquebal et al. MiSNPDb: a web-based genomic resources of tropical ecology fruit mango (Mangifera indica L.) for phylogeography and varietal differentiation
Olsson et al. Evolutionary relevance of lineages in the European black pine (Pinus nigra) in the transcriptomic era
CN108376210A (zh) 基因组信息辅助育种方法ⅱ-一种基于全基因组snp有利单倍型挖掘的育种亲本选择方法
Zhang et al. Smart breeding driven by advances in sequencing technology
Wang et al. Principle and strategy of DNA fingerprint identification of plant variety
Yang et al. Genetic characterization of anemone‐type chrysanthemum (Chrysanthemum morifolium) using floral morphology and SRAP markers
Li et al. Identification of F1 hybrid progenies in mango based on Fluorescent SSR markers
CN105349659B (zh) 一套适于不结球白菜品种核酸指纹数据库构建的核心snp标记及其应用
CN108416189A (zh) 一种基于分子标记技术的农作物品种杂种优势模式鉴定方法
Jiang et al. SNP molecular markers development and genetic diversity analysis of Forsythia suspensa based on SLAF-seq technology
Maghuly et al. The Use of EcoTILLING for the Genetic Improvement of Jatropha curcas L.
Al-Mamun et al. Characterization and genetic diversity of photoperiodic among mutant kenaf (Hibiscus cannabinus L.) using EST-SSR markers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326

Termination date: 20210526