CN111826429B

CN111826429B - 一种基于简化基因组测序和snp次等位基因频率的非杂交后代鉴定方法

Info

Publication number: CN111826429B
Application number: CN202010736451.7A
Authority: CN
Inventors: 刘有春; 袁兴福; 刘成; 王升; 张舵; 魏鑫; 刘修丽; 孙斌; 王宏光; 杨玉春; 高树清
Original assignee: LIAONING INSTITUTE OF POMOLOGY
Current assignee: LIAONING INSTITUTE OF POMOLOGY
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2022-06-17
Anticipated expiration: 2040-07-28
Also published as: CN111826429A

Abstract

本发明提供了一种基于简化基因组测序和SNP次等位基因频率的非杂交后代鉴定方法，涉及杂交后代鉴定技术领域；所述鉴定方法基于参考基因组，利用SNP次等位基因频率(MAF)数据集，采用遗传关系分析和个体特有的稀有等位变异分析方法，从不同角度反映群体子代间的遗传关系，进而通过箱图直观反映离群个体，确定为非杂交后代，该方法鉴定的非杂交后代与基于双亲纯合显性SNP位点的验证结果一致，因此本发明所述鉴定方法可简单、有效地筛除杂交群体中的非杂交后代，对植物新品种选育及遗传分析、图谱构建、性状定位等研究具有重要意义。

Description

一种基于简化基因组测序和SNP次等位基因频率的非杂交后代鉴定方法

技术领域

本发明属于杂交后代鉴定技术领域，具体涉及一种基于简化基因组测序和SNP次等位基因频率的非杂交后代鉴定方法。

背景技术

在遗传育种研究中，获得继承双亲基因的真杂种后代是有目的进行品种改良、遗传分析及遗传图谱构建等研究的前提和基础，为了使杂交后代能够如实反映双亲和群体的遗传特征，初期对杂交后代的真实性鉴定十分必要，以避免或降低非杂交后代对群体的影响。在育种实践中，出现非杂交后代的可能性有如下几种：1)异花授粉中非选定父本花粉混入，导致此类后代缺少选定父本的遗传信息并混入其他材料的遗传信息；2)母本植株具有一定的自花授粉习性，杂交过程中人工去雄不及时、不彻底可能会产生自交后代；3)杂交种子收集、幼苗管理过程中误引入非双亲杂交后代。由上述原因导致的非杂交后代混杂在群体中，在植物形态特征上不易辨别。而基于DNA的变异分析不受外界环境影响，能真实反映分离群体的分子水平上的遗传信息，可靠性高。所以，群体在基因组水平上反映的遗传差异可借鉴用于非杂交个体鉴别研究中，而筛选鉴别策略至关重要。

对于植物，早年主要通过植株形态学、细胞学以及同工酶进行杂交后代的鉴定，但均存在一定不足之处，如形态学鉴定周期长、易受环境影响、准确率低，细胞学鉴定程序繁琐、分辨率低，同工酶则受酶种类限制不能反映全部结构基因的信息，存在的基因位点少、多态性水平低。分子标记技术的发展使得杂种鉴定的准确性大幅提高，AFLP、RAPD、SRAP、SSR等第一代和第二代分子标记应用于果树非杂交后代鉴定工作中，但这一类分子标记均存在自身通量小、耗时耗力、成本高等局限性。以SNP为代表的第三代分子标记技术，相对于第一代和第二代分子标记，具有多态性高、能广泛分布于全基因组的特点，可鉴别更丰富的遗传信息，然而，上述基于PCR扩增的DNA序列长度差异分析依然存在误判的可能。

发明内容

有鉴于此，本发明的目的在于提供一种基于简化基因组测序，利用SNP次等位基因频率进行非杂交后代鉴定方法，探索适合于高通量测序数据的快速、准确的非杂交后代鉴别方法，排除假阳性样本干扰。

为了实现上述发明目的，本发明提供以下技术方案：

本发明提供了一种基于简化基因组测序，利用SNP次等位基因频率进行非杂交后代鉴定方法，包括以下步骤：(1)提取父本、母本和杂交后代的基因组DNA，利用该物种参考基因组进行电子酶切预测实验，确定酶切组合；

(2)利用酶切组合对父本、母本和杂交后代的基因组DNA的混合液进行酶切，对酶切产物进行末端加A，连接标签和测序接头序列后进行PCR扩增，构建测序文库进行高通量测序；

(3)对测序后样本序列进行过滤，比对并标记在该物种参考基因组上，并依据过滤参数对父本、母本和杂交后代进行基因分型，获得SNP基因型数据；

(4)在所述MAF>0.05的SNP基因型数据集中，对所述杂交后代的SNP次等位基因进行K-Means聚类分析，绘制坐标图；

(5)在所述MAF<0.05的SNP基因型数据集中，统计所述杂交后代的SNP基因型数据中拥有的稀有等位变异总数和个体特有的稀有等位变异数，在所述坐标图上进行分析计数和异常个体标注，筛选所述坐标图中的离群个体，得非杂交后代。

优选的，步骤(1)所述父本包括南高丛蓝莓品种或北高丛蓝莓品种，所述母本包括北高丛蓝莓品种或南高丛蓝莓品种；所述参考基因组包括四倍体蓝莓基因组。

优选的，步骤(2)所述PCR扩增用引物包括上游引物和下游引物，所述上游引物的核苷酸序列如SEQ ID NO.1所示，所述下游引物的核苷酸序列如SEQ ID NO.2所示。

优选的于，步骤(2)所述PCR扩增得到的PCR产物在构建测序文库前，还包括回收和纯化314～444bp范围内的PCR产物，切胶后将文库混合，加入一条流动槽中，cBot进行cluster生成，进行Illumina Hiseq 2500高通量测序。

优选的，步骤(3)所述过滤包括利用NGS QC-toolkit(v2.3.3)软件清除Illumina下机序列中的接头序列信息，并过滤掉(Trimming)低于20score质量的碱基序列。

优选的，将经过所述过滤后的样本序列经BWA-0.7.10软件比对到所述四倍体参考基因组上，用Picard 1.118软件标记出来。

优选的，步骤(4)中利用GenoDive version 3.03对所述SNP基因型数据中MAF>0.05的数据集进行处理和分析，再经Filling-in Missing Data功能随机选取已有等位基因进行填充；采用Amova方法对所述杂交后代的SNP次等位基因进行K-Means聚类分析，设置模拟退火算法为50000步，重复20次；主成分分析采用计算协方差方式对供试蓝莓样品进行统计，并整合K-Means聚类结果通过“scatterplot3d”R分析包绘制坐标图。

优选的，步骤(5)中利用“ggplot2”R分析包的箱图功能进行分析计数和异常个体标注。

本发明提供了一种基于简化基因组测序的非杂交后代鉴定方法，基于参考基因组，利用SNP次等位基因频率(MAF)数据集，采用遗传关系分析和个体特有的稀有等位变异分析方法，从不同角度反映群体子代间的遗传关系，进而通过箱图直观反映离群个体，确定为非杂交后代，该方法鉴定的非杂交后代绝大多数与基于双亲纯合显性SNP位点的验证结果一致，故采取本方法对有参考基因组物种的杂交群体进行分析，是一种简单、有效鉴定群体非杂交后代的方法，对于植物新品种选育及遗传分析、遗传图谱构建、性状定位和遗传育种等研究具有重要意义。

本发明实施例中，以多年生果树蓝莓(Vaccinium corymbosum)的正反交F₁代群体为研究对象，通过高通量简化测序获取大量样本(亲本和子代)基因组序列和遗传变异信息，基于子代特有稀有等位变异为核心，重点揭示子代与群体间(不以亲本为标准)的遗传关系以鉴定非杂交后代。利用MAF>0.05的SNP数据集，基于协方差矩阵的主成分分析表明，FM_185群体的亲本‘Berkeley’处于x轴右侧，距离亲本‘N6’与杂交群体均较远，多数杂交后代集中在x轴左侧，其中后代‘H194-180’与群体偏离程度较远。FM_133群体中除H194-295和H194-297后代之外，均紧凑地聚在x轴左侧。利用K-means聚类对离群点敏感的特性，比较k＝2和k＝3时的聚类结果筛选杂交群体中的离群点。对于MF185群体，k＝2时亲本分别处于不同聚类群，k＝3时后代H194-169、H194-126和H194-180不同于亲本与其他后代，归为单独的聚类群，为离群点，视为非杂交后代。而对于FM_133群体，k＝2时亲本处在同一聚类群，k＝3时后代H194-297不同于亲本与其他后代，归为单独的聚类群为离群点，视为非杂交后代；基于稀有等位变异分析的非杂交后代筛选时，FM_133群体中出现离群个体1个，即H194-297，特有的稀有等位变异数379个，与群体明显偏离；FM_185群体中离群个体共计9个，分别是H194-175、H194-169、H194-179、H194-126、H194-180，H194-107、H194-123、H194-170和H194-174，特有的稀有等位变异数在193～271个之间，视为非杂交后代。

本发明实施例中还对上述结果通过筛选双亲基因型为纯合显性的SNP位点进行验证，除H194-123外，其余非杂交后代样品与验证结果离群个体一致，即利用双亲基因型为纯合显性的SNP位点中异常SNP位点准确验证了基于等位基因频率鉴定的非杂交后代。鉴定结果在利用亲本纯合显性SNP标记(基于群体与亲本遗传差异)进行验证时，绝大多数基于稀有等位变异的非杂交后代也被鉴定为离散个体，即准确通过验证，充分证明了本发明所述鉴定方法采用的基于基因组SNP基因型的个体稀有等位变异分析策略适用于蓝莓杂交群体的非杂交后代筛选和鉴定。此外，由于稀有等位变异的非杂交后代鉴定策略是基于群体间的遗传差异进行分析，所以该策略可直接应用于亲本未知的群体进行非杂交后代鉴定，排除非该群体后代。借助于参考基因组可靠、准确的基因分型，根据本发明所述鉴定方法可简单、有效地对杂交群体的大规模测序数据进行质控处理，排除假阳性干扰。

附图说明

图1为蓝莓不同杂交群体的主坐标分析(PCA)，其中A和B表示FM_185群体；C和D表示FM_133群体；cluster(聚群)1，cluster2和cluster3分别代表K-means在k＝1、k＝2和k＝3的聚类结果；

图2为稀有等位变异在不同杂交群体中的分布与其异常值，其中_●代表个体，*代表离群个体；

图3为基于亲本基因型为纯合显性SNP的非杂交后代验证，其中_●代表个体，*代表离群个体。

具体实施方式

本发明提供了一种基于简化基因组测序和SNP次等位基因频率的非杂交后代鉴定方法，包括以下步骤：(1)提取父本、母本和杂交后代的基因组DNA，利用该物种参考基因组信息进行电子酶切预测实验，确定酶切组合；

(4)在所述SNP基因型数据中MAF>0.05的数据集中，对所述杂交后代的SNP次等位基因进行K-Means聚类分析，绘制坐标图；

(5)在所述SNP基因型数据中MAF<0.05的数据集中，统计所述杂交后代的SNP基因型数据中拥有的稀有等位变异总数和个体特有的稀有等位变异数，在所述坐标图上进行分析计数和异常个体标注，筛选所述坐标图中的离群个体，得非杂交后代。

本发明提取父本、母本和杂交后代的基因组DNA，利用该物种基因组信息作为参考基因组，对所述参考基因组进行电子酶切预测实验，确定酶切组合。

本发明对所述基因组DNA的提取方法并没有特殊限定，优选利用CTAB法进行提取。本发明实施例中，优选采集辽宁省果树科学研究所蓝莓杂交圃，南高丛蓝莓品种‘N6’(Vaccinium.corymbosum SHB)和北高丛蓝莓品种‘Berkeley’(V.corymbosum NHB)的杂交F₁后代群体，其中正交组合‘Berkeley’×‘N6’群体133株，群体代号FM_133；反交组合‘N6’×‘Berkeley’群体185株，群体代号FM_185。本发明通过提取上述群体及亲本幼嫩叶片的基因组DNA后，优选还包括用Nanodrop 2000C(Thermo Fisher)和Qubit 2.0荧光计(ThermoFisher)进行DNA的质量和浓度检测，以确保所提基因组DNA质量达到测序文库构建要求：OD₂₆₀与OD₂₈₀的比值为1.8～2.0，DNA浓度达到30ng/μL以上。

在本发明实施例中，为了保证酶切片段在基因组上分布均匀，同时避开重复序列区域，优选利用蓝莓参考基因组(http://gigadb.org/dataset/100537)随机选取2个亲本和10个子代，更优选以RsaI+HaeIII，HaeIII+Hpy166II和Hpy166II三种酶切方案进行电子酶切预测实验，根据开发的标签数等确定酶切方案，所述确定的酶切方案优选为HaeⅢ和Hpy166Ⅱ酶切组合。

得确定酶切组合后，本发明利用酶切组合对父本、母本和杂交后代的基因组DNA的混合液进行酶切，对酶切产物进行末端加A，连接标签和测序接头序列后进行PCR扩增，构建测序文库进行高通量测序。本发明所述基因组DNA的混合液优选为供试亲本和群体DNA的等体积混合液，且混合后的浓度优选为100ng/μL。本发明优选利用所述确定酶切组合对所述基因组DNA的混合液进行双酶切，酶切产物在37℃下用Klenow片段(3′→5′)(NEB)和dATP进行末端加A，之后T4连接酶连接区分样品的标签(barcode)和测序接头序列。本发明对所述双酶切的条件和程序并没有特殊限定，根据选用的酶的说明书操作即可。本发明利用上述连接和添加接头序列的基因组DNA的混合液进行PCR扩增，所述PCR扩增用引物优选包括上游引物和下游引物，所述上游引物的核苷酸序列优选如SEQ ID NO.1所示(5′-AATGATACGGCGACCACCGA-3′)，所述下游引物的核苷酸序列优选如SEQ ID NO.2所示(5′-CAAGCAGAAGACGGCATACG-3′)。本发明所述PCR扩增的程序优选包括：95℃2min；94℃45min，56℃50sec，72℃1min，8个循环；72℃5min。本发明对得到的PCR扩增产物进行切胶回收纯化，所述回收的范围优选为314～444bp。本发明将回收后的产物(文库)混合，加入一条流动槽(flowcell)中，cBot进行cluster生成，进行Illumina Hiseq 2500(Illumina,Inc.,SanDiego,CA,United States)高通量测序。本发明为了监控建库有效性，优选还包括以模式物种水稻(Oryza sativa)(http://rice.plantbiology.msu.edu/)为对照，同步进行平行试验。

本发明对测序后样本序列进行过滤，比对并标记在四倍体参考基因组上，并依据过滤参数对父本、母本和杂交后代进行基因分型，获得SNP基因型数据。本发明对上述测序后的样本序列进行过滤，得过滤后的样本序列(cleanreads)。本发明所述过滤的方法优选包括利用NGS QC-toolkit(v2.3.3)软件清除Illumina下机序列中的接头序列信息，并过滤掉(Trimming)低于20score质量的碱基序列。本发明优选将经过所述过滤后的样本序列经BWA-0.7.10软件比对到所述四倍体参考基因组上，用Picard 1.118软件标记出来。本发明所述参考基因组包括四倍体蓝莓参考基因组(http://gigadb.org/dataset/100537)。本发明在所述标记后，优选还包括用GATK 3.8软件对碱基测序质量重新校正、序列重新比对，根据标准过滤参数分别对蓝莓亲本和正、反交群体(FM_133和FM_185)进行基因分型，获得SNP基因型数据。本发明上述所有分析步骤优选按照GATK最优的执行方法进行操作，具体的操作方法参考(https://www.broadinstitute.org/partnerships/education/broade/best-practices-variant-calling-gatk-1)。本发明优选设置SNP次等位基因频率(Minorallele frequency)在0.05处为阈值(低于5％则视为稀有位点)，将SNP基因型数据划分到MAF>0.05和MAF<0.05两个数据集，整理保留各自多态性位点进行后续相关分析。本发明对次等位基因频率进行降噪处理(MAF>0.05)，减少低频率等位变异对数据整体造成偏差影响，除噪后的SNP数据保留大量多态性位点，可以较为可靠地反映群体的遗传差异，并较为保守地用来筛选离群个体。

本发明在所述SNP基因型数据中MAF>0.05的数据集中，对所述杂交后代的SNP次等位基因进行K-Means聚类分析，绘制坐标图。本发明优选利用GenoDive version 3.03对所述SNP基因型数据中MAF>0.05的数据集进行处理和分析，再经Filling-in Missing Data功能随机选取已有等位基因进行填充；采用Amova方法对所述杂交后代的SNP次等位基因进行K-Means聚类分析，设置模拟退火算法为50000步，重复20次；主成分分析采用计算协方差方式对供试蓝莓样品进行统计，并整合K-Means聚类结果通过“scatterplot3d”R分析包绘制坐标图。

本发明在所述SNP基因型数据中MAF<0.05的数据集中，统计所述杂交后代的SNP基因型数据中拥有的稀有等位变异总数和个体特有的稀有等位变异数，在所述坐标图上进行分析计数和异常个体标注，筛选所述坐标图中的离群个体，得非杂交后代。本发明将低频率等位基因频率SNPs(MAF<0.05)视为稀有等位变异数据集。本发明统计符合MAF<0.05条件的SNP基因型数据中杂交后代个体拥有的稀有等位变异总数(Total rare-alleles)和个体特有的稀有等位变异数(Private rare-alleles)，优选利用“ggplot2”R分析包的箱图(geom_boxplot)功能分析计数的分布与异常个体标注。

下面结合实施例对本发明提供的基于简化基因组测序的非杂交后代鉴定方法进行详细的说明，但是不能把它们理解为对本发明保护范围的限定。

实施例1

1.1试验材料与DNA提取

试料取自辽宁省果树科学研究所蓝莓杂交圃，为南高丛蓝莓品种‘N6’(Vaccinium.corymbosum SHB)和北高丛蓝莓品种‘Berkeley’(V.corymbosum NHB)的杂交F₁后代群体，其中正交组合‘Berkeley’×‘N6’群体133株，群体代号FM_133；反交组合‘N6’×‘Berkeley’群体185株，群体代号FM_185。试材采集群体及亲本幼嫩叶片，液氮速冻后存于-80℃冰箱备用，CTAB法提取基因组DNA，用Nanodrop 2000C(Thermo Fisher)和Qubit2.0荧光计(Thermo Fisher)进行DNA的质量和浓度检测，以确保所提基因组DNA质量达到测序文库构建要求：OD₂₆₀与OD₂₈₀的比值分布在1.8～2.0之间，DNA浓度达到30ng/μL。

1.2蓝莓基因组遗传变异数据收集

1.2.1DNA酶切预测与测序文库构建

为了保证酶切片段在基因组上分布均匀，同时避开重复序列区域，利用蓝莓参考基因组(http://gigadb.org/dataset/100537)随机选取2个亲本和10个子代，以RsaI+HaeIII，HaeIII+Hpy166II和Hpy166II三种酶切方案进行电子酶切预测实验，根据开发的标签数等确定酶切方案为HaeⅢ和Hpy166Ⅱ酶切组合。供试亲本及群体DNA经ddH₂O稀释到100ng/μL浓度后，利用确定的酶切组合(New England Biolabs,NEB,United States)双酶切并过夜，酶切产物在37℃下用Klenow片段(3′→5′)(NEB)和dATP进行末端加A，之后T4连接酶连接区分样品的标签(barcode)和测序接头序列。常规PCR进行条件进行片段扩增，上游引物为5′-AATGATACGGCGACCACCGA-3′(SEQ ID NO.1)，下游引物为5′-CAAGCAGAAGACGGCAT ACG-3′(SEQ ID NO.2)(Life Technologies,Gaithersburg,MD,United States)，扩增循环数为8。最后利用试剂盒QIAquick gel extraction kit(Qiagen,Hilden,Germany)进行切胶纯化，切胶范围为314～444bp。切胶后将文库混合，加入一条流动槽(flowcell)中，cBot进行cluster生成，进行Illumina Hiseq 2500(Illumina,Inc.,San Diego,CA,United States)高通量测序。为了监控建库有效性，本试验以模式物种水稻(Oryza sativa)(http://rice.plantbiology.msu.edu/)为对照，同步进行平行试验。

测序共获得330.06Mb reads(包含65.89Gb)数据，平均Q30为95.04％，平均GC含量为39.72％，Q30和GC含量在供试材料间仅小幅波动(表1)，说明GC分布正常，测序质量好，适合下游生信分析。

表1蓝莓样品测序数据统计表

1.2.2基于蓝莓参考基因组的SNP标记获取

过滤后的样本序列(cleanreads)经BWA-0.7.10软件比对到四倍体蓝莓参考基因组(http://gigadb.org/dataset/100537)，用Picard 1.118软件(http://picard.sourceforge.net)标记出来。用GATK 3.8软件对碱基测序质量重新校正、序列重新比对，根据标准过滤参数分别对蓝莓亲本和正、反交群体(FM_133和FM_185)进行基因分型，获得SNP基因型数据。所有分析步骤按照GATK最优的执行方法进行操作(https://www.broadinstitute.org/partnerships/education/broade/best-practices-variant-calling-gatk-1)。设置SNP次等位基因频率(Minor allele frequency)在0.05处为阈值(低于5％则视为稀有位点)，将SNP基因型数据划分到MAF>0.05和MAF<0.05两个数据集，整理保留各自多态性位点进行后续相关分析。

基于2019年发表的蓝莓参考基因组，对320供试蓝莓样本进行了序列分值校正、局部重比对、SNP和INdel的发掘与基因分型。在MAF>0.05水平下，在FM_185群体和FM_133群体分别鉴定到70243个和111527个SNPs，在MAF<0.05水平下分别鉴定到3200个和3324个SNPs(表2)。

表2不同蓝莓杂交群体中SNP标记数量统计

1.3蓝莓杂交群体中非杂交后代鉴别

1.3.1供试群体遗传关系分析

利用GenoDive version 3.03对SNP基因型数据(MAF>0.05)的进行处理和分析。为避免缺失数据导致的偏差(bias)影响，数据经Filling-in Missing Data功能随机选取已有等位基因进行填充(Imputation)。采用Amova方法对供试群体样品的SNP次等位基因进行K-Means聚类分析，设置模拟退火(Simulated Annealing,SA)算法为50000步，重复20次。主成分分析(Principal ComponentAnalysis，PCA)采用计算协方差方式对供试蓝莓样品进行统计，并整合K-Means聚类结果通过“scatterplot3d”R分析包绘制坐标图。

利用MAF>0.05的SNP数据集，基于协方差矩阵的主成分分析表明，FM_185群体的亲本‘Berkeley’处于x轴右侧，距离亲本‘N6’与杂交群体均较远，多数杂交后代集中在x轴左侧(图1中A)，其后代‘H194-180’偏离程度群体较远。FM_133群体中除H194-295和H194-297后代之外，均紧凑地聚在x轴左侧(图1中C)。利用K-means聚类对离群点敏感的特性，比较k＝2和k＝3时的聚类结果筛选杂交群体中的离群点。对于FM_185群体，k＝2时亲本分别处于不同聚类群(图1中A)，k＝3时后代H194-169、H194-126和H194-180不同于亲本与其他后代，归为单独的聚类群(图1中B，cluster3，绿色)，为离群点，视为非杂交后代。而对于FM_133群体，k＝2时亲本处在同一聚类群(图1中C)，k＝3时后代H194-297不同于亲本与其他后代，归为单独的聚类群(图1中D，cluster3，绿色)为离群点，视为非杂交后代。

1.3.2供试群体稀有等位变异分析

统计符合MAF<0.05条件的SNP基因型数据中杂交后代个体拥有的稀有等位变异总数(Total rare-alleles)和个体特有的稀有等位变异数(Private rare-alleles)。利用“ggplot2”R分析包的箱图(geom_boxplot)功能分析计数的分布与异常个体标注。

双等位SNPs数据(biallelic，MAF<0.05)可在正交FM_133群体和反交MF_185群体中分别产生6648个和6400个等位变异。试验分别统计了个体稀有等位变异总数和个体特有的稀有等位变异数。个体在群体中产生的全部稀有等位变异数如图2中A所示，FM_133群体的Tr普遍高于FM_185，范围是2594～4802个，其中H194-300、H194-298和H194-231个体稀有等位变异数最多，分别为4802个、4578个和4556个，且偏离群体，FM_185群体中体稀有等位变异数范围在2098～3606个，无离群个体。个体在群体中产生的稀有等位变异中异于其他群体成员及亲本的特有变异数如图2中B所示，FM_133群体中出现离群个体1个，即H194-297，特有的稀有等位变异数379个，与群体明显偏离；MF_185群体中离群个体共计9个，分别是H194-175、H194-169、H194-179、H194-126、H194-180，H194-107、H194-123、H194-170、H194-174，特有的稀有等位变异数在193～271个之间，视为非杂交后代。

1.4蓝莓非杂交后代验证

经上述分析获得的非杂交后代通过亲本特定的基因型进行验证分析。为避免受稀有等位变异干扰，应用MAF>0.05的SNP数据筛选蓝莓正反交群体中亲本为纯合显性的基因型数据，并统计后代群体中出现异于亲本基因型的SNP位点比率，利用箱图统计群体中后代拥有异于母本(或父本)的基因型的SNP位点比率，筛选各自的离群个体，同已获得的非杂交后代进行比较。

筛选双亲基因型为纯合显性的SNP位点进行验证。统计结果显示，FM_133群体包含17646个母本纯合SNP位点和20906个父本纯合SNP位点，共计占群体z总SNP数据的34.56％；MF_185群体包含12351个母本纯合SNP位点和15012个父本纯合SNP位点，共计占群体总SNP数据38.95％。基于该SNP数据集，利用箱图统计群体中后代拥有异于母本(或父本)的基因型的SNP位点比率，筛选各自的离群个体(图3)。基于亲本纯合SNP位点中的异常SNP位点，正交FM_133群体中H194-297为离群个体，与图2中B显示的FM_133群体离群点一致；MF_185群体中，H194-169，H194-180、H194-175、H194-126、H194-107、H194-174、H194-173、H194-170、H194-160及H194-179为离群个体，同图2中B显示的MF_185鉴定结果比较，除H194-123外，其余非杂交后代样品与验证结果离群个体一致，即利用双亲基因型为纯合显性的SNP位点中异常SNP位点准确验证了基于等位基因频率鉴定的非杂交后代。

综上可知，本发明提供了一种基于简化基因组测序的非杂交后代鉴定方法，PCA和K-means聚类分析对MAF>0.05数据集鉴定的4个非杂交后代全部重现在MAF<0.05数据集中个体特有稀有等位变异的此鉴定结果中，说明以上两种鉴定方法均可有效用于蓝莓群体非杂交后代筛选中，后者鉴定条件更严格。此外，由于稀有等位变异的非杂交后代鉴定策略是基于群体间的遗传差异进行分析，所以该策略可直接应用于亲本未知的群体进行非杂交后代鉴定，排除非该群体后代。借助于参考基因组可靠、准确的基因分型，根据本发明所述鉴定方法可简单、有效地对杂交群体的大规模测序数据进行质控处理，排除假阳性干扰。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

序列表

<110> 辽宁省果树科学研究所

<120> 一种基于简化基因组测序和SNP次等位基因频率的非杂交后代鉴定方法

<160> 2

<170> SIPOSequenceListing 1.0

<210> 1

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

aatgatacgg cgaccaccga 20

<210> 2

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

caagcagaag acggcatacg 20

Claims

1.一种基于简化基因组测序和SNP次等位基因频率的非杂交后代鉴定方法，其特征在于，包括以下步骤：（1）提取父本、母本和杂交后代的基因组DNA，利用该物种参考基因组进行电子酶切预测实验，确定酶切组合；所述父本为南高丛蓝莓品种或北高丛蓝莓品种，所述母本为北高丛蓝莓品种或南高丛蓝莓品种；所述该物种参考基因组为四倍体蓝莓基因组；

（2）利用酶切组合对父本、母本和杂交后代的基因组DNA的混合液进行酶切，对酶切产物进行末端加A，连接标签和测序接头序列后进行PCR扩增，构建测序文库进行高通量测序；所述PCR扩增用引物包括上游引物和下游引物，所述上游引物的核苷酸序列如SEQ ID NO.1所示，所述下游引物的核苷酸序列如SEQ ID NO.2所示；所述PCR扩增得到的PCR产物在构建测序文库前，还包括回收和纯化314~444 bp范围内的PCR产物，切胶后将文库混合，加入一条流动槽中，cBot进行cluster生成，进行Illumina Hiseq 2500高通量测序；

（3）对测序后样本序列进行过滤，比对并标记在该物种参考基因组上，并依据过滤参数对父本、母本和杂交后代进行基因分型，获得SNP基因型数据；所述过滤包括：利用NGS QC-toolkit v2.3.3软件清除Illumina下机序列中的接头序列信息，并过滤掉低于20 score质量的碱基序列；将经过过滤后的样本序列经BWA-0.7.10 软件比对到所述四倍体蓝莓参考基因组上，用Picard 1.118软件标记出来；

（4）在MAF > 0.05的SNP基因型数据集中，对杂交后代的SNP次等位基因进行K-Means聚类分析，绘制坐标图；利用GenoDive version 3.03对SNP基因型数据中MAF > 0.05的数据集进行处理和分析，再经Filling-in Missing Data功能随机选取已有等位基因进行填充；采用Amova方法对所述杂交后代的SNP次等位基因进行K-Means聚类分析，设置模拟退火算法为50000步，重复20次；主成分分析采用计算协方差方式对供试样品进行统计，并整合K-Means聚类结果通过“scatterplot3d”R分析包绘制坐标图；

（5）在MAF < 0.05的SNP基因型数据集中，统计杂交后代的SNP基因型数据中拥有的稀有等位变异总数和个体特有的稀有等位变异数，在坐标图上进行分析计数和异常个体标注，筛选坐标图中的离群个体，得非杂交后代；利用“ggplot2”R分析包的箱图功能进行分析计数和异常个体标注。