CN104830975A

CN104830975A - 一种玉米亲本来源真实性及其比例测试新方法

Info

Publication number: CN104830975A
Application number: CN201510161740.8A
Authority: CN
Inventors: 张静; 陈红; 彭海; 卢龙
Original assignee: Agriculture Ministry Technology Development Center; Jianghan University
Current assignee: Agriculture Ministry Technology Development Center; Jianghan University
Priority date: 2015-04-08
Filing date: 2015-04-08
Publication date: 2015-08-12

Abstract

本发明公开了一种玉米亲本来源真实性及其比例测试新方法，属于生物技术领域。所述方法包括：获得不同玉米品种间的变异位点；根据所述变异位点确定测试区域；提取抽样样本的DNA；制备测试区域PCR引物；构建高通量测序文库；对高通量测序文库进行高通量测序，获得测序片段组；分析测序片段组，获得待测玉米品种基因型和亲本基因型；根据待测玉米品种基因型和亲本基因型，判断待测玉米品种的亲本来源的真实性并计算亲本来源的比例。所述方法能够准确、快速且简单地判断亲本来源真实性及其比例。

Description

一种玉米亲本来源真实性及其比例测试新方法

技术领域

本发明涉及生物技术领域，特别涉及一种玉米亲本来源真实性及其比例测试新方法。

背景技术

我国作物品种实行审定制，出于知识产权保护的目的，要求参加审定的品种提供亲本来源和育种过程。亲本来源和育种过程也是鉴定实质性派生品种的辅助依据。然而，由于涉及商业利益，品种培育者不一定提供真实的亲本来源与育种过程，需要审查部门进行鉴定。其中，育种过程真实性的鉴定可以通过亲本血缘在待测玉米品种中的比例进行推断。

然而，目前，没有一种可靠的方法鉴定亲本来源真实性和亲本血缘在待测玉米品种中的比例。

发明内容

为了解决现有技术中鉴定亲本来源真实性的方法不可靠的问题，本实施例提供了一种玉米亲本来源真实性及其比例测试新方法。所述技术方案如下：

本实施例提供了一种玉米亲本来源真实性及其比例测试新方法，所述方法包括：

获得不同玉米品种间的变异位点；

根据所述变异位点确定测试区域；

分别对待测玉米品种和所述待测玉米品种的亲本进行抽样，提取并获得所述待测玉米品种的抽样样本的DNA和所述待测玉米品种的亲本的抽样样本的DNA；

制备扩增所述测试区域的引物；

利用所述引物分别对所述待测玉米品种的抽样样本的DNA和所述待测玉米品种的亲本的抽样样本的DNA进行扩增，分别得到所述待测玉米品种的扩增产物和所述待测玉米品种的亲本的扩增产物，并用得到的所述扩增产物分别构建所述待测玉米品种的高通量测序文库和所述待测玉米品种的亲本的高通量测序文库；

分别对所述待测玉米品种的高通量测序文库和所述待测玉米品种的亲本的高通量测序文库进行高通量测序，得到所述待测玉米品种的测序片段组和所述待测玉米品种的亲本的测序片段组；

分析所述待测玉米品种的测序片段组和所述待测玉米品种的亲本的测序片段组，分别获得待测玉米品种基因型和亲本基因型，所述待测玉米品种基因型为所述待测玉米品种在所述测试区域内变异碱基的组合，且所述待测玉米品种基因型的频率≥30％，所述亲本基因型为所述亲本在所述测试区域内变异碱基的组合，且所述亲本基因型的频率≥30％；

根据所述待测玉米品种基因型和所述亲本基因型，判断所述待测玉米品种的亲本来源的真实性并计算亲本来源的比例。

具体地，所述测试区域不包括扩增产生杂株基因型的区域；

所述杂株基因型指频率≥0.02％，且所述杂株基因型与所述待测玉米品种的所有所述基因型间的差异碱基的数量≥2个或所述差异碱基中有非连续碱基的插入或缺失。

具体地，分别对所述待测玉米品种和所述待测玉米品种的亲本进行抽样的方法为：分别随机选取100个以上的所述待测玉米品种和所述待测玉米品种的亲本的样本混合后，获得所述待测玉米品种的抽样样本和所述待测玉米品种的亲本的抽样样本。

具体地，判断所述待测玉米品种的亲本来源的真实性的方法为：若所述待测玉米品种中存在非亲本基因型，则所述待测玉米品种的亲本来源不真实；若所述待测玉米品种中不存在所述非亲本基因型，则所述待测玉米品种的亲本来源真实；所述非亲本基因型为所述待测玉米品种基因型，且所述非亲本基因型与任意所述亲本基因型的差异碱基数≥2个。

具体地，计算亲本来源的比例的公式为：亲本来源的比例其中，n为亲本特有测试区域的数目；i为第i个所述亲本特有测试区域；Si为第i个所述亲本特有测试区域中，亲本特有基因型与所述待测玉米品种基因型间相同的基因型的数目；Ti为第i个所述亲本特有测试区域中所述待测玉米品种基因型的数目；所述亲本特有基因型为只在所述亲本中出现的所述亲本基因型，所述亲本特有测试区域指具有所述亲本特有基因型的所述测试区域。

具体地，通过所述变异位点确定所述测试区域的方法为：

通过区分度计算区分度的值，其中，a为变异窗口区域中被检测到的品种总数，bi为所述变异窗口区域中第i种基因型的品种数，且bi>1，k为包含大于1个品种的基因型的数目，所述变异窗口区域为以每个单核苷酸变异位点为中心，向所述单核苷酸变异位点的两侧各延伸测序列长度的1/2作为检测的窗口；

所述测试区域为细胞质基因组上区分度大的区域或细胞核基因组上所述区分度大且均匀分布的区域。

具体地，所述高通量测序的深度≥5000倍。

具体地，所述引物为美国赛默飞世尔公司提供的多重扩增引物。

本实施例提供的技术方案带来的有益效果是：本实施例提供的方法通过多位点扩增和高通量测序，保证待测玉米品种的测试区域的大样本抽样，成功实现了准确测试亲本来源真实性及其比例的目标，且测试简单、快速。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明实施方式作进一步地详细描述。

实施例一测定玉米品种“GL95”亲本来源真实性与比例

本实施例提供的待测玉米品种为玉米品种为“GL95”，需要鉴定的是否为“G95”与“1102”的亲本来源。上述品种均为公开、公知的品种。

一、获得不同玉米品种间的变异位点。

不同玉米品种间的变异位点可以从已公布的文献资料中获取，但该方法所获得的结果比较零星，在本实施例中，通过将不同玉米的基因组序列与参考玉米品种的基因组序列进行比对，获得了大量的不同玉米品种间的变异位点，其中参考玉米品种可以为“B73”玉米，该“B73”玉米可以替换为其他已知的参考玉米品种。

进一步地，获得不同玉米品种的基因组序列的方法如下：

本实施例的不同玉米品种的基因组序列有两种来源，第一种为Chia等对103个玉米品种的基因组的高通量测序序列，相关文献信息如下：Chia JM et al.MaizeHapMap2identifies extant variation from a genome in flux.Nat Genet.2012，44(7):803-7。该103个玉米品种的基因组序列公布于NCBI Short Read Archive(http://www.ncbi.nlm.nih.gov/sra)，接收号为SRA051245；第二种为按Chia等的上述发表的文章中提供的方法对“GL95”、“1102”和杂交种“高赖145”进行了高通量测序。本实施例共获得了106个玉米品种的基因组的高通量测序序列。

进一步地，利用不同品种的基因组序列获得变异位点。

具体地，由于这106个玉米品种的测序深度都不高，仅能鉴定单核苷酸变异(SNP)位点，其它变异类型如重复数变异，由于可信度低，不进行鉴定。利用Frederick Sanger比对软件(版本号为0.4)将这106个玉米品种的基因组的高通量测序序列比对到“B73”玉米细胞核参考基因组(版本为IRGSP 4.0，下载地址：http://www.ncbi.nlm.nih.gov)和细胞质参考基因组上，该细胞质参考基因组包括线粒体参考基因组与叶绿体参考基因组，其在NCBI(National Center forBiotechnology Information，美国国立生物技术信息中心)上的接收号分别为NC_011033和NC_001320。对比时，插入片段长度设为500bp，其他参数设定为默认值。采用的Ssaha Pileup软件包(版本号为0.5)鉴定每个品种的SNP位点。该SNP位点定义为差异确定的碱基对、单碱基的插入或单碱基的缺失。该差异确定的碱基对是指不包括差异不确定的碱基对，差异不确定的碱基对指是某些简并碱基间的碱基对，如R代表A或G，因此，A与R之间可能存在差异，也可能不存在差异，因此，A与R间差异不明确，互不为SNP。因此，本实施例中的SNP位点为不包括上述差异不确定的碱基对。按以上SNP位点的定义，本实施例在所有106个玉米品种间共获得53855606个SNP位点，其中9005个SNP位点位于细胞质基因组上，其余的SNP位点位于细胞核基因组上。后文提及的基因型即是指测试区域内多个SNP位点的组合，核基因型指基因型位于细胞核基因组上，质基因型是指基因型位于细胞质基因组上。例如，表1中第8个测试区域位于细胞核基因组上，为核基因型，该测试区域共有7个SNP位点，该测试区域的基因型即为这7个SNP位点的组合。

二、根据变异位点确定测试区域，具体方法如下：

测试区域为细胞质基因组上区分度大的区域或细胞核基因组上区分度大且SNP位点均匀分布的区域，其中，区分度其中，a为变异窗口区域中被检测到的品种总数，bi为变异窗口区域中第i种基因型的品种数，且bi>1，k为包含大于1个品种的基因型的数目，变异窗口区域为以每个单核苷酸变异位点为中心，向单核苷酸变异位点的两侧各延伸测序列长度的1/2作为检测的窗口。区分度的计算原理如下：所有品种间的组合数为其中，同一基因型内的不同品种间的组合是不可区分的，其数目为那么，不可被区分的品种组合的比例为可被区分的品种组合的比例即区分度由此可见，区分度越大，越能将不同品种区分开，区分度大的变异窗口区域对亲本来源真实性及其比例的测试更有效。若细胞核基因组上的变异窗口区域分布不均匀，会导致某些区域相邻，从而连锁遗传，信息容易重叠，因此，细胞核基因组上选择测试区域的综合原则是：区分度大且SNP位点均匀分布。细胞质基因组无连锁遗传问题，所以，细胞质基因组上只需要选择区分度大的区域即可。

首先，以获得的每个SNP位点为中心，向左右各延伸99bp和100bp，构成200bp的变异窗口。根据获得的53855606个SNP位点，可以获得53855606个变异窗口，计算这些变异窗口区域的区分度例如，第1个变异窗口区域中，共检测到了a＝102个品种，共有k＝3种基因型CCA、TCA、TCG，它们的品种数分别为b1＝5个、b2＝11个和b3＝76个，因此，其含义是：通过第1个变异窗口区域，可以将102个品种中的43％的品种组合区分开，另外47％的品种组合无法区分开，需要更多的变异窗口才能区分开。按照同样的方法，计算获得全部53855606个变异窗口的区分度并从中选取位于细胞核基因组中区分度最大的8000个变异窗口和位于细胞质基因组中区分度最大的100个变异窗口。逐个检查位于细胞核基因组的8000个变异窗口中，每个变异窗口与下一个变异窗口间的距离，若距离超过500K(1K＝1000个碱基)，则放弃其中区分度较小的变异窗口之后再检查，直至相邻查变异窗口的距离均大于500K为止。选择500K的距离标准是因为玉米基因组大小约为2300M(1M＝100万个碱基)，按最终入选2400个位于细胞核基因组的测试区域计，平均的测试区域间距离为1M，但由于一些特异区域如着丝粒等很少有变异位点，因此，平均距离应该小于1M。按以上方法，选出了5030个位于细胞核基因组的变异窗口，它们与获得的位于细胞质基因组中区分度最大的100个变异窗口一起共5130个变异窗口作为入选的测试区域。其中，选择区分度最大的100个变异窗口，为经验值，该数量可以根据具体情况进行修改。

三、分别对待测玉米品种和待测玉米品种的亲本进行抽样，提取并获得待测玉米品种的抽样样本的DNA和待测玉米品种的亲本的抽样样本的DNA，抽样样本的获得方法为：分别随机选取100个以上的待测玉米品种和待测玉米品种的亲本的样本混合后，获得待测玉米品种的抽样样本和待测玉米品种的亲本的抽样样本，具体方法如下：

在本实施例中，选取了待测玉米品种“GL95”的5000粒种子发芽，随机选取4000个大小大致相等的芽混合后置于研钵中，向研钵中加入液氮后充分研磨成粉。采用北京天根生化科技有限公司生产的货号为DP305的植物基因组DNA提取试剂盒提取并获得待测玉米品种“GL95”混合样本的DNA，DNA提取方法按该试剂盒的操作手册进行。利用美国Invitrigen公司生产的dsDNA HSAssay Kit(货号为Q32852)及其说明书对获得的DNA进行定量，将定量后的待测玉米品种“GL95”的DNA稀释为10.00ng/μl。

按照同样的方法，对亲本“G95”和“1102”分别进行抽样并提取DNA，同样将定量后的亲本“G95”与“1102”DNA分别稀释为10.00ng/μl。

四、制备扩增测试区域的引物，具体如下：

测试区域采用多重PCR(Polymerase Chain Reaction，聚合酶链式反应)技术进行检测，多重PCR技术是指在同一个PCR反应中加入多个PCR引物，同时扩增基因组上的多个位点。该技术的关键是设计并合成多重PCR引物，本实施例采用美国赛默飞世尔公司提供的多重PCR技术，其能够设置多至12000重PCR引物。

引物获取过程如下：登录赛默飞世尔公司多重PCR引物在线设计网页https://ampliseq.com/protected/help/pipelineDetails.action，按其要求提交相关信息即可。其中，本实施例中，“Application type”选项选择“DNA Hotspot designs(single-pool)”。若选择multi-pool，则多重PCR将分多管进行，成本会有所增加，而single-pool的引物只需要一次多重PCR即可，节省成本，缺点是某些通用测试区域引物设计可能失败，但基因组上的备选的通用测试区域较多，因此，放弃一些备选的通用测试区域并不影响结果。将待测玉米品种的细胞核参考基因组和细胞质参考基因组融合为一个文件，并在“Select the genome you wish to use”选项中选择“Custom”后，上传融合的文件作为设计多重PCR引物时的参考基因组。DNA Type选项选择“Standard DNA”，在Add Hotspot选项中，添加需要设计的通用测试区域内的SNP位点的位置信息即可，包括染色体信息、SNP的起始位点和SNP的结束位点，其部分实例见表1。最后点击“Submit targets”按钮提交并得到设计的多重PCR引物。本实施例中，从所有5130个测试区域中，设计并验证了2506对多重PCR引物，用于扩增相应的2506个测试区域。验证多重PCR引物的方法为按本发明提供的方法，提取同一株玉米上的叶片基因组DNA，并利用设计的多重PCR引物对获得的基因组DNA进行扩增、建库、高通量测序并分析测序片段组，去掉以下测试区域相应的引物：该测试区域的测序片段数不足1000或存在杂株基因型，保留下来的引物即为验证成功的多重PCR引物。所以，测试区域不包括扩增产生杂株基因型的区域，杂株基因型指频率≥0.02％，且杂株基因型与待测玉米品种的所有基因型间的差异碱基的数量≥2个或差异碱基中有非连续碱基的插入或缺失。由于基因组DNA来源于同一株玉米叶片，不可能存在杂株品种，因此，杂株基因型是由测试区域的特殊结构造成的PCR或测序偏好性错误，去掉这些测试区域避免了此类系统错误。规定测试区域为不包括扩增产生杂株基因型的测试区域的另一个目的是：保留下来的测试区域除了用作本发明外，还可以作杂株率的计算，实现了同一套测试引物的多重用处。验证成功的多重PCR引物也由该公司混合好后以液体的形式提供给客户使用。上述成功设计了多重PCR引物的2506个测试区域即为最终用于待测玉米品种检测的测试区域，其中，34个测试区域位于细胞质基因组上，剩余的2472个测试区域位于细胞核基因组上。已有的分子鉴定品种的方法基本上都不包括细胸质基因，但细胞质基因同样影响品种特性，应该包括在品种鉴定之中。

五、利用引物分别对待测玉米品种的抽样样本的DNA和待测玉米品种的亲本的抽样样本的DNA进行扩增，分别得到待测玉米品种的扩增产物和待测玉米品种的亲本的扩增产物，并用得到的扩增产物分别构建待测玉米品种的高通量测序文库和待测玉米品种的亲本的高通量测序文库，具体方法如下：

利用文库构建试剂盒2.0(由美国赛默飞世尔公司生产，货号为4475345)多重PCR扩增测试区域后，利用扩增产物构建高通量测序文库。该试剂盒包括以下试剂：5×Ion AmpliSeq^TM HiFi Mix、FuPa试剂、转换试剂、测序接头溶液和DNA连接酶。文库构建的方法按该试剂盒的操作手册《Ion AmpliSeq^TMLibraryPreparation》(出版号：MAN0006735，版本：A.0)进行。通过多重PCR扩增2506个测试区域，多重PCR的扩增体系如下：5×Ion AmpliSeq^TMHiFi Mix 4μl、制备的测试区域引物混合液4μl、待测玉米品种“GL95”的DNA 10ng和无酶水11μl。多重PCR的扩增程序如下：99℃，2分钟；(99℃，15秒；60℃，4分钟)×25个循环；10℃保温。利用FuPa试剂消化掉多重PCR扩增产物中多余的引物后，再进行磷酸化，具体方法为：向多重PCR的扩增产物中加入2μL FuPa试剂，混匀后，在PCR仪上按如下程序反应：50℃，10分钟；55℃，10分钟；60℃，10分钟；10℃保存，得到混合物a，混合物a为含有经过磷酸化的扩增产物溶液。将磷酸化的扩增产物连接上测序接头，具体方法为：向混合物a中加入转换试剂4μL、测序接头溶液2μL和DNA连接酶2μL，混匀后，在PCR仪上按如下程序反应：22℃，30分钟；72℃，10分钟；10℃保存，得到混合液b。利用标准的乙醇沉淀方法纯化混合液b后溶解于10μL无酶水中。利用美国Invitrigen公司生产的dsDNA HS Assay Kit(货号为Q32852)并按照其说明书进行测定，并获得混合液b的质量浓度后，将纯化后混合液b稀释至15ng/ml，得到浓度约100pM的测试区域的高通量测序文库。

按照同样的方法，对亲本“G95”和“1102”分别进行高通量测序文库的构建，同样得到浓度约100pM的亲本的高通量测序文库。

六、分别对待测玉米品种的高通量测序文库和待测玉米品种的亲本的高通量测序文库进行高通量测序，得到待测玉米品种的测序片段组和待测玉米品种的亲本的测序片段组，具体方法如下：

确定高通量测序深度：高通量测序的深度≥5000倍，即平均覆盖测试区的片段数≥5000个片段，5000倍为一个经验值，可根据实际情况调整。之所以规定这个值，是因为5000倍的测序量成本并不高但足以准确计算30％的待测基因型频率，因此，规定5000倍作为高通量测序的深度。

利用高通量测序文库进行高通量测序

利用获得的所有测试区域的高通量测序文库和试剂盒Ion PI Template OT2200Kit v2(美国invirtrigen公司生产，货号为4485146)进行测序前的ePCR(Emulsion PCR，乳化聚合酶链反应)扩增，操作方法按该试剂盒的操作手册进行。利用ePCR产物和试剂盒Ion PI Sequencing 200Kit v2(美国invirtrigen公司生产，货号为4485149)在Proton二代高通量测序仪上进行高通量测序，操作方法按该试剂盒的操作手册进行。在本实施例中，高通量测序通量设置为平均覆盖测试区域10000倍。

对高量测序结果进行预处理

将高通量测序片段比对到所有2506个测试区域，去掉比对不成功和基因型检测不全的测序片段后，剩余的所有测序片段称为测序片段组。基因型检测不完全的测序片段是指没能将表1中“SNP在参考基因组上的位置”所示的所有SNP位点检测到的测序片段，基因型检测不全的原因是测序片段过短，比对不成功的原因是测序片段多为非特异扩增产物。

七、分析待测玉米品种的测序片段组和待测玉米品种的亲本的测序片段组，分别获得待测玉米品种基因型和亲本基因型，待测玉米品种基因型为待测玉米品种在测试区域内变异碱基的组合，且待测玉米品种基因型的频率≥30％，亲本基因型为亲本在测试区域内变异碱基的组合，且亲本基因型的频率≥30％，方法如下：

将测序片段组比对到所有测试区域，并统计每个测试区域中的测序片段数，去掉测序片段数≤1000条的测试区域，剩余的测试区域为检测成功的测试区域。在本实施例中，共获得2465个检测成功的测试区域。比对到测试区域的片段称为该测试区域的测序片段，从测序片段中提取表1中“SNP在参考基因组上的位置”所示的位置的碱基组合称为该测序片段的基因型。基因型的频率是指测序片段组中，代表该基因型的测序片段数占该基因型所在测试区域的测序片段总数的比例。待测玉米品种基因型为测试区域内变异碱基的组合，且待测玉米品种基因型的频率≥30％。一般来说，所抽取的样本中，杂种子的量不高于10％，测序错误不超过1％，二者合计不超过11％，因此，对于纯合位点来说，待测玉米品种基因型只有一种，其频率应该大于89％，而对于杂合位点来说，待测玉米品种基因型有2种，其比例应该大于45.5％，因此，规定待测玉米品种基因型的频率≥30％，可以排除因测序错误和待测玉米品种中混杂有杂株而对待测玉米品种基因型的干扰。

例如，在测序片段组中，第1个测序区域的测序片段总数为9987条，有TCA、TCG、TCC、TCT……共25种基因型，代表这些基因型的测序片段数分别9612条、218条、1条、2条……，这些基因型的频率为9612/9987＝96.25％、218/9987＝2.18％、1/9987＝0.01％、2/9987＝0.02％……。按待测玉米品种基因型的定义，TCA为第1个测试区域的待测玉米品种“GL95”基因型，其它基因型为测序错误或杂株引起的基因型。按相同的方法，判断并获得全部2465个检测成功的测试区域的待测玉米品种“GL95”基因型。

按与待测玉米品种“GL95”相同的方法，同样在亲本“G95”和“1102”中获得了2465个检测成功的测试区域，亲本“G95”和“1102”在所有检测成功的测试区域的基因型，部分结果见表1。由于篇幅限制，本实施例没有完整列出全部待测玉米品种及其亲本在所有测试区域基因型，只列出了部分实例。同样基于篇幅限制，本实施例中还有部分地方也仅列出部分相关实例，其余未列出的数据可根据本实施例的方法补全。

表1为待测玉米品种基因型及亲本基因型与相关信息

八、根据待测玉米品种基因型和亲本基因型，判断待测玉米品种的亲本来源的真实性并计算亲本来源的比例，具体方法为：

判断待测玉米品种的亲本来源的真实性的方法为：若待测玉米品种中存在非亲本基因型，则待测品种的亲本来源不真实；若待测玉米品种中不存在非亲本基因型，则待测品种的亲本来源真实；非亲本基因型为待测玉米品种基因型，且非亲本基因型与任意亲本的基因型间的差异碱基数≥2个。规定差异碱基数≥2个的原因如下：在植物自然生长繁殖过程中，是存在DNA的天然突变的，在绝大多数情况下，天然突变是无义突变，并不改变待测玉米品种的性状，因此，并不构成新品种。因此，不能将培育亲本到待测玉米品种检测过程中，亲本或待测玉米品种中的DNA突变判断为非亲本基因型。我们前期的实验中，对水稻9311进行高通量重测序，并与9311的参考基因组进行比对，共发现了，检测了33538个变异位点，由于水稻的基因组约为500M，因此，每个碱基的天然突变频率大致为：33538/(500*1000000)＝0.0067076％，按平均每个测试区域基因型数10个算，那么每个测试区域基因型中，出现2个突变碱基的概率为：BINOM.DIST(10-2,10,1-0.0067076％,TRUE)＝2.02391123634714E-07。测试区域按10000个算，所有测试区域均不因突变而出现非亲本基因型的概率为：BINOM.DIST(10000,10000,1-2.02391123634714E-07,FALSE)＝99.80％。可见，差异碱基数这一参数设计为≥2几乎可以完全避免由天然突变造成的对亲本来源真实性判定的错误。上述参数都是很严格的，例如，我们高通量测序采用的9311与参考基因组的9311之间已经隔了很多年了，即突变已经累加了很多年了，一般待测玉米品种从培育到检测时间都不可能这么长，累积的突变也不可能这么多，另外，0.0067076％的频率中还包含了大量的测序错误，因此，真实的突变率应该远低于这一个值。所以，本发明提供的方法对亲本来源真实性的判定的实际正确率应该大于99.80％。

为了更方便说明本方法，表2列举了一个假定的实例。在该假定实例中，需要判断待测玉米品种是否真实来源于亲本1、亲本2和亲本3。在第1个测试区域中，待测玉米品种基因型为AA，其与亲本1基因型AA比较，有0个差异碱基，该数量小于2个，因此，待测玉米品种的第1个测试区域中的基因型AA不是非亲本基因型。在第3个测试区域中，待测玉米品种基因型AA与亲本2和亲本3的基因型TT有2个碱基的差异，但与亲本1的基因型TA仅1个碱基的差异，因此，待测玉米品种的第3个测试区域中的AA基因型也不为非亲本基因型。在第4个测试区域中，待测玉米品种基因型为AA，所有3个亲本的基因型均为TT，差异均为2个，因此，4个测试区域中，待测玉米品种基因型AA为非亲本基因型，也即，第4个测试区域中，待测玉米品种基因型AA不可能来源于该3个亲本中任何一个，即待测玉米品种的亲本来源不真实。在测试区域6-12中，待测玉米品种或亲本中有多至3个基因型，其中，同一测试区域存在2个基因型多是因为该测试区域为杂合位点，3个及以上基因型可能在多倍体玉米中出现。多倍体玉米不常见，这里只是将各种可能的情况及其判定实例列举出来。

表2为一个假定实例

在本实施例中，第1个测试区域中，待测玉米品种基因型为TCA，其与亲本“G95”和“1102”的基因型TCG间存在的差异碱基数＝1个<2个，因此，第1个测试区域中，待测亲本中不存在非亲本基因型。按相同的方法，依次分析所有测试区域，结果表明：在第8个测试区域中，待测玉米品种基因型为GAGCCGC，其亲本“G95”和“1102”的基因型均为GAGCTAC，因此，第8个测试区域中，待测亲本中的基因型GAGCCGC与任意一个亲本的基因型间存在的差异碱基数均＝2个≥2个，也即，第8个测试区域中，待测玉米品种基因型不可能来自于亲本“G95”和“1102”，且也不可能由天然突变产生，所以，判断待测玉米品种亲本来源不真实。

根据待测玉米品种基因型和亲本基因型，计算亲本来源的比例。计算亲本来源的比例的公式为：亲本来源的比例其中，n为亲本特有测试区域的数目；i为第i个亲本特有测试区域；Si为第i个亲本特有测试区域中，亲本特有基因型与待测玉米品种基因型间相同的基因型的数目；Ti为第i个亲本特有测试区域中，待测玉米品种基因型的数目。亲本特有基因型只在该亲本中出现的亲本基因型，亲本特有测试区域指具有亲本特有基因型的测试区域。

在表2的假定实例中，亲本1在测试区域2中的基因型TT只在亲本1中出现，因此基因型TT为亲本1的亲本特有基因型，测试区域2即为亲本1的亲本特有测试区域，在该特有测试区域中，亲本特有基因型TT与待测玉米品种基因型AA间相同的基因型的数目为0，所以，Si＝0，在该特有测试区域中，待测玉米品种基因型AA的数目为1，所以，Ti＝1，那么，Si/Ti＝0/1＝0，其含义是测试区域2中，待测玉米品种基因型中，没有亲本1的基因型，即没有亲本1的血缘。在第12个测试区域中，亲本1的基因型TT只在亲本1中出现，因此基因型TT为亲本1的亲本1的亲本特有基因型，测试区域12即为亲本1的亲本特有测试区域，在该特有测试区域中，亲本特有基因型TT与待测玉米品种基因型AA/TT/GG间相同的基因型的数目为1，所以，Si＝1，在该特有测试区域中，待测玉米品种基因型AA/TT/GG的数目为3，所以，Ti＝3，那么，Si/Ti＝1/3＝0.33，其含义是测试区域12中，1/3的待测玉米品种基因型来源于亲本1，即在该测试区域中，待测玉米品种有1/3的亲本1的血缘。在表2中，亲本1的亲本特有测试区域为测试区域2、5……12,数目共为n＝9个，其对应的Si/Ti值分别为0、0…..0.33，所以待测玉米品种中，亲本1的亲本来源的比例即从所有测试区域判断，待测玉米品种中大致有35.19％的血缘来自于亲本1。表2中列举了各种亲本特异基因型的情况，其中，Si/Ti值不为空时，对应的亲本基因型均为亲本特异基因型。

在本实施例中，亲本“1102”在测试区域1中的基因型TCG在亲本“1102”和“G95”中均出现，因此基因型TCG不为“1102”的亲本特有基因型，测试区域1也不为“1102”的亲本特有测试区域。亲本“1102”在测试区域2中的基因型CGC只在亲本“1102”中出现，因此基因型CGC为“1102”的亲本特有基因型，测试区域2为“1102”的亲本特有测试区域，在该特有测试区域中，亲本特有基因型CGC与待测玉米品种基因型CGC间相同的基因型的数目为1，所以，Si＝1，在该特有测试区域中，待测玉米品种基因型CGC的数目为1，所以，Ti＝1，那么，Si/Ti＝1/1＝1，其含义是测试区域1中，待测玉米品种基因型中，100％的血缘来自“1102”亲本，按相同的方法，判断所有测试区域中，亲本“1102”在是否存在亲本特有基因型，若存在亲本特有基因型，则相应的测试区域则亲本特有测试区域，计算该亲本特有测试区域中，Si/Ti的值。结果表明：在2465个检测成功的测试区域中，共有58个“1102”的亲本特有测试区域，它们的Si/Ti的值为0、0…..0，所以待测玉米品种中，亲本“1102”的亲本来源的比例其含义是：从所有测试区域判断，待测玉米品种中有3.44％的血缘来自于“1102”。按同样的方法，计算待测玉米品种中，亲本“G95”的亲本来源的比例＝46.55％，其含义是：从所有测试区域判断，待测玉米品种中有46.55％的血缘来自于“G95”。需要说明的是，因为亲本来源不真实，所以，这里所计算的亲本来源的比例只能作为一种参考，并非待测玉米品种中亲本血缘的真实比例。

结果验证

目前没有一种标准的方法判断亲本的来源真实性及其比例，但本实施例提供的待测玉米品种为玉米品种“GL95”的育种过程为：玉米品种“G95”与“102”杂交后，通过系统选育获得待测玉米品种“GL95”，所以，亲本“1102”不为待测玉米品种“GL95”的亲本，因此，本实施例中，对亲本来源不真实性判定是正确的。需要说明的是，在品种审定过程中，为了避开知识产权的问题，品种权人提供一种近似的但没有知识产权争议的亲本来源是较为普遍的现象，本实施例与此情况类似。由于亲本来源不真实，所以，亲本来源比例计算也不可能完全正确，只能作为参考，所以，没有必要对该比例的结果进行验证。

实施例二测定玉米品种“G95/1102”亲本来源真实性与比例

本实施例提供的待测玉米品种为玉米品种“G95/1102”，需要检测该玉米品种的亲本来源“1102”与“G95”是否真实。

按与实施例一中的待测玉米品种相同的方法，提取待测玉米品种“G95/1102”及其亲本“1102”与“G95”的DNA、利用实施例一中相同的多重扩增引物和方法构建高通量测序文库、高通量测序、分析测序片段组，在待测玉米品种“GL95”及其亲本“1102”与“G95”中均成功获得了2465个检测成功的测试区域及它们的基因型，部分结果见表3。

表3为待测玉米品种基因型及其亲本基因型与相关信息

按与实施例一相同的方法，分析所有测试区域，均未发现非亲本基因型，因此，待测玉米品种的亲本来源真实。按与实施例一相同的方法，判断所有测试区域中亲本“1102”在是否存在亲本特有基因型，若存在亲本特有基因型，则相应的测试区域为亲本特有测试区域，计算该亲本特有测试区域中，Si/Ti的值。结果表明：在2465个检测成功的测试区域中，共有58个“1102”的亲本特有测试区域，其中，55个Si/Ti的值均为1/2＝0.5，3个Si/Ti的值均为0/1＝0，所以待测玉米品种中，亲本“1102”的亲本来源的比例其含义是：从所有测试区域判断，待测玉米品种中有47.41％的血缘来自于“1102”。按同样的方法，计算待测玉米品种中，亲本“G95”的亲本来源的比例，结果表明，有58个“G95”的亲本特有测试区域，其中，55个Si/Ti的值均为1/2＝0.5，3个Si/Ti的值均为1/1＝1，所以待测玉米品种中，亲本“G95”的亲本来源的比例其含义是：从所有测试区域判断，待测玉米品种中有52.59％的血缘来自于“G95”。

结果验证

本实施例提供的待测玉米品种的育种过程为：玉米品种“G95”为母本，“1102”为父本杂交，组配成为待测玉米品种“G95/1102”。由此可见，判断待测玉米品种亲本来源为“1102”和“G95”的结论是正确的。由于杂交种中，父母本各提供了一套染色体，因此，细胞核基因组中，“1102”和“G95”在待测玉米品种中的比例应该各占50％，但由于待测玉米品种的母本为“G95”，所以，待测玉米品种中的细胞质DNA的血缘为母本的，因此，母本所占有的比较更大一些是合理的。综合来看，本实施例正确地判断了待测玉米品种中亲本来源的真实性及其比例。

本实施例通过高通量测序和多位点扩增，实现了待测玉米品种内测试区域的大样本抽样，保证了检测的准确性。同时，本发明实施例利用多位点扩增技术不但准确，而且方法简单、快速。除此之外，本实施例中得到了测试区域内每个碱基的序列，分辨率已经达到极致，且信息量也是最大的，是其它检测方法都无法比拟。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种玉米亲本来源真实性及其比例测试新方法，其特征在于，所述方法包括：

获得不同玉米品种间的变异位点；

根据所述变异位点确定测试区域；

制备扩增所述测试区域的引物；

2.根据权利要求1所述的方法，其特征在于，所述测试区域不包括扩增产生杂株基因型的区域；

3.根据权利要求1所述的方法，其特征在于，分别对所述待测玉米品种和所述待测玉米品种的亲本进行抽样的方法为：分别随机选取100个以上的所述待测玉米品种和所述待测玉米品种的亲本的样本混合后，获得所述待测玉米品种的抽样样本和所述待测玉米品种的亲本的抽样样本。

4.根据权利要求1所述的方法，其特征在于，判断所述待测玉米品种的亲本来源的真实性的方法为：若所述待测玉米品种中存在非亲本基因型，则所述待测玉米品种的亲本来源不真实；若所述待测玉米品种中不存在所述非亲本基因型，则所述待测玉米品种的亲本来源真实；所述非亲本基因型为所述待测玉米品种基因型，且所述非亲本基因型与任意所述亲本基因型的差异碱基数≥2个。

5.根据权利要求1所述的方法，其特征在于，计算亲本来源的比例的公式为：其中，n为亲本特有测试区域的数目；i为第i个所述亲本特有测试区域；Si为第i个所述亲本特有测试区域中，亲本特有基因型与所述待测玉米品种基因型间相同的基因型的数目；Ti为第i个所述亲本特有测试区域中所述待测玉米品种基因型的数目；所述亲本特有基因型为只在所述亲本中出现的所述亲本基因型，所述亲本特有测试区域指具有所述亲本特有基因型的所述测试区域。

6.根据权利要求1所述的方法，其特征在于，通过所述变异位点确定所述测试区域的方法为：

7.根据权利要求1所述的方法，其特征在于，所述高通量测序的深度≥5000倍。

8.根据权利要求1所述的方法，其特征在于，所述引物为美国赛默飞世尔公司提供的多重扩增引物。