CN104805191A

CN104805191A - 一种测试纯系玉米新品种的特异性、一致性与稳定性的方法

Info

Publication number: CN104805191A
Application number: CN201510150521.XA
Authority: CN
Inventors: 彭海; 张静; 陈红; 任毅; 魏传斌
Original assignee: Agriculture Ministry Technology Development Center; Jianghan University
Current assignee: Agriculture Ministry Technology Development Center; Jianghan University
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-07-29
Anticipated expiration: 2035-03-31
Also published as: CN104805191B

Abstract

本发明公开了一种测试纯系玉米新品种的特异性、一致性与稳定性的方法。该方法包括：获得变异位点；确定待测玉米品种的测试区域；构建数据库；确定抽样量后，随机抽样混合并提取混合样本的DNA；制备引物；利用引物对混合样本的DNA进行扩增，扩增产物用于构建高通量测序文库；对高通量测序文库进行高通量测序，得到测序片段组；分析测序片段组，获得待测玉米品种基因型和杂株基因型；比较获得近似品种、变异位点和变异位点率；将杂株基因型与数据库中的基因型比较，获得杂株品种后，计算杂株率；利用变异位点、变异位点率和杂株率，判断待测玉米品种特异性、一致性和稳定性。该方法能够准确、完整地判断待测玉米品种的特异性、稳定性与一致性。

Description

一种测试纯系玉米新品种的特异性、一致性与稳定性的方法

技术领域

本发明涉及生物技术领域，特别涉及一种测试纯系玉米新品种的特异性、一致性与稳定性的方法。

背景技术

作为一种特化的知识产权，植物新品种已经成为一个公司及至一个国家的核心竞争力。植物新品种授权与相关法律问题的解决依赖于DUS测试，即对待测玉米品种的特异性(Distinctness)、一致性(Uniformity)和稳定性(Stability)的田间种植鉴定或室内分子标记鉴定。田间种植鉴定流程为：将待测玉米品种与近似品种同时植于田间，在2年及以上的生长季节内，观察它们的多个性状，根据性状表现判断待测玉米品种与近似品种的差异显著性，即特异性，同时判断群体内杂株比例，即一致性和稳定性；室内分子标记鉴定的流程为：分单株提取待测玉米品种与近似品种中每个样本的DNA，并分别对每个样本的每个测试区域进行PCR(Polymerase Chain Reaction，聚合酶链反应)，并对每个PCR产物进行电泳或一代测序检测，根据检测结果，获得待测玉米品种与近似品种的差异位点比例，根据差异位点比例，判断待测玉米品种的特异性。

田间种植鉴定的缺点是：周期长、工作量大，环境影响性状，导致判断不准确。室内分子标记鉴定的缺点是：需要分别处理每个样本的每个测试区域，工作量大，不能对样本与测试区域大量抽样，无法计算杂株率，因而无法进行稳定性与一致性的测试。田间种植鉴定与室内分子标记鉴定的共同缺点是：均由于工作量的原因，无法从现有品种中客观选择近似品种，只能由品种权申请人提供，而基于商业利益等动机，品种权申请人提供的近似品种可能不真实，从而造成错误品种授权的法律后果。

发明内容

为了解决现有技术中的问题，本发明实施例提供了一种测试纯系玉米新品种的特异性、一致性与稳定性的方法。所述技术方案如下：

本发明实施例提供了一种测试纯系玉米新品种的特异性、一致性与稳定性的方法，所述方法包括：

获得不同玉米品种间的变异位点；

通过所述变异位点确定待测玉米品种的测试区域，所述测试区域包括通用测试区域，至少部分所述变异位点包含在所述通用测试区域内；

构建包含所述不同玉米品种在所有所述测试区域的基因型的数据库；

确定所述待测玉米品种的抽样量SN后，随机抽样混合并提取混合样本的DNA；

制备扩增所述测试区域的引物，所述引物包括所述通用测试区域引物；

利用所述引物对所述混合样本的DNA进行扩增，得到所述测试区域的扩增产物，所述扩增产物作为高通量测序文库；

对所述高通量测序文库进行高通量测序，得到测序片段组；

分析所述测序片段组，获得待测玉米品种基因型和杂株基因型；

将所述待测玉米品种基因型与所述数据库中的所述不同品种的基因型比较，获得所述待测玉米品种的近似品种、变异位点和变异位点率；

将所述杂株基因型与所述数据库中的所述不同品种的基因型比较，获得杂株品种后，计算杂株率；

利用所述变异位点、所述变异位点率和所述杂株率，判断所述待测玉米品种特异性、一致性和稳定性。

具体地，所述抽样量SN满足如下条件：BINOM.INV(SN,M,0.95)/SN≤1.15*M，其中BINOM.INV为excel 2010中的函数，M为判断所述一致性和稳定性时所选用的阈值，所述抽样量SN满足的条件含义为：即使所述杂株率只超出一致性和稳定性时的判断阈值M的15％，所述抽样量在95％的概率保证下，可正确判断所述待测玉米品种的稳定性与一致性。

具体地，所述高通量测序的深度CF满足如下条件：BINOM.DIST(10,10,BINOM.DIST(8,20,BINOM.DIST(0,CF,0.1％,TRUE),TRUE),FALSE)≥99.9％，1-BINOM.DIST(10000,10000,1-BINOM.DIST(8,20,1-BINOM.DIST(99.99％*CF,CF,99.9989％,TRUE),TRUE),FALSE)≤0.1％且BINOM.DIST(10*(1-M)*CF,10*CF,1-110％*M,TRUE)≥95.0％，其中，CF为所述高通量测序的深度，M为判断所述一致性和稳定性时所选用的阈值，BINOM.DIST为excel 2010中的函数，所述高通量测序的深度CF满足的条件含义为：在所述杂株率低至0.1％、所述杂株品种为10个且所述杂株品种与所述待测玉米品种间平均仅有20个差异位点的条件下，由所述高通量测序的深度CF决定的检出全部所述杂株品种的概率≥99.9％；在所述数据库的品种为10000个且所述杂株品种与所述待测玉米品种间平均仅有20个差异位点的条件下，由所述高通量测序的深度CF决定的存在误判所述杂株品种的概率≤0.1％；在所述杂株品种为10个且真实杂株率仅超过判断特异性时所选用的阈值的10％时，由所述高通量测序的深度CF决定的对稳定性与一致性的判定结论正确的概率≥95.0％。

具体地，所述测试区域还包括非通用测试区域，所述引物还包括非通用测试区域引物。

进一步地，所述非通用测试区域引物包括第一引物和第二引物，所述第一引物包括第一正向引物和第一反向引物，所述第二引物包括第二正向引物和第二反向引物，所述第一引物和所述第二引物分别进行单独扩增得到两个所述非通用测试区域的扩增产物，将两个所述非通用测试区域的扩增产物等量混合用于构建单独扩增的高通量测序文库；

所述第一正向引物的5’端连接有如序列表中SEQ ID NO:1所示的序列1，所述第一反向引物中的5’端连接有如序列表中SEQ ID NO:2所示的序列2；

所述第二正向引物的5’端连接有如序列表中SEQ ID NO:2所示的序列2，所述第二反向引物的5’端连接有如序列表中SEQ ID NO:1所示的序列1。

具体地，利用所述变异位点、所述变异位点率和所述杂株率，判断所述待测玉米品种特异性、一致性和稳定性的方法包括：

当所述变异位点率≥SD或所述非通用测试区域存在所述变异位点时，所述待测玉米品种具有特异性，当所述变异位点率＜SD且所述变异位点不存在于所述非通用测试区域中时，所述待测玉米品种不具有特异性，其中，SD为判断特异性时所选用的阈值；

当所述待测玉米品种的所述杂株率≤M时，所述待测玉米品种具有一致性和稳定性，当所述待测玉米品种的所述杂株率大于＞M时，所述待测玉米品种不具有一致性和稳定性，M为判断所述一致性和稳定性时所选用的阈值；

所述杂株率R＝R1+R2-R3-R4，其中：

R 1 = Σ_{i 1 = 1}^{n 1} \frac{Σ_{j 1 = Int (0.8 \times t 1) + 1}^{t 1 - Int (0.1 \times t 1)} 2 \times R 1 i 1 j 1}{t 1 - Int (0.8 \times t 1) - Int (0.1 \times t 1)},

其中，n1为细胞核杂株品种的数目，t1为第i1个所述细胞核杂株品种的所有特异杂株核基因型的数目，i1j1为第i1个所述细胞核杂株品种的所有所述特异杂株核基因型按频率由低到高排序后，第j1个所述特异杂株核基因型，R1i1j1为第i1j1个所述特异杂株核基因型的频率；R1为由杂株核基因型计算的所述细胞核杂株品种的所述杂株率的总和，所述细胞核杂株品种的所述杂株率为去掉所述细胞核杂株品种中最低的80％和最高的10％的所述特异杂株核基因型的频率后，剩余的所述特异杂株核基因型的频率的平均值的2倍；

其中，t2为除所述细胞核杂株品种拥有的杂株核基因型之外的且频率≥0.17％的所述杂株核基因型的数目，i2为除所述细胞核杂株品种拥有的所述杂株核基因型之外的所有所述杂株核基因型按频率由低到高排序后，第i2个所述杂株核基因型，R2i2为第i2个所述杂株核基因型的频率；R2是利用除所述细胞核杂株品种拥有的所述杂株核基因型计算的所述杂株率，R2为去掉除所述细胞核杂株品种拥有的所述杂株核基因型的频率中最低的80％和最高的10％的值后，剩余值的平均值的2倍；

R 3 = Σ_{i 3 = 1}^{n 2} R 3 i 3 - 2 \times R 3 ic,

其中，

R 3 i 3 = \frac{Σ_{j 3 = Int (0.8 \times t 3) + 1}^{t 3 - Int (0.1 \times t 3)} R 3 i 3 j 3}{t 3 - Int (0.8 \times t 3) - Int (0.1 \times t 3)},

n2为细胞质杂株品种的数目，R3i3为第i3个所述细胞质杂株品种的所述杂株率，R3ic为i3＝ic时R3i3的值，ic为当所述待测玉米品种为核质互作型不育系或保持系时，对应的所述保持系或所述不育系的所述细胞质杂株品种，t3为第i3个所述细胞质杂株品种的所有特异杂株质基因型的数目，i3j3为第i3个所述细胞质杂株品种的所有所述特异杂株质基因型按频率由低到高排序后，第j3个所述特异杂株质基因型，R3i3j3为第i3j3个所述特异杂株质基因型的频率，R3ic指混入所述不育系中的所述保持系的杂株率或混入所述保持系中的所述不育系的杂株率；R3为由杂株质基因型计算的所述细胞质杂株品种的所述杂株率的总和，所述细胞质杂株品种的杂株率为去掉所述细胞质杂株品种中最低的80％和最高的10％的所述特异杂株质基因型的频率后，剩余的所述特异杂株质基因型的频率的平均值；

其中，t4为除所述细胞质杂株品种拥有的所述杂株质基因型之外的且频率≥0.17％的所述杂株质基因型的数目，i4为除所述细胞质杂株品种拥有的所述杂株质基因型之外的所有所述杂株质基因型按其频率由低到高排序后，第i4个所述杂株质基因型，R4i4为第i4个所述杂株质基因型的频率；R4是利用除所述细胞质杂株品种拥有的所述杂株质基因型计算的所述杂株率，R4为去掉除所述细胞质杂株品种拥有的所述杂株质基因型的频率中最低的80％和最高的10％的值后，剩余值的平均值；

Int()为取整函数；

所述细胞核杂株品种是指仅利用核基因型计算获得的所述杂株品种，所述细胞质杂株品种是指仅利用质基因型计算获得的所述杂株品种；所述特异杂株核基因型是指仅为一个所述细胞核杂株品种所有的所述杂株核基因型；所述特异杂株质基因型是指仅为一个所述细胞质杂株品种所有的所述杂株质基因型；所述杂株核基因型是指所述杂株基因型为所述核基因型，所述核基因型指所述基因型位于细胞核基因组上；所述杂株质基因型是指所述杂株基因型为所述质基因型，所述质基因型是指所述基因型位于细胞质基因组上；基因型的频率是指所述测序片段组中，代表所述基因型的测序片段数占所述基因型所在所述测试区域的测序片段总数的比例。

进一步地，所述方法还包括采用以下方式判定所述待测玉米品种的一致性和稳定性的结论正确的概率：当所述待测玉米品种具有一致性和稳定性时，结论正确的概率≥BINOM.DIST(M*SN,SN,R,TRUE)*BINOM.DIST(∑SeN*M,∑SeN,R,TRUE)；当所述待测玉米品种不具有所述一致性和稳定性时，结论正确的概率≥BINOM.DIST((1-M)*SN,SN,(1-R),TRUE)*BINOM.DIST(∑SeN*(1-M),∑SeN,1-R,TRUE)；其中，∑SeN为所有用于计算所述杂株率R的所述基因型的频率所在所述测试区域的测序片段的总和，M为判断所述一致性和稳定性时所选用的阈值，BINOM.DIST(M*SN,SN,R,TRUE)为所述待测玉米品种进行了SN次抽样，实际抽得的所述杂株率R小于所述阈值M的概率，BINOM.DIST(∑SeN*M,∑SeN,R,TRUE)的意义为：对所述待测玉米品种进行了∑SeN次抽样，实际抽得的杂株率R小于阈值M的概率。

进一步地，当所述非通用测试区域不存在所述变异位点时，若判断所述待测玉米品种具有特异性，结论正确的概率≥BINOM.DIST((1-SD)*TRN,TRN,1-OD,TRUE)；若判断所述待测玉米品种不具有特异性，结论正确的概率≥BINOM.DIST(SD*TRN,TRN,OD,TRUE)，其中，TRN为检测成功的测试区域的数目，OD为所述变异位点率，BINOM.DIST为excel 2010中的函数，所述结论正确的概率表示为当判断所述待测玉米品种具有特异性时，所述变异位点率大于SD的概率，当判断所述待测玉米品种不具有特异性时，所述变异位点率小于SD的概率，所述检测成功的测试区域通过分析所述测序片段组后获得。

具体地，获得所述杂株品种的方法包括：所述杂株品种为存在于所述数据库中的品种，且所述杂株品种的潜在杂株基因型与所述杂株基因型间有相同基因型的所述测试区域的数目占所述杂株品种具有所述潜在杂株基因型的所述测试区域的总数的比例≥60％；所述杂株基因型指频率≥0.02％的所述潜在杂株基因型；

所述潜在杂株基因型与所述待测玉米品种的所有基因型间的差异碱基的数量≥2个或所述差异碱基中有非连续碱基的插入或缺失。

具体地，通过所述变异位点确定所述通用测试区域的方法为：

通过区分度计算区分度的值，其中，a为变异窗口区域中被检测到的品种总数，bi为所述变异窗口区域中第i种基因型的品种数，且bi>1，k为包含大于1个品种的基因型的数目，所述变异窗口区域为以每个单核苷酸变异位点为中心，向所述单核苷酸变异位点的两侧各延伸测序列长度的1/2作为检测的窗口；

所述通用测试区域为细胞质基因组上区分度大的区域或细胞核基因组上所述区分度大且均匀分布的区域。

本发明实施例提供的技术方案带来的有益效果是：本发明实施例提供的方法通过高通量测序和多位点扩增，实现了待测玉米品种的大样本抽样与种间个体测试区域的大样本抽样，再利用定义杂株基因型、定义细胞质杂株品种和定义杂株率计算公式等综合手段，成功地实现了准确、完整地判断待测玉米品种的特异性、稳定性与一致性的目标，且测试速度更快，可在10天以内完成。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明实施方式作进一步地详细描述。

实施例.测定玉米品种‘GL95’的特异性、一致性与稳定性

本发明实施例提供的待测玉米品种为玉米品种“GL95”，玉米品种“GL95”为纯系玉米且为公开使用品种，其为以G95为母本，102为父本，杂交后按系统选育的方法培育而成。

一、获得不同玉米品种间的变异位点。

不同玉米品种的变异位点可以从已公布的文献资料中获取，但该方法所获得的结果比较零星，在本实施例中，通过比较不同玉米品种的基因组序列获得了大量的不同玉米品种间的变异位点。

进一步地，获得不同玉米品种的基因组序列的方法如下：

本实施例的不同玉米品种的基因组序列有两种来源，第一种为Chia等对103个玉米品种的基因组的高通量测序序列，相关文献信息如下：Chia JM et al.MaizeHapMap2 identifies extant variation from a genome in flux.Nat Genet.2012，44(7):803-7。该103个玉米品种的基因组序列公布于NCBI Short Read Archive(http://www.ncbi.nlm.nih.gov/sra)，接收号为SRA051245；第二种为按Chia等的上述发表的文章中提供的方法对“G95”、“1102”和杂交种“高赖145”进行了高通量测序。本实施例共获得了106个玉米品种的基因组的高通量测序序列。

进一步地，利用不同品种的基因组序列获得变异位点。

具体地，由于这106个玉米品种的测序深度都不高，仅能鉴定单核苷酸变异(SNP)位点，若玉米品种的测序深度足够高，则能够鉴定出其它变异类型如重复数变异，由于可信度低，不进行鉴定。利用Frederick Sanger比对软件(版本号为0.4)将这106个玉米品种的基因组的高通量测序序列分别比对到“B73”玉米细胞核参考基因组(版本：AGPv1，下载地址：http://www.ncbi.nlm.nih.gov)和细胞质参考基因组上，该细胞质参考基因组包括线粒体参考基因组与叶绿体参考基因组，其在NCBI(National Center for Biotechnology Information，美国国立生物技术信息中心)上的接收号分别为NC_007982.1和NC_001666.2。对比时，插入片段长度设为500bp，其他参数设定为默认值。采用的Ssaha Pileup软件包(版本号为0.5)鉴定每个玉米品种的SNP位点。该SNP位点定义为差异确定的碱基对、单碱基的插入或单碱基的缺失。该差异确定的碱基对是指不包括差异不确定的碱基对，差异不确定的碱基对是指某些简并碱基间的碱基对，如R代表A或G，因此，A与R之间可能存在差异，也可能不存在差异，因此，A与R间差异不明确，互不为SNP。因此，本发明实施例中的SNP位点为不包括上述差异不确定的碱基对。按以上SNP位点的定义，本发明实施例在所有106个玉米品种间共获得53855606个SNP位点，其中9005个SNP位点位于细胞质基因组上，其余的SNP位点位于细胞核基因组上。后文提及的基因型即是指测试区域内多个SNP位点的组合，核基因型指基因型位于细胞核基因组上，质基因型是指基因型位于细胞质基因组上。例如，表1中第8个测试区域位于细胞核基因组上，为核基因型，该测试区域共有7个SNP位点，该测试区域的基因型即为这7个SNP位点的组合。

二、通过变异位点确定待测玉米品种的测试区域，测试区域包括通用测试区域，至少部分变异位点包含在通用测试区域内，其方法包括：

确定通用测试区域

通用测试区域为细胞质基因组上区分度大的区域或细胞核基因组上区分度大且均匀分布的区域，其中，区分度其中，a为变异窗口区域中被检测到的品种总数，bi为变异窗口区域中第i种基因型的品种数，且bi>1，k为包含大于1个品种的基因型的数目，变异窗口区域为以每个单核苷酸变异位点(SNP位点)为中心，向单核苷酸变异位点的两侧各延伸测序列长度的1/2作为检测的窗口；测试区域为细胞质基因组上区分度大的区域或细胞核基因组上区分度大且均匀分布的区域。区分度的计算原理如下：所有品种间的组合数为其中，同一基因型内的不同品种间的组合是不可区分的，其数目为那么，不可被区分的品种组合的比例为可被区分的品种组合的比例即区分度由此可见，区分度越大，越能将不同品种区分开，区分度大的变异窗口区域对DUS测试更有效。若细胞核基因组上的变异窗口区域分布不均匀，会导致某些区域相邻，从而连锁遗传，信息容易重叠，因此，细胞核基因组上选择通用测试区域的综合原则是：区分度大且SNP位点均匀分布。细胞质基因组无连锁遗传问题，所以，细胞质基因组上只需要选择区分度大的区域即可。

本发明实施例中采用Proton高通量测序仪进行高通量测序，其测序检测的测试区域长度可达到200bp，为了获得最大信息量，本实施例中的最长测试区域也为200bp。因此，本实施例提到的变异位点是指整个测试区域，其内部可能包含多个SNP位点，后文提及的基因型即是指测试区域内多个SNP位点的组合，核基因型指基因型位于细胞核基因组上，质基因型是指基因型位于细胞质基因组上。例如，表1中第1个测试区域位于细胞核基因组上，为核基因型，该测试区域共有3个SNP位点，该测试区域的基因型即为这3个SNP位点的组合。

首先，以获得的每个SNP位点为中心，向左右各延伸99bp和100bp，构成200bp的变异窗口。根据获得的53855606个SNP位点，可以获得53855606个变异窗口，计算这些变异窗口区域的区分度例如，第1个变异窗口区域中，共检测到了a＝102个品种，共有k＝3种基因型CCA、TCA、TCG，它们的品种数分别为b1＝5个、b2＝11个和b3＝76个，因此，其含义是：通过第1个变异窗口区域，可以将102个品种中的43％的品种组合区分开，另外47％的品种组合无法区分开，需要更多的变异窗口才能区分开。按照同样的方法，计算获得全部53855606个变异窗口的区分度并从中选取位于细胞核基因组中区分度最大的8000个变异窗口和位于细胞质基因组中区分度最大的100个变异窗口。逐个检查位于细胞核基因组的8000个变异窗口中，每个变异窗口与下一个变异窗口间的距离，若距离超过500K(1K＝1000个碱基)，则放弃其中区分度较小的变异窗口之后再检查，直至相邻查变异窗口的距离均大于500K为止。选择500K的距离标准是因为玉米基因组大小约为2300M(1M＝100万个碱基)，按最终入选2400个位于细胞核基因组的通用测试区域计，平均的通用测试区域间距离约为1M，但由于一些特异区域如着丝粒等很少有变异位点，因此，平均距离应该小于1M。按以上方法，选出了5030个位于细胞核基因组的变异窗口，它们与获得的位于细胞质基因组中区分度最大的100个变异窗口一起共5130个变异窗口作为入选的通过测试区域。其中，选择区分度最大的200个变异窗口，为经验值，该数量可以根据具体情况进行修改。

该测试区域还可以包括非通用测试区域，具体方法如下：

确定非通用测试区域

非通用测试区域是指特殊品种需要检测的非通用位点。DUS测试需要检测定点改造的非通用位点，定点改造是现代育种中常用的技术手段，如回交育种、转基因育种等，定点改造品种也可以因其具有特异性而成为新品种。基于新品种保护特异性的判定原则，非通用测试区域应不包括在通用测试区域内且为已知控制质量性状的位点。本实施例中，由于待测玉米品种不是通过定点改造而来的，无非通用位点需要检测，因此，无非通用测试区域。

三、制备扩增测试区域的引物，该引物包括通用测试区域引物，具体如下：

制备通用测试区域引物，该通用测试区域引物针对所有品种，具体地：

通用测试区域采用多重PCR技术进行检测，多重PCR技术是指在同一个PCR反应中加入多个PCR引物，同时扩增基因组上的多个位点。该技术的关键是设计并合成多重PCR引物，本实施例采用美国LifeTechnology公司提供的多重PCR技术，其能够设置多至12000重PCR引物。

引物获取过程如下：登录LifeTechnology公司多重PCR引物在线设计网页https://ampliseq.com/protected/help/pipelineDetails.action，按其要求提交相关信息即可。在本实施例中，“Application type”选项选择“DNA Hotspot designs(single-pool)”。若选择multi-pool，则多重PCR将分多管进行，成本会有所增加，而single-pool的引物只需要一次多重PCR即可，节省成本，缺点是某些通用测试区域引物设计可能失败，但基因组上的备选的通用测试区域较多，因此，放弃一些备选的通用测试区域并不影响结果。将待测玉米品种的细胞核参考基因组和细胞质参考基因组融合为一个文件，并在“Select the genome you wish to use”选项中选择“Custom”后，上传融合的文件作为设计多重PCR引物时的参考基因组。DNA Type选项选择“Standard DNA”，在Add Hotspot选项中，添加需要设计的通用测试区域内的SNP位点的位置信息即可，包括染色体信息、SNP的起始位点和SNP的结束位点，其部分实例见表1。最后点击“Submit targets”按钮提交并得到设计的多重PCR引物。本实施例中，从所有5130个通用测试区域中，设计并成功验证了2506对多重PCR引物，用于扩增相应的2506个通用测试区域。验证多重PCR引物的方法为按本发明提供的方法，提取同一株玉米上的叶片基因组DNA，并利用设计的多重PCR引物对获得的基因组DNA进行扩增、建库、高通量测序并分析测序片段组，去掉以下测试区域相应的引物：该测试区域的测序片段数不足1000或存在杂株基因型，保留下来的引物即为验证成功的多重PCR引物。由于基因组DNA来源于同一株玉米叶片，不可能存在杂株品种，因此，杂株基因型是由测试区域的特殊结构造成的PCR或测序偏好性错误，去掉这些测试区域避免了此类系统错误。验证成功的多重PCR引物也由该公司混合好后以液体的形式提供给客户使用。上述成功设计了多重PCR引物的2506个通用测试区域即为最终用于待测玉米品种检测的通用测试区域，同时，构建的数据库中的每个品种也包含了上述2506个通用测试区域，其中，34个通用测试区域位于细胞质基因组上，剩余的2472个通用测试区域位于细胞核基因组上。

需要说明的是：通用测试区域的数目要求≥900个，理由如下：若低于900个，存在误判的杂株品种的概率将超过1％，该阈值的推算方法见表2。由于可能存在检测失败的测试区域，因此，测试区域数目一般≥1000个。

测试区域引物还可以包括非通用测试区域引物，该非通用测试区域引物针对待测玉米品种，具体如下：

制备非通用测试区域引物

非通用测试区域的引物包括第一引物和第二引物，第一引物包括第一正向引物和第一反向引物，第二引物包括第二正向引物和第二反向引物，第一引物和第二引物分别进行单独扩增得到两个非通用测试区域的扩增产物，将两个非通用测试区域的扩增产物等量混合用于构建单独扩增的高通量测序文库。第一正向引物的5’端连接有如序列表中SEQ ID NO:1所示的序列1，第一反向引物中的5’端连接有如序列表中SEQ ID NO:2所示的序列2；第二正向引物的5’端连接有如序列表中SEQ ID NO:2所示的序列2，第二反向引物的5’端连接有如序列表中SEQ ID NO:1所示的序列1。

非通用测试区域引物的设计过程如下：第一步，按扩增长度不超过200bp和包含非通用测试区域内所有SNP位点的要求，按普通PCR引物设计方法，设计扩增非通用测试区域的PCR的正向引物和反向引物；第二步，将设计好的正向引物与反向引物的5’端分别连接序列表中SEQ ID NO:1和序列表中SEQ IDNO:2，分别获得第一引物的正向引物和第一引物的反向引物；第三步，将设计好的正向引物与反向引物的5’端分别连接序列表中SEQ ID NO:2和序列表中SEQ ID NO:1，分别获得第二引物的正向引物和第二引物的反向引物。序列表中SEQ ID NO:1和序列表中SEQ ID NO:2为高通量测序所用的接头序列，从而使用PCR产物带有高通量测序的接头序列，可以直接与扩增的通用测序区域的产物混合后建立测序文库后一同测序，而不必经过片段化、连接接头等繁琐的建库步骤，提高了工作效率并降低了成本。做成两对仅接头不一样的引物是为了同时从非通用测试区域的两端测序。

本实施例中的待测玉米品种由于没有非通用测试区域，因此，无非通用测试区域引物。

四、构建包含不同玉米品种在所有测试区域的基因型的数据库的方法如下：

本实例获得了2506个通用测试区域引物和0个非通用测试区域引物，它们对应的扩增区域即为待测玉米品种的测试区域。构建包含106个品种的2506测试区域的基因型及其SNP的位置信息的数据库，部分结果见表1。

表1为数据库品种基因型及其位置、待测玉米品种基因型、杂株基因型及其频率的部分实例

表1中，“/”表示该测试区域为杂合基因型，存在“/”前后两种不同的基因型；除ATGC外，其它字母代表简并碱基。若基因型全由简并碱基N组成，称相应测试区域基因型与SNP数据缺失，缺失的基因型或SNP与任何基因型或SNP比较时，均作无差异处理。可按本发明提供的检测待测玉米品种基因型的方法检测数据库品种并补全缺失的基因型。

由于篇幅限制，本实施例没有完整列出全部数据库内容，只列出了其中5个品种的10个测试区域的信息。同样基于篇幅限制，本实施例中还有部分地方也仅列出部分相关实例，其余未列出的数据可根据本实施例的方法补全。

五、确定待测玉米品种的抽样量SN后，随机抽样混合并提取混合样本的DNA，方法如下：

计算待测玉米品种抽样量

抽样量SN应满足如下条件：BINOM.INV(SN,M,0.95)/SN≤1.15*M，其中，BINOM.INV为excel 2010中的函数，其使用方法与excel 2010中的定义相同，其含义是使得累积二项分布的函数值大于或等于临界值的最小整数。抽样量SN满足的条件含义是：即使杂株率只超出阈值M的15％，该抽样量在95％的概率保证下，可正确判断待测玉米品种的稳定性与一致性。M值是根据作物种类、标记类型、具体要求等条件人为确定的。在农业部新品种保护办公室发布中《植物新品种特异性、一致性和稳定性测试指南-玉米》中规定：对于自交系和单交种品种，一致性判定时，采用3％的群体标准和至少95％的接受概率。因此，本实施例中，选用中间值3％作为M值。逐步加大SN值后，计算上述公式发现，当SN≥3972时，BINOM.INV(SN,3％,0.95)/SN≤1.15*3％成立。因此，本实施例中的待测玉米样本抽样量应≥3972。

随机抽样混合并提取混合样本的DNA

在本实施例中，选取了5000粒种子发芽，随机选取4000个大小大致相等的芽混合后置于研钵中，向研钵中加入液氮后充分研磨成粉。采用北京天根生化科技有限公司生产的货号为DP305的植物基因组DNA提取试剂盒提取并获得待测玉米品种混合样本的DNA，DNA提取方法按该试剂盒的操作手册进行。利用美国Invitrigen公司生产的dsDNA HS Assay Kit(货号为Q32852)及其说明书对获得的DNA进行定量，将定量后的待测玉米品种DNA稀释为10.00ng/μl。

六、利用引物对混合样本的DNA，进行扩增，得到测试区域的扩增产物，扩增产物作为高通量测序文库的方法如下：

高通量测序文库包括：通用测试区域的高通量测序文库和非通用测试区域的高通量测序文库，在本实施例中，分别构建通用测试区域和非通用测试区域的高通量测序文库，将二者混合，得到所有测试区域的高通量测序文库，本实施例中没有非通用测试区域，因此，测试区域的高通量测序文库为通用测试区域的高通量测序文库。

构建通用测试区域的高通量测序文库的方法如下：

利用文库构建试剂盒2.0(由美国LifeTechnology公司生产，货号为4475345)多重PCR扩增通用测试区域后，利用扩增产物构建高通量测序文库。该试剂盒包括以下试剂：5×Ion AmpliSeq^TM HiFi Mix、FuPa试剂、转换试剂、测序接头溶液和DNA连接酶。文库构建的方法按该试剂盒的操作手册《IonAmpliSeq^TM Library Preparation》(出版号：MAN0006735，版本：A.0)进行。通过多重PCR扩增2506个通用测试区域，多重PCR的扩增体系如下：5×IonAmpliSeq^TM HiFi Mix 4μl、制备的通用测试区域引物混合液4μl、待测玉米品种的DNA 10ng和无酶水11μl。多重PCR的扩增程序如下：99℃，2分钟；(99℃，15秒；60℃，4分钟)×25个循环；10℃保温。利用FuPa试剂消化掉多重PCR扩增产物中多余的引物后，再进行磷酸化，具体方法为：向多重PCR的扩增产物中加入2μL FuPa试剂，混匀后，在PCR仪上按如下程序反应：50℃，10分钟；55℃，10分钟；60℃，10分钟；10℃保存，得到混合物a，混合物a为含有经过磷酸化的扩增产物溶液。将磷酸化的扩增产物连接上测序接头，具体方法为：向混合物a中加入转换试剂4μL、测序接头溶液2μL和DNA连接酶2μL，混匀后，在PCR仪上按如下程序反应：22℃，30分钟；72℃，10分钟；10℃保存，得到混合液b。利用标准的乙醇沉淀方法纯化混合液b后溶解于10μL无酶水中。利用美国Invitrigen公司生产的dsDNA HS Assay Kit(货号为Q32852)并按照其说明书进行测定，并获得混合液b的质量浓度后，将纯化后混合液b稀释至15ng/ml，得到浓度约100pM的通用测试区域的高通量测序文库。

构建非通用测试区域的高通量测序文库的方法如下：

以待测玉米品种的DNA为模板，利用上述制备的非通用测试区域的第一引物和第二引物分别进行单独PCR扩增，等量混合扩增产物后得到非通用测试区域的高通量测序文库。具体操作按《Ion Amplicon Library Preparation(FusionMethod)》(出版号：4468326)进行，大致过程如下：将第一引物的正向引物和反向引物用水溶解为10μM的浓度后，等体积混合，获得第一引物溶液。配制如下PCR反应体系：第一引物溶液1μL、30ng待测玉米品种DNA和PCR高保真混合物(美国invirtrigen公司生产，货号为12532016)45μL，混匀后，在PCR仪上按如下程序反应：94℃，3分钟；(94℃，30秒；58℃，30秒；68℃，1分钟)×40个循环；4℃保温。PCR扩增产物按标准的乙醇沉淀的方法纯化后溶解于10μL水中，利用DNA 1000试剂盒(货号为5067-1504)在美国安捷伦公司生产的生物分析仪(型号为2100)上，按该试剂盒说明书测定并获得扩增产物的摩尔浓度后，稀释为200pM，即为第一引物的扩增产物。采用相同的方法，获得浓度为200pM的第二引物的扩增产物。将第一引物的扩增产物与第二引物的扩增产物等体积混合，获得浓度为100pM的非通用测试区域高通量测序文库。本实施例中，由于无非通用测试区域，因此，也无需构建非通用测试区域的高通量测序文库。

获得所有测试区域的高通量测序文库

按通用测试区域的数目与非通用测试区域的数目的比例混合等摩尔浓度的通用测试区域的高通量测序文库和非通用测试区域的高通量测序文库，得到的混合物即为所有测试区域的高通量测序文库。在本实施例中，因无非通用测试区域的高通量测序文库，因此，构建的高通量测序文库即为浓度为100pM的通用测试区域的高通量测序文库。

七、对高通量测序文库进行高通量测序，得到测序片段组，方法如下：

确定高通量测序深度的原理：高通量测序的深度CF满足如下条件：BINOM.DIST(10,10,BINOM.DIST(8,20,BINOM.DIST(0,CF,0.1％,TRUE),TRUE),FALSE)≥99.9％，1-BINOM.DIST(10000,10000,1-BINOM.DIST(8,20,1-BINOM.DIST(99.99％*CF,CF,99.9989％,TRUE),TRUE),FALSE)≤0.1％且BINOM.DIST(10*(1-M)*CF,10*CF,1-110％*M,TRUE)≥95.0％，其中，CF为高通量测序的深度，也即平均每个测试区域被覆盖的倍数，M为判断一致性和稳定性时所选用的阈值，BINOM.DIST为excel 2010中的函数，其使用方法与excel 2010中的定义相同，其返回的是二项式分布的概率。该三个函数的意义为：在杂株率低至0.1％、杂株品种多达10个且杂株品种与待测玉米品种间平均仅20个差异位点的条件下，由高通量测序深度决定的检出全部杂株品种的概率≥99.9％；在数据库品种多至10000个且杂株品种与待测玉米品种间平均仅20个差异位点的条件下，由高通量测序深度决定的存在误判杂株品种的概率≤0.1％；在杂株品种多达10个且真实杂株率仅超过判断特异性时所选用的阈值的10％时，由高通量测序深度决定的对稳定性与一致性的判定结论正确的概率≥95.0％。以上条件十分严格，因此，真实效果优于上述阈值。以上概率的推算方法见表2。

表2为本实施例相关概率的计算方法

表2为Excel 2010数据表，其函数、单元格等均与Excel 2010的定义相同。其中，“判断一致性和稳定性时所选用的阈值(M)”为单元格B2，其它单元格编号以B2为参照，按Excel 2010的规则定义，例如“杂株率(R)”所在的单元格在B2的基础上增加了4行1列，因此编号为C6，其它单元格编号规则与此相同。

本实施例高通量测序深度的确定方法为：将M＝3％代入上述三个公式后，逐步加大测序深度CF至1935时，可使上述三个方程成立，因此，本实施例测序深度确定为≥1935倍。

利用高通量测序文库进行高通量测序

利用获得的所有测试区域的高通量测序文库和试剂盒Ion PI Template OT2200 Kit v2(美国invirtrigen公司生产，货号为4485146)进行测序前的ePCR(Emulsion PCR，乳化聚合酶链反应)扩增，操作方法按该试剂盒的操作手册进行。利用ePCR产物和试剂盒Ion PI Sequencing 200 Kit v2(美国invirtrigen公司生产，货号为4485149)在Proton二代高通量测序仪上进行高通量测序，操作方法按该试剂盒的操作手册进行。在本实施例中，高通量测序通量设置为平均覆盖测试区域10000倍。

对高通量测序结果进行预处理

首先判断高通量测序的数据质量是否≥Q20，若<Q20(此情况极少)，则按上述方法重新进行高通量测序，直到质量要求达到Q20标准，Q20标准满足了表2中“测序错误为特定碱基的概率”≤0.33％的要求。将达到质量要求的高通量测序片段比对到所有2506个测试区域，去掉比对不成功和基因型检测不全的测序片段后，剩余的所有测序片段称为测序片段组。基因型检测不完全的测序片段是指没能将表1中“SNP在参考基因组上的位置”所示的该测序片段所在的测序区域中的所有SNP位点检测到，基因型检测不全的原因是测序片段过短，比对不成功的原因是测序片段多为非特异扩增产物。

八、分析测序片段组，获得待测玉米品种基因型和杂株基因型，方法如下：

将测序片段组比对到所有测试区域，并统计每个测试区域中的测序片段数，去掉测序片段数≤1000条的测试区域，剩余的测试区域为检测成功的测试区域。在本实施例中，共获得2465个检测成功的测试区域。比对到测试区域的片段称为该测试区域的测序片段，从测序片段中提取表1中“SNP在参考基因组上的位置”所示的位置的碱基组合称为该测序片段的基因型。基因型的频率是指测序片段组中，代表该基因型的测序片段数占该基因型所在测试区域的测序片段总数的比例。频率最大的基因型称为待测玉米品种基因型。杂株基因型指频率≥0.02％的潜在杂株基因型，其中，潜在杂株基因型与待测玉米品种的所有基因型间的差异碱基的数量≥2个或差异碱基中有非连续碱基的插入或缺失。杂株基因型定义的原理为：高通量测序中，插入或缺失错误极为罕见，而因测序错误造成2个固定差异碱基的概率低至(1％/3)2＝0.0011％，且要求杂株基因型频率≥0.02％，在这些条件限制下，即使是30000的测序深度，因测序错误产生某种杂株基因型的概率仅为0.0001％(计算方法见表2)。0.02％的频率满足目前最严格DUS测试标准，即从1万粒种子中检出的低至2粒杂种子。若差异碱基数量＝1个，则全部测试区域都会产生错误的杂株基因型(计算方法见表2)，若差异碱基数量≥3个时，杂株基因型数量急剧减少，难以准确计算杂株率R，因此，差异碱基数量≥2个的阈值是最优的。

例如，在测序片段组中，第1个测序区域的测序片段总数为9987条，有TCA、TCG、TCC、TCT……共25种基因型，代表这些基因型的测序片段数分别9612条、218条、1条、2条……，这些基因型的频率为9612/9987＝96.25％、218/9987＝2.18％、1/9987＝0.01％、2/9987＝0.02％……。按待测玉米品种基因型和杂株基因型的定义，TCA应该是待测玉米品种在第1个测试区域的待测玉米品种基因型，而TCG的频率超过0.02％，但与待测玉米品种基因型TCA比较有1个<2个碱基的差异，因此TCG不为杂株基因型，其它基因型为测序错误产生的基因型。杂株核基因型是指杂株基因型为核基因型，杂株质基因型是指杂株基因型为质基因型。按此定义，第一个测试区域的也无杂株核基因型。按相同的方法，判断并获得全部2465个检测成功的测试区域的待测玉米品种基因型、杂株基因型及其频率，并判断获得的杂株基因型是杂株核基因型还是杂株质基因型。结果表明：共获得814个杂株基因型，其中，804个为杂株核基因型，10个为杂株质基因型。

下面简单介绍一下本实施例中的标准样品检测方法，从待测玉米品种中取1粒种子，播种并长成幼苗后，利用幼苗的叶片按与待测玉米品种相同的方法提取基因组DNA，该DNA称为待测玉米品种的标准样品。与待测玉米品种同时且按相同方法平行构建标准样品的高通量测序文库并高通量测序。其中，频率最大的基因型称为标准样品基因型，标准样品杂株基因型的频率≥0.02％且与标准样品基因型间的差异碱基的数量≥2个或差异碱基中有非连续碱基的插入或缺失。按与待测玉米品种相同的方法，获得每个检测成功的测试区域中的标准样品基因型与标准样品杂株基因型。若标准样品基因型和待测玉米品种基因型相同的测试区域占标准样品与待测玉米品种均检测成功的测试区域的比例超过90％，则标准样品正确，否则，重新从待测玉米品种中取1粒种子，重复以上过程，直至获得正确的标准样品。将正确的标准样品的杂株基因型与待测待测玉米品种杂株基因型对应测试区域的杂株基因型比较，获得相同的杂株基因型，去掉待测玉米品种中相同的杂株基因型，正确的待测玉米品种杂株基因型被保留下来并用于后续分析。以上措施去掉了因系统选择性错误造成的杂株基因型，系统选择性错误主要是基因序列的特殊结构所造成的PCR选择性错误扩增。需要说明的是：当数据库品种多，能广泛代表不同品种基因型时，可以要求杂株基因型与数据库品种的某个基因型相同，同样可以起到与标准样品相同的功能，在此情况下，可以不检测标准样品，达到减轻工作量的目的。本实施例中结果为：从获得的814个杂株基因型中，共去掉了3个杂株基因型，其中3个为杂株核基因型，0个为杂株质基因型，所保留下来的811个杂株基因型用于后续分析，部分结果见表1。

九、将待测玉米品种基因型与数据库中的不同品种的基因型比较，获得近似品种、变异位点和变异位点率，方法如下：

若在测试区域中，待测玉米品种与数据库品种的基因型均无缺失，称该测试区域为待测玉米品种与该数据库品种的共有测试区域。在共有测试区域中，若待测玉米品种与数据库品种的基因型不完全相同，则称该不完全相同的基因型所在的测试区域为待测玉米品种与该数据库品种的差异位点，相应的基因型互为差异基因型，差异位点率＝差异位点的数目/共有测试区域的数目。从数据库中获得差异位率最小的品种称为待测玉米品种的近似品种，相应的差异位点称为变异位点，变异位点率＝变异位点的数目/共有测试区域的数目。

在本实施例中，待测玉米品种与数据库的第1个品种“G95”的共有测试区域数为2403个。在第1个共有测试区域中，待测玉米品种与“G95”基因型分别为TCA和TCG，二者不完全相同，因此，第1个共有测试区域为待测玉米品种与“G95”的差异位点，TCA和TCG为待测玉米品种与“G95”的差异基因型。按相同的方法，将所有共有测试区域中，待测玉米品种与“G95”基因型比较，发现共有47个差异位点，差异位点率＝47/2403＝1.96％。按相同的方法，获得待测玉米品种与数据库中所有106个品种间的差异位点率，并获得差异位点率最小的品种为“G95”，差异位点率为1.96％。因此，“G95”为待测玉米品种的近似品种，待测玉米品种的变异位点率为1.96％。

十、将杂株基因型与数据库中的不同品种的基因型比较，获得杂株品种后，计算杂株率，方法如下：

获得杂株品种：杂株品种存在于数据库中的品种，且杂株品种的潜在杂株基因型与杂株基因型间有相同基因型的测试区域的数目占杂株品种具有潜在杂株基因型的测试区域的总数的比例≥60％，其中，潜在杂株基因型与待测玉米品种的所有基因型间的差异碱基的数量≥2个或差异碱基中有非连续碱基的插入或缺失。杂株品种分为细胞核杂株品种和细胞质杂株品种，其中，细胞核杂株品种是指仅利用核基因型计算获得的杂株品种，细胞质杂株品种是指仅利用质基因型计算获得的杂株品种。例如，假设数据库中的品种的基因型分别为AA、AA、AA/TT、AA/TT、AA/TT、AA/TT和AA时，待测玉米品种相应的基因型分别为AA、AA/TT、TT、AA、TT/CC、GG/CC和-A时，相应的潜在杂株基因型为：无、无、AA、TT、AA、AA/TT和AA。一般纯系品种中不存在杂合基因型，但极少数位点可能存在，另外，杂株多为杂交种，杂合位点较常见，因此列举了各种可能情况。参数60％可以保证全部杂株品种检出概率为100％且存在误判的杂株品种的概率为0％，该参数值的确定方法见表2。

在本实施例中，第1个测试区域中，数据库中第一个品种“G95”与待测玉米品种的基因型分别为TCG和TCA，二者间只有1个碱基的差异，因此，TCG不为潜在杂株基因型，因而第1个测试区域中，“G95”也不存在与杂株基因型相同的潜在杂株基因型，按相同的方法，逐个判断所有核基因型的测试区域中，数据库中第一个品种“G95”的基因型是否为潜在杂株基因型，若为潜在杂株基因型，再判断潜在杂株基因型与杂株基因型间是否有相同基因型，结果表明，“G95”共有39个具有潜在杂株基因型的测试区域，但它们与相同测试区域的杂株基因型间有相同基因型的测试区域数为0个，其比例为0/39＝0％<60％，因此，判断“G95”不为细胞核杂株品种。按类似的方法，利用所有质基因型的测试区域，判断“G95”也不为细胞质杂株品种。按相同的方法，判断数据库中所有其它品种是否为细胞核杂株品种或细胞质杂株品种，结果表明：仅“1102”为细胞核杂株品种，没有发现细胞质杂株品种。以上结果说明：“1102”可能是通过飞花传粉而不是机械混杂，将基因型混入了待测玉米品种。

获得特异杂株基因型：特异杂株基因型是指仅为一个杂株品种所有的杂株基因型，其包括特异杂株核基因型和特异杂株质基因型；特异杂株核基因型是指仅为一个细胞核杂株品种所有的杂株核基因型，特异杂株质基因型是指仅为一个细胞质杂株品种所有的杂株质基因型。本实施例中，共获得814个杂株基因型，其中，804个为杂株核基因型，10个为杂株质基因型。第一个杂株核基因型TGT仅为细胞核杂株品种“1102”所有，所以，TGT为“1102”的特异杂株核基因型。按相同的方法，逐一判断所有获得的804个杂株基因型中，55个为“1102”所拥有的特异杂株核基因型。按类似的方法，判断10个杂株质基因型均不为特异杂株质基因型。

计算杂株率R原理，具体如下：

杂株率R＝R1+R2-R3-R4，其中：

R 1 = Σ_{i 1 = 1}^{n 1} \frac{Σ_{j 1 = Int (0.8 \times t 1) + 1}^{t 1 - Int (0.1 \times t 1)} 2 \times R 1 i 1 j 1}{t 1 - Int (0.8 \times t 1) - Int (0.1 \times t 1)},

其中，n1为细胞核杂株品种的数目，t1为第i1个细胞核杂株品种的所有特异杂株核基因型的数目，i1j1为第i1个细胞核杂株品种的所有特异杂株核基因型按其频率由低到高排序后，第j1个特异杂株核基因型，R1i1j1为第i1j1个特异杂株核基因型的频率；R1为由杂株核基因型计算的细胞核杂株品种的杂株率的总和，细胞核杂株品种的杂株率为去掉细胞核杂株品种中最低的80％和最高的10％的特异杂株核基因型的频率后，剩余的特异杂株核基因型的频率的平均值的2倍；其中，t2为除细胞核杂株品种拥有的杂株核基因型之外的且频率≥0.17％的杂株核基因型的数目，i2为除细胞核杂株品种拥有的杂株核基因型之外的所有杂株核基因型按其频率由低到高排序后，第i2个杂株核基因型，R2i2为第i2个杂株核基因型的频率；R2是利用除细胞核杂株品种拥有的杂株核基因型计算的杂株率，其为去掉除细胞核杂株品种拥有的杂株核基因型的频率中最低的80％和最高的10％的值后，剩余值的平均值的2倍；

R 3 = Σ_{i 3 = 1}^{n 2} R 3 i 3 - 2 \times R 3 ic,

其中，

R 3 i 3 = \frac{Σ_{j 3 = Int (0.8 \times t 3) + 1}^{t 3 - Int (0.1 \times t 3)} R 3 i 3 j 3}{t 3 - Int (0.8 \times t 3) - Int (0.1 \times t 3)},

n2为细胞质杂株品种的数目，R3i3为第i3个细胞质杂株品种的杂株率，R3ic为i3＝ic时R3i3的值，ic为当待测玉米品种为核质互作型不育系或保持系时，对应的保持系或不育系的细胞质杂株品种，t3为第i3个细胞质杂株品种的所有特异杂株质基因型的数目，i3j3为第i3个细胞质杂株品种的所有特异杂株质基因型按其频率由低到高排序后，第j3个特异杂株质基因型，R3i3j3为第i3j3个特异杂株质基因型的频率，R3ic指混入不育系中的保持系的杂株率或混入保持系中的不育系的杂株率；R3为由杂株质基因型计算的细胞质杂株品种的杂株率的总和，细胞质杂株品种的杂株率为去掉细胞质杂株品种中最低的80％和最高的10％的特异杂株质基因型的频率后，剩余的特异杂株质基因型的频率的平均值；其中，t4为除细胞质杂株品种拥有的杂株质基因型之外的且频率≥0.17％的杂株质基因型的数目，i4为除细胞质杂株品种拥有的杂株质基因型之外的所有杂株质基因型按其频率由低到高排序后，第i4个杂株质基因型，R4i4为第i4个杂株质基因型的频率；Int()为取整函数，返回括号中的数的整数部分；R4是利用除细胞质杂株品种拥有的杂株质基因型计算的杂株率，其为去掉除细胞质杂株品种拥有的杂株质基因型的频率中最低的80％和最高的10％的值后，剩余值的平均值；Int()为取整函数，返回括号中的数的整数部分。

待测玉米品种中的杂株来自于繁殖过程中的飞花传粉混杂和机械混杂，其中，飞花传粉混杂是杂株品种混杂的主要来源。飞花传粉混杂是指杂株品种的花粉通过风力等传到待测玉米品种并授粉形成的杂交种子，飞花传粉不可能引入细胞质，因此只会造成杂株核基因型，其杂株率为杂株核基因型频率的2倍。机械混杂是指杂株品种种子直接混入待测玉米品种中，同时引入了细胞核与细胞质，同时形成杂株核基因型和杂株质基因型，其杂株率应该为杂株质基因型的频率。在杂株率R的计算公式中，R1+R2将机械混杂的杂株率高估了1倍，需校正，校正后的R＝R1+R2-R3-R4。区分机械混杂与飞花传粉混杂是一个技术难题，本发明解决了这一难题。

在杂株率R的计算公式中，细胞核杂株品种的杂株率都是2×杂株核基因型频率，其理由如下：二倍体或异源多倍体玉米在细胞核基因组的测试区域是2个拷贝，因此，杂株率是相应杂株核基因型频率的2倍。若一定要选择有N份拷贝的细胞核基因组的测试区域，则系数应调整为N，若拷贝数不明确，作N＝2处理，若有误，将会在计算R时，通过去掉80％的低极端值的方式将它们排除。

在杂株率R的计算公式中，仅利用了杂株基因型频率值处于中间的10％的进行计算，其原理为：同一杂株品种的不同杂株基因型由该杂株品种的杂株率决定，所以频率的期望值是相等的，为频率间的差异由PCR扩增、高通量测序过程中的误差引起。通过杂株基因型的定义与待测玉米品种标准样品，已基本将这些错误值去掉了，去掉10％的极端值足以去掉极少量偏离真实杂株率的测试区域。之所以去掉最小的80％，而最大的则只去除10％，原理如下：(1)最大误差来源为测序错误，而测序错误产生的杂株基因型频率很低；(2)在除杂株品种之外的杂株基因型的频率中，高值更可能为不同杂株的共同杂株基因型，代表着真实的杂株率。

当待测玉米品种为核质互作型不育系时，若其中混有该不育系对应的保持系杂株品种，那么，由于该保持系杂株品种的细胞质与待测玉米品种不一样，将被检测为细胞质杂株品种，但由于不育系与保持系的细胞核完全一样，将不会被检测为细胞核杂株品种，因此，R3ic的值在R1+R2中没有被计算到，但在R3i3中被计算到了，因此，需要在R3中减去2×R3ic进行效正。同样的道理，当待测玉米品种为核质互作型保持系时，也需要在R3中减去对应的不育系杂株品种的2×R3ic进行效正。显然，当待测玉米品种既不为核质互作型不育系也不为核质互作型保持系时，R3ic＝0。

在R2与R4的计算公式中，要求杂株基因型的频率≥0.17％，其原理如下：当数据库中的品种数与检测位点均达到10000个时，平均将产生149次杂株基因型误判，当设置杂株基因型频率≥0.17％时，无误判的杂株基因型的概率≥99.98％(推算方法见表2)，才可准确计算到R2与R4的值。数据库中的品种数与检测位点均达到10000个已是现实中的极限，因此，杂株基因型的频率≥0.17％的阈值可以适用于各种情况。R2与R4的引入，使得本发明能够在数据库品种为0，即没有数据库支持的情况下，计算杂株率R。

特别地，若杂株品种A的所有杂株基因型为杂株品种B和其它杂株品种所拥有，因而，杂株品种A无特异杂株基因型。此时，在计算杂株率R时，不计算杂株品种A与杂株品种B的杂株率，而计算杂株品种AB的杂株率。杂株品种AB的杂株基因型定义为：杂株品种A与杂株品种B所共有杂株基因型。

杂株率R的计算公式为通用公式，在现实中待测玉米品种一般只混杂1种杂株品种。

计算杂株率R的假定实例

表3假定了一个杂株率计算实例，以便更清楚说明杂株率R的计算过程。

表3为计算杂株率R的一个假定实例

表3中，细胞核杂株品种共A和B两个，所以n1＝2，细胞质杂株品种数仅C一个，所以n2＝1。按特异杂株核基因型的定义，获得杂株品种A的特异杂株核基因型为编号为1-10号的杂株核基因型AA、TT、TCC、GG、AC、TTC、TCCC、GGC、ACC和AG，所以，t1＝10，它们的频率分别为0.10％、1.20％、0.10％、0.10％、0.02％、0.10％、0.10％、0.10％、0.10％和0.10％，对这10个特异杂株核基因型频率由低到高排序后，为R11111＝0.02％、R11121＝0.02％、R11131＝0.10％、R11141＝0.10％、R11151＝0.10％、R11161＝0.10％、R11171＝0.10％、R11181＝0.10％、R11191＝0.10％和R111101＝1.20％。从j1＝Int(0.8×t1)+1＝Int(0.8×10)+1＝9到j1＝t1-Int(0.1×t1)＝10-Int(0.1×10)+1＝9的R111j1的值为R11191＝0.10％，所以细胞核杂株品种A的杂株率为按同样的方法，获得细胞核杂株品种B的杂株率为由此，获得细胞核杂株品种R1i1＝R111+R121＝0.60％。按类似的方法，获得R2＝0.02％，细胞质杂株品种的杂株率R4＝0.04％。因此，该假定实例中杂株率R＝R1+R2-R3-R4＝0.60％+0.02％-0.10％-0.04％＝0.48％。

参照上述假定实例，计算本实施例中的杂株率R：在本实施例中，杂株品种仅为“1102”且为细胞核杂株品种，R2、R3与R4均为0，因而，R＝R1＝R111。“1102”共有55个特异杂株核基因型，频率为：2.23％、2.14％、2.30％......(部分实例见表1)，按R的计算规则，去除最小的80％(44个)和最小的10％(5个)的频率值后，剩余的6个频率的平均值即为杂株率R＝2.20％。

十一、利用变异位点、变异位点率和杂株率，判断待测玉米品种的特异性、一致性和稳定性，方法如下：

其中，SD为判断特异性时所选用的阈值，M为判断一致性和稳定性时所选用的阈值。判断待测玉米品种特异性、一致性和稳定性的方法为：当变异位点率≥SD或非通用测试区域存在变异位点时，待测玉米品种具有特异性，当变异位点率＜SD且变异位点不存在于非通用测试区域中时，待测玉米品种不具有特异性；当待测玉米品种的杂株率≤M时，待测玉米品种具有一致性和稳定性，当待测玉米品种的杂株率大于＞M时，待测玉米品种不具有一致性和稳定性。与M值一样，SD值是根据育种水平、要求的严格程度，标记特性等诸多因素，人为确定的。在本实施例中，SD选用1％的标准。

在本实施例中，变异位点率为1.96％>SD＝1％，因此，判断待测玉米品种具有特异性；待测玉米品种的杂株率2.20％≤M＝3％，因此，判断待测玉米品种具有一致性和稳定性。

进一步地，在判断待测玉米品种特异性、一致性与稳定性后，对判断的正确率进行估计，方法如下：

本发明中的纯系玉米新品种是指以纯系基因型为目标而选育的常规种、自交系、恢复系、保持系、不育系等类型。

特异性正确率计算：当非通用测试区域不存在变异位点时，若判断待测玉米品种具有特异性，结论正确的概率≥BINOM.DIST((1-SD)*TRN,TRN,1-OD,TRUE)；若判断待测玉米品种不具有特异性，结论正确的概率≥BINOM.DIST(SD*TRN,TRN,OD,TRUE)，其中，TRN为成功检测的测试区域的数目，OD为变异位点率,BINOM.DIST为excel 2010中的函数，其使用方法与excel 2010中的定义相同，其返回的是二项式分布的概率。上述概率实际上计算的是：当判断具有特异性时，变异位点率大于SD的概率；当判断不具有特异性时，变异位点率小于SD的概率，检测成功的测试区域通过分析测序片段组后获得。

本实施例中，采用变异位点率来判断待测玉米品种的具有特异性，因此，特异性结论正确的概率≥BINOM.DIST((1-1％)*2465,2465,1-1.96％,TRUE)＝99.99％，可见本实施例对特异性判定结论的正确率是很高的。

一致性与稳定性正确率计算

判定待测玉米品种的一致性和稳定性的结论正确的概率为：当待测玉米品种具有一致性和稳定性时，结论正确的概率≥BINOM.DIST(M*SN,SN,R,TRUE)*BINOM.DIST(∑SeN*M,∑SeN,R,TRUE)；当待测玉米品种不具有一致性和稳定性时，结论正确的概率≥BINOM.DIST((1-M)*SN,SN,(1-R),TRUE)*BINOM.DIST(∑SeN*(1-M),∑SeN,1-R,TRUE)，其中，∑SeN为所有用于计算杂株率R的基因型频率所在测试区域的测序片段的总和，也即去掉80％的最小值和10％的最大值后，保留下来用于计算杂株率的测试区域的测试片段的总和，M为判断一致性和稳定性时所选用的阈值，BINOM.DIST(M*SN,SN,R,TRUE)为待测玉米品种进行了SN次抽样，实际抽得的杂株率R小于阈值M的概率，BINOM.DIST(∑SeN*M,∑SeN,R,TRUE)的意义为：对待测玉米品种进行了∑SeN次抽样，实际抽得的杂株率R小于阈值M的概率。判断一致性与稳定性的正确率完全取决于杂株率的正确率，而杂株率的正率确取决于以下三个步骤的正确率：第一，待测玉米品种抽样正确率，第二，从抽出样本中检出杂株品种的正确率，第三，利用检出的杂株品种计算杂株率的正确率。因此，判断待测玉米品种一致性与稳定性的正确率是以上三步正确率的积。由于本发明即使是在最严格的条件下，检出杂株品种的正确率也控制99.9％以上，实际上绝大部分是接近100％的。例如，在本实施例中，全部杂株品种检出概率在100.0000％以上，存在误判的杂株品种的概率在0.0000％以下(具体计算方法见表2)。因此，判断待测玉米品种一致性与稳定性的正确率可估算为第一步和第三步的正确率的积，其分别为上述公式中前后两个函数所计算的值。例如，BINOM.DIST(M*SN,SN,R,TRUE)的意义为：待测玉米品种进行了SN次抽样，实际抽得的杂株率R小于阈值M的概率；用于计算待测玉米品种杂株率的每一个测序片段，实质上也相当对待测玉米品种进行了一次抽样，因此，BINOM.DIST(∑SeN*M,∑SeN,R,TRUE)的意义为：对待测玉米品种进行了∑SeN次抽样，实际抽得的杂株率R小于阈值M的概率。

本实施例中，去掉最小的80％和最大10％的杂株基因型频率后，共有6个杂株基因型频率被用于计算杂株率R，它们对应的测试区域的测序片段总数为59394条，所以∑SeN＝59394，也即相当于对抽得的4000个样本再进行了59394次抽样，如此大的抽样量的误差是相当小的。本实施例中，判定待测玉米品种具有一致性和稳定性，因此，该判定结论正确的概率≥BINOM.DIST(M*SN,SN,R,TRUE)*BINOM.DIST(∑SeN*M,∑SeN,R,TRUE)＝BINOM.DIST(3％*4000,4000,2.20％,TRUE)*BINOM.DIST(59394*3％,59394,2.20％,TRUE)＝99.95％。可见，本实施对待测玉米品种的一致性与稳定性的判定也是很准确的。

结果验证

按《植物新品种特异性、一致性和稳定性测试指南-玉米》中的方法种植并观察待测玉米品种及其近似品种“G95”，发现待测玉米品种在叶色等多个性状上与近似品种存在明显差异。《植物新品种特异性、一致性和稳定性测试指南-玉米》中规定：至少在一个性状上与近似品种具有明显且可重现的差异时，即可判定申请的待测玉米品种具备特异性。因此，判定待测玉米品种具有特异性。在实验过程中，共种植了40株待测玉米品种与近似品种(20株一个小区，共2个重复)，发现2株异形株，《植物新品种特异性、一致性和稳定性测试指南-玉米》中规定：当样本大小为40株时，最多可以允许有3个异型株，由此判定待测玉米品种具有一致性。《植物新品种特异性、一致性和稳定性测试指南-玉米》中规定：如果一个品种具备一致性，则可认为该品种具备稳定性。由此判定，待测玉米品种也具有稳定性。通过以上实验表明：本实施例中对待测玉米品种的特异性、稳定性与一致性的判定是正确的。

本发明实施例通过高通量测序和多位点扩增，实现了待测玉米品种的大样本抽样与种间个体测试区域的大样本抽样，再利用定义杂株基因型、定义细胞质杂株品种和定义杂株率计算公式等综合手段，成功地实现了准确、快速、完整地判断待测玉米品种的特异性、稳定性与一致性的目标，其技术效果是已有DUS测试方法都达不到的。现有分子DUS检测技术如芯片只检测固定测试区域，不能根据个案，灵活选择非通用测试区域。而本发明检测的是PCR产物，可以很方便地根据个案灵活设计引物，检测非通用测试区域。此外，本发明实施例针对4000个个体的抽样量对于传统的DUS测试技术来说，工作大，无法完成，例如，田间DUS测试中，抽样4000株玉米需要种植2亩以上的玉米，且需种植2年，且每年每株玉米需调查70多个性状。在广泛采用的SSR分子DUS测试中，需要分别做4000次DNA提取，4000*2506次PCR和4000*2506次PCR产物检测(假设与本实施例一样，检测了2506个通用测试区域)。因此，由于工作量过大，已有分子DUS测试都没测试稳定性与一致性，田间DUS测试虽然检测一致性和稳定性，但抽样样本量都在1000株以下，而本实施例抽样了4000株玉米，其准确性显然更高。本实施例之所以可以加大抽样量，是因为所有4000个样本都混合后作为一个样本处理，与田间DUS测试比较，工作量相当于缩减为1/4000；进一步地，所有2506个通用测试区域都只做一次混合扩增和一次高通量测序检测，与SSR分子DUS测试比较，工作量相当于缩减为1/(4000*2506)。因此，本发明在工作量显著减轻的情况下，实现了大样本和多位点检测，使DUS测试不但准确而且简单。同时本发明实施例中数据库品种基因型为碱基组成，十分标准，在不同实验条件下按本发明的方法检测相同品种，可得到完全相同的基因型，因而，不需要在不同的条件下重复DUS测试，因此，本发明实施例可直接与数据库品种基因型比较，客观地选择待测玉米品种的近似品种。而已有的DUS测试技术不够标准，需要同时平行地对待测玉米品种与近似品种进行DUS测试，才能得到可靠的结论，为了减轻工作量，不得不由由品种权申请者提供近似品种，若近似品种错误，则可能产生错误授权的法律后果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种测试纯系玉米新品种的特异性、一致性与稳定性的方法，其特征在于，所述方法包括：

获得不同玉米品种间的变异位点；

对所述高通量测序文库进行高通量测序，得到测序片段组；

2.根据权利要求1所述的方法，其特征在于，所述抽样量SN满足如下条件：BINOM.INV(SN,M,0.95)/SN≤1.15*M，其中BINOM.INV为excel 2010中的函数，M为判断所述一致性和稳定性时所选用的阈值，所述抽样量SN满足的条件含义为：即使所述杂株率只超出阈值M的15％，所述抽样量在95％的概率保证下，可正确判断所述待测玉米品种的稳定性与一致性。

3.根据权利要求1所述的方法，其特征在于，所述高通量测序的深度CF满足如下条件：BINOM.DIST(10,10,BINOM.DIST(8,20,BINOM.DIST(0,CF,0.1％,TRUE),TRUE),FALSE)≥99.9％，1-BINOM.DIST(10000,10000,1-BINOM.DIST(8,20,1-BINOM.DIST(99.99％*CF,CF,99.9989％,TRUE),TRUE),FALSE)≤0.1％且BINOM.DIST(10*(1-M)*CF,10*CF,1-110％*M,TRUE)≥95.0％，其中，CF为所述高通量测序的深度，M为判断所述一致性和稳定性时所选用的阈值，BINOM.DIST为excel 2010中的函数，所述高通量测序的深度CF满足的条件含义为：在所述杂株率低至0.1％、所述杂株品种为10个且所述杂株品种与所述待测玉米品种间平均仅有20个差异位点的条件下，由所述高通量测序的深度CF决定的检出全部所述杂株品种的概率≥99.9％；在所述数据库的品种为10000个且所述杂株品种与所述待测玉米品种间平均仅有20个差异位点的条件下，由所述高通量测序的深度CF决定的存在误判所述杂株品种的概率≤0.1％；在所述杂株品种为10个且真实杂株率仅超过判断特异性时所选用的阈值的10％时，由所述高通量测序的深度CF决定的对稳定性与一致性的判定结论正确的概率≥95.0％。

4.根据权利要求1所述的方法，其特征在于，所述测试区域还包括非通用测试区域，所述引物还包括非通用测试区域引物。

5.根据权利要求4所述的方法，其特征在于，所述非通用测试区域引物包括第一引物和第二引物，所述第一引物包括第一正向引物和第一反向引物，所述第二引物包括第二正向引物和第二反向引物，所述第一引物和所述第二引物分别进行单独扩增得到两个所述非通用测试区域的扩增产物，将两个所述非通用测试区域的扩增产物等量混合用于构建单独扩增的高通量测序文库；

6.根据权利要求4所述的方法，其特征在于，利用所述变异位点、所述变异位点率和所述杂株率，判断所述待测玉米品种特异性、一致性和稳定性的方法包括：

所述杂株率R＝R1+R2-R3-R4，其中：

R 3 = Σ_{i 3 = 1}^{n 2} R 3 i 3 - 2 \times R 3 ic,

其中，

R 3 i 3 = \frac{Σ_{j 3 = Int (0.8 \times t 3) + 1}^{t 3 - Int (0.1 \times t 3)} R 3 i 3 j 3}{t - Int (0.8 \times t 3) - Int (0.1 \times t 3)},

IntO为取整函数；

所述细胞核杂株品种是指仅利用核基因型计算获得的所述杂株品种，所述细胞质杂株品种是指仅利用质基因型计算获得的所述杂株品种；所述特异杂株核基因型是指仅为一个所述细胞核杂株品种所有的所述杂株核基因型；所述特异杂株质基因型是指仅为一个所述细胞质杂株品种所有的所述杂株质基因型；所述杂株核基因型是指所述杂株基因型为所述核基因型，所述核基因型指所述基因型位于细胞核基因组上；所述杂株质基因型是指所述杂株基因型为所述质基因型，所述质基因型是指所述基因型位于细胞质基因组上。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括采用以下方式判定所述待测玉米品种的一致性和稳定性的结论正确的概率：当所述待测玉米品种具有一致性和稳定性时，结论正确的概率≥BINOM.DIST(M*SN,SN,R,TRUE)*BINOM.DIST(ΣSeN*M,ΣSeN,R,TRUE)；当所述待测玉米品种不具有所述一致性和稳定性时，结论正确的概率≥BINOM.DIST((1-M)*SN,SN,(1-R),TRUE)*BINOM.DIST(ΣSeN*(1-M),ΣSeN,1-R,TRUE)；其中，ΣSeN为所有用于计算所述杂株率R的所述基因型的频率所在所述测试区域的测序片段的总和，M为判断所述一致性和稳定性时所选用的阈值，BINOM.DIST(M*SN,SN,R,TRUE)为所述待测玉米品种进行了SN次抽样，实际抽得的所述杂株率R小于所述阈值M的概率，BINOM.DIST(ΣSeN*M,ΣSeN,R,TRUE)的意义为：对所述待测玉米品种进行了ΣSeN次抽样，实际抽得的杂株率R小于阈值M的概率。

8.根据权利要求6所述的方法，其特征在于，当所述非通用测试区域不存在所述变异位点时，若判断所述待测玉米品种具有特异性，结论正确的概率≥BINOM.DIST((1-SD)*TRN,TRN,1-OD,TRUE)；若判断所述待测玉米品种不具有特异性，结论正确的概率≥BINOM.DIST(SD*TRN,TRN,OD,TRUE)，其中，TRN为检测成功的测试区域的数目，OD为所述变异位点率，BINOM.DIST为excel 2010中的函数，所述结论正确的概率表示为当判断所述待测玉米品种具有特异性时，所述变异位点率大于SD的概率，当判断所述待测玉米品种不具有特异性时，所述变异位点率小于SD的概率，所述检测成功的测试区域通过分析所述测序片段组后获得。

9.根据权利要求1所述的方法，其特征在于，获得所述杂株品种的方法包括：所述杂株品种为存在于所述数据库中的品种，且所述杂株品种的潜在杂株基因型与所述杂株基因型间有相同基因型的所述测试区域的数目占所述杂株品种具有所述潜在杂株基因型的所述测试区域的总数的比例≥60％；所述杂株基因型指频率≥0.02％的所述潜在杂株基因型；

10.根据权利要求1所述的方法，其特征在于，通过所述变异位点确定所述通用测试区域的方法为：