CN113130005A

CN113130005A - 一种基于m2群体的候选因果突变位点基因定位的方法

Info

Publication number: CN113130005A
Application number: CN202110390717.1A
Authority: CN
Inventors: 冯献忠; 周煌凯; 杨素欣; 于慧; 唐宽强; 李广
Original assignee: Northeast Institute of Geography and Agroecology of CAS
Current assignee: Northeast Institute of Geography and Agroecology of CAS
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-16
Anticipated expiration: 2041-04-12
Also published as: CN113130005B

Abstract

本发明属于生物信息学及生物技术领域，具体涉及一种基于M2群体的候选因果突变位点基因定位的方法。本发明提供的方法通过仅研究M2代来加快候选因果突变位点的定位，在M2‑seq中，在不知道突变植株的野生型变异信息的情况下，通过M2群体之间的相互比较，背景变异可以被有效地去除。此外，使用ΔSNP index的绝对值可以有效去除相邻突变等位基因的排斥连锁引起的信号干扰，从而有助于鉴定靶基因中的因果突变。

Description

一种基于M2群体的候选因果突变位点基因定位的方法

技术领域

本发明属于生物信息学及生物技术领域，具体涉及一种基于M2群体的候选因果突变位点基因定位的方法。

背景技术

随着下一代测序技术的发展和全基因组测序(Whole genome sequencing,WGS)成本的不断下降，基于WGS的BSA已经成为候选基因快速定位的常规工具。目前，已开发了各种基于WGS的BSA方法来实现主效QTL的定位，然而在此类基于WGS的BSA方法中，由于亲本之间分离位点数量巨大，在候选区域内还能检测到大量变异。为了最终确定关键的因果突变(这里的因果突变特指会导致目标表型的来自诱变剂诱导的功能性突变)，需要一个大的分离群体进行精细定位。

为了避免依赖耗时的精细作图，基于突变体分离群体的定位是一种有效的替代策略。在基于突变分离体的策略中，仅需要有限数量的突变体，而不是精细作图中的数千个分离个体，就可以实现基因定位。Mutmap是此类策略的代表性方法，主要用于绘制化学诱变剂甲磺酸乙酯(EMS)诱导的点突变。由于EMS诱变可在整个基因组中产生数千个随机突变，因此EMS诱导的突变可用作BSA作图的标记。突变株与野生型株之间的突变密度通常很小，不超过5–10个突变/Mb，其中只有有限数量的突变被定位到目标基因组区域。因此，使用基于WGS的BSA方法直接确定因果突变是非常有效的。然而，在将突变体与野生型系杂交之前，突变体通常会自交几代，以确保性状是受隐性突变控制，并保证材料是具有纯合突变的突变体。Mutmap方法有三个潜在的局限性。首先，并非所有突变体都适合于自交以获得纯合子后代。例如，一些隐性突变可能导致早期发育致死或不育，因此它们只能维持在杂合状态。第二，在与野生型系杂交之前，需要突变体的至少两代自交。第三，它需要突变体与野生型系杂交以产生分离群体，这是费时费力的工作。因此，Mutmap是一种非常耗时的方法，尤其是在世代时间较长的物种中用途有限。第一个和第三个缺点已由Mutmap+解决，在该方法中，在杂合条件下携带早期发育致死性隐性突变的M2植物可以自交以产生M3群体。在性状分离的亚M3群体，通过应用BSA策略来定位因果突变。尽管如此，第二个缺点在Mutmap+中还没有完全解决，它还需要至少两代的自交来培养M3一代。

发明内容

针对现有技术普遍存在的缺陷，本发明提供了一种基于M2群体的候选因果突变位点基因定位的方法。采用本发明提供的方法，可以加速基因克隆，尤其是在世代间隔长的植物物种中。

为了达到上述目的，本发明采用的技术方案为：

一种基于M2群体的候选因果突变位点基因定位的方法，包括如下步骤：

S1、通过EMS处理目标植物的未成熟胚，获得M1代植物，M1代自花授粉获得M2群体，从中筛选出隐性突变M2群体；

S2、从步骤S1筛选出的隐性突变M2群体中，分别收集同等数量的突变株、野生植株的叶片，各提取全基因组DNA，并将提取的DNA等量混合，混合成突变基因池及野生基因池；

S3、将步骤S2混合成的突变基因池与野生基因池进行测序，获得原始测序数据；

S4、对步骤S3获得的原始测序数据分别进行过滤获取高质量clean reads，reads比对和变异检测，并通过变异过滤及滑动窗口分析，获得候选因果突变区域；

S5、在步骤S4获得的候选因果突变区域经因果突变位点筛选，获得相应因果突变位点以及相关基因。

优选地，步骤S1所述的去掉背景变异通过M2群体之间的相互比较去除。

优选地，步骤S4所述的reads过滤获取高质量clean reads具体过程如下：

(1)移除具有≥10％的未识别核苷酸的reads；

(2)删除>50％碱基的Phred质量分数≤20的reads；

(3)移除包含接头的reads。

优选地，步骤S4所述的变异过滤包括如下过程：

(1)保留每个M2群体特异性变异体，并清除在两个或多个M2群体中同时存在的背景变异体；

(2)去除同一个M2群体的两个DNA池中的SNP-index>0.7的单核苷酸多态性和短插入缺失；

(3)去除同一个M2群体的两个DNA池中SNP-index<0.3的SNPs和Indels，同时，突变池中SNP-index＝0的任何变异也在被去除。

优选地，步骤(2)及步骤(3)中的SNP-index的计算方法为对于每个变异位点，计算非参考的reads数与变异位点基因座的总reads数的比值。

优选地，步骤S4所述的滑动窗口分析的具体过程包括：在每个群体的两个池中，计算各个变异位点的SNP-index之间的差异以及相应绝对值，绘制拟合曲线，根据每个群体中绘图SNP的密度，选择适合该曲线的最佳连续SNP数，每个窗口的X轴值设置在第一个和最后一个SNP之间的中点，确定携带候选因果突变的基因组区域。

优选地，所述绘制拟合曲线通过对10个、20个或40个连续SNP在滑动窗口中的值取平均值获得的。

优选地，步骤S5所述的相应突变位点筛选包括变异对基因编码的蛋白氨基酸序列影响分析、变异频率分析和变异相关基因的功能解析；用于评估变异是否改变基因编码的蛋白序列、变异频率是否符合标准和候选突变相关基因的功能是否与表型相关，最终筛选确认因果突变。

在本发明中，开发了一种M2-seq的改良的基于WGS的BSA方法，该方法不需要M2自交来获得Mutmap+中的M3代。在该方法中，鉴定并混合M2代中具有突变表型的个体，以获得突变体DNA池，同样使用野生型M2子代混合创建野生型个体DNA池，达到基于M2群体的稳健快速候选基因定位的目的。

与现有技术相比，本发明提供的方法具有如下优点：

(1)通过仅研究M2代来加快候选因果突变位点的定位，它是一种快速有效的突变基因定位工具，可以节省基于基因克隆所需的时间，与现有技术中需要研究M3或高级自交世代的方法(例如Mutmap和Mutmap+)相比，更具有优势，特别适用于世代间隔时间更长的物种的基因克隆；

(2)在M2-seq中，在不知道突变植株的野生型变异信息的情况下，通过M2群体之间的相互比较，可以有效地去除背景变异；

(3)使用ΔSNP index的绝对值可以有效去除相邻突变等位基因的排斥连锁引起的干扰，从而有助于定位因果突变。

附图说明

图1为M2-seq的原理和分析过程示意图；

图2为10个群体间的遗传变异模式图；

图3为五个M2群体的M2-seq作图结果；

图4为Mut01群体M2中SNP-index差值绝对值(ADSI)在全基因组水平的分布及8号染色体因果突变所在的区域分析结果；

图5为Mut01突变体的表型特征及因果突变所在的基于Glyma08G193200基因位点。

具体实施方式

下面结合具体实施例对本发明作进一步解释，但是应当注意的是，以下实施例仅用以解释本发明，而不能用来限制本发明，所有与本发明相同或相近的技术方案均在本发明的保护范围之内。本实施例中未注明具体技术或条件者，按照本领域常规技术方法和仪器说明书内容进行操作；所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例

下面以大豆作为植物材料进行试验。

图1说明了M2-seq的原理。图1A变异过滤过程概述。本发明在每个M2群体，分别构建了两个DNA池(野生型池和突变型池)，分别来自具有野生型和突变表型的15个个体的DNA等量混合。对每个DNA池进行了高深度(>30X)的全基因组测序。M2-seq由两个关键过程组成:(i)去除干扰性变异；(ii)定位携带因果突变的基因组区域。

为了清除代表突变体野生型祖代与参考基因组序列之间遗传多态性或测序/比对错误产生的假阳性变异，本发明用多个M2群体的数据设计了一个变异过滤过程，如下所示(图1A)。在第1步中，保留每个M2群体特异性变异体，并清除在两个或多个M2群体中同时存在的背景变异体。在第2步中，去除了同一个M2群体的两个DNA池中的SNP-index>0.7的单核苷酸多态性(SNPs)和短插入缺失(Indels)。此类变异属于某个M2群体特异性的背景变异。在步骤3中，去除了同一个M2群体的两个DNA池中SNP-inde<0.3的SNPs和Indels。此类变异一般是由测序或比对错误产生的假阳性变异。在突变池中，SNP-index＝0的任何变异也会在该步骤中被去除，因为它们可能不是和因果突变来自相同的细胞，而是来自嵌合突中其他独立的诱变细胞。在上述步骤中过滤掉所有不需要的干扰性变异后，保留了剩下的变异(SNPs和Indels)用于定位候选因果突变。

本发明采用的用于定位包含因果突变的基因组区域的生物信息学方法不同于Mutmap方法中使用的方法。然而，该方法类似于用于拟测交群体的BSA方法。在Mutmap方法中，突变体与野生型亲本杂交之前，突变体亲本中大多数诱变剂诱导的突变通过几代自交被固定(纯合)。接近因果突变的delt SNP-index(DSI)的分离方向是一致的。因此，DSI的拟合曲线有助于对定位包含因果突变的基因组区域。但EMS诱导的突变在M1基因组中独立产生，可能导致诱变剂诱导因果突变和附近的其他突变位于不同的同源染色体，导致连锁不一致的现象。在图1B所示的M2-seq示意图中，诱变剂诱导的突变在M1是杂合的，突变位点可以位于两条同源染色体的任一条上。因此，对因果突变B位点的的选择将导致附近与之连锁的突变位点的SNP-index不同。例如，在突变体池中，位于B位点旁边的D位点突变等位，与B位点因果突变等位处于同一条染色体而一起被选择。因此，D位点的SNP-Index可能与B位点相同或者相近(图1B)。位于另一条同源染色体上的突变位点A和C突变等位，则与B位点突变等位处于排斥性连锁状态。因此，B位点因果突变等位的选择将导致野生型等位在A和C位点的基因座处富集。因此，在突变体池，位点A和C的SNP-inde将为0或接近0。类似的，在具有野生型表型的野生型池中，在B位点和D位点将会观察到野生型等位基因频率占有优势，而在A位点和C位点将观察到突变等位基因性占有优势。在上述例子中，尽管因果突变位点B的DSI是正值的，但其附近与之连锁的位点的DSI可以是正值(如基因座D)，或者与位点B处于排斥性连锁状态，则对应突变位点的DSI可以是负值(例如，位点A和C)。对于大多数BSA方法，需要计算基因组各个bin(bin就是给定长度的基因组区域)内连续的突变的DSI平均值，并将其拟合到一条曲线上，以减少单个变异体的DSI随机波动的影响，并将曲线的峰值确定为携带因果突变的候选区域。那么，在M2群体中，即使位于因果突变相关的基因组区域，由于该区间内存在相反的DSI，因此区域的DSI的预期平均值也应收敛至0。因此，在M2-seq中，本发明用DSI的绝对值(ADSI)绘制图用于确定候选区域。

1.植物材料的获得：

在突变体中，发生嵌合体是一种普遍现象，这种嵌合体的产生是由于经过诱变剂处理后，植株是从胚的不同突变基因型的细胞发育而成。通过研究M2世代中野生型与突变个体的分离比率，可以预测产生M1植物种子所涉及的初始诱变细胞的数量。如果没有配子选择或胚胎致死性，M2群体中野生型与突变型的预期比例应等于(4k-1):1，k为初始诱变细胞数(斯潘塞-洛佩斯等人，2018).例如，如果发育为M1的种子来自单个初始细胞，那么M2代野生型与突变体的比例预计为3∶1；对于从两个初始细胞发育而来的的M1个体，其下一代M2子代的分离比为7∶1，本发明在每个M2群体，分别构建了两个DNA池(野生型池和突变型池)，分别来自具有野生型和突变表型的15个个体的DNA等量混合。

以EMS诱变的‘IGA 1008’大豆突变体作为研究材料。M1 EMS突变体自花授粉获得M2代突变体共2200株，为了借助M2-seq应用鉴定候选突变体，计算了每个M2群体中野生型和突变后代的数量。采用卡方检验M2野生型与突变型个体的比例，偏离3:1，为标准隐性突变。在每个M2群体中，以相等的比例收集15个具有野生型或突变型表型的后代的叶片，并用于提取全基因组DNA。

共筛选出10个呈现可见形态突变体的独立M2群体用于本研究。各个M2群体规模在85至267之间(表1)。野生型:突变型比值在2.81:1至10.61:1之间。其中，7个群体显示突变的分离比为3:1(p>0.05)，符合单个初始细胞模型。Mut06和Mut10两个群体的分离比接近7:1比例(p>0.05)，符合两个初始细胞的模型。群体Mut09符合11:1的分离比例(p>0.05)，符合三个初始细胞的模型。

表1 10个M2群体的表型比

2.植物全基因组DNA的提取

使用植物基因组DNA试剂盒(天根)从每个叶片样本中提取基因组DNA，用于测序，使用TruSeq DNA样品制备试剂盒(Illumina Inc.圣地亚哥，加利福尼亚，美国)，并使用Illumina HiSeqX仪器进行测序，以获得150bp的双端读数。序列可从NCBI数据库获得，SRA编号为SRP191330。

在10个M2群体中，分别从野生型或突变个体中采集的叶片提取DNA混合，从而每个群体构建一个野生型DNA池和突变型DNA池，对每个DNA池进行全基因组重测序，测序深度>30X。

3.过滤获取高质量clean reads，reads比对和变异检测：

根据四个严格的过滤标准处理原始测序数据，以获得高质量的clean reads:1)移除具有≥10％的未识别核苷酸(N)的reads；2)删除>50％碱基的Phred质量分数≤20的reads；3)移除包含接头的reads。

为了鉴定SNPs和Indels，使用Burrows-Wheeler Aligner(BWA，v0.7.16a)对照大豆参考基因组(Wm82.a2.v1)将每个样本的clean reads按照参数“mem 4-k 32-M”进行比对，其中-k是最小reads长度。使用GATK(v3.8)Unified Genotyper程序对所有样本进行了突变检测。使用GATK Variant filtering(GATK Variant filtering)用适当的参数(-Window 4，-filter"QD<4.0||FS>60.0||MQ<40.0"、-G_filter"GQ<20")对SNPs和Indels进行过滤。使用软件工具ANNOVAR注释SNPs或indels。随后，使用PHYLIP软件(版本3.69)，通过邻近连接法使用SNPs构建系统发育树，主成分分析采用GCTA软件。

经过变体检测和质量控制后，在10对混合池中共鉴定出340,546个突变，包括294,181个SNPs和46,365个短Indels。利用所有20个池中检测到的SNPs构建了系统发育树。系统发育树显示，来自同M2群体的的混合池紧密聚集。参考基因组对应的Williams 82栽培品种在树中形成单独的集群。

在检测到的340,546个突变中，29.2％为singletons(仅在1个M2群体中观察到的变异体)，41.5％为共有变异(在所有10个M2群体中均观察到的变异)，其余29.3％由在2至9个M2群体中检测到的变异组成(图2A)。本实施例应用了更严格的深度过滤标准(在来源1个M2群体的2个混合池中深度均≥6)，定义为该群体的高质量突变。在每个M2群体检测到的变异数为239,419±20,472。

4.变异过滤和滑动窗口分析

为了确保SNP-index的准确性，保留了每个M2群体中两个混合池中reads≥6倍覆盖深度的变异。进一步分析之前，包括SNPs和Indels在内的变异分三步进行过滤。第1步，假设EMS诱导的突变应随机产生，因此应具有群体特异性。去除了在≥2个M2群体中检测到的常见变异作为背景变异，仅保留了各个M2群体特有的变异。第2步，计算每个M2群体的两个池变异的SNP-index。SNP-index的计算方法为：对于每个变异位点，计算非参考的reads数与变异位点基因座的总reads数的比值。在任何群体中，去除了在两个池中SNP指数都大于0.7的变异位点，因为它们可能是群体特异性背景突变。第3步，去除了群体的两个DNA池中SNP-index都小于0.3的变异，因为这些位点低比例的非参考reads增加了测序或比对错误导致的假阳性变异的可能性。另外，在突变体池中SNP指数＝0，而野生型池中SNP指数>0的变异也被去除。

对剩余的SNP进行滑动窗口分析。在每个群体的两个池中，计算各个变异位点的SNP-index之间的差异(DSI)以及相应绝对值(ADSI)。SNP-index、DSI或者ADSI的拟合曲线是通过对10个、20个或40个连续SNP在滑动窗口中(一次移动一个SNP的滑动窗口)的值取平均值获得的。根据每个群体中绘图SNP的密度，选择适合该曲线的最佳连续SNP数。每个窗口的X轴值设置在第一个和最后一个SNP之间的中点。在确定携带候选因果突变的基因组区域后，将该区域的所有变异(包括SNPs和indels)视为候选因果突变。

按照上述方法，分三步去除非诱变变异。图2中，(A)在10个群体,对检测到的340,546个变异的等位基因频谱进行统计。高比例的遗传变异频谱是群体特异性的(仅存在于一个群体中)或广泛存在的(存在于所有10个群体中)频谱。(B)每个群体中检测到的高质量变异数量的Venn图。每个群体中高质量变异的总数列于群体名称下方。所有群体共有的高质量变异数位于图中心。每个椭圆的非重叠部分中不带括号的数字表示每个群体特有的高质量变异数，而括号中的数字表示每个群体中EMS诱导的变异数。(C)所有群体中EMS诱导的典型和非典型突变的数量。(D)编码区内具有不同功能类别的诱变突变所占比例。其中，图2B显示了每个步骤中保留或去除的变异数量，在第1步过滤常见背景变异后，每对中总共保留了5,572–16,183个SNPs(图2B)。在去除群体特异性背景变异、假阳性变异和嵌合体污染引入的变异后(基于上述变异过滤和滑动窗口分析所述的第2步和第3步)，保留的变异数量减少至4,521±2,258(图2B)。剩余变异的密度约为1-8个/Mb(参考基因组的大小被视为1Gb)，与上述EMS诱变率的预期范围一致。最后，在10个M2突变体群体中共保留了51,986个变异作为诱变突变，其中51,409个为SNPs。只有61.4％的诱变SNP是典型的EMS诱导偏好的转换(C/G>T/A)，而其余38.6％的非C/G>T/A SNPs被归为其他类型(图2C)。在编码基因中，EMS诱导的SNPs的经典型变异(C/G>T/A)和非经典型变异(非C/G>T/A)均含有高比例的错义和无义突变(图2D)。因此，在突变体的遗传分析中，非C/G>T/A突变不应被忽视。

基于上文的方法，仅使用诱变来源的SNPs来定位因果突变区域，绘制了所有10个M2群体的DSI和ADSI拟合曲线。在其中5个群体(包括Mut03、Mut05、Mut06、Mut07和Mut10)中，基于DSI曲线没有检测到明显的峰。相反，在这五个群体中，所有ADIS曲线都显示出明显的峰(图3，其中，各点代表1个SNP，下面曲线代表SNP-index差值(DSI)的拟合曲线，上面曲线代表DSI绝对值的拟合曲线(ADSI)；箭头表示通过ADSI曲线检测到的候选区域)。在其余五个家系群体中，尽管DSI曲线可以在携带因果突变的区间检测峰，但ADSI曲线中的相应峰信号比DSI更明显(图4，其中各点代表一个SNP，下面线条为SNP-index指数差值(DSI)的拟合曲线，上面线条为DSI绝对值(ADSI)的拟合曲线)。上面线条中的峰表示因果变异所在区域)。这些结果证实了因果突变与邻近区域突变的排斥性连锁严重弱化了DSI曲线中的信号。但在ADSI曲线中，使用绝对值有助于更有效地检测因果突变所在区域。

5.群体Mut01中因果突变的鉴定：

使用V4期的叶片和叶柄用于扫描电子显微镜(SEM)分析。具体使用加速度电压为10kV的JSM-IT500显微镜采集图像。采用ImageJ软件计算150个表皮毛的长度。

以Mut01为例，与野生型IGA 1008相比，群体Mut01中研究的目标突变表型为矮化植物和无毛茎、叶柄和叶(图5A-J)。突变体株高36.2±5.7cm，显著低于野生型株高69.0±8.2cm(p<0.01)。突变体茎粗6.01±1.50mm，小于野生型9.52±1.52mm(p<0.01)(图5K)。突变体和野生型叶片的表皮毛长度分别为320和321微米，差异无统计学意义(图5L)。但突变体叶片表皮毛密度60/10mm2低于野生型116/10mm2(p<0.01)(图5G，H，L)。与野生型表皮毛相比，突变体的叶柄和茎表皮毛较少且较短(图5C、D、E、F)。然而，突变株的叶表皮细胞大小与野生型无显著差异(图5I，J)。

Mut01中的因果突变被定位到8号染色体上的10–18Mb区域(图4)。该区域存在16个EMS诱导的突变(16个SNP和0个Indels)。其中，13个突变为C/G>T/A转换变异。在16个突变中，10例DSI值为正值，其余6个DSI为负值。这一现象解释了ADSI曲线信号高于该区域的DSI曲线信号值。本实施例重点关注了4个ADSI>0.5且在突变体池中SNP-index＝1的SNPs。这四个SNP是定位于四个蛋白编码基因的非同义突变。

在这四个基因中，Glyma.08G193200最有可能是控制表皮毛密度的基因(图5)。Glyma.08G193200是拟南芥AT3G13870和AT1G72960基因的同源基因(图5M)，与这两个拟南芥基因具有76.5％和77.0％的相似性。AT3G13870和AT1G72960属于拟南芥根毛缺陷基因AtRHD3基因家族，由3个基因组成。因此，认为Glyma.08G193200是AtRHD3的同系基因。

RHD3在介导同型内质网(ER)的融合中起主要作用。在具有长毛状体的细胞中，GTP依赖性ER融合基因在维持ER完整性中可能起着至关重要的作用.AtRHD3的缺失通过减小拟南芥的叶大小和茎长度导致了短而波浪状的根毛、小的莲座丛和矮化表型。在AtRHD3基因携带非同义点突变的突变体atrhd3表现出非常严重的生长缺陷，可能是因为突变体的突变蛋白atrhd3发挥显性负效应。Mut01群体和拟南芥atrhd3突变体的表型具有一致性，这表明Glyma.08G193200中的因果突变是导致Mut01缺陷表型的因果突变。该突变位于Glyma.08G193200的5,486bp位置(A至T颠换)(图5N)。通过对Glyma.08G193200的PCR产物进行测序，验证了这一结果(图5P)。Glyma.08G193200中的A至T颠换导致谷氨酰胺被亮氨酸取代。GmRHD3由胞质N-末端GTPase结构域(GD)、富含三螺旋束(3HB)的中间结构域、两个TM片段和胞质C-末端尾部组成。突变发生在中间结构域的第二个3HB(3HB-2)(图5O)，这对于高效的ER膜融合至关重要。

图5中，V4期全株的(A，B)突变和野生型IGA 1008表型。比例尺：5厘米。(C，D)茎的突变体和野生型表型。比例尺：5mm。叶柄的(E，F)突变体和野生型表型。比例尺：500μm。叶表皮毛(G，H)突变体和野生型表型。比例尺：500μm。(I，J)叶表皮细胞的突变体和野生型表型。比例尺：50μm。(K)突变体和野生型的株高和茎粗。值是平均值，误差线是标准差(n＝6株植物)。(L)突变体和野生型叶片的表皮毛长度和密度。值是平均值，误差线是标准差(用150个表皮毛计算突变体和野生型表皮毛长度的平均值和标准差)。(M)RHD3系统发育树来源于拟南芥、大豆、截形苜蓿、菜豆、三叶草和酿酒酵母的同源基因。Glyma.08G193200标注为绿色。(N)gmrhd 3基因组位点示意图。外显子和内含子分别用方框和线条表示。指明了Gmrhd3的突变位点。(O)全长GmRHD3的整体结构。顶部的数字表示相应的氨基酸位置。三角形表示Gmrhd3的突变位点。(P)接近突变位点的Gmrhd3和野生型基因组DNA的DNA测序峰色谱图。突变位点用矩形标记。

本发明优点说明：背景突变可以通过作图群体的野生型祖品系的测序来排除。然而，在实际研究中，突变体野生型祖品系可能没有保存。此外，对野生型进行WGS需要耗费额外的成本。本发明研究表明，通过比较来源同一祖系产生的不同M1植物的测序数据，可以有效地消除共同的背景变异(图1A)。在定位因果突变之前，本发明研究了步骤(1)(即变异过滤过程的第一步)对于去除背景变异是否是必需的。在没有步骤(1)的情况下，10个M2群体中剩余变异的平均数量为93,077±4,720，约是实施步骤(1)时保留的变异数量的20倍。理论上，将步骤(2)(即变异过滤过程的第二步)中的阈值设置为两个批次中的SNP-index≥0.7，应可同时去除常见背景变异和群体特异性的背景变异。然而，如果仅实施步骤(2)，本发明研究得到去除背景突变的效率将大大下降。因此，步骤(1)是必不可少的，不能被步骤(2)所代替。但要识别背景突变，必须需要对多个M2群体进行比较。在实际研究中，同一靶基因往往拥有多个独立的M2群体，从而保证在在不进行转基因验证的情况下确定功能基因。这种情况下，就可以非常高效地同时去除背景突变。因此，M2-seq在基于由诱变剂诱导的隐性等位基因控制的突变基因克隆方面非常有效。

最后应当说明的是，上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于M2群体的候选因果突变位点基因定位的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的方法，其特征在于，步骤S1所述的去掉背景变异通过M2群体之间的相互比较去除。

3.如权利要求1所述的方法，其特征在于，步骤S4所述的过滤获取高质量clean reads具体过程如下：

(1)移除具有≥10％的未识别核苷酸的reads；

(2)删除>50％碱基的Phred质量分数≤20的reads；

(3)移除包含接头的reads。

4.如权利要求1所述的方法，其特征在于，步骤S4所述的变异过滤包括如下过程：

5.如权利要求4所述的方法，其特征在于，步骤(2)及步骤(3)中的SNP-index的计算方法为对于每个变异位点，计算非参考的reads数与变异位点基因座的总reads数的比值。

6.如权利要求1所述的方法，其特征在于，步骤S4所述的滑动窗口分析的具体过程包括：在每个群体的两个池中，计算各个变异位点的SNP-index之间的差异以及相应绝对值，绘制拟合曲线，根据每个群体中绘图SNP的密度，选择适合该曲线的最佳连续SNP数，每个窗口的X轴值设置在第一个和最后一个SNP之间的中点，确定携带候选因果突变的基因组区域。

7.如权利要求6所述的方法，其特征在于，所述绘制拟合曲线通过对10个、20个或40个连续SNP在滑动窗口中的值取平均值获得的。

8.如权利要求1所述的方法，其特征在于，步骤S5所述的因果突变位点筛选包括变异对基因编码的蛋白氨基酸序列影响分析、变异频率分析和变异相关基因的功能解析。