CN105734122A

CN105734122A - Simm法快速定位突变性状相关基因

Info

Publication number: CN105734122A
Application number: CN201511025040.2A
Authority: CN
Inventors: 严维; 何航; 陈竹锋; 张文辉; 卢嘉威; 唐晓艳
Original assignee: Sichuan Xinbo Yu Frontier Biotechnology Co Ltd; Shenzhen Institute of Molecular Crop Design
Current assignee: Sichuan Xinbo Yu Frontier Biotechnology Co Ltd; Shenzhen Institute of Molecular Crop Design
Priority date: 2014-12-31
Filing date: 2015-12-30
Publication date: 2016-07-06

Abstract

本发明涉及一种SIMM法快速定位突变性状相关基因的方法和应用，属于生物信息学与功能基因组学领域，本方法可应用到无准确野生型基因组的水稻突变体基因克隆中，可大大提高水稻功能基因克隆的效率，满足广大水稻基因功能研究者的需求。

Description

SIMM法快速定位突变性状相关基因

技术领域

本发明属于生物信息学与功能基因组学领域，具体涉及一种利用SIMM法快速定位突变性状相关基因的方法和应用。

技术背景

突变体是功能基因组学研究的重要材料，近年来，利用水稻突变体进行水稻功能基因组学研究取得了重大进展。分离克隆相关基因是研究利用突变体的前提和基础，目前水稻突变体基因克隆最常用的技术有图位克隆(map-basedcloning)，转座子标签(transposontagging)和T-DNA插入标签(T-DNAtagging)技术等。然而，传统的图位克隆需利用与目的基因紧密连锁的分子标记筛选DNA文库，从而构建目的基因区域的物理图谱，在此基础上逐渐缩小候选区间而定位目的基因，该过程较繁琐，耗时长，成本高。而利用转座子标签技术依赖于转座子在植物中的转座频率和活性，且需要筛选大量的个体来鉴定突变个体，多拷贝的基因还会限制其应用，因此该技术的应用范围有限。

在水稻等农作物的育种过程中，利用不同的材料构建群体进行性状相关基因的定位已经有许多相关报道。随着水稻基因组测序的完成以及二代测序技术的日趋成熟，一些基于二代测序技术定位性状相关基因的方法逐渐被提出，大大缩短了克隆性状相关基因的周期，降低了实验成本，并在推广的过程中不断地改良。SHOREmap是一种在植物正向遗传学中应用较好的定位突变的方法。它需要将突变体和与其遗传背景差异较大的品种进行杂交产生后代群体，从而定位突变位点所在区域，定位区间的大小往往取决于定位群体的大小，并会受到遗传背景的影响而使得精确定位比较困难。在此基础上，其他研究小组提出了相似和改进的方法，并成功在拟南芥中定位到与突变性状相关的位点(Schneeberger,K.etal.SHOREmap:simultaneousmappingandmutationidentificationbydeepsequencing.NatMethods6,550-1(2009))。

选取合适的杂交品种是这些方法能否准确定位突变位点所在区域成功的关键。通过重测序水稻F2群体中突变体池和野生型亲本，Abe等提出了MutMap等一系列方法,该方法综合运用全基因组学、生物信息学、分子遗传学和分子生物学等多学科交叉研究方法，结合高通量的二代测序方法，充分利用水稻重测序的数据及分析优势，把突变体群体测序结果与野生型基因组序列相比对，找出造成水稻突变体性状的基因，成功定位与水稻矮杆，叶色，抗稻瘟病等相关的基因(Abe,A.etal.GenomesequencingrevealsagronomicallyimportantlociinriceusingMutMap.NatBiotechnol30,174-8(2012))。MutMap大大降低了基因克隆成本，缩短了基因克隆时间。对于无法通过杂交构建群体的突变体，MutMap+通过直接比较M3群体中突变体与野生型的基因型，鉴定与突变性状相关的突变位点(Fekih,R.etal.MutMap+:geneticmappingandmutantidentificationwithoutcrossinginrice.PLoSOne8,e68529(2013))。由于水稻不同品种之间的多样性，在定位突变性状相关基因时，材料与常用的水稻参考基因组之间可能存在大量的多态性位点或区域，甚至大片段的插入或缺失，导致在参考基因组上无法准确定位突变性状相关基因，因此，为了鉴定位于参考基因组上缺失区域的突变基因，基于MutMap方法和从头组装的方法，提出MutMap-gap方法并成功应用于克隆水稻抗稻瘟病基因Pii(Takagi,H.etal.MutMap-Gap:whole-genomeresequencingofmutantF2progenybulkcombinedwithdenovoassemblyofgapregionsidentifiesthericeblastresistancegenePii.NewPhytol200,276-83(2013))。此外，对于定位与数量性状相关的区域，即QTL定位，QTL-seq采用二代测序的方法，分别测序F2群体中极端数量性状表型的个体，通过比较极端个体间的差异，得到候选区间(Takagi,H.etal.QTL-seq:rapidmappingofquantitativetraitlociinricebywholegenomeresequencingofDNAfromtwobulkedpopulations.PlantJ74,174-83(2013))。

SHOREmap相关及MutMap系列方法均基于一个组装良好的参考基因组，对于目前无参考基因组的物种，基于组装的方法来定位突变位点的NIKS方法则在一定程度上弥补了这一不足。NIKS(needleinthek-stack)是一种基于统计短序列(k-mers)出现的频率，以及候选短序列的组装的方法，可用于无参考基因组物种中鉴定突变性状相关位点(Nordstrom,K.J.etal.Mutationidentificationbydirectcomparisonofwhole-genomesequencingdatafrommutantandwild-typeindividualsusingk-mers.NatBiotechnol(2013))。然而由组装及基因预测带来的不确定性，使得候选基因较多。

发明内容

尽管已有的办法在定位突变性状相关基因上已经取得了一定的突破，但这些方法都有一定的不足和限制。在MutMap系列方法中，需要将突变体的序列比对到野生型参考基因组上，得到突变体与野生型之间的差异，然后根据突变基因型的频率得到可能的候选位点。对于无准确野生型信息的材料，或无参考基因组的物种，则不太适用。

为了更好的利用二代测序技术，更精确，更快速的定位水稻突变性状相关的基因，同时节省实验成本，提高MutMap技术的广泛适用性，特别是在无准确参考基因组的籼稻背景中的应用，我们着力于建立一套改良的MutMap分析方法，命名为SIMM(SimultaneousIdentificationofMultipleCausalMutations)，该方法可应用到无准确野生型基因组的水稻突变体基因克隆中，可大大提高水稻功能基因克隆的效率，满足广大水稻基因功能研究者的需求。理论上，该方法亦可应用于其他二倍体物种中，特别是其同源物种具有详细的基因组注释信息，如需运用到多倍体中，如异源六倍体小麦中，则需要根据不同来源基因组间的同源关系对筛选条件进行一定的调整。

在本发明中，我们综合考虑了在鉴定突变性状相关基因中参考基因组的影响，以及定位群体与参考基因组间的多态性，通过比较多个同一背景来源的突变体之间的多态性，在不需要准确野生型亲本信息的基础上，提出了一套快速、同时定位多个群体中与突变性状相关基因的方法。同时，针对目前无参考基因组的物种，通过对测序数据的聚类并比较多个同一背景来源的突变体之间的多态性，提出了一种不需要组装和比对的方法，同时鉴定多个突变体中性状相关的基因。具体流程如下：

1.突变体的筛选与鉴定

(1)EMS诱变野生型获得突变体

采用合适浓度的EMS处理野生型亲本的种子，处理后的种子种植于田间，繁殖获得突变体库(M₁)。取一定量的突变体库种子于田间种植，通过对M₁植株的观察和表型测量，得到与野生型植株有明显表型差异的个体即突变体。

(2)遗传鉴定突变体性状

得到具有表型的突变体后，与野生型植株进行杂交，得到F₁代后自交产生F₂，通过观察F₂代中突变体表型与野生型表型的植株比例来判断该突变性状是否为单基因调控，以及突变基因的显隐性。

2.采用SIMM方法同时鉴定多个突变体的突变基因

(1)将确定为单基因调控的突变体与野生型材料进行杂交，获得杂合F₁植株；

(2)对隐性突变体，在F₁植株自交获得的F₂代植株中挑选具有突变体表型的单株(不少于20株)，采用Qiagen试剂盒提取DNA，等量混合DNA后采用IlluminaHiseq测序平台进行高通量双端测序，测序数据达到至少20X的覆盖深度；对显性突变体，则需要挑选后代不分离的具有突变体表型的F₂单株进行类似实验。这里，我们同时对多个不同的突变体材料进行测序，而不需要测野生型材料；

(3)得到测序原始数据之后，去除含有测序接头或低质量碱基≥10％的短序列，根据质检结果，确认两端的序列是否需要去掉由于测序标签引起的错误碱基，然后将不同突变体过滤后的数据都比对到同一个水稻参考基因组上(分析中，我们采用MSU公布的具有详细注释信息的日本晴v7作为参考基因组)，采用比对到唯一位置的短序列(reads)进行SNP(singlenucleotidepolymorphism)鉴定，去除不同突变体间共有的差异位点，并根据其他突变体中的Alleleindex≥0.8进行筛选(公式1)，得到各突变体特异的SNP位点(覆盖深度≥5，测序质量值≥20)。本发明中质量值可以用来评价该测序碱基的错误率，如质量值为20时，测序错误率为1％(Q＝-10log₁₀P)。

A l l e l e i n d e x = (Σ_{i = 1}^{j} n_{i} - n_{0}) / (N - N_{0}) - - - (1)

其中，n为该位点支持野生型基因型的reads数，N为覆盖该位点的所有reads数，i为突变体编号，j为所有被分析的突变体数，n₀为定位突变体中支持野生型基因型的reads数，N₀为定位突变体中覆盖该位点的reads总数。在本发明中，对于三个突变体S1，S2，S3，在同一位点处的基因型信息如下：G(ref)A1013G1214G1516，每个的前一个数为支持该基因型的reads数，后一个数为所有覆盖到该位点的reads数，针对突变体S1计算Alleleindex时，具体公式为：Alleleindex＝(((13-10)+12+15)-(13-10))/((13+14+16)-13)。

(4)得到各突变体特异的突变位点后，计算各突变位点的SNPindex值(公式2)及欧式距离ED(Euclideandistance)(公式3)，并采用R语言编程对结果进行可视化，在添加Loess渐近线的基础上得到可能的功能基因区域；

SNPindex＝Nm/Nt(2)

其中，Nm和Nt分别为该突变体在该位点处，支持突变基因型的reads数以及覆盖该位点的reads总数。

E D = \sqrt{{(A_{m u t} - A_{w t})}^{2} + {(C_{m u t} - C_{w t})}^{2} + {(G_{m u t} - G_{w t})}^{2} + {(T_{m u t} - T_{w t})}^{2}} - - - (3)

其中，A，T，C，G为四种碱基，mut为定位突变体中各基因型所占的比例，wt为其他突变体中各基因型所占的比例。以公式1里面的三个突变体为例，计算S1的ED值时，具体公式为：ED＝sqrt((10/13-((14-12)+(16-15))/(14+16))²+((13-10)/13-(12+15)/(14+16))²)。

(5)通过SNPindex≥0.8对候选的功能基因区域内的突变位点来进行筛选，并结合该突变位点所处的区间，以及是否造成氨基酸或RNA剪切的变化，确定最终的候选突变位点及基因。在确定候选突变位点时，首先考虑位于外显子上造成氨基酸变化或影响RNA剪切的突变位点，若未找到合适的候选位点，则考虑位于UTR区域，启动子区或较大基因间区(>3kbp)上的位点。理论上，在有表型的F₂植株中，造成突变体表型的突变位点处突变基因型应接近100％，而与该位点紧密连锁的突变位点亦倾向于具有较高的SNPindex值和ED值；

(6)对于通过上述筛选未得到候选位点的突变体，若有明显的候选功能基因区域，则考虑该候选位点可能由于测序深度或质量值被去掉了，应采用基于GC含量的位点校正法对所有突变体在候选区域内的低质量(<20)或/和低深度(5～15)的位点进行校正，并重新与其他突变体进行比较，重复步骤3-5，寻找可能的候选位点。若仍无候选，则需要将各突变体覆盖该区域的短序列以及未能比对上参考基因组的短序列进行聚类，并按照无参考基因组鉴定突变位点的方法，寻找目标突变体特异存在的突变位点，作为候选的位点；

(7)对于候选突变位点，提取该位点前后各100bp序列用于设计引物，并采用HRM验证该位点是否与突变性状紧密连锁；而对于参考基因组上缺失的突变位点，则提取与该位点所在短序列一端有重叠(>32bp)的短序列，并在该位点前后100bp内进行引物设计，采用实验进行验证；

(8)对于无准确参考基因组的物种，我们在对原始数据进行聚类简化之后，将深度低于5的短序列在容许5个碱基错配的条件下与深度≥5的短序列重新聚类，然后按照图2所示寻找目标突变体特有的且在其他突变体中存在同源的短序列寻找候选突变位点。

3.克隆与验证功能基因

(1)在候选区域中挑选可能的功能基因，从F₂群体中随机挑选突变体植株及野生型表型植株，采用HRM(highresolutionmeltingcurve)验证候选突变位点与表型是否紧密连锁；如突变为HRM无法区分的A/T或C/G类型，则需要通过Sanger测序法进行验证。

(2)若候选位点与表型紧密连锁，则比较突变体与野生型中候选基因的表达，亚细胞定位等差异；

(3)通过转基因验证筛选得到的候选基因是否能互补突变体表型；

(4)对重要的新功能基因，深入研究其调控机制。

为了比较SIMM与已有方法之间的优缺点，我们采用SIMM方法，分析了MutMap原文中提供的7个水稻突变体的数据，并比较了采用MutMap和NIKS方法分析同一数据的结果(图3，表1)。通过分析发现，对于7个水稻突变体，SIMM均能有效定位到候选区间，且对于S2-S7等6个突变体，鉴定到与NIKS方法相重叠的候选位点，且能把候选位点数目大大降低，SNPindex和ED的结合使用，使得候选区间更加准确、明显。对于MutMap方法及NIKS方法未能鉴定到候选位点的S1，SIMM方法亦能鉴定到明显的候选区间，并在候选区间中找到了可能的候选位点。对于7个水稻突变体，通过筛选候选区间内的可能造成突变性状的突变位点(SNPindex≥0.8，最低覆盖深度≥8，可以造成氨基酸或剪切的变化，若未能找到，则再考虑位于基因间区或内含子上的突变位点)，结合所在基因的功能注释信息，最终得到可能与突变性状相关的突变位点。

表1.采用MutMap，NIKS及SIMM三种方法分析MutMap中7个水稻突变体的结果比较。

注：¹为采用MutMap方法鉴定到的候选位点数，括号中为GC＝>AT的突变数；²为采用NIKS方法鉴定到的候选位点数(GC＝>AT)；c为采用SIMM方法，综合考虑其他突变体中野生型基因型所占比例Alleleindex≥0.8，覆盖深度≥8的SNP突变位点数；³为采用SIMM方法鉴定到位于候选区域内的SNPindex≥0.8，且覆盖深度≥8的位点数，括号中为EMS诱变最常见的两种突变(G->A/C->T)的位点数；⁴为采用SIMM方法中的ED值鉴定到的候选区域内的位点数；^a为采用MutMap方法鉴定到的候选基因；^b为采用NIKS方法鉴定到的候选基因；^c为采用SIMM方法鉴定到的候选基因。在所有候选基因中，4个仅被NIKS和SIMM方法同时鉴定到，2个仅被SIMM方法鉴定到。

此外，SIMM还被用于分析并定位来源于QTL-seq及MutMap+中的突变体数据，发现SIMM同时也适用于F₂群体中定位与性状相关的QTL(图4，表2)，并且也能在M₃群体中定位与突变性状相关的基因(表3)。

表2.SIMM方法应用于定位QTL-seq文中材料与抗稻瘟病相关QTL的结果。

注：^a为采用SIMM方法将过滤后的测序数据比对到MSU发布的日本晴参考基因组v7上的SNP位点数；^b为根据其他材料中野生型基因型比例≥0.8，覆盖深度≥10筛选后的SNP数。

表3.SIMM方法应用于定位来源于MutMap+文中M₃群体里与突变性状相关的突变位点结果。

注：^a为采用SIMM方法将过滤后的测序数据比对到MSU发布的日本晴参考基因组v7上的SNP位点数；^b为根据其他材料中野生型基因型比例≥0.8，覆盖深度≥10筛选后的SNP数；^c为候选区域内SNPindex≥0.8，覆盖深度≥10，造成氨基酸或剪切变化的SNP位点数。

附图说明

图1是SIMM方法应用于分析有详细基因组注释信息或其同源物种具有详细注释信息的物种的具体流程图；来自同一亲本的突变体经过筛选确认为单基因控制的突变体后，再与野生型亲本进行回交，产生杂合F₁代后自交，随机挑选F₂中具有突变体表型的植株进行混样提取DNA，建库测序。测序原始数据经过滤后，通过比对到同一参考基因组上，获得高质量的SNP位点，再综合考虑其他突变体中的基因型情况(Alleleindex≥0.8)，确定可能的候选区间。之后再根据候选区间内SNP的SNPindex值和ED值，以及是否造成氨基酸或剪切的变化，确定最终用于实验验证的候选突变位点。若在候选区域内无候选突变位点，则需采用基于GC含量的位点校正法对该区域内的低质量(<20)或/和低深度(5～15)的位点进行校正，然后重新与其他突变体进行比较，鉴定可能的候选突变位点。

图2是SIMM方法应用于分析无参考基因组物种中定位突变位点的流程图。

图3.采用SIMM方法鉴定MutMap中7个突变体候选区间，SNPindex为突变体中突变基因型所占的比例，ED为欧式距离，S1-S7代表7个水稻突变体(同表1)，红色线为loess渐进线(SNP位点少于30时不显示)。

图4.SIMM方法用于分析QTL-seq中数据并定位相关QTL的结果，(A)样品RILs-S中SNP位点的SNPindex及ED⁶分布图；(B)样品RILs-R中SNP位点的SNPindex及ED⁶分布图。采用SIMM方法，共有两个QTL被鉴定到，分别位于第六号染色体1.97Mb-5.35Mb(与QTL-seq原文相符，但材料相反)和第九号染色体9.17Mb-10.08Mb(与已知的抗稻瘟病基因Pi56和Pi5相符)，后者仅在SIMM方法分析过程中被鉴定到。

图5水稻抗除草剂突变体与野生型表型鉴定，图中绿色植株为抗除草剂突变体，其他为野生型。

图6水稻大粒突变体与野生型表型鉴定，A图下排及B图右侧为突变体。

图7水稻雄性不育突变体与野生型花粉花药形态鉴定。A，C为野生型，B，D为突变体。对于育性相关的突变体，采用I₂-KI染色方法鉴定水稻花粉育性。

图8.雄性不育突变体osms55花药与花粉表型鉴定；a，c为野生型HHZ花药与花粉表型，b，d为突变体花药与花粉表型。通过I2-KI法，发现osms55花粉以碘败型为主。

图9.突变体oss125的表型特征；A：野生型HHZ(左)与突变体oss125(右)株叶形态；B：HHZ(左)与oss125(右)小穗结实情况；C：HHZ花药形态；D：oss125花药形态；E：HHZ花粉染色；F：oss125花粉染色。

图10.突变体osms55(A)和oss125(B)候选区间的确定。结合SNPindex和ED6在染色体上的分布来确定候选区间，比仅使用SNPindex更加准确、明显。

图11.osms55基因突变前后序列比对。分析发现osms55突变体在第四个内含子剪切位点处发生了G->A的突变，最终导致雄性不育。

图12.Oss125基因突变前后序列比对。分析发现oss125突变体在第663位碱基A突变为C，导致编码的蛋白第221位谷氨酰胺(Gln)突变为脯氨酸(Pro)。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1.EMS诱变处理野生型黄华占种子构建突变体库

我们以优良籼稻品种黄华占(HHZ)作为实验材料，通过EMS诱变筛选抗除草剂、抗旱、粒型、育性等农艺性状相关的突变体，具体操作如图1。目前，我们已经筛选到一批重要的突变体，部分材料的表型如图5-7。黄华占作为中国南方的优良品种之一，属于杂交选育成功的优质常规稻品种，全生育期为105-124天，由广东省农业科学院水稻研究所以丰华占()和黄新占(♀)为父母本培育而成。

(1)称取10kg的黄华占野生型种子，28℃培养箱中浸泡22h后将种子捞出并控干水分；

(2)种子捞出后，立即准备EMS溶液，预实验选用20ml溶液，浓度分别为0％，0.4％，0.6％，0.8％，1.0％，1.2％，1.4％和1.6％；

(3)称取8g种子放入不同浓度EMS溶液中，放回28℃培养箱，浸泡12h，期间每1h摇动一次种子；

(4)浸泡12h后，倒掉EMS溶液，用清水冲洗种子2min后倒掉清水，重复5次；

(5)换清水，将种子倒入尼龙袋中，扎好口，用自来水冲洗1.5h；

(6)冲洗结束后，将种子放在湿纸表面，放入28℃培养箱中培养1d后检查萌发率，根据萌发率确定EMS溶液浓度，最终确定EMS浓度为0.7％进行EMS诱变。

(7)将EMS处理后的种子在田间进行种植，繁殖获得突变体库。

实施例2.突变体筛选

(1)取突变体库中的种子在田间进行种植，观察并记录重要农艺性状相关表型，筛选突变体；

(2)把具有明显突变表型的突变体与野生型植株进行杂交，产生杂合F₁代后自交，产生具有性状分离的F₂代群体，根据分离情况，确定造成突变性状的基因的显隐性。

实施例3.DNA提取与测序建库

(1)从F₂群体中随机挑选30株具有突变体表型的植株，各取0.1g叶片，每5个混在一起，采用QIAGENDNeasyPlantMiniKit提取DNA，具体操作参照试剂盒说明；

(2)提取DNA后，采用Nanodrop2.0进行定量后，将6个混合DNA等量混合，达到DNA总量为5ug，浓度在100ng/ul以上；

(3)按照Illumina平台双端建库流程，对质检合格的DNA进行建库，文库大小为200-300bp，建库后，采用IlluminaHiseq2000平台进行建库并测序，PE100，产生大约15G的原始数据。

实施例4.数据过滤与比对

在SIMM方法中，比对软件包括SOAP2，bwa和Bowtie2三种，在分析中，我们采用SOAP2作为比对的软件来进行比对。测序的原始数据经过滤(去掉含有接头，或低质量碱基≥10％的reads)后，采用SOAP2将其比对到由MSU发布的日本晴的参考基因组v7上，具体参数为：-m100–x800–v3–g5–u，即插入片段为100～800bp之间，每条短序列上最多容错3个碱基，连续gap不多于5个碱基，同时输出不能比对上的序列(这一部分在无参考基因组分析当中需要用到)。

实施例5.选SNP位点的鉴定

(1)选取比对到唯一位置的reads，采用SOAPsnp对每个突变体进行SNP的鉴定(测序质量值≥20,覆盖深度位于5-300之间)；

(2)比较多个突变体的SNP数据，在考虑其他突变体中Alleleindex≥0.8且平均覆盖深度≥5的情况下，筛选得到每个突变体中特异的SNP位点，计算其SNPindex值和ED值；

(3)采用R语言将每个突变体特异SNP位点的SNPindex值和ED值按照染色体进行可视化，通过添加的Loess渐近线，确定候选区间；

(4)根据候选区间内SNP位点的SNPindex值和ED值，对SNP进行筛选(SNPindex≥0.8，覆盖深度≥10)，同时筛选造成氨基酸(非同义突变)或剪切变化的位点，获得可能与性状相关的候选位点。若未能得到合适的候选位点，则再考虑候选区间内位于UTR或基因间区(>3kbp)上的位点。

实施例6.HRM方法验证候选突变位点

提取候选位点前后各100bp序列用于设计特异性PCR引物，扩增目标片段，每个反应体系包括1μL10×PCRbuffer、0.1μLdNTPmixture(2.5μmol·L-1each)、0.15μLforwardprimer(10μmol·L-1)、0.15μLreverseprimer(10μmol·L-1)、0.1μL10×LCGreenPlus、10ng模版DNA、0.1μLrTaqDNAPolymerase，补水至10μL，每一反应体系均加入25μL矿物油，以防蒸发及污染。PCR反应条件为95℃3min；95℃30s，60℃30s，72℃10s，35个循环。之后PCR产物转移至LightScanner中进行扫描分型，从F₂群体中随机挑选具有突变性状和野生型性状的植株若干，根据溶解曲线的变化形态将检测样品区分为杂合体、纯合野生型和纯合突变体。

实施例7.结果分析

EMS诱变后，我们鉴定到多种突变的性状，如雄性不育，黄化，颖壳开裂等。我们采用SIMM方法对其中两个由单基因控制的隐性雄性不育突变体osms55和oss125(图8，9，表4，5)进行突变基因定位，成功定位到两个与育性相关的基因(图10)，具体PCR引物见表6，验证结果见表7。对于osms55突变体，我们鉴定到基因LOC_Os02g40450第四个内含子剪切识别位点处发生了一个G->A单碱基突变(图11)，该基因编码一个DNA解旋酶，参与减数分裂过程中染色体的交叉互换过程，与已报道的MER3基因等位(Wang,K.etal.MER3isrequiredfornormalmeioticcrossoverformation,butnotforpresynapticalignmentinrice.JCellSci122,2055-63(2009))；而对于oss125，我们鉴定到一个位于基因LOC_Os02g53680外显子区，造成该基因编码区的第663位碱基A突变为C，导致编码的蛋白第221位谷氨酰胺(Gln)突变为脯氨酸(Pro)(图12)，该基因与已发表的OsRPA1a是等位基因(YuC.etal.RepliactionproteinA(RPA1a)isrequiredformeioticandsomaticDNArepairbutisdispensableforDNAreplicationandhomologousrecombinationinrice.PlantPhysiol151(4),2162-73(2009))，通过对水稻T-DNA插入突变体研究，发现OsRPA1a为水稻减数分裂和体细胞DNA修复所必需，但对DNA复制和同源重组非必需，T-DNA插入导致完全的雌性不育和雄性半不育，这与我们鉴定到的点突变导致完全雄性不育而雌性生殖器官育性正常不同，说明该基因控制雄性发育和雌性发育的功能可能分布在蛋白质的不同区域。

表4.两个雄性不育突变体测序数据统计

表5.两个雄性不育突变体与HHZ杂交F₂代的表型分离统计

注：P_0.05,1＝3.84。

表6用于HRM分析的引物及序列

表7候选基因SNP分型统计结果

从以上的实施实例来看，SIMM可以在多个突变体材料(MutMap的7个突变体以及黄华占突变体oss55和oss125)，不同群体(QTL-seq中的RIL群体，及MutMap+中的M3群体)中有效鉴定与突变性状相关的突变位点或QTL。相较已有的MutMap系列方法及NIKS，SIMM能在不需要测野生型亲本的情况下，通过不同突变体之间的比较，鉴定突变体特异的突变位点，从而更高效的定位与突变性状相关的位点或QTL。在定位过程中，SIMM在考虑突变频率(SNPindex)的同时，也考虑其他背景突变体中的变异情况(Alleleindex)，在可靠的背景基因型基础上(Alleleindex>＝0.8)，获得突变体特异的SNP位点，然后结合突变体与背景突变体之间的差异情况(ED值)及SNP之间的连锁关系，定位候选区域。

本发明提供的方法可以更快更有效的定位突变性状相关基因或QTL，大大缩短了定位突变性状相关位点的时间，为设计育种提供了更有效的工具。

Claims

1.一种鉴定突变体中性状相关基因的方法，其特征在于所述方法，包括以下步骤：

a）将确定为单基因调控的突变体与野生型材料进行杂交，获得杂合F₁植株后自交，得到F₂群体;

b）挑选F2中具有突变表型的纯合植株，混样提取DNA，进行高通量测序；

c）对原始测序数据进行质检并过滤，通过比较分析，寻找突变体特异的SNP位点；

d）根据突变体中的SNP评价参数在染色体上的分布情况，获得候选功能基因区域；

e）对候选区域内基因进行筛选，获得候选SNP位点。

2.权利要求1所述的方法，其中所述的步骤d）后还进一步包括以下步骤：

a）对在候选区域内无候选SNP位点的突变体，将比对到候选区域内的短序列（reads）与未能比对上的reads进行聚类，通过比较分析，获得突变体特异SNP位点；

b）对无明显候选区域的突变体，将过滤后的测序reads进行聚类，通过比较分析，获得突变体特异SNP位点；

c）对无参考基因组物种，分析方法同步骤b；

d）对候选SNP位点，提取该位点前后序列设计引物，并采用HRM法进行连锁分析，确定突变性状相关SNP位点。

3.权利要求1所述的方法，其中所述的步骤a）中的F₂群体要求具有突变体表型的植株大于30株。

4.权利要求1所述的方法，其中所述的步骤b）中的具有突变表型的纯合植株，是指如为隐性基因控制突变体，则挑选突变表型植株即可；如为显性基因控制突变体，则需挑选对应F₃代中无表型分离的植株。

5.权利要求1所述的方法，其中所述的步骤b）中的混样提取DNA，要求用于混样提取DNA的植株至少有20株，DNA浓度和总量需达到IlluminaHiseq2000或2500测序平台建库标准。

6.权利要求1所述的方法，其中所述的步骤c）中的对原始测序数据进行质检并过滤，是指要求测序reads平均质量不能低于20，即PhredQ>=20，同时N所占比例不得大于10%，最终过滤后数据达到覆盖整个基因组20X以上。

7.权利要求1所述的方法，其中所述的步骤c）中的比较分析，要求采用比对软件将过滤后的数据比对到参考基因组上，并通过筛选其他突变体中Alleleindex>=0.8，获得定位突变体特异SNP位点。

8.权利要求1所述的方法，其中所述的步骤d）中的根据突变体中的SNP评价参数在染色体上的分布情况，要求根据突变位点SNPindex及ED值在染色体的分布情况，获得候选功能基因区域。

9.权利要求1所述的方法，其中所述的步骤e）中的对候选区域内基因进行筛选，要求根据候选区域内突变位点SNPindex及ED值，以及是否造成氨基酸变化，或影响mRNA的剪切来筛选获得候选突变性状相关位点。

10.权利要求2所述的方法，其中所述的步骤a）中的reads进行聚类，要求对候选区域附近及未比对上reads进行聚类，挑选出定位突变体特有，且在至少80%的其他突变体中有同源序列的reads。

11.权利要求2所述的方法，其中所述的步骤a）、b）和c）中的SNP位点，要求突变体特有的reads与其他突变体同源reads间的SNP位点，在单条reads上不得多于3个，且不得出现在reads两端5bp内。

12.权利要求2所述的方法，其中所述的步骤b）和c）中的reads进行聚类，通过比较分析，要求对过滤后的所有reads进行聚类，挑选出定位突变体特有，且在至少80%的其他突变体中有同源序列的reads。

13.权利要求2所述的方法，其中所述的步骤a），b）和c）中的reads进行聚类，通过比较分析，要求候选reads覆盖深度>=5，且不高于平均测序深度的10倍。

14.权利要求2所述的方法，其中所述的步骤d）中的确定突变性状相关SNP位点，要求对候选SNP位点附近reads进行聚类，并根据该位点前后序列设计引物，用于HRM验证。