CN114512186A

CN114512186A - 一种在植物基因组中检测体细胞突变的方法

Info

Publication number: CN114512186A
Application number: CN202210145716.5A
Authority: CN
Inventors: 杨四海; 季逸伦; 张小辉; 王龙
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-05-17

Abstract

本发明公开了一种在植物基因组中检测体细胞突变的方法。所述方法包括（1）重测序数据的评估；（2）重测序数据的拼装；（3）突变位点的鉴定；（4）突变位点的评估；（5）突变位点的筛选；（6）候选突变位点的分类与标签化；（7）突变位点的人工检验。本发明提供的方法，可以在各种植物基因组中高效、全面的检测体细胞突变，包括单核苷酸变异位点（SNV）与插入缺失位点(INDEL)，为评估植物体细胞突变率提供了有力分析工具，从而为研究体细胞突变对植物发育与进化的影响提供分子基础。

Description

一种在植物基因组中检测体细胞突变的方法

技术领域

本发明涉及微生物技术领域，具体地说，本发明涉及一种在植物基因组中检测体细胞突变的方法，具体涉及对植物原始基因组数据的拼接与评估及体细胞突变位点的识别与筛选鉴定。

背景技术

植物基因组变异，包括突变与重组，是植物多样性产生的基础，也是植物适应性演化的内在驱动力。基因组变异如何产生、保留与遗传，受哪些因素的影响，一直是生命科学领域重要的科学问题。其中突变是经典遗传学长期关注的重要科学问题之一。随着重测序技术的发展，近年来关于突变的研究取得了巨大的进展。目前关于突变的研究主要集中在三个方面：减数分裂突变率的评估，癌细胞的突变鉴定，体细胞突变的评估。其中体细胞的突变主要集中于细菌、真菌和动物中。

目前植物中用于检测体细胞突变的方法一般借用人类和小鼠中的研究方法，但是植物基因组具有独特的特征，动物中的检测方法无法完全适用于植物基因组。为了保证筛选出可靠的突变，已有的检测方法往往会先屏蔽基因组中的复杂序列，比如重复序列，转座元件等等，这样会导致大量的基因组信息被忽略。此外，现有的体细胞突变的检测方法虽然能有效的去除假阴性的结果，但无法有效的评估假阳性结果，因此鉴定出来的体细胞突变常常具有高假阳性率。综上，需要开发一种对植物基因组适用的，且能高效快速检测出可靠的体细胞突变的方法。

发明内容

针对现有技术的上述缺陷，本发明提供一种在植物基因组中检测体细胞突变的方法。

为了解决现有技术的问题，本发明提供了如下技术方案：本发明的一种在植物基因组中检测体细胞突变的方法，包括如下步骤：

（1）重测序数据的评估：利用FastQC等软件对重测序数据进行质检和评估，过滤得到clean data；

（2）重测序数据的拼装：使用BWA-mem的默认参数将clean data比对到参考基因组上，得到原始SAM文件，通过Picard的SortSam模块将SAM文件排序并转变为BAM格式；

（3）突变位点的鉴定：利用GATK中识别变异的两种不同算法UG和HC，选用 “-rfMappingQuality -mmq 20” 参数过滤比对质量mapping quality小于20的reads，获得包含所有原始变异位点的VCF文件；

（4）突变位点的评估：选用samtools的mpileup模块与VarScan，统计候选单核苷酸变异位点SNV的实际比对reads数与比对质量信息；选用HC的joint-calling模式重新对插入缺失位点INDEL进行识别，进一步明确位点信息；

（5）突变位点的筛选：基于各个样品对应的发育topology-based关系和等位位点的出现频率frequency-based可以筛选出突变候选位点；

（6）候选突变位点的分类与标签化：对所有候选突变的各种特征加上标签，特征包括但不限于：支持突变位点的reads数量、突变reads的测序链是否存在偏好、突变的碱基质量值、类突变位点在对照样本中的出现情况、区域测序质量、区域比对质量、附近是否存在插入缺失位点、位点在不同发育关系的样本中的分布状态、序列差异度，根据突变特征所指示的可靠程度进行排序和分级，降低假阳性和假阴性率；

（7）突变位点的人工检验：使用IGV Integrative Genomics Viewer进行人工检验，排除一些程序未能正确添加标签的部分情况，例如外源性污染或者拼装错误而导致的一些假阳性结果。

进一步地，在步骤（1）中，通过MD5值校验，根据测序数据GC含量，测序深度等对重测序数据进行质检，去除reads接头，含N比例大于10%的reads，以及低质量碱基占reads数比例超过50%的reads，经过过滤之后得到clean data。

进一步地，在步骤（2）中，使用MarkDuplicates模块标记异常扩增的reads，并利用GATK的RealignerTargetCreator和IndelRealigner对插入与缺失区域进行重比对。

更进一步地，在步骤（5）中，对于体细胞突变，亲缘关系越近或物理位置越近的样品含有相同突变的可能性越大。

进一步地，在步骤（5）中，来自同一分支的叶片样品间常共享体细胞突变，而不同分支的叶片样品筛选的共同突变往往是假的，基于各个样品突变的拓扑topology-based关系可以筛选出更可靠的突变位点。

进一步地，在步骤（5）中，根据等位位点的频率frequency-based，所有样品中共有的突变或仅某个样品中包含的突变且reads数目<5，可以删除这些未固定的变异位点和存在显著偏态的位点，去除部分假阳性突变位点。

有益效果：本发明提供的方法，可以在各种植物基因组中高效、全面的检测体细胞突变，包括单核苷酸变异位点（SNV）与插入缺失位点(INDEL)，为评估植物体细胞突变率提供了有力分析工具，从而为研究体细胞突变对植物发育与进化的影响提供分子基础。本发明可以在不同植物物种中进行体细胞突变的高效鉴定和筛选，不仅为评估植物体细胞的突变率提供了有力分析工具，从而为研究体细胞突变对植物发育与演化的影响提供分子基础；同时可以与动物中分析体细胞突变的方法进行类比，寻找异同点，优化整合体细胞突变的检测流程。

与现有技术相比，本发明具有如下优点：（1）本发明首次提供了植物中体细胞突变的检测方法。近年来，关于植物体细胞突变的研究越来越多，但是现有检测植物体细胞突变的方法一般借鉴人类和小鼠中。

（2）因大多数植物基因组经历过基因组加倍事件（WGD），重复序列比较多，采用动物中分析方法不仅不准确，而且会丢失很多有效信息。而本发明的出现，很好的弥补了这一方面研究方法的缺失，为不同植物物种中体细胞突变的快速鉴定提供了非常好的途径。

（3）突变体msh6突变位点的特征：与野生型相比，突变体msh6的单碱基替换突变率提高了6.46倍，插入与缺失突变率提高了12.09倍。此外，突变体msh6在颠换上的偏态更为显著，转换颠换之比约为0.12，颠换突变数量占总突变数的82.7%，其中又以C>A方向上的突变为主，占总突变的62.2%，反映了该基因可能存在对颠换突变修复的偏好性。

附图说明

图1为本发明的流程示意图。

图2为本发明的拟南芥突变体msh6取样示意图，图中虚线下方为莲座叶，上方为分支叶。

图3 为本发明利用IGV进行人工检验变异位点示意图。图中变异位点为Chr2:14340548, 突变类型为C到 A的单碱基替换。

图4为本发明的拟南芥突变体msh6体细胞突变（单核苷酸变异位点）的系统进化树。图中圆圈表示莲座叶样品，三角表示分支叶样品，不同颜色代表不同的分支。

具体实施方式

以下将配合实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

实施例1

本发明的一种在植物基因组中检测体细胞突变的方法（图1），包括如下步骤：

（1）重测序数据的评估：利用FastQC等软件对重测序数据进行质检和评估，过滤得到clean data；通过MD5值校验，根据测序数据GC含量，测序深度等对重测序数据进行质检，去除reads接头，含N比例大于10%的reads，以及低质量碱基占reads数比例超过50%的reads，经过过滤之后得到clean data。

（2）重测序数据的拼装：使用BWA-mem的默认参数将clean data比对到参考基因组上，得到原始SAM文件，通过Picard的SortSam模块将SAM文件排序并转变为BAM格式；使用MarkDuplicates模块标记异常扩增的reads，并利用GATK的RealignerTargetCreator和IndelRealigner对插入与缺失区域进行重比对。

（5）突变位点的筛选：基于各个样品对应的发育topology-based关系和等位位点的出现频率frequency-based可以筛选出突变候选位点；对于体细胞突变，亲缘关系越近或物理位置越近的样品含有相同突变的可能性越大。来自同一分支的叶片样品间常共享体细胞突变，而不同分支的叶片样品筛选的共同突变往往是假的，基于各个样品突变的拓扑topology-based关系可以筛选出更可靠的突变位点。根据等位位点的频率frequency-based，所有样品中共有的突变或仅某个样品中包含的突变且reads数目<5，可以删除这些未固定的变异位点和存在显著偏态的位点，去除部分假阳性突变位点。

实施例2

本发明的拟南芥msh6突变体体细胞突变的的鉴定和筛选

msh6突变体叶片样品重测序：剪取拟南芥T-DNA突变体msh6的叶片（图2），利用CTAB (Cetyltrimethylammonium bromide) 法提取基因组DNA，送由由武汉华大基因技术有限公司进行质量检测，选取DNA检测符合测序要求的样品（共21个），进行全基因组测序。测序平台为hiseq4000平台，采用常规建库，打断的片段大小为350bp，片段读长（reads）为150bp，使用双末端测序的方式，每个样本的测序深度超过30倍，确保测序质量大于20。

重测序数据的评估：对返回的测序数据进行质检，先进行MD5值校验，检查下载的数据是否有缺失；利用FastQC软件统计突变体重测序数据GC的含量，拟南芥GC含量大约在40%左右，若GC含量异常升高，可能存在杂菌污染的情况。最后初步统计测序数据量，估算测序深度，评估样品是否满足后续分析的要求。因返回数据为raw data，手动过滤，去除reads接头，含N比例大于10%的reads，以及低质量碱基占reads数比例超过50%的reads，经过过滤之后得到的clean data，用于后续分析。初步统计，各样品测序覆盖度的范围在19.20%-43.92%，平均覆盖度为32.94%；read≥5的样本的基因组覆盖度为91.7-98.4%，平均值为96.89%。

重测序数据的拼装：从TAIR (The Arabidopsis Information Resource (TAIR,http://www.arabidopsis.org/, version 10)下载拟南芥参考基因组与注释文件。使用BWA-mem的默认参数将clean data比对到拟南芥参考基因组上，得到原始的SAM文件。利用Picard的SortSam模块将SAM文件排序并转变为BAM格式。为了排除测序建库过程中reads异常扩增的影响，使用Picard的MarkDuplicates模块对这些异常扩增的reads进行标记。在拼装过程中，在插入与缺失附近的reads具有可能会发生拼装错误，为了减少这种错误的发生，使用GATK的RealignerTargetCreator和IndelRealigner进行局部重新比对，排除插入与缺失区域而造成序列比对错位的情况。

重测序数据的再评估：经过以上步骤之后得到的BAM文件需要再进行一次质量评估，首先对BAM文件的覆盖度与深度进行统计，检查BAM文件所包含的数据量是否满足后续分析要求。其次对BAM文件碱基质量在Q20与Q30以上的碱基占比进行统计，结果显示碱基质量在Q20以上的碱基平均占比为95.12%，碱基质量在Q30以上的碱基平均占比为89.71%，表明BAM文件的整体质量水平较高。同时使用TDNAscan (https://bio.tools/TDNAscan)对T-DNA是否插入以及插入的具体位置进行再次检验。拟南芥msh6突变体中T-DNA插入位置为Chr4: 911675..911819，位于CDS中。

突变位点的鉴定：为了防止由于算法而导致筛选结果偏态的产生，同时使用GATK中的两种算法UnifiedGenotyper (UG)和HaplotypeCaller (HC)进行突变识别，将两种算法的结果互相作为验证与补充。选用 “-rf MappingQuality -mmq 20”过滤比对质量小于20的reads，获得原始的VCF文件；

突变位点的评估：为了提高突变位点的准确度，需要进一步对候选突变位点的质量与深度进行评估。选用samtools (版本1.3.1) 的mpileup模块与VarScan (版本2.3.6)，统计候选单核苷酸变异位点（SNV）的reads数与质量信息；选用HC的joint-calling模块重新对插入缺失位点(INDEL)进行识别，进一步明确位点信息。

突变位点的筛选：对于体细胞突变，亲缘关系越近或物理位置越近的样品含有相同突变的可能性越大。比如来自同一分支的叶片样品间常共享体细胞突变，而不同分支的叶片样品筛选的共同突变往往是假的，因此，基于各个样品对应的发育（topology-based）关系可以筛选出更可靠的突变位点。同时，根据等位位点的频率（frequency-based），可以删除未固定的变异位点和存在显著偏态的位点，去除部分假阳性位点。具体的，（1）仅仅一个样品含有某个突变，则需要保证突变的reads数不得少于5个；（2）对于不止一个样品含有的同一突变，则需要保证不得少于一个样品达到reads数目≥5，同时其他样品突变的reads数至少为3个；（3）一个样品整体都有的共享突变或者不同样品之间所有样本共有的突变会被排除。

突变位点特征标签收集：标签化所有候选突变的各种特征，根据标签所指示的可靠程度进行排序和分级，反复试错降低假阳性和假阴性率。

突变位点的人工检验：使用IGV(Integrative Genomics Viewer)进行人工检验（图3），排除一些程序未能正确添加标签的情况，比如由外源性污染或者拼装错误而导致的一些假阳性结果。通过IGV人工对突变位点进行检测校对确认后，在拟南芥msh6突变体中共筛选到了96个SNV突变位点（图4）和3个INDEL 位点。

所述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改，并能够在本发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种在植物基因组中检测体细胞突变的方法，其特征在于包括如下步骤：

（7）突变位点的人工检验：使用IGV Integrative Genomics Viewer进行人工检验，排除一些程序未能正确添加标签的部分情况，外源性污染或者拼装错误而导致的一些假阳性结果。

2.根据权利要求1所述的检测植物基因组中体细胞突变的方法，其特征在于：在步骤（1）中，通过MD5值校验，根据测序数据GC含量，测序深度等对重测序数据进行质检，去除reads接头，含N比例大于10%的reads，以及低质量碱基占reads数比例超过50%的reads，经过过滤之后得到clean data。

3.根据权利要求1所述的检测植物基因组中体细胞突变的方法，其特征在于：在步骤（2）中，使用MarkDuplicates模块标记异常扩增的reads，并利用GATK的RealignerTargetCreator和IndelRealigner对插入与缺失区域进行重比对。

4.根据权利要求1所述的检测植物基因组中体细胞突变的方法，其特征在于：在步骤（5）中，对于体细胞突变，亲缘关系越近或物理位置越近的样品含有相同突变的可能性越大。

5.根据权利要求4所述的检测植物基因组中体细胞突变的方法，其特征在于：在步骤（5）中，来自同一分支的叶片样品间常共享体细胞突变，而不同分支的叶片样品筛选的共同突变往往是假的，基于各个样品突变的拓扑topology-based关系可以筛选出更可靠的突变位点。

6.根据权利要求1所述的检测植物基因组中体细胞突变的方法，其特征在于：在步骤（5）中，根据等位位点的频率frequency-based，所有样品中共有的突变或仅某个样品中包含的突变且reads数目<5，可以删除这些未固定的变异位点和存在显著偏态的位点，去除部分假阳性突变位点。