CN114512186A - 一种在植物基因组中检测体细胞突变的方法 - Google Patents
一种在植物基因组中检测体细胞突变的方法 Download PDFInfo
- Publication number
- CN114512186A CN114512186A CN202210145716.5A CN202210145716A CN114512186A CN 114512186 A CN114512186 A CN 114512186A CN 202210145716 A CN202210145716 A CN 202210145716A CN 114512186 A CN114512186 A CN 114512186A
- Authority
- CN
- China
- Prior art keywords
- mutation
- sites
- reads
- sequencing
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010069754 Acquired gene mutation Diseases 0.000 title claims abstract description 38
- 230000037439 somatic mutation Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000035772 mutation Effects 0.000 claims abstract description 100
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 12
- 239000002773 nucleotide Substances 0.000 claims abstract description 7
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 7
- 238000012163 sequencing technique Methods 0.000 claims description 39
- 239000000523 sample Substances 0.000 claims description 21
- 238000012217 deletion Methods 0.000 claims description 11
- 230000037430 deletion Effects 0.000 claims description 11
- 238000003780 insertion Methods 0.000 claims description 11
- 230000037431 insertion Effects 0.000 claims description 11
- 238000007689 inspection Methods 0.000 claims description 10
- 238000011161 development Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 5
- 239000013068 control sample Substances 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 7
- 210000001082 somatic cell Anatomy 0.000 abstract description 7
- 238000002372 labelling Methods 0.000 abstract description 2
- 230000008121 plant development Effects 0.000 abstract description 2
- 241000196324 Embryophyta Species 0.000 description 23
- 238000001514 detection method Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 101150081086 Msh6 gene Proteins 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 241000219195 Arabidopsis thaliana Species 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 241000219194 Arabidopsis Species 0.000 description 2
- 108700019187 Arabidopsis MSH6 Proteins 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- LZZYPRNAOMGNLH-UHFFFAOYSA-M Cetrimonium bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)C LZZYPRNAOMGNLH-UHFFFAOYSA-M 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 241000233866 Fungi Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种在植物基因组中检测体细胞突变的方法。所述方法包括(1)重测序数据的评估;(2)重测序数据的拼装;(3)突变位点的鉴定;(4)突变位点的评估;(5)突变位点的筛选;(6)候选突变位点的分类与标签化;(7)突变位点的人工检验。本发明提供的方法,可以在各种植物基因组中高效、全面的检测体细胞突变,包括单核苷酸变异位点(SNV)与插入缺失位点(INDEL),为评估植物体细胞突变率提供了有力分析工具,从而为研究体细胞突变对植物发育与进化的影响提供分子基础。
Description
技术领域
本发明涉及微生物技术领域,具体地说,本发明涉及一种在植物基因组中检测体细胞突变的方法,具体涉及对植物原始基因组数据的拼接与评估及体细胞突变位点的识别与筛选鉴定。
背景技术
植物基因组变异,包括突变与重组,是植物多样性产生的基础,也是植物适应性演化的内在驱动力。基因组变异如何产生、保留与遗传,受哪些因素的影响,一直是生命科学领域重要的科学问题。其中突变是经典遗传学长期关注的重要科学问题之一。随着重测序技术的发展,近年来关于突变的研究取得了巨大的进展。 目前关于突变的研究主要集中在三个方面:减数分裂突变率的评估,癌细胞的突变鉴定,体细胞突变的评估。其中体细胞的突变主要集中于细菌、真菌和动物中。
目前植物中用于检测体细胞突变的方法一般借用人类和小鼠中的研究方法,但是植物基因组具有独特的特征,动物中的检测方法无法完全适用于植物基因组。为了保证筛选出可靠的突变,已有的检测方法往往会先屏蔽基因组中的复杂序列,比如重复序列,转座元件等等,这样会导致大量的基因组信息被忽略。此外,现有的体细胞突变的检测方法虽然能有效的去除假阴性的结果,但无法有效的评估假阳性结果,因此鉴定出来的体细胞突变常常具有高假阳性率。综上,需要开发一种对植物基因组适用的,且能高效快速检测出可靠的体细胞突变的方法。
发明内容
针对现有技术的上述缺陷,本发明提供一种在植物基因组中检测体细胞突变的方法。
为了解决现有技术的问题,本发明提供了如下技术方案:本发明的一种在植物基因组中检测体细胞突变的方法,包括如下步骤:
(1)重测序数据的评估:利用FastQC等软件对重测序数据进行质检和评估,过滤得到clean data;
(2)重测序数据的拼装:使用BWA-mem的默认参数将clean data比对到参考基因组上,得到原始SAM文件,通过Picard的SortSam模块将SAM文件排序并转变为BAM格式;
(3)突变位点的鉴定:利用GATK中识别变异的两种不同算法UG和HC,选用 “-rfMappingQuality -mmq 20” 参数过滤比对质量mapping quality小于20的reads,获得包含所有原始变异位点的VCF文件;
(4)突变位点的评估:选用samtools的mpileup模块与VarScan,统计候选单核苷酸变异位点SNV的实际比对reads数与比对质量信息;选用HC的joint-calling模式重新对插入缺失位点INDEL进行识别,进一步明确位点信息;
(5)突变位点的筛选:基于各个样品对应的发育topology-based关系和等位位点的出现频率frequency-based可以筛选出突变候选位点;
(6)候选突变位点的分类与标签化:对所有候选突变的各种特征加上标签,特征包括但不限于:支持突变位点的reads数量、突变reads的测序链是否存在偏好、突变的碱基质量值、类突变位点在对照样本中的出现情况、区域测序质量、区域比对质量、附近是否存在插入缺失位点、位点在不同发育关系的样本中的分布状态、序列差异度,根据突变特征所指示的可靠程度进行排序和分级,降低假阳性和假阴性率;
(7)突变位点的人工检验:使用IGV Integrative Genomics Viewer进行人工检验,排除一些程序未能正确添加标签的部分情况,例如外源性污染或者拼装错误而导致的一些假阳性结果。
进一步地,在步骤(1)中,通过MD5值校验,根据测序数据GC含量,测序深度等对重测序数据进行质检,去除reads接头,含N比例大于10%的reads,以及低质量碱基占reads数比例超过50%的reads,经过过滤之后得到clean data。
进一步地,在步骤(2)中,使用MarkDuplicates模块标记异常扩增的reads,并利用GATK的RealignerTargetCreator和IndelRealigner对插入与缺失区域进行重比对。
更进一步地,在步骤(5)中,对于体细胞突变,亲缘关系越近或物理位置越近的样品含有相同突变的可能性越大。
进一步地,在步骤(5)中,来自同一分支的叶片样品间常共享体细胞突变,而不同分支的叶片样品筛选的共同突变往往是假的,基于各个样品突变的拓扑topology-based关系可以筛选出更可靠的突变位点。
进一步地,在步骤(5)中,根据等位位点的频率frequency-based,所有样品中共有的突变或仅某个样品中包含的突变且reads数目<5,可以删除这些未固定的变异位点和存在显著偏态的位点,去除部分假阳性突变位点。
有益效果:本发明提供的方法,可以在各种植物基因组中高效、全面的检测体细胞突变,包括单核苷酸变异位点(SNV)与插入缺失位点(INDEL),为评估植物体细胞突变率提供了有力分析工具,从而为研究体细胞突变对植物发育与进化的影响提供分子基础。本发明可以在不同植物物种中进行体细胞突变的高效鉴定和筛选,不仅为评估植物体细胞的突变率提供了有力分析工具,从而为研究体细胞突变对植物发育与演化的影响提供分子基础;同时可以与动物中分析体细胞突变的方法进行类比,寻找异同点,优化整合体细胞突变的检测流程。
与现有技术相比,本发明具有如下优点:(1)本发明首次提供了植物中体细胞突变的检测方法。近年来,关于植物体细胞突变的研究越来越多,但是现有检测植物体细胞突变的方法一般借鉴人类和小鼠中。
(2)因大多数植物基因组经历过基因组加倍事件(WGD),重复序列比较多,采用动物中分析方法不仅不准确,而且会丢失很多有效信息。而本发明的出现,很好的弥补了这一方面研究方法的缺失,为不同植物物种中体细胞突变的快速鉴定提供了非常好的途径。
(3)突变体msh6突变位点的特征:与野生型相比,突变体msh6的单碱基替换突变率提高了6.46倍,插入与缺失突变率提高了12.09倍。此外,突变体msh6在颠换上的偏态更为显著,转换颠换之比约为0.12,颠换突变数量占总突变数的82.7%,其中又以C>A方向上的突变为主,占总突变的62.2%,反映了该基因可能存在对颠换突变修复的偏好性。
附图说明
图1为本发明的流程示意图。
图2为本发明的拟南芥突变体msh6取样示意图,图中虚线下方为莲座叶,上方为分支叶。
图3 为本发明利用IGV进行人工检验变异位点示意图。图中变异位点为Chr2:14340548, 突变类型为C到 A的单碱基替换。
图4为本发明的拟南芥突变体msh6体细胞突变(单核苷酸变异位点)的系统进化树。图中圆圈表示莲座叶样品,三角表示分支叶样品,不同颜色代表不同的分支。
具体实施方式
以下将配合实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
实施例1
本发明的一种在植物基因组中检测体细胞突变的方法(图1),包括如下步骤:
(1)重测序数据的评估:利用FastQC等软件对重测序数据进行质检和评估,过滤得到clean data;通过MD5值校验,根据测序数据GC含量,测序深度等对重测序数据进行质检,去除reads接头,含N比例大于10%的reads,以及低质量碱基占reads数比例超过50%的reads,经过过滤之后得到clean data。
(2)重测序数据的拼装:使用BWA-mem的默认参数将clean data比对到参考基因组上,得到原始SAM文件,通过Picard的SortSam模块将SAM文件排序并转变为BAM格式;使用MarkDuplicates模块标记异常扩增的reads,并利用GATK的RealignerTargetCreator和IndelRealigner对插入与缺失区域进行重比对。
(3)突变位点的鉴定:利用GATK中识别变异的两种不同算法UG和HC,选用 “-rfMappingQuality -mmq 20” 参数过滤比对质量mapping quality小于20的reads,获得包含所有原始变异位点的VCF文件;
(4)突变位点的评估:选用samtools的mpileup模块与VarScan,统计候选单核苷酸变异位点SNV的实际比对reads数与比对质量信息;选用HC的joint-calling模式重新对插入缺失位点INDEL进行识别,进一步明确位点信息;
(5)突变位点的筛选:基于各个样品对应的发育topology-based关系和等位位点的出现频率frequency-based可以筛选出突变候选位点;对于体细胞突变,亲缘关系越近或物理位置越近的样品含有相同突变的可能性越大。来自同一分支的叶片样品间常共享体细胞突变,而不同分支的叶片样品筛选的共同突变往往是假的,基于各个样品突变的拓扑topology-based关系可以筛选出更可靠的突变位点。根据等位位点的频率frequency-based,所有样品中共有的突变或仅某个样品中包含的突变且reads数目<5,可以删除这些未固定的变异位点和存在显著偏态的位点,去除部分假阳性突变位点。
(6)候选突变位点的分类与标签化:对所有候选突变的各种特征加上标签,特征包括但不限于:支持突变位点的reads数量、突变reads的测序链是否存在偏好、突变的碱基质量值、类突变位点在对照样本中的出现情况、区域测序质量、区域比对质量、附近是否存在插入缺失位点、位点在不同发育关系的样本中的分布状态、序列差异度,根据突变特征所指示的可靠程度进行排序和分级,降低假阳性和假阴性率;
(7)突变位点的人工检验:使用IGV Integrative Genomics Viewer进行人工检验,排除一些程序未能正确添加标签的部分情况,例如外源性污染或者拼装错误而导致的一些假阳性结果。
实施例2
本发明的拟南芥msh6突变体体细胞突变的的鉴定和筛选
msh6突变体叶片样品重测序:剪取拟南芥T-DNA突变体msh6的叶片(图2),利用CTAB (Cetyltrimethylammonium bromide) 法提取基因组DNA,送由由武汉华大基因技术有限公司进行质量检测,选取DNA检测符合测序要求的样品(共21个),进行全基因组测序。测序平台为hiseq4000平台,采用常规建库,打断的片段大小为350bp,片段读长(reads)为150bp,使用双末端测序的方式,每个样本的测序深度超过30倍,确保测序质量大于20。
重测序数据的评估:对返回的测序数据进行质检,先进行MD5值校验,检查下载的数据是否有缺失;利用FastQC软件统计突变体重测序数据GC的含量,拟南芥GC含量大约在40%左右,若GC含量异常升高,可能存在杂菌污染的情况。最后初步统计测序数据量,估算测序深度,评估样品是否满足后续分析的要求。因返回数据为raw data,手动过滤,去除reads接头,含N比例大于10%的reads,以及低质量碱基占reads数比例超过50%的reads,经过过滤之后得到的clean data,用于后续分析。初步统计,各样品测序覆盖度的范围在19.20%-43.92%,平均覆盖度为32.94%;read≥5的样本的基因组覆盖度为91.7-98.4%,平均值为96.89%。
重测序数据的拼装:从TAIR (The Arabidopsis Information Resource (TAIR,http://www.arabidopsis.org/, version 10)下载拟南芥参考基因组与注释文件。使用BWA-mem的默认参数将clean data比对到拟南芥参考基因组上,得到原始的SAM文件。利用Picard的SortSam模块将SAM文件排序并转变为BAM格式。为了排除测序建库过程中reads异常扩增的影响,使用Picard的MarkDuplicates模块对这些异常扩增的reads进行标记。在拼装过程中,在插入与缺失附近的reads具有可能会发生拼装错误,为了减少这种错误的发生,使用GATK的RealignerTargetCreator和IndelRealigner进行局部重新比对,排除插入与缺失区域而造成序列比对错位的情况。
重测序数据的再评估:经过以上步骤之后得到的BAM文件需要再进行一次质量评估,首先对BAM文件的覆盖度与深度进行统计,检查BAM文件所包含的数据量是否满足后续分析要求。其次对BAM文件碱基质量在Q20与Q30以上的碱基占比进行统计,结果显示碱基质量在Q20以上的碱基平均占比为95.12%,碱基质量在Q30以上的碱基平均占比为89.71%,表明BAM文件的整体质量水平较高。同时使用TDNAscan (https://bio.tools/TDNAscan)对T-DNA是否插入以及插入的具体位置进行再次检验。拟南芥msh6突变体中T-DNA插入位置为Chr4: 911675..911819,位于CDS中。
突变位点的鉴定:为了防止由于算法而导致筛选结果偏态的产生,同时使用GATK中的两种算法UnifiedGenotyper (UG)和HaplotypeCaller (HC)进行突变识别,将两种算法的结果互相作为验证与补充。选用 “-rf MappingQuality -mmq 20”过滤比对质量小于20的reads,获得原始的VCF文件;
突变位点的评估:为了提高突变位点的准确度,需要进一步对候选突变位点的质量与深度进行评估。选用samtools (版本1.3.1) 的mpileup模块与VarScan (版本2.3.6),统计候选单核苷酸变异位点(SNV)的reads数与质量信息;选用HC的joint-calling模块重新对插入缺失位点(INDEL)进行识别,进一步明确位点信息。
突变位点的筛选:对于体细胞突变,亲缘关系越近或物理位置越近的样品含有相同突变的可能性越大。比如来自同一分支的叶片样品间常共享体细胞突变,而不同分支的叶片样品筛选的共同突变往往是假的,因此,基于各个样品对应的发育(topology-based)关系可以筛选出更可靠的突变位点。同时,根据等位位点的频率(frequency-based),可以删除未固定的变异位点和存在显著偏态的位点,去除部分假阳性位点。具体的,(1)仅仅一个样品含有某个突变,则需要保证突变的reads数不得少于5个;(2)对于不止一个样品含有的同一突变,则需要保证不得少于一个样品达到reads数目≥5,同时其他样品突变的reads数至少为3个;(3)一个样品整体都有的共享突变或者不同样品之间所有样本共有的突变会被排除。
突变位点特征标签收集:标签化所有候选突变的各种特征,根据标签所指示的可靠程度进行排序和分级,反复试错降低假阳性和假阴性率。
突变位点的人工检验:使用IGV(Integrative Genomics Viewer)进行人工检验(图3),排除一些程序未能正确添加标签的情况,比如由外源性污染或者拼装错误而导致的一些假阳性结果。通过IGV人工对突变位点进行检测校对确认后,在拟南芥msh6突变体中共筛选到了96个SNV突变位点(图4)和3个INDEL 位点。
所述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改,并能够在本发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (6)
1.一种在植物基因组中检测体细胞突变的方法,其特征在于包括如下步骤:
(1)重测序数据的评估:利用FastQC等软件对重测序数据进行质检和评估,过滤得到clean data;
(2)重测序数据的拼装:使用BWA-mem的默认参数将clean data比对到参考基因组上,得到原始SAM文件,通过Picard的SortSam模块将SAM文件排序并转变为BAM格式;
(3)突变位点的鉴定:利用GATK中识别变异的两种不同算法UG和HC,选用 “-rfMappingQuality -mmq 20” 参数过滤比对质量mapping quality小于20的reads,获得包含所有原始变异位点的VCF文件;
(4)突变位点的评估:选用samtools的mpileup模块与VarScan,统计候选单核苷酸变异位点SNV的实际比对reads数与比对质量信息;选用HC的joint-calling模式重新对插入缺失位点INDEL进行识别,进一步明确位点信息;
(5)突变位点的筛选:基于各个样品对应的发育topology-based关系和等位位点的出现频率frequency-based可以筛选出突变候选位点;
(6)候选突变位点的分类与标签化:对所有候选突变的各种特征加上标签,特征包括但不限于:支持突变位点的reads数量、突变reads的测序链是否存在偏好、突变的碱基质量值、类突变位点在对照样本中的出现情况、区域测序质量、区域比对质量、附近是否存在插入缺失位点、位点在不同发育关系的样本中的分布状态、序列差异度,根据突变特征所指示的可靠程度进行排序和分级,降低假阳性和假阴性率;
(7)突变位点的人工检验:使用IGV Integrative Genomics Viewer进行人工检验,排除一些程序未能正确添加标签的部分情况,外源性污染或者拼装错误而导致的一些假阳性结果。
2.根据权利要求1所述的检测植物基因组中体细胞突变的方法,其特征在于:在步骤(1)中,通过MD5值校验,根据测序数据GC含量,测序深度等对重测序数据进行质检,去除reads接头,含N比例大于10%的reads,以及低质量碱基占reads数比例超过50%的reads,经过过滤之后得到clean data。
3.根据权利要求1所述的检测植物基因组中体细胞突变的方法,其特征在于:在步骤(2)中,使用MarkDuplicates模块标记异常扩增的reads,并利用GATK的RealignerTargetCreator和IndelRealigner对插入与缺失区域进行重比对。
4.根据权利要求1所述的检测植物基因组中体细胞突变的方法,其特征在于:在步骤(5)中,对于体细胞突变,亲缘关系越近或物理位置越近的样品含有相同突变的可能性越大。
5.根据权利要求4所述的检测植物基因组中体细胞突变的方法,其特征在于:在步骤(5)中,来自同一分支的叶片样品间常共享体细胞突变,而不同分支的叶片样品筛选的共同突变往往是假的,基于各个样品突变的拓扑topology-based关系可以筛选出更可靠的突变位点。
6.根据权利要求1所述的检测植物基因组中体细胞突变的方法,其特征在于:在步骤(5)中,根据等位位点的频率frequency-based,所有样品中共有的突变或仅某个样品中包含的突变且reads数目<5,可以删除这些未固定的变异位点和存在显著偏态的位点,去除部分假阳性突变位点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210145716.5A CN114512186A (zh) | 2022-02-17 | 2022-02-17 | 一种在植物基因组中检测体细胞突变的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210145716.5A CN114512186A (zh) | 2022-02-17 | 2022-02-17 | 一种在植物基因组中检测体细胞突变的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114512186A true CN114512186A (zh) | 2022-05-17 |
Family
ID=81551423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210145716.5A Pending CN114512186A (zh) | 2022-02-17 | 2022-02-17 | 一种在植物基因组中检测体细胞突变的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114512186A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116504318A (zh) * | 2023-06-25 | 2023-07-28 | 西安交通大学医学院第一附属医院 | 一种基于机器学习的肿瘤ctDNA信息统计处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014036167A1 (en) * | 2012-08-28 | 2014-03-06 | The Broad Institute, Inc. | Detecting variants in sequencing data and benchmarking |
KR20170098648A (ko) * | 2016-02-22 | 2017-08-30 | 연세대학교 산학협력단 | 실험실 내 벡터 오염으로 인해 발생하는 위양 체성변이의 검출 및 제거방법 |
CN111180010A (zh) * | 2019-12-27 | 2020-05-19 | 北京优迅医学检验实验室有限公司 | 肿瘤体细胞突变位点检测方法及其装置 |
CN111916152A (zh) * | 2020-06-04 | 2020-11-10 | 华南理工大学 | 一种用于高通量测序体细胞突变检测性能评估的数据集和方法 |
-
2022
- 2022-02-17 CN CN202210145716.5A patent/CN114512186A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014036167A1 (en) * | 2012-08-28 | 2014-03-06 | The Broad Institute, Inc. | Detecting variants in sequencing data and benchmarking |
KR20170098648A (ko) * | 2016-02-22 | 2017-08-30 | 연세대학교 산학협력단 | 실험실 내 벡터 오염으로 인해 발생하는 위양 체성변이의 검출 및 제거방법 |
CN111180010A (zh) * | 2019-12-27 | 2020-05-19 | 北京优迅医学检验实验室有限公司 | 肿瘤体细胞突变位点检测方法及其装置 |
CN111916152A (zh) * | 2020-06-04 | 2020-11-10 | 华南理工大学 | 一种用于高通量测序体细胞突变检测性能评估的数据集和方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116504318A (zh) * | 2023-06-25 | 2023-07-28 | 西安交通大学医学院第一附属医院 | 一种基于机器学习的肿瘤ctDNA信息统计处理方法 |
CN116504318B (zh) * | 2023-06-25 | 2023-08-25 | 西安交通大学医学院第一附属医院 | 一种基于机器学习的肿瘤ctDNA信息统计处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Myles et al. | Rapid genomic characterization of the genus Vitis | |
Sun et al. | Linked-read sequencing of gametes allows efficient genome-wide analysis of meiotic recombination | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN112669901A (zh) | 基于低深度高通量基因组测序的染色体拷贝数变异检测装置 | |
CN112233722B (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
CN114512186A (zh) | 一种在植物基因组中检测体细胞突变的方法 | |
CN115807122B (zh) | 一种菠萝种资源鉴定的snp分子标记及应用 | |
CN108642568B (zh) | 一种家犬全基因组低密度品种鉴定专用snp芯片设计方法 | |
CN111826429B (zh) | 一种基于简化基因组测序和snp次等位基因频率的非杂交后代鉴定方法 | |
CN112489727A (zh) | 一种快速获取罕见病致病位点的方法和系统 | |
CN111916151A (zh) | 一种苜蓿黄萎病菌的溯源检测方法及应用 | |
CN116312779A (zh) | 检测样本污染和识别样本错配的方法和装置 | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
CN116590423A (zh) | 一种鉴定鹅产蛋性能的分子标记及检测方法 | |
CN111798922B (zh) | 基于重测序数据中多态性位点密度鉴定小麦育种的基因组选择利用区间的方法 | |
CN113793637B (zh) | 基于亲本基因型与子代表型的全基因组关联分析方法 | |
CN116004893A (zh) | 一种阳春砂和海南砂种间杂交种及其亲本的鉴定方法 | |
CN115820923A (zh) | 一种用于构建甘蔗dna指纹图谱的分子标记组合及其应用 | |
KR101911307B1 (ko) | 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술 | |
JP7166638B2 (ja) | 多型検出法 | |
CN112102880A (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
KR102603207B1 (ko) | 통계적 규제화 방법과 선택확률을 활용한 표현형질 연관 snp 마커 발굴 방법 | |
CN110232952A (zh) | 一种批量分析微卫星数据的生物信息学方法 | |
CN117363780A (zh) | 一种冬瓜10k snp液相育种芯片及其应用 | |
CN117210596B (zh) | 一种甜瓜snp位点标记组合、检测snp位点标记探针组合、液相芯片及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |