CN116705153A - 确定snp检测区域的方法和对测序样本进行校正的方法 - Google Patents
确定snp检测区域的方法和对测序样本进行校正的方法 Download PDFInfo
- Publication number
- CN116705153A CN116705153A CN202310341881.2A CN202310341881A CN116705153A CN 116705153 A CN116705153 A CN 116705153A CN 202310341881 A CN202310341881 A CN 202310341881A CN 116705153 A CN116705153 A CN 116705153A
- Authority
- CN
- China
- Prior art keywords
- snp
- sequencing
- result
- methylation
- locus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 125
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012164 methylation sequencing Methods 0.000 claims abstract description 53
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 61
- 230000035772 mutation Effects 0.000 claims description 57
- 238000012216 screening Methods 0.000 claims description 36
- 108090000623 proteins and genes Proteins 0.000 claims description 12
- 108700028369 Alleles Proteins 0.000 claims description 11
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 6
- 238000001353 Chip-sequencing Methods 0.000 claims description 3
- 238000012268 genome sequencing Methods 0.000 claims description 3
- 239000002773 nucleotide Substances 0.000 abstract description 8
- 125000003729 nucleotide group Chemical group 0.000 abstract description 8
- 238000012795 verification Methods 0.000 abstract description 4
- 230000011987 methylation Effects 0.000 abstract description 2
- 238000007069 methylation reaction Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 8
- 238000012165 high-throughput sequencing Methods 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请涉及一种对测序样本进行校正的方法,包括:分别采用普通测序和甲基化测序对多个样本进行测序,获得普通测序结果和甲基化测序结果,基于普通测序结果获得第一SNP位点集,以及基于甲基化测序结果获得的第二SNP位点集,将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集,基于普通测序在第三SNP位点集的检测结果和甲基化测序在第三SNP位点集的检测结果,获得一致性比对结果,并基于一致性比对结果与指定阈值的比较对测序样本进行校正。本申请方法的SNP检测速度由2.5天提高到5小时,提高了甲基化数据SNP检测效率。本申请还对一致性比对方法进行了改进,在速度上由30min提高到10s,全面提升样本验证的准确性和速度。
Description
技术领域
本申请属于生物技术领域,具体地,涉及一种确定SNP检测区域的方法,以及对测序样本进行校正的方法。
背景技术
使用甲基化测序(例如,亚硫酸氢盐全基因组测序(WGBS,Whole GenomeBisulfite Sequencing))的DNA甲基化分析越来越被认为是检测、诊断和/或监测疾病如癌症的一种有价值的诊断工具。DNA甲基化已被证明具有组织特异性,可用于早期癌症检测,并可根据循环肿瘤DNA(ctDNA)甲基化特征追踪到肿瘤原发部位。
全基因组测序(WGS,Whole Genome Sequencing)是高通量测序技术,用于快速,低成本地确定生物体的完整基因组序列。基因组的深度测序对于临床研究的意义重大,WGS测序在了解基因组突变在健康和疾病中的重要性是精准医疗的基石。
随着高通量测序技术的发展,多组学研究不断深入,通过对各组学进行高通量测序并对数据整合研究,可以全面和系统地了解基础研究、疾病诊断和药物研发等领域中物质间的相互关系。
在多组学研究中高通量测序往往需要面对巨大的样本量,这通常增加样本混淆的风险,样本信息对称是后续信息分析的基础,因此在分析前首先要对样本进行一个验证,以保证后续分析的样本是与已知信息相匹配的,确保在研究分析中得到更准确的结果。
发明内容
本申请提供了一种确定SNP(单核苷酸多态性)检测区域的方法,以及对测序样本进行校正的方法。本申请的方法可以准确、高效的校验测试样本。
具体来说,本申请涉及以下内容:
1.一种确定SNP检测区域的方法,所述方法包括以下步骤:
筛选数据库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集,
筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率大于0.3且小于0.55的位点,得到第二位点集,
筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集,基于第三位点集,获得SNP检测区域。
2.根据项1所述的方法,其中第三位点集中位点的数量为1M以上。
3.根据项1所述的方法,其中基于第三位点集,获得SNP检测区域为:
将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域。
4.根据项1所述的方法,其中SNP检测区域的长度为300M bp以上。
5.根据项1所述的方法,其中所述数据库为dbSNP库。
6.根据项1所述的方法,其中所述低CG区域是指参考基因组200bp bin区间内没有CG碱基的区域。
7.一种对测序样本进行校正的方法,所述方法包括以下步骤:
分别采用普通测序和甲基化测序对多个样本进行测序,获得普通测序结果和甲基化测序结果,
基于普通测序结果获得第一SNP位点集,以及基于甲基化测序结果获得的第二SNP位点集,
将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集,
基于普通测序在第三SNP位点集的检测结果和甲基化测序在第三SNP位点集的检测结果,获得一致性比对结果,
当所述一致性比对结果大于指定阈值时,判定普通测序的结果和甲基化测序的结果为同一样本的普通测序结果和甲基化测序结果,
当所述一致性比对结果小于等于指定阈值时,判定普通测序的结果和甲基化测序的结果为不同样本的普通测序结果和甲基化测序结果。
8.根据项7所述的方法,其中普通测序为全基因组测序、靶向基因组测序或芯片测序,甲基化测序为亚硫酸氢盐全基因组测序或靶向基因组甲基化测序。
9.根据项7所述的方法,其中基于普通测序结果获得第一SNP位点集包括:
对普通测序结果进行SNP检测,获得初步SNP位点,
筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。
10.根据项9所述的方法,其中对普通测序结果进行SNP检测为对普通测序结果在SNP检测区域中的结果进行SNP检测。
11.根据项7所述的方法,其中基于甲基化测序结果获得在第二SNP位点集包括:
对甲基化测序结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点,
筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。
12.根据项10或11所述的方法,其中SNP检测区域通过项1-5中任一项所述的方法确定。
13.根据项7所述的方法,其中一致性比对结果为普通测序和甲基化测序在第三SNP位点集中基因型一样的位点与第三SNP位点集中总位点的比值。
14.根据项7所述的方法,其中普通测序结果为去除低质量测序后的测序结果。
15.根据项7所述的方法,其中甲基化测序结果为去除低质量测序后的测序结果。
16.根据项7所述的方法,其中指定阈值介于不同样本的最大一致性比对结果与同一样本的最小一致性比对结果之间。
在多组学研究中高通量测序往往需要面对巨大的样本量,这通常增加样本混淆的风险,样本信息的对称是后续信息分析的基础,因此在分析前首先要对样本进行一个校正,以保证后续分析的样本是与已知信息相匹配的,确保后续研究分析如建模预测等得到更准确的结果。
本申请提供了一种确定SNP检测区域的方法,以及利用确定的SNP检测区域对测序样本进行校正的方法。本申请的方法用普通测序和甲基化测序两种组学数据共同检测到的SNP位点替代用全部SNP位点进行样本一致性比较,在保证准确性的基础上,大幅提高了检测效率,使得其SNP检测速度由2.5天提高到5小时。
本申请的方法还对一致性比对方法进行了改进,不仅提高了一致性比对的准确性,而且在速度上由30min提高到10s,全面提升样本验证的准确性和速度。
附图说明
图1为确定SNP检测区域的流程示意图;
图2为指定阈值设定的示意图;
图3为测序数据SNP检测与比对示意图。
具体实施方式
下面结合实施例进一步说明本申请,应当理解,实施例仅用于进一步说明和阐释本申请,并非用于限制本申请。
除非另外定义,本说明书中有关技术的和科学的术语与本领域内的技术人员所通常理解的意思相同。虽然在实验或实际应用中可以应用与此间所述相似或相同的方法和材料,本文还是在下文中对材料和方法做了描述。在相冲突的情况下,以本说明书包括其中定义为准,另外,材料、方法和例子仅供说明,而不具限制性。以下结合具体实施例对本申请作进一步的说明,但不用来限制本申请的范围。
单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括碱基的颠换、转换、插入和缺失。它是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上。SNP作为第三代分子标记,被广泛应用于分子遗传学、法医物证检验以及疾病诊断和治疗等众多领域。
本申请提供了一种确定SNP检测区域的方法,如图1所示,所述方法包括以下步骤:
步骤一:筛选数据库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集,
步骤二:筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率(MAF,Minor Allele Frequency)大于0.3且小于0.55的位点,得到第二位点集,
步骤三:筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集,
步骤四:基于第三位点集,获得SNP检测区域。
在步骤一种,数据库可以为dbSNP库(The Single Nucleotide Polymorphismdatabase)。
在步骤二中,最小等位基因频率参考千人基因组数据库获得。
在步骤三中,低CG区域是指低CG区域是指参考基因组200bp bin区间内没有CG碱基的区域。其中,bin区间是人为的将参考基因组切割成的长度一定的区间,例如200bp bin区间是指将参考基因组划分为多个200bp的区间。本申请的低CG区域是统计这些多个200bp的区间,在区间内没有CG碱基,则认为是低CG区域。第三位点集中位点的数量为1M以上,例如1M-5M、1M-3M、1M-2M等。
在步骤四中,基于第三位点集,获得SNP检测区域为:
将第三位点集中的位点前后延伸100-200bp(例如可以为100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp),对有重叠的区域进行合并,获得SNP检测区域。
在一个具体的实施方式中,SNP检测区域的长度为300M bp以上,例如可以为300M-1000M bp、300M-800M bp、300M-500M bp、300M-400M bp。
在一个具体的实施方式中,一种确定SNP检测区域的方法包括以下步骤:筛选dbSNP库(The Single Nucleotide Polymorphism database)中参考基因位点和突变基因位点为A或T的位点,得到第一位点集;筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率(MAF,Minor Allele Frequency)大于0.3且小于0.55的位点,得到第二位点集;筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集,其中第三位点集中位点的数量为1M以上;将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域,其中SNP检测区域的长度为300M以上。
与使用全部SNP位点进行SNP检测相比,通过上述方法确定的SNP检测区域进行SNP检测,在保证准确性的基础上,大幅提高了检测效率,使得其SNP检测速度由2.5天提高到5小时。同时,本申请通过上述方法确定SNP检测区域是对SNP检测区域的优化,相对于全基因组SNP检测仅仅是检测区域的优化,并不影响SNP检测的准确性。
本申请还提供了一种对测序样本进行校正的方法,所述方法包括以下步骤:
步骤一:分别采用普通测序和甲基化测序对多个样本进行测序,获得普通测序结果和甲基化测序结果,
步骤二:基于普通测序结果获得第一SNP位点集,以及基于甲基化测序结果获得第二SNP位点集,
步骤三:将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集,
步骤四:基于普通测序在第三SNP位点集的检测结果和甲基化测序在第三SNP位点集的检测结果,获得一致性比对结果,
步骤五:当所述一致性比对结果大于指定阈值时,判定普通测序的结果和甲基化测序的结果为同一样本的普通测序结果和甲基化测序结果,
当所述一致性比对结果小于等于指定阈值时,判定普通测序的结果和甲基化测序的结果为不同样本的普通测序结果和甲基化测序结果。
在步骤一中,普通测序是相对于甲基化测序这种需要对基因组DNA进行特殊处理(如亚硫酸氢盐处理)的测序方法而言的,普通测序不需对DNA进行特殊处理,直接用于建库测序。普通测序可以包括全基因组测序、靶向基因组测序、芯片测序等。甲基化测序可以包括亚硫酸氢盐全基因组测序、靶向基因组甲基化测序等。
本领域技术人员可以理解,针对不同的测序方法,步骤一还可以包括对测序之前的样本进行处理的步骤。例如,所述方法可以包括提取样品中的cfDNA以获得DNA样本的步骤,进一步地针对获得的样本进行测序。
在一个具体的实施方式中,普通测序结果为去除低质量测序后的测序结果。例如,针对全基因组测序,可以使用fastp质控软件查看测序质量,去除低质量的读段,然后采用BWA比对软件将质控后的数据比对到参考基因组上。
在一个具体的实施方式中,甲基化测序结果为去除低质量测序后的测序结果。例如,针对亚硫酸氢盐全基因组测序,可以使用fastp质控软件查看测序质量,去除低质量的读段,然后采用bismark比对软件将质控后的数据比对到参考基因组上。
在步骤二中,基于普通测序结果获得第一SNP位点集包括:对普通测序结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。其中,初步SNP位点中变异位点reads深度是指覆盖该变异位点总的reads数量,发生变异的reads是指支持该变异位点的reads数量。
在一个具体的实施方式中,对普通测序结果进行SNP检测为对全部位点进行SNP检测。
在一个具体的实施方式中,对普通测序结果进行SNP检测为对普通测序结果在SNP检测区域中的结果进行SNP检测。在一个具体的实施方式中,SNP检测区域是由上述确定SNP检测区域的方法确定的SNP检测区域。
其中,针对SNP检测,可以使用本领域已知的各种工具和方法进行。例如,对于普通测序数据常用方法有GATK,samtools,FreeBayes等,对于甲基化测序数据常用的方法有BisSNP等。
在一个具体的实施方式中,普通测序为WGS,基于WGS结果获得第一SNP位点集包括:常规WGS数据call snp方法(根据比对bam文件,使用GATK对文件进行SNP检测。SNP位点过滤:筛选变异位点reads深度大于8(即DP>8),发生变异的reads大于3的SNP位点(即AD>3)。
基于甲基化测序结果获得在SNP检测区域的第二SNP位点集包括:对甲基化测序结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。
在一个具体的实施方式中,SNP检测区域是由上述确定SNP检测区域的方法确定的SNP检测区域。
在一个具体的实施方式中,甲基化测序为WGBS,基于WGBS结果获得在SNP检测区域的第二SNP位点集包括:根据比对bam文件提取SNP检测区域的bam,使用BisSNP(https://people.csail.mit.edu/dnaase/bissnp2011/)对文件进行SNP检测,SNP位点过滤:筛选变异位点reads深度大于8(即DP>8),发生变异的reads大于3(即AD>3),筛选特定位点集合中的SNP。
在步骤四中,一致性比对结果为普通测序和甲基化测序在第三SNP位点集中基因型一样的位点与第三SNP位点集中总位点的比值。一致性比对可以通过本领域已知的各种软件和方法进行,也可以通过采用自行编写的程序或脚本运行,例如可以采用shell编写脚本。
在进行一致性比对时,本申请的方法只对普通测序和甲基化测序所得结果中共同检测到的位点即第三SNP位点进行的一致性比对,相比于对全部的SNP位点进行检测,不仅提高一致性比对的准确性,而且使得比对速度由30min提高到10s。
步骤五为基于一致性比对结果对检测的样本是否为同一样本进行判断。具体地,当所述一致性比对结果大于指定阈值时,判定普通测序的结果和甲基化测序的结果为同一样本的普通测序结果和甲基化测序结果,即所检测的样本为同一样本。当所述一致性比对结果小于等于指定阈值时,判定普通测序的结果和甲基化测序的结果为不同样本的普通测序结果和甲基化测序结果,即所检测的样本为不同样本。
不同的组学数据比对(如WGBS,甲基化捕获panel数据与WGS,基因组捕获panel数据等)的一致性阈值通常是不同的,阈值设定的方法通常是根据同一样本与不同样本的一致性比值的分布情况进行设定,以达到设定一个阈值可以准确鉴定出同一样本与不同样本的目的。
在一个具体的实施方式中,如图2所示,指定阈值介于不同样本的最大一致性比对结果与同一样本的最小一致性比对结果之间。
在一个具体的实施方式中,本申请对测序样本进行校正的方法包括以下步骤:分别采用WGS和WGBS对多个样本进行测序,获得WGS结果和WGBS结果;基于WGS结果获得第一SNP位点集,以及基于WGBS结果获得第二SNP位点集;将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集;基于WGS在第三SNP位点集的检测结果和WGBS在第三SNP位点集的检测结果,获得一致性比对结果;当所述一致性比对结果大于指定阈值时,判定WGS的结果和WGBS的结果为同一样本的WGS结果和WGBS结果,当所述一致性比对结果小于等于指定阈值时,判定WGS的结果和WGBS的结果为不同样本的WGS结果和WGBS结果。其中基于WGS结果获得第一SNP位点集包括:对WGS结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。基于WGBS结果获得第二SNP位点集包括:对WGBS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。
在一个具体的实施方式中,本申请对测序样本进行校正的方法包括以下步骤:分别采用WGS和WGBS对多个样本进行测序,获得WGS结果和WGBS结果;基于WGS结果获得第一SNP位点集,以及基于WGBS结果获得第二SNP位点集;将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集;基于WGS在第三SNP位点集的检测结果和WGBS在第三SNP位点集的检测结果,获得一致性比对结果;当所述一致性比对结果大于指定阈值时,判定WGS的结果和WGBS的结果为同一样本的WGS结果和WGBS结果,当所述一致性比对结果小于等于指定阈值时,判定WGS的结果和WGBS的结果为不同样本的WGS结果和WGBS结果。其中基于WGS结果获得第一SNP位点集包括:对WGS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。基于WGBS结果获得在SNP检测区域的第二SNP位点集包括:对WGBS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。
在一个具体的实施方式中,本申请对测序样本进行校正的方法包括以下步骤:分别采用WGS和WGBS对多个样本进行测序,获得WGS结果和WGBS结果;基于WGS结果获得第一SNP位点集,以及基于WGBS结果获得第二SNP位点集;将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集;基于WGS在第三SNP位点集的检测结果和WGBS在第三SNP位点集的检测结果,获得一致性比对结果;当所述一致性比对结果大于指定阈值时,判定WGS的结果和WGBS的结果为同一样本的WGS结果和WGBS结果,当所述一致性比对结果小于等于指定阈值时,判定WGS的结果和WGBS的结果为不同样本的WGS结果和WGBS结果。其中基于WGS结果获得第一SNP位点集包括:对WGS结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。基于WGBS结果获得第二SNP位点集包括:对WGBS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。其中SNP检测区域通过以下方法确定:筛选dbSNP库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集;筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率大于0.3且小于0.55的位点,得到第二位点集;筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集;将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域。
在一个具体的实施方式中,本申请对测序样本进行校正的方法包括以下步骤:分别采用WGS和WGBS对多个样本进行测序,获得WGS结果和WGBS结果;基于WGS结果获得第一SNP位点集,以及基于WGBS结果获得第二SNP位点集;将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集;基于WGS在第三SNP位点集的检测结果和WGBS在第三SNP位点集的检测结果,获得一致性比对结果;当所述一致性比对结果大于指定阈值时,判定WGS的结果和WGBS的结果为同一样本的WGS结果和WGBS结果,当所述一致性比对结果小于等于指定阈值时,判定WGS的结果和WGBS的结果为不同样本的WGS结果和WGBS结果。其中基于WGS结果获得第一SNP位点集包括:对WGS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。基于WGBS结果获得第二SNP位点集包括:对WGBS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。其中SNP检测区域通过以下方法确定:筛选dbSNP库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集;筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率大于0.3且小于0.55的位点,得到第二位点集;筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集;将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域。
实施例
实施例1确定SNP检测区域
确定SNP检测区域的流程示意图如图1所示。
1)根据NCBI数据库中dbSNP(The Single Nucleotide Polymorphism database)库中筛选ref和alt位点为A或T的位点,并且该位点突变A→T,或者T→A的最小等位基因频率(MAF,Minor Allele Frequency,参考千人基因组数据库)大于0.3且小于0.5,得到约3.97M个SNP位点。
2)步骤1)中得到的SNP位点保留其在参考基因组中低CG区域中的点(定义为List1),共筛选得到约1.3M个SNP位点。
3)步骤2)中得到的SNP位点,根据其位置前后延伸150bp,得到SNP检测区域(定义为Bed1),长度约为316M。
通过上述方法确定SNP检测区域是对SNP检测区域的优化,相对于全基因组SNP检测仅仅是检测区域的优化,并不影响SNP检测的准确性。实施例2测序数据SNP检测与比对
测序数据SNP检测与比对示意图如图3所示。
WGBS检测SNP方法:根据比对bam文件提取比对到Bed1检测区域中的reads得到bam1,使用BisSNP对bam1进行SNP检测,对检测到的SNP位点过滤:筛选变异位点reads深度大于8,发生变异的reads大于3,经过过滤后的SNP位点筛选其在List1中的SNP位点。
WGS检测SNP方法:根据比对bam文件,使用GATK4对文件进行SNP检测,SNP位点过滤:筛选变异位点reads深度大于8,发生变异的reads大于3的SNP位点。
根据WGBS和WGS检测到的SNP位点,根据其在参考基因组上位置,筛选两种组学数据共同检测到的位点即重合位点上的SNP,可以分别得WGBS的SNP位点和WGS的SNP位点。
使用shell编写脚本,用于基于普通测序在重合位点的检测结果和甲基化测序在重合位点的检测结果,获得一致性比对结果,即计算在重合位点上基因型一致的SNP位点数与总重合SNP位点数的比值。
实施例3确定不同组学数据样本一致性阈值
基于实施例2所述的SNP比对方法对20例样本同时进行了WGS和WGBS组学研究,样本不同组学研究的SNP位点一致性比对结果如表1所示,其中根据比对结果将阈值设置在0.6353-0.7125之间,如可将阈值设置为0.65。
表1
其中,同一样本比对结果是指相同样本SNP一致性比对结果。
非同一样本比对结果是指该样本与非自身样本SNP一致性比对结果中最大的值。
两种数据SNP结果一致性计算方法:一致性=基因型一致的SNP位点数/样本总SNP位点数
实施例4对1000例同一样本进行样本一致性验证
基于实施例2所述的SNP比对方法以及实施例3确定的指定阈值,对1000例同一样本进行一致性验证。结果显示,100%样本一致。
实施例5混淆样本溯源
取10例样本,并将其中一个组学数据标签打乱。通过实施例2所述的SNP比对方法以及实施例3确定的指定阈值,可以准确的找到真正其对应的一致性样本。结果如表2所示。
表2
其中比对结果1是指相同样本的SNP一致性比对结果。
比对结果2是指该样本与非自身样本SNP一致性比对结果中最大的值。
对于单个测序样本而言,本申请的方法使得其SNP检测速度由2.5天提高到5小时,一致性比对计算在速度上由30min提高到10s,大幅提升了整个测序样本校正的速度。当面临大量的测序样本而言时,校正速度的提升将能体现更大的优势。
Claims (10)
1.一种确定SNP检测区域的方法,所述方法包括以下步骤:
筛选数据库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集,
筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率大于0.3且小于0.55的位点,得到第二位点集,
筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集,基于第三位点集,获得SNP检测区域。
2.根据权利要求1所述的方法,其中第三位点集中位点的数量为1M以上。
3.根据权利要求1所述的方法,其中基于第三位点集,获得SNP检测区域为:
将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域。
4.根据权利要求1所述的方法,其中SNP检测区域的长度为300M bp以上。
5.根据权利要求1所述的方法,其中所述数据库为dbSNP库。
6.根据权利要求1所述的方法,其中所述低CG区域是指参考基因组200bp bin区间内没有CG碱基的区域。
7.一种对测序样本进行校正的方法,所述方法包括以下步骤:
分别采用普通测序和甲基化测序对多个样本进行测序,获得普通测序结果和甲基化测序结果,
基于普通测序结果获得第一SNP位点集,以及基于甲基化测序结果获得的第二SNP位点集,
将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集,
基于普通测序在第三SNP位点集的检测结果和甲基化测序在第三SNP位点集的检测结果,获得一致性比对结果,
当所述一致性比对结果大于指定阈值时,判定普通测序的结果和甲基化测序的结果为同一样本的普通测序结果和甲基化测序结果,
当所述一致性比对结果小于等于指定阈值时,判定普通测序的结果和甲基化测序的结果为不同样本的普通测序结果和甲基化测序结果。
8.根据权利要求7所述的方法,其中普通测序为全基因组测序、靶向基因组测序或芯片测序,甲基化测序为亚硫酸氢盐全基因组测序或靶向基因组甲基化测序。
9.根据权利要求7所述的方法,其中基于普通测序结果获得第一SNP位点集包括:
对普通测序结果进行SNP检测,获得初步SNP位点,
筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。
10.根据权利要求9所述的方法,其中对普通测序结果进行SNP检测为对普通测序结果在SNP检测区域中的结果进行SNP检测。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211126045 | 2022-09-16 | ||
CN2022111260454 | 2022-09-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116705153A true CN116705153A (zh) | 2023-09-05 |
Family
ID=87839915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310341881.2A Pending CN116705153A (zh) | 2022-09-16 | 2023-03-31 | 确定snp检测区域的方法和对测序样本进行校正的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705153A (zh) |
-
2023
- 2023-03-31 CN CN202310341881.2A patent/CN116705153A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Expectations and blind spots for structural variation detection from long-read assemblies and short-read genome sequencing technologies | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
US8972202B2 (en) | Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing | |
EP3682035A1 (en) | Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring | |
US20170233829A1 (en) | Detecting chromosomal aberrations associated with cancer using genomic sequencing | |
KR102638152B1 (ko) | 서열 변이체 호출을 위한 검증 방법 및 시스템 | |
US11193175B2 (en) | Normalizing tumor mutation burden | |
CN106778073B (zh) | 一种评估肿瘤负荷变化的方法和系统 | |
CN104462869A (zh) | 检测体细胞单核苷酸突变的方法和装置 | |
US20240029890A1 (en) | Computational modeling of loss of function based on allelic frequency | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
Trudsø et al. | A comparative study of single nucleotide variant detection performance using three massively parallel sequencing methods | |
CN112735594B (zh) | 一种筛选疾病表型相关突变位点的方法及其应用 | |
Fortier et al. | Detection of CNVs in NGS data using VS-CNV | |
CN116705153A (zh) | 确定snp检测区域的方法和对测序样本进行校正的方法 | |
CN112513292B (zh) | 基于高通量测序检测同源序列的方法和装置 | |
Park et al. | Practical calling approach for exome array-based genome-wide association studies in Korean population | |
CN111383713A (zh) | ctDNA检测分析装置及方法 | |
WO2013073929A1 (en) | Method and apparatus for detecting nucleic acid variation(s) | |
US20170226588A1 (en) | Systems and methods for dna amplification with post-sequencing data filtering and cell isolation | |
Dimartino | A machine learning based method to detect genomic imbalances exploiting X chromosome exome reads | |
CN118064563A (zh) | 脑胶质瘤1p19q、+7-10染色体异常的检测方法及装置、设备 | |
BEng et al. | Evaluating the genetic diagnostic power of exome sequencing: Identifying missing data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |