CN116705153A - 确定snp检测区域的方法和对测序样本进行校正的方法 - Google Patents

确定snp检测区域的方法和对测序样本进行校正的方法 Download PDF

Info

Publication number
CN116705153A
CN116705153A CN202310341881.2A CN202310341881A CN116705153A CN 116705153 A CN116705153 A CN 116705153A CN 202310341881 A CN202310341881 A CN 202310341881A CN 116705153 A CN116705153 A CN 116705153A
Authority
CN
China
Prior art keywords
snp
sequencing
result
methylation
locus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310341881.2A
Other languages
English (en)
Inventor
王小奇
许喆
仇鑫
户秋稳
田继超
彭勇飞
杨亚东
叶建伟
程丝
林金嬉
李�昊
叶志海
李子孝
王拥军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tiantan Hospital
Biochain Beijing Science and Technology Inc
Original Assignee
Beijing Tiantan Hospital
Biochain Beijing Science and Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tiantan Hospital, Biochain Beijing Science and Technology Inc filed Critical Beijing Tiantan Hospital
Publication of CN116705153A publication Critical patent/CN116705153A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及一种对测序样本进行校正的方法,包括:分别采用普通测序和甲基化测序对多个样本进行测序,获得普通测序结果和甲基化测序结果,基于普通测序结果获得第一SNP位点集,以及基于甲基化测序结果获得的第二SNP位点集,将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集,基于普通测序在第三SNP位点集的检测结果和甲基化测序在第三SNP位点集的检测结果,获得一致性比对结果,并基于一致性比对结果与指定阈值的比较对测序样本进行校正。本申请方法的SNP检测速度由2.5天提高到5小时,提高了甲基化数据SNP检测效率。本申请还对一致性比对方法进行了改进,在速度上由30min提高到10s,全面提升样本验证的准确性和速度。

Description

确定SNP检测区域的方法和对测序样本进行校正的方法
技术领域
本申请属于生物技术领域,具体地,涉及一种确定SNP检测区域的方法,以及对测序样本进行校正的方法。
背景技术
使用甲基化测序(例如,亚硫酸氢盐全基因组测序(WGBS,Whole GenomeBisulfite Sequencing))的DNA甲基化分析越来越被认为是检测、诊断和/或监测疾病如癌症的一种有价值的诊断工具。DNA甲基化已被证明具有组织特异性,可用于早期癌症检测,并可根据循环肿瘤DNA(ctDNA)甲基化特征追踪到肿瘤原发部位。
全基因组测序(WGS,Whole Genome Sequencing)是高通量测序技术,用于快速,低成本地确定生物体的完整基因组序列。基因组的深度测序对于临床研究的意义重大,WGS测序在了解基因组突变在健康和疾病中的重要性是精准医疗的基石。
随着高通量测序技术的发展,多组学研究不断深入,通过对各组学进行高通量测序并对数据整合研究,可以全面和系统地了解基础研究、疾病诊断和药物研发等领域中物质间的相互关系。
在多组学研究中高通量测序往往需要面对巨大的样本量,这通常增加样本混淆的风险,样本信息对称是后续信息分析的基础,因此在分析前首先要对样本进行一个验证,以保证后续分析的样本是与已知信息相匹配的,确保在研究分析中得到更准确的结果。
发明内容
本申请提供了一种确定SNP(单核苷酸多态性)检测区域的方法,以及对测序样本进行校正的方法。本申请的方法可以准确、高效的校验测试样本。
具体来说,本申请涉及以下内容:
1.一种确定SNP检测区域的方法,所述方法包括以下步骤:
筛选数据库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集,
筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率大于0.3且小于0.55的位点,得到第二位点集,
筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集,基于第三位点集,获得SNP检测区域。
2.根据项1所述的方法,其中第三位点集中位点的数量为1M以上。
3.根据项1所述的方法,其中基于第三位点集,获得SNP检测区域为:
将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域。
4.根据项1所述的方法,其中SNP检测区域的长度为300M bp以上。
5.根据项1所述的方法,其中所述数据库为dbSNP库。
6.根据项1所述的方法,其中所述低CG区域是指参考基因组200bp bin区间内没有CG碱基的区域。
7.一种对测序样本进行校正的方法,所述方法包括以下步骤:
分别采用普通测序和甲基化测序对多个样本进行测序,获得普通测序结果和甲基化测序结果,
基于普通测序结果获得第一SNP位点集,以及基于甲基化测序结果获得的第二SNP位点集,
将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集,
基于普通测序在第三SNP位点集的检测结果和甲基化测序在第三SNP位点集的检测结果,获得一致性比对结果,
当所述一致性比对结果大于指定阈值时,判定普通测序的结果和甲基化测序的结果为同一样本的普通测序结果和甲基化测序结果,
当所述一致性比对结果小于等于指定阈值时,判定普通测序的结果和甲基化测序的结果为不同样本的普通测序结果和甲基化测序结果。
8.根据项7所述的方法,其中普通测序为全基因组测序、靶向基因组测序或芯片测序,甲基化测序为亚硫酸氢盐全基因组测序或靶向基因组甲基化测序。
9.根据项7所述的方法,其中基于普通测序结果获得第一SNP位点集包括:
对普通测序结果进行SNP检测,获得初步SNP位点,
筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。
10.根据项9所述的方法,其中对普通测序结果进行SNP检测为对普通测序结果在SNP检测区域中的结果进行SNP检测。
11.根据项7所述的方法,其中基于甲基化测序结果获得在第二SNP位点集包括:
对甲基化测序结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点,
筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。
12.根据项10或11所述的方法,其中SNP检测区域通过项1-5中任一项所述的方法确定。
13.根据项7所述的方法,其中一致性比对结果为普通测序和甲基化测序在第三SNP位点集中基因型一样的位点与第三SNP位点集中总位点的比值。
14.根据项7所述的方法,其中普通测序结果为去除低质量测序后的测序结果。
15.根据项7所述的方法,其中甲基化测序结果为去除低质量测序后的测序结果。
16.根据项7所述的方法,其中指定阈值介于不同样本的最大一致性比对结果与同一样本的最小一致性比对结果之间。
在多组学研究中高通量测序往往需要面对巨大的样本量,这通常增加样本混淆的风险,样本信息的对称是后续信息分析的基础,因此在分析前首先要对样本进行一个校正,以保证后续分析的样本是与已知信息相匹配的,确保后续研究分析如建模预测等得到更准确的结果。
本申请提供了一种确定SNP检测区域的方法,以及利用确定的SNP检测区域对测序样本进行校正的方法。本申请的方法用普通测序和甲基化测序两种组学数据共同检测到的SNP位点替代用全部SNP位点进行样本一致性比较,在保证准确性的基础上,大幅提高了检测效率,使得其SNP检测速度由2.5天提高到5小时。
本申请的方法还对一致性比对方法进行了改进,不仅提高了一致性比对的准确性,而且在速度上由30min提高到10s,全面提升样本验证的准确性和速度。
附图说明
图1为确定SNP检测区域的流程示意图;
图2为指定阈值设定的示意图;
图3为测序数据SNP检测与比对示意图。
具体实施方式
下面结合实施例进一步说明本申请,应当理解,实施例仅用于进一步说明和阐释本申请,并非用于限制本申请。
除非另外定义,本说明书中有关技术的和科学的术语与本领域内的技术人员所通常理解的意思相同。虽然在实验或实际应用中可以应用与此间所述相似或相同的方法和材料,本文还是在下文中对材料和方法做了描述。在相冲突的情况下,以本说明书包括其中定义为准,另外,材料、方法和例子仅供说明,而不具限制性。以下结合具体实施例对本申请作进一步的说明,但不用来限制本申请的范围。
单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括碱基的颠换、转换、插入和缺失。它是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上。SNP作为第三代分子标记,被广泛应用于分子遗传学、法医物证检验以及疾病诊断和治疗等众多领域。
本申请提供了一种确定SNP检测区域的方法,如图1所示,所述方法包括以下步骤:
步骤一:筛选数据库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集,
步骤二:筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率(MAF,Minor Allele Frequency)大于0.3且小于0.55的位点,得到第二位点集,
步骤三:筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集,
步骤四:基于第三位点集,获得SNP检测区域。
在步骤一种,数据库可以为dbSNP库(The Single Nucleotide Polymorphismdatabase)。
在步骤二中,最小等位基因频率参考千人基因组数据库获得。
在步骤三中,低CG区域是指低CG区域是指参考基因组200bp bin区间内没有CG碱基的区域。其中,bin区间是人为的将参考基因组切割成的长度一定的区间,例如200bp bin区间是指将参考基因组划分为多个200bp的区间。本申请的低CG区域是统计这些多个200bp的区间,在区间内没有CG碱基,则认为是低CG区域。第三位点集中位点的数量为1M以上,例如1M-5M、1M-3M、1M-2M等。
在步骤四中,基于第三位点集,获得SNP检测区域为:
将第三位点集中的位点前后延伸100-200bp(例如可以为100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp),对有重叠的区域进行合并,获得SNP检测区域。
在一个具体的实施方式中,SNP检测区域的长度为300M bp以上,例如可以为300M-1000M bp、300M-800M bp、300M-500M bp、300M-400M bp。
在一个具体的实施方式中,一种确定SNP检测区域的方法包括以下步骤:筛选dbSNP库(The Single Nucleotide Polymorphism database)中参考基因位点和突变基因位点为A或T的位点,得到第一位点集;筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率(MAF,Minor Allele Frequency)大于0.3且小于0.55的位点,得到第二位点集;筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集,其中第三位点集中位点的数量为1M以上;将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域,其中SNP检测区域的长度为300M以上。
与使用全部SNP位点进行SNP检测相比,通过上述方法确定的SNP检测区域进行SNP检测,在保证准确性的基础上,大幅提高了检测效率,使得其SNP检测速度由2.5天提高到5小时。同时,本申请通过上述方法确定SNP检测区域是对SNP检测区域的优化,相对于全基因组SNP检测仅仅是检测区域的优化,并不影响SNP检测的准确性。
本申请还提供了一种对测序样本进行校正的方法,所述方法包括以下步骤:
步骤一:分别采用普通测序和甲基化测序对多个样本进行测序,获得普通测序结果和甲基化测序结果,
步骤二:基于普通测序结果获得第一SNP位点集,以及基于甲基化测序结果获得第二SNP位点集,
步骤三:将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集,
步骤四:基于普通测序在第三SNP位点集的检测结果和甲基化测序在第三SNP位点集的检测结果,获得一致性比对结果,
步骤五:当所述一致性比对结果大于指定阈值时,判定普通测序的结果和甲基化测序的结果为同一样本的普通测序结果和甲基化测序结果,
当所述一致性比对结果小于等于指定阈值时,判定普通测序的结果和甲基化测序的结果为不同样本的普通测序结果和甲基化测序结果。
在步骤一中,普通测序是相对于甲基化测序这种需要对基因组DNA进行特殊处理(如亚硫酸氢盐处理)的测序方法而言的,普通测序不需对DNA进行特殊处理,直接用于建库测序。普通测序可以包括全基因组测序、靶向基因组测序、芯片测序等。甲基化测序可以包括亚硫酸氢盐全基因组测序、靶向基因组甲基化测序等。
本领域技术人员可以理解,针对不同的测序方法,步骤一还可以包括对测序之前的样本进行处理的步骤。例如,所述方法可以包括提取样品中的cfDNA以获得DNA样本的步骤,进一步地针对获得的样本进行测序。
在一个具体的实施方式中,普通测序结果为去除低质量测序后的测序结果。例如,针对全基因组测序,可以使用fastp质控软件查看测序质量,去除低质量的读段,然后采用BWA比对软件将质控后的数据比对到参考基因组上。
在一个具体的实施方式中,甲基化测序结果为去除低质量测序后的测序结果。例如,针对亚硫酸氢盐全基因组测序,可以使用fastp质控软件查看测序质量,去除低质量的读段,然后采用bismark比对软件将质控后的数据比对到参考基因组上。
在步骤二中,基于普通测序结果获得第一SNP位点集包括:对普通测序结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。其中,初步SNP位点中变异位点reads深度是指覆盖该变异位点总的reads数量,发生变异的reads是指支持该变异位点的reads数量。
在一个具体的实施方式中,对普通测序结果进行SNP检测为对全部位点进行SNP检测。
在一个具体的实施方式中,对普通测序结果进行SNP检测为对普通测序结果在SNP检测区域中的结果进行SNP检测。在一个具体的实施方式中,SNP检测区域是由上述确定SNP检测区域的方法确定的SNP检测区域。
其中,针对SNP检测,可以使用本领域已知的各种工具和方法进行。例如,对于普通测序数据常用方法有GATK,samtools,FreeBayes等,对于甲基化测序数据常用的方法有BisSNP等。
在一个具体的实施方式中,普通测序为WGS,基于WGS结果获得第一SNP位点集包括:常规WGS数据call snp方法(根据比对bam文件,使用GATK对文件进行SNP检测。SNP位点过滤:筛选变异位点reads深度大于8(即DP>8),发生变异的reads大于3的SNP位点(即AD>3)。
基于甲基化测序结果获得在SNP检测区域的第二SNP位点集包括:对甲基化测序结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。
在一个具体的实施方式中,SNP检测区域是由上述确定SNP检测区域的方法确定的SNP检测区域。
在一个具体的实施方式中,甲基化测序为WGBS,基于WGBS结果获得在SNP检测区域的第二SNP位点集包括:根据比对bam文件提取SNP检测区域的bam,使用BisSNP(https://people.csail.mit.edu/dnaase/bissnp2011/)对文件进行SNP检测,SNP位点过滤:筛选变异位点reads深度大于8(即DP>8),发生变异的reads大于3(即AD>3),筛选特定位点集合中的SNP。
在步骤四中,一致性比对结果为普通测序和甲基化测序在第三SNP位点集中基因型一样的位点与第三SNP位点集中总位点的比值。一致性比对可以通过本领域已知的各种软件和方法进行,也可以通过采用自行编写的程序或脚本运行,例如可以采用shell编写脚本。
在进行一致性比对时,本申请的方法只对普通测序和甲基化测序所得结果中共同检测到的位点即第三SNP位点进行的一致性比对,相比于对全部的SNP位点进行检测,不仅提高一致性比对的准确性,而且使得比对速度由30min提高到10s。
步骤五为基于一致性比对结果对检测的样本是否为同一样本进行判断。具体地,当所述一致性比对结果大于指定阈值时,判定普通测序的结果和甲基化测序的结果为同一样本的普通测序结果和甲基化测序结果,即所检测的样本为同一样本。当所述一致性比对结果小于等于指定阈值时,判定普通测序的结果和甲基化测序的结果为不同样本的普通测序结果和甲基化测序结果,即所检测的样本为不同样本。
不同的组学数据比对(如WGBS,甲基化捕获panel数据与WGS,基因组捕获panel数据等)的一致性阈值通常是不同的,阈值设定的方法通常是根据同一样本与不同样本的一致性比值的分布情况进行设定,以达到设定一个阈值可以准确鉴定出同一样本与不同样本的目的。
在一个具体的实施方式中,如图2所示,指定阈值介于不同样本的最大一致性比对结果与同一样本的最小一致性比对结果之间。
在一个具体的实施方式中,本申请对测序样本进行校正的方法包括以下步骤:分别采用WGS和WGBS对多个样本进行测序,获得WGS结果和WGBS结果;基于WGS结果获得第一SNP位点集,以及基于WGBS结果获得第二SNP位点集;将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集;基于WGS在第三SNP位点集的检测结果和WGBS在第三SNP位点集的检测结果,获得一致性比对结果;当所述一致性比对结果大于指定阈值时,判定WGS的结果和WGBS的结果为同一样本的WGS结果和WGBS结果,当所述一致性比对结果小于等于指定阈值时,判定WGS的结果和WGBS的结果为不同样本的WGS结果和WGBS结果。其中基于WGS结果获得第一SNP位点集包括:对WGS结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。基于WGBS结果获得第二SNP位点集包括:对WGBS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。
在一个具体的实施方式中,本申请对测序样本进行校正的方法包括以下步骤:分别采用WGS和WGBS对多个样本进行测序,获得WGS结果和WGBS结果;基于WGS结果获得第一SNP位点集,以及基于WGBS结果获得第二SNP位点集;将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集;基于WGS在第三SNP位点集的检测结果和WGBS在第三SNP位点集的检测结果,获得一致性比对结果;当所述一致性比对结果大于指定阈值时,判定WGS的结果和WGBS的结果为同一样本的WGS结果和WGBS结果,当所述一致性比对结果小于等于指定阈值时,判定WGS的结果和WGBS的结果为不同样本的WGS结果和WGBS结果。其中基于WGS结果获得第一SNP位点集包括:对WGS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。基于WGBS结果获得在SNP检测区域的第二SNP位点集包括:对WGBS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。
在一个具体的实施方式中,本申请对测序样本进行校正的方法包括以下步骤:分别采用WGS和WGBS对多个样本进行测序,获得WGS结果和WGBS结果;基于WGS结果获得第一SNP位点集,以及基于WGBS结果获得第二SNP位点集;将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集;基于WGS在第三SNP位点集的检测结果和WGBS在第三SNP位点集的检测结果,获得一致性比对结果;当所述一致性比对结果大于指定阈值时,判定WGS的结果和WGBS的结果为同一样本的WGS结果和WGBS结果,当所述一致性比对结果小于等于指定阈值时,判定WGS的结果和WGBS的结果为不同样本的WGS结果和WGBS结果。其中基于WGS结果获得第一SNP位点集包括:对WGS结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。基于WGBS结果获得第二SNP位点集包括:对WGBS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。其中SNP检测区域通过以下方法确定:筛选dbSNP库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集;筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率大于0.3且小于0.55的位点,得到第二位点集;筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集;将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域。
在一个具体的实施方式中,本申请对测序样本进行校正的方法包括以下步骤:分别采用WGS和WGBS对多个样本进行测序,获得WGS结果和WGBS结果;基于WGS结果获得第一SNP位点集,以及基于WGBS结果获得第二SNP位点集;将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集;基于WGS在第三SNP位点集的检测结果和WGBS在第三SNP位点集的检测结果,获得一致性比对结果;当所述一致性比对结果大于指定阈值时,判定WGS的结果和WGBS的结果为同一样本的WGS结果和WGBS结果,当所述一致性比对结果小于等于指定阈值时,判定WGS的结果和WGBS的结果为不同样本的WGS结果和WGBS结果。其中基于WGS结果获得第一SNP位点集包括:对WGS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。基于WGBS结果获得第二SNP位点集包括:对WGBS结果在SNP检测区域中的结果进行SNP检测,获得初步SNP位点;筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第二SNP位点集。其中SNP检测区域通过以下方法确定:筛选dbSNP库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集;筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率大于0.3且小于0.55的位点,得到第二位点集;筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集;将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域。
实施例
实施例1确定SNP检测区域
确定SNP检测区域的流程示意图如图1所示。
1)根据NCBI数据库中dbSNP(The Single Nucleotide Polymorphism database)库中筛选ref和alt位点为A或T的位点,并且该位点突变A→T,或者T→A的最小等位基因频率(MAF,Minor Allele Frequency,参考千人基因组数据库)大于0.3且小于0.5,得到约3.97M个SNP位点。
2)步骤1)中得到的SNP位点保留其在参考基因组中低CG区域中的点(定义为List1),共筛选得到约1.3M个SNP位点。
3)步骤2)中得到的SNP位点,根据其位置前后延伸150bp,得到SNP检测区域(定义为Bed1),长度约为316M。
通过上述方法确定SNP检测区域是对SNP检测区域的优化,相对于全基因组SNP检测仅仅是检测区域的优化,并不影响SNP检测的准确性。实施例2测序数据SNP检测与比对
测序数据SNP检测与比对示意图如图3所示。
WGBS检测SNP方法:根据比对bam文件提取比对到Bed1检测区域中的reads得到bam1,使用BisSNP对bam1进行SNP检测,对检测到的SNP位点过滤:筛选变异位点reads深度大于8,发生变异的reads大于3,经过过滤后的SNP位点筛选其在List1中的SNP位点。
WGS检测SNP方法:根据比对bam文件,使用GATK4对文件进行SNP检测,SNP位点过滤:筛选变异位点reads深度大于8,发生变异的reads大于3的SNP位点。
根据WGBS和WGS检测到的SNP位点,根据其在参考基因组上位置,筛选两种组学数据共同检测到的位点即重合位点上的SNP,可以分别得WGBS的SNP位点和WGS的SNP位点。
使用shell编写脚本,用于基于普通测序在重合位点的检测结果和甲基化测序在重合位点的检测结果,获得一致性比对结果,即计算在重合位点上基因型一致的SNP位点数与总重合SNP位点数的比值。
实施例3确定不同组学数据样本一致性阈值
基于实施例2所述的SNP比对方法对20例样本同时进行了WGS和WGBS组学研究,样本不同组学研究的SNP位点一致性比对结果如表1所示,其中根据比对结果将阈值设置在0.6353-0.7125之间,如可将阈值设置为0.65
表1
其中,同一样本比对结果是指相同样本SNP一致性比对结果。
非同一样本比对结果是指该样本与非自身样本SNP一致性比对结果中最大的值。
两种数据SNP结果一致性计算方法:一致性=基因型一致的SNP位点数/样本总SNP位点数
实施例4对1000例同一样本进行样本一致性验证
基于实施例2所述的SNP比对方法以及实施例3确定的指定阈值,对1000例同一样本进行一致性验证。结果显示,100%样本一致。
实施例5混淆样本溯源
取10例样本,并将其中一个组学数据标签打乱。通过实施例2所述的SNP比对方法以及实施例3确定的指定阈值,可以准确的找到真正其对应的一致性样本。结果如表2所示。
表2
其中比对结果1是指相同样本的SNP一致性比对结果。
比对结果2是指该样本与非自身样本SNP一致性比对结果中最大的值。
对于单个测序样本而言,本申请的方法使得其SNP检测速度由2.5天提高到5小时,一致性比对计算在速度上由30min提高到10s,大幅提升了整个测序样本校正的速度。当面临大量的测序样本而言时,校正速度的提升将能体现更大的优势。

Claims (10)

1.一种确定SNP检测区域的方法,所述方法包括以下步骤:
筛选数据库中参考基因位点和突变基因位点为A或T的位点,得到第一位点集,
筛选第一位点集中A突变为T或者T突变为A的最小等位基因频率大于0.3且小于0.55的位点,得到第二位点集,
筛选第二位点集中位于参考基因组中低CG区域的位点,得到第三位点集,基于第三位点集,获得SNP检测区域。
2.根据权利要求1所述的方法,其中第三位点集中位点的数量为1M以上。
3.根据权利要求1所述的方法,其中基于第三位点集,获得SNP检测区域为:
将第三位点集中的位点前后延伸100-200bp,对有重叠的区域进行合并,获得SNP检测区域。
4.根据权利要求1所述的方法,其中SNP检测区域的长度为300M bp以上。
5.根据权利要求1所述的方法,其中所述数据库为dbSNP库。
6.根据权利要求1所述的方法,其中所述低CG区域是指参考基因组200bp bin区间内没有CG碱基的区域。
7.一种对测序样本进行校正的方法,所述方法包括以下步骤:
分别采用普通测序和甲基化测序对多个样本进行测序,获得普通测序结果和甲基化测序结果,
基于普通测序结果获得第一SNP位点集,以及基于甲基化测序结果获得的第二SNP位点集,
将第一SNP位点集和第二SNP位点集的重合位点作为第三SNP位点集,
基于普通测序在第三SNP位点集的检测结果和甲基化测序在第三SNP位点集的检测结果,获得一致性比对结果,
当所述一致性比对结果大于指定阈值时,判定普通测序的结果和甲基化测序的结果为同一样本的普通测序结果和甲基化测序结果,
当所述一致性比对结果小于等于指定阈值时,判定普通测序的结果和甲基化测序的结果为不同样本的普通测序结果和甲基化测序结果。
8.根据权利要求7所述的方法,其中普通测序为全基因组测序、靶向基因组测序或芯片测序,甲基化测序为亚硫酸氢盐全基因组测序或靶向基因组甲基化测序。
9.根据权利要求7所述的方法,其中基于普通测序结果获得第一SNP位点集包括:
对普通测序结果进行SNP检测,获得初步SNP位点,
筛选初步SNP位点中变异位点reads深度大于8,发生变异的reads大于3的SNP位点,得到第一SNP位点集。
10.根据权利要求9所述的方法,其中对普通测序结果进行SNP检测为对普通测序结果在SNP检测区域中的结果进行SNP检测。
CN202310341881.2A 2022-09-16 2023-03-31 确定snp检测区域的方法和对测序样本进行校正的方法 Pending CN116705153A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211126045 2022-09-16
CN2022111260454 2022-09-16

Publications (1)

Publication Number Publication Date
CN116705153A true CN116705153A (zh) 2023-09-05

Family

ID=87839915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310341881.2A Pending CN116705153A (zh) 2022-09-16 2023-03-31 确定snp检测区域的方法和对测序样本进行校正的方法

Country Status (1)

Country Link
CN (1) CN116705153A (zh)

Similar Documents

Publication Publication Date Title
Zhao et al. Expectations and blind spots for structural variation detection from long-read assemblies and short-read genome sequencing technologies
CN109767810B (zh) 高通量测序数据分析方法及装置
US8972202B2 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
EP3682035A1 (en) Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring
US20170233829A1 (en) Detecting chromosomal aberrations associated with cancer using genomic sequencing
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
US11193175B2 (en) Normalizing tumor mutation burden
CN106778073B (zh) 一种评估肿瘤负荷变化的方法和系统
CN104462869A (zh) 检测体细胞单核苷酸突变的方法和装置
US20240029890A1 (en) Computational modeling of loss of function based on allelic frequency
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
Trudsø et al. A comparative study of single nucleotide variant detection performance using three massively parallel sequencing methods
CN112735594B (zh) 一种筛选疾病表型相关突变位点的方法及其应用
Fortier et al. Detection of CNVs in NGS data using VS-CNV
CN116705153A (zh) 确定snp检测区域的方法和对测序样本进行校正的方法
CN112513292B (zh) 基于高通量测序检测同源序列的方法和装置
Park et al. Practical calling approach for exome array-based genome-wide association studies in Korean population
CN111383713A (zh) ctDNA检测分析装置及方法
WO2013073929A1 (en) Method and apparatus for detecting nucleic acid variation(s)
US20170226588A1 (en) Systems and methods for dna amplification with post-sequencing data filtering and cell isolation
Dimartino A machine learning based method to detect genomic imbalances exploiting X chromosome exome reads
CN118064563A (zh) 脑胶质瘤1p19q、+7-10染色体异常的检测方法及装置、设备
BEng et al. Evaluating the genetic diagnostic power of exome sequencing: Identifying missing data.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination