CN104834833A - 单核苷酸多态性的检测方法及装置 - Google Patents

单核苷酸多态性的检测方法及装置 Download PDF

Info

Publication number
CN104834833A
CN104834833A CN201410048518.2A CN201410048518A CN104834833A CN 104834833 A CN104834833 A CN 104834833A CN 201410048518 A CN201410048518 A CN 201410048518A CN 104834833 A CN104834833 A CN 104834833A
Authority
CN
China
Prior art keywords
section
reading sequence
snp
sequence set
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410048518.2A
Other languages
English (en)
Other versions
CN104834833B (zh
Inventor
朱鹏远
黄文潘
李雅乔
贺玲瑜
卢志远
章文蔚
席凤
龚梅花
韩鸿雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN201410048518.2A priority Critical patent/CN104834833B/zh
Publication of CN104834833A publication Critical patent/CN104834833A/zh
Application granted granted Critical
Publication of CN104834833B publication Critical patent/CN104834833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种单核苷酸多态性SNP的检测方法及装置,包括获取含有核酸序列信息的读段序列;将读段序列与参考序列进行比对,获取比对上的读段序列;将比对上的读段序列按照碱基序列5’端比对位置划分为不同的冗余读段序列组;对不同冗余读段序列组中的每个冗余读段序列组中的每个读段序列进行计分,依据读段序列的得分从一个冗余读段序列组中得到一个代表读段序列组;判断代表读段序列组是否存在支持假阴性SNP的读段序列;若判断结果为是,则从代表读段序列组中去除支持假阴性SNP的代表读段序列,获得不支持假阴性SNP的代表读段序列组;对不支持假阴性SNP的代表读段序列组进行SNP检测。通过本发明提供的SNP检测方法,可以提高测序分析结果准确率。

Description

单核苷酸多态性的检测方法及装置
技术领域
本发明涉及基因组学及生物信息学技术领域,具体涉及一种单核苷酸多态性的检测方法及装置。
背景技术
随着测序技术的发展,高通量测序技术被广泛的应用到生命科学的各个领域,高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology),能一次并行对几十万到几百万条脱氧核糖核酸(DNA,Deoxyribonucleic acid)分子进行序列测定和一般读长(reads)较短等为标志,亦能用于核糖核酸(RNA,Ribonucleic Acid)测序(RNA-seq,RNA sequencing)。目前高通量测序平台有多种,包括Illumina Solexa/Hiseq、Roche454、Life Technologies ABI SOLiD/Ion Torren,PacBio、Helicos单分子测序平台以及纳米孔测序平台等。不同测序平台的测序原理有所不同,但步骤基本包括文库制备,测序等。
对测序数据的处理分析包括变异的识别检测,根据结构的大小,变异可分为单核苷酸多态性(single nucleotide polymorphism,SNP)、插入缺失(indel)、拷贝数变异(cope number variants,CNVs)、重复、倒置、平衡/非平衡易位和染色体非整倍性等多种类型。SNP是指单个核苷酸变异,是人类可遗传变异中最常见的一种,包括置换、颠换、缺失和插入,理论上每一个SNP位点都可以有4种不同的变异形式,但实际发生的只有转换和颠换。SNP在基因组中分布相当广泛,譬如在人类基因组中约每1000碱基就出现一次。研究表明,SNP可能与个体表型差异、对药物或疾病的易感性等等相关。目前的高通量测序中,在连续相同碱基处容易发生测序错误。譬如Ion Proton测序平台,其测序原理是当DNA聚合酶把核苷酸聚合到延伸的DNA链上时,会释放出一个氢离子导致反应池中的pH发生改变,位于池下的离子感受器感受到信号,再把化学信号直接转化为数字信号,从而读出DNA序列;对于连续n个相同碱基,则DNA聚合酶将连续n核苷酸结合的时候,释放出来的H+离子信号强度并不是结合单个核苷酸的释放出来的完整的n倍,在测读连续碱基时易发生错误,对后续变异检测的准确性造成影响。
发明内容
本发明提供一种SNP的检测方法及装置,以提高测序分析结果的准确率。
依据本发明的一方面提供一种SNP的检测方法,其特征在于,
获取含有核酸序列信息的读段序列;
将读段序列与参考序列进行比对,获取比对上的读段序列;
将比对上的读段序列按照5’端比对位置划分为不同的冗余读段序列组;
对不同冗余读段序列组中的每个冗余读段序列组中的每个读段序列进行计分,依据读段序列的得分从一个冗余读段序列组中得到一个代表读段序列组;
判断代表读段序列组是否存在支持假阴性单核苷酸多态性SNP的读段序列,
若判断结果为是,则从代表读段序列组中去除支持假阴性SNP的代表读段序列,获得不支持假阴性SNP的代表读段序列组;若判断结果为否,则代表读段序列组为不支持假阴性SNP的代表读段序列组;
依据不支持假阴性SNP的代表读段序列组进行SNP检测。
依据本发明的另一方面提供一种SNP的检测装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述SNP的检测方法。
本发明的有益效果是:通过判断碱基是否存在假阴性SNP以去除假阳性SNP,从而提高测序分析结果准确率。
附图说明
图1为本发明实施例一的高通量测序流程图;
图2为本发明实施例一的流程图;
图3为本发明实施例二的流程图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
现有的高通量测序平台有多种,包括Roche454,Ion PGM和Ion Proton等。本发明中的实施例以Ion Proton测序平台作说明。本发明提供的方法适用于DNA或RNA的SNP检测,因此将分别以实施例作阐述。实施例中样本DNA或RNA的提取、构建文库等均可利用现有技术进行,测序文库构建步骤一般包括打断、末端修复、加proton接头、扩增等,请参考图1,RNA样本的文库构建一般还包括将RNA反转录为DNA来进行文库构建,测序步骤及参数可以根据测序平台、样本种类等有所调整,不构成对本发明的限制。实施例中未注明具体条件的,按照常规条件或制造商建议的条件进行;所用试剂或仪器未注明生产厂商的,均为可以通过市面购买获得的常规产品。
实施例一:
本实施例采用RNA样本构建文库。RNA样本使用人组织混合液RNA的微阵列质量控制标准品(UHRR-MAQC,Universal Human Reference RNA-MicroArray Quality Control)和人脑混合液RNA微阵列质量控制标准品(HBRR-MAQC,Human Brain Reference RNA-MicroArray Quality Control),其中UHRR-MAQC标准品采购自安捷伦公司(Agilent Technologies,Inc.),HBRR-MAQC购自Ambion公司。在其他具体实施方式中,亦可以使用其他种类的RNA标准品,或是采购自其他公司所生产的RNA标准品,对本发明不构成限制。
本实施例构建文库的过程如下:取总RNA样品,用DEPC(diethylpyrocarbonate,焦碳酸二乙酯)水稀释,混匀,65℃变性,使用dT(DynalbeadsOligo)25磁珠将总RNA中的信使RNA(mRNA)调取出来并纯化;将所得mRNA与打断试剂混合得到打断的mRNA,再与试剂I混合进行一链合成反应;将一链合成反应后的体系与试剂II混合,进行二链合成反应,反应完成后,用AmpureXP磁珠纯化二链产物;所得二链产物与试剂III混合进行末端修复,并用AmpureXP磁珠纯化末端修复产物;所得末端修复产物与试剂IV混合进行加接头,并用Ampure XP磁珠纯化加接头产物;采用PCR仪扩增,并用Ampure XP磁珠纯化PCR产物,获得测序文库。构建转录本文库或其它RNA文库亦可利用现有方法,文库构建并不构成本发明的限制。
试剂I:0.5μl的100mM二硫苏糖(DTT,DL-Dithiothreitol)、0.5μl的10mM脱氧核糖核苷三磷酸(dNTP Mix,deoxy-ribonucleoside triphosphate)、0.5μl的RNases抑制剂(RNase Inhibitor)。
试剂II:10μl GEX Second Strand Buffer、2μl10mM dNTP Mix,0.2μl逆转录酶RNaseH、2.5μl DNA聚合酶I(DNA Pol I)。
试剂III:5μl10X末端修复缓冲液(End Repair Buffer)、0.4μl25mM dNTPMix、1.2μl T4DNA聚合酶(T4DNA Polymerase)、0.2μl Klenow DNA聚合酶(Klenow DNA Polymerase)、1.2μl T4多聚核苷酸激酶(T4PNK)。
试剂IV:2μl T4DNA连接酶(T4DNA Ligase)、2μl proton Adapter OligoMix(12um)、25μl2X Rapid T4DNA Ligase Buffer。
利用Agilent2100质检构建得的文库,上机测序,获得测序序列,即获得读段序列(reads)。
请参考图2,本实施例提供的SNP检测方法的实现流程具体包括:
S100:获取含有核酸序列信息的读段序列reads
S101:将读段序列与参考序列进行比对,获取比对上的读段序列
本实施例中利用reads与参考基因进行比对,从而提高比对准确性及比对效率。对于真核生物,基因是由基因组中的外显子拼接而成,而测序平台测出来的是拼接之后的序列,直接和参考基因进行比对可以较为直接、准确。另外,在输出比对结果时,本实施例是输出所有的匹配结果,而不是一般地只输出唯一匹配的reads。一个基因包括多个转录本,很多转录本是来自外显子的不同组合方式,所以有些转录本会有许多同源序列,所以有许多序列会比对到多个转录本上,因此保留所有这些碱基序列,用来判断这些序列是否来自同一个基因。在本实施例中,应用tmap比对工具。tmap是一款适用Ion Proton测序平台的商业比对软件,由Life Tech.公司开发。在其他实施方式中,亦可以使用其他的比对软件,比如Bowtie、SOAP2、BWA-SW等,或者利用本实施例提供的原理自编程序,只要该程序可以达到reads与参考基因进行比对的目的即可。
S102:将比对上的读段序列按照5’端位置划分为不同的冗余读段序列组;
在转录过程中,一个基因可以有多个转录本。很多转录本是来自外显子的不同组合方式,所以有些转录本会有许多同源序列,许多序列会比对到多个转录本上。经过tmap软件比对的reads序列长度不是固定的,但是每条reads在基因组的比对起始位置5‘端位置是固定的,对于具有相同起始位置的reads作为判定冗余的必要条件,即碱基序列5’端位置相同的reads被认为是潜在冗余reads。所述5‘端包含至少一个碱基。
S103:对不同冗余读段序列组中的读段序列依次进行计分,依据读段序列的得分从不同冗余读段序列组中各自得到代表读段序列组
本步骤的目的在于判断并过滤冗余reads。具体步骤为:
按照与参考序列的匹配程度,对不同冗余读段序列组中的每个冗余读段序列中的每个读段序列进行计分,获得各个冗余读段序列组中的每个读段序列的得分;
将获得的同一冗余读段序列组中的每个读段序列的得分与第一预设阈值相比,如果读段序列的得分不小于第一预设阈值,则保留该读段序列,以此从同一冗余读段序列组中得到一个代表读段序列组;如果同一冗余读段序列组中的所有读段序列的得分都小于第一预设阈值,则保留得分最高的读段序列,以此从同一冗余读段序列组中得到一个代表读段序列组。
根据判断过程可知,每个冗余读段序列中的每个读段序列是独立地进行计分,具体实施时可以是不同的冗余读段序列组同时对组中的每个读段序列进行计分,或者是依次完成不同的冗余读段序列组中的每个读段序列的计分,不同的冗余读段序列组并没有必然的计分先后限制。将获得的同一冗余读段序列组中的每个读段序列的得分与第一预设阈值相比的过程亦没有先后顺序的限制,只限制是每个读段序列单独地跟第一预设阈值进行比较,可以是同一冗余读段序列组中的多个读段序列同时跟第一预设阈值比较,或者是同一冗余读段序列组中的多个读段序列先后跟第一预设阈值比较,或者是不同的冗余读段序列组同时地进行各自与第一预设阈值的比较。
计分是利用设置基础比对分值进行的,比如基础分为0,reads上的一个碱基位置匹配上参考基因加一分,一个位置错配减一分,该位置缺失计0分等,由此对该read的比对情况进行打分,用于衡量某条reads与参考基因匹配的程度,一般地,一条reads越长,与参考基因匹配程度越高,则其得分越高。在其他具体实施方式中,计分的规则可以根据实现的程序进行调整,譬如基础分为100,每匹配上一个参考基因加0.1分,具体的计分规则不构成本发明的限制。本实施例中,计分通过tmap软件进行,预设阈值为120,即当读段序列的计分不小于120,则认为该读段序列为代表读段序列;如果单个冗余读段序列组中所有读段序列的计分都小于120,则选择计分最高的读段序列为代表读段序列,使每一个冗余读段序列组的代表读段序列的数目大于等于1。因此,冗余读段序列组的数目与代表读段序列组的数目必然一致。
值得一提的是,若最终目的不一定要求数据覆盖某个特定区域,也可将所有读段序列的得分都小于阈值的来源于某个区域的冗余读段序列组全部弃去。预设阈值的大小由设置的基础分值决定,可以根据原始获得的数据量、数据质量、后续的数据量要求等进行调整,譬如阈值为120或110,阈值的大小并不构成本发明的限制。另外,在其他具体实施方式中,只要是可以实现本步骤计分并进行筛选的程序即可,譬如可以自编程序,或是其他商用软件,具体实现的软件并不构成本发明的限制。
根据前述可知,阈值越大,留下的reads的匹配程度越高,越可靠,但后续可用数据减少;阈值越小,后续数据量越大,但数据可靠性低。利用这些混有可靠性低的reads进行SNP检测,假阳性SNP多;本领域人员知晓,目前利用高通量测序进行某区域的SNP检测,一般需要该区域30X的测序数据。
S104:判断代表读段序列组是否存在支持假阴性SNP的读段序列
对于具体位点的比对结果,可分为匹配(match),错配(mismatch),缺失(deletion)三种情况。本实施例的判断是否存在支持假阴性SNP的读段序列包括:
在所述代表读段序列组和/或所述代表读段序列组比对上的参考序列包含有连续相同碱基区域,并且所述连续相同碱基区域包含缺失时,比较支持缺失的代表读段序列在所述代表读段序列组的数目和/或比例与第二预设阈值的大小。若所述数目和/或比例不小于所述第二预设阈值,则所述支持缺失的代表读段序列是支持假阴性SNP的代表读段序列,判断所述代表读段序列组是存在支持假阴性单核苷酸多态性SNP的读段序列;若所述数目和/或比例大于所述第二预设阈值,判定所述支持缺失的代表读段序列不是支持假阴性SNP的代表读段序列;如果所述代表读段序列组中所有代表读段序列都不是支持假阴性SNP的代表读段序列,则判断所述代表读段序列组不存在支持假阴性单核苷酸多态性SNP的读段序列。
在所述代表读段序列组和/或所述代表读段序列组比对上的参考序列没有包含有连续相同碱基区域,或者所述连续相同碱基区域不包含缺失时,则判断所述代表读段组不存在支持假阴性SNP的读段序列。
譬如参考基因上某个碱基位点L存在连续相同碱基(均聚物,homopolymer),即位点L前或后都有相同碱基,某个代表读段序列组中共有17条reads比对到该碱基位点L,其中deletion的有1条,match的有16条,则deletion的比例为0.06;而本实施例设置的第二预设阈值为比例0.2,则支持缺失的代表读段序列在所述代表读段序列组的比例小于第二预设阈值,则判断碱基位点L的deletion是由于测序错误引起的,支持缺失所在的代表读段序列存在假阴性SNP,判断代表读段序列组存在支持假阴性SNP的读段序列。相反,如果支持缺失的代表读段序列在所述代表读段序列组的比例不小于第二预设阈值0.2,则判定支持缺失的代表读段序列的该位点确实为缺失,不支持假阴性SNP。本实施例的连续相同碱基为连续2个相同碱基,在其他具体实施方式中个,连续相同碱基可以定义为至少3个相同碱基或其他数值。
碱基位点的deletion的reads的比重预设阈值可以根据目的、需要的数据量等进行调整,譬如采用相对不严格的设置,取更小的第二预设阈值为0.1或0.15,会保留更多的代表读段,设置高一点的第二预设阈值比如0.3,会严格地去除更多的代表读段。第二预设阈值的大小并不构成本发明的限制。
S105:若判断结果为是,则从代表读段序列组中去除支持假阴性SNP的代表读段序列,获得不支持假阴性SNP的代表读段序列组;若判断结果为否,则代表读段序列组为不支持假阴性SNP的代表读段序列组;
根据步骤S104的判断结果,舍去存在假阴性SNP的代表读段序列,获得不支持假阴性SNP的代表读段序列组以进行后续的SNP检测。
S106:依据不支持假阴性SNP的代表读段序列组进行所述SNP检测(callSNP)
在本实施例中,应用GATK(The Genome Analysis Toolkit)软件进行SNP检测。GATK软件是一款商用软件,由Broad Institute开发,用于二代重测序数据分析。在其他实施方式中,亦可以使用其他SNP识别商业软件,或者自编程序,只要该程序可以识别SNP即可,因此所使用的程序不构成本发明的限制。具体检测SNP步骤为:重排列(realignment),基质量得分重校准(bqsr,Basequality score recalibration),识别SNP(call SNP),变量质量得分重校准(vqsr,Variant quality score recalibration)。
对已进行SNP检测的代表读段序列进行SNP注释(annotation),可以采用Annovar等注释软件进行,SNP注释软件并不构成对本发明的限制。
通过本实施例的提供的方法,SNP检测的数量可以增加约5000个,即可以识别出约5000个假阴性SNP,提高了测序结果的准确率。
实施例二:
本实施例在实施例一的基础上提供一种SNP检测方法,可以有效降低RNA测序分析中出现的假阳性SNP,进一步提高测序结果的准确性。
请参考图3,本实施例的具体步骤包括:
S200:获取含有核酸序列信息的读段序列
S201:将读段序列与参考序列进行比对,获取比对上的读段序列
这里与实施例一的S101类似,这里不再赘述。
S202:将比对上的读段序列按照5’端比对位置划分为不同的冗余读段序列组
这里与实施例一的S102类似,这里不再赘述。
S203:对不同冗余读段序列组中的每个冗余读段序列组中的每个读段序列进行计分,依据读段序列的得分从一个冗余读段序列组中得到一个代表读段序列组
这里与实施例一的S103类似,这里不再赘述。
S204:判断代表读段序列组是否存在支持假阴性SNP的读段序列
这里与实施例一的S104类似,这里不再赘述。
S205:若判断结果为是,则从代表读段序列组中去除支持假阴性SNP的代表读段序列,获得不支持假阴性SNP的代表读段序列组;若判断结果为否,则代表读段序列组为不支持假阴性SNP的代表读段序列组
这里与实施例一的S105类似,这里不再赘述。
S206:依据不支持假阴性SNP的代表读段序列组进行SNP检测
这里与实施例一的S106类似,这里不再赘述。
S207:判断是否存在假阳性SNP
假阳性SNP是指SNP检测软件认为该位点为SNP,但实际上该位点不是SNP。假阳性SNP的出现主要来自比对错误,这是由于RNA是包含外显子的合并,有些reads会在末端出现比对错误。而这种比对错误主要是以连续的SNP比对错误,或者是相邻较近的多个SNP比对错误出现,即在某一段读段序列中,当连续出现多个SNP,就很有可能存在假阳性SNP。
经过步骤S206的SNP检测以后,可以得到所有检测出的SNP形成的集合。本步骤的目的是判断所得到的SNP集合中,是否存在假阳性SNP,通过以下条件进行:
查看m个bp范围中检测得的SNP的个数n,当n<2时,则判断不存在假阳性SNP,m、n为自然数,2≤m≤200,本实施例取80;
当n≥2时,如果n个SNP全部都有正负代表读段序列的支持,则判断不存在假阳性SNP;如果n个SNP中的任意一个SNP没有任何一对正负代表读段序列的支持,则判断存在假阳性SNP,所说的没有任何一对正负代表读段支持的SNP为假阳性SNP。一条代表读段及其反向互补序列构成所说的一对正负代表读段。
查看m个bp范围中检测得的SNP的个数n时可以任何位点为端点而查看,优选地只需要查看任意一个SNP为端点的m个bp范围,从而提高判断效率。因此,譬如在本实施例中,第一个SNP在10bp位点,第二个SNP在110bp位点,第三个SNP在120bp,m=80,则如果以第一个SNP为端点的前后80bp内的SNP个数只有1个,n<2,则判断该SNP不是假阳性SNP。以第二个SNP为端点的后80bp内的SNP个数共有2个,则判断这两个SNP中的任意一个SNP是否有正负代表读段序列的支持,即第二个SNP和第三个SNP都要分别进行判断。
S208:如果判断结果为是,则去除假阳性SNP
根据步骤S207的判断结果,舍去存在假阳性SNP的代表读段序列,以进一步提高检测准确性。
对已进行SNP检测的代表读段序列进行SNP注释,可以采用Annovar等注释软件进行。
通过本实施例提供的测序分析方法,寡核苷酸多态性数据库(DbSNP,database of SNP)的匹配比例由原来的小于0.5,提高到0.6以上,提高了测序结果的准确性。表1为本实施例的SNP统计结果,以10个样本为例,其中样本的名称不具有实质意义,只是作为不同样本的区分之用。经过本实施例提供的SNP检测方法,过滤了假阴性SNP和假阳性SNP对测序结果的影响,进一步提高测序结果的准确率。
表1实施例二的SNP统计结果
实施例三:
本实施例的DNA样本来自炎黄(YH)细胞系基因组,中国人样本,基因组提取利用Qiagen基因组提取试剂盒,按照其产品说明书进行。在其他具体实施方式中,亦可以利用其他的市售试剂盒并按照其产品说明书操作手册进行。DNA文库构建过程如下:取1μg基因组样品,补TE缓冲液(Tris-EDTA buffer)定容,使用DNA剪切仪Covaris S2把DNA打断至长度为150-200bp;与试剂V混合进行末端修复,用AXYGEN磁珠纯化末端修复产物;与试剂VI混合进行接头连接,用AXYGEN磁珠纯化接头连接产物;使用低倍率(Low range)琼脂糖凝胶及TAE缓冲液,切胶回收目的片段,使用QIAquick Gel Extraction Kit纯化,使用dsDNA HS Assay Kit定量并记录数据;与试剂VII混合进行预PCR(Pre-PCR)反应,用AXYGEN磁珠纯化产物;取500ng Pre-PCR产物配置成用于富集目的片段的文库体系,并进行预杂交,再与试剂VIII混合进行杂交;洗脱杂交混合物,进行后PCR(Post-PCR)反应,用AXYGEN磁珠纯化Post-PCR产物,得到文库,上机测序。构建好的文库可以使用Agilent2100DNA High Sensitivity Kit进行检测。构建转录本文库或其它RNA文库亦可利用现有方法,文库构建并不构成本发明的限制。
试剂V:以纯化的打断DNA样品为Xμl作为计算基准,无核酸酶水(Nuclease-free Water)77.4-Xμl;10x多聚核苷酸激酶缓冲液(PolynucleotideKinase Buffer)10μl;dNTP Solution Set(25mM each)1.6μl;T4DNA聚合酶5μl;T4多聚核苷酸激酶(T4Polynucleotide Kinase)5μl;Klenow片段(KlenowFragment)1μl。
试剂VI:以DNA20μl为计算基准,2×连接缓冲液(Ligation buffer)50μl;P1_Adapters(10uM,自合成)10μl;A_Adapters(10uM,自合成)10μl;DNA连接酶(DNA Ligase)10μl。
试剂VII:以DNA30μl为计算基准,Nuclease-free Water45.4μl;10×pfxbuffer10;MgSO44μl;dNTP(25mM)enzymatics4μl;P1Primer(10pM自合成)2μl;A Primer(10pM自合成)2μl;Platinum pfx DNA polymerase1.6μl
试剂VIII:Nuclease-free water1.5μl;RNase Block0.5μl;Oligo CaptureLibrary5μl。
本实施例提供的SNP检测方法的实现流程具体包括:
(1)获取含有核酸序列信息的读段序列;
(2)将读段序列与参考序列进行比对,获取比对上的读段序列;
本实施例将reads与参考基因组进行比对,以hg19作为参考基因组,tmap3.6为比对工具。其他与实施例一的S101类似,这里不再赘述。
(3)将比对上的读段序列按照5’端比对位置划分为不同的冗余读段序列组;
与实施例一的S102类似,这里不再赘述。
(4)对不同冗余读段序列组中的每个冗余读段序列组中的每个读段序列进行计分,依据读段序列的得分从一个冗余读段序列组中得到一个代表读段序列组;
本实施例通过自编程序RDAA(Remove Duplicates according to AlignmentScore tag)实现去除冗余读段序列,得出代表读段序列的功能,原理与实施例一的步骤S103相似,这里不再赘述。计分仍然是利用设置基础比对分值进行,保留计分分值为[100,160]的读段序列为代表读段序列。一般而言,计分越低,读段序列的覆盖(coverage)深度越好,但由于PCR扩增产生的假阳性SNP存在较多;计分越高,读段序列的覆盖深度越差,但假阳性SNP会较少。
(5)判断代表读段序列组是否存在支持假阴性SNP的读段序列;
当SNP位点与Indel位点处在相同位置时,会影响SNP的检测。本实施例采用自编程序AOS(Alignment optimize structure)实现判断过程。具体包括两次判定:连续碱基判定,即对于参考基因组或reads,潜在的SNP位点的相邻位置都存在相同碱基,构成连续3相同碱基;插入-缺失比例(insertion-deletion ratio)比较,当插入-缺失比例符合[0.1,0.2]时,则判断缺失所在的代表读段序列存在假阴性SNP。相反,如果不能同时符合两个判定条件,则缺失所在的代表读段序列不是假阴性SNP。
(6)若判断结果为是,则从代表读段序列组中去除支持假阴性SNP的代表读段序列,获得不支持假阴性SNP的代表读段序列组;若判断结果为否,则代表读段序列组为不支持假阴性SNP的代表读段序列组;
(7)依据不支持假阴性SNP的代表读段序列组进行SNP检测
在本实施例中,应用GATK软件进行SNP检测,具体检测SNP步骤为:局部重排列(local realignment),基质量得分重校准(bqsr,Base quality scorerecalibration),检测变量(call variants),变量质量得分重校准(vqsr,Variant qualityscore recalibration)
对已进行SNP检测的代表读段序列进行SNP注释,将SNP进行annovar注释,数据库选择dbSNP version137参考基因组hg19。
选择样本TP00005(Agilent序列捕获)和样本TP00010(NimbleGen序列捕获),分别与Ion Proton插件TVC3.6(Torrent variant caller3.6)的检测结果TVC宽松参数(low stringency)和TVC严格参数(high stringency)作比较。TVC宽松参数和TVC严格参数的具体设置及参数意义可参考该软件的使用说明,这里不再赘述。请参考表二,本实施例的SNP检测方法与TVC的SNP检测方法相比,在过滤了假阴性SNP的影响后,占数据库的比例(db_rate)提高,检测出的SNP数据库中的转换/颠换(dbSNP Ti/Tv)亦有提高,并且与WGS数据的重叠度(Overlap with WGS)提高到75%以上。
表二不同SNP检测方法的结果比较
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
依据本发明的另一方面还提供一种SNP检测的装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与上述数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述实施方式中各种方法的全部或部分步骤。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。

Claims (10)

1.一种单核苷酸多态性的检测方法,其特征在于,包括:
获取含有核酸序列信息的读段序列;
将所述读段序列与参考序列进行比对,获取比对上的读段序列; 
将比对上的读段序列按照5’端比对位置划分为不同的冗余读段序列组;
对所述不同冗余读段序列组中的每个冗余读段序列组中的每个读段序列进行计分,依据读段序列的得分从一个冗余读段序列组中得到一个代表读段序列组;
判断所述代表读段序列组是否存在支持假阴性单核苷酸多态性SNP的读段序列,
若判断结果为是,则从所述代表读段序列组中去除支持假阴性SNP的代表读段序列,获得不支持假阴性SNP的代表读段序列组;若判断结果为否,则所述代表读段序列组为不支持假阴性SNP的代表读段序列组;
依据所述不支持假阴性SNP的代表读段序列组进行所述SNP检测。
2.如权利要求1所述的方法,其特征在于,所述对所述不同冗余读段序列组中的每个冗余读段序列组中的每个读段序列进行计分,依据读段序列的得分从一个冗余读段序列组中得到一个代表读段序列组的步骤包括:
按照与参考序列的匹配程度,对每个冗余读段序列组中的每个读段序列进行计分,获得不同冗余读段序列组中的每个读段序列的得分; 
将获得的同一冗余读段序列组中的每个读段序列的得分与第一预设阈值相比,如果读段序列的得分不小于第一预设阈值,则保留该读段序列,以此从同一冗余读段序列组中得到一个代表读段序列组;如果同一冗余读段序列组中的所有读段序列的得分都小于第一预设阈值,则保留得分最高的读段序列,以此从同一冗余读段序列组中得到一个代表读段序列组。
3.如权利要求1所述的方法,其特征在于,所述判断所述代表读段序列组是否存在支持假阴性单核苷酸多态性SNP的读段序列的步骤包括:
在所述代表读段序列组和/或所述代表读段序列组比对上的参考序列包含有连续相同碱基区域,并且所述连续相同碱基区域包含缺失时,比较支持缺失的代表读段序列在所述代表读段序列组的数目和/或比例与第二预设阈值的大小,
若所述数目和/或比例不小于所述第二预设阈值,则所述支持缺失的代表读段序列是支持假阴性SNP的代表读段序列,判断所述代表读段序列组是存在支持假阴性单核苷酸多态性SNP的读段序列;
若所述数目和/或比例大于所述第二预设阈值,判定所述支持缺失的代表读段序列不是支持假阴性SNP的代表读段序列,所述代表读段序列组不存在支持假阴性单核苷酸多态性SNP的读段序列。
4.如权利要求1所述的方法,其特征在于,所述判断代表读段序列组是否存在支持假阴性单核苷酸多态性SNP的读段序列包括:
在所述代表读段序列组和/或所述代表读段序列组比对上的参考序列没有包含有连续相同碱基区域,或者所述连续相同碱基区域不包含缺失时,则判断所述代表读段组不存在支持假阴性SNP的读段序列。
5.如权利要求4所述的方法,其特征在于,所述连续相同碱基区域是指包含至少3个连续相同碱基。
6.如权利要求1所述的方法,其特征在于,所述依据所述不支持假阴性SNP的代表读段序列组进行SNP检测的步骤之后还包括:
判断是否存在假阳性SNP,
如果判断结果为是,则去除假阳性SNP。
7.如权利要求6所述的方法,其特征在于,所述判断是否存在假阳性SNP的步骤包括:
查看m个bp范围中检测得的SNP的个数n,当n<2时,则判断不存在假阳性SNP,m、n为自然数,2≤m≤200;
当n≥2时,如果n个 SNP全部都有正负代表读段序列的支持,则判断不存在假阳性SNP;如果n个SNP中的任意一个SNP没有一对正负代表读段序列的支持,则判断存在假阳性SNP。
8.如权利要求7中所述的方法,其特征在于,m的取值为80。
9.如权利要求1-8中任意一项所述的方法,其特征在于,所述参考序列是参考基因或参考基因组。
10.一种单核苷酸多态性的检测装置,其特征在于,包括:
数据输入单元,用于输入数据;
数据输出单元,用于输出数据;
存储单元,用于存储数据,其中包括可执行的程序;
处理器,与所述数据输入单元、数据输出单元及存储单元数据连接,用于执行所述可执行的程序,所述程序的执行包括完成如权利要求9所述的方法。
CN201410048518.2A 2014-02-12 2014-02-12 单核苷酸多态性的检测方法及装置 Active CN104834833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410048518.2A CN104834833B (zh) 2014-02-12 2014-02-12 单核苷酸多态性的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410048518.2A CN104834833B (zh) 2014-02-12 2014-02-12 单核苷酸多态性的检测方法及装置

Publications (2)

Publication Number Publication Date
CN104834833A true CN104834833A (zh) 2015-08-12
CN104834833B CN104834833B (zh) 2017-12-05

Family

ID=53812716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410048518.2A Active CN104834833B (zh) 2014-02-12 2014-02-12 单核苷酸多态性的检测方法及装置

Country Status (1)

Country Link
CN (1) CN104834833B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108350498A (zh) * 2016-02-18 2018-07-31 深圳华大生命科学研究院 分型方法和装置
CN110168647A (zh) * 2016-11-16 2019-08-23 宜曼达股份有限公司 测序数据读段重新比对的方法
CN111524548A (zh) * 2020-07-03 2020-08-11 至本医疗科技(上海)有限公司 用于检测igh重排的方法、计算设备和计算机存储介质
CN113186255A (zh) * 2021-05-12 2021-07-30 深圳思勤医疗科技有限公司 基于单分子测序检测核苷酸变异方法与装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030171875A1 (en) * 2001-03-08 2003-09-11 Frudakis Tony Nick Efficient methods and apparatus for high-throughput processing of gene sequence data
CN1699602A (zh) * 2004-02-28 2005-11-23 三星电子株式会社 从与复杂疾病相关的多个snp标记中选择优化的snp标记组的方法
WO2010057525A1 (en) * 2008-11-19 2010-05-27 Fondazione Parco Tecnologico Padano Oligonucleotide primers for nucleotide indexing of polymorphic pcr products and methods for their use
CN102409048A (zh) * 2010-09-21 2012-04-11 深圳华大基因科技有限公司 一种基于高通量测序的dna标签文库构建方法
US20130210643A1 (en) * 2010-09-21 2013-08-15 Population Genetics Technologies Ltd Method for preparing a counter-tagged population of nucleic acid molecules.

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030171875A1 (en) * 2001-03-08 2003-09-11 Frudakis Tony Nick Efficient methods and apparatus for high-throughput processing of gene sequence data
CN1699602A (zh) * 2004-02-28 2005-11-23 三星电子株式会社 从与复杂疾病相关的多个snp标记中选择优化的snp标记组的方法
WO2010057525A1 (en) * 2008-11-19 2010-05-27 Fondazione Parco Tecnologico Padano Oligonucleotide primers for nucleotide indexing of polymorphic pcr products and methods for their use
CN102409048A (zh) * 2010-09-21 2012-04-11 深圳华大基因科技有限公司 一种基于高通量测序的dna标签文库构建方法
US20130210643A1 (en) * 2010-09-21 2013-08-15 Population Genetics Technologies Ltd Method for preparing a counter-tagged population of nucleic acid molecules.

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
候君: "《3种常用单核苷酸多态性检测方法的应用比较》", 《中国临床医学》 *
窦锦壮: "《测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响》", 《中国海洋大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108350498A (zh) * 2016-02-18 2018-07-31 深圳华大生命科学研究院 分型方法和装置
CN110168647A (zh) * 2016-11-16 2019-08-23 宜曼达股份有限公司 测序数据读段重新比对的方法
CN110168647B (zh) * 2016-11-16 2023-10-31 宜曼达股份有限公司 测序数据读段重新比对的方法
CN111524548A (zh) * 2020-07-03 2020-08-11 至本医疗科技(上海)有限公司 用于检测igh重排的方法、计算设备和计算机存储介质
CN113186255A (zh) * 2021-05-12 2021-07-30 深圳思勤医疗科技有限公司 基于单分子测序检测核苷酸变异方法与装置

Also Published As

Publication number Publication date
CN104834833B (zh) 2017-12-05

Similar Documents

Publication Publication Date Title
US11371074B2 (en) Method and system for determining copy number variation
McElhoe et al. Development and assessment of an optimized next-generation DNA sequencing approach for the mtgenome using the Illumina MiSeq
Kukurba et al. RNA sequencing and analysis
Kivioja et al. Counting absolute number of molecules using unique molecular identifiers
CN102329876B (zh) 一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法
CN103060924B (zh) 微量核酸样本的文库制备方法及其应用
EP2821501B1 (en) Method and device for detecting microdeletion in chromosome sts area
CN106715711A (zh) 确定探针序列的方法和基因组结构变异的检测方法
CN107841543B (zh) 通过使用靶向大规模并行测序的等位基因比率分析进行的胎儿三体性的非侵入性产前诊断
CN103902852A (zh) 基因表达的定量方法及装置
CN103476946A (zh) 基于配对末端随机序列的基因分型
US11248228B2 (en) Method for constructing next-generation sequencing library for detection of lowfrequency mutation and kit thereof
Corney RNA-seq using next generation sequencing
RU2013141237A (ru) Способы неинвазивного пренатального установления плоидности
US11993811B2 (en) Systems and methods for identifying and quantifying gene copy number variations
WO2013041021A1 (zh) 一种分析基因表达定量的方法
Babak et al. Genetic validation of whole-transcriptome sequencing for mapping expression affected by cis-regulatory variation
CN104834833A (zh) 单核苷酸多态性的检测方法及装置
KR20170133270A (ko) 분자 바코딩을 이용한 초병렬 시퀀싱을 위한 라이브러리 제조방법 및 그의 용도
Hook et al. Beyond assembly: the increasing flexibility of single-molecule sequencing technology
CN105209637B (zh) 非侵入性胎儿性别确定
Chung et al. Tissue requirements and DNA quality control for clinical targeted next-generation sequencing of formalin-fixed, paraffin-embedded samples: a mini-review of practical issues
US11339424B2 (en) Method for amplification and quantitation of small amount of mutation using molecular barcode and blocking oligonucleotide
Harrison et al. Characterizing microbiomes via sequencing of marker loci: techniques to improve throughput, account for cross-contamination, and reduce cost
US9499814B2 (en) Methods for identifying drug effects on a cell by determining changes in the cell's spliced message profile

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Wenwei

Inventor after: Zhu Pengyuan

Inventor after: Huang Wenpan

Inventor after: Li Yaqiao

Inventor after: He Lingyu

Inventor after: Lu Zhiyuan

Inventor after: Xi Feng

Inventor after: Gong Meihua

Inventor after: Han Hongyan

Inventor before: Zhu Pengyuan

Inventor before: Huang Wenpan

Inventor before: Li Yaqiao

Inventor before: He Lingyu

Inventor before: Lu Zhiyuan

Inventor before: Zhang Wenwei

Inventor before: Xi Feng

Inventor before: Gong Meihua

Inventor before: Han Hongyan

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Detection method and device of single nucleotide polymorphism

Effective date of registration: 20200924

Granted publication date: 20171205

Pledgee: Qingdao West Coast Development (Group) Co.,Ltd.|Qingdao HAIC Group Financial Holding Co.,Ltd.

Pledgor: BGI SHENZHEN Co.,Ltd.

Registration number: Y2020440020012

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20171205

Pledgee: Qingdao West Coast Development (Group) Co.,Ltd.|Qingdao HAIC Group Financial Holding Co.,Ltd.

Pledgor: BGI SHENZHEN Co.,Ltd.

Registration number: Y2020440020012