CN104603284B - 利用基因组测序片段检测拷贝数变异的方法 - Google Patents

利用基因组测序片段检测拷贝数变异的方法 Download PDF

Info

Publication number
CN104603284B
CN104603284B CN201280075581.4A CN201280075581A CN104603284B CN 104603284 B CN104603284 B CN 104603284B CN 201280075581 A CN201280075581 A CN 201280075581A CN 104603284 B CN104603284 B CN 104603284B
Authority
CN
China
Prior art keywords
window
overburden depth
depth
order
checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280075581.4A
Other languages
English (en)
Other versions
CN104603284A (zh
Inventor
张帆
罗锐邦
李娜
李英睿
王俊
汪建
杨焕明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN104603284A publication Critical patent/CN104603284A/zh
Application granted granted Critical
Publication of CN104603284B publication Critical patent/CN104603284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本发明提供了一种检测拷贝数变异的方法。该方法通过对目标样本进行测序,并对测序片段的覆盖深度进行分析来实现对拷贝数变异的评估。

Description

利用基因组测序片段检测拷贝数变异的方法
技术领域
本发明涉及基因组序列分析技术领域,更具体而言涉及利用基因组测序片段检测拷贝数变异的方法。
背景技术
拷贝数变异(Copy Number Variations,CNV)是指基因组上长度超过1kb的DNA片段,与参考基因组相比存在拷贝数的差异。这种差异可以表现为拷贝数的增加——包括插入和重复,或者表现为拷贝数的减少——包括缺失和零基因型(null genotype)。CNV在人类基因组中的分布普遍,占基因组中超过10%的序列。
目前CNV检测主要采用比较基因组杂交(comparative genomichybridization)技术,该技术通过将试验样品和参照样品基因组DNA同时与微阵列芯片上DNA探针杂交,直观地得到试验样品中基因组DNA发生变异的位点信息及拷贝数量变化信息,该技术成本高,分辨率低,该技术对于10-25kb的CNV灵敏度低。另外,用于CNV检测的技术还有以下几种:荧光定量PCR技术,其不足之处是一个反应只能测定一种CNV,需要进行多次重复;荧光原位杂交,其缺点是探针不稳定、操作繁琐且不能100%的杂交;直接测序,该技术可以检测插入、重排、断点(breakpoint),但其缺点是效率低,覆盖度小;多重连接探针扩增技术,该技术可以在一个反应中同时测定多个CNV,但其缺点是覆盖范围小,CNV本身大小有局限。利用这些技术检测CNV还有一个共同的缺点是成本都较高。
目前基于高通量测序结果的CNV检测方法主要是基于双末端测序比对(paired-end read mapping,PEM)结果。但是PEM的局限性在于,多种类型的CNV——包括复杂基因组区域中的大片段的插入和变异——难以被检测到,且对于超过平均插入文库的插入检测有局限性。
发明内容
为了克服上述CNV检测灵敏度不高、检测长度限制、操作繁琐、成本高等局限性,本发明提供了检测拷贝数变异的方法。该方法通过分析基因组序列及其相对应位置的测序片段的覆盖深度,对局部拷贝数进行评估。
这种基于测序片段的覆盖深度检测拷贝数变异的方法包括步骤:
1)对目标样本进行测序,得到测序片段;
2)将以上得到的测序片段与参考基因组序列比对,优选去除上述比对结果中的重复和冗余,得到参考序列每个位点的覆盖深度,即比对结果中涵盖该位点的测序片段数目;
3)根据以上每个位点的覆盖深度,将所有位点的覆盖深度取平均得出序列的平均覆盖深度,以同样的方式计算参考序列上具有预设片段长度的所有窗口的覆盖深度,这些窗口被定义为以下四种类型之一:
a.正常窗口:覆盖深度与序列平均覆盖深度相同的窗口,
b.重复窗口:覆盖深度明显大于平均覆盖深度的窗口,
c.缺失窗口:覆盖深度明显小于平均覆盖深度的窗口,
d.N窗口:基本没有覆盖深度的窗口;
4)将满足以下条件任一项的三以上连续窗口合并,并判断合并后的区域是否属于缺失和重复这两种CNV:
i.连续重复窗口或连续缺失窗口、
ii.缺失窗口之间有N窗口间隔,例如缺失窗口+N窗口+缺失窗口,其中N窗口不能连续出现一个以上、
iii.重复窗口之间有N窗口间隔,例如重复窗口+N窗口+重复窗口,其中N窗口不能连续出现一个以上、
iv.缺失窗口之间有正常窗口间隔,例如缺失窗口+正常窗口+缺失窗口,其中正常窗口的覆盖深度应满足减去3倍SD后落在缺失窗口的覆盖深度范围内,并且其中正常窗口不能连续出现一个以上、
v.重复窗口之间有正常窗口间隔,例如重复窗口+正常窗口+重复窗口,其中正常窗口的覆盖深度应满足加上3倍SD后落在重复窗口覆盖深度范围内,并且其中正常窗口不能连续出现一个以上,
其中,SD为所有位点的覆盖深度取平均得出序列的平均覆盖深度标准差;
5)对以上判断属于缺失和重复这两种CNV的合并区域降低假阳性,所得到的区域就是发生了插入或缺失的CNV区域。
在上述步骤1)和2)之间,优选包括步骤1’):评估测序结果是否合格,如果不合格则需要重新测序,并且如果在测序过程中引入接头序列,则去除这些接头序列。
本发明的方法可以灵敏地检测到落在那些富含结构变异的复杂区域中的CNV,同时具有无检测长度限制、操作简单,以及从而带来的成本低等优点,这些有点是本领域中其他技术达不到的。
具体实施方式
下面对本发明进行更全面的描述,详细描述了本发明的示例性实施例。
本发明的目的是提供检测拷贝数变异的方法,旨在利用测序数据,通过生物信息学方法检测目标样本与参照基因组间发生拷贝数变异的区域。
本发明检测拷贝数变异的方法可以包括以下步骤:
第一步,在对目标样品进行测序,并优选评估测序结果是否合格,如果不合格则需要重新测序;如果测序中使用了接头,还要去除引入的接头。
测序方法很多,可提供本发明的测序数据的测序法例如有454测序、Illumina测序。测序片段长度一般是90bp或100bp,例如Illumian测序法得到测序片段的长度一般是90bp,采用双末端测序。本发明方法使用的测序片段的长度可以是100bp,优选是90bp。
对于本发明而言,测序深度可以是10×,优选是20×,最优选是30×以上。例如,可以使用35×的测序深度。
本领域已知对测序片段进行评估的方法,例如,对测序结果的评估可以主要包括以下两方面:互补碱基含量比例是否均衡,例如G/C碱基即G碱基的比例和C碱基比例是否接近等,例如本领域中通常使用均值上下3倍的G/C比,如果差异落在该范围外则说明测序结果不合格;碱基的质量和N(测序结果中碱基不确定)的含量,如果低质量的碱基,说明测序结果不合格。
第二步,将以上得到的测序片段与参考基因组序列比对,优选去除上述比对结果中的重复和冗余,统计位点的序列信息和覆盖深度信息,即比对结果中涵盖该位点的测序片段数目。
本文中“重复”在用于比对结果的情况下时是指测序片段本来只应该测一次,结果由于PCR的原因,被测了多次,是多个测序片段表现出完全一致的基因内容。
本文中“冗余”在用于比对结果的情况下时是指在测序过程中,实验技术需求添加在真实测序片段两端的人工冗余序列。
参照序列通常选取其序列已被确定的序列,例如可以来自公共数据库,或者可以来自商业数据库。例如,对于人的样品来说,参照序列可以是人基因组hg18或hg19的序列。目前hg19的相关数据库相对较多且hg19测出来的碱基量比hg18要多,即样品比对率会相对较高,所以优先选择hg19。
位点的序列信息是比对结果中包含该位点的测序片段,位点的覆盖深度信息是比对结果中包含该位点的测序片段数目。
序列比对可以通过任何一种序列比对程序,例如短寡核苷酸分析包(Short Oligonucleotide Analysis Package,SOAP)和BWA比对(Burrows-Wheeler Aligner)进行,将测序片段与参考基因组序列比对,得到测序片段在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行,或者由本领域技术人员根据需要对参数进行选择。
另外,还可以对比对结果进行筛选,例如去除比对结果落在多个位置的序列,因为这些序列无法提供唯一的比对位置;去除重复出现的序列,因为这些序列可能是由于前期实验的误差引入,例如由测序错误引起,去除这种序列可使检测结果更加精准。
在比对后,可以以本领域中已知的任何方法计算位点的覆盖深度,计算位点的覆盖深度是基于覆盖该位点的测序后的序列数目。例如,利用短寡核苷酸分析包中的覆盖深度计算程序(SOAP coverage)计算参考基因组每个位点的覆盖深度。
第三步,根据以上每个位点的覆盖深度,将所有位点的覆盖深度取平均得出序列的平均覆盖深度,以同样方式计算参考序列的具有预设片段长度的所有窗口的覆盖深度,这些窗口被定义为以下四种类型之一:
a.正常窗口:覆盖深度与序列平均深度相同的窗口
b.重复窗口:覆盖深度明显大于平均深度的窗口
c.缺失窗口:覆盖深度明显小于平均深度的窗口
d.N窗口:基本没有覆盖深度的窗口,
在本发明中,窗口可以为70bp-100bp、100bp、100bp-200bp或50bp-300bp,优选50bp-150bp,最优选约100bp。大窗口(比如1000bp)不能提供CNV断点的精确位置,并且大窗口不能准确的检测短片段CNV。对于一般使用30×的样品测序量,100bp窗口测序片段的数目的分布很接近正态分布,这样使可以假设数据计算也是符合正态分布的。小窗口大小的测序片段分布却不符合正态分布。
在本发明中,窗口的测序片段覆盖深度的计算是统计每个位点覆盖的测序片段数之和除以该窗口的位点数。
在本发明中,覆盖深度与序列平均覆盖深度相同的窗口,是指二者基本相同的窗口。例如,在一些实施方案中,这样的两个覆盖深度在统计学上差异不显著。或者可以依据其他方式定义,例如,在一些实施方案中,这样的两个覆盖深度的差异在1倍以内,75%以内,50%以内,或20%以内,例如10%以内或5%以内。
在本发明中,覆盖深度明显大于平均覆盖深度是指前者是后者的至少1.2倍,至少1.5倍,至少2倍、至少4倍或至少8倍。
在本发明中,覆盖深度明显小于平均覆盖深度是指后者是前者的至少1.2倍,至少1.5倍,至少2倍、至少4倍或至少8倍。
在本发明中,N窗口是基本没有覆盖深度的窗口,优选是没有覆盖深度的窗口。基本没有覆盖深度,是指覆盖深度是平均深度的小于50%,小于20%,小于10%,小于5%或小于2%。特别地,对于双末端测序,组装出来的重叠群序列之间的相对位置是可以确定的,但是具体序列未知,可以把两条已知相对位置的重叠群序列连在一起,中间未知的碱基用N表示,在这个区域上的窗口即为N窗口;
在一些实施方案中,正常窗口可以被定义变异窗口(重复窗口和缺失窗口)和N窗口之外的窗口。
在本发明中,优选通过设置上述标准,将所有窗口分配到上述四种窗口类型之一并且仅之一。
在一个实施方案中,该步骤具体如下:为了评估覆盖深度,以预设片段长度例如100bp为窗口在参考序列上滑行取窗口,统计与这些窗口的比对上的测序片段数目。窗口的覆盖深度的计算是统计每个位点覆盖的测序片段数之和除以该窗口的位点数,例如100。
另外,对于Illumina的测序片段而言,测序覆盖深度会受到GC含量的影响,所以优选根据在具体GC比下观察到的覆盖深度的偏差来调整窗口的测序片段数目。例如,调整公式是~ri=ri*m/mGC,其中~ri是公式校正后的测序片段数目,ri是第i个窗口的测序片段数目,mGC是与第i个窗口有相同G+C比例的所有窗口的测序片段数目的中值,m是所有窗口的总体中值。对于Illumina的测序片段而言,后续分析可以基于这些GC调整后的数据进行。
第四步,将满足以下条件任一项的三以上连续窗口合并,并判断合并后的区域是否属于缺失和重复这两种CNV:
i.连续重复窗口或连续缺失窗口、
ii.缺失窗口之间有N窗口间隔,例如缺失窗口+N窗口+缺失窗口,其中N窗口不能连续出现一个以上、
iii.重复窗口之间有N窗口间隔,例如重复窗口+N窗口+重复窗口,其中N窗口不能连续出现一个以上、
iv.缺失窗口之间有正常窗口间隔,例如缺失窗口+正常窗口+缺失窗口,其中正常窗口的覆盖深度应满足减去3倍SD后落在缺失窗口的覆盖深度范围内,并且其中正常窗口不能连续出现一个以上、
v.重复窗口之间有正常窗口间隔,例如重复窗口+正常窗口+重复窗口,其中正常窗口的覆盖深度应满足加上3倍SD后落在重复窗口覆盖深度范围内,并且其中正常窗口不能连续出现一个以上;
SD为所有位点的覆盖深度取平均得出序列的平均覆盖深度标准差。
对于合并后的窗口是否属于缺失和重复这两种CNV,可以利用本领域中已有的任何方法进行检测。例如,可以利用Event-wise testing算法(Seungtai Yoon,Zhenyu Xuan,Vladimir Makarov,Kenny Ye,Jonathan Sebat,Sensitive and accurate detection of copy number variantsusing read depth of coverage.Genome Res.2009September;19(9):1586-1592.)进行CNV检测。Event-wise testing是一种基于测序片段数据的新CNV检测算法,它主要基于显著性检验。在该算法中,拷贝数的增加和减少可以通过窗口覆盖深度的增加和减少反映出来。利用该算法可以找出测序片段显著增加或减少的预设片段长度例如100bp的窗口。
在一个具体实施方案中,利用以下方式窗口是否属于缺失和重复这两种CNV。
首先,将第i个窗口的测序片段数目转换成Z值(Zi,i是自然数),转换方法是以起始位点落入该窗口的测序片段数目减去所有窗口的测序片段数目平均值(即所有测序片段总数和除以窗口数目),将相减的结果除以窗口测序片段数的标准差,得到Z值。再将Z值进一步转换成可能性上限值piUpper=P(Z>zi)和可能性下限值piLower=P(Z<zi),即概率的上限和下限,P(Z>zi)是Z大于Zi的概率和,P(Z<zi)是Z小于Zi的概率和。对于有l个连续窗口的区域A,如果它符合max{piUpper|i∈A}<(FPR/(L/l))^(1/l),则认为它发生了重复变异;如果它符合max{piLower|i∈A}<(FPR/(L/l))^(1/l),则认为它发生了缺失,其中FPR(错误率)是指对于参考基因组的重复或缺失的假阳性值之和,I型错误是FPR(假阳性率)——即检测出的cnv里面不是真实的CNV占检测出的所有CNV的比率,II型错误是FNR(假阴性率)——即没有被检测出的真实cnv占真实cnv总数的比率;L是指参考基因组的总窗口数目,l是指A区域的窗口数目,大于等于1且小于等于L。
很明显,如果A的所有探针是来自于正常状态,即A是CNV的可能性小于FPR/(L/l),该窗口被定义为正常窗口。
这里需要注意的是,没有以FPR除以所有的窗口数目减1(L-1),而是除以l,因为前者在控制I型错误上面过于保守,这里考虑了重叠窗口的数据检验是非独立的。
另外,对于缺失和重复这两种CNV可以分开进行检测。对于重复和缺失的检测均用上述公式,但前者的阈值是前述piUpper,后者的是piLower。对于它们每一种的检测,首先寻找两个存在CNV的窗口,然后每增加1个窗口就重复增加后窗口是否也存在该CNV。要注意的是,FPR/(L/l))^(1/l)的阈值是随着l的增加而增加的。当FPR/(L/l))^(1/l)超过0.5时在N-1处停止重复上述步骤。
第五步,对以上判断合属于缺失和重复这两种CNV的合并区域降低假阳性,所得到的区域就是发生了插入或缺失的CNV区域。
降低假阳性可以通过一定的过滤条件实现。例如,将那些测序片段覆盖深度中值在平均覆盖深度值0.75倍和1.25倍之间的变异区域过滤掉。
另外,还任选通过Z值检验来检验每个变异区域的显著性,可以用显著性水平10-6作为阈值来过滤合并区域。其中,显著性水平10-6和用FPR0.05来检测2个变异区域的显著水平是接近相符的;另外,根据很多CNV在所有显著水平上的人工期望,10-6阈值被认定是合理的。
实施例
下面结合实施例,对本发明进行详细说明。但应理解,以下实施例仅是对本发明实施方式的举例说明,而非是对本发明的范围限定。
在本实施例中,利用本发明的方法检测拷贝数变异计划中样品NA19238的测序数据的拷贝数变异。拷贝数变异计划是由sanger研究院发起的,旨在研究拷贝数变异对人类健康的影响。本实施例分析对象是该项目其中一个样品NA19238(尼日利亚约鲁巴人),其CNV已知结果通过针对全基因组的阵列比较基因组杂交获得。(数据可获自ftp://ftp.sanger.ac.uk.pub.cnv_project/)
第一步,对NA19238数据下载得到已经完成比对的高深度测序数据,比对结果格式为sam格式(参见http://samtools.sourceforge.net/SAM1.pdf),包括24条染色体的比对结果(22条常染色体和XY染色体)。数据比对采用比对软件BWA(http://bio-bwa.sourceforge.net/bwa.shtml),比对使用的参考基因组为hg19(下载地址:http://hgdownload.cse.ucsc.edu/downloads.html#human)。
第二步,本步骤利用SOAP程序完成,详细操作步骤依据该程序的操作说明(Short Oligonucleotide Analysis Package,http://soap.genomics.org.cn)
在序列比对结果的基础上,对参考基因组上每个位点的被覆盖的深度情况进行统计,并存放到覆盖深度文件中。覆盖深度统计使用SOAPcoverage程序(Version:2.7.7,下载地址:http://soap.genomics.org.cn/down/soap.coverage.tar.gz),得到每个位点的覆盖深度情况。
第三步,用本发明的方法对该样品的拷贝数变异进行检测。需要第二步获得的覆盖深度文件和参考基因组hg19的序列文件作为输入文件,运行后得到的各窗口拷贝数情况以及是否为重复或缺失的拷贝数变异发生窗口的结果存储文件,文件结果每列说明如下。
程序实现原理是将参考基因组的序列文件和位点覆盖深度文件分别存为哈希序列表和哈希覆盖深度表。
统计对应窗口的覆盖深度和显著性。对局部窗口的覆盖深度进行变异检测,找出窗口平均覆盖深度与全基因组平均覆盖深度水平明显差异的窗口。
该步骤具体如下:为了评估覆盖深度,以预设片段长度100bp为窗口在参考序列上滑行取窗口,统计与这些窗口的比对上的测序片段数目。窗口的覆盖深度的计算是统计每个位点覆盖的测序片段数之和除以该窗口的位点数。
第四步,对于连续的相同变异的或是满足以下合并条件的窗口,进行窗口合并,最终将片段信息汇总打印:对于CNV,我们定义4种状态:缺失窗口、重复窗口、正常窗口和N窗口。以每三个相邻窗口考察合并情况:连续重复窗口或连续缺失窗口;缺失窗口之间有N窗口间隔,例如缺失窗口+N窗口+缺失窗口,其中N窗口不能连续出现一个以上;重复窗口之间有N窗口间隔,例如重复窗口+N窗口+重复窗口,其中N窗口不能连续出现一个以上;缺失窗口之间有正常窗口间隔,例如缺失窗口+正常窗口+缺失窗口,其中正常窗口的覆盖深度应满足减去3倍SD后落在缺失窗口的覆盖深度范围内,并且其中正常窗口不能连续出现一个以上;重复窗口之间有正常窗口间隔,例如重复窗口+正常窗口+重复窗口,其中正常窗口的覆盖深度应满足加上3倍SD后落在重复窗口覆盖深度范围内,并且其中正常窗口不能连续出现一个以上。
然后,对于合并后的窗口是否属于缺失区域和重复区域这两种CNV。
首先,将第i个窗口的测序片段数目转换成Z值(Zi,i是自然数),转换方法是以起始位点落入该窗口的测序片段数目减去所有窗口的测序片段数目平均值(即所有测序片段总数和除以窗口数目),将相减的结果除以窗口测序片段数的标准差,得到Z值。再将Z值进一步转换成可能性上限值piUpper=P(Z>zi)和可能性下限值piLower=P(Z<zi),即概率的上限和下限,P(Z>zi)是Z大于Zi的概率和,P(Z<zi)是Z小于Zi的概率和。对于有l个连续窗口的区域A,如果它符合max{piUpper|i∈A}<(FPR/(L/l))^(1/l),则认为它发生了重复变异;如果它符合max{piLower|i∈A}<(FPR/(L/l))^(1/l),则认为它发生了缺失,其中FPR(错误率)是指对于参考基因组的重复或缺失的假阳性值之和,I型错误是FPR(假阳性率)——即检测出的cnv里面不是真实的CNV占检测出的所有CNV的比率,II型错误是FNR(假阴性率)——即没有被检测出的真实cnv占真实cnv总数的比率;L是指参考基因组的总窗口数目,l是指A区域的窗口数目,大于等于1且小于等于L。
很明显,如果A的所有探针是来自于正常状态,即A是CNV的可能性小于FPR/(L/l),该窗口属于正常窗口。
另外,对于缺失和重复这两种CNV可以分开进行检测。对于重复和缺失的检测均用上述公式,但前者的阈值是前述piUpper,后者的是piLower。对于它们每一种的检测,首先寻找两个存在CNV的窗口,然后每增加1个窗口就重复增加后窗口是否也存在该CNV。要注意的是,FPR/(L/l))^(1/l)的阈值是随着l的增加而增加的。当FPR/(L/l))^(1/l)超过0.5时在N-1处停止重复上述步骤。
第五步:对第四步得到的拷贝数变异结果进行过滤统计
对以上判断合属于缺失和重复这两种CNV的合并区域降低假阳性。降低假阳性可以通过一定的过滤条件实现。
过滤标准:1、发生拷贝数变异事件的窗口数要大于10,即拷贝数变异区域要大于1kb;2、发生拷贝数变异事件的覆盖度中位数倍数占全局覆盖度中位数的比例不在0.75和1.25之间。对本发明得到的结果过滤后,按拷贝事件(重复和缺失),对拷贝事件发生的数目和总长度进行统计,统计结果如下:
第六步,将用本发明检测得到的拷贝数变异结果与该样品芯片拷贝数变异扫描结果进行比较。利用发生的变异事件在基因组上的起始位点和终止位点信息,得到本发明检测结果和芯片检测结果一致的拷贝数变异情况,最终一致长度及比例如下表格。由表格结果看出,本发明检测出的拷贝数变异具有真实性。

Claims (13)

1.一种检测拷贝数变异的方法,包括步骤:
1)对目标样本进行测序,得到测序片段;
2)将以上得到的测序片段与参考基因组序列比对,得到参考序列每个位点的覆盖深度,即比对结果中涵盖该位点的测序片段数目;
3)根据以上每个位点的覆盖深度,将所有位点的覆盖深度取平均得出序列的平均覆盖深度,以同样的方式计算参考序列上具有预设片段长度的所有窗口的覆盖深度信息,这些窗口被定义为正常窗口、重复窗口、缺失窗口和N窗口四种类型之一,其中正常窗口为覆盖深度与序列平均覆盖深度相同的窗口,重复窗口为覆盖深度明显大于平均覆盖深度的窗口,缺失窗口为覆盖深度明显小于平均覆盖深度的窗口,N窗口为基本没有覆盖深度的窗口;
4)将满足以下条件任一项的三个以上连续窗口合并,并判断合并后的区域是否属于缺失和重复这两种拷贝数变异:
i.连续重复窗口或连续缺失窗口、
ii.缺失窗口之间有N窗口间隔,其中N窗口不能连续出现一个以上、
iii.重复窗口之间有N窗口间隔,其中N窗口不能连续出现一个以上、
iv.缺失窗口之间有正常窗口间隔,其中正常窗口的覆盖深度应满足减去3倍SD后落在缺失窗口的覆盖深度范围内,并且其中正常窗口不能连续出现一个以上、
v.重复窗口之间有正常窗口间隔,其中正常窗口的覆盖深度应满足加上3倍SD后落在重复窗口覆盖深度范围内,并且其中正常窗口不能连续出现一个以上
其中,SD为所有位点的覆盖深度取平均得出序列的平均覆盖深度标准差;
5)对以上合并区域降低假阳性,所得到的区域就是发生了插入或缺失的拷贝数变异区域。
2.根据权利要求1所述的方法,在步骤1)和2)之间,还包括步骤1’):评估测序结果是否合格,如果不合格则需要重新测序,并且如果在测序过程中引入接头序列,则去除这些接头序列。
3.根据权利要求1或2的方法,其中步骤2)中在测序片段与参考基因组序列比对后包括步骤:去除比对结果中的重复和冗余。
4.权利要求1或2的方法,其中步骤1)中的测序是454测序或Illumina测序。
5.权利要求1或2的方法,其中步骤1)中测序的测序深度是10×、20×、30×或35×。
6.权利要求1或2的方法,其中步骤3)中的预设片段长度为50bp-300bp。
7.权利要求6的方法,其中步骤3)中的预设片段长度为70bp-100bp。
8.权利要求6的方法,其中步骤3)中的预设片段长度为100bp-200bp。
9.权利要求6的方法,其中步骤3)中的预设片段长度为50bp-150bp。
10.权利要求1或2的方法,其中在步骤3)中覆盖深度与序列平均覆盖深度相同的窗口是差异20%、10%或5%的窗口。
11.权利要求1或2的方法,其中在步骤3)中覆盖深度明显大于平均覆盖深度的窗口是指覆盖深度大于平均覆盖深度的2倍、4倍或8倍,覆盖深度明显小于平均覆盖深度是指覆盖深度小于平均覆盖深度的2倍、4倍或8倍。
12.权利要求1或2的方法,其中步骤5)中的降低假阳性通过过滤进行。
13.权利要求12的方法,其中所述过滤的过滤条件是测序片段中值在总体中值0.75倍和1.25倍之间,或者显著性水平10-6
CN201280075581.4A 2012-09-12 2012-09-12 利用基因组测序片段检测拷贝数变异的方法 Active CN104603284B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/001261 WO2014040206A1 (zh) 2012-09-12 2012-09-12 利用基因组测序片段检测拷贝数变异的方法

Publications (2)

Publication Number Publication Date
CN104603284A CN104603284A (zh) 2015-05-06
CN104603284B true CN104603284B (zh) 2016-08-24

Family

ID=50277463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280075581.4A Active CN104603284B (zh) 2012-09-12 2012-09-12 利用基因组测序片段检测拷贝数变异的方法

Country Status (3)

Country Link
CN (1) CN104603284B (zh)
HK (1) HK1208891A1 (zh)
WO (1) WO2014040206A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104313136A (zh) * 2014-09-30 2015-01-28 江苏亿康基因科技有限公司 一种无创人肝癌早期检测与鉴别诊断方法及系统
EP3293270B1 (en) * 2015-05-06 2019-09-25 Zhejiang Annoroad Bio-Technology Co., Ltd. Reagent kit, apparatus, and method for detecting chromosome aneuploidy
KR101828052B1 (ko) * 2015-06-24 2018-02-09 사회복지법인 삼성생명공익재단 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
CN105760712B (zh) * 2016-03-01 2019-03-26 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
CN106055923A (zh) * 2016-05-13 2016-10-26 万康源(天津)基因科技有限公司 一种基因拷贝数变异分析方法
CN107423534B (zh) * 2016-05-24 2021-08-06 郝柯 基因组拷贝数变异的检测方法和系统
US20180225413A1 (en) * 2016-12-22 2018-08-09 Grail, Inc. Base Coverage Normalization and Use Thereof in Detecting Copy Number Variation
CN110268044B (zh) * 2017-03-07 2022-08-02 深圳华大生命科学研究院 一种染色体变异的检测方法及装置
CN108256289B (zh) * 2018-01-17 2020-10-16 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN111755066B (zh) * 2019-03-27 2022-10-18 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN111710362B (zh) * 2020-08-20 2021-06-15 上海思路迪医学检验所有限公司 基于二代测序的捕获探针设计方法及应用
CN113724791B (zh) * 2021-09-09 2024-03-12 天津华大医学检验所有限公司 Cyp21a2基因ngs数据分析的方法、装置及应用
CN117334249A (zh) * 2023-05-30 2024-01-02 上海品峰医疗科技有限公司 基于扩增子测序数据检测拷贝数变异的方法、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Accurate and exact CNV identification from targeted high-throughput sequence data.;Nord AS1 et al.;《BMC Genomics》;20111231;第12卷(第184期);1-10 *
Sensitive and accurate detection of copy number variants using read depth of coverage;Seungtai Yoon et al.;《Genome Res》;20091231;第19卷(第9期);1586-1592 *

Also Published As

Publication number Publication date
HK1208891A1 (zh) 2016-03-18
WO2014040206A1 (zh) 2014-03-20
CN104603284A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN104603284B (zh) 利用基因组测序片段检测拷贝数变异的方法
CN106834474B (zh) 利用基因组测序诊断胎儿染色体非整倍性
Do et al. Bayesian inference for gene expression and proteomics
CN105760712B (zh) 一种基于新一代测序的拷贝数变异检测方法
Li et al. A general framework for analyzing tumor subclonality using SNP array and DNA sequencing data
CN106778073B (zh) 一种评估肿瘤负荷变化的方法和系统
CN107368708B (zh) 一种精准分析dmd基因结构变异断点的方法及系统
JP2015527057A5 (zh)
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
KR20200013709A (ko) 서열 변이체 콜에 대한 검증방법 및 시스템
CN110010193A (zh) 一种基于混合策略的复杂结构变异检测方法
CN106715711A (zh) 确定探针序列的方法和基因组结构变异的检测方法
CN105986008A (zh) Cnv检测方法和装置
CN104232777A (zh) 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
CN110016497B (zh) 一种检测肿瘤单细胞基因组拷贝数变异的方法
CN110800061A (zh) 用于确定微卫星不稳定性的系统和方法
CN106367512A (zh) 一种鉴定样本中肿瘤负荷的方法和系统
CN114049914A (zh) 一体化检测cnv、单亲二体、三倍体和roh的方法及装置
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
AU2018315982A1 (en) Method for detecting variation in nucleotide sequence on basis of gene panel and device for detecting variation in nucleotide sequence using same
CN106021982A (zh) 一种基于功能网络多疾病变异位点分析方法
Mauguen et al. Estimating the probability of clonal relatedness of pairs of tumors in cancer patients
EP2926289A1 (en) Method and system for processing data for evaluating a quality level of a dataset
CN102982253B (zh) 一种多样本间甲基化差异检测方法及装置
CN105316223A (zh) 生物学样品分析系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1208891

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1208891

Country of ref document: HK

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Patentee after: BGI SHENZHEN

Patentee after: Shenzhen Huada Gene Technology Co., Ltd.

Address before: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Patentee before: BGI SHENZHEN

Patentee before: Shenzhen Huada Gene Technology Co., Ltd.