CN105574361B - 一种检测基因组拷贝数变异的方法 - Google Patents

一种检测基因组拷贝数变异的方法 Download PDF

Info

Publication number
CN105574361B
CN105574361B CN201510744574.4A CN201510744574A CN105574361B CN 105574361 B CN105574361 B CN 105574361B CN 201510744574 A CN201510744574 A CN 201510744574A CN 105574361 B CN105574361 B CN 105574361B
Authority
CN
China
Prior art keywords
window
chr7
sequence
copy number
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510744574.4A
Other languages
English (en)
Other versions
CN105574361A (zh
Inventor
陆思嘉
薄世平
马淑杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yikang medical laboratory Co., Ltd.
Original Assignee
Shanghai Xukang Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xukang Medical Technology Co Ltd filed Critical Shanghai Xukang Medical Technology Co Ltd
Priority to CN201510744574.4A priority Critical patent/CN105574361B/zh
Publication of CN105574361A publication Critical patent/CN105574361A/zh
Application granted granted Critical
Publication of CN105574361B publication Critical patent/CN105574361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种检测基因组拷贝数变异的方法,具体包括以下步骤:对样本基因组进行测序,以获得基因组序列;将序列比对到参考基因组,得到序列在基因组上的位置;将参考基因组分成一定长度的窗口,统计落在每个窗口的序列及碱基;根据每个窗口的序列及碱基GC含量,对每个窗口做校正;确定拷贝数正常的阈值,扫描每个窗口,确定窗口拷贝数是否变异;精确扫描异常的窗口,以确定精确的断点,来确定拷贝数变异的具体位置。本发明利用三均值,通过窗口校正、确定拷贝数正常的阈值、精确扫描异常窗口、确定精确的断点和拷贝数变异的具体位置,能够提高基因组拷贝数变异检测的灵敏性,其操作简便可行、效率高、成本低,有利于推广和应用。

Description

一种检测基因组拷贝数变异的方法
技术领域
本发明涉及基因组序列分析领域和生物信息学领域,具体涉及一种检测基因组拷贝数变异的方法。
背景技术
拷贝数变异(Copy Number Variations,CNV)是指与基因组参考序列相比,样本基因组染色体或染色体片段拷贝数异常,包括但不限于染色体非整倍体、缺失、重复,大于1000bp碱基的微缺失、微重复。在生物医学的科学研究及临床应用领域,经常遇到由于基因组拷贝数变异而引起的疾病,如染色体非整倍体、微缺失、微重复造成的流产,胚胎植入失败,各种遗传病以及癌症等等。基因组拷贝数变异的检测可应用到组织检测如肿瘤组织、羊水、流产物组织,液体活检如血液、尿液的细胞、游离核酸,单细胞领域如胚胎植入前遗传学诊断(Preimplantation Genetic Diagnosis,PGD)、胚胎植入前遗传学筛查(Preimplantation Genetic Screening,PGS)、癌症患者血液中游离的循环肿瘤细胞(Circulating Tumor Cells,CTC)、孕妇外周血中游离的胎儿细胞、干细胞、单细胞或几个细胞的微生物。
目前基因组拷贝数变异检测的主要方法有:比较基因组杂交(ComparativeGenomic Hybridization,CGH),荧光定量PCR(realtime fluorescence quantitativePCR,RTFQ PCR),荧光原位杂交(Fluorescence In Situ Hybridization,FISH),多重连接探针扩增技术(Multiplex Ligation-dependent Probe Amplification,MLPA)。其中,比较基因组杂交分辨率比较低,Mb级,通量低,成本高;荧光定量PCR同样通量低,成本高,一次只能测一个拷贝数变异;荧光原位杂交,只针对特定位置,分辨率低,探针杂交效率不稳定;多重连接探针扩增技术,操作复杂,通量低,成本高,覆盖度小,易造成PCR污染。可见,现有的检测基因组拷贝数变异的方法在使用推广方面仍存在着一定的局限性。
发明内容
本发明的目的就是针对上述现有技术中的不足,提供一种检测基因组拷贝数变异的方法,其能够提高基因组拷贝数变异检测的灵敏性,精确检测基因组拷贝数的变异,提高效率、降低成本,有利于推广和应用。
为了实现上述目的,本发明的技术方案如下所述:
本发明中所使用的术语解释:
拷贝数变异(Copy Number Variations,CNV)是指样本基因组染色体或染色体片段拷贝数异常,包括但不限于染色体非整倍体、缺失、重复,大于1000bp碱基的微缺失、微重复。
三均值M3是指利用总体的中位数及上下四分位数来衡量总体数据中心水平的数值。它利用了中位数的稳健性,更多的利用数据,同时排除总体中的异常数据值。定义为:
M3=Q1/4+M/2+Q3/4
其中Q1为下四分位数,M为中位数,Q3为上四分位数。
具体包括以下步骤:
(1)对样本基因组进行测序,以获得基因组序列
本发明对样本的类型不受特别限制,可以是含有大量核酸的样本,如植物的器官,动物的组织、血液、尿液、唾液、羊水,也可以是含有微量核酸的样本,如肿瘤的单细胞、血液、尿液、唾液中游离的单细胞、游离的核酸、生殖细胞、胚胎发育过程中的单细胞、单细胞或只有少量细胞的微生物。
对于含有微量核酸的样本,需要首先对单细胞扩增,以获得更多的核酸用于后续测序分析。单细胞扩增的方法不受特别限制,包括但不限于扩增前引物延伸PCR(Primerextension preamplification PCR,PEP-PCR)、退变寡核苷酸引物PCR(Degenerateoligonucleotide primer-PCR,DOP-PCR)、多重置换扩增技术(Multiple DisplacementAmplification,MDA)、多次退火环状循环扩增技术(Multiple Annealing and LoopingBased Amplification Cycles,MALBAC)。
采用高通量测序平台,对样本进行测序。测序平台不受特别限制,第二代测序平台:包括但不限于Illumina公司的GA、GAII、GAIIx、HiSeq1000/2000/2500/3000/4000、XTen、X Five、NextSeq500/550、MiSeq,Applied Biosystems的SOLiD,Roche的454FLX,Thermo Fisher Scientific(Life Technologies)的Ion Torrent、Ion PGM、Ion ProtonI/II;第三代单分子测序平台:包括但不限于Helicos BioSciences公司的HeliScope系统,Pacific Bioscience的SMRT系统,Oxford Nanopore Technologies的GridION、MinION。测序类型可为单端(Single End)测序或双端(Paired End)测序,测序长度可为30bp、40bp、50bp、100bp、300bp等大于30bp的任意长度,测序深度可为基因组的0.01、0.02、0.1、1、5、10、30倍等大于0.01的任意倍数。
(2)将序列比对到参考基因组,得到序列在基因组上的位置
将测序结果去掉接头及低质量数据,比对到参考基因组。参考基因组可为全基因组、任意染色体、染色体的一部分。参考基因组通常选择已被公认确定的序列,如人的基因组可为NCBI或UCSC的hg18(GRCh18)、hg19(GRCh19)、hg38(GRCh38),或任意一条染色体及染色体的一部分。比对软件可用任何一种免费或商业软件,如BWA(Burrows-WheelerAlignment tool)、SOAPaligner/soap2(Short Oligonucleotide Analysis Package)、Bowtie/Bowtie2。将序列比对到参考基因组,得到序列在基因组上的位置。可以选择在基因组上唯一比对的序列,去除基因组上多处比对的序列,消除重复序列对拷贝数分析带来的误差。
(3)将参考基因组分成一定长度的窗口,统计落在每个窗口的序列及碱基
将参考基因组分成一定长度的窗口,根据测序的数据量,长度可为100bp、1K、10K、20K、50K、100K、200K、500K、1000K(1M),3000K中的至少一种。根据所测的序列在基因组上的位置,统计落到每个窗口的序列数目、碱基分布、参考基因组的碱基分布。
(4)根据每个窗口的序列及碱基GC含量,对每个窗口做校正
对每个窗口的测序数目进行GC校正,以消除由于文库构建、测序的GC偏好性而产生的误差。计算每个窗口的平均GC含量GCim,GCim=(GCir+GCig)/2,其中GCir为每个窗口测序序列的GC含量,GCig为每个窗口参考基因组的GC含量,将GC含量从0到100%按照一定梯度划分成等份,梯度可为0.05%、0.1%、0.5%、1%中的至少一种,对于测定样本,统计每份的窗口个数nj,所有份的窗口数目的三均值M’,可计算每份的权重系数wj=nj/M’,则每个窗口GC校正后的序列数目RCi=RC×wj,其中RC为原始测序数目,RCi为GC校正后的序列数目。
计算所有窗口GC校正后序列数目的三均值RCM’,可计算得到每个窗口的相对测序数目RCi’=RCi/RCM’
(5)确定拷贝数正常的阈值,扫描每个窗口,确定窗口拷贝数是否变异
确定正常拷贝数,来判断测定样本拷贝数是否异常。可以根据样本数据分布特征及数据量,设定单倍型正常波动范围的预定值,然后根据待测样本的倍性,确定正常拷贝数的阈值范围,具体范围为(N–σ,N+σ),其中N为待测样本的倍性,σ为设定单倍型正常波动范围的预定值,预定值可以为0.05、0.1、0.15、0.2中的至少一种,以人为例,设定单倍型正常波动范围的预定值(σ)为0.05,人是二倍体(N=2),正常拷贝数的阈值范围为(2–0.05,2+0.05);也可以根据样本数据分布特征,计算样本单倍型下所有窗口的标准差(StandardDeviation,SD),确定正常拷贝数的阈值范围,范围为(N–N×m×SD,N+N×m×SD),m为1、2、3中的至少一种。
按照每条染色体,逐个计算每个窗口及周围一定数目ns窗口的三均值M3i,周围窗口的数目ns可为10-100中的一个数,优选大于30,或满足检验的最低数目。三均值M3i落在正常拷贝数范围外的窗口记录下来,连续的窗口合并,直到遇到正常窗口。
(6)精确扫描异常的窗口,以确定精确的断点,来确定拷贝数变异的具体位置
经步骤(5)扫描得到拷贝数异常的连续窗口,这些连续窗口定义为一级区域,一级区域是比较大范围的异常区域,精确扫描一级区域,以确定精确的断点,来确定拷贝数变异的具体位置。
具体地,定义一级区域的第一个窗口为第1断点bp1,然后计算一级区域每个窗口及周围一定数目nps窗口的平均值Mnps,nps可为1-10中的任意一个数,优选小于5的数,以更精确的确定具体的断点。逐一计算每个窗口,当出现至少连续2个Mnps落在异常范围时,记录该窗口为第2断点bp2,继续扫描,直到出现至少连续2个Mnps回到正常范围时,记录该窗口为第3断点bp3,这样每遇到正常和异常转换的窗口,记录一个断点bpi,直到一级区域的最后一个窗口,记录为bpf
断点bp1到断点bpf将一级区域分成(f–1)个次级片段,定义为二级区域,计算每个二级区域窗口拷贝数的三均值M3j,和拷贝数正常范围比较,M3j落在异常范围的二级区域即为精确的拷贝数变异区域,其中M3j为该区域的拷贝数,该区域起始和终止的断点即为拷贝数变异的起始和终止位置。
本发明利用三均值,根据每个窗口的序列及碱基GC含量,对每个窗口做出校正,通过确定拷贝数正常的阈值,扫描每个窗口并精确扫描异常的窗口以确定精确的断点和拷贝数变异的具体位置,因此能够提高基因组拷贝数变异检测的灵敏性,精确检测基因组拷贝数变异的情况,操作简便可行、效率高、成本低,有利于推广和应用。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明检测基因组拷贝数变异的方法的一个实施例的流程示意图;
图2为本发明实施例1父本核型结果;
图3为本发明实施例1样本S1的拷贝数变异结果;
图4为本发明实施例1样本S2的拷贝数变异结果。
具体实施方式
下面参照附图对本发明进行更加全面的描述,其中说明本发明的示例性实施例。本发明的示例性实施例及其说明用于解释本发明,但并不构成对本发明的不当限定。
实施例1
本实施例中,对两例子代的细胞样本进行拷贝数变异检测,检测结果与父方核型结果比较。
1.测序
本实施例中,对含有微量核酸的样本检测,首先进行单细胞全基因组扩增。单细胞扩增采用亿康基因科技有限公司的MALBACSingle Cell Whole GenomeAmplification Kit,所述单细胞为含有微量核酸的样本,如血液、尿液、唾液中游离的单细胞。
扩增后的样本经纯化,文库构建,上机测序。上机测序采用Illumina公司的HiSeq2500高通量测序平台,按照Illumina公司提供的说明书操作。测序类型为单端(Single End)测序,测序长度50bp,测序数据量为1M。
2.序列比对
将测序结果去掉接头及低质量数据,比对到参考基因组。参考基因组为人的基因组UCSC的hg19(GRCh19),比对软件为BWA(Burrows-Wheeler Alignment tool),采用默认参数,将序列比对到参考基因组,得到序列在基因组上的位置,选择在基因组上唯一比对的序列。
3.窗口的序列及碱基统计
将基因组分成长度为1000K(1M)的窗口。根据序列在基因组上的位置,统计落到每个窗口的序列数目、碱基分布、参考基因组的碱基分布。
4.窗口GC校正
计算每个窗口的平均GC含量GCim,将GC含量从0到100%按照0.1%的梯度划分成等份,统计每份的窗口个数nj,所有份的窗口数目的三均值M’,可计算每份的权重系数wj=nj/M’,每个窗口GC校正后的序列数目RCi=RC×wj,计算所有窗口GC校正后序列数目的三均值RCM’,可计算得到每个窗口的相对测序数目RCi’=RCi/RCM’。结果见表1。
表1实施例1两个样本经GC校正后7号染色体的拷贝数
染色体 染色体区域 样本S1拷贝数 样本S2拷贝数
chr7 1-1000000 2.02 1.95
chr7 1000001-2000000 2.08 2.11
chr7 2000001-3000000 2.26 1.88
chr7 3000001-4000000 1.94 2.03
chr7 4000001-5000000 1.93 1.78
chr7 5000001-6000000 1.86 2.19
chr7 6000001-7000000 2.20 2.08
chr7 7000001-8000000 2.00 1.73
chr7 8000001-9000000 1.95 1.99
chr7 9000001-10000000 1.87 2.30
chr7 10000001-11000000 1.80 2.47
chr7 11000001-12000000 1.82 2.36
chr7 12000001-13000000 1.90 2.27
chr7 13000001-14000000 2.00 1.94
chr7 14000001-15000000 1.99 2.10
chr7 15000001-16000000 1.98 2.05
chr7 16000001-17000000 1.97 2.27
chr7 17000001-18000000 2.20 2.23
chr7 18000001-19000000 2.14 2.09
chr7 19000001-20000000 2.05 2.00
chr7 20000001-21000000 2.06 1.93
chr7 21000001-22000000 1.95 2.04
chr7 22000001-23000000 2.01 2.27
chr7 23000001-24000000 2.01 2.01
chr7 24000001-25000000 1.77 2.06
chr7 25000001-26000000 1.82 1.78
chr7 26000001-27000000 1.99 1.80
chr7 27000001-28000000 2.09 2.02
chr7 28000001-29000000 2.08 1.99
chr7 29000001-30000000 2.03 2.05
chr7 30000001-31000000 2.06 2.07
chr7 31000001-32000000 1.90 2.04
chr7 32000001-33000000 1.94 2.01
chr7 33000001-34000000 1.91 2.00
chr7 34000001-35000000 2.02 1.97
chr7 35000001-36000000 2.09 1.80
chr7 36000001-37000000 2.16 1.92
chr7 37000001-38000000 2.28 1.91
chr7 38000001-39000000 1.98 1.83
chr7 39000001-40000000 2.36 2.07
chr7 40000001-41000000 1.97 1.98
chr7 41000001-42000000 2.05 1.92
chr7 42000001-43000000 1.87 2.07
chr7 43000001-44000000 1.89 1.84
chr7 44000001-45000000 1.93 2.16
chr7 45000001-46000000 1.99 1.94
chr7 46000001-47000000 1.92 2.09
chr7 47000001-48000000 1.96 2.13
chr7 48000001-49000000 2.08 2.15
chr7 49000001-50000000 1.83 2.10
chr7 50000001-51000000 1.89 2.07
chr7 51000001-52000000 2.20 2.05
chr7 52000001-53000000 2.13 1.91
chr7 53000001-54000000 2.08 2.22
chr7 54000001-55000000 1.91 1.95
chr7 55000001-56000000 1.79 1.98
chr7 56000001-57000000 1.94 2.32
chr7 57000001-58000000 2.27 1.90
chr7 58000001-59000000 2.11 1.96
chr7 59000001-60000000 1.89 2.20
chr7 60000001-61000000 1.85 2.42
chr7 61000001-62000000 1.78 2.24
chr7 62000001-63000000 1.90 1.91
chr7 63000001-64000000 1.69 2.01
chr7 64000001-65000000 1.83 2.19
chr7 65000001-66000000 2.01 2.23
chr7 66000001-67000000 2.11 2.02
chr7 67000001-68000000 2.27 1.88
chr7 68000001-69000000 2.22 2.05
chr7 69000001-70000000 2.29 2.05
chr7 70000001-71000000 2.15 2.03
chr7 71000001-72000000 1.86 2.38
chr7 72000001-73000000 1.67 2.15
chr7 73000001-74000000 1.93 1.94
chr7 74000001-75000000 1.77 2.23
chr7 75000001-76000000 1.73 2.08
chr7 76000001-77000000 1.97 2.20
chr7 77000001-78000000 1.90 2.28
chr7 78000001-79000000 2.19 2.26
chr7 79000001-80000000 2.12 2.08
chr7 80000001-81000000 2.14 2.18
chr7 81000001-82000000 1.90 2.03
chr7 82000001-83000000 2.02 1.90
chr7 83000001-84000000 2.05 1.92
chr7 84000001-85000000 2.17 2.13
chr7 85000001-86000000 2.18 1.99
chr7 86000001-87000000 2.03 2.13
chr7 87000001-88000000 2.00 2.06
chr7 88000001-89000000 1.92 2.24
chr7 89000001-90000000 2.00 2.14
chr7 90000001-91000000 1.94 2.16
chr7 91000001-92000000 2.15 1.86
chr7 92000001-93000000 1.90 1.76
chr7 93000001-94000000 2.01 1.83
chr7 94000001-95000000 1.89 2.00
chr7 95000001-96000000 1.83 1.96
chr7 96000001-97000000 2.02 2.13
chr7 97000001-98000000 2.07 1.98
chr7 98000001-99000000 2.76 1.04
chr7 99000001-100000000 2.99 1.10
chr7 100000001-10100000 3.22 1.12
chr7 101000001-102000000 2.89 1.03
chr7 102000001-103000000 2.86 0.97
chr7 103000001-104000000 2.86 1.03
chr7 104000001-105000000 3.10 0.97
chr7 105000001-106000000 2.78 0.97
chr7 106000001-107000000 2.88 0.99
chr7 107000001-108000000 2.77 1.00
chr7 108000001-109000000 3.24 1.07
chr7 109000001-110000000 2.96 1.03
chr7 110000001-111000000 3.16 1.01
chr7 111000001-112000000 2.78 1.01
chr7 112000001-113000000 2.92 0.96
chr7 113000001-114000000 3.13 1.08
chr7 114000001-115000000 3.10 0.98
chr7 115000001-116000000 3.01 0.99
chr7 116000001-117000000 3.12 0.95
chr7 117000001-118000000 2.79 0.84
chr7 118000001-119000000 3.11 0.85
chr7 119000001-120000000 2.95 0.98
chr7 120000001-121000000 2.87 1.04
chr7 121000001-122000000 2.51 1.11
chr7 122000001-123000000 2.59 1.04
chr7 123000001-124000000 2.46 0.93
chr7 124000001-125000000 2.67 0.87
chr7 125000001-126000000 2.81 0.97
chr7 126000001-127000000 2.76 0.94
chr7 127000001-128000000 2.57 1.03
chr7 128000001-129000000 2.62 1.05
chr7 129000001-130000000 3.03 1.00
chr7 130000001-131000000 3.02 1.08
chr7 131000001-132000000 3.29 1.09
chr7 132000001-133000000 2.72 1.17
chr7 133000001-134000000 3.01 1.02
chr7 134000001-135000000 2.92 1.00
chr7 135000001-136000000 3.01 0.96
chr7 136000001-137000000 3.14 1.11
chr7 137000001-138000000 3.18 1.09
chr7 138000001-139000000 2.95 1.21
chr7 139000001-140000000 2.87 1.15
chr7 140000001-141000000 2.90 1.05
chr7 141000001-142000000 2.98 0.98
chr7 142000001-143000000 3.05 0.92
chr7 143000001-144000000 3.06 0.98
chr7 144000001-145000000 2.82 1.15
chr7 145000001-146000000 3.08 1.05
chr7 146000001-147000000 3.26 1.01
chr7 147000001-148000000 2.94 1.07
chr7 148000001-149000000 2.87 1.11
chr7 149000001-150000000 2.83 1.01
chr7 150000001-151000000 2.97 0.99
chr7 151000001-152000000 3.02 1.01
chr7 152000001-153000000 2.95 1.10
chr7 153000001-154000000 3.24 1.03
chr7 154000001-155000000 3.21 1.05
chr7 155000001-156000000 2.97 0.83
chr7 156000001-157000000 3.06 0.89
chr7 157000001-158000000 3.19 0.93
chr7 158000001-159000000 3.10 0.95
chr7 159000001-159138663 3.12 1.05
5.确定拷贝数正常的阈值,扫描每个窗口,确定窗口拷贝数是否变异
本实施例样本物种为人,是二倍体(N=2),根据样本数据分布特征,计算样本单倍型下所有窗口的标准差(Standard Deviation,SD),确定正常拷贝数的阈值范围,范围为(2–2×SD,2+2×SD)。
按照每条染色体,逐个计算每个窗口及周围30个窗口的三均值M3i,三均值M3i落在正常拷贝数范围外的窗口记录下来,连续的窗口合并,直到遇到正常窗口。
6.精确扫描异常的窗口,确定拷贝数变异的具体位置
继续扫描上步得到的拷贝数异常的连续窗口(一级区域)。定义一级区域的第一个窗口为第1断点bp1,然后计算一级区域每个窗口及周围3个窗口的平均值Mnps。逐一计算每个窗口,当出现至少连续2个Mnps落在异常范围时,记录该窗口为第2断点bp2,继续扫描,直到出现至少连续2个Mnps回到正常范围时,记录该窗口为第3断点bp3,这样每遇到正常和异常转换的窗口,记录一个断点bpi,直到一级区域的最后一个窗口,记录为bpf。断点bp1到断点bpf将一级区域分成(f–1)个次级片段,定义为二级区域,计算每个二级区域窗口拷贝数的三均值M3j,和拷贝数正常范围比较,M3j落在异常范围的二级区域即为精确的拷贝数变异区域,其中M3j为该区域的拷贝数,该区域起始和终止的断点即为拷贝数变异的起始和终止位置。
7.检测结果
实施例1的检测结果见表2,图3,图4。
诊断结果为:46,XY,t(7:15)(q22:q26)。本实施例S1,S2两个单细胞样本在7号染色体q22.1带到长臂末端(qter)分别检测到重复和缺失,与其父核型结果一致。
表2实施例1两个样本拷贝数变异检测结果
样本编号 染色体 起始位置 终止位置 长度 类型 核型
S1 chr7 98,000,001 159,138,663 62,000,000 重复 +7q(q22.1→qter,~62M,×3)
S2 chr7 98,000,001 159,138,663 62,000,000 缺失 -7q(q22.1→qter,~62M,×1)
虽然已经通过示例对本发明的特定实施例进行了详细地说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附的权利要求来限定。

Claims (10)

1.一种检测基因组拷贝数变异的方法,其特征在于,包括以下各步骤:
(1)对样本基因组采用高通量测序平台进行测序,以获得样本的基因组序列;
(2)将步骤(1)的测序结果去掉接头及低质量数据比对到参考基因组,得到序列在基因组上的位置;
(3)将参考基因组分成一定长度的窗口,统计落在每个窗口的序列及碱基;
(4)根据每个窗口的序列及碱基GC含量,对每个窗口做校正,具体如下:
计算每个窗口的平均GC含量GCim,GCim=(GCir+GCig)/2,其中GCir为每个窗口测序序列的GC含量,GCig为每个窗口参考基因组的GC含量,
将GC含量从0到100%按照一定梯度划分成等份,对于测定样本,统计每份的窗口个数nj,所有份的窗口数目的三均值M’,可计算每份的权重系数wj=nj/M’,则每个窗口GC校正后的序列数目RCi=RC×wj,其中RC为原始测序数目,RCi为GC校正后的序列数目,
计算所有窗口GC校正后序列数目的三均值RCM’,可计算得到每个窗口的相对测序数目RCi’=RCi/RCM’
(5)确定拷贝数正常的阈值,扫描每个窗口,确定窗口拷贝数是否变异;
(6)精确扫描异常的窗口,以确定精确的断点,来确定拷贝数变异的具体位置。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中的测序类型为单端测序或双端测序,测序长度为大于30bp的任意长度,测序深度为基因组的大于0.01的任意倍数。
3.根据权利要求2所述的方法,其特征在于,测序长度为40bp、50bp、100bp或者300bp,测序深度为基因组的0.02、0.1、1、5、10或者30倍。
4.根据权利要求1所述的方法,其特征在于,步骤(2)中在比对到参考基因组时,选择在基因组上唯一比对的序列,去除基因组上多处比对的序列,消除重复序列对拷贝数分析带来的误差。
5.根据权利要求1所述的方法,其特征在于,步骤(3)中窗口的长度为100bp、1K、10K、20K、50K、100K、200K、500K、1000K或3000K。
6.根据权利要求1所述的方法,其特征在于,步骤(4)中的梯度为0.05%、0.1%、0.5%或1%。
7.根据权利要求1所述的方法,其特征在于,步骤(5)中根据样本数据分布特征及数据量,设定单倍型正常波动范围的预定值,然后根据待测样本的倍性,确定正常拷贝数的阈值范围,具体范围为(N–σ,N+σ),其中N为待测样本的倍性,σ为设定单倍型正常波动范围的预定值,按照每条染色体,逐个计算每个窗口及周围一定数目ns窗口的三均值M3i,其中ns为10-100中的一个数,三均值M3i落在正常拷贝数范围外的窗口记录下来,连续的窗口合并,直到遇到正常窗口。
8.根据权利要求7所述的方法,其特征在于,所述预定值为0.05、0.1、0.15或0.2。
9.根据权利要求7所述的方法,其特征在于,所述阈值范围的确定具体为根据样本数据分布特征,计算样本单倍型下所有窗口的标准差SD,确定正常拷贝数的阈值范围为(N–N×m×SD,N+N×m×SD),m为1、2或3。
10.根据权利要求7所述的方法,其特征在于,步骤(6)具体如下:经步骤(5)扫描得到拷贝数异常的连续窗口,这些连续窗口定义为一级区域,具体地,定义一级区域的第一个窗口为第1断点bp1,然后计算一级区域每个窗口及周围一定数目nps窗口的平均值Mnps,nps可为1-10中的任意一个数,逐一计算每个窗口,当出现至少连续2个Mnps落在异常范围时,记录该窗口为第2断点bp2,继续扫描,直到出现至少连续2个Mnps回到正常范围时,记录该窗口为第3断点bp3,这样每遇到正常和异常转换的窗口,记录一个断点bpi,直到一级区域的最后一个窗口,记录为bpf
断点bp1到断点bpf将一级区域分成(f–1)个次级片段,定义为二级区域,计算每个二级区域窗口拷贝数的三均值M3j,和拷贝数正常范围比较,M3j落在异常范围的二级区域即为精确的拷贝数变异区域,其中M3j为该区域的拷贝数,该区域起始和终止的断点即为拷贝数变异的起始和终止位置。
CN201510744574.4A 2015-11-05 2015-11-05 一种检测基因组拷贝数变异的方法 Active CN105574361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510744574.4A CN105574361B (zh) 2015-11-05 2015-11-05 一种检测基因组拷贝数变异的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510744574.4A CN105574361B (zh) 2015-11-05 2015-11-05 一种检测基因组拷贝数变异的方法

Publications (2)

Publication Number Publication Date
CN105574361A CN105574361A (zh) 2016-05-11
CN105574361B true CN105574361B (zh) 2018-11-02

Family

ID=55884485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510744574.4A Active CN105574361B (zh) 2015-11-05 2015-11-05 一种检测基因组拷贝数变异的方法

Country Status (1)

Country Link
CN (1) CN105574361B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423534B (zh) * 2016-05-24 2021-08-06 郝柯 基因组拷贝数变异的检测方法和系统
CN106367512A (zh) * 2016-09-22 2017-02-01 上海序康医疗科技有限公司 一种鉴定样本中肿瘤负荷的方法和系统
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN108073790B (zh) * 2016-11-10 2022-03-01 安诺优达基因科技(北京)有限公司 一种染色体变异检测装置
CN108121897B (zh) * 2016-11-29 2020-05-08 华为技术有限公司 一种基因组变异检测方法及检测装置
CN106480221B (zh) * 2016-12-19 2019-07-23 北京林业大学 基于基因拷贝数变异位点对林木群体基因型分型的方法
CN108256292B (zh) * 2016-12-29 2021-11-02 浙江安诺优达生物科技有限公司 一种拷贝数变异检测装置
CN106650312B (zh) * 2016-12-29 2022-05-17 浙江安诺优达生物科技有限公司 一种用于循环肿瘤dna拷贝数变异检测的装置
CN106845154B (zh) * 2016-12-29 2022-04-08 浙江安诺优达生物科技有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN106676178B (zh) * 2017-01-19 2020-03-24 北京吉因加科技有限公司 一种评估肿瘤异质性的方法及系统
CN106834490B (zh) * 2017-03-02 2021-01-22 上海亿康医学检验所有限公司 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
WO2018161245A1 (zh) * 2017-03-07 2018-09-13 深圳华大基因研究院 一种染色体变异的检测方法及装置
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN107229839B (zh) * 2017-05-25 2020-05-22 西安电子科技大学 一种基于新一代测序数据的Indel检测方法
CN107526941B (zh) * 2017-09-22 2020-12-18 至本医疗科技(上海)有限公司 拷贝数变异检测预处理装置、检测装置、判定装置和系统
CN109979535B (zh) * 2017-12-28 2021-03-02 浙江安诺优达生物科技有限公司 一种胚胎植入前遗传学筛查装置
CN108256289B (zh) * 2018-01-17 2020-10-16 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN108427864B (zh) * 2018-02-14 2019-01-29 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN108410970A (zh) * 2018-03-12 2018-08-17 博奥生物集团有限公司 一种单细胞基因组拷贝数变异的检测方法及试剂盒
CN108573125B (zh) * 2018-04-19 2022-05-13 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN117766020A (zh) * 2018-05-07 2024-03-26 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN108875306A (zh) * 2018-05-31 2018-11-23 福建农林大学 一种查找性别决定序列的方法及系统
CN108875311B (zh) * 2018-06-22 2021-02-12 安徽医科大学第一附属医院 基于高通量测序和高斯混合模型的拷贝数变异检测方法
CN111028888A (zh) * 2018-10-09 2020-04-17 北京贝瑞和康生物技术有限公司 一种全基因组拷贝数变异的检测方法及其应用
CN110129419B (zh) * 2018-12-18 2023-03-31 华联生物科技股份有限公司 拷贝数变异的检测方法
CN109994155B (zh) * 2019-03-29 2021-08-20 北京市商汤科技开发有限公司 一种基因变异识别方法、装置和存储介质
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
CN110246545B (zh) * 2019-06-06 2021-04-13 武汉希望组生物科技有限公司 一种序列的校正方法及其校正装置
CN110797088B (zh) * 2019-10-17 2020-09-15 南京医基云医疗数据研究院有限公司 全基因组重测序分析及用于全基因组重测序分析的方法
CN111462816B (zh) * 2020-03-31 2022-05-20 至本医疗科技(上海)有限公司 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质
CN111477275B (zh) * 2020-04-02 2020-12-25 上海之江生物科技股份有限公司 微生物目标片段中多拷贝区域的识别方法、装置及应用
CN113270141B (zh) * 2021-06-10 2023-02-21 哈尔滨因极科技有限公司 一种基因组拷贝数变异检测整合算法
CN113299342B (zh) * 2021-06-17 2024-03-15 苏州贝康医疗器械有限公司 基于芯片数据的拷贝数变异检测方法及检测装置
CN114792548B (zh) * 2022-06-14 2022-09-09 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN114758720B (zh) * 2022-06-14 2022-09-02 北京贝瑞和康生物技术有限公司 用于检测拷贝数变异的方法、设备和介质
CN115579054B (zh) * 2022-11-17 2023-06-02 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103201744A (zh) * 2010-10-13 2013-07-10 考利达基因组股份有限公司 用于估算全基因组拷贝数变异的方法
CN104133914A (zh) * 2014-08-12 2014-11-05 厦门万基生物科技有限公司 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103201744A (zh) * 2010-10-13 2013-07-10 考利达基因组股份有限公司 用于估算全基因组拷贝数变异的方法
CN104133914A (zh) * 2014-08-12 2014-11-05 厦门万基生物科技有限公司 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于千人基因组谱系数据的拷贝数变异识别与分析;赵辉 等;《南方医科大学学报》;20150630;第35卷(第6期);第777-782页 *
高通量测序数据分析和临床诊断流程的解读;黎籽秀 等;《中国循证儿科杂志》;20150228;第10卷(第1期);第19-24页 *

Also Published As

Publication number Publication date
CN105574361A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN105574361B (zh) 一种检测基因组拷贝数变异的方法
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
JP6392904B2 (ja) Dnaのサイズに基づく解析
WO2017084624A1 (zh) 一种同时完成基因位点、染色体及连锁分析的方法
US10216895B2 (en) Rare variant calls in ultra-deep sequencing
CN106834490B (zh) 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
CN114574581A (zh) 检测稀有突变和拷贝数变异的系统和方法
HUE030510T2 (hu) Magzati kromoszómális aneuploidia diagnosztizálása genomszekvenálás alkalmazásával
CN113362891A (zh) 用短读测序数据检测重复扩增
KR20140023847A (ko) 태아 유전학적 이상의 비침습성 검출
CN110628891B (zh) 一种对胚胎进行基因异常筛查的方法
WO2019051812A1 (zh) 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN108504649B (zh) 编码pcr二代测序建库方法、试剂盒及检测方法
US20210115520A1 (en) Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
US20190032125A1 (en) Method of detecting chromosomal abnormalities
JP2024507536A (ja) 複数の臓器の移植レシピエントにおけるドナー由来無細胞dnaの検出方法
CN106939334B (zh) 一种孕妇血浆中胎儿dna含量的检测方法
WO2016112539A1 (zh) 确定胎儿核酸含量的方法和装置
CN110846310B (zh) Snp位点集及胚胎核酸样本进行亲缘鉴定的方法和用途
CN111321210B (zh) 一种无创产前检测胎儿是否患有遗传疾病的方法
TWI564742B (zh) Methods for determining the aneuploidy of fetal chromosomes, systems and computer-readable media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190718

Address after: 201499 Shanghai Road, Fengxian District, Lane 1698, Lane 17, building 26

Patentee after: Shanghai Yikang medical laboratory Co., Ltd.

Address before: 201400 Shanghai, Fengxian District Jin Qi Road, room 868, No. 5232

Patentee before: SHANGHAI XUKANG MEDICAL TECHNOLOGY CO., LTD.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160511

Assignee: Xukang medical technology (Suzhou) Co.,Ltd.

Assignor: SHANGHAI YIKON CLINICAL LABORATORY Co.,Ltd.

Contract record no.: X2020980007777

Denomination of invention: A method for detecting copy number variation of genome

Granted publication date: 20181102

License type: Exclusive License

Record date: 20201112

EE01 Entry into force of recordation of patent licensing contract