CN104136628A

CN104136628A - 一种检测染色体微缺失和微重复的方法

Info

Publication number: CN104136628A
Application number: CN201180075188.0A
Authority: CN
Inventors: 陈芳; 潘小瑜; 陈盛培; 李旭超; 蒋慧; 张秀清
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2011-10-28
Filing date: 2011-10-28
Publication date: 2014-11-05
Also published as: TW201317362A; US20140274745A1; WO2013059967A1

Abstract

本发明属于基因组突变检测领域，公开了染色体DNA片段拷贝数变异(Copy number variation，CNV)的检测。本发明还公开了与染色体DNA片段拷贝数变异有关的疾病检测。

Description

一种检测染色体微缺失和微重复的方法

技术领域

本发明涉及基因组突变检测领域，特别涉及细胞染色体 DNA片段拷贝数变异（Copy number variation, CNV ) 的检测。本发明还涉及与细胞染色体 DNA片段拷贝数变异有关疾病检测。

背景技术

染色体微缺失 /微重复是指染色体上出现长度为 1.5kb-10Mb的缺失或重复。人类染色体微缺失 /微重复综合征 (microdeletion/microduplication syndromes)是一类因人类染色体上出现微小片段缺失或重复（即 DNA片段拷贝数变异）引起复杂表型疾病，在围产儿和新生儿中发病率较高，可导致严重的疾病和异常，如先天性心脏病或心脏畸形、严重的生长发育迟缓、外貌或肢体畸形等。另外，微缺失综合征也是除唐氏综合征与 X染色体易损综合征外引起智力发育迟缓的主要原因之一。【Knight SJL (ed): Genetics of Mental Retardation. Monogr Hum Genet. Basel, Karger, 2010, vol 18, 101-113 ]₀ 近年在来，在国内外的主要出生缺陷发病率统计中，排在前列的是与染色体微缺失 /微重复有关的先天性心脏病、智力低下、脑瘫和先天性耳聋。常见的微缺失综合征包括 22ql l微缺失综合征、猫叫综合征、 Angelman 综合征、 AZF缺失等。

以 22ql l微缺失综合征为例，该综合征是由人类染色体 22ql 1.21 - 22ql 1.23区域杂合性缺失引起的一类临床症候群，包括 DiGeorge综合征、腭心面综合征、椎干异常面容综合征、 Cayler心面综合征和 Opitz综合征等数个具有相同遗传学基础的临床综合征，该病最常见的临床表现包括心脏畸形、异常面容、胸腺发育不良、腭裂和低钙血症；此外该综合征患者还可以出现体格和智力发育迟缓、学习和认知困难、精神异常等表现，是人类最常见的微缺失综合征，其发生率为 1 : 4000 (活产婴儿），男女发病率无明显差异。 [ Drew LJ, et al. The 22ql 1.2 microdeletion: Fifteen years of insights into the genetic and neural complexity of psychiatric disorders. Int J Dev Neurosci. 2010 Oct 8.】。

尽管每种微缺失综合征发病率都很低 (https://decipher.saneer.ac.uk/svndromes ) ，其中较常见的 22ql l微缺失综合征、猫叫综合征、 Angelman综合征、 MiUer-Dieker综合征等发生率分别为 1 : 4000 (活产婴儿) 、 1 : 50000、 1 : 10000、 1 : 12000，但由于临床检测技术的限制，大量的微缺失综合征患者在产前筛査和产前诊断中无法检出，甚至在婴儿出生数月甚至数年后出现典型的临床表征后，回溯性的寻找原因时，也因检测技术的限制无法对病因进行确诊。由于部分类型的微缺失综合征无法根治，在出生后数月或数年内去世，给社会和家庭带来沉重的精神和经济负担。据不完全统计，全 '快乐木偶综合征" (即 Angelman 综合征）患者己达 1.5万名。其他类型的染色体微缺失综合征患者数量也呈逐年增加的趋势。因此，孕前对临床疑似患者和有相关不良孕产史的父母进行染色体微缺失 /微重复检测，有利于提供遗传咨询和提供临床决策依据；在孕期进行早期产前诊断可有效防止患儿出生或为针对性的为患儿提供出生后的治疗方法提供依据 [ Bretdle F， et aL.Prenatal and postnatal diagnosis of 22ql l .2 deletion syndrome. Eur J Med Genet. 2010 Nov-Dec; 53(6): 367-370】。

然而，这类疾病由于染色体水平微小变异而无法用常规的临床方法如染色体核型分析方法等（分辨率为 10M以上）检出【]^1&1(；01111 S. Microdeletion and microduplication syndromes. Prenat Diagn. 1996 Dec; 16(13): 1213 - 9】。目前针对微缺失 /微重复综合征的诊断方法主要有高分辨率染色体核型分析、 FISH (荧光原位杂交）、 Array CGH (比较基因组杂交）、 MLPA (多重连接探针扩增技术）和 PCR的方法等，利用这些方法，可以检测染色体的微缺失 /微重复。

高分辨率染色体核型分析是 20世纪 80年代后出现的高分辨显带技术，其采用细胞同歩化的方法，获得大量优质的有丝分裂晚前期或早中期的显带核型，使单套染色体的条带数量增至数百条以上，从而提高识别染色体细微结构改变的能力，但其分辨率只有约 3-5M。尽管该方法的分辨率较常规染色体核型分析高，但不足以检测更小的染色体水平上的微缺失 /微重复变异【 Jorge J. Yunis, Jeffrey R. Sawyer and David W. Ball. The characterization of high-resolution G-banded chromosomes of man. Chromosoma. 67(4)， 293 - 307】。

FISH (荧光原位杂交）是在 20世纪 80年代末发展起来的一种非放射性分子细胞遗传技术，该方法是微缺失 /微重复检测的黄金标准，该方法可以有效地检测出大部分染色体缺失。其基本原理是：如果被检测的染色体或 DNA纤维切片上的靶 DNA与所用的核酸探针是同源互补的，二者经变性-退火-复性，即可形成靶 DNA与核酸探针的杂交体。将核酸探针的某一种核苷酸标记上报告分子如生物素、地高辛，可利用该报告分子与荧光素标记的特异亲和素之间的免疫化学反应，经荧光检测体系在镜下对待测 DNA进行定性、定量或相对定位分析。其优点是：实验周期短、能迅速得到结果、特异性好、定位准确。中期染色体 FISH的分辨率可达 1~2M, 间期染色体 FISH分辨率可达 50K，但该技术需在已知缺失位点的情况下，设计探针进行验证，不宜用于发现新的染色体水平的微缺失或重复异常，且价格昂贵，对操作人员的技术熟练程度要求高 [Fluorescence in situ hybridization. Nature Methods, 2237 - 2238, 2005

Array CGH (微阵列 -比较基因组杂交）是近年被应用到临床细胞遗传学领域的一项技术，其将特异 DNA片段作为靶探针固化在载体上形成微阵列，通过将荧光素标记的待测 DNA和参考 DNA与微阵列杂交从而检测 DNA拷贝数变异。 Array CGH的分辨率取决于所设计的探针的类型、大小及其在基因组上的距离，理论上可检测 5至 10kb甚至更小的 DNA序列，但该方法价格昂贵且一般并不覆盖全基因组的所有位点。目前用于染色体微缺失综合征的诊断已多见于文献【ACOG Committee Opinion No. 446: array comparative genomic hybridization in prenatal diagnosis. Obstetrics and Gynecology, 2009】。

MLPA (多重连接探针扩增技术）是近几年发展起来的一种针对待检 DNA序列进行定性和半定量分析的新技术。 MLPA 技术目前在临床实验室己应用于 Y 染色体微缺失、 22ql l .2染色体微缺失等的检测，优点是高效、特异、快速、简便，缺点是样品容易被污染，不适合检测未知的点突变类型、不能检测染色体的平衡易位【王科等， MLPA技术检测 22ql l .2染色体微缺失. 《第七届全国唇腭裂学术会议论文集》，2009】。

PCR方法常用于 Y染色体微缺失方面的检测，如 Y染色体上与男性生殖相关的 AZF 基因（AZFa、 AZFb、 AZFc)等的缺失则多用 PCli的方法检测。对于己知的染色体微缺失位点的验证也可以用 PCR方法。该方法简便易行，缺点是只能针对已知位点进行检测，且一次仅能针对一个位点进行检测。确切的检测方法需结合多个位点的 PCR反应方能达到检测目的【Cong-yi YU, et al. Multiplex PCR Screening of Y Chromosome Microdeletions in Azoospermic Patients. JOURNAL OF REPRODUCTION AND CONTRACEPTION. 2004, 15(4)】。

结合上述内容可知，目前对于染色体微缺失 /微重复的检测方法存在的限制因素主要有分辨率低、不能覆盖全基因组、低通量和高成本。急需开发一种克服这些限制因素的检测染色体微缺失 /微重复的新方法。

发明内容

随着髙通量测序技术的不断发展与测序成本的不断降低，通过高通量测序进行染色体异常的检测分析得到了越来越广泛的应用。为了解决目前检测染色体微缺失 /微重复方法的缺陷如分辨率不高等，本发明设计了一种基于高通量测序技术的检测 DNA拷贝数变异进而对染色体微缺失 /微重复进行检测的方法。该方法克服了现有技术常用的几种方法的分辨率低、不能覆盖全基因组、低通量和高成本的缺点，在全基因组水平上进行染色体微缺失 /微重复的检测，既能对疾病的已知位点进行査找和验证，也能对未知位点进行探索和发现，通量高、特异性高、定位准确。通过对染色体微缺失 /微重复进行检测，可以实现对染色体微缺失 /微重复综合征的检测。

本发明涉及一种检测细胞染色体 DNA片段拷贝数变异（Copy number variation, CNV ) 的方法，其包括以下步骤： a) 将获自待测受试者和正常受试者基因组 DNA分子随机打断，得到 DNA片段，并对所述 DNA片段进行测序，获得测序的读段；

b)将步骤 a中测定的 DNA序列与所述受试者的物种的基因组参考序列进行比对，将所测 DNA序列定位于参考序列上，只选用在参考序列上有唯一位置的读段进行分析； c)寻找参考序列上符合以下条件的位点：待测受试者样品的比对结果与正常受试者样品的比对结果相比，在两侧拷贝数变异比率有差异的位点，步骤如下：

i) 对于参考序列上每一个位点 b，强制使其左右两侧的局部窗口包含 _w条正常读段，即满足 N(^，b) = N(b, ) = w，其中 NO^x 为正常样品落在窗口 (^， )中的比对条数； ii) 在这些位置中，筛选符合^ ^^/^^，^ 的位点，剔出符合 A(x_t，jc_fl) = 0， b-w<i<b + w 的位点，其中 1)(;^， ) = 10§( (^,(：))-10§(?((：,^)) ,

R(x,,x_R)= ^Χι',^Χκ)Ι '' ，其中正常样品读段和待测样品读段唯一比对到参考序列上的条 ' N{x_L,x_R)la_N

数分别为和和、落在窗口（^, )中的唯一比对到参考序列的读段条数分别为；^^^^和^^，^),通过对检验统计量/ 进行正态分布的双侧显著性检验，得到每个位点的 ( ^，¾)|)_; iii) 设置/ ，反复进行以上步骤直至得到所有符合 ^^^，^^)〉 ^的位点，得到候选位点集合为 B^c， B^c = H..,b_N} . 其中可以被设定，例如将侯选位点为 10、100、1000或10000时最小的/7(|/)(^， )|) 设定为 p_bkp；也可以通过以下方式选择将正常样品作为待测样品，执行前述歩骤 a) 至 c)的 ii)，并将所有 ^^(x, , )|)通过错误发现率控制（False discovery rate control, FDR control)进行过滤，并将过滤后的位点中最后一个突破 FDR阈值的作为 p_bkp；进行错误发现率控制的歩骤为：

将待检验的数据集按显著性（P值）从小到大排序，得到他们的秩（r); 从上到下做检验，直到最后一个满足 A^≤ «的位点 k停止，其中 ^为第 k个位置的 P值， ^为第 k个位置的秩， N为总位点个数， "为显著性水平，如 0.01;

保留 k及其之前的所有位点，去除之后的假阳性位点； d) 对步骤 C中所得的选位点集合， ^ .., }中的每一个位点 Α，其两侧存在窗口： (b_k―、, b_k -V}和 (b_k,b_kJ，去除该两窗口之间拷贝数变异比率差异较小的位点，即删除/ 最大的位点并更新合并区间 (b^bk+o 值，通过设重复以上步骤，直到所有位点满足 ―,， ¾₊₁)|) < ,则剩余的位点即为满足寻找 CNV 所需要求的位点，即获得发生染色体拷贝数变异的断点；

其中^ ^的可以被设定，例如设定使剩余位点数目为原侯选位点数目的 1/2、 1/10、

I/loo或 1/1000时的最大 ? 为 _{Pmeise ;} 也可以通过以下方式选择/ _m 将正常样品作为待测样品，执行上述步骤 a) 至 d)，使得合并后候选位点数量变为最初位点数量的 1/2、 1/10、 1/100或 1/1000，其中最大的；被选为 7_m^。本发明还涉及一种检测一类因细胞染色体 DNA 片段拷贝数变异（Copy number variation, CNV)产生复杂的临床表型效应的疾病分析方法，所述方法除了包括上述步骤 a) -d) 外，还包括：

e) 基于歩骤 d中得到的断点进行 CNV分析，将待测样品对于正常样品的 CNV比率小于等于微缺失检测阈值的位点选择为微缺失位点；将待测样品对于正常样品的 CNV 比率大于等于微重复检测阈值的位点选择为微重复位点，

微缺失检测阈值和微重复检测阚值可以由本领域技术人员根据经验选择，例如微缺失检测阈值为 0.75，微重复检测阈值为 1.25;

f)将所述微缺失位点和 /或微重复位点对照已有的 CNV和疾病数据库进行基本的基因注释和缺失部分涉及的基因功能分析，标注出微缺失综合征疾病类型。

本发明的实施方案的具体技术流程见图 1。

本发明的效果

与目前检测染色体微缺失 /微重复常用的方法（如高分辨率染色体核型分析、 FISH、 Array CGH和 PCR的方法）相比，本发明的优越性主要有以下几点：

1) 高分辨率：本发明对染色体 CNV分析的精度可达 100kb，能有效检测出染色体微缺失 /微重复。

2) 适用于更广的数据分析，提高内存设备利用率：重编译算法，改进数据处理的方法，原 SegSeq软件只适合 1~4X低深度测序数据分析，改良后的 SegSeq可用于 1〜30X不同测序深度的数据分析。

3) 覆盖全基因组:基于第二代测序技术，本发明可以对全基因组范围进行染色体 CNV 分析，不需依赖已知的探针和设计探针，可发现新的染色体异常。

4) 高通量：基于高通量测序技术，本发明可以高通量地进行染色体 CNV分析，通过在每个样品上加上不同的标签序列，可以一次地对大量样品进行分析。

5) 成本低：随着测序技术的不断发展和测序成本的不断降低，本发明对染色体 CNV 分析的成本也在不断下降。

附图说明

图 1、本发明对染色体 CNV分析的简要流程图。

图 2、 SeqSeq算法流程示意图。

图 3、样品 1 (A)、样品 2 (B) 和样品 3 (C) 的染色体数字核型图，染色体上重复、缺失和正常区域，相应位置和详细信息见表 2。

图 4、样品 4 (A)、样品 5 (B) 和样品 6 (C) 的染色体数字核型图，染色体上重复、缺失和正常区域，相应位置和详细信息见表 4。

具体实施方式

在本发明说明书和权利要求书中，读段（reads) 是指测序获得的序列片段。

在本发明说明书和权利要求书中，断点（breakpoint)是指染色体上发生拷贝数变异的分界点。

本发明中，获自受试者的基因组 DNA可以从受试者的血液、组织或细胞获取。所述的血液可以来自父母的外周血或胎儿的脐带血；所述的组织可以是胎盘组织或绒毛膜组织；所述的细胞可以是未培养或培养过的羊水细胞、绒毛组细胞。在本发明中，待测受试者和正常受试者是同一物种。

本发明中，基因组 DNA的获取可以采用盐析法、柱层析法、磁珠法、 SDS法等常规 DNA提取方法，优选采用磁珠法。所谓的磁珠法，是指血液、组织或细胞经过细胞裂解液和蛋白酶 K的作用后得到裸露的 DNA分子，利用特异性的磁珠对 DNA分子进行可逆性的亲和吸附，经漂洗液清洗除去蛋白质、脂质等杂质后，用纯化液将 DNA分子从磁珠上洗脱下来。磁珠法可以依照生产商提供的方案进行。

在本发明中， DNA分子的随机打断处理可以采用酶切、雾化、超声、或者 HydroShear 法。优选地，采用超声法，例如， Covaris公司的 S-series基于 AFA技术，当由传感器释放的声能 /机械能通过 DNA样品时，溶解气体形成气泡。当能量移除后，气泡破裂并产生断裂 DNA分子的能力。通过设置一定的能量强度和时间间隔等条件（打断参数举例如下： Duty cycle 20%, Intensity 10， cycles/Burst 1000, Time 60s, Mode: power tracking) ，可将 DNA分子打断至一定范围的大小（例如， 200bp - 800bp不等）。具体原理和方法请参见生产商提供的说明书，将 DNA分子打断为比较集中的一定大小的片段。在本发明的一个实施方案中， DNA分子被打断至约 500bp的大小。

在本发明中，所采用的测序方法可以为高通量测序方法 mumina/Sole_Xa、 ABI/SOLiD、 Roche/454 测序类型可以为 single-end (单向）测序和 Pair-end (双向）测序，测序长度可以为 50bp、 90bp、或 100bp。在本发明的一个实施方案中，测序平台为 Illumina/Solexa, 测序类型为 Pair-end测序，得到具有双向位置关系的 lOObp大小的 DNA序列分子。

本发明中，测序深度可以是〜 30 X，即总数据量为人类基因组长度的 1 -30倍，例如在本发明的一个实施方案中，测序深度为 2 X，即 2倍（6x l0⁹bp) 。具体的测序深度可以依据检测的染色体变异片段大小确定，测序深度越高，检测的缺失和重复的片段越小。

当待测的 DNA分子来自多个受试样品时，每个样品可以被加上不同的标签序列，以用于在测序过程中进行样品的区分【Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, 5(3)】，从而实现同时对多个样品进行测序。

本发明中，基因组参考序列可以来自公共数据库。例如，人类基因组序列可以是 NCBI 数据库中的人类基因组参考序列。在本发明的一个实施方案中，所述人类基因组序列是 NCBI数据库中版本 36 ( hgl 8 ; NCBI Build 36 ) 的人类基因组参考序列。

序列比对可以通过任何一种序列比对程序，例如本领域技术人员可获得的短寡核苷酸分析包（Short Oligonucleotide Analysis Package， SOAP) 和 BWA比对（ Burrows- Wheeler Aligner) 进行，将读段与参考基因组序列比对，得到读段在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行，或者由本领域技术人员根据需要对参数进行选择。在本发明的一个实施方案中，所采用的比对软件是 SOAPalign_er/soap2。

本发明中，将读段比对到染色体序列数据上的是 SOAP之类的软件；基因组拷贝数变异（copy number variation, CNV )的软件算法是一种由 Broad研究院开发的 Matlab脚本 (：群），称为 Segseq软件算法。见图 2。它能够通过新一代测序技术产生的数据，凭借癌变样品与正常样品的比较，计算出拷贝片段的断点（breakpoint )以及拷贝数变异比率（tumor - normal copy ratio) ，同时可以估算出相应的 P _ value等统计数据，在低测序深度（ 10M PE: 32,36 读段）的时候可检测出 50K左右的 CNV片段。

本发明中，对待测样品寻找 CNV分析的断点，是指利用改良的 Segseq软件算法，以正常样品为阴性对照，在参考基因组序列上寻找待测样品和正常样品在其两侧拷贝数变异比率差异符合条件的位点，即断点。所述断点的寻找包括两个步骤：即（1 ) 初始化，目的在于选出候选点；（2 ) 反复合并相邻片段，降低假阳性率。具体的原理及数学模型是：在测序所得读段为来自基因组 DNA中的随机片段的前提下，在比对后落到一个区域的读段数量应服从泊松分布。设全基因组中可比对区域长度为 A (^ί = 2.2χ10⁹ ) ，正常样品和待测样品能比对到参考序列的读段条数分别为和和、落在窗口（χ_Δ， c«)中的读段条数分别为 NO^^^nr^,^), 窗口大小 = χ_Λ-^+1，则 N 和 Γ分别服从参数为 =·^和的泊松分布，且有 i^-rxax ^, α = α_τΙα_Ν。

A A 贝数变异比率定义为 ^{Χ Χ} '^ατ ，在抽样很大的条件下， (； ^， )接近对数

N(x_L,x_R)/a_N

正态分布。定义 Ζ)(Χ Λ:_Λ) = log A:))— log <x〈 ^。那么，由于/ 接近对数正态分布，则 £>(χ_Λ， )服从正态分布，从而应用双侧 P-value ( p D(x_L,x_R)\> d)) 可检验某个位点两侧的拷贝数变异比率差异是否显著。

寻找断点的歩骤（1) 中的初始化，是指初选出候选点的流程。具体的，对于参考序列上的位置 6 ，强制使其左右两侧的局部窗口包含 w条正常读段，即满足 N(x,,b) = N(b,x_R) = w, 则在这些位置中，满足^^！^^ ^/^^，^；^的加入候选序列；而满足 A(^， ) = 0， 6- v</<6 + w的被易 ij除，不列入候选点。通过设定合适的; ¾ ，反复进行以上歩骤直到所有 >(|£>( ,_½)|)> _Pbkp, 则得到适当数目的候选点。

在本发明中， _W可以是大于 1的任意整数，例如 5 - 5000，优选 10 - 2000，更优选为

100- 1000例如 300。

寻找断点的歩骤（2) 中反复合并相邻片段，是指通过极大似然处理，使得之间拷贝数变异比率差异较小的相邻片段得以合并，从而降低假阳性率。具体的，设步骤（1) 中所得的候选点集合为 B^c， BH ,b_N ，则候选点 *的左右两侧窗口分别为 (b_w， -1) 和，去除该两窗口之间拷贝数变异比率差异较小的位点。即，删除 (¾_„¾₊₁)|) 最大的位点 A，并更新合并区间 (^小！^+^的^⁷值，通过设置/ ^^，重复以上步骤，直到所 / ^，则剩余的位点即为满足寻找 CNV所需要求的位点。

本发明中，在寻找候选点后进行 CNV分析，是指根据该领域群体数据分析的经验值将待测样品对于正常样品的 CNV比率 0.75和 1.25分别作为染色体拷贝数变异的检测阈值， CNV比率 0.75即为染色体缺失， CNV比率 1.25为染色体重复。根据分析得到微缺失 /微重复结果绘制染色体数字核型图。染色体数字核型是一种量化基因组上 DNA拷贝数变异的技术，将全基因组上特定位点的 DNA短序列分离列举出。例如，对于人染色体而言，绘制染色体核型图通常是将一个细胞中的染色体从最大（第 1号染色体）到最小的（第 22号染色体）排列，性染色体 ( X和 /或 Y)显示在最后。这是本领域中常用的表示方法，在本领域普通技术人员的能力范围内。例如可以参考文章【Tian-Li Wang et al. Digital karyotyping. PNAS, 2002, vol. 99， no. 25， 16156~16161.】、【Henry Wood et al. Using next-generation sequencing for high resolution multiplex analysis of copy number variation from nanogram quantities of DNA from formalin-fixed paraffin-embedded specimens. Nucleic Acids Research, 2010, 38(14), doi: 10.1093/nar/gkq510.】或者本发明实施例来进行。

在本发明中，其中/ 7 _ρ可以被设定，例如将侯选位点为 10、 100、 1000或 10000时最小的设定为 ρ_{Μρ ;} 也可以通过以下方式选择/ 将正常样品作为待测样品，执行本发明的歩骤计算/? (|£>(^， )|)，并将所有/ ?(|£·(¾，χ )|)进行错误发现率控制（False discovery rate control, FDR control )，并将最后一个突破 FDR阈值的 pfl ( ^，¾ )作为 p_bkp。例如，在实施例中，有异于癌症样品，群体研究中不存在默认的对照样品（例如，癌旁），所以我们利用了炎黄群体的数据（45名南方汉族 +45名北方汉族）的深度测序数据弥补由此带来的不足。我们将混合正常样品（此处只出了炎黄一号之外的炎黄群体数据）当做待测样品，分别执行本发明方法步骤 a)至 c) 的 H ) ，并将所有 ρ(|Ζ)( _{> ½})|)进行错误发现率控制（False discover rate control , FDR control ) ，并将最后一个突破 FDR 阈值的

在本发明中，其中可以被设定，例如设定使剩余位点数目为原侯选位点数目的

1/2、 1/10、 1/100或 1/1000时最大的 ρ(|£>(^， )|)为 p_merge；也可以通过以下方式选择 p_merge：将正常样品作为待测样品，执行本发明方法步骤 a) 至 d)，使得合并后候选位点数量变为最初位点数量的 1/2、 1/10、 1/100或 1/1000,其中最大的 /?(|/)(^， |)被选为。例如，在实施例中，由于缺乏默认对照样品（例如癌旁），我们无法通过合并默认对照的方法来选定阈值。我们将混合正常样品（此处只出了炎黄一号之外的炎黄群体数据）执行本发明的方法至合并步骤，直到候选点集合中候选点数量变为最初的 1/100，其中最大的被选为 , 用到后面的分析。在本发明中，正态分布显著性检验 P值的计算方法可以使用本领域中公知的方法，也可以通过现有的大量软件算法进行计算，这些算法是本领域普通技术人员可以获得的。本发明中，已有的 CNV与疾病数据库，是指已有拷贝数变异与疾病关联信息的数据库。在本发明的一个实施方案中，所使用的数据库值 DECIPHER (https://decipher.sanger.ac.uk/svndromes), 该数据库列出的 58 种微缺失 /微重复综合征均为缺失重复片段与疾病关系明确的内容。

在本发明的一个实施方案中，针对绒毛组织进行染色体 CNV分析的具体方法包括以下歩骤：

1、 DNA提取及测序：按照磁珠法基因组 DNA提取试剂盒（例如 Tiangen DP329)操作手册提取绒毛组织 DNA后，按照 niumina/Solexa标准建库流程进行建库。在这个过程中，绒毛组织 DNA通过超声法随机打断为集中在 500bp左右的 DNA分子，两端加上测序所用接头，每个样品被加上不同的标签序列（index) ，从而在一次测序得到的数据中可以使多个样品的数据区分开。

2、比对及统计：利用第二代测序方法 Illumina/Solexa 测序（用其它测序方法如 ABI/SOLiD能达到相同或相近的效果），每个样品得到一定大小片段的 DNA序列，即读段，将其与 NCBI数据库中的标准人类基因组参考序列进行 SOAP比对，得到所测 DNA 序列定位于基因组相应位置的信息。为避免重复序列对 CNV分析的干扰，只选取与人类基因组参考序列唯一比对的读段（Unique reads) ，作为后续 CNV分析的有效数据，并统计其数目。

3、数据分析：以己知正常样品作为阴性样品，通过基于 SegSeq算法的 CNV分析，寻找 CNV分析所需的断点以及计算待测样品相对正常样品的拷贝数变异比率，通过设置一定的检测闽值，判断待测样品的染色体片段微缺失 /微重复情况，并绘制染色体数字核型图和进行对应的基因注释。具体过程如下：

1 )初始化：对于同一条染色体上，对于一个位置为 6，设置参数^使其左右两侧的局部窗口包含 300条正常读段，即 N(^,6) = N(6，x_s) = >v = 300。在待测样品的读段位置中，满足 6 = m n /j(| ，χ )|)的加入候选序列，满足 A( ，¾) = 0， >— w < < 6 + w的被易 lj除。设置/ 7_Mp相关的参数为 1000，使该初始化流程输出 1000个候选点。反复进行上述剔除和加入候选序列的步骤，直到所有；^/)^^^)〉^^，输出染色体 c上的候选点集合 ^，

2 ) 反复合并相邻片段：初始化得到候选点集合中候选点 ;t的左右两侧窗口分别为

1)和( ,^₊₁)，设置; ;_m„_ge相关的参数为 10，使该反复合并流程输出至多 10个假阳性片段结果。通过反复合并之间拷贝数变异比率差异较小的相邻片段，直到所有 ' 得到最终的分析 CNV所需的有效候选点，即断点。

3 ) CNV分析：统计上述最终断点，设某两个断点之间窗口为 ( ，； ^) , 计算待测样品相对正常样品的 CNV比率 i?0c,，_½) = ^{T(X X /ar} 。将所述 CNV比率 0.75和 1.25分

' N{x, , x_R) l a_N

别作为染色体片段缺失和重复的检测阈值，分析得到微缺失 /微重复结果后绘制染色体数字核型图并进行基因注释。

本发的方法适用于对动物和人进行染色体 CNV分析，特别是哺乳动物，更特别是人。本发明可以用于对适用人群进行染色体 CNV分析，所述染色体 CNV分析可以用于非诊断用途，例如作为对基因组进行研究的工具。本发明还可以用于对适用人群进行染色体 CNV分析，有利于提供遗传咨询和提供临床决策依据；进行植入前诊断或产前诊断可有效防止患儿出生。本发明适用人群可以是常规染色体核型分析无异常、但有以下临床表现的人群-

1) 多次胚胎停育或自然流产的女性及其配偶；

2) 曾生育过畸形胎儿的女性及其配偶；

3) 男性无精少精不育症患者；

4) 原因不明的男性不育症患者；

上述适用人群举例仅用于说明本发明，而不应为限定本发明的范围。下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场获得的常规产品。以下括号内为各个试剂或试剂盒的厂家货号。所使用的测序用的接头和标签序列来源于 IUumina公司的 Multiplexing Sample Preparation Oligonutide Kit。

实施例一、对 3例组织进行染色体 CNV分析

1. DNA提取与测序

按照磁珠法基因组 DNA提取试剂盒（TiangenDP329) 操作流程提取 3例因产前筛査高风险（风险值 1/9)、孕妇本身为平衡易位携带者且之前怀过一例异常胎儿而进行绒毛膜穿刺术的胎儿组织样本（以下简称样品 1、样品 2和样品 3 , 共 2例绒毛及 1例胎盘组织样品）的 DNA，用 Qubit ( Invitrogen, the Quant-iT*¹ dsDNA HS Assay Kit) 定量，所提取的 DNA总量为约 500ng。

提取的组织 DNA是完整的基因组 DNA，按照 Illumina/Solexa标准建库流程进行建库。简而言之，在打断为集中于 500bp的 DNA分子两端被加上测序所用接头，每个样品被加上不同的标签序列（index ) ，然后与芯片（flowcell ) 表面互补接头杂交，在一定条件下使核酸分子成簇生长，然后在 m_Umina m_Seq 2000上通过双末端测序，得到具有位置关系的成对的长度为 lOObp的 DNA片段序列。

随后，将获自上述组织的约 500ng的 DNA使用 Covaris S-series随机打断至 500bp片段后，进行修改后的 Illumina/Solexa 标准流程建库，具体流程参照现有技术（参见 http://www.illumina.com/提供的 Illumina/Solexa 标准建库说明书）。经 2100 Bioanalyzer (Agilent)确定 DNA文库大小及插入片段大小， QPCR精确定量后可上机测序。每个样品最后得到的数据总量为 6x l0⁹bp。

本实施例中，对于获自上述 3 例组织的 DNA样品按照 Illumina/Solexa官方公布的 Cluster Station和 Hiseq 2000 (PE sequencing) 说明书进行操作。

2. 比对与统计

经步骤 1中所述进行测序后，每个样品根据所述标签序列区分开并得到约 500bp的一定大小片段的 DNA序列，即读段。利用比对软件 SOAP_alig_ner/_SOap2，将测序所得读段与 NCBI数据库中版本 36 (hgl 8 ; NCBI Build 36 ) 的人类基因组参考序列进行比对，得到所测 DNA序列定位于基因组相应位置的信息。只选取与人类基因组参考序列唯一比对的唯一读段，作为后续 CNV分析的有效数据，并统计其数目 ^。

本实施例中，已知正常样品选取炎黄基因组 DNA样品作为阴性样品对照【Jun Wang， et al. The diploid genome sequence of an Asian individual. Nature. 2008 Nov 6; 456(7218): 60 - 65】

取与待测样品相同的数据量经标准化后统计其有效读段数目， = 68750810。统计上述样品 1、样品 2和样品 3的有效读段数目 ^分别为 25934245 , 34164361和 32085646。 3. 数据分析

1) 初始化：运行 SegSeq算法，对于一条染色体上的位置 6，设置参数 w = 300使位置 6左右两侧的局部窗口包含 300条正常读段，即 Λ^(χ_Λ,6) = (6，χ_Λ) = >ν = 300。在待测样品的读段位置中，满足 6 = _m n /7 (| , (^，^)|)的加入候选序列，满足 (^，^) = 0、 6 - >V ' < 6 + M的被剔除。设置 ρ_Μ/)相关的参数为 1000，使该初始化流程输出 1000个候选点。反复进行上述剔除和加入候选序列的步骤， , 输出染色体 c上的候选点集合 ^， B^c={b,b₂,...,b_N}.

2) 反复合并相邻片段：初始化得到候选点集合，设候选 ^ t的左右两侧窗口分别为 b_k―、, b 和 φ ，设置相关的参数为 10，使该反复合并流程输出至多 10个假阳性片段结果。去除两侧窗口之间拷贝数变异比率差异较小的位点，直到所有

P D_bi (¾_„6₄₊₁)|) < P_merge，得到最终的分析 CNV所需的有效断点。

3) CNV分析：统计上述最终断点，设某两个断点之间窗口为计算待测样品相对正常样品的 CNV比率 ?(^，_½)= ^T^'^x^^/ar 。将所述 CNV比率 0.75和 1.25分

N{x_L,x_R)la_N

别作为染色体片段缺失和重复的检测阈值，分析得到微缺失 /微重复结果后绘制染色体数字核型图，与 arrayCGH ( The Fetal DNA Chip, http://www.fetalmedicine.hk/en/Fetal DNA Chip.asp ) 进行比较。根据 DECIPHER数据库进行疾病分类并进行基因注释。

4) CNV分析结果输出并绘制数字核型图。

阴性对照结果拷贝数均为正常， 3例样品的 CNV结果以及检测结果验证和主要基因分别如下表 2和 3所示。

表 2

表 3

样品

区带 arrayCGH结果比较疾病类型或影响的基因编号

5pl5.33-*pl3.2 5pl5.3~p 13.2(183931 ~36816731)xl 一致猫叫综合征（Cri du Chat 样品 1

18ql2.3→q23 18pl2.3~q23(39086755~76067279)x3 一致 Syndrome),部分 18三体综合征

BIVM> C13orf27、 KDELCK 样品 2 13q32.2→q33.3 13q32~q33.3(97091318-106466788)x 1 一致

BIVM、 E CC5

2q36~q37.3(230369496~242444380 ) TRIP12, SLC19A3、 PIDK 样品 3 2q36.3→q37.3 一致

x3 NYGGF4 从上述结果可以看出：高通量测序检测到得染色体微缺失和微重复区域与现有的 arrayCGH (The Fetal DNA Chip. http://www.fetalmedicine.hk/en/Fetal DNA Chip.asp )结果一致，具体数字核型图见图 3A-C。实施例二、对另外 3例绒毛组织进行染色体 CNV分析

3例绒毛组织（以下简称样品 4、样品 5和样品 6) 在经过与实施例一中同样的处理方法和测序过程后获得上机数据，结果与髙分辨率核型分析结果相比较。

本实施例的数据分析过程中，与实施例一相同，已知正常样品选取炎黄基因组 DNA 样品作为阴性样品对照，取与待测样品相约的数据量经标准化后统计其有效读段数目， a_N = 68750810。统计上述样品 4、样品 5和样品 6的有效读段数目分别为 44797212， 44086450和 45374254。其余数据分析的流程和相关参数设置均与实施例一中相同，最后分析得到微缺失 /微重复结果后绘制染色体数字核型图并进行基因注释。

阴性对照结果拷贝数均为正常， 3例样品的 CNV结果以及检测结果验证和主要基因分别如下表 4和 5所示。

表 4

区域与现有的 arrayCGH ( The Fetal DNA Chip, http://www.fetalmedicine.hk/en/Fetal DNA Chip.asp )结果一致，具体数字核型图见图 4A-C。

从上述结果可以看出： 3 例绒毛膜组织经高通量测序检测到得染色体微缺失和微重复区域与现有的高分辨率核型分析结果一致。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解，根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims

权利要求书

1. 一种检测染色体拷贝数变异的方法，其包括以下步骤：

a) 将获自待测受试者和正常受试者基因组 DNA分子随机打断，得到 DNA片段，并对所述 DNA片段进行测序，获得测序的读段；

b)将步骤 a中测定的 DNA序列与所述受试者的物种的基因组参考序列进行比对，将所测 DNA序列定位于参考序列上，只选用在参考序列上有唯一位置的读段进行分析； c)寻找参考序列上符合以下条件的断点：待测受试者样品的比对结果与正常受试者样品的比对结果相比，在两侧拷贝数变异比率有差异的位点，步骤如下：

i) 对于参考序列上每一个位点 b，强制使其左右两侧的局部窗口包含 w条正常读段，即满足 N(x»N(b， ) = w，其中 N(x_t,; 为正常样品落在窗口， )中的比对条数， w 为大于 1的整数；

ii) 在这些位置中，筛选符合 ί> = η^_ηρ(|£>,(;^，χ_Λ)|)的位点，剔出符合 Α(^， ) = 0， b-w<i<b + w 的位点，其中 D ( ， = log -log (i?(x，^)) ，

R(x,,x_R)= ^{Τ Χ Χ /ατ} ，其中正常样品读段和待测样品读段唯一比对到参考序列上的条 ' N{x,,x_R)la_N

数分别为和和 α₇.、落在窗口（_¾^«)中的唯一比对到参考序列的读段条数分别为 N(;c,,，x_K)和 r(x,，x_ft)，通过对检验统计量进行正态分布的双侧显著性检验，得到每个位点的; 7(|D ( ， _¾)|)_; iii) 设置; >，反复进行以上步骤直至得到所有符合 ρ(|Ζ?(^， )|)>ρ ^的位点，得到候选位点集合为 ^， 5^C d) 对步骤 c中所得的候选位点集合， ^- ，… ^中的每一个位点^ 其两侧存在窗口： -1)和去除该两窗口之间拷贝数变异比率差异较小的位点，即删除/ 7(|/ ( _，, ₊₁)|)最大的位点 fc，并更新合并区间 (1^, ₊₁)的值，通过设置^^，重复该步骤，直到所有位点满足 ^/^(^^ ^〈/^^, 则获得发生染色体拷贝数变异的位点。

2. 根据权利要求 1的方法，所述 w为 100- 1000之间的整数。

3. 根据权利要求 1或 2的方法，其中为侯选位点为 10、 100、 1000或 10000时最或者通过以下方式选择；将正常样品作为待测样品，执行前述歩骤 a) 至 c) 的 ii)，并将所有 /7(|Ζ^χ_Λ,¾ 通过错误发现率控制（FDR) 进行过滤，并将过滤后的位点中最后一个突破 FDR阈值的 /?(|/)(^， )|)作为 p_bkp '、进行错误发现率控制的歩骤为：

将待检验的数据集按显著性（值）从小到大排序，得到他们的秩（r); 从上到下做检验，直到最后一个满足的位点 k停止，其中 A为第 k个位置的 P值，为第 k个位置的秩， N为总位点个数， α为显著性水平，如 0.01 ;

保留 k及其之前的所有位点，去除之后的假阳性位点。

4. 根据权利要求 1 - 3任一项的方法，其中/ 为使剩余位点数目为原侯选位点数目的 1/2、 1/10、 1/100或 1/1000时的最大;? (|£>^， )|)；或者通过以下方式选择/ 7_m 将 ιΗ常样品作为待测样品，执行上述歩骤 a) 至 d)，使得合并后候选位点数量变为最初位点数量的 1/2、 1/10、 1/100或 1/1000，其中最大的 ?(|£>(^， )|)被选为 _ge。

5. 根据权利要求 1 - 4任一项的方法，在得到发生染色体拷贝数变异的位点后，进一歩包括，

e)基于步骤 d) 中得到的发生染色体拷贝数变异的位点进行分析，将待测样品对于正常样品的 CNV 比率小于等于微缺失检测阈值的位点选择为微缺失位点，将大于等于微重复检测阈值的位点选择为微重复位点；

f)将所述微缺失位点和 /或微重复位点对照已有的 CNV和疾病数据库进行基因注释和功能分析，注出染色体微缺失和 /或微重复综合征疾病的类型。

6.根据权利要求 5的方法，所述微缺失检测阈值为 0.75,所述微重复检测阈值为 1.25。

7. 根据前述权利要求任一项的方法，所述的样品来源于细胞、血液或组织。

8. 根据前述权利要求任一项的方法，所述将样品基因组 DNA分子随机打断的步骤是采用化学或物理断裂方式进行的，所述化学或物理断裂方式包括酶切打断，雾化、超声或 HydroShear法打断。

9. 根据前述权利要求任一项的方法，所述 DNA片段测序步骤利用高通量测序技术进行，所述高通量测序技术包括 Illumina/Solexa、 ABI/SOLiD或 Roche/454测序。

10. 根据前述权利要求任一项的方法，所述 DNA片段测序步骤釆取的测序深度范围是卜 30 X。

11 . 根据权利要求 5或 6的方法，还包括绘制染色体数字核型图的歩骤，所述染色体数字核型图根据拷贝数变异比率值绘制。