CN105722994A - 用于确定性染色体中的拷贝数变异的方法 - Google Patents

用于确定性染色体中的拷贝数变异的方法 Download PDF

Info

Publication number
CN105722994A
CN105722994A CN201480045591.2A CN201480045591A CN105722994A CN 105722994 A CN105722994 A CN 105722994A CN 201480045591 A CN201480045591 A CN 201480045591A CN 105722994 A CN105722994 A CN 105722994A
Authority
CN
China
Prior art keywords
chromosome
sequence
sample
genome
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480045591.2A
Other languages
English (en)
Other versions
CN105722994B (zh
Inventor
戴安娜·阿布杜伊瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Verinata Health Inc
Original Assignee
Verinata Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Verinata Health Inc filed Critical Verinata Health Inc
Publication of CN105722994A publication Critical patent/CN105722994A/zh
Application granted granted Critical
Publication of CN105722994B publication Critical patent/CN105722994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Pathology (AREA)

Abstract

本发明提供使用包含母体和胎儿无细胞DNA的母体样品来确定Y染色体的拷贝数的方法,包括但不限于胎儿的性别确定或Y染色体非整倍性的方法。本发明公开的一些实施方案描述了使用女性样品的代表性训练集在染色体Y上过滤掉(或掩蔽)非辨别序列读数的一种策略。在一些实施方案中,这种过滤策略也适用于过滤常染色体以评估在常染色体上的序列的拷贝数变异。在一些实施方案中,提供了用于确定任何胎儿非整倍性的拷贝数变异(CNV)及已知或怀疑与多种医学病症相关的CNV的方法。还公开了用于评估在Y染色体和其他染色体上感兴趣的序列的CNV的系统。

Description

用于确定性染色体中的拷贝数变异的方法
相关申请的交叉引用
本申请根据35U.S.C.§119(e)主张美国临时专利申请号61/836,057,题目为“METHODFORDETERMININGCOPYNUMBERVARIATIONSINSEXCHROMOSOMES(用于确定性染色体中的拷贝数变异的方法)”及申请日为2013年6月17日(代理机构档案号ARTEP008P)的优先权的权益,该美国临时专利申请通过引用以其全文结合到本文中。
背景
人类医学研究中的关键努力之一是发现了对产生不良健康结果极其重要的遗传性异常。在很多情况下,在基因组的多个部分中已经识别出了以异常拷贝数存在的特定基因和/或关键诊断标志物。例如,在产前诊断中,整个染色体的额外或丢失拷贝是经常发生的遗传性损害。在癌症中,多个整个染色体或染色体的区段的拷贝的缺失或倍增,以及基因组的特定区域的较高水平扩增是常见的情况。
关于拷贝数变异(CNV)的大部分信息已经由允许识别出结构性异常的细胞遗传学分辨能力来提供。用于遗传学筛查和生物学剂量测定的多种常规程序已经利用了有创性手术(例如,羊膜穿刺、脐穿刺或绒毛膜取样(CVS))来获得用于核型分析的细胞。认识到对不需要细胞培养的更快速测试方法的需求,已经开发出了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列-比较基因组杂交(阵列-CGH)来作为用于分析拷贝数变异的分子细胞遗传学方法。
允许在较短时间内对整个基因组进行测序的技术的出现,以及循环无细胞DNA(cfDNA)的发现已经提供了机会来将源自一个有待比较的染色体的遗传物质与另一染色体的遗传物质进行比较,而没有与有创性取样方法相关的风险,这种方法为诊断感兴趣的遗传序列的各种不同的拷贝数变异提供了一种工具。
Y染色体的拷贝数变异的诊断涵盖了与常染色体相比更高的技术挑战,因为Y染色体的覆盖度低于常染色体,以及Y染色体上的重复序列使得将读数映射(mapping)至它们的正确位置变得更加复杂。通过当前的NGS技术有约10Mb的独特Y序列可存取,但是性别检测在胎儿诊断中仍是一项在全球具有挑战性的任务,其中母体样品中胎儿cfDNA的量是比母体DNA低至少一个数量级,强调了非特异性映射的问题。另外,一些当前的测序方案利用超短读数(如25聚体(25mer)读数)和标签,给出了再一个比对挑战,这是因为25聚体标签短于最普遍存在的可重复元件的典型大小。本文公开的一些实施方案描述了使用女性样品的代表性训练集过滤掉(或掩蔽)染色体Y上的非辨别序列读数的一项策略。在一些实施方案中,这种过滤策略也适用于过滤常染色体,用于评估常染色体上的序列的拷贝数变异。
在无创性产前诊断中的现有方法的多种限制(它们包括出自有限水平的cfDNA的不足的灵敏度,以及出自基因组信息的固有性质的技术的测序偏差)决定了对于无创性方法的持续性需求,这些无创性方法将提供特异性、灵敏度和适用性中的任何一项或全部,以便在多种临床环境中可靠地诊断拷贝数的变化。本文公开的实施方案满足了以上需求中的一些,并且具体地在提供一种适用于实施无创性产前诊断的可靠方法方面给出了一种优势。
概述
在一些实施方案中,提供使用包含母体和胎儿无细胞DNA的母体样品确定Y染色体的拷贝数的方法,包括但不限于胎儿的性别确定或Y染色体非整倍性的方法。
在一些实施方案中,提供用于确定任何胎儿非整倍性的拷贝数变异(CNV)和已知或怀疑与多种医学病症相关的多种CNV的方法。可以根据本发明的方法确定的CNV包括染色体1-22、X和Y中的任何一种或多种的三体性和单体性,其他染色体的多体性,以及这些染色体中的任何一种或多种的区段的缺失和/或复制,这些可以通过对试验样品的核酸仅进行一次测序而检测出来。从通过对试验样品的核酸仅进行一次测序而获得的测序信息可以确定任何非整倍性。
在一个实施方案中,该方法包括:(a)在计算机系统上提供包含由第一组多个女性个体的核酸样品所测得的基因组读数的训练集;(b)通过计算机系统将每训练集的个体的至少约100,000个基因组读数与Y-染色体的参考序列进行比对,从而提供包含被比对的基因组读数和它们在Y染色体的参考序列上的位置的训练序列标签;(c)将Y染色体的参考序列通过计算机系统划分成多个单元(bin);(d)通过计算机系统确定定位于各单元中的训练序列标签的计数;(e)通过计算机系统掩蔽超过掩蔽阈值的单元,所述掩蔽阈值基于各单元中训练序列标签的计数,从而提供Y染色体的被掩蔽的参考序列用于评估试验样品中的Y染色体的拷贝数。在一些实施方案中,所述试验样品包含胎儿和母体无细胞核酸。
在一些实施方案中,用于评估试验样品中的Y染色体的拷贝数的方法还包括:(f)使用测序仪对来自包含胎儿和母体无细胞核酸的试验样品的无细胞核酸进行测序,从而产生试验样品的基因组读数;和(g)通过计算机系统将试验样品的基因组读数与参考序列进行比对,从而提供包含被比对的基因组读数及其位置的测试序列标签。
在一些实施方案中,用于评估试验样品中的Y染色体的拷贝数的方法还包括:(h)通过计算机系统测量Y染色体的被掩蔽的参考序列上的测试序列标签的计数;和(i)基于Y染色体的被掩蔽的参考序列上的测试序列标签的计数,通过计算机系统评估试验样品中的Y染色体的拷贝数。
在以上描述的实施方案中的任一个中,所述试验样品可以是母体样品,选自血液、血浆、血清、尿液和唾液样品。在所述实施方案中的任一个中,所述试验样品可以是血浆样品。所述母体样品的核酸分子是胎儿和母体无细胞DNA分子的混合物。对核酸的测序可以使用下一代测序(NGS)来进行。在一些实施方案中,测序是使用合成法测序与可逆染料终止子的大规模平行测序。在其它实施方案中,测序是连接法测序。在又一些实施方案中,测序是单分子测序。任选地,扩增步骤在测序之前进行。
另一个实施方案提供用于识别试验样品中的感兴趣的序列(例如,临床上相关的序列)的拷贝数变异(CNV)的方法。该方法对感兴趣的序列而不是完整染色体或染色体的区段的拷贝数变异作出评价。
在计算机系统上实现的某些实施方案中,针对一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个所识别出的序列标签的数目是至少约10,000个或至少约100,000个。所公开的实施方案也提供一种计算机程序产品,包括非暂时性的计算机可读介质,在其上提供用于执行记载的操作和本文描述的其它计算操作的程序指令。
在一些实施方案中,一种方法另外包括对所述母体试验样品的所述核酸分子的至少一部分进行测序以获得针对所述试验样品的所述胎儿和母体核酸分子的所述序列信息。所述测序可包括对来自所述母体试验样品的母体和胎儿核酸进行大规模平行测序以产生序列读数。
在一些实施方案中,所述掩蔽阈值是通过计算机系统或在计算机系统上进行的操作来确定的:提供两个或两个以上掩蔽阈值候选者;掩蔽超过掩蔽阈值候选者的单元,从而提供两个或两个以上被掩蔽的参考序列;计算阈值评估指数用于基于这两个或两个以上被掩蔽的参考序列中的每一个,评估感兴趣的遗传序列的拷贝数;和选择具有作为掩蔽阈值的最高阈值评估指数的候选者。
在一些实施方案中,计算阈值评估指数包括评估针对(a)和(b)两种个体的核酸样品的Y染色体的拷贝数:(a)与训练集的女性个体不同的女性个体,和(b)已知具有一条Y染色体的男性个体。在一些实施方案中,所述阈值评估指数经计算为(a)和(b)的平均值之差除以标准偏差。
在一些实施方案中,各单元的大小由计算机系统的操作来确定:将Y染色体的参考序列划分成候选单元大小的单元;基于候选单元大小计算单元评估指数;在计算机系统上使用不同的候选单元大小迭代地重复该权利要求的前述步骤,从而得到两个或两个以上不同的评估指数;和选举得到最高单元评估指数的候选单元大小作为单元的大小。
在一些实施方案中,训练集的女性个体具有多样化比对分布型(diversealignmentprofiles),其特征为基因组读数在Y染色体的参考序列上的不同分布。在一些实施方案中,提供训练集包括将第二组多个女性个体划分成两个或两个以上聚类并且选择这两个或两个以上聚类(clusters)中的每一个的个体数目以形成第一组多个女性个体作为训练集的成员。在一些实施方案中,在这两个或两个以上聚类中的每一个中选择个体的相等数目。在一些实施方案中,将复数女性个体划分成两个或两个以上聚类包括分层有序分区和倍数混合(HOPACH)聚类分析。
在一些实施方案中,方法还包括对于提供母体试验样品的人类受试者,在患者医疗记录中,使用处理器自动记录像如上所述一样测定的胎儿染色体非整倍性的存在或不存在。所述记录可以包括将染色体剂量和/或基于所述染色体剂量的诊断记录在计算机可读介质中。在有些情况下,所述患者医疗记录由实验室、医师的办公室、医院、健康保险机构、保险公司或私人医疗记录网站维护。方法可以还包括根据母体试验样品采取对人类受试者开处方、启动和/或改变治疗。另外或作为替代方案,该方法可以包括预约和/或进行一个或多个额外检验。
在一些实施方案中,提供系统和计算机程序产品以实施用于评估试验样品中的感兴趣的遗传序列的拷贝数的方法。
虽然在本文中的实施例涉及人类并且语言主要是针对人类担忧,但是本文描述的概念也适用于来自任何植物或动物的基因组。
通过引用结合的参考文献
在本文中提到的所有专利、专利申请和其它出版物(包括这些参考文献里面披露的所有序列)都通过引用而被明确地结合到本文中,其范围等同于如同每一个单独的出版物、专利或专利申请被具体地和单独地表明是通过引用而被结合到本文中一样。所有引用的文件都在相关部分中通过引用以其全文结合到本文中用于由它们在本文中引用的上下文所指明的目的。然而,任何文件的引用都不得被解释为是承认它相对于本公开是现有技术。
附图简述
图1显示在人类Y染色体上的序列种类、基因和回文。(a)完整人类Y染色体的示意表示,指出了男性特异性区域(MSY)。(b)集中在常染色质MSY并且不包括Yq上的主要的异染色质框图的更详细表示。
图2显示在一个实施方案中在Y染色体上被掩蔽的区域的一个实例。被掩蔽的Y染色体可以用作参考序列用于评估Y染色体的拷贝数。
图3A-3B显示用于评估包含胎儿和母体无细胞核酸的试验样品中的Y染色体的拷贝数的一种方法的多个实施方案的方块图。在一些实施方案中,该方法是在包括一个或多个处理器和系统存储器的计算机系统上实现的。
图4是方法100的流程图,用于确定在包含核酸混合物的试验样品中存在或不存在拷贝数变异。
图5是被分散系统的方块图,用于处理试验样品并且最终做出诊断。
图6示意地说明在处理试验样品中的不同操作可以怎样分组成为通过系统的不同元件进行处理。
图7A和图7B显示按照实施例1a中描述的简略方案制备的cfDNA测序文库的电泳图(图7A),以及在实施例1b中描述的方案(图7B)。
图8说明通过使用HOPACH结果分选的整个475名女性的成对chrY1kb覆盖度关系的热图谱。
图9显示在1Mbvs.1kb单元大小中,对于女性(2)和男性(3),ChrY比率(即chrY计数/chr4计数)。
图10显示男性/女性辨别信噪比作为被掩蔽的单元的分数的函数。
图11显示对于包括女性(浅灰色)vs.男性(深灰色)胎儿cfDNAs的样品,映射至Y染色体的序列标签的频率分布。左侧图显示映射至未被掩蔽的Y染色体的序列标签的分布。右侧图显示根据本文描述的方法映射至被掩蔽的Y染色体的分布。
图12A和图12B说明从对cfDNA进行测序所确定的针对染色体21的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。显示对于染色体1-12和X(图12A)和对于染色体1-22和X(图12B),针对合格的(即,对于染色体21而言正常的)试验样品(O)和21三体试验样品(Δ)的染色体21剂量。
图13A和图13B说明从对cfDNA进行测序所确定的针对染色体18的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。显示对于染色体1-12和X(图13A)和对于染色体1-22和X(图13B),针对合格的(即,对于染色体18而言正常的)试验样品(O)和18三体试验样品(Δ)的染色体18剂量。
图14A和图14B说明从对cfDNA进行测序所确定的针对染色体13的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。显示对于染色体1-12和X(图14A)和对于染色体1-22和X(图14B),针对合格的(即,对于染色体13而言正常的)试验样品(O)和13三体试验样品(Δ)的染色体13剂量。
图15A和图15B说明从对cfDNA进行测序所确定的针对染色体X的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。显示对于染色体1-12和X(图15A)和对于染色体1-22和X(图15B),针对男性(46,XY;(O))、女性(46,XX;(Δ));X单体(45,X;(+))和复杂的核型(Cplx(X))样品的染色体X剂量。
图16A和图16B说明从对cfDNA进行测序所确定的针对染色体Y的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。显示对于染色体1-12(图16A)和对于染色体1-22(图16B),针对男性(46,XY;(Δ))、女性(46,XX;(O));X单体(45,X;(+))和复杂的核型(Cplx(X))样品的染色体Y剂量。
图17显示分别在图12A和图12B、图13A和图13B、以及图14A和图14B中所显示的剂量来确定的针对染色体21(■)、18(●)和13(▲)的变异系数(CV)。
图18显示分别在图15A和图15B以及在图16A和图16B中所显示的剂量来确定的针对染色体X(■)和Y(●)的变异系数(CV)。
图19A-19E说明相对于未被累及样品中的相应染色体的平均值的标准偏差(Y-轴),针对染色体21(19A)、染色体18(19B)、染色体13(19C)、染色体X(19D)和染色体Y(19E)的归一化的染色体剂量的分布。
图20A和图20B显示对于实施例7中描述的研究,设计和抽样计划的两个流程图。图20A显示设计计划的流程图,图20B显示随机抽样计划。
图21A-21F显示对于染色体21、18和13的分析的流程图(分别为图21A-21C),和对于女性、男性和X单体的性别分析(分别为图21D-21F)。椭圆形含有从来自实验室的测序信息获得的结果,长方形含有核型结果,带有圆角的长方形显示用于确定试验性能(灵敏度和特异性)的比较结果。图21A和图21B中的短划线表示在对于T21(n=3)和T18(n=1)的嵌合性样品之间的关系,其分别由染色体21和18的分析检查过,但是如实施例7中描述的一样被正确地确定。
图22显示对于实施例7中描述的研究的试验样品,对于染色体21(●)、18(■)和13(▲),归一化染色体值(NCV)vs核型分类。带圆圈的样品表示具有三体核型的未被分类的样品。
图23显示对于实施例7中描述的研究的试验样品的性别分类,针对染色体X(NCV)的归一化染色体值vs核型分类。显示了具有女性核型的样品(○)、具有男性核型的样品(●)、具有45,X的样品(□)和具有其它核型即XXX、XXY和XYY的样品(■)。
图24显示对于实施例7中描述的临床研究的试验样品,针对染色体Y的归一化染色体值vs针对染色体X的归一化染色体值的散点图。显示了整倍体的男性和女性样品(○)、XXX样品(●)、45,X样品(X)、XYY样品(■)和XXY样品(▲)。短划线显示如实施例7中描述的将样品分类时所使用的阈值。
详述
所公开的实施方案涉及用于评估包含胎儿和母体无细胞核酸的试验样品中的Y染色体的拷贝数的方法、装置和系统。在一些实施方案中,感兴趣的序列包括范围从例如千碱基(kb)到兆碱基(Mb)到完整染色体的基因组区段序列,已知或怀疑这些序列与遗传或疾病病症是相关联的。在一些实施方案中,Y染色体的拷贝数用于确定胎儿性别。在一些实施方案中,可以根据本方法确定的CNV包括性染色体Y的单体性和三体性(例如47,XXY和47,XYY)、性染色体的其它多体性如四体性和五体性(例如XXXXY和XYYYY),以及性染色体中的任何一个或多个的区段的缺失和/或复制。感兴趣的序列的其它实例包括与熟知的非整倍性(例如,XXX三体、21三体)相关的染色体及在疾病(如癌症)中倍增的染色体的区段,例如,急性髓细胞样白血病中的部分三体性8。
除非另有说明,否则本文公开的方法和系统的实施涉及通常用于分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序以及重组DNA领域的常规技术和装置,这些都在本领域的技术以内。这样的技术和装置对本领域技术人员而言是已知的,并且在众多教科书和参考著作(参见例如,Sambrook等人,“MolecularCloning:ALaboratoryManual,”第三版(ColdSpringHarbor),[2001]);和Ausubel等人,“CurrentProtocolsinMolecularBiolog”[1987])中有描述。
数值范围包括限定该范围的数值。在本文的意图是贯穿本说明书给出的每一最大数值限度包括每一较低的数值限度,如同这样的较低数值限度在本文中被明确写出。贯穿本说明书给出的每一最小数值限度将包括每一较高的数值限度,如同这样的较高数值限度在本文中被明确写出。贯穿本说明书给出的每一数值范围将包括落在这样的较宽数值范围内的每一较窄数值范围,如同这样的较窄数值范围在本文中被全部明确写出。
在本文中提供的小标题并不构成对本公开的限制。
除非在本文中另行定义,否则在本文中使用的所有技术和科学术语都具有与本领域普通技术人员通常理解的相同含义。包括了在本文中包含的术语的不同科学字典对于本领域技术人员而言是熟知的并且是可获得的。虽然与本文描述的那些方法和材料类似或等价的任何方法和材料在实施或检验本文公开的实施方案中找到了用途,但是对有一些方法和材料进行了描述。
立即在下文中定义的术语通过将说明书作为一个整体来参阅即得到更完全地说明。应当理解,本公开并不局限于所描述的具体方法、方案和试剂,因为这些可以变化,它们被本领域的技术人员根据其情况来使用。
定义
如本文所用的,单数的术语“一个或一种(a或an)”和该“(the)”包括复数引用,除非上下文清楚地另外指明。
除非另有说明,否则分别是,核酸是按5’到3’方向从左到右书写并且氨基酸序列是按氨基到羧基方向从左到右书写。
术语“评价(assessing)”当在本文中在分析核酸样品的CNV的情况下使用时是指将染色体或区段非整倍性的状态表征为三种类型判定之一(oneofthreetypesofcalls):“正常的(normal)”或“未被累及的(unaffected)”、“被累及的(affected)”和“无判定(no-call)”。判定“正常的”和“被累及的”的阈值通常被设置。对样品中与非整倍性或其它拷贝数变异有关的参数进行测量,并且将所测得的数值与阈值进行比较。对于复制类型的非整倍性,如果染色体或区段剂量(或序列含量的其它测量值)超过针对被累及样品所设定的界定阈值,那么就做出“被累及的”的判定。对于这样的非整倍性,如果染色体或区段剂量低于针对正常样品所设定的阈值,那么就做出“正常的”的判定。相比之下,对于缺失类型的非整倍性,如果染色体或区段剂量低于针对被累及样品所设定的界定阈值,那么就做出“被累及的”的判定,并且如果染色体或区段剂量超过针对正常样品所设定的阈值,那么就做出“正常的”的判定。举例来说,在存在三体性的情况下,通过例如试验染色体剂量等参数的值低于用户界定的可靠性阈值,来确定这种“正常的”判定,并且通过例如试验染色体剂量等参数的值超过用户界定的可靠性阈值,来确定这种“被累及的”判定。通过例如试验染色体剂量等参数位于做出“正常的”或“被累及的”判定的阈值之间,来确定“无判定”的结果。术语“无判定”与“未分类”可互换使用。
术语“拷贝数变异(copynumbervariation)”在本文中是指与参考样品中存在的核酸序列的拷贝数相比,试验样品中存在的核酸序列的拷贝数中的变化。在某些实施方案中,核酸序列为1kb或大于1kb。在有些情况下,核酸序列为整个染色体或其重要部分。“拷贝数变异体(copynumbervariant)”是指这样的核酸序列:其中通过将试验样品中的感兴趣的序列与感兴趣的序列的期望水平进行比较,发现拷贝数差异。举例来说,将试验样品中的感兴趣的序列的水平与合格样品中存在的序列的水平进行比较。拷贝数变异体/变异包括缺失(包括微缺失)、插入(包括微插入)、复制、倍增、倒位、易位和复杂的多位点变异体。CNV涵盖染色体非整倍性和部分非整倍性。
术语“非整倍性(aneuploidy)”在本文中是指由丢失或获得整个染色体、或染色体的一部分而引起的遗传物质的不平衡。
术语“染色体性非整倍性(chromosomalaneuploidy)”和“完整染色体性非整倍性(completechromosomalaneuploidy)”在本文中是指由丢失或获得整个染色体而引起的遗传物质的不平衡,并且包括种系非整倍性和嵌合性非整倍性。
术语“部分非整倍性(partialaneuploidy)”和“部分染色体性非整倍性(partialchromosomalaneuploidy)”在本文中是指由丢失或获得染色体的一部分(例如,部分单体性和部分三体性)而引起的遗传物质的不平衡,并且涵盖由易位、缺失和插入所致的不平衡。
术语“多个/多种/复数(plurality)”是指超过一个元件。举例来说,该术语在本文中用于提及核酸分子或序列标签的数目,该数目在使用本文公开的方法下足以识别试验样品和合格样品中的拷贝数变异的显著性差异。在一些实施方案中,对于每一种试验样品获得了介于约20和40bp之间的至少约3x106个序列标签。在一些实施方案中,每一种试验样品提供了针对至少约5x106、8x106、10x106、15x106、20x106、30x106、40x106或50x106个序列标签的数据。每一个序列标签包含在约20和40bp之间。
术语“多核苷酸”、“核酸”和“核酸分子”可互换使用并且是指核苷酸(即,核糖核苷酸(对于RNA)和脱氧核糖核苷酸(对于DNA))的共价连接的序列,其中一个核苷酸的戊糖的3’位置通过磷酸二酯基团连接到下一个核苷酸的戊糖的5’位置上。核苷酸包括任何形式的核酸的序列,包括但不限于RNA和DNA分子(如cfDNA分子)。术语“多核苷酸”包括但不限于单链和双链多核苷酸。
术语“部分(portion)”在本文中用于提及生物学样品中胎儿和母体核酸分子的序列信息量,这个量合计小于1个人类基因组的序列信息量。
术语“试验样品(testsample)”在本文中是指包含核酸或核酸混合物的样品,典型地来源于生物学流体、细胞、组织、器官或生物体,其包含至少一个针对拷贝数变异进行筛查的核酸序列。在某些实施方案中,样品包含至少一个怀疑其拷贝数已经变异的核酸序列。这样的样品包括但不限于痰液/口水、羊水、血液、血块或细针活组织检查样品(例如,手术活组织检查、细针活组织检查等)、尿液、腹水、胸膜液等等。虽然样品经常取自人类受试者(例如,患者),但是该测定可用于来自任何哺乳动物(包括但不限于狗、猫、马、山羊、绵羊、牛、猪等)的样品中的拷贝数变异(CNVs)。样品可以像从生物学来源获得的一样直接使用或者在预处理以改变样品的特征之后使用。举例来说,这样的预处理可包括由血液制备血浆、稀释黏稠流体等等。预处理的方法也可以包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的添加、裂解等。如果这样的预处理方法与所述样品结合使用,那么这样的预处理方法典型地使得感兴趣的核酸仍保留在试验样品中,有时以与未处理的试验样品(例如,即,未经受任何这样的预处理方法的样品)成比例的浓度。相对于本文描述的方法,这样的“处理的”或“加工的”样品均被认为是生物学“试验”样品。
术语“合格样品(qualifiedsample)”在本文中是指包含核酸混合物的样品,这些核酸以一个已知的拷贝数存在,而将一个试验样品中的核酸与这个已知的拷贝数进行比较,并且它是一个正常样品,即对于感兴趣的序列而言不是非整倍性的。在某些实施方案中,合格样品可用于识别在考虑中的染色体的一个或多个归一化染色体或区段。举例来说,合格样品可用于识别染色体21的归一化染色体。在这种情况下,合格样品就是一个并非21三体样品的样品。合格样品也可以用于确定判定被累及样品的阈值。
术语“训练集(trainingset)”在本文中是指一组样品,它们可包含被累及的和/或未被累及的样品并且用于开发分析试验样品的模型。在一些实施方案中,训练集包括未被累及样品。在这些实施方案中,用于确定CNV的阈值使用对于感兴趣的拷贝数变异而言未被累及样品的训练集来建立。训练集中的未被累及样品可以像合格样品一样使用以识别归一化序列,例如归一化染色体;并且未被累及样品的染色体剂量用于设定感兴趣的序列(例如,染色体)中的每一个的阈值。在一些实施方案中,训练集包括被累及样品。训练集中的被累及样品可以用于验证被累及的试验样品可以容易地从未被累及样品中辨别出来。
“训练集(trainingset)”还在本文中在提及感兴趣的群体的统计学样品的一组个体时使用,其个体的数据用于确定可归纳到群体的一个或多个感兴趣的定量数值。所述统计学样品是感兴趣的群体中的个体的子集。所述个体可以是人、动物、组织、细胞、其它生物学样品(即,统计学样品可以包括多个生物学样品)和提供用于统计学分析的数据点的其他个体实体。
通常,训练集结合验证集一起使用。术语“验证集(validationset)”在本文中在提及统计学样品中的一组个体时使用,其个体的数据用于验证或评估使用训练集确定的感兴趣的定量数值。在一些实施方案中,举例来说,训练集提供用于计算参考序列的掩蔽的数据;验证集提供要验证或评估掩蔽的数据。
“拷贝数的评估”在本文中在提及与序列的拷贝数有关的遗传序列的状态的统计学评估时使用。例如,在一些实施方案中,所述评估包括确定遗传序列的存在或不存在。在一些实施方案中,所述评估包括确定遗传序列的部分或完全非整倍性。在其它实施方案中,所述评估包含基于遗传序列的拷贝数把两个或两个以上样品区别开。在一些实施方案中,所述评估包含基于遗传序列的拷贝数的统计学分析,例如,归一化和比较。
术语“合格核酸(qualifiednucleicacid)”与“合格序列”可互换使用,这是一个试验序列或试验核酸的量与之进行比较的序列。合格序列是优选按已知表达(即,合格序列的量是已知的)存在于生物学样品中的一种序列。一般而言,合格序列是存在于“合格样品”中的序列。“感兴趣的合格序列”是对其在合格样品中的量已知的一种合格序列,并且它是与带有一种医学情况的个体的序列表达中的一种差异相关联的序列。
术语“感兴趣的序列”在本文中是指一种核酸序列,它与在健康个体对比患病个体序列表达中的一种差异相关联。一个感兴趣的序列可以是染色体上的一个序列,它在疾病或遗传病症状况下被错误表达,即:过度表达或表达不足。感兴趣的序列可以是染色体的一部分(即染色体区段)或一个染色体。例如,感兴趣的序列可以是一种染色体(它在非整倍性情况下是过度表达的)或一种基因(它对在癌症中表达不足的一种肿瘤抑制子进行编码)。感兴趣的序列包括在受试者细胞的总群体或亚群体中过度表达或表达不足的序列。“感兴趣的合格序列”是在合格样品中的感兴趣的序列。“感兴趣的试验序列”是在试验样品中的感兴趣的序列。
术语“归一化序列(normalizingsequence)”在本文中是指一种序列,它用于将映射至与归一化序列相关的感兴趣的序列上的序列标签的数目归一化。在一些实施方案中,归一化序列展示映射至它的序列标签的数目在样品和测序轮次中的变异性,该变异性接近于归一化序列用作一个参数的感兴趣的序列的变异性。归一化序列可以将被累及样品与一个或多个未被累及样品区分开。在一些实现方式中,所述归一化序列当与其它潜在归一化序列(如其他染色体)进行比较时最佳地或有效地将被累及样品与一个或多个未被累及样品区分开。“归一化染色体”或“归一化染色体序列”是“归一化序列”的一个实例。“归一化染色体序列”可以由一个单染色体或一组染色体构成。“归一化区段”是“归一化序列”的另一个实例。“归一化区段序列”可以由一个染色体的单个区段构成,或者它可以由相同或不同染色体的两个或两个以上区段构成。在某些实施方案中,归一化序列是用来针对例如工艺相关的变异性、染色体间(轮次内)的变异性和测序间(轮次间)的变异性进行归一化。
术语“可分辨性(differentiability)”在本文中是指归一化染色体的一种特征,这使它能够将一个或多个未被累及的(即,正常的)样品与一个或多个被累及的(即,非整倍性的)样品区别开。展示最大“可分辨性”的归一化染色体是提供在一组合格样品中针对感兴趣的染色体的染色体剂量和在一个或多个被累及样品中在相应染色体中针对相同的感兴趣的染色体的染色体剂量的分布之间的最大统计学差异的一个染色体或一组染色体。
术语“变异性”在本文中是指归一化染色体的另一种特征,这使它能够将一个或多个未被累及的(即,正常的)样品与一个或多个被累及的(即,非整倍性的)样品区别开。归一化染色体的变异性(它是在一组合格样品中测得的)是指序列标签的数目中的变异性,将其映射至接近序列标签的数目中的变异性,其映射至感兴趣的染色体,对此将其用作归一化参数。
术语“序列剂量(sequencedose)”在本文中是指一个参数,它使针对感兴趣的序列所识别的序列标签的数目与针对归一化序列所识别的序列标签的数目相关联。在有些情况下,所述序列剂量是针对感兴趣的序列所识别的序列标签的数目与针对归一化序列所识别的序列标签的数目的比率。在有些情况下,所述序列剂量是指一个参数,它使感兴趣的序列的序列标签密度与归一化序列的标签密度相关联。“试验序列剂量(testsequencedose)”是一个参数,它使感兴趣的序列(例如,染色体21)的序列标签密度与在试验样品中所确定的归一化序列(例如,染色体9)的序列标签密度进行关联。类似地,“合格序列剂量”是一个参数,它使感兴趣的序列的序列标签密度与在合格样品中所确定的归一化序列的序列标签密度进行关联。
术语“序列标签密度(sequencetagdensity)”在本文中是指序列读数的数目,这些读数被映射至参考基因组序列上,举例来说,针对染色体21的序列标签密度是由测序方法产生的映射至参考基因组的染色体21的序列读数的数目。术语“序列标签密度比率(sequencetagdensityratio)”在本文中是指被映射至参考基因组的染色体(例如,染色体21)的序列标签数目与参考基因组染色体的长度的比率。
术语“下一代测序(NextGenerationSequencing,NGS)”在本文中是指允许对克隆扩增的分子和单个核酸分子进行大规模平行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止子的合成法测序以及连接法测序。
术语“参数”在本文中是指表征物理特性的一种数字值。参数通常数字化地表征量化数据集和/或量化数据集之间的数字关系。例如,映射至染色体上的序列标签的数目和映射至该标签上的染色体的长度之间的比率(或比率的函数)就是一个参数。
术语“阈值(thresholdvalue)”和“合格阈值(qualifiedthresholdvalue)”在本文中是指用作截止值(cutoff)的任何数值,以表征含有来自怀疑患有某种医学病症的生物体的核酸的样品(如试验样品)。可以将阈值与参数值进行比较,以确定能产生此类参数值的样品提示该生物体是否患有该医学病症。在某些实施方案中,运用合格数据集计算出合格阈值,并且将其用作诊断生物体内的拷贝数变异(例如,非整倍性)的一种界限。如果从本文公开的方法中获得的结果超过了一个阈值,那么受试者可以被诊断患有拷贝数变异,例如,21三体。通过分析对于样品的一个训练集计算出的归一化值(例如,染色体剂量、NCV或NSV)可以识别出用于本文描述的方法的适当阈值。使用包含合格的(即,未被累及的)样品和被累及的样品二者的训练集中的合格的(即,未被累及的)样品可以识别出阈值。已知患有染色体性非整倍性的训练集中的这些样品(即,被累及样品)可以用于证实所选择的阈值可用于将试验集中的被累及样品和未被累及样品区分开(参见本文中的实施例)。阈值的选择取决于使用者希望得到的做出分类的置信水平。在一些实施方案中,用于识别适当阈值的训练集包含至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少2000、至少3000、至少4000个或更多个合格样品。可能有利的是使用更大组的合格样品来改进阈值的诊断效用。
术语“掩蔽阈值(maskingthreshold)”在本文中用于指对基于序列单元中的序列标签数目的数值进行比较的数量,其中具有其值超过掩蔽阈值的单元被掩蔽。在一些实施方案中,所述掩蔽阈值可以是百分位数秩、绝对计数或其它合适的值。掩蔽阈值不同于作为截止值的阈值以表征含有来自怀疑患有以上提及的某种医学病症的生物体的核酸的样品。
术语“归一化值(normalizingvalue)”在本文中是指一个数字值,该数字值使针对感兴趣的序列(例如染色体或染色体区段)所识别的序列标签的数目与针对归一化序列(例如归一化染色体或归一化染色体区段)所识别的序列标签的数目进行关联。例如,“归一化值”可以如在本文其他部分所述的染色体剂量,或者它可以是如在本文其他部分所述的NCV(归一化的染色体值),或者它可以是如在本文其他部分所述的NSV(归一化的区段值)。
术语“读数(read)”是指来自核酸样品的一部分的序列读数。典型地,虽然并不一定是,读数代表样品中的相邻碱基对的短序列。读数可以通过样品部分的碱基对序列(以ATCG表示)以符号代表。它可以存储在存储设备中,且酌情处理,以确定它是否与参考序列匹配或者满足其它标准。读数可以直接地从测序装置中或者间接地从涉及样品的存储的序列信息中获得。在有些情况下,读数是足够长度(例如,至少约30bp)的DNA序列,其可以用于识别更大的序列或区域,例如,其可以与染色体或基因组区域或基因进行比对并且具体地分配给染色体或基因组区域或基因。
术语“基因组读数(genomicread)”在涉及个体的完整基因组的任何区段的读数时使用。
术语“序列标签(sequencetag)”与术语“映射的序列标签(mappedsequencetag)”在本文中可互换使用,是指已经通过比对已经具体地分配给(即映射至)更大序列(例如,参考基因组)的序列读数。映射的序列标签被独特地映射至参考基因组,即它们被分配给对参考基因组而言的单一位置上。除非另有说明,将映射至参考序列上的同一序列的标签进行计数一次。标签可以数据结构或数据的其它集合来提供。在某些实施方案中,标签含有读数序列或与该读数相关的信息(如基因组中的序列的位置,例如,染色体上的位置)。在某些实施方案中,所述位置针对正链取向而特化。可以对标签进行界定以在与参考基因组比对时提供存在有限量的错配。在一些实施方案中,可以映射至参考基因组上多于一个位置的标签(即并不独特地映射的标签)可以不包括在分析中。
如本文所用的,术语“比对(aligned、alignment或aligning)”是指将读数或标签与参考序列进行比较并且由此确定该参考序列是否含有该读数序列的过程。如果该参考序列含有该读数,则可以将该读数映射至参考序列,或者在某些实施方案中,映射至参考序列中的某个特定位置。在有些情况下,比对简单地告知读数是或不是特定参考序列的成员(即,该读数是存在还是不存在于参考序列中)。举例来说,将读数与人类染色体13的参考序列进行比对,将告知该读数是否存在于针对染色体13的参考序列中。提供这种信息的工具可以被判定集合成员身份测试器。在有些情况下,比对另外指示参考序列中读数或标签可以映射至其中的位置。举例来说,如果参考序列是全人类基因组序列,那么比对可以指示读数存在于染色体13上,并且可以进一步指示读数是在染色体13的具体股和/或位点上。
被比对的读数或标签是根据其核酸分子的次序,识别为与来自参考基因组的已知序列匹配的一个或多个序列。比对可以人工进行,虽然它典型地通过计算机算法实现,因为对于实现本文公开的方法来说,在合理时间周期内比对读数是不可能的。用于比对序列的一个算法的一个实例是核苷酸数据有效局部比对(ELAND)计算机程序(theEfficientLocalAlignmentofNucleotideData(ELAND)computerprogram),该程序分配为伊路纳基因组学分析管道(theIlluminaGenomicsAnalysispipeline)的一部分。作为替代方案,布隆过滤器(Bloomfilter)或类似的集合成员身份测试器可以用于将读数与参考基因组进行比对。参见于2011年10月27日申请的美国专利申请号61/552,374,该美国专利申请通过引用以其全文结合到本文中。比对时序列读数的匹配可以是100%序列匹配或小于100%(非完美匹配)。
术语“比对分布型(alignmentprofile)”在涉及将被比对的序列标签分布到可以被识别为感兴趣的参考序列中的碱基对的位置时使用。
本文中使用的术语“映射”(mapping)是指通过比对将序列读数特异性地分配到更大的序列,例如参考基因组。
如本文所用的,术语“参考基因组”或“参考序列”是指任何生物体或病毒的任何具体的已知基因组序列(无论是部分的或完整的),它可以用于对来自受试者的识别的序列进行参比。例如,用于人类受试者以及许多其他生物体的参考基因组可见于美国国家生物技术信息中心(theNationalCenterforBiotechnologyInformation),在ncbi.nlm.nih.gov。“基因组”是指生物体或病毒的完整遗传学信息,其在核酸序列中被表达。
在各种不同的实施方案中,参考序列明显大于与其进行比对的读数。例如,它可以大至少约100倍,或大至少约1000倍,或大至少约10,000倍,或大至少约105倍,或大至少约106倍,或大至少约107倍。
在一个实例中,参考序列是具有全长人类基因组的序列。这样的序列可以被称为基因组参考序列。在另一个实例中,参考序列仅限于具体的人类染色体(如染色体13)。在一些实施方案中,参考Y染色体是来自人类基因组版本hg19的Y染色体序列。这样的序列可以被称为染色体参考序列。参考序列的其它实例包括其他物种的基因组,以及任何物种的染色体、亚染色体的区域(例如股)等。
在各种不同的实施方案中,参考序列是来源于多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自一个具体的个体。
术语“临床上相关的序列”在本文中是指已知或怀疑与遗传或疾病病症相关或受其牵连的核酸序列。在确定一种医学病症的诊断或确认该医学病症的诊断时、或提供对于一种疾病发展的预后时,确定不存在或存在临床上相关的序列可以是有用的。
术语“衍生的”当在核酸或核酸混合物的背景下使用时,在本文中是指从这种或这些核酸的起源的来源处获得这种或这些核酸的方式。例如,在一个实施方案中,衍生自两个不同基因组的核酸的混合物意味着这些核酸(例如,cfDNA)是由细胞通过天然存在的过程(如坏死或凋亡)而自然地释放出来的。在另一个实施方案中,衍生自两个不同基因组的核酸的混合物意味着核酸是从来自一个受试者的两种不同类型的细胞中提取的。
术语“基于”当在获得特异性定量值的情况下使用时,在本文中是指使用另一个数量作为输入以计算特异性定量值作为输出。
术语“患者样品”在本文中是指从患者(即,医学救助、护理或治疗的接受者)中获得的生物学样品。患者样品可以是本文描述的样品中的任何一种。在某些实施方案中,患者样品通过无创性手术获得,例如,外周血样品或粪便样品。本文描述的方法并不要求局限于人类。因此,考虑了各种兽医学应用,在此情况下,患者样品可以是来自非人类哺乳动物(例如,猫、猪、马、牛等)的样品。
术语“混合样品”在本文中是指含有核酸混合物的样品,它们衍生自不同的基因组。
术语“母体样品”在本文中是指从怀孕受试者(例如,妇女)中获得的生物学样品。
术语“生物学流体”在本文中是指取自生物学来源的液体并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿液、精液、汗液、泪液、唾液等。如本文所用的,术语“血液”、“血浆”和“血清”明确地涵盖它们的分离部分或处理部分。同样,在样品取自活组织检查、拭子、涂片等的情况下,“样品”明确地涵盖衍生自活组织检查、拭子、涂片等的处理的分离部分或部分。
术语“母体核酸”和“胎儿核酸”在本文中分别是指怀孕女性受试者的核酸和由该怀孕女性所怀有的胎儿的核酸。
如本文所用的,术语“对应于”有时是指存在于不同受试者的基因组中,并且在所有基因组无需具有相同序列,而是用以提供例如基因或染色体等感兴趣的序列的身份而非遗传信息的例如基因或染色体等核酸序列。
如本文所用的,术语“实质上无细胞”与所需样品结合使用时涵盖从中除去通常与样品相连的细胞组分的所需样品制剂。举例来说,通过除去通常与血浆相连的血细胞(例如,红细胞),使血浆样品实质上无细胞。在一些实施方案中,对实质上无细胞样品进行加工,以除去细胞,否则这些细胞将对待针对CNV进行测试的所希望的遗传物质产生影响。
如本文所用的,术语“胎儿分数(fetalfraction)”是指包含胎儿和母体核酸的样品中存在的胎儿核酸的分数。胎儿分数经常用于表征母亲血液中的cfDNA。
如本文所用的,术语“染色体”是指活细胞中承载遗传性的基因载体,其衍生自包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。在本文中采用了在国际上认可的常规个别人类基因组染色体编号系统。
如本文所用的,术语“多核苷酸长度”是指一个序列中或参考基因组的一个区域中的核酸分子(核苷酸)的绝对数目。术语“染色体长度”是指以碱基对为单位给出的已知的染色体长度,例如,可见于万维网genome.ucsc.edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=上的人类染色体的NCBI36/hg18集合中所提供。
术语“受试者”在本文中是指人类受试者以及非人类受试者,例如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。虽然本文中的实例涉及人类并且语言主要是针对人类问题,但是本文公开的概念适用于来自任何植物或动物的基因组,并且适用于兽医学、动物科学、研究实验室等领域。
术语“病症”在本文中是指“医学病症”,作为广义的术语,其包括所有疾病和障碍,但是可以包括[损伤]和正常健康状况(如怀孕),它可能影响一个人的健康,受益于医疗救护或具有医学治疗的蕴含意义。
术语“完整”在本文中当在提及染色体性非整倍性时使用时是指整个染色体的获得或丢失。
术语“部分”在本文中当在提及染色体性非整倍性时使用时是指染色体的一部分(即,区段)的获得或丢失。
术语“嵌合体”在本文中是指表示从单个受精卵发育而来的一个个体中存在具有不同核型的两种细胞群体。嵌合现象可能由发育期间仅仅蔓延到成体细胞的一个亚群的突变引起。
术语“非嵌合体”在本文中是指由一种核型的细胞组成的生物体,例如人类胎儿。
术语“使用染色体”在本文中当在提及确定染色体剂量时使用时是指使用针对染色体所获得的序列信息,即针对染色体所获得的序列标签的数目。
如本文所用的术语“灵敏度”等于真阳性除以真阳性和假阴性之和得出的数。
如本文所用的术语“特异性”等于真阴性除以真阴性和假阳性之和得出的数。
术语“富集”在本文中是指将母体样品的一部分中所含有的多态性靶核酸扩增并且将扩增的产物与来自去除该部分的母体样品的其余部分组合的过程。举例来说,母体样品的其余部分可以是原始母体样品。
术语“原始母体样品”在本文中是指从怀孕受试者(例如,妇女)中获得的非富集的生物学样品,其用作移除一部分以扩增多态性靶核酸的来源。“原始样品”可以是从怀孕受试者中获得的任何样品及其加工部分,例如从母体血浆样品中提取的纯化cfDNA样品。
如本文所用的术语“引物”是指分离的寡核苷酸,即当置于诱导延伸产物的合成条件(例如,所述条件包括核苷酸、诱导剂如DNA聚合酶和合适的温度及pH)下时,能够用作合成起始点。所述引物优选为在扩增时效率最大的单链,但作为替代方案,可以是双链的。如果是双链的,那么在用于制备延伸产物前首先对引物进行处理以使其链分离。优选地,引物为寡脱氧核糖核苷酸。引物必须足够长,以在诱导剂的存在下引发延伸产物的合成。引物的精确长度将取决于许多因素,包括温度、引物的来源、方法的使用和用于引物设计的参数。
短语“引起被给予(causetobeadministered)”是指由医学专业人士(例如,医生)或者控制或指导受试者医疗护理的人所采取的行动,从而控制和/或准许将争论中的一种或多种药剂/一种或多种化合物给予受试者。给药可以包括诊断和/或确定适当的治疗或预防方案,和/或为受试者开出具体药剂/化合物。这样的开处方可以包括例如起草处方组成、填写病历卡等等。类似地,例如诊断程序的“有待执行的行为(causetobeperformed)”是指由医学专业人士(例如,医生)或者控制或指导受试者医疗护理所采取的行动,从而控制和/或准许对受试者或在受试者身上进行一个或多个诊断方案。
引言
本文公开了用于确定在包含衍生自两个不同基因组并且已知或怀疑在一个或多个感兴趣的序列的量上是不同的核酸的混合物的试验样品中的感兴趣的不同序列的拷贝数和拷贝数变异(CNV)的方法、装置和系统。通过本文公开的方法和装置确定的拷贝数变异包括完整染色体的获得或丢失,涉及显微镜下可见的非常大的染色体区段的改变,以及在大小上范围从单个核苷酸到千碱基(kb)到兆碱基(Mb)的DNA区段的亚显微拷贝数变异的丰度。
该方法适用于确定任何胎儿非整倍性的CNV,并且已知或怀疑与多种医学病症相关的CNV。在涉及人类受试者的一些实施方案中,可以根据本方法确定的CNV包括染色体1-22、X和Y中的任何一个或多个的三体性和单体性、其他染色体的多体性及这些染色体中的任何一个或多个的区段的缺失和/或复制,通过试验样品的核酸的仅一次测序即可检测到。任何非整倍性可以通过从试验样品的核酸的仅一次测序即获得的测序信息来确定。
人类基因组中的CNV显著地影响人类多样性和对疾病的易感性(Redon等人,Nature23:444-454[2006],Shaikh等人,GenomeRes19:1682-1690[2009])。已知CNV通过不同机制促成遗传性疾病,从而在多数情况下导致基因剂量的不平衡亦或基因破坏。除了它们直接与遗传性障碍相关之外,还已知CNV介导可以是有害的表型改变。最近,若干研究已经报道,与正常对照相比,在复杂的障碍(如自闭症、ADHD和精神分裂症)中,罕见或重新的(denovo)CNV的一种增加的负担,突出了罕见或独特的CNV的潜在致病性(Sebat等人,316:445-449[2007];Walsh等人,Science320:539–543[2008])。来自基因组重排的CNV上升,主要是归因于缺失、复制、插入和不平衡的易位事件。
本文描述的方法和装置可以采用下一代测序技术(NGS),它是大规模平行测序。在某些实施方案中,将经克隆扩增的DNA模板或单个DNA分子以大规模平行方式在流动槽(flowcell)内进行测序(例如,如在Volkerding等人,ClinChem55:641-658[2009];MetzkerMNatureRev11:31-46[2010]中所描述)。除了高通量序列信息之外,NGS还提供定量信息,其中每一个序列读数是可计数的“序列标签”,这些序列标签代表了个体克隆DNA模板或单个DNA分子。NGS的测序技术包括焦磷酸测序、借助可逆染料终止子的合成法测序、通过寡核苷酸探针连接的测序和离子半导体测序。对来自单独的样品的DNA可以单独地进行测序(即,单项(singleplex)测序),或者在单测序轮次时,作为索引基因组分子,可以将来自多个样品的DNA合并并且进行测序(即,多重(multiplex)测序),以产生高达若干亿的DNA序列的读数。下文描述了根据本方法可用于获得序列信息的多种测序技术的实例。
使用DNA样品的各种CNV分析涵盖将来自测序仪的序列读数与参考序列进行比对或映射。参考序列可以是全基因组的序列、染色体的序列、子染色体区域的序列等。由于参考序列的特征,Y染色体的CNV的诊断涵盖与常染色体相比更突出的技术挑战,因为Y染色体的覆盖度低于常染色体,以及Y染色体上的重复序列使得将读数映射至它们的正确位置变得更加复杂。通过当前的NGS技术有约10Mb的独特Y序列可存取,但是性别检测在胎儿诊断中仍是一项在全球具有挑战性的任务,其中母体样品中胎儿cfDNA的量是比母体DNA低至少一个数量级,强调了非特异性映射的问题。
另外,一些当前的测序方案利用超短读数(如25聚体读数)和标签。在测序方案的过程中所利用的超短测序产生了对于序列比对的技术挑战所存在的短阅读长度,因为人类基因组的将近一半由重复覆盖,其中有许多已知约数十次(decades)。根据计算前瞻性,重复在比对中创造歧义,进而它可以产生偏好和错误,甚至在整个染色体计数水平下。对15个来自怀有女性胎儿的孕妇的样品中最常见的染色体Y(chrY)25聚体的病例研究显示它们全都落入距人类基因组最丰富的重复序列的1个编辑距离之内。这说明在将读数与参考基因组进行比对的过程中内在的问题:来源DNA实质上从不与读数的参考和系统性比对完全相同,使得在染色体Y上的位置不正确,不可避免地导致假性别推断。人类基因组具有在200–500bp范围内的数百万个拷贝的重复,它长于通过NGS技术、尤其是当前所利用的超短读数测序法所产生的读数,因此染色体Y上的独特和非丰富读数的目标过滤后(targetedpost-filtering)有需求。
人类Y染色体是异质性的,表现为异染色质的、拟常染色体的、X-转位的、X-退化的(X-degenerate)和扩增子的,见图1,准确地讲,
1.Y染色体的男性特异性区域的显著分数包含异染色质序列的若干分离框,包括在长臂上异染色质的单一~40Mb质量。
2.拟常染色体区域(PAR)位于Y和X染色体的最末端并且构成总Y-染色体序列的小分数。
3.起源于从X到Y转位事件的X-转位区域,甚至横跨3.4Mb。
4.X-退化序列是X染色体的恶化形式。它们稀少地以16单拷贝基因成群。
5.扩增子序列完全由复制序列的长链段组成。
将读数准确地映射至参考序列对于下一代测序来说是最重要的任务之一,下一代测序在商业NGS系统应用中仍然保持是最具有挑战性的领域之一,尤其是在依赖染色体Y读数的准确映射的性别判定中。杜克25聚体可映射性跟踪(Duke25mermapabilitytrack)(在UCSC'sGenomeBrowser中可获得)反映出所有25-碱基序列的独特性并且提示chrY的仅11Mb是完完全全独特的。这就是说,对独特序列的有限chrY映射的读数计数不保护chrY总计数免于性别-无差别命中,代表大多数的男性和所有的女性覆盖度estate。一些常规过滤方法解决了所映射读数的非独特性。向序列标签转变的序列读数涵盖移除映射至多个基因组位置的所有读数;并且标签向位点转变的是移除映射至相同基因组位置的复制的25聚体(25-mers)的一个过程。然而,最有效的过滤方法对达到更好诊断结果是理想的。
对去标识的商业女性样品的群组中存在的普通chrY标签中的许多的研究提示性别-无差别标签代表在高度复制的基因组区域里面发生的测序错误。例如,一种特异性25聚体(25mer)给出整个基因组上10,000+次命中并且在染色体Y上零次命中,具有单个错配的又一个相似25聚体在不包括Y的整个基因组上产生零次命中,并且在染色体Y上单个命中。因此,性别-无差别标签代表距最高频率基因组复制/重复的25聚体的短编辑距离里面的25聚体的一个群组。
本文公开的一些实施方案描述使用女性样品的代表性训练集过滤掉(或掩蔽)染色体Y上的非辨别序列读数(non-discriminantsequencereads)的一种策略。在一些实施方案中,这种过滤策略也适用于过滤常染色体,以评估常染色体上的序列的拷贝数变异。
在一些实施方案中,参考序列含有被掩蔽或被排除的区域,这些区域在确定许多读数怎样映射至参考序列时不会考虑进去。这样的区域可以具有与其它位置中的序列完全相同或几乎完全相同的序列。因此,这样的映射中的任何一种可能是成问题的。映射至Y染色体的读数实际上可以在基因组中(例如,在X染色体中)在另一个位置上起源。在这种情况下,可能发生假阳性。在一些实施方案中,完全相同地映射至参考序列的读数在对序列标签进行计数以确定掩蔽之前在读数转换成标签期间被排除。在这些实施方案中,几乎完全相同地映射至Y染色体的读数仍然存在以上陈述的问题。本文公开的一些实施方案涉及用于确定在Y染色体上被排除或被掩蔽的区域的技术。在一些实施方案中,用于掩蔽参考序列的技术适用于除Y染色体以外的染色体。
在一些实现方式中,在参考序列上被排除的区域对于映射仍然是可获得的。在这种情况下,首先将读数与被排除的区域进行比对以产生序列标签,然后将落入被掩蔽的区域上的序列标签在随后的计算和分类中被考虑进去。在多个替代的实现方式中,将被排除的区域简单地从参考序列中移除使得没有读数可以映射至被排除的区域。然而,这种稍后的方法可以导致零散(stray)命中出现在基因组上别的地方。举例来说,来自胎儿的Y染色体的男性胎儿读数中有一些将被映射至非Y参考染色体上。这样的零散命中在该方法中需要相应地解决。
本文公开的过滤染色体Y的经验方法不依赖于对性别非辨别区域的预先定义的/预先计算的注释。然而,存在有在不同形式的测定之间保守的并且反映出处于染色体Y的重复结构下的相当明显的“掩蔽”结构。图2显示在一个实施方案中被掩蔽的Y染色体的区段的一个实例。被掩蔽的区段对应于深色带,其由在该图的Y轴上所显示的Y染色体碱基对数目所索引。在一些实施方案中,被掩蔽的Y染色体可以经预先计算并且用作参考序列用于评估Y染色体的拷贝数。正如所见到的,大多数的掩蔽单元落在位置2e7下面。在一些实施方案中,掩蔽单元的至少约80%落在位置3e7下面。在一些实施方案中,掩蔽单元的至少约90%落在位置3e7下面,并且大多数或所有的剩余单元落在位置5.5e7和6.2e7之间的区域内。
掩蔽参考序列
本文公开的一些实施方案采用了使用女性样品的代表性训练集过滤掉(或掩蔽)染色体Y上的非辨别序列读数的一种策略。在一些实施方案中,所述过滤策略也适用于过滤常染色体,以评估常染色体上的序列的拷贝数变异。在一些实施方案中,所述参考Y染色体是来自人类基因组版本hg19的Y染色体序列。使用通过本文描述的方法产生的被掩蔽的参考序列,人们可以可靠地确定性别和/或确定与拷贝数有关的各种遗传病,并且相对于常规方法,CNV具有改进的灵敏度、选择性和/或效率。
在一些实施方案中,提供在临床女性样品的一个代表性群组中,基于它们出现的经验频率,独特映射的非多余读数(例如,25聚体(25mer))的染色体Y过滤的一个过程。
图3A-3B显示用于评估在包含胎儿和母体无细胞核酸的试验样品中的Y染色体的拷贝数的一种方法的多个实施方案的方块图。在一些实施方案中,该方法是在包括一个或多个处理器和系统存储器的计算机系统上实现的。
图3A显示模块200的方法的多个实施方案的方块图。根据这些实施方案,该方法首先提供一个包含由第一组多个女性个体的核酸样品所测得的基因组读数的训练集,模块210。在本文稍后描述的一些实施方案中,训练集选择出将与待测群体有关的训练集的代表性最大化的方法。在一些实施方案中,所述基因组读数包含超短序列(例如,25bp序列)。在一些实施方案中,使用对Y-染色体的拷贝数的评估来确定胎儿的性别。
在一些实施方案中,该方法进一步涵盖将训练集的基因组读数与Y-染色体的参考序列进行比对,模块220。典型地,将来自训练集的样品的基因组的序列的基因组读数与参考基因组(包括整个Y-染色体或几乎整个Y-染色体)进行比对。该比对提供包含被比对的基因组读数和它们在Y染色体的参考序列上的位置的训练序列标签,参见模块230。
此外,该方法涉及将参考序列划分到规定大小的单元中,参见模块240。这种划分在将基因组读数比对之前进行。然后,该方法确定定位于各单元中的训练序列标签的计数,参见模块250。该方法进一步涵盖掩蔽超过掩蔽阈值的单元,从而提供Y染色体的被掩蔽的参考序列,参见模块260。在一些实施方案中,该方法也涵盖确定掩蔽阈值。Y染色体的被掩蔽的参考序列可以用于分析试验样品中的Y染色体的拷贝数,如下文进一步所描述。
选择训练集
典型地,对于训练目的,使用女性样品的随机样品集进行Y染色体的拷贝数评估。在一个理想的情形下,训练集是一大组基因组读数,来自具有与试验样品一样的相似Y染色体比对分布型的女性。所以,训练集选择的目标可能是使其尽可能具有代表性,维持以下特性中的一种或多种:(1)与原始数据集相比,训练集在大小上明显较小。(2)与相同大小的任何子集相比,它捕获来自原始数据集的大部分信息。(3)在它含有的代表中,它具有低冗余度。(4)适当的数据必须维持以证实验证结果。
女性群体在“比对分布型”中对于Y染色体具有显著异质性。比对分布型在这种情况下是在来自女性样品的序列标签的Y染色体里面分布。有些女性样品具有与Y染色体的特定区域比对的读数,而另外的女性样品却不是。Y染色体的有效掩蔽应该不适用于各种各样的女性基因型。为此,在Y染色体上的掩蔽的位置通过有目的地考虑来自多份女性样品所识别的迥然不同的比对分布型进行选择。
一些实施方案提供一种方法,该方法用于选择训练集以产生Y染色体的掩蔽,从而在群体中减少在许多不同类型的女性样品间假阳性的发生率(男性性别识别)。女性样品可以是其特征为来自映射至参考Y染色体的样品的读数的分布。每一种女性样品都将具有其自身的分布,这可以被称为Y染色体中的比对分布型。
为了提供Y染色体的被有效掩蔽的参考序列,选择针对训练集的女性样品来覆盖在仍然在逃的(atlarge)群体中所代表的各种各样的比对分布型。
可以采用各种技术来选择用于训练集的样品。可以使用的一种技术需要样品的聚类分析并且从各聚类选择出样品。可以采用其它技术来选择对待测群体具有代表性的训练集,因此提供足够的信息以推导参考序列的有用掩蔽。可以实现的用于训练集选择的其它方法包括但不限于谈到卖方、试剂、仪器、操作员和具体临床样品参数(例如,cfDNA收率)等,有意义的样品多样化。
在一些实施方案中,所述训练集选择技术基于比对分布型中的相似性将女性样品划分成多个聚类。实施聚类分析技术以提供合理数目的聚类(例如,约10至30个)。在一个实施方案中,将女性DNA样品分成20个聚类。此后,从各聚类中选出多个样品以移居到训练集。在某些实施方案中,所述样品随机地从各聚类中选出来。
在某些实施方案中,从每一个聚类中选择出相同数目的样品(例如,从每一个聚类中选择出15个样品)。如果一个聚类小于用于选择所需要的样品数目,那么该聚类的所有成员都选择。在其它实施方案中,从各聚类中选择出的成员数目由聚类的相对大小来确定。例如,具有相对大的成员数目的聚类将对训练集贡献出相对大的成员数目。反过来说,具有相对小的成员数目的聚类将对训练集贡献出相对小的成员数目。在一些实现方式中,每一个聚类的贡献是其样品数目的一部分。
在一些实施方案中,通过杂种聚类法(hybridclusteringmethod)、分层有序分区和倍数混合(HOPACH)进行训练样品的聚类分析,HOPACH是一种聚类分级树。参见,M.vanderLaan和K.Pollard.Anewalgorithmforhybridhierarchicalclusteringwithvisualizationandthebootstrap.JournalofStatisticalPlanningandInference,117:275–303,2003。HOPACH方法将分配(partitioning)和凝聚(agglomerative)聚类分析法二者的强度组合在一起并且允许研究者在细节水平增高时审查聚类。在实施例2中举例说明了一个实施方案的更多细节。
定义针对Y染色体的掩体
在涉及Y染色体的CNV分析的一些实施方案中,Y染色体的掩体由多个掩体区段组成。每一个区段包含一个或多个单元,该区段具有一定长度和起始点。在一些实施方案中,所述起始点可以作为补偿(offset)来自Y染色体序列上的限定位置而被限定。在确定掩体区段的过程中,人们可以假定特定单元大小。在一个实例中,长度为1Mb,而在另一个实例中,长度为1kb。原则上,单元大小可以向下延伸至单个读数的长度,例如,长度约20至50个碱基。在一些实施方案中,表明使用1-kb单元大小的方法比1-Mb单元大小更好进行。
在一些实施方案中,单元的大小可以通过区别分析或其它技术进行调整。在一些实施方案中,下降至测序仪读数的大小的任意小的单元大小将是合适的。另一方面,测序方案和计算效率可能需要更大的尺寸。在一些实施方案中,单元大小选择由人类基因组中所见到的重复的最高频率大小来推导。在一些实现方式中,在500-1000bp范围内的单元对于最初的分级工作良好,最初的分级可以后来与新出现的单元耦合以产生最后一组的掩蔽区段。TreangenTJ,SalzbergSL.RepetitiveDNAandnext-generationsequencing:computationalchallengesandsolutions.NatRevGenet.2011Nov29;13(1):36-46.doi:10.1038/nrg3117。然而,其它技术限制可能有助于单元大小的增加,例如,在掩蔽区段的总计数上的上限,等等。
在一些实施方案中,训练集各成员的序列用于产生所有可能的读数。对那些中的每一个检查与参考Y染色体匹配或比对。在一些实施方案中,比对允许在读数中至多两个碱基错配。在一些实施方案中,比对算法提供匹配,不仅当读数准确地匹配参考染色体的一部分时,而且当读数的一个或两个碱基变异匹配参考染色体的一部分时。样品的聚类分析和序列标签的计算并不局限于需要精确匹配或允许错配的比对。
对训练集中的每一个女性样品进行分析以基于来自女性样品的读数怎样与参考Y染色体进行比对,产生序列标签的比对分布型。将参考Y染色体划分成典型相等大小的单元。比对分布型提供参考Y染色体的各单元中的序列标签的数目。参考Y染色体的单元中的每一个由针对训练集的成员的读数计数分选;即最过代表的单元是用于掩蔽的顶候选者。
在一些实施方案中,具有至少一个计数的所有单元被认为用于掩蔽。在一些实施方案中,可以凭经验选择出被实际去除的这样的单元的数目,或更精确地计,被实际去除的这样的单元的分数。最上面的单元–具有来自训练集的计数的最大数目的单元–是第一个将被去除的单元。具有计数的第二个最大的单元是第二个将被去除的单元,依此类推。因此,甚至当用于掩蔽的阈值分数极低时,典型地排名最高的单元将尽管如此被去除。如果将阈值设定在50%,单元的一半将被掩蔽。那些是具有在第50百分位和更高的计数值的单元。在一些实施方案中,将掩蔽阈值设定在第90百分位和更高。
在以上的实施方案中,使用区别公制(如男性/女性或非整倍性区别公制)凭经验确定将被掩蔽的单元的阈值数目。在一些实施方案中,信噪比可以用作如上所述的公制。也可以采用本领域已知的其它区别公制。
确定Y染色体的拷贝数
在一些实施方案中,以上描述的染色体Y过滤技术用于确定Y染色体的拷贝数。图2B显示用于评估Y染色体的拷贝数的方法的多个实施方案的方块图,模块200。该方法提供根据以上描述的各种不同的实施方案确定的Y染色体的被掩蔽的参考序列,参见模块260。该方法进一步涵盖使用测序仪对来自试验样品的无细胞核酸进行测序,从而产生试验样品的基因组读数,模块262。该样品和样品处理方法在下文中有进一步详细描述。该样品可以通过本文稍后描述的方法进行测序。该方法进一步涵盖将所述试验样品的基因组读数与参考序列进行比对,模块264,以提供包含被比对的基因组读数及其在参考序列上的位置的测试序列标签,模块266。典型地,将所述试验样品读数与未被掩蔽的参考序列进行比对,虽然也有可能将该读数与被掩蔽的参考序列进行比对。在一些实施方案中,与未被掩蔽的参考序列的比对可以得出更好的结果。当比对允许某些程度的错配时这可能尤其是真正的。
在一些实施方案中,该方法进一步涵盖测量Y染色体的被掩蔽的参考序列上的测试序列标签的计数,模块268。然后,该方法可以基于被掩蔽的参考序列上的测试序列标签的计数来评估试验样品中的Y染色体的拷贝数。参见模块270。
掩蔽Y染色体以外的染色体
在一些实施方案中,以上描述的染色体Y过滤技术可以延伸至其他染色体用于评估CNV或其它目的。在这些实施方案中,过滤方法首先涵盖针对全基因组过滤选择训练集以代表正常样品的截然不同的聚类,无需已知的异常遗传病症或感兴趣的非整倍性。训练集通过以下方法进行选择:例如,在以上描述的方法中将聚类表示针对染色体Y最大化。为了验证,将具有证实的非整倍性的已知被累及样品与不在训练集中的一组正常样品一起使用。
在一些实施方案中,该方法涉及在训练集中的所有样品间,对于预先定义的大小(不限于,例如,chrY)的每个非重叠基因组单元,确定非复制的序列标签的总计数。在一些实施方案中,该方法涉及从单元序列标签计数减去预期的计数而标准化,预期的计数可近似于通过整个单元的平均覆盖度(计算出的中值,例如,全基因组-宽、常染色体-宽或在染色体内)。作为替代方案,可以使用训练集代表性的平均值或其它值来代替中值。
然后,将距中值/平均值的偏差的值与掩蔽阈值进行比较。用参考序列掩蔽超过阈值的单元。这些单元含有序列标签计数的相对大的波动,这发生在非畸变训练集内。因此,这些单元中的序列标签计数倾向于充满噪音的,当用于推导区别公制用于区别未被累及群组vs.被累及群组。从参考序列中掩蔽或过滤掉这些单元,两个群组之间的区别在一些实施方案中得到改进。在一些实施方案中,只有来自中值的阳性偏差被考虑用于掩蔽、去除由于来自非参考序列的错误比对导致的序列标签的过度表达。
然后,在SNR计算中,该方法考虑了被累及的验证群组vs.独立的未被累及的群组之间的区别并且通过所有感兴趣的染色体(例如,染色体13、18和/或21)的共有序列发现一个最佳掩蔽阈值,该最佳掩蔽阈值是得到对于被累及群组vs.未被累及群组的差异的区别公制的最高SNR的值。
最后,该方法提供一种掩体(mask),包括具有序列标签计数超过最佳掩蔽阈值的单元。所述掩体适用于用于评估CNV的参考序列。
在一些实施方案中,所述过程的特征可以为以下操作顺序:
1.接收针对在感兴趣的基因组区域中未受到CNV累及的多个样品中的每一个的读数的训练集。
2.将该读数与参考基因组(或其它大的基因组参考序列)进行比对。
3.确定该参考基因组中多个相等大小的单元中的每一个中的标签的数目。
4.将该样品的单元中的标签计数标准化,即通过减去多数或所有参考序列间计算出的中值(或平均值)标签计数。可对于训练集的各成员进行标准化。标准化是一个任选的步骤。
5.将单元基于它们的标准化计数排序。不管具有阴性标准化计数的单元如何。具有更大值的单元将首先被掩蔽。
6.评估排序的单元的分数中不同的阈值以掩蔽阈值区别被累及样品和未被累及样品的能力。掩蔽可针对一个或多个感兴趣的染色体进行测试(或对于基因组的另一个区域)限定。
7.确定基于区别力的阈值并且通过包括所有超过阈值的高排序的单元来定义掩体。
这种策略可以靶向过度表达的单元,由于具有基因组的重复部分的通话(cross-talk),得到零散命中,与基线相比增加了覆盖度。在多个替代的实施方案中,在过滤策略中使用标准化单元的绝对值。
CNV的确定
用于确定CNV的方法
使用通过以上描述的方法产生的被掩蔽的参考序列,人们可以确定与Y染色体和其他染色体的拷贝数和CNV有关的各种遗传病症,相对于常规方法,本方法具有改进的灵敏度、选择性和/或效率。
例如,在一些实施方案中,被掩蔽的参考序列用于确定在包含胎儿和母体核酸分子的母体试验样品中存在或不存在任意两个或两个以上不同的完整的胎儿染色体非整倍性。以下提供的示例性方法可以将读数与参考序列(包括参考基因组)进行比对。比对可以在未被掩蔽的或被掩蔽的参考序列上进行,从而得到映射至参考序列的序列标签。在随后的计算中,仅仅将落入参考序列的未被掩蔽的区段上的序列标签考虑用来确定拷贝数变异。
在一些实施方案中,用于确定在母体试验样品中存在或不存在任意两个或两个以上不同的完整的胎儿染色体非整倍性的方法包括(a)获得针对所述母体试验样品中的胎儿和母体核酸的序列信息;(b)使用如上所述获得的序列信息和被掩蔽的参考序列来识别针对选自染色体1-22、X和Y的任意两个或两个以上感兴趣的染色体中的每一个的序列标签的数目并且识别针对任意两个或两个以上感兴趣的染色体中的每一个的归一化染色体序列的序列标签的数目;(c)使用针对所述任意两个或两个以上感兴趣的染色体中的每一个识别的序列标签的数目以及针对每一个归一化染色体识别的序列标签的数目以计算针对所述任意两个或两个以上感兴趣的染色体中的每一个的单一染色体剂量;和(d)将针对所述任意两个或两个以上感兴趣的染色体中的每一个的各单一染色体剂量与针对所述感兴趣的两个或两个以上染色体中的每一个的阈值进行比较,并且由此确定在所述母体试验样品中存在或不存在任意两个或两个以上完全不同的胎儿染色体非整倍性。
在一些实施方案中,以上描述的步骤(a)可以包含对试验样品的核酸分子的至少一部分进行测序以获得针对所述试验样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包含计算针对所述感兴趣的染色体中的每一个的单一染色体剂量,作为针对所述感兴趣的染色体中的每一个识别的序列标签的数目以及针对所述感兴趣的染色体中的每一个的归一化染色体序列识别的序列标签数目的比率。在一些其它的实施方案中,染色体剂量基于序列标签密度比率而不是序列标签的数目。序列标签密度比率是通过序列长度标准化的序列标签的数目。在这些实施方案中,所述染色体剂量经计算为针对所述感兴趣的染色体中的每一个的序列标签密度比率以及针对所述感兴趣的染色体中的每一个的归一化染色体序列的序列标签密度比率的比率。
在以上实施方案中的任一个中,这些不同的完整染色体性非整倍性选自完整染色体的三体性、完整染色体的单体性和完整染色体的多体性。这些不同的完整染色体性非整倍性选自染色体1-22、X和Y中的任一个的完全非整倍性。例如,所述不同的完整的胎儿染色体非整倍性选自2三体、8三体、9三体、20三体、21三体、13三体、16三体、18三体、22三体、47,XXX、47,XYY和X单体。
在以上实施方案中的任一个中,对于来自不同母体受试者的试验样品重复步骤(a)-(d),并且该方法包括确定所述试验样品中的每一个中的任意两个或两个以上不同的完整的胎儿染色体非整倍性的存在或不存在。
在以上实施方案中的任一个中,该方法可以还包括计算归一化染色体值(NCV),其中所述NCV使所述染色体剂量与一组合格样品中的相应染色体剂量的平均值进行关联,如:
NCV i j = x i j - μ ^ j σ ^ j
其中μj和δj分别为对于一组合格样品中的第j个染色体剂量的估算平均值和标准偏差,并且xij为对于试验样品i所观察到的第j个染色体剂量。
在另一个实施方案中,提供用于确定在包含胎儿和母体核酸的母体试验样品中存在或不存在不同的部分的胎儿染色体非整倍性的方法。该方法包括与如上概括的用于检测完全非整倍性的方法类似的程序。然而,不分析完整染色体,而是分析染色体的区段。参见美国专利申请公布号20130029852,其通过引用结合到本文中。
图4显示按照一些实施方案,用于确定拷贝数变异的存在的方法。从视图的角度看,该方法给出了合格样品的归一化序列在确定试验样品的CNV中的用途。归一化序列提供了使轮次内和轮次间变量的测量值归一化的机制。归一化序列使用来自一组合格样品的序列信息进行识别,一组合格样品得自已知包含对于感兴趣的任何一个序列(例如,染色体或其区段)具有正常拷贝数的细胞的受试者。归一化序列的确定概述于图4中描绘的方法的实施方案的步骤110、120、130、140和145。在一些实施方案中,所述归一化序列用于计算针对试验序列的序列剂量。参见步骤150。在一些实施方案中,归一化序列也用于计算针对试验序列的序列剂量被比较的阈值。参见步骤150。从归一化序列和试验序列中获得的序列信息用于确定试验样品中染色体性非整倍性的统计学上有意义的识别(步骤165)。
转到根据一些实施方案用于确定拷贝数变异的存在的方法的一些细节,图4提供了用于确定生物学样品中感兴趣的序列(例如,染色体或其区段)的CNV的一个实施方案的流程图100。在一些实施方案中,生物学样品获自受试者并且包含由不同基因组贡献的核酸的混合物。这些不同基因组可以由两个个体贡献样品,例如,这些不同基因组由胎儿和怀有胎儿的母亲贡献。作为替代方案,基因组由来自同一名受试者的非整倍体癌性细胞和正常整倍体细胞贡献样品,例如,来自癌症患者的血浆样品。
除了分析患者的试验样品外,针对每一种可能的感兴趣的染色体选择出一个或多个归一化染色体或一个或多个归一化染色体区段。所述归一化染色体或区段根据患者样品的正常测试不同步地进行识别,这可能发生在临床环境中。换句话说,所述归一化染色体或区段在测试患者样品之前进行识别。将归一化染色体或区段和感兴趣的染色体或区段之间的联系存储供在测试期间使用。如下文所解释,这样的联系典型地维持一段时间周期,跨越许多样品的测试。下面的讨论涉及用于选择针对感兴趣的个体染色体或区段的归一化染色体或染色体区段的多个实施方案。
获得一组合格样品以识别合格的归一化序列并且提供方差值用于确定试验样品中的CNV的统计学上有意义的识别。在步骤110中,从多个受试者获得多个生物学合格样品,已知这些受试者包含具有针对感兴趣的任何一个序列的正常拷贝数的细胞。在一个实施方案中,从怀有胎儿的母亲获得合格样品,已经使用细胞遗传学手段证实该胎儿具有染色体的正常拷贝数。所述生物学合格样品可以是生物学流体(例如,血浆)或如下所述的任何合适样品。在一些实施方案中,合格样品含有核酸分子(例如,cfDNA分子)的混合物。在一些实施方案中,所述合格样品是含有胎儿和母体cfDNA分子的混合物的母体血浆样品。通过使用任何已知的测序方法对核酸(例如,胎儿和母体核酸)的至少一部分进行测序,获得了归一化染色体和/或其区段的序列信息。优选地,利用在本文其他部分所述的下一代测序(NGS)方法中的任何一种来对作为单一或克隆扩增的分子的胎儿和母体核酸进行测序。在各种不同的实施方案中,所述合格样品在测序之前和期间如下文所公开的方法进行处理。可以利用如本文公开的装置、系统和试剂盒对它们进行处理。
在步骤120中,对在所述合格样品中所含有的所有合格核酸中的每一个的至少一部分进行测序以产生数百万个序列读数,例如36bp读数,将其与参考基因组(例如,hg18)进行比对。在一些实施方案中,所述序列读数包含约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp,about90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。预期技术的进步将能够产生大于500bp的单端读数,当产生配对端读数时,该读数能够用于大于约1000bp的读数。在一个实施方案中,所映射的序列读数包含36bp。在另一个实施方案中,所映射的序列读数包含25bp。
将序列读数与参考基因组进行比对,并且将已知独特地映射至参考基因组作为序列标签。对落在被掩蔽的参考序列的掩蔽区段上的序列标签进行计数用于分析CNV。
在一个实施方案中,从独特地映射至参考基因组的读数中获得至少约3x106个合格序列标签、至少约5x106个合格序列标签、至少约8x106个合格序列标签、至少约10x106个合格序列标签、至少约15x106个合格序列标签、至少约20x106个合格序列标签、至少约30x106个合格序列标签、至少约40x106个合格序列标签或至少约50x106个合格序列标签,包括介于20和40bp之间的读数。
在步骤130中,对从合格样品中的核酸测序所获得的所有标签进行计数,以确定合格序列标签密度。在一个实施方案中,序列标签密度被确定为映射至参考基因组上感兴趣的序列的合格序列标签的数目。在另一个实施方案中,所述合格序列标签密度被确定为映射至感兴趣的序列的合格序列标签的数目,这个感兴趣的序列被归一化至它们所映射的感兴趣的合格序列的长度。被确定为标签密度相对于感兴趣的序列的长度的比率的序列标签密度在本文中称为标签密度比率。归一化至感兴趣的序列的长度并非一定要有的,并且可以被包括为一个步骤来减少一个数目中的位数从而将其中简化以供人工解读。因为将合格样品中的每一个中所有合格序列标签进行映射和计数,在合格样品中针对感兴趣的序列的序列标签密度(例如,临床上相关的序列)被确定,正如对于随后从中识别归一化序列的额外序列的序列标签密度。
在一些实施方案中,所述感兴趣的序列是与完整染色体性非整倍性相关的染色体,例如染色体21,并且合格的归一化序列是不与染色体性非整倍性相关联的完整染色体,并且在序列标签密度中它的变异接近感兴趣的序列(即,染色体),例如染色体21。所选择的归一化染色体可以是最好地接近感兴趣的序列的序列标签密度中的变异的一个或多个。染色体1-22、X和Y中的任何一个或多个可以是感兴趣的序列,并且一个或多个染色体可以被识别为用于合格样品中任何一个染色体1-22、X和Y中的每一个的归一化序列。所述归一化染色体可以是单独的染色体或它可以是在本文其他部分所述的一组染色体。
在另一个实施方案中,所述感兴趣的序列是与部分非整倍性(例如,染色体的缺失或插入或不平衡的染色体易位)相关的染色体的区段,并且所述归一化序列是不与部分非整倍性相关联的染色体的一个区段(或一组区段),并且在序列标签密度中它的变异接近与部分非整倍性相关的染色体区段的变异。所选择的归一化染色体区段可以是最好地接近感兴趣的序列的序列标签密度中的变异的一个或多个。任何一个或多个染色体1-22、X和Y中的任何一个或多个区段可以是感兴趣的序列。
在其它实施方案中,所述感兴趣的序列是与部分非整倍性相关的染色体的区段,并且所述归一化序列是一整条染色体或多条染色体。在又一些实施方案中,所述感兴趣的序列是与非整倍性相关的整个染色体,并且所述归一化序列是不与非整倍性相关的染色体的一个区段或多个区段。
无论单个序列或一组序列在所述合格样品中是否被识别为针对任何一个或多个感兴趣的序列的归一化序列,所述合格的归一化序列都可以进行选择以具有序列标签密度中的变异,这种变异最好地或有效地接近如在所述合格样品中确定的感兴趣的序列的变异。例如,合格的归一化序列是在合格样品间产生最小变异性的序列,当用于将感兴趣的序列归一化时,即,归一化序列的变异性最接近合格样品中确定的感兴趣的序列的变异性。换句话说,所述合格的归一化序列是选出在合格样品间产生序列剂量(对于感兴趣的序列)的最少变异。因此,所述过程选择出当用作归一化染色体时预期在轮次与轮次(run-to-run)中产生针对感兴趣的序列的染色体剂量的最小变异性的序列。
针对任何一个或多个感兴趣的序列的合格样品中识别的归一化序列在数天、数周、数月和可能数年内仍然保留有选择确定在试验样品中存在或不存在非整倍性的归一化序列,前提条件是需要产生测序文库的程序并且将样品进行测序随着时间的流逝基本上不改变。如上所述,选择用于确定非整倍性的存在的归一化序列,对于(可能是也在其它原因中)映射至它的序列标签的数目中的变异性,在样品(例如,不同的样品)和测序轮次(例如,发生在同一天和/或不同天数的测序轮次),最接近感兴趣的序列(为此将其用作归一化参数)的变异性。这些程序中的实质改变将影响映射至所有序列的标签的数目,进而将确定哪一个或哪一组序列将在相同和/或在不同的测序轮次中,在同一天或在最接近感兴趣的序列的不同天数的不同测序轮次中,在样品间具有变异性,它将需要再确定的归一化序列集。程序中的实质改变包括对于制备测序文库所使用的实验室方案中的变化(其包括与制备样品用于多重测序替代单项测序有关的变化)以及测序平台中的变化(其包括对于测序所使用的化学中的变化)。
在一些实施方案中,将特定感兴趣的序列归一化所选择的归一化序列是最好地将一个或多个合格样品与一个或多个被累及样品辨别出来的序列,这意味着这个归一化序列是具有最大可分辨性的序列,即归一化序列的可分辨性是使得它提供对于被累及的试验样品中的感兴趣的序列的最佳分辨,以容易地辨别出被累及的试验样品和其它未被累及的样品。在其它实施方案中,所述归一化序列是具有最小变异性和最大可分辨性的组合的序列。
可分辨性的水平可以被确定为在一群合格样品中的序列剂量(例如,染色体剂量或区段剂量)与一个或多个试验样品中的染色体剂量之间的统计学差异,如下文所描述的并且在实施例中有说明。例如,可分辨性可以数字地表示为t-检验值,t-检验值代表一群合格样品中的染色体剂量和一个或多个试验样品中的染色体剂量之间的统计学差异。类似地,可分辨性可以基于区段剂量而不是染色体剂量。作为替代方案,可分辨性可以数字地表示为归一化染色体值(NCV),只要NCV的分布是正态的,它就是染色体剂量的z-分数。类似地,在染色体区段是感兴趣的序列的情况下,区段剂量的可分辨性可以数字地表示为归一化区段值(NSV),只要NSV的分布是正态的,它就是染色体区段剂量的z-分数。在确定z-分数时,可以使用在一组合格样品中染色体或区段剂量的平均值和标准偏差。作为替代方案,可以使用在包含合格样品和被累及样品的训练集中染色体或区段剂量的平均值和标准偏差。在其它实施方案中,所述归一化序列是具有最小变异性和最大可分辨性或小的变异性和大的可分辨性的最佳组合的序列。
该方法识别出多个序列,这些序列内在地具有类似特征并且在样品和测序轮次中易于有类似变异,并且这对于确定试验样品中的序列剂量是有用的。
序列剂量的确定
在一些实施方案中,针对一个或多个感兴趣的染色体或区段的染色体或区段剂量在所有合格样品中如在步骤140中描述并且显示在图4中来确定,并且归一化染色体或区段序列在步骤145中识别。注意,虽然步骤145显示为步骤140的下游,但是在计算出序列剂量之前提供了一些归一化序列。然后根据各种标准如下文进一步所述来识别一个或多个归一化序列,参见步骤145。在一些实施方案中,例如,所识别的归一化序列导致所有合格样品间感兴趣的序列的序列剂量中的最小变异性。
在步骤140中,基于计算的合格标签密度,针对感兴趣的序列的合格序列剂量(即,染色体剂量或区段剂量)被确定为针对感兴趣的序列的序列标签密度与针对额外序列(从中它们随后在步骤145中识别出归一化序列)的合格序列标签密度的比率。所识别的归一化序列随后用于确定试验样品中的序列剂量。
在一个实施方案中,所述合格样品中的序列剂量是染色体剂量,该染色体剂量被计算为针对感兴趣的染色体的序列标签的数目和针于合格样品中的归一化染色体序列的序列标签数目的比率。所述归一化染色体序列可以是单个染色体、一组染色体、一个染色体的区段或来自不同染色体的一组区段。因此,针对感兴趣的染色体的染色体剂量在合格样品中被确定为针对感兴趣的染色体的标签数目以及针对以下的标签数目的比率:(i)由单个染色体组成的归一化染色体序列,(ii)由两个或两个以上染色体组成的归一化染色体序列,(iii)由一个染色体的单个区段组成的归一化区段序列,(iv)由来自一个染色体的两个或两个以上区段组成的归一化区段序列,或(v)由两个或两个以上染色体的两个或两个以上区段组成的归一化区段序列。根据(i)-(v)所述,用于确定针对感兴趣的染色体21的染色体剂量的实例如下:针对感兴趣的染色体(例如,染色体21)的染色体剂量被确定为染色体21的序列标签密度和以下序列标签密度之一的比率:(i)全部剩余染色体(即,染色体1-20、染色体22、染色体X和染色体Y)中的每一个;(ii)两个或两个以上剩余染色体的所有可能组合;(iii)另一个染色体(例如,染色体9)的一个区段;(iv)另一个染色体的两个区段,例如,染色体9的两个区段;(v)两个不同染色体的两个区段,例如,染色体9的一个区段和染色体14的一个区段。
在另一个实施方案中,所述合格样品中的序列剂量是与染色体剂量相反的区段剂量,该区段剂量被计算为针对感兴趣的区段(它不是一条完整染色体)的序列标签的数目以及针对合格样品中的归一化区段序列的序列标签数目的比率。所述归一化区段序列可以是以上论述的归一化染色体或区段序列中的任何一个。
归一化序列的识别
在步骤145中,归一化序列针对感兴趣的序列进行识别。在一些实施方案中,例如,所述归一化序列是基于计算得出的序列剂量的序列,例如,这导致在所有合格样品间针对感兴趣的序列的序列剂量中的最小变异性。
该方法识别出多个序列,这些序列内在地具有类似特征并且在样品和测序轮次中易于有类似变异,并且这对于确定试验样品中的序列剂量是有用的。
针对一个或多个感兴趣的序列的归一化序列可以在一组合格样品中进行识别,并且在所述合格样品中识别出的序列随后用于计算针对所述试验样品中的每一个的一个或多个感兴趣的序列的序列剂量(步骤150)以确定所述试验样品中的每一个的非整倍性的存在或不存在。当使用不同测序平台时和/或当在有待测序的核酸的纯化和/或测序文库的制备中存在差异时,针对感兴趣的染色体或区段识别出的归一化序列可以不同。根据本文描述的方法所述的归一化序列的用途提供染色体或其区段的拷贝数中的变异的特异性和灵敏度的度量,而与所使用的样品制备和/或测序平台无关。
在一些实施方案中,识别出超过一个归一化序列,即,可以对一个感兴趣的序列确定多个不同的归一化序列,并且可以对一个感兴趣的序列确定多个序列剂量。例如,当使用染色体14的序列标签密度时,针对感兴趣的染色体21的染色体剂量的变异,例如,变异的系数(CV=标准偏差/平均值)是最小的。然而,可以识别二、三、四、五、六、七、八个或八个以上归一化序列,以供用于确定针对试验样品中的感兴趣的序列的序列剂量。作为一个实例,针对任何一个试验样品中的染色体21的第二剂量可以使用染色体7、染色体9、染色体11或染色体12确定为归一化染色体序列,因为这些染色体全都具有与染色体14的CV接近的CV(参见实施例4,表2)。
在一些实施方案中,当选择单个染色体作为针对感兴趣的染色体的归一化染色体序列时,所述归一化染色体序列将是导致在所有被测样品(例如,合格样品)间具有最小变异性的针对感兴趣的染色体的染色体剂量的染色体。在有些情况下,最好地归一化的染色体可能不具有最小变异,但是可能具有合格剂量的分布,其最好地辨别出一个或多个试验样品和合格样品,即,最好地归一化的染色体可能不具有最低变异,但是可能具有最大可分辨性。
试验样品中的非整倍性的确定
基于合格样品中的归一化序列的识别,确定了包含衍生自基因组(其在一个或多个感兴趣的序列中不相同)的核酸的混合物的试验样品中感兴趣的序列的序列剂量。
在步骤115中,从怀疑或已知携带感兴趣的序列的临床上相关的CNV的受试者获得试验样品。所述试验样品可以是生物学流体(例如,血浆)或如下所述的任何合适样品。作为解释,所述样品可以使用无创性手术(如简单抽血)来获得。在一些实施方案中,试验样品含有核酸分子(例如,cfDNA分子)的混合物。在一些实施方案中,所述试验样品是含有胎儿和母体cfDNA分子的混合物的母体血浆样品。
在步骤125中,如对合格样品所描述的,对试验样品中的试验核酸的至少一部分进行测序,以产生数百万个序列读数,例如36bp读数。如在步骤120中,对由试验样品中的核酸进行测序产生的读数进行独特地映射至参考基因组或者与参考基因组进行比对以产生多个标签。如在步骤120中所述,至少约3x106个合格序列标签、至少约5x106个合格序列标签、至少约8x106个合格序列标签、至少约10x106个合格序列标签、至少约15x106个合格序列标签、至少约20x106个合格序列标签、至少约30x106个合格序列标签、至少约40x106个合格序列标签或至少约50x106个合格序列标签(包含介于20和40bp之间)的读数从独特地映射至参考基因组的读数获得。在某些实施方案中,由测序装置产生的读数以电子格式提供。使用如下文论述的计算装置完成比对。将各个读数与参考基因组进行比较,参考基因组常常是巨大的(数百万碱基对)以识别读数独特地与参考基因组相对应的位点。在一些实施方案中,所述比对程序允许在读数和参考基因组之间存在有限的错配。在有些情况下,读数中的1、2或3个碱基对被允许在参考基因组中错配相应碱基对,并且还进行又一次映射。
在步骤135中,对从试验样品中的核酸进行测序所得到的所有或大分部标签进行计数以确定使用如下所述的计算装置的试验序列标签密度。在一些实施方案中,将每一个读数与参考基因组的特定区域(在多数情况下为染色体或区段)进行比对,并且通过将位点信息添加到读数上而将读数转换成标签。随着该过程展开,计算装置可以保持标签/读数的数目的运行计数映射至参考基因组的每一个区域(在大多数情况下为染色体或区段)。将计数存储用于感兴趣的每一个染色体或区段和每一个相应归一化染色体或区段。
在某些实施方案中,所述参考基因组具有一个或多个被排除的区域,其为真正生物学基因组的一部分但是不包括在参考基因组中。对潜在地与这些被排除的区域进行比对的读数不进行计数。被排除的区域的实例包括长重复的序列的区域、在X和Y染色体之间有相似性的区域等。使用通过以上描述的掩蔽技术获得的被掩蔽的参考序列,仅仅将参考序列的未被掩蔽的区段上的标签考虑用于分析CNV。
在一些实施方案中,该方法确定当多个读数与参考基因组或序列上的相同位点比对时是否对标签计数超过一次。当两个标签具有相同序列并且因此与参考序列上的完全相同位点比对时可能存在多种情况。对标签计数所使用的采用方法在某些情形下可以不包括从相同被测序样品获得的计数完全相同标签。如果不成比例的数目的标签在一个给定样品中完全相同,提示在该程序中存在强烈偏倚或其它缺陷。因此,按照某些实施方案,该计数方法对来自给定样品的标签不进行计数,该标签与来自先前进行计数的样品的标签完全相同。
当不管来自单个样品的完全相同标签时,各种标准都可以针对选择来设定。在某些实施方案中,进行计数的标签的限定百分比必须是独特的。如果比该阈值多的标签不是独特的,那么它们不会受到重视。例如,如果限定百分比需要有至少50%是独特的,那么完全相同标签不进行计数直到独特标签的百分比对于该样品超过50%。在其它实施方案中,独特标签的阈值数目为至少约60%。在其它实施方案中,独特标签的阈值百分比为至少约75%、或至少约90%、或至少约95%、或至少约98%、或至少约99%。对于染色体21,阈值可以被设定在90%。如果将30M标签与染色体21进行比对,那么它们中的至少27M必须是独特的。如对3M计数的标签不是独特的并且3000万和第一个标签不是独特的,那么对它不进行计数。使用适当的统计学分析,可以选择出当对更多完全相同标签不进行计数用于确定的特定阈值或其它标准的选择。影响该阈值或其它标准的一个因素是被测序样品与其标签可以进行比对的基因组的大小的相对量。其他因素包括读数的大小和类似考虑。
在一个实施方案中,将映射至感兴趣的序列的试验序列标签数目归一化至感兴趣的序列的已知长度,其中将它们映射以提供试验序列标签密度比率。正如对合格样品所描述的,归一化至感兴趣的序列的已知长度并非一定要有的,并且可以被包括为一个步骤来减少一个数目中的位数从而将其中简化以供人工解读。因为将所有映射的试验序列标签在试验样品中进行计数,在试验样品中针对感兴趣的序列(例如,临床上相关的序列)的序列标签密度被确定,正如是对应于合格样品中识别的至少一个归一化序列的额外序列的序列标签密度。
在步骤150中,基于在所述合格样品中的至少一个归一化序列的确认,对试验样品中的感兴趣的序列确定出试验序列剂量。在各种不同的实施方案中,使用感兴趣的序列和如本文描述的相应归一化序列的序列标签密度经计算确定所述试验序列剂量。负责这项任务的计算装置将通过电子方式存取感兴趣的序列及其相关联的归一化序列之间的联系,它可以被存储在数据库、表格、图表中或者作为代码包括在程序指令中。
如在本文其他部分所述的,所述至少一个归一化序列可以是单个序列或一组序列。在试验样品中针对感兴趣的序列的序列剂量是对试验样品中的感兴趣的序列所确定的序列标签密度和试验样品中所确定的至少一个归一化序列的序列标签密度的比率,其中试验样品中的归一化序列对应于在所述合格样品中针对感兴趣的特定序列所识别的归一化序列。例如,如果针对所述合格样品中的染色体21所识别的归一化序列被确定是染色体(例如,染色体14),那么针对染色体21(感兴趣的序列)的试验序列剂量被确定为针对染色体21的序列标签密度以及针对染色体14的序列标签密度的比率,每一个都是在试验样品中确定的。类似地,确定了针对染色体13、18、X、Y以及与染色体性非整倍性相关的其他染色体的染色体剂量。针对感兴趣的染色体的归一化序列可以是一个或一组染色体,或者一个或一组染色体区段。如先前所描述的,感兴趣的序列可以是染色体的一部分,例如,一个染色体区段。因此,针对染色体区段的剂量可以被确定为针对试验样品中的区段所确定的序列标签密度和试验样品中的归一化染色体区段的序列标签密度的比率,其中试验样品中的归一化区段对应于在所述合格样品中针对感兴趣的特定区段所识别的归一化区段(单个或一组区段)。染色体区段在大小上可以是范围从千碱基(kb)到兆碱基(Mb)(例如,约1kb到10kb,或约10kb到100kb,或约100kb到1Mb)。
在步骤155中,从对多个合格样品中所确定的合格序列剂量和对已知是感兴趣的序列的非整倍体的样品所确定的序列剂量建立的标准偏差值衍生出多个阈值进行比较。注意到,这种操作典型地与患者试验样品的分析不同步进行。它可以例如与从合格样品中选择出归一化序列同时进行。准确分类取决于对于这些不同类别(即,非整倍性的类型)的概率分布之间的差异。在有些实施例中,从针对非整倍性的每一个类型(例如,21三体)的经验分布中选择出多个阈值。用于对13三体、18三体、21三体和X单体非整倍性进行分类建立了多个可能的阈值,如在实施例中所描述的,在实施例中描述了通过对从包含胎儿和母体核酸的混合物的母体样品提取的cfDNA进行测序来确定染色体性非整倍性的方法的用途。被确定为用于辨别出针对一种染色体的非整倍性而被累及的样品的阈值与针对不同非整倍性的阈值可以是相同的或者不相同的。正如在实施例中所显示的,针对每一个感兴趣的染色体的阈值是从样品和测序轮次间的感兴趣的染色体的剂量中的变异性来确定的。针对任何感兴趣的染色体的染色体剂量的可变性越小,针对所有未被累及样品间的感兴趣的染色体的剂量中的分散就越窄,而这些未被累及样品被用来设定用于确定不同非整倍性的阈值。
回到与将患者试验样品分类相关的工艺流程中,在步骤160中,在试验样品中确定感兴趣的序列的拷贝数变异,即通过将针对感兴趣的序列的试验序列剂量与根据合格序列剂量建立的至少一个阈值进行比较。这种操作可以通过使用与用于测量序列标签密度和/或计算区段剂量相同的计算装置来进行。
在步骤165中,将针对感兴趣的试验序列的计算的剂量与设定为根据用户界定的将样品分类为“正常的”、“被累及的”或“无判定”的“可靠性的阈值”所选择的阈值。“无判定”样品是对其不能做出有可靠性的确定性诊断的样品。被累及样品的每一种类型(例如,21三体、21部分三体、X单体)具有其自身的阈值,一个用于判定正常的(未被累及的)样品,另一个用于判定被累及样品(虽然在有些情况下两个阈值极为类似)。如在本文其他部分所述的,在有些情况下,如果试验样品中的核酸的胎儿分数足够高,那么无判定可以被转变成判定(被累及的或正常的)。试验序列的分类可以由这个工艺流程的其它操作中所采用的计算装置报告。在有些情况下,分类以电子格式形式报告并且可以向感兴趣的人展示、发电子邮件、发短信等等。
某些实施方案提供一种方法,该方法用于提供在包含胎儿和母体核酸分子的生物学样品中的胎儿染色体非整倍性的产前诊断。这种诊断是基于以下步骤分别做出的:获得来自衍生自生物学试验样品(例如,母体血浆样品)的胎儿和母体核酸分子的混合物的至少一部分的序列信息;从测序数据计算出针对一个或多个感兴趣的染色体的归一化染色体剂量和/或针对一个或多个感兴趣的区段的归一化区段剂量;和确定在试验样品中针对感兴趣的染色体的染色体剂量和/或针对感兴趣的区段的区段剂量与在多个合格(正常)样品中建立的阈值之间的统计学显著性差异,并且提供基于该统计学差异的产前诊断。如在该方法的步骤165中所描述的,做出一个正常或被累及的诊断。在不能有信心地做出正常或被累及的诊断的情况下,提供一个“无判定”。
样品和样品处理
样品
用于确定CNV(例如,染色体性非整倍性、部分非整倍性等)的样品可以包括取自任何细胞、组织或器官的样品,其中针对一个或多个感兴趣的序列的拷贝数变异将被确定。理想的是,样品含有存在于细胞中的核酸和/或是“无细胞”的核酸(例如,cfDNA)。
在一些实施方案中,最有利的是获得无细胞核酸,例如,无细胞DNA(cfDNA)。无细胞核酸(包括无细胞DNA)可以通过本领域已知的各种方法从生物学样品(包括但不限于血浆、血清和尿液)中获得(参见例如,Fan等人,ProcNatlAcadSci105:16266-16271[2008];Koide等人,PrenatalDiagnosis25:604-607[2005];Chen等人,NatureMed.2:1033-1035[1996];Lo等人,Lancet350:485-487[1997];Botezatu等人,ClinChem.46:1078-1084,2000;和Su等人,JMol.Diagn.6:101-107[2004])。为了从样品中的细胞中分离出无细胞DNA,可以使用各种不同的方法,包括但不限于分级分离、离心(例如,密度梯度离心)、DNA-特异性沉淀或高通量细胞分拣和/或其它分离方法。用于人工和自动分离cfDNA的市售试剂盒是可获得的(RocheDiagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。包含cfDNA的生物学样品通过测序测定在测定中已经用于确定染色体异常(例如,21三体)的存在或不存在,其可检测出染色体性非整倍性和/或各种多态性。
在各种不同的实施方案中,在样品中存在的cfDNA可以在使用之前进行特异性或非特异性富集(例如,在制备测序文库之前)。样品DNA的非特异性富集是指在制备cfDNA测序文库之前,可以用于增加样品DNA的水平的样品的基因组DNA片段的全基因组扩增。非特异性富集可以是包含超过一个基因组的样品中存在的两个基因组之一的选择性富集。例如,非特异性富集可以是母体样品中的胎儿基因组的选择性富集,母体样品可以通过增加样品中胎儿DNA与母体DNA的相对比例的已知方法获得。作为替代方案,非特异性富集可以是样品中存在的两个基因组的非选择性扩增。例如,非特异性扩增可以是包含来自胎儿和母体基因组的DNA的混合物的样品中的胎儿和母体DNA的非特异性扩增。用于全基因组扩增的方法是本领域已知的。简并寡核苷酸引发的PCR(DOP)、引物延伸PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的实例。在一些实施方案中,包含来自不同基因组的cfDNA的混合物的样品对于混合物中存在的基因组的cfDNA是未富集的。在其它实施方案中,包含来自不同基因组的cfDNA的混合物的样品对于该样品中存在的基因组中的任一个是非特异性富集的。
包含本文描述的方法所采用的核酸的样品典型地包含生物学样品(“试验样品”),例如,如上所述的。在一些实施方案中,对于一个或多个CNV筛查的核酸通过多种熟知方法中的任何一种进行纯化或分离。
因此,在某些实施方案中,样品包含纯化的或分离的多核苷酸或者由纯化的或分离的多核苷酸组成,或者它可以包含诸如以下的样品:组织样品、生物学流体样品、细胞样品等。合适的生物学流体样品包括但不限于血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳流出物、淋巴液、唾液、脑脊液、灌洗液、骨髓悬浮液(bonemarrowsuspension)、阴道流出物、经宫颈的灌洗液(trans-cervicallavage)、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物、羊水、乳汁和白细胞分离术(leukophoresis)样品。在一些实施方案中,所述样品是通过无创性手术容易获得的样品,例如,血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳流出物、唾液或粪便。在某些实施方案中,所述样品是外周血样品或外周血样品的血浆和/或血清部分。在其它实施方案中,生物学样品是拭子或涂片、活组织检查样本或细胞培养物。在另一个实施方案中,所述样品是两种或两种以上生物学样品的混合物,例如,生物学样品可以包含生物学流体样品、组织样品和细胞培养物样品中的两种或两种以上。如本文所用的,术语“血液”、“血浆”和“血清”明确地涵盖级分或其处理的部分。类似地,在样品取自活组织检查、拭子、涂片等的情况下,所述“样品”明确地涵盖衍生自活组织检查、拭子、涂片的处理的级分或部分。
在某些实施方案中,样品可以从多种来源获得,包括但不限于来自不同的个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体(例如,患有癌症或怀疑患有遗传性障碍的个体)的样品、正常个体的样品、在个体的不同疾病阶段获得的样品、从对疾病作出不同治疗的个体获得的样品、来自承受不同环境因素的个体的样品、来自易感病理的个体的样品、暴露于感染性疾病因子(例如,HIV)的个体的样品,等等。
在一个说明性但非限制性实施方案中,所述样品是从怀孕女性(例如怀孕妇女)中获得的母体样品。在这种情况下,所述样品可以使用本文描述的方法进行分析以提供胎儿中的潜在染色体异常的产前诊断。所述母体样品可以是组织样品、生物学流体样品或细胞样品。生物学流体包括(作为非限制性实例)血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳流出物、淋巴液、唾液、脑脊液、灌洗液、骨髓悬浮液、阴道流出物、经宫颈的灌洗液(transcervicallavage)、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物和白细胞分离术样品。
在另一个说明性但非限制性实施方案中,所述母体样品是两种或两种以上生物学样品的混合物,例如,所述生物学样品可以包含生物学流体样品、组织样品和细胞培养物样品中的两种或两种以上。在一些实施方案中,所述样品是通过无创性手术容易可获得的样品,例如,血液、血浆、血清、汗液、泪液、痰、尿液、乳汁、痰、耳流出物、唾液和粪便。在一些实施方案中,生物学样品是外周血样品和/或其血浆和血清部分。在其它实施方案中,生物学样品是拭子或涂片、活组织检查样本或细胞培养物的样品。如上所公开的,术语“血液”、“血浆”和“血清”明确地涵盖级分或其处理的部分。类似地,在样品取自活组织检查、拭子、涂片等的情况下,所述“样品”明确地涵盖衍生自活组织检查、拭子、涂片等的处理的级分或部分。
在某些实施方案中,样品也可以从体外(invitro)培养的组织、细胞或其它含有多核苷酸的来源中获得。所述培养的样品可以取自诸多来源,包括但不限于维持在不同的培养基和条件(例如,pH、压力或温度)下的培养物(例如,组织或细胞)、维持不同长度周期的培养物(例如,组织或细胞)、用不同因子或试剂(例如,候选药物或调节剂)处理的培养物(例如,组织或细胞)或不同类型的组织和/或细胞的培养物。
从生物学来源中分离核酸的方法是众所周知的并且将视来源的性质不同而异。本领域技术人员可以容易地从一种来源中分离出对于本文描述的方法所需要的核酸。在有些情况下,将核酸样品中的核酸分子片段化可以是有利的。片段化可以是随机的,或者它可以是特异性的,例如,使用限制内切核酸酶消化所达到的情况。用于随机片段化的方法在本领域中是众所周知的,并且包括例如限制性DNA酶消化、碱处理和物理剪切。在一个实施方案中,样品核酸是作为cfDNA而获得的,该cfDNA未曾经历片段化。
在其它说明性的实施方案中,样品核酸是作为基因组DNA而获得的,该基因组DNA经历了片段化成为近似300或更多、近似400或更多或近似500或更多个碱基对的片段,并且可以对其容易地应用NGS方法。
测序文库制备
在一个实施方案中,本文描述的方法可以使用下一代测序技术(NGS),下一代测序技术允许多个样品作为基因组分子(即,单项测序)或作为包含索引基因组分子的合并样品(例如,多重测序)在单个测序轮次中独立地测序。这些方法可以产生DNA序列的多达数亿个读数。在各种不同的实施方案中,基因组核酸和/或索引基因组核酸的序列可以使用例如本文描述的下一代测序技术(NGS)来确定。在各种不同的实施方案中,使用NGS获得的大量测序数据的分析可以使用如本文描述的一个或多个处理器来进行。
在各种不同的实施方案中,这样的测序技术的应用不包括测序文库的制备。
然而,在某些实施方案中,在本文中提到的测序方法包括测序文库的制备。在一个说明性的方法中,测序文库制备包括产生随机收集的准备测序的适配子-修饰的DNA片段(例如,多核苷酸)。多核苷酸的测序文库可以由DNA或RNA(包括DNA或cDNA的等价物、类似物,例如,通过反转录酶的作用与来自RNA模板互补的DNA或cDNA或由RNA模板产生的拷贝DNA)制备。所述多核苷酸可以起源于双链形式(例如,dsDNA,诸如基因组DNA片段、cDNA、PCR扩增产物等),或者在某些实施方案中,所述多核苷酸可以起源于单链形式(例如,ssDNA、RNA等)并且已经转变成dsDNA形式。作为说明,在某些实施方案中,单链mRNA分子可以拷贝成为适合用于制备测序文库的双链cDNA。一级多核苷酸分子的精确序列一般不是文库制备方法的材料,并且可以是已知的或未知的。在一个实施方案中,所述多核苷酸分子是DNA分子。更具体地讲,在某些实施方案中,所述多核苷酸分子代表生物体的完整遗传补充物(complement)或生物体的实质上完整的遗传补充物,并且是基因组DNA分子(例如,细胞DNA、无细胞DNA(cfDNA)等),其典型地包括内含子序列和外显子序列(编码序列),以及非编码调节序列(如启动子和增强子序列)。在某些实施方案中,所述一级多核苷酸分子包含人类基因组DNA分子,例如,怀孕受试者的外周血中存在的cfDNA分子。
对于一些NGS测序平台,通过使用包含特定范围的片段大小的多核苷酸有利于测序文库的制备。这样的文库的制备典型地包括大的多核苷酸(例如,细胞基因组DNA)的片段化以获得所需大小范围的多核苷酸。
片段化可以通过本领域技术人员已知的多种方法中的任何一种来实现。例如,片段化可以通过机械手段包括但不限于喷雾法、超声处理和水剪切(hydroshear)来实现。然而,机械片段化典型地在C-O、P-O和C-C处使DNA骨架断裂,导致产生具有断开的C-O、P-O和/或C-C键的钝端和3’-和5’-突出末端的不均一混合物(参见例如,Alnemri和Liwack,JBiol.Chem265:17323-17333[1990];Richards和Boyer,JMolBiol11:327-240[1965]),随着它们可以缺少必要的5’-磷酸酯用于后续的酶促反应,例如,制备DNA用于测序所需要的测序适配子的连接,它们可能需要进行修复。
相反,cfDNA典型地以小于约300碱基对的片段存在,并且因此,片段化对于使用cfDNA样品产生测序文库通常不是必需的。
典型地,不论多核苷酸是被强迫地片段化(例如,在体外片段化)还是作为片段天然存在,它们都可以被转变成具有5’-磷酸酯和3’-羟基的钝端DNA。标准方案(例如,用于测序的方案,例如,如在本文其他部分所述的Illumina平台)命令用户对样品DNA进行末端修复,以在添加了dA尾之前纯化末端修复的产物,并且在文库制备的适配子连接步骤之前纯化添加了dA尾的产物。
本文描述的序列文库制备的方法的各种实施方案避免了通过标准方案进行典型强制的步骤中的一个或多个以获得可通过NGS进行测序的修饰的DNA产物的需求。一种简略法(ABB法)、1-步骤方法和2-步骤方法是用于制备测序文库的方法的多个实例,所述方法可以在2012年7月20日申请的专利申请13/555,037中找到,所述专利申请通过引用以其全文结合到本文中。
用于跟踪和验证样品完整性的标记核酸
在各种不同的实施方案中,样品的完整性的验证和样品跟踪可以通过对样品基因组核酸(例如,cfDNA和伴随的标记核酸)的混合物的测序来完成,已经将核酸导入样品中,例如,在处理之前。
标记核酸可以与试验样品(例如,生物学来源样品)组合并且经历包括例如以下一个或多个步骤的过程:将生物学来源样品分级分离,例如,从全血样品获得基本上无细胞血浆级分,纯化来自分级分离的生物学来源样品(例如,血浆)或未分级分离的生物学来源样品(例如,组织样品)的核酸,并且进行测序。在一些实施方案中,测序包含制备测序文库。选择与来源样品组合的标记分子的序列的顺序或其组合对来源样品来说是独特的。在一些实施方案中,样品中的独特的标记分子全都具有相同的序列。在其它实施方案中,样品中的独特的标记分子是多个序列,例如,二、三、四、五、六、七、八、九、十、十五、二十个或更多个不同序列的组合。
在一个实施方案中,样品的完整性可以使用具有完全相同序列的多个标记核酸分子来证实。作为替代方案,样品的一致性可以使用以下多个标记核酸分子来证实:其具有至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个、至少十个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少25个、至少30个、至少35个、至少40个、至少50个或更多个不同的序列。多种生物学样品(即,两种或两种以上生物学样品)的完整性的验证需要具有所述两个或两个以上样品中的每一个可以用被标记的多个试验样品中的每一个是独特的序列的标记核酸进行标记。例如,第一个样品可以用具有序列A的标记核酸进行标记,而第二个样品可以用具有序列B的标记核酸进行标记。作为替代方案,第一个样品可以用具有全部具有序列A的标记核酸分子进行标记,而第二个样品可以用序列B和C的混合物进行标记,其中序列A、B和C都是具有不同序列的标记分子。
可以将标记核酸在文库制备(如果文库需要制备的话)之前发生的样品制备的任何阶段加入到样品中并且进行测序。在一个实施方案中,标记分子可以与未处理的来源样品组合。例如,标记核酸可以在用于收集血液样品的收集管中提供。作为替代方案,所述标记核酸可以在抽血之后加入到血液样品中。在一个实施方案中,将所述标记核酸加入到用于收集生物学流体样品的容器中,例如,将标记核酸加入到用于收集血液样品的血液收集管中。在另一个实施方案中,将所述标记核酸加入到生物学流体样品的级分中。例如,将所述标记核酸加入到血液样品(例如,母体血浆样品)的血浆和/或血清部分中。在又一个实施方案中,将所述标记分子加入到纯化的样品(例如,已经从生物学样品纯化的核酸的样品)。例如,将所述标记核酸加入到纯化的母体和胎儿cfDNA的样品中。类似地,可以将所述标记核酸在处理样本之前加入到活组织检查样本中。在一些实施方案中,所述标记核酸可以与递送所述标记分子进入生物学样品的细胞中的载体相结合。递送细胞的载体包括pH敏感性的和阳离子型脂质体。
在各种不同的实施方案中,所述标记分子具有抗基因组序列,它们是生物学来源样品的基因组中不存在的序列。在一个示例性的实施方案中,用于验证人类生物学来源样品的完整性的标记分子具有人类基因组中不存在的序列。在一个替代的实施方案中,所述标记分子具有来源样品中和任何一个或多个其它已知基因组中不存在的序列。例如,用于验证人类生物学来源样品的完整性的标记分子具有人类基因组中和小鼠基因组中不存在的序列。该替代品允许验证包含两个或两个以上基因组的试验样品的完整性。例如,从被病原体(例如,细菌)累及的受试者获得的人无细胞DNA样品的完整性可以使用具有人类基因组和影响细菌的基因组二者中不存在的序列的标记分子来验证。众多病原体(例如,细菌、病毒、酵母、真菌、原生动物等)的基因组的序列公众可在万维网上在ncbi.nlm.nih.gov/genomics上获得。在另一个实施方案中,标记分子是具有任何已知基因组中不存在的序列的核酸。标记分子的序列可以用算法随机产生。
在各种不同的实施方案中,所述标记分子可以是天然存在的脱氧核糖核酸(DNA)、核糖核酸或人工核酸类似物(核酸模拟物)包括肽核酸(PMA)、吗啉代核酸、锁定核酸、甘醇核酸和苏糖核酸,它们可通过改变分子的骨架或不具有磷酸二酯骨架的DNA模拟物来与天然存在的DNA或RNA区别开。脱氧核糖核酸可以来自天然存在的基因组或者可以在实验室里通过使用酶或通过固相化学合成来产生。化学方法也可以用于产生在自然界中不存的DNA模拟物。DNA的衍生物是在磷酸二酯键已经被置换但脱氧核糖被保留的情况下可获得的,包括但不限于具有通过硫代甲乙缩醛(thioformacetal)或甲酰胺键所形成的骨架的DNA模拟物,已经显示该DNA模拟物是良好结构DNA模拟物。其它DNA模拟物包括吗啉代衍生物和肽核酸(PNA),其含有基于N-(2-氨基乙基)甘氨酸的假肽骨架(AnnRevBiophysBiomolStruct24:167-183[1995])。PNA是一种极好的结构DNA(或核糖核酸[RNA])的模拟物,并且PNA寡聚体能够形成非常稳定的双链体结构,具有Watson-Crick互补DNA和RNA(或PNA)寡聚体,并且它们也可以通过螺旋浸润与双链体DNA中的靶标结合(MolBiotechnol26:233-248[2004]。可以用作标记分子的DNA类似物的另一个好的结构模拟物/类似物是硫代磷酸酯DNA,其中非桥氧中的一个被硫置换。这种修饰减少了内切和外切两种核酸酶包括5’到3’和3’到5’DNAPOL1外切核酸酶、核酸酶S1和P1、RNA酶、血清核酸酶和蛇毒磷酸二酯酶的作用。
所述标记分子的长度可以与样品核酸的长度截然不同的或大致相同,即,所述标记分子的长度可以与样品基因组分子的长度类似,或者它可以大于或小于样品基因组分子的长度。所述标记分子的长度通过构成所述标记分子的核苷酸或核苷酸类似物碱基的数目来测量。具有与样品基因组分子的长度不同的长度的标记分子可以使用本领域已知的分离方法与来源核酸区别开。例如,所述标记核酸和样品核酸分子的长度中的差异可以通过电泳分离(例如,毛细管电泳)来确定。大小差异对于定量和评价所述标记核酸和样品核酸的质量是有利的。优选地,所述标记核酸比基因组核酸短,并且具有足够的长度以将它们从映射至样品的基因组中排除掉。例如,因为需要30个碱基的人序列将其独特地映射至人类基因组。因此,在某些实施方案中,用于人样品的测序生物测定的标记分子应该是长度至少30bp。
所述标记分子的长度的选择主要是通过用于验证来源样品的完整性的测序技术来确定的。待测序的样品基因组核酸的长度也可以被考虑。例如,一些测序技术采用多核苷酸的克隆扩增,这可能需要基因组多核苷酸的最小长度被克隆扩增。例如,使用IlluminaGAII序列分析仪的测序包括通过多核苷酸的桥式PCR(也称为簇扩增(clusteramplification))进行体外克隆扩增,最小长度为110bp,将适配子与其连接以提供可以被克隆扩增和测序的至少200bp和小于600bp的核酸。在一些实施方案中,适配子连接的标记分子的长度为介于约200bp和约600bp之间、介于约250bp和550bp之间、介于约300bp和500bp之间或介于约350和450之间。在其它实施方案中,适配子连接的标记分子的长度为约200bp。例如,当对母体样品中存在的胎儿cfDNA进行测序时,可以选择所述标记分子的长度与胎儿cfDNA分子的长度类似。因此,在一个实施方案中,在包含对母体样品中的cfDNA进行大规模平行测序以确定胎儿染色体非整倍性的存在或不存在的测定中使用的标记分子的长度,可以为约150bp、约160bp、170bp、约180bp、约190bp或约200bp;优选地,所述标记分子为约170pp。其它测序方法,例如,SOLiD测序、Polony测序和454测序使用乳液PCR以克隆扩增DNA分子用于测序,并且每一项技术指出了待扩增分子的最小和最大长度。作为克隆扩增的核酸的待测序的标记分子的长度可以为高达约600bp。在一些实施方案中,待测序标记分子的长度可以为大于600bp。
单分子测序技术(其不采用分子的克隆扩增并且能够对核酸在模板长度的非常宽范围内进行测序),在多数情况下不需要待测序分子具有任何特定长度。然而,每单位质量的序列的收率取决于3’末端羟基基团的数目,并因此具有相对短的模板用于测序比具有长模板更加有效。如果用长于1000nt的核酸开始,一般明智的是将核酸剪接成平均长度为100至200nt使得可以由相同质量的核酸产生更多的序列信息。因此,所述标记分子的长度可以是范围从数十碱基到数千碱基。用于单分子测序的标记分子的长度可以为长度高达约25bp、高达约50bp、高达约75bp、高达约100bp、高达约200bp、高达约300bp、高达约400bp、高达约500bp、高达约600bp、高达约700bp、高达约800bp、高达约900bp、高达约1000bp或更多。
对于标记分子所选择的长度也可以通过正在被测序的基因组核酸的长度来确定。例如,cfDNA在人血流中作为细胞基因组DNA的基因组片段进行循环。在孕妇的血浆中发现的胎儿cfDNA分子一般比母体cfDNA分子短(Chan等人,ClinChem50:8892[2004])。循环胎儿DNA的大小分级分离已经证实循环胎儿DNA片段的平均长度为<300bp,而母体DNA据估计为介于约0.5和1Kb之间(Li等人,ClinChem,50:1002-1011[2004])。这些发现与Fan等人的那些发现一致,Fan等人使用NGS确定胎儿cfDNA罕见为>340bp(Fan等人,ClinChem56:1279-1286[2010])。用标准基于二氧化硅的方法由尿液分离的DNA由两部分组成:高分子量DNA,它起源于脱落细胞;和transrenalDNA(Tr-DNA)的低分子量(150-250碱基对)部分(Botezatu等人,ClinChem.46:1078-1084,2000;和Su等人,JMol.Diagn.6:101-107,2004)。将新开发的用于从体液分离无细胞核酸的技术应用于分离transrenal核酸揭示出尿液中存在比150碱基对短得多的DNA和RNA片段(美国专利申请公布号20080139801)。在其中cfDNA为待测序的基因组核酸的多个实施方案中,被选择的标记分子可为高达约cfDNA的长度。例如,作为单个核酸分子或作为克隆扩增的核酸的待测序的母体cfDNA样品中使用的标记分子的长度可以为介于约100bp和600之间。在其它实施方案中,所述样品基因组核酸为更大分子的片段。例如,待测序的样品基因组核酸为片段化的细胞DNA。在当对片段化的细胞DNA进行测序时的多个实施方案中,所述标记分子的长度可以为高达DNA片段的长度。在一些实施方案中,所述标记分子的长度至少为将序列读数独特地映射至适当参考基因组所需要的最小长度。在其它实施方案中,所述标记分子的长度为排除待映射至样品参考基因组的标记分子所需要的最小长度。
另外,标记分子可以用于验证不通过核酸测序进行测定以及可以通过常用的除测序以外的生物技术(例如,实时PCR)进行验证的样品。
样品对照(例如,用于测序和/或分析的过程中阳性对照).
在各种不同的实施方案中,引入样品(例如,如上所述的)中的标记序列可以作为阳性对照起作用以验证测序的准确性和功效以及后续处理和分析。
因此,提供用于提供过程中阳性对照(IPC)对样品中的DNA进行测序的组合物和方法。在某些实施方案中,提供阳性对照对样品中的cfDNA进行测序包含提供基因组的混合物。可以使用IPC以联系从不同组的样品(例如,在不同的时间在不同的测序轮次时进行测序的样品)中获得的序列信息中的基线漂移。因此,例如,IPC可以将对于母体试验样品所获得的序列信息与从一组合格样品中在不同的时间进行测序所获得的序列信息相联系。
类似地,在区段分析的情况下,IPC可以将对于从受试者的特定区段中所获得的序列信息与在不同的时间进行测序的(类似序列的)一组合格样品中获得的序列相联系。在某些实施方案中,IPC可以将从受试者的特定癌症相关基因座中获得的序列信息与从一组合格样品(例如,来自已知的扩增/缺失等)中获得的序列信息相联系。
另外,IPC可以用作标志物以通过测序过程跟踪样品。IPC也可以提供针对感兴趣的染色体的一个或多个非整倍性(例如,21三体、13三体、18三体)的定性阳性序列剂量值,例如NCV,以提供正确恰当的解读,并且确保数据的可靠性和准确性。在某些实施方案中,IPC可以被创建以包含来自男性和女性基因组的核酸以提供针对母体样品中的染色体X和Y的剂量来确定胎儿是否为男性。
过程中对照的类型和数目取决于所需检验的类型或性质。例如,对于需要对来自包含基因组的混合物的样品的DNA进行测序以确定染色体性非整倍性是否存在的试验,过程中对照可以包含从已知包含正在被测试的相同染色体性非整倍性的样品中获得的DNA。在一些实施方案中,所述IPC包括来自已知包含感兴趣的染色体的非整倍性的样品的DNA。例如,用于测试以确定在母体样品中存在或不存在胎儿三体(例如,21三体)的IPC包含从具有21三体的个体中获得的DNA。在一些实施方案中,所述IPC包含从具有不同的非整倍性的两个或两个以上个体中获得的DNA的混合物。例如,对于用以确定存在或不存在13三体、18三体、21三体和X单体的试验,所述IPC包含从每个怀有胎儿的孕妇中获得的DNA样品与待测三体性之一的组合。除了完整染色体性非整倍性之外,IPC可以被创建以提供针对用以确定存在或不存在部分非整倍性的试验的阳性对照。
用作检测单个非整倍性的对照的IPC可以使用从两个受试者中获得的细胞基因组DNA的混合物来创建,其中一个受试者是非整倍体基因组的贡献者。例如,作为进行检验以确定胎儿三体(例如,21三体)的对照创建的IPC,可以通过将来自携带三体性染色体的男性或女性受试者的基因组DNA与已知不携带三体性染色体的女性受试者的基因组DNA相结合来创建。基因组DNA可以从两个受试者的细胞中提取,并且剪切以提供介于约100-400bp之间、介于约150-350bp之间或介于约200-300bp之间的片段以模拟母体样品中的循环cfDNA片段。对来自携带非整倍性(例如,21三体)的受试者的片段化DNA的比例进行选择以模拟在母体样品中发现的循环胎儿cfDNA的比例以提供包含片段化DNA的混合物的IPC,该混合物包含来自携带非整倍性的受试者的DNA的约5%、约10%、约15%、约20%、约25%、约30%。所述IPC可以包含来自各自携带不同非整倍性的不同受试者的DNA。例如,所述IPC可以包含未被累及的女性DNA的约80%,剩余的20%可以是来自各自携带三体性染色体21、三体性染色体13和三体性染色体18的三个不同受试者的DNA。制备片段化DNA的混合物进行测序。片段化DNA的混合物的处理可以包含制备测序文库,测序文库可以使用任何大规模平行方法以单项或多重方式进行测序。可以将基因组IPC的贮存溶液进行保存并且用于多项诊断试验。
作为替代方案,所述IPC可以使用从已知携带具有已知染色体性非整倍性的胎儿的母亲中获得的cfDNA来创建。例如,cfDNA可以从怀有具有21三体的胎儿的怀孕妇女中获得。所述cfDNA从所述母体样品中提取,并且克隆到细菌载体中并且在细菌中生长以提供IPC的不间断来源。使用限制酶,可以从细菌载体提取DNA。作为替代方案,克隆的cfDNA可以通过例如PCR进行扩增。IPCDNA可以处理用于在与来自试验样品的cfDNA相同的轮次中进行测序,用以分析染色体性非整倍性的存在或不存在。
尽管上文关于三体性描述了IPC的创建,但是应当理解,可以创建IPC以反映出其他部分非整倍性,包括例如各种不同的区段扩增和/或缺失。因此,例如,在多种癌症已知与特定扩增相关(例如,乳癌与20Q13相关)的情况下,可以创建掺入了那些已知扩增的IPC。
测序方法
如上所指明的,对所制备的样品(例如,测序文库)进行测序作为用于识别拷贝数变异的程序的一部分。可以使用多种测序技术中的任何一种。
一些测序技术是商业上可获得的,如杂交法测序平台,来自AffymetrixInc.(Sunnyvale,CA);和合成法测序平台,来自454LifeSciences(Bradford,CT),Illumina/Solexa(Hayward,CA)和HelicosBiosciences(Cambridge,MA);以及连接法测序平台,来自AppliedBiosystems(FosterCity,CA),如下所述。除了使用HelicosBiosciences公司的合成法测序进行的单分子测序之外,其它单分子测序技术包括但不限于PacificBiosciences公司的SMRTTM技术、IONTORRENTTM技术和例如由OxfordNanoporeTechnologies公司开发的纳米孔测序法。
尽管自动化的Sanger方法被认为是‘第一代’技术,但是在本文描述的方法中也可以采用包括自动化Sanger测序法在内的Sanger测序法。另外合适的测序方法包括但不限于核酸成像技术,例如,原子力显微镜术(AFM)或透射电子显微镜术(TEM)。说明性的测序技术在下文有更详细描述。
在一个说明性的而非限制性的实施方案中,本文描述的方法包括使用Helicos真正单分子测序(tSMS)技术(theHelicosTrueSingleMoleculeSequencing(tSMS)technology)的单分子测序技术,获得试验样品中的核酸(例如,母体样品中的cfDNA,待筛查癌症等的受试者的cfDNA或细胞DNA)的序列信息(例如,如在HarrisT.D.等人,Science320:106-109[2008]中所描述)。在tSMS技术中,DNA样品被剪切成近似100至200个核苷酸的链,并且在各DNA链的3’末端添加polyA序列。各链通过添加荧光标记的腺苷核苷酸进行标记。然后,使该DNA链与流动槽杂交,流动槽含有数百万个固定在流动槽表面的寡-T捕获位点。在某些实施方案中,模板可以是在约100×106模板/cm2的密度。然后将流动槽装载到仪器(例如,HeliScopeTM测序仪)中,并且激光照射流动槽的表面,揭示出各模板的位置。CCD照相机可以对流动槽表面上的模板位置定位。然后模板荧光标记可以被切割并且洗掉。通过引入DNA聚合酶和荧光标记的核苷酸开始测序反应。寡-T核酸用作引物。聚合酶将标记的核苷酸以模板指导的方式掺入到引物中。去除聚合酶和未掺入的核苷酸。指导荧光标记的核苷酸的掺入的模板通过将流动槽表面成像来辨别出。在成像之后,裂解步骤去除荧光标记,用其它荧光标记的核苷酸重复该过程直到达到所需阅读长度为止。用各核苷酸添加步骤收集序列信息。通过单分子测序技术的全基因组测序不包括或典型地避免了在测序文库的制备中基于PCR的扩增,并且该方法允许直接测量样品,而不是测量该样品的拷贝数。
在另一个说明性的而非限制性的实施方案中,本文描述的方法包括使用454测序法(Roche)获得试验样品中的核酸(例如,母体试验样品中的cfDNA,待筛查癌症等的受试者的cfDNA或细胞DNA)的序列信息(例如,如在Margulies,M.等人Nature437:376-380[2005]中所描述)。454测序法典型地包括两个步骤。在第一个步骤中,DNA被剪切成近似300-800碱基对的片段,并且将这些片段钝端化。然后,将寡核苷酸适配子连接到片段的末端。适配子用作引物进行片段的扩增和测序。使用例如含有5’-生物素标签的适配子B,这些片段可以与DNA捕获珠(例如,链霉抗生物素蛋白包被的珠)相连接。与该珠相连的这些片段在油水乳液的液滴里面进行PCR扩增。结果是在各珠上有克隆扩增的DNA片段的多个拷贝。在第二个步骤中,在孔(例如,微微升大小的孔)中捕获微珠。焦磷酸测序在各DNA片段上平行进行。一个或多个核苷酸的添加产生在测序仪器中通过CCD照相机记录的光信号。信号强度与所掺入的核苷酸数目成比例。焦磷酸测序利用了在核苷酸添加时所释放的焦磷酸(PPi)。PPi在腺苷5’磷酸硫酸的存在下通过ATP硫解酶转变成ATP。萤光素酶利用ATP将萤光素转变成氧合萤光素,并且该反应产生的光能被测量和分析。
在另一个说明性的而非限制性的实施方案中,本文描述的方法包括使用SOLiDTM技术(AppliedBiosystems)获得试验样品中的核酸(例如,母体试验样品中的cfDNA,待筛查癌症等的受试者的cfDNA或细胞DNA)的序列信息。在SOLiDTM连接法测序中,基因组DNA被剪切成片段,并且将适配子与片段的5’和3’末端相连接以产生片段文库。作为替代方案,可以如下引入内部适配子:通过将适配子与片段的5’和3’末端相连接,将片段循环,消化循环的片段以产生内部适配子,并且将适配子与所得片段的5’和3’末端相连接以产生配对的文库。接下来,在装有珠、引物、模板和PCR组分的微量反应器中制备克隆的珠群体。在PCR之后,将模板变性,将珠富集以将珠与延伸的模板分离开。所选择的珠上的模板经受允许与载玻片成键的3’修饰。序列可以如下来确定:通过序贯杂交并且使部分随机寡核苷酸与通过特异性荧光团识别的中心测定的碱基(或碱基对)连接。在记录颜色之后,将连接的寡核苷酸切割并且去除,然后重复该过程。
在另一个说明性的而非限制性的实施方案中,本文描述的方法包括使用PacificBiosciences公司的单分子实时(SMRTTM)测序技术获得试验样品中的核酸(例如,母体试验样品中的cfDNA,待筛查癌症等的受试者的cfDNA或细胞DNA)的序列信息。在SMRT测序中,染料标记的核苷酸的连续掺入在DNA合成期间成像。将单个DNA聚合酶分子与获得序列信息的个体zero-mode波长检测器(ZMW检测器)的底表面相连接,而将磷酸连接的核苷酸掺入到生长中的引物链中。ZMW检测器包含能够观察到在ZMW的外面迅速(例如,微秒)分散开的荧光核苷酸的背景下,通过DNA聚合酶掺入单个核苷酸的约束结构。通常花费几毫秒时间将核苷酸掺入到生长中的链中。在此期间,发射荧光标记并且产生荧光信号,并且将荧光标签切除掉。染料的相应荧光的测量指出哪个碱基被掺入。重复该过程以提供一个序列。
在另一个说明性的而非限制性的实施方案中,本文描述的方法包括使用纳米孔测序法获得试验样品中的核酸(例如,母体试验样品中的cfDNA,待筛查癌症等的受试者的cfDNA或细胞DNA)的序列信息(例如,如在SoniGV和MellerA.ClinChem53:1996-2001[2007]中所描述)。纳米孔测序DNA分析技术由多家公司开发,包括例如OxfordNanoporeTechnologies(Oxford,UnitedKingdom)、Sequenom、NABsys等。纳米孔测序法是单分子测序技术,凭此单分子的DNA当它通过纳米孔时被直接测序。纳米孔是一个小的孔洞,直径典型地为1纳米的数量级。将纳米孔浸没入导电流体中并且跨过它的电位(伏特)的应用导致轻微电流,这是由于通过纳米孔的离子导电所致。流过的电流量对纳米孔的大小和形状敏感。随着DNA分子通过纳米孔,DNA分子上的各个核苷酸堵塞纳米孔至不同的程度,改变了以不同程度通过纳米孔的电流的幅度。因此,电流随DNA分子通过纳米孔的这种变化提供了DNA序列的读长。
在另一个说明性的而非限制性的实施方案中,本文描述的方法包括使用化学敏感场效应晶体管(chemical-sensitivefieldeffecttransistor,chemFET)阵列获得试验样品中的核酸(例如,母体试验样品中的cfDNA,待筛查癌症等的受试者的cfDNA或细胞DNA)的序列信息(例如,如在美国专利申请公布号2009/0026082中所描述)。在这项技术的一个实例中,可以将DNA分子置于反应室中,并且使模板分子与结合至聚合酶上的测序引物杂交。将一个或多个三磷酸在测序引物的3’末端掺入到新的核酸链中可以通过chemFET随着电流变化而辨别出。一个阵列可具有多个chemFET传感器。在另一个实例中,可以将单一核酸与珠相连接,并且核酸可以在珠上进行扩增,并且可以将单独的珠转移到在chemFET阵列上单独的反应室中,其中每一个室都具有一个chemFET传感器,并且可以对核酸进行测序。
在另一个实施方案中,本方法包括使用HalcyonMolecular的技术(该技术使用透射电子显微镜术(TEM))获得试验样品中的核酸(例如,母体试验样品中的cfDNA)的序列信息。这种方法,被称为单个分子放置快速纳米转移(IndividualMoleculePlacementRapidNanoTransfer,IMPRNT),包括利用用重原子标记物选择性标记的高分子量(150kb或更高)DNA的单个原子分辨能力透射电子显微镜成像,并且这些分子在超薄膜上以超致密(3nm链到链)平行阵列上进行排列,与碱基到碱基间隔一致。利用电子显微镜使薄膜上的分子成像以确定重原子标记物的位置并且萃取来自DNA的碱基序列信息。这种方法在PCT专利公布WO2009/046445中有进一步描述。这种方法允许在不到10分钟内对全部人类基因组进行测序。
在另一个实施方案中,DNA测序技术是IonTorrent单分子测序法,它将半导体技术与简单测序化学配对以在半导体芯片上采用化学法将所编码的信息(A、C、G、T)直接翻译成数字信息(0,1),在自然界中,当核苷酸通过聚合酶掺入到DNA链中时,氢离子作为副产物被释放出来。IonTorrent利用微机孔的高密度阵列以以大规模平行方式执行这个生物化学过程。每一个孔都抓住不同的DNA分子。孔下面是离子敏感层,再下面是离子传感器。当将核苷酸(例如C)加入到DNA模板中并然后掺入到DNA链中时,将释放出氢离子。来自该离子的电荷将改变溶液的pH,这可以通过IonTorrent的离子传感器检测到。测序仪—基本上是世界上最小的固态pH计—判定碱基,从化学信息直接过渡到数字信息。然后Ion私人基因组机器(PGMTM)测序仪序贯地像洪水样涌入芯片,一个核苷酸接着另一个核苷酸。如果像洪水样涌入芯片的下一个核苷酸不是一个匹配。将不记录伏特数变化,并且将无碱基被判定。如果在DNA链上有两个完全相同的碱基,那么伏特数将加倍,芯片将记录被判定的两个完全相同的碱基。直接检测允许以秒为单位记录核苷酸的掺入。
在另一个实施方案中,本方法包括使用杂交法测序获得试验样品中的核酸(例如,母体试验样品中的cfDNA)的序列信息。杂交法测序包括使多个多核苷酸序列与多个多核苷酸探针接触,其中多个多核苷酸探针中的每一个可以任选地系到基底上。基底可能是包含已知核苷酸序列阵列的扁平表面。与阵列杂交的模式可以用于确定样品中存在的多核苷酸序列。在其它实施方案中,每一个探针都被系到珠(例如,磁珠等)上。与珠杂交可以被确定并且用于识别样品里面的多个多核苷酸序列。
在另一个实施方案中,本方法包括使用Illumina的合成法测序和基于可逆终止子的测序化学,通过数百万DNA片段的大规模平行测序获得试验样品中的核酸(例如,母体试验样品中的cfDNA)的序列信息(例如,如在Bentley等人,Nature6:53-59[2009]中所描述)。模板DNA可以是基因组DNA,例如,cfDNA。在一些实施方案中,将从细胞中分离的基因组DNA用作模板,并且将其片段化成为数百碱基对的长度。在其它实施方案中,用cfDNA作为模板,并且不需要片段化像cfDNA作为短片段一样存在。例如,胎儿cfDNA在血流中作为长度近似170碱基对(bp)的片段进行循环(Fan等人,ClinChem56:1279-1286[2010]),并且在测序之前不需要DNA的片段化。Illumina的测序技术依赖于片段化基因组DNA与平面的、光学透明的表面(其上结合寡核苷酸锚状物)的附着。模板DNA经末端修复以产生5’-磷酸化钝端,并且使用克列诺(Klenow)片段的聚合酶活性以将单个A碱基添加到钝端磷酸化DNA片段的3’末端。这种添加制备用于连接到寡核苷酸适配子的DNA片段,其在3’末端具有单个T碱基的突出端以增加连接效率。适配子寡核苷酸与流动槽锚状物互补。在有限稀释条件下,将适配子修饰的、单链模板DNA加入到流动槽并且通过与锚状物杂交而固定化。使附着的DNA片段延伸并进行桥式扩增以产生具有数亿簇的超高密度测序流动槽,各自含有相同模板的~1,000拷贝。在一个实施方案中,随机片段化基因组DNA(例如,cfDNA)使用PCR在它经受簇扩增之前进行扩增。作为替代方案,使用无扩增的基因组文库制备,并且仅使用簇扩增将随机片段化基因组DNA(例如,cfDNA)富集(Kozarewa等人,NatureMethods6:291-295[2009])。使用强大的(robust)四色DNA合成法测序技术对模板进行测序,该技术采用具有可去除荧光染料的可逆终止子。使用激光激发和总的内部反射光学达到了高灵敏度荧光检测。将约20-40bp(例如,36bp)的短序列读数与重复被掩蔽的参考基因组进行比对,并且使用专门研制的数据分析管道软件识别出短序列读数独特映射至参考基因组。也可以使用非重复掩蔽的参考基因组。不论使用重复掩蔽的还是非重复掩蔽的参考基因组,仅对独特映射至参考基因组的读数进行计数。在第一个读数完成之后,模板可以原位(insitu)再生以能够产生来自片段的相反末端的第二个读数。因此,可以使用DNA片段的单端或配对端测序。对样品中存在的DNA片段进行部分测序,并且将包含预先确定的长度(例如,36bp)的读数且映射至已知参考基因组的序列标签进行计数。在一个实施方案中,所述参考基因组序列是NCBI36/hg18序列,该序列在万维网在genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)上可获得。作为替代方案,所述参考基因组序列是GRCh37/hg19,该序列在万维网在genome.ucsc.edu/cgi-bin/hgGateway上可获得。公共序列信息的其它来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室(theEuropeanMolecularBiologyLaboratory))和DDBJ(日本的DNA数据库(theDNADatabankofJapan))。多种计算机算法对于比对序列是可获得的,包括但不限于BLAST(Altschul等人,1990)、BLITZ(MPsrch)(Sturrock&Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead等人,GenomeBiology10:R25.1-R25.10[2009])或ELAND(Illumina,Inc.,SanDiego,CA,USA)。在一个实施方案中,将血浆cfDNA分子的克隆扩增的一个末端进行测序并且通过生物信息比对分析进行处理用于Illumina基因组分析仪(IlluminaGenomeAnalyzer),该分析仪使用有效大规模核苷酸比对数据库(ELAND)软件(theEfficientLarge-ScaleAlignmentofNucleotideDatabases(ELAND)software)。
在本文描述的方法的一些实施方案中,所映射的序列标签包含约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp,about90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp的序列读数。预期技术的进步将使得能够产生大于500bp的单端读数,当产生配对端读数时,使得能够产生大于约1000bp的读数。在一个实施方案中,所映射的序列标签包含作为36bp的序列读数。通过将标签的序列与参考的序列进行比较达到了序列标签的映射,从而确定了被测序核酸(例如cfDNA)分子的染色体起源,并且不需要特定遗传序列信息。考虑到在参考基因组和混合样品中的基因组之间可能存在的微小多态性,较小程度的错配(0-2个错配/序列标签)可被允许。
每样品典型地获得多个序列标签。在一些实施方案中,从每样品将读数映射至参考基因组中获得至少约3x106个序列标签、至少约5x106个序列标签、至少约8x106个序列标签、至少约10x106个序列标签、至少约15x106个序列标签、至少约20x106个序列标签、至少约30x106个序列标签、至少约40x106个序列标签或至少约50x106个序列标签,包含介于20和40bp读数之间(例如,36bp)。在一个实施方案中,将所有序列读数映射至参考基因组的所有区域。在一个实施方案中,对已经映射至参考基因组的所有区域(例如,所有染色体)的标签进行计数,并且确定混合DNA样品中感兴趣的序列(例如,染色体或其部分)的CNV,即过度表达或表达不足。该方法不需要两个基因组之间的差异。
用于正确地确定样品中CNV(例如,非整倍性)是存在还是不存在所需要的准确性是根据映射至一个测序轮次中的样品中的参考基因组的序列标签的数目变异(染色体间的变异性),以及映射至不同测序轮次中的参考基因组的序列标签的数目变异(测序间变异性)来预测的。例如,变异可以针对映射至GC-富或GC-穷参考序列的标签进行具体宣布。其它变异可以由使用不同的方案进行核酸的提取和纯化、测序文库的制备和应用不同的测序平台所导致。本方法基于归一化序列(归一化染色体序列或归一化区段序列)的知识将序列剂量(染色体剂量或区段剂量)应用于从本质上考虑源自染色体间(轮次内)、测序间(轮次间)和依赖平台的变异性所累计的变异性。染色体剂量基于归一化染色体序列的知识,即它可以由单个染色体或选自染色体1-22、X和Y的两个或两个以上染色体组成。作为替代方案,归一化染色体序列可以由一个染色体或两个或两个以上染色体的单个染色体区段或两个或两个以上区段组成。区段剂量基于归一化区段序列的知识,它可以由任何一个染色体的单个区段或染色体1-22、X和Y中的任意两个或两个以上的两个或两个以上区段组成。
CNV与产前诊断
在母体血液中循环的无细胞胎儿DNA和RNA可以用于数目不断增加的遗传病症的早期无创性产前诊断(NIPD),即可用于妊娠管理又可以帮助生殖决策。在血流中循环的无细胞DNA的存在已经为人们所知超过50年了。最近,在怀孕期间的母体血流中发现了少量的循环胎儿DNA的存在(Lo等人,Lancet350:485-487[1997])。虽然源自垂死的胎盘细胞,但是无细胞胎儿DNA(cfDNA)已经被证明是由长度典型地小于200bp的短片段组成(Chan等人,ClinChem50:88-92[2004]),这种短片段在早到只有4周妊娠的时候可以被辨别出来(Illanes等人,EarlyHumanDev83:563-566[2007]),并且已知在早到分娩的数小时内即被母体循环中清除(Lo等人,AmJHumGenet64:218-224[1999])。除了cfDNA之外,在母体血流还可以辨明无细胞胎儿RNA(cfRNA)的片段,这种片段源自在胎儿或胎盘中被转录的基因。来自母体血液样品的这些胎儿遗传元件的提取和随后的分析提供了用于NIPD的新机会。
本方法是一种独立于多态性的方法,它是供在NIPD中使用的并且它不需要从母体cfDNA辨别出胎儿cfDNA以便能够确定胎儿非整倍性。在一些实施方案中,该非整倍性是一种染色体的完整三体性或单体性或是部分三体性或单体性。部分非整倍性是由部分染色体的丢失或获得引起的,并且涵盖由不平衡的易位、不平衡的倒位、缺失和插入所致的染色体不平衡。迄今为止,与生命能共存的最常见的已知非整倍性是21三体,即唐氏综合征(DownSyndrome,DS),唐氏综合征由存在染色体21的一部分或全部所引起。罕见的是,DS可以由一种遗传的或偶发的缺陷引起,由此染色体21的一部分或全部的一个额外拷贝变成连接到另一染色体(通常是染色体14)上,从而形成一个单畸变染色体。DS是与智力损伤、严重的学习困难和由长期健康问题(如心脏疾病)引起的超额死亡率相关联的。具有已知临床意义的其他非整倍性包括爱德华综合征(Edwardsyndrome)(18三体)和帕塔综合征(PatauSyndrome)(13三体),它们在生命的前几个月内经常是致命性的。与性染色体数目相关的异常也是已知的并且包括X单体(例如,在女性新生儿中的特纳综合征(Turnersyndrome)(XO))和三倍X综合征(tripleXsyndrome)(XXX),以及在男性新生儿中的克兰费尔特综合征(Kleinefeltersyndrome)(XXY)和XYY综合征,它们全部都与包括不育和智力技能降低在内的各种表型相关联。X单体[45,X]是早孕流产的一个常见原因,占到自然流产的约7%。基于45,X(也称为特纳综合征)的活产婴儿频率为1-2/10,000,估计不到1%的45,X受孕将幸存到足月分娩期。约30%的特纳综合征患者为嵌合性的,具有45,X细胞系以及或46,XX细胞系或含有重排的X染色体的细胞系(Hook和Warburton1983)。考虑到高胚胎致死率,活产婴儿中的表现型为相对温和,并且已假设有可能患有特纳综合征的所有活产女性婴儿携带含有两个性染色体的细胞系。X单体能够以45,X或以45,X/46XX发生在女性中或者以45,X/46XY发生在男性中。人类中的常染色体单体性总体上被认为是与生命不相容的;然而,有相当多数量的细胞遗传学报道描述了在活产儿童中的一个染色体21的完全单体性(VosranovaI等人,MolecularCytogen.1:13[2008];Joosten等人,PrenatalDiagn.17:271-5[1997]。本文描述的方法可以用于产前地诊断这些和其他染色体异常。
根据一些实施方案所述,本文公开的方法可以确定染色体1-22、X和Y中的任一个的染色体三体性的存在或不存在。可以根据本方法检测的染色体三体性的实例包括但不限于21三体(T21;唐氏综合征(DownSyndrome))、18三体(T18;爱德华综合征(Edward’sSyndrome))、16三体(T16)、20三体(T20)、22三体(T22;猫眼综合征(CatEyeSyndrome))、15三体(T15;普瑞德-威利氏综合征(PraderWilliSyndrome))、13三体(T13;帕塔综合征(PatauSyndrome))、8三体(T8;华卡尼综合征(WarkanySyndrome))、9三体和XXY(克兰费尔特综合征(KleinefelterSyndrome))、XYY或XXX三体。其他常染色体的完全三体性以非嵌合状态存在时是致命的,但是以嵌合状态存在时可以与生命相容。应当理解,在胎儿cfDNA中,各种完全三体性(无论是以嵌合还是非嵌合状态存在)和部分三体性都可以根据本文提供的教导来确定。
可以通过本方法确定的部分三体性的非限制性实例包括但不限于部分三体性1q32-44、三体性9p、三体性4嵌合性、三体性17p、部分三体性4q26-qter、部分2p三体性、部分三体性1q和/或部分三体性6p/单体性6q。
本文公开的方法也可以用于确定染色体的X单体、染色体的21单体和部分单体(13单体、15单体、16单体、21单体和22单体),已知这些与怀孕流产有关。还可以通过本文描述的方法来确定典型地与完全非整倍性有关的染色体的部分单体性。可以根据本发明的方法确定的缺失综合征的非限制性实例包括由染色体的部分缺失引起的综合征。可以根据本文描述的方法确定的部分缺失的实例包括但不限于染色体1、4、5、7、11、18、15、13、17、22和10的部分缺失,这些在下文中有描述。
1q21.1缺失综合征或1q21.1(复发性)微缺失是染色体1的一种罕见畸形。仅次于缺失综合征,还存在1q21.1复制综合征。尽管缺失综合征在特定位置缺少DNA的一部分,但是复制综合征在同一位置存在DNA的类似部分的两个或三个拷贝。文献中提及了缺失和复制均导致1q21.1拷贝数变异(CNV)。1q21.1缺失可以与TAR综合征(血小板减少症伴有桡骨缺失(Absentradius))有关。
沃尔夫-赫奇霍恩综合征(Wolf-Hirschhornsyndrome)(WHS)(OMIN#194190)是与染色体4p16.3的半合子缺失相关的一种毗连基因缺失综合征。沃尔夫-赫奇霍恩综合征是一种先天性畸形综合征,特征为出生前和出生后生长缺陷、不同程度的发育障碍、特征性颅面部特征(呈‘希腊战士头盔(Greekwarriorhelmet)’外貌的鼻、高前额、突出的眉间、器官距离过远、高弓形眉毛、突出的双眼、内眦赘皮、短人中、具有下滑角的独特嘴和小下颌)和癫痫发作症。
染色体5的部分缺失,也称为5p-或5p缺少并且命名为猫叫综合征(CrisduChatsyndrome)(OMIN#123450),是由染色体5的短臂(p臂)缺失(5p15.3-p15.2)引起的。患有此病的婴孩经常发出犹如猫叫的高音调哭声。该病的特征为智力残疾和发育迟缓、头尺寸小(小头畸形)、出生体重低和婴儿期的肌张力弱(张力减退)、独特的面部特征和可能存在的心脏缺陷。
威廉-毕仁综合征(Williams-BeurenSyndrome),也称为染色体7q11.23缺失综合征(OMIN194050),是一种导致多系统障碍的毗连基因缺失综合征,由染色体7q11.23上的1.5至1.8Mb的半合子缺失引起,含有近似28个基因。
雅克布森综合征(JacobsenSyndrome),也称为11q缺失障碍,是一种罕见的先天性病症,由染色体11的末端区域的缺失所致,包括区带11q24.1。它可以引起智力残疾、独特的面容和各种各样的身体问题(包括心脏缺陷和出血障碍)。
染色体18的部分单体性,被称为18p单体,是一种罕见的染色体病症,其中缺失染色体18的短臂(p)的全部或部分(单体性的)。该病的典型特征为身材矮小、不同程度的智力迟钝、言语迟缓、头骨和面部(颅面)区域畸形和/或额外的身体异常。对于不同病例,相关颅面缺损在范围和严重性上变化很大。
由染色体15的结构或拷贝数变化所引起的病症包括安吉尔曼综合征(AngelmanSyndrome)和普瑞德-威利氏综合征(Prader-WilliSyndrome),它们涉及在染色体15的同一个部分(15q11-q13区域)的基因活性的丢失。人们将会认识到,在父母亲携带者中,一些易位和微缺失可以是无症状的,但是仍然可以引起后代中的重大遗传性疾病。例如,携带15q11-q13微缺失的健康母亲可以生出患有安吉尔曼综合征(一种严重的神经变性障碍)的孩子。因此,本文描述的方法、装置和系统可以用于识别胎儿中的此类部分缺失和其他缺失。
部分单体性13q是一种罕见的染色体病症,它发生在染色体13的长臂(q)一小段丢失时(单体性的)。出生时具有部分单体性13q的婴儿会表现出低出生体重、头和面部(颅面区域)的畸形、骨骼异常(尤其是手和脚的)和其他身体异常。智力迟钝是该病的特征。在出生时患有此病的个体中,婴儿期期间的死亡率非常高。几乎所有部分单体性13q的病例都没有明显原因而随机发生(偶发性的)。
史密斯-玛吉尼斯综合征(Smith-Magenissyndrome)(SMS–OMIM#182290)是由染色体17的一个拷贝上的遗传物质缺失或丢失引起的。这个有名的综合征与发育迟缓、智力迟钝、先天性畸形(如心脏和肾脏缺陷)和神经行为异常(如严重睡眠障碍)和自伤行为相关。史密斯-玛吉尼斯综合征(SMS)在大多数情况(90%)下是由染色体17p11.2中的3.7-Mb中间缺失引起的。
22q11.2缺失综合征,也称为迪格奥尔格综合征(DiGeorgesyndrome),是由一小段染色体22的缺失引起的一种综合征。这种缺失(22q11.2)发生在这对染色体之一的长臂上的染色体中部附近。该综合征的特征甚至在同一家族的不同成员中也会变化很大,并且影响身体的很多部位。特征性征兆和症状可包括出生缺陷(如先天性心脏疾病)、腭的缺陷(最常见与伴有闭合的神经肌肉问题(腭咽关闭不全(velo-pharyngealinsufficiency))有关)、学习障碍、面部特征中的轻微差异和反复感染。染色体的区域22q11.2中的微缺失是与精神分裂症的20倍到30倍的风险增加相关联的。
染色体10的短臂上的缺失与迪格奥尔格综合征(DiGeorgeSyndrome)样表型有关。染色体10p的部分单体性是罕见的,但是已经在一部分显示迪格奥尔格综合征特征的患者中观察到。
在一个实施方案中,本文描述的方法、装置和系统被用来确定部分单体性,包括但不限于染色体1、4、5、7、11、18、15、13、17、22和10的部分单体性,例如,部分单体性1q21.11、部分单体性4p16.3、部分单体性5p15.3-p15.2、部分单体性7q11.23、部分单体性11q24.1、部分单体性18p,染色体15的部分单体性(15q11-q13)、部分单体性13q、部分单体性17p11.2、染色体22的部分单体性(22q11.2)和部分单体性10p,全都可以使用该方法来确定。
可以根据本文描述的方法确定的其他部分单体性包括不平衡的易位t(8;11)(p23.2;p15.5);11q23微缺失;17p11.2缺失;22q13.3缺失;Xp22.3微缺失;10p14缺失;20p微缺失、[del(22)(q11.2q11.23)]、7q11.23和7q36缺失;1p36缺失;2p微缺失;神经纤维瘤病1型(17q11.2微缺失)、Yq缺失;4p16.3微缺失;1p36.2微缺失;11q14缺失;19q13.2微缺失;鲁宾斯坦-泰比综合征(16p13.3微缺失);7p21微缺失;米勒-迪克综合征(Miller-Diekersyndrome)(17p13.3);和2q37微缺失。部分缺失可以是一个染色体的一部分的小缺失,或者它们可以是染色体的微缺失,其中可以发生单基因的缺失。
已经识别出由一部分染色体臂的复制引起的若干种复制综合征(参见OMIN[在线人类孟德尔遗传(OnlineMendelianInheritanceinMan),在ncbi.nlm.nih.gov/omim上在线查看])。在一个实施方案中,本发明方法可以用于确定染色体1-22、X和Y中的任一个的区段的复制和/或倍增的存在或不存在。可以根据本发明的方法确定的复制综合征的非限制性实例包括染色体8、15、12和17的一部分的复制,其描述于下文中。
8p23.1复制综合征是由来自人类染色体8的一个区域的复制所引起的一种罕见的遗传性障碍。这种复制综合征在新生儿中的发病率估计为1/64,000,并且是8p23.1缺失综合征的倒数。8p23.1复制与不同表型有关,包括言语迟缓、发育迟缓、轻度异常形态(milddysmorphism)伴有前额凸出和弓形眉,以及先天性心脏疾病(CHD)中的一项或多项。
染色体15q复制综合征(Dup15q)是一种临床上能够识别的综合征,由染色体15q11-13.1的复制引起。患有Dup15q的婴儿通常呈现张力过弱(肌张力低下)、生长阻滞;他们可能生来患有唇裂和/或腭裂或心脏、肾脏或其他器官的畸形;他们显示某种程度的认知迟缓/障碍(智力迟钝)、言语迟缓和感觉突失调。
帕尼斯特-凯廉综合征(PallisterKilliansyndrome)是额外的#12染色体物质的一种结果。通常存在细胞的混合物(嵌合现象),有些具有额外的#12物质,而有些是正常的(不具有额外的#12物质的46条染色体)。患有这种综合征的孩子存在很多问题,包括严重智力迟钝、肌张力低下、“粗俗的”面部特征和前额凸出。他们往往具有极薄的上唇和较厚的下唇以及短鼻。其他健康问题包括癫痈发作、进食差、关节僵硬、成年期白内障、听力损失和心脏缺陷。患有帕尼斯特-凯廉综合征的人寿命缩短。
患有指定为dup(17)(p11.2p11.2)或dup17p的遗传病的个体在染色体17的短臂上携带额外的遗传信息(被称为复制)。染色体17p11.2的复制引起伯托奇-鲁普奇综合征(Potocki-Lupskisyndrome)(PTLS),PTLS是一种刚识别出的遗传病,医学文献中报道的病例只有几十例。具有这种复制的患者经常呈现肌张力低下、进食差和在婴儿期期间不能长得健壮,并且还伴有动作和语言呈程碑的发育延缓。许多患有PTLS的个体在发音和语言能力上有困难。另外,患者可能具有类似于自闭症或自闭症谱系障碍患者中所见到的行为特征。患有PTLS的个体可能患有心脏缺陷和睡眠呼吸暂停。包括基因PMP22的染色体17p12中的较大区域的复制已知可导致查考特-玛利-吐斯病(Charcot-MarieToothdisease)。
CNV已与死产有关。然而,由于传统细胞遗传学的固有限制,因此认为CNV对死产的贡献是未被充分代表的(Harris等人,PrenatalDiagn31:932-944[2011])。正如本文中的实施例和其他部分所表明的,本方法能够确定部分非整倍性(例如,染色体区段的缺失和倍增)的存在,并且可以用于识别及确定与死产有关的CNV的存在或不存在。
用于确定CNV的装置和系统
对测序数据的分析和由此得出的诊断典型地使用不同的计算机执行算法和程序来进行。因此,某些实施方案采用涉及在一个或多个计算机系统或其他处理系统中对数据进行存储或通过其进行转移的工艺。本文公开的多个实施方案也涉及用于进行这些操作的装置。这种装置可专门构造用于所需要的目的,或者它可以是由计算机中存储的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施方案中,一组处理器以协作方式和/或同时执行一些或所有记载的分析操作(例如,通过网络或云计算)。用于实现本文描述的方法的一个处理器或一组处理器可以属于各种不同的类型,包括微控制器和微处理器,如可编程设备(例如,CPLD和FPGA)和不可编程设备,如门阵列ASICs或通用微处理器。
另外,某些实施方案涉及有形的和/或非暂时性的计算机可读介质或计算机程序产品,这些介质或产品包括程序指令和/或数据(包括数据结构),这些程序指令和/或数据(包括数据结构)用于执行各种由计算机实施的操作。计算机可读介质的实例包括但不限于半导体存储器、磁性介质(如磁盘驱动器、磁带)、光学介质(如CD)、磁光介质和硬件设备(它们经过特别配置以存储并且执行程序指令)(如只读存储器(ROM)和随机存取存储器(RAM))。计算机可读介质可以由终端用户直接控制,或者该介质可以由终端用户间接控制。受直接控制的介质的实例包括位于用户平台上的介质和/或不与其他机构共享的介质。受间接控制的介质的实例包括用户通过外部网络和/或通过提供共享资源的服务(如“云”)而间接地可存取的介质。程序指令的实例包括机器代码(如由编译器产生的代码)和含有可以由计算机使用翻译器来执行的高级代码的文件。
在各种不同的实施方案中,所公开的方法和装置中采用的数据或信息是以电子格式提供的。这样的数据或信息可包括源自于核酸样品的读数和标签、与参考序列的特定区域比对(例如,与染色体或染色体区段比对)的这些标签的计数或密度、参考序列(包括仅仅或主要提供多态性的参考序列)、染色体和区段剂量、判定(非整倍性判定)、归一化的染色体和区段值、成对染色体或区段和相应的归一化染色体或区段、咨询建议、诊断等。如本文所用的,以电子格式提供的数据或其他信息可存储在机器上并且在机器之间传输。按照惯例,呈电子格式的数据以数位形式提供,并且可以作为比特(bits)和/或字节(bytes)形式存储在各种数据结构、目录、数据库等中。该数据可以通过电子、光学等方式体现出来。
一个实施方案提供一种计算机程序产品,该产品用于产生指示试验样品中存在或不存在非整倍性(例如,胎儿非整倍性)或癌症的输出。该计算机产品可含有用于执行任何一种或多种用于确定染色体异常的以上描述的方法的指令。作为解释,该计算机产品可包括非暂时性的和/或有形的计算机可读介质,该计算机可读介质上具有记录在其上的计算机可执行的或可编译的逻辑(例如,指令),以便启动处理器来确定染色体剂量,并且在有些情况下能够确定是存在还是不存在胎儿非整倍性。在一个实例中,该计算机产品包含计算机可读介质,该计算机可读介质具有记录在其上的计算机可执行的或可编译的逻辑(例如,指令),以便启动处理器来诊断胎儿非整倍性,该计算机产品包含:一个接收程序,用于接收来自母体生物学样品的至少一部分核酸分子的测序数据,其中该测序数据包含经计算的染色体和/或区段剂量;计算机辅助逻辑,用于根据该接收的数据分析胎儿非整倍性;和一个输出程序,用于产生指示该胎儿非整倍性的存在、不存在或种类的输出结果。
可以将来自予以考虑的样品的测序信息映射至染色体参考序列以识别针对任何一个或多个感兴趣的染色体中的每一个的序列标签的数目并且识别针对所述任何一个或多个感兴趣的染色体中的每一个的归一化区段序列的序列标签的数目。在各种不同的实施方案中,这些参考序列存储在数据库中,例如关系数据库或对象数据库等。
应当理解,让一个不使用辅助工具的人来执行本文公开的方法的计算操作在大多数情况下是不切实际的或甚至是不可能的。例如,在无计算装置辅助的情况下将来自样品的单一30bp读数映射至人类染色体中的任一个可能需要数年的努力。当然,该问题由于可靠的非整倍性判定总体上需要将数千(例如,至少约10,000个)或甚至数百万个读数映射至一个或多个染色体上而进一步复杂化。
本文公开的方法可以使用用于评估试验样品中感兴趣的遗传序列的拷贝数的系统来进行。该系统包含:(a)测序仪,用于接收来自试验样品的核酸以提供来自该样品的核酸序列信息;(b)处理器;和(c)一个或多个计算机可读存储介质,其上已存储用于在该处理器上执行的指令以评估试验样品中的Y染色体的拷贝数,使用被掩体过滤的Y染色体的参考序列。所述掩体包含在Y染色体的参考序列上规定大小的单元。所述单元具有超过阈值数的与其比对的训练序列标签。所述训练序列标签包含与Y染色体的参考序列进行比对的来自第一组多个女性个体的基因组读数。
在一些实施方案中,该方法由其上已存储计算机可读指令用于实现用于识别任何CNV(例如,染色体的或部分的非整倍性)的方法的计算机可读介质来实施。因此,一个实施方案提供一种计算机程序产品,该产品包含一个或多个计算机可读的非暂时性的存储介质,该存储介质上已存储计算机可执行指令,该指令当由计算机系统的一个或多个处理器执行时,引起计算机系统去实施用于评估包含胎儿和母体无细胞核酸的试验样品中的Y染色体的拷贝数的方法。该方法包括:(a)在计算机系统上提供包含由第一组多个女性个体的核酸样品所测得的基因组读数的训练集;(b)通过计算机系统将每训练集的个体至少约100,000个基因组读数与Y-染色体的参考序列进行比对,从而提供包含被比对的基因组读数和它们在Y染色体的参考序列上的位置的训练序列标签;(c)将Y染色体的参考序列通过计算机系统划分成规定大小的单元;(d)通过计算机系统确定定位于各单元中的训练序列标签的计数;(e)通过计算机系统掩蔽超过掩蔽阈值的单元,所述掩蔽阈值基于各单元中的训练序列标签的计数,从而提供Y染色体的被掩蔽的参考序列用于评估包含胎儿和母体无细胞核酸的试验样品中的Y染色体的拷贝数。
在一些实施方案中,这些指令可以还包括在针对提供母体试验样品的人类受试者的患者医疗记录中自动地记录关于该方法的信息,例如染色体剂量和存在或不存在胎儿染色体非整倍性。该患者医疗记录可以由例如实验室、医师办公室、医院、健康保险机构、保险公司或个人医疗记录网站保存。此外,基于由处理器实施的分析的结果,该方法还可以涉及开处方、启动和/或改变取得母体试验样品的人类受试者的治疗。这可能涉及对取自该受试者的附加样品进行一种或多种附加测试或分析。
所公开的方法也可以使用计算机处理系统来实施,该计算机处理系统经调适或配置以实施用于识别任何CNV(例如,染色体的或部分的非整倍性)的方法。一个实施方案提供一种计算机处理系统,其经调适或配置以实施如本文描述的方法。在一个实施方案中,该装置包含一个测序设备,其经调适或配置用于对样品中的至少一部分核酸分子进行测序以获得本文其他部分所述的序列信息的类型。该装置也可以包括用于处理样品的组件。这样的组件在本文其他部分有描述。
可以将序列或其它数据或直接地或间接地输入到计算机中或者存储在计算机可读介质上。在一个实施方案中,计算机系统被直接连接到可读取和/或分析来自样品的核酸的序列的测序设备上。得自这样的工具的序列或其他信息通过界面提供在计算机系统中。作为替代方案,由序列存储源(如数据库或其它存储库)提供通过系统处理的序列。在用该处理装置后,存储设备或大容量存储设备就缓冲或存储(至少暂时性地)核酸的序列。另外,存储设备可以存储针对各种染色体或基因组的标签计数等。该存储设备还可以存储用于分析存在的序列或映射的数据的各种子程序和/或程序。这样的程序/子程序可以包括用于进行统计学分析的程序等。
在一个实例中,用户向测序装置中提供一个样品。通过连接到计算机的测序装置来收集和/或分析数据。该计算机上的软件允许数据收集和/或分析。数据可以存储、显示(通过监视器或其它类似的设备)和/或发送到另一位置。可以将计算机连接到因特网上,用于将数据传输到由远程用户(例如,执业医师、科学家或分析人员)所使用的手持设备上。应当理解,数据可以在传输之前进行存储和/或分析。在一些实施方案中,收集原始数据并将其发送给将对该数据进行分析和/或存储的远程用户或装置。可通过因特网进行传输,但也可通过卫星或其它连接进行。作为替代方案,可以将数据存储在计算机可读介质上,并且可以将该介质发送到终端用户(例如,通过邮件)。该远程用户可处于相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或大陆。
在一些实施方案中,该方法也包括收集关于多个多核苷酸序列的数据(例如,读数、标签和/或参考染色体序列)并且将该数据发送到计算机或其它计算系统。例如,可以将计算机连接到实验室设备(例如,样品收集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置)上。然后,该计算机可以收集由实验室设备采集的适当数据。可以在任何步骤(例如,在收集时实时、在发送之前、在发送期间或同时或者在发送之后)将该数据存储在计算机上。可以将该数据存储在可从该计算机中拔出的计算机可读介质上。所收集或存储的数据可以从该计算机传输到远程位置,例如,通过局域网或广域网(如因特网)。在该远程位置处,可如下文所述对所传输的数据进行各种操作。
可在本文公开的系统、装置和方法中存储、传输、分析和/或操作的电子格式化数据的类型如下:
通过对试验样品中的核酸进行测序获得的读数,
通过将读数与参考基因组或一个或多个其它参考序列进行比对获得的标签,
该参考基因组或序列,
序列标签密度-针对参考基因组或其它参考序列的两个或两个以上区域(典型地为染色体或染色体区段)中的每一个的标签的计数或数目,
针对感兴趣的特定染色体或染色体区段的归一化染色体或染色体区段的一致性,
针对从感兴趣的染色体或区段和相应归一化染色体或区段中获得的染色体或染色体区段(或其它区域)的剂量,
用于判定染色体剂量为被累及的、非被累及的或无判定的阈值,
染色体剂量的实际判定,
诊断(与这些判定相关的临床病症),
源自于这些判定和/或诊断的针对其他检验的建议,
源自于这些判定和/或诊断的治疗和/或监测计划。
这些不同的数据类型可以在一个或多个位置使用独特的装置来获得、存储、传输、分析和/或操作。处理选项跨越较宽范围。在该范围的一端,在处理该试验样品的位置(例如,医师办公室或其它临床环境)对该信息的全部或大部分进行存储和使用。在另一种极端中,在一个位置获得样品,而在另一个不同的位置对其进行处理并且任选地进行测序,在一个或多个不同的位置比对读数,做出判定,并且在又一个位置(它可以是获得样品的位置)制作诊断、建议和/或计划。
在各种不同的实施方案中,利用该测序装置产生这些读数,然后传输至远程站点,在该远程站点对其进行处理以产生非整倍性判定。在该远程位置,作为一个实例,将这些读数与参考序列进行比对以产生标签,对标签进行计数并且分配给感兴趣的染色体或区段。还是在这个远程位置,使用相关的归一化染色体或区段将这些计数转换成剂量。再进一步,在这个远程位置,将这些剂量用来产生非整倍性判定。
可以在不同位置采用的处理操作如下:
样品收集
测序前的样品处理
测序
分析测序数据并且推导非整倍性判定
诊断
向患者或保健提供者报告诊断结果和/或判定
制定针对进一步治疗、测试和/或监测的计划
执行该计划
咨询
这些操作中的任何一个或多个可如本文其他部分所述完成自动化。典型地,测序和对测序数据进行分析以及推导非整倍性判定将在计算机上执行。其它操作可人工地或自动地执行。
可以进行样品收集的位置的实例包括执业医师办公室、诊所、患者家(在此提供样品收集工具或试剂盒)和移动医疗保健车。可以进行测序前样品处理的位置的实例包括执业医师办公室、诊所、患者家(在此提供样品处理装置或试剂盒)、移动医疗保健车和非整倍性分析提供者的设施。可以进行测序的位置的实例包括执业医师办公室、诊所、执业医师办公室、诊所、患者家(在此提供样品测序装置和/或试剂盒)、移动医疗保健车和非整倍性分析提供者的设施。进行测序的位置可以提供有专用网络连接以用于传输呈电子格式的测序数据(典型地的是读数)。这样的连接可以是有线的或无线的,而且已经并且可能经过配置以便在传输到处理站点之前将数据发送到可以处理和/或汇总数据的站点。数据汇总器可以由卫生组织(健康保险机构(HMO))保存。
分析和/或推导运算可以在上述位置中的任何一个,或者作为替代方案,在致力于计算和/或核酸测序数据分析服务的另一远程站点进行。这样的位置包括例如集群(如通用服务区、非整倍性分析服务业务设施等)。在一些实施方案中,用于执行分析的计算装置是租借的或租用的。计算资源可以是处理器在因特网可存取的集合的一部分,如俗称为云的处理资源。在有些情况下,计算由彼此关联的或未关联的平行或大规模平行处理器群组来进行。处理可以使用分布式处理来实现,如集群计算、网格计算等。在这些实施方案中,计算资源的集群或网格集形成在由一起作用以执行本文描述的分析和/或推导的多个处理器或计算机构成的一个超级虚拟计算机。这些技术以及更多常规的超级计算机可以用于处理如本文描述的测序数据。每一个都是依赖于多个处理器或计算机的一种平行计算形式。就网格计算来说,这些处理器(常常是整台计算机)通过网络(私人网络、公共网络或因特网)通过常规网络协议如以太网(Ethernet)连接。相比之下,超级计算机具有通过本地高速计算机总线连接的许多个处理器。
在某些实施方案中,在与分析操作相同的位置处做出诊断(例如,胎儿患有唐氏综合征或者患者患有特定类型的癌症)。在其它实施方案中,它是在不同的位置进行的。在有些实例中,报告诊断是在获取样品的位置处执行,但情况也不一定如此。可以做出或报告诊断和/或制定计划的位置的实例包括执业医师办公室、诊所、计算机可存取的因特网站点和具有连接到网络的有线或无线连接的手持设备(如手机、平板电脑、智能电话等)。进行咨询的位置的实例包括执业医师办公室、诊所、计算机可存取的因特网站点、手持设备,等等。
在一些实施方案中,在第一个位置进行样品收集、样品处理和测序操作,而在第二个位置进行分析和推导运算。然而,在有些情况下,样品收集在一个位置(例如,执业医师办公室或诊所)收集,而样品处理和测序在一个不同的位置进行,该位置可任选地为进行分析和推导的同一位置。
在各种不同的实施方案中,以上列出的操作的顺序可以由启动样品收集、样品处理和/或测序的用户或机构来触发。在已经开始执行这些操作中的一个或多个之后,其它的操作可以自然地随后。例如,测序操作可以使读数被自动地收集并且发送到处理装置,然后该处理装置通常自动地并且可能在无其他用户干预的情况下进行序列分析和推导非整倍性操作。在一些实现方式中,然后将该处理操作的结果自动地递送(可能伴随重新格式化作为诊断)到系统组件或机构,该系统组件或机构处理信息并且报告给健康专家和/或患者。作为解释,这样的信息,可能与咨询信息一起,也可以经过自动处理以产生治疗、测试和/或监测计划。因此,启动早期操作可以触发端到端的顺序,在其中向健康专家、患者或其他有关团体提供诊断、计划、咨询和/或可用于作用于身体健康状况的其他信息。即使整个系统各部分是在物理上分离的并且可能远离例如样品和序列装置的位置,此举也能实现。
图5显示用于从试验样品中产生判定或诊断的分散系统的一个实现方式。样品收集位置01用于从患者如怀孕女性或推定的癌症患者处获得试验样品。然后将样品提供到处理和测序位置03,在此可以如上所述对试验样品进行处理和测序。位置03包括用于处理样品的装置以及用对经过处理的样品进行测序的装置。测序的结果(如本文其他部分所述)是读数的集合,这些读数典型地以电子格式提供并且提供到网络如因特网,该网络在图5中以参照编号05指示。
将该测序数据提供到远程位置07处,在此进行分析和判定生成。这个位置可包括一个或多个强大的计算设备如多个计算机或处理器。在位置07处的计算资源已经完成了它们的分析并且从所接收的序列信息生成一个判定之后,将该判定分程传递到网络05。在一些实现方式中,不仅是在位置07处生成判定,而且也生成相关诊断。然后如图5中所说明将该判定或诊断通过网络传输并且传回样品收集位置01。作为解释,这只不过是关于如何在不同的位置之间分配与产生判定或诊断相关的不同的操作的许多变化方案之一。一个常见变化方案涉及在单一位置提供样品收集和处理以及测序。另一个变化方案涉及在与分析和判定生成相同的位置提供处理和测序。
图6对在不同的位置执行不同的操作的选择进行详述。在图6中描绘的最全面意义上,以下各操作都是在分开的位置处进行:样品收集、样品处理、测序、读数比对、判定、诊断以及报告和/或计划制定。
在汇总这些操作中的一些的一个实施方案中,在一个位置进行样品处理和测序,并且在一个分开的位置进行读数比对、判定和诊断。参见图6中由参考字母A所标识的部分。在由图6中的字母B所标识的另一个实现方式中,样品收集、样品处理和测序全都在同一个位置进行。在这个实现方式中,读数比对和判定在第二个位置进行。最后,诊断以及报告和/或计划制定在第三个位置进行。在由图6中的字母C所标识的实现方式中,样品收集在一个位置进行,样品处理、测序、读数比对、判定和诊断都一起在第二个位置进行,而报告和/或计划制定在第三个位置进行。最后,在由图6中的D所标记的实现方式中,样品收集在第一个位置进行,样品处理、测序、读数比对和判定全都在第二个位置进行,而诊断以及报告和/或计划管理在第三个位置进行。
一个实施方案提供一种系统,用于确定包含胎儿和母体核酸的母体试验样品中存在或不存在任何一种或多种不同的完整的胎儿染色体非整倍性,该系统包括测序仪,用于接收核酸样品并且提供来自该样品的胎儿和母体核酸序列信息;处理器;和机器可读存储介质,包含用于在该处理器上执行的指令,这些指令包含:
(a)用于获得该样品中的所述胎儿和母体核酸的序列信息的代码;
(b)用于使用所述序列信息通过计算机从所述胎儿和母体核酸中识别针对选自染色体1-22、X和Y的任何一个或多个感兴趣的染色体中的每一个的序列标签的数目;并且识别针对所述任何一个或多个感兴趣的染色体中的每一个的至少一个归一化染色体序列或归一化染色体区段序列的序列标签的数目的代码;
(c)用于使用针对所述任何一个或多个感兴趣的染色体中的每一个所识别的所述序列标签的数目以及针对各归一化染色体序列或归一化染色体区段序列所识别的所述序列标签的数目来计算针对该任何一个或多个感兴趣的染色体中的每一个的单一染色体剂量的代码;和
(d)用于比较针对该任何一个或多个感兴趣的染色体中的每一个的各单一染色体剂量与针对该一个或多个感兴趣的染色体中的每一个的相应阈值,并且由此确定该样品中存在或不存在任何一种或多种完整的不同胎儿染色体非整倍性的代码。
在一些实施方案中,用于计算针对任何一个或多个感兴趣的染色体中的每一个的单一染色体剂量的代码,包括用于将所选择的感兴趣的染色体中的一个的染色体剂量计算为针对所选择的感兴趣的染色体所识别的序列标签的数目与针对所选择的感兴趣的染色体的相应的至少一个归一化染色体序列或归一化染色体区段序列所识别的序列标签的数目的比率的代码。
在一些实施方案中,该系统还包含用于重复计算针对任何一个或多个感兴趣的染色体的任何一个或多个区段的任何其余染色体区段中的每一个的染色体剂量的代码。
在一些实施方案中,所述选自染色体1-22、X和Y的一个或多个感兴趣的染色体包括至少二十个选自染色体1-22、X和Y的染色体,并且其中所述指令包括用于确定存在或不存在至少二十个不同的完整的胎儿染色体非整倍性的指令。
在一些实施方案中,所述至少一个归一化染色体序列是选自染色体1-22、X和Y的一组染色体。在其它实施方案中,所述至少一个归一化染色体序列是选自染色体1-22、X和Y的单个染色体。
另一个实施方案提供一种系统,用于确定包含胎儿和母体核酸的母体试验样品中存在或不存在任何一种或多种不同的部分的胎儿染色体非整倍性,该系统包含:测序仪,用于接收核酸样品并且提供来自该样品的胎儿和母体核酸序列信息;处理器;和机器可读存储介质,包含用于在该处理器上执行的指令,这些指令包含:
(a)用于获得所述样品中的所述胎儿和母体核酸的序列信息的代码;
(b)用于使用所述序列信息通过计算机从这些胎儿和母体核酸中识别针对选自染色体1-22、X和Y的任何一个或多个感兴趣的染色体的任何一个或多个区段中的每一个的序列标签的数目,并且识别针对任何一个或多个感兴趣的染色体的所述任何一个或多个区段中的每一个的至少一个归一化区段序列的序列标签的数目的代码;
(c)用于使用针对任何一个或多个感兴趣的染色体中的所述任何一个或多个区段中的每一个所识别的所述序列标签的数目以及针对所述归一化区段序列识别的所述序列标签的数目来计算针对任何一个或多个感兴趣的染色体中的所述任何一个或多个区段中的每一个的单一染色体区段剂量的代码;和
(d)用于比较针对任何一个或多个感兴趣的染色体中的所述任何一个或多个区段中的每一个的所述单一染色体区段剂量中的每一个与针对任何一个或多个感兴趣的染色体的所述任何一个或多个染色体区段中的每一个的相应阈值,并且由此确定所述样品中存在或不存在一种或多种不同的部分的胎儿染色体非整倍性的代码。
在一些实施方案中,用于计算单一染色体区段剂量的代码包含用于将所选择的染色体区段中的一个的染色体区段剂量计算为针对所选择的染色体区段所识别的序列标签的数目与针对所选择的染色体区段的相应的归一化区段序列所识别的序列标签的数目的比率的代码。
在一些实施方案中,该系统还包含用于重复计算针对任何一个或多个感兴趣的染色体的任何一个或多个区段的任何其余染色体区段中的每一个的染色体区段剂量的代码。
在一些实施方案中,该系统还包含(i)用于针对不同的母体受试者的试验样品重复(a)-(d)的代码,和(ii)用于确定所述样品中的每一个中存在或不存在任何一种或多种不同的部分的胎儿染色体非整倍性的代码。
在本文提供的系统中的任何一个的其它实施方案中,所述代码还包含用于根据(d)中所确定在针对提供所述母体试验样品的人类受试者的患者医疗记录中自动地记录存在或不存在胎儿染色体非整倍性的代码,其中使用该处理器执行该记录。
在本文提供的系统中的任何一个的一些实施方案中,所述测序仪经过配置以执行下一代测序(NGS)。在一些实施方案中,所述测序仪经过配置以使用合成法测序与可逆染料终止子来执行大规模平行测序。在其它实施方案中,所述测序仪经过配置以执行连接法测序。在又一些实施方案中,所述测序仪经过配置以执行单分子测序。
实验部分
实施例1
初始和经过富集的测序文库的制备和测序
a.测序文库的制备–简略方案(ABB)
所有的测序文库,即初始和经过富集的文库,全都由从母体血浆中提取的近似2ng的经过纯化的cfDNA制备。使用NEBNextTMDNA样品制备DNA试剂集1(theNEBNextTMDNASamplePrepDNAReagentSet1)(物品编号E6000L;NewEnglandBiolabs,Ipswich,MA)(如以下的)的试剂进行文库制备。因为无细胞血浆DNA实际上是片段化的,所以不再通过喷雾法或超声处理使该血浆DNA样品进行进一步片段化。将在40μl中所含有的近似2ng经纯化的cfDNA片段的突出端转变成磷酸化的钝端,即:根据末端修复模块(EndRepairModule),通过将cfDNA与在NEBNextTMDNA样品制备DNA试剂集1中提供的5μl10X磷酸化缓冲液、2μl脱氧核苷酸溶液混合液(10Mm,各dNTP)、1μl的1:5稀释的DNA聚合酶I、1μlT4DNA聚合酶和1μlT4多核苷酸激酶一起在1.5ml微量离心管中在20℃下孵育15分钟。然后通过将反应混合物在75℃下孵育5分钟而对酶进行热灭活。将混合物冷却到4℃,并且使用10μl的含有克列诺(Klenow)片段(3’至5’exominus)的dA加尾主混合液(NEBNextTMDNA样品制备DNA试剂集1)并且在37℃下孵育15分钟来实现钝端DNA的dA加尾。随后,通过将反应混合物在75℃下孵育5分钟而对克列诺片段进行热灭活。在克列诺片段灭活后,使用在NEBNextTMDNA样品制备DNA试剂集1中提供的4μl的T4DNA连接酶,通过将反应混合物在25℃下孵育15分钟而使用1μl的1:5稀释的Illumina基因组适配子寡聚混合物(物品编号1000521;IlluminaInc.,Hayward,CA)来将Illumina适配子(非索引Y-适配子(Non-IndexY-Adaptors))连接到带dA尾的DNA上。将混合物冷却到4℃,并且使用在AgencourtAMPureXPPCR纯化系统(物品编号A63881;BeckmanCoulterGenomics,Danvers,MA)中提供的磁珠,从未连接的适配子、适配子二聚体和其它试剂中纯化出经适配子连接的cfDNA。使用高保真主混合液(25μl;Finnzymes,Woburn,MA)和与适配子互补的Illumina的PCR引物(各0.5μM)(物品编号1000537和1000537)进行十八次PCR循环以便选择性地富集适配子连接的cfDNA(25μl)。使用Illumina基因组PCR引物(物品编号100537和1000538)和在NEBNextTMDNA样品制备DNA试剂集1中提供的PhusionHFPCR主混合液,按照生产商的说明书,对适配子连接的DNA进行PCR(98℃持续30秒;98℃持续10秒、65℃持续30秒和72℃持续30秒,共18次循环;在72℃下最终延伸5分钟,并且保持在4℃)。使用AgencourtAMPureXPPCR纯化系统(AgencourtBioscienceCorporation,Beverly,MA),按照生产商的说明书(在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处可获得)对扩增的产物进行纯化。将纯化后的扩增产物在40μl的QiagenEB缓冲液中洗脱,并且使用2100生物分析仪(AgilenttechnologiesInc.,SantaClara,CA)的AgilentDNA1000试剂盒来分析扩增文库的浓度和大小分布。
b.测序文库的制备–全长方案
此处所描述的全长方案基本上是由Illumina提供的标准方案,只是在扩增文库的纯化方面与Illumina方案不同。Illumina方案指出,扩增的文库使用凝胶电泳进行纯化,而本文描述的方案使用磁珠进行相同纯化步骤。使用针对的NEBNextTMDNA样品制备DNA试剂集1(物品编号E6000L;NewEnglandBiolabs,Ipswich,MA),基本上按照生产商的说明书,使用近似2ng的经过纯化的从母体血浆中提取的cfDNA来制备初始测序文库。除了将适配子连接的产物进行最终纯化(该步骤是使用Agencourt磁珠和试剂而不是纯化柱进行)以外,所有步骤都根据基因组DNA文库样品制备用NEBNextTM试剂所附的方案来进行,该DNA文库使用GAII来测序。NEBNextTM方案基本上沿袭由Illumina提供的方案,Illumina方案可在grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf处获得。
根据末端修复模块(theEndRepairModule),将40μl中所含有的近似2ng经纯化的cfDNA片段的突出端转变成磷酸化的钝端,即:将40μlcfDNA与在NEBNextTMDNA样品制备DNA试剂集1中提供的5μl10X磷酸化缓冲液、2μl脱氧核苷酸溶液混合液(10Mm,各dNTP)、1μl的1:5稀释的DNA聚合酶I、1μlT4DNA聚合酶和1μlT4多核苷酸激酶一起在200μl微量离心管中在热循环仪中在20℃下孵育30分钟。将样品冷却到4℃,并且使用在QIAQuickPCR纯化试剂盒(QIAGENInc.,Valencia,CA)中提供的QIAQuick柱如下进行纯化。将50μl反应液转移到1.5ml微量离心管中,并且加入250μl的Qiagen缓冲液PB。将所得的300μl转移到QIAquick柱中,在微量离心机中以13,000RPM离心1分钟。该柱用750μlQiagen缓冲液PE洗涤后再次离心。残留的乙醇通过以13,000RPM额外离心5分钟而去除。DNA在39μlQiagen缓冲液EB中通过离心进行洗脱。使用16μl的含有克列诺片段(3’到5’exominus)的dA加尾主混合液(NEBNextTMDNA样品制备DNA试剂集1),并且根据生产商的dA加尾模组,在37℃下孵育30分钟来实现34μl的钝端DNA的dA加尾。将样品冷却到4℃,并且使用在MinElutePCR纯化试剂盒(QIAGENInc.,Valencia,CA)中提供的柱如下进行纯化。将50μl反应液转移到1.5ml微量离心管中,并且加入250μl的Qiagen缓冲液PB。将300μl转移到MinElute柱中,在微量离心机中以13,000RPM离心1分钟。该柱用750μlQiagen缓冲液PE洗涤后再次离心。残留的乙醇通过以13,000RPM额外离心5分钟而去除。DNA在15μlQiagen缓冲液EB中通过离心进行洗脱。根据快速连接模组,将10微升的DNA洗脱液与1μl的1:5稀释的Illumina基因组适配子寡聚混合液(物品编号1000521)、15μl的2X快速连接反应缓冲液和4μl快速T4DNA连接酶一起在25℃下孵育15分钟。将样品冷却到4℃,并且使用MinElute柱如下进行纯化。将150微升的Qiagen缓冲液PE加入到30μl反应液中,并且将整个体积转移到MinElute柱中,该柱在微量离心机中以13,000RPM离心1分钟。该柱用750μlQiagen缓冲液PE洗涤后再次离心。残留的乙醇通过以13,000RPM额外离心5分钟而去除。将DNA在28μlQiagen缓冲液EB中通过离心进行洗脱。使用Illumina基因组PCR引物(物品编号100537和1000538)和在NEBNextTMDNA样品制备DNA试剂集1中提供的PhusionHFPCR主混合液,按照生产商的说明书,将二十三微升适配子连接的DNA洗脱液进行PCR的18次循环(98℃持续30秒;98℃持续10秒、65℃持续30秒和72℃持续30的18次循环;在72℃下最终延伸5分钟,并且保持在4℃)。使用AgencourtAMPureXPPCR纯化系统(AgencourtBioscienceCorporation,Beverly,MA),按照可在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf上获得的生产商的说明书,将扩增后的产物进行纯化。AgencourtAMPureXPPCR纯化系统将去除未掺入的各dNTP、引物、引物二聚体和其它污染物,并且回收大于100bp的扩增子。纯化后的扩增产物在40μl的QiagenEB缓冲液中从Agencourt珠中洗脱出来,并且使用AgilentDNA1000试剂盒及2100生物分析仪(2100Bioanalyzer)(AgilenttechnologiesInc.,SantaClara,CA)分析文库的大小分布。
c.根据简略方案(a)和全长方案(b)制备的测序文库的分析
由生物分析仪生成的电泳图显示在图7A和图7B中。图7A显示使用(a)中描述的全长方案,由来自血浆样品M24228纯化而来的cfDNA制备的文库DNA的电泳图,图7B显示使用(b)中描述的全长方案,由来自血浆样品M24228纯化而来的cfDNA制备的文库DNA的电泳图。在两幅图中,峰1和峰4分别代表15bp下位内标和1,500bp上位内标;各峰上方的数目表示文库片段的迁移次数;并且各水平线表示用于积分的所设定阈值。图7A中的电泳图显示具有187bp的片段的一个次峰值和具有263bp的片段的一个主峰值,尽管图7B中的电泳图仅显示一个265bp处的峰值。对峰值面积进行积分,得到图7A中的187bp峰值的DNA计算浓度为0.40ng/μl;图7A中的263bp峰值的DNA浓度为7.34ng/μl;和图7B中的265bp峰值的DNA浓度为14.72ng/μl。已知连接到cfDNA的Illumina适配子是92bp,在将其从265bp中减去时,表明cfDNA的峰值大小为173bp。很可能187bp处的次峰值代表端对端连接的两个引物的片段。当使用简略方案时,从最终文库产物中消除呈线性的双引物片段。这个简略方案也消除了小于187bp的其它更小片段。在本实施例中,经过纯化的适配子连接的cfDNA的浓度是使用全长方案产生的适配子连接的cfDNA的浓度的两倍。已经注意到,这些适配子连接的cfDNA片段的浓度始终大于使用全长方案所获得的浓度(数据未显示)。
因此,使用简略方案制备测序文库的一个优点是所获得的文库始终只包括在262-267bp范围内的一个主峰,而使用全长方案制备的文库的品质会变化,如除了代表cfDNA的峰值以外的峰值的数目和迁移率所反映。非cfDNA产物将占据流动槽上的空间并且降低成簇扩增和随后测序反应成像的品质,这是非整倍性状态的总体分配的基础。已表明简略方案并不影响文库的测序。
使用简略方案制备测序文库的另一个优点是钝端化、d-A加尾和适配子连接的三个酶促步骤花费少于1小时即可完成,从而支持快速非整倍体诊断服务的验证与实现。
另一个优点是钝端化、d-A加尾和适配子连接的三个酶促步骤在同一反应管中进行,因此避免了多次样品转移,样品转移可能会造成物料损失,并且更重要的是可能造成样品混乱和样品污染。
实施例2
使用HOPACH聚类根据Y染色体选择训练集
数据缩减具有多种多样的应用,并且存在多种建议的方法。本实施例采用了杂种聚类法(hybridclusteringmethod)来选择女性样品的代表性训练集用于Y染色体掩体的计算。所导出的掩体过滤掉Y染色体的性别非辨别性区段,为无创性胎儿性别辨别提供了一个有用的工具。聚类法,分层有序分区和倍数混合(HOPACH)是聚类的一种层次树。HOPACH方法将分区和凝聚聚类法的强度结合起来并且允许研究以水平不断提高的细节综合聚类。本实施例涵盖分析了已知不具有Y染色体的475名正常女性的样品。475个样品的子集被选择作为训练集,这代表了待测群体中的女性。
像本实施例所进行的一样构建一个代表性训练集包括以下步骤:
1.提供所有可获得的女性样品的基因组读数(例如,25聚体读数)用于训练目的(N);
2.将所有可获得的女性样品的基因组读数与参考基因组进行比对,从而提供与序列读数及它们的被比对的位置有关的序列标签;
3.将序列标签计数划分到预定义大小的单元(例如M1kb单元)的毗连基因组区域;
4.计算单元内复盖度的每样品作为已经与染色体Y上的给定区域进行独特比对的非复制序列标签的总计数;
5.在NxM矩阵上进行HOPACH并且当围绕中心点的分割(PartitioningAroundMedoids,PAM)最将聚类数目最优化,通过将在可能值范围内的平均轮廓最大化;
6.选择样品的训练集,例如,通过对于每一个聚类随机选择出相等数目的样品,如上所述。
图8说明在475名女性中成对chrY1kb覆盖度的相关性热图谱。热图谱显示在训练集中的样品间的成对覆盖度相关性。X-轴和Y-轴均是通过HOPACH结果分选的样品,其中每一个小槽代表在1kb单元中的两个给定训练集样品的chrY命中覆盖度的相关性程度。相关性图谱的可见模式表示以所获得的聚类为基础的样品在Y染色体上具有多样化分布概况。
为了验证被掩蔽的参考的诊断功效,使用女性样品的一个独立集和低胎儿分数男性的一个群组来评价染色体Y计数的男性/女性辨别,该计数使用通过使用以上描述的训练所获得的掩体过滤的参考序列来获得。
实施例3
获得Y染色体的掩体
在计算获得Y染色体的掩体时,单元大小选择应该通过在人类基因组中见到的重复的最高频率大小推导出。在人类基因组中的各种重复种类及它们的出现模式的研究提示500-1000bp范围对于最初的分级为最最佳,后者可以与新出的单元耦合以产生最后一组的掩蔽间隔。然而,其它技术限制可能需要对增加单元大小进行分析,例如,在掩蔽区段总计数上的上限,等等。
在本实施例中,使用1kb单元大小来获得使用实施例2中获得的训练集的掩体。所获得的掩体用于进行最初的chrY过滤,导致基于与用1Mb的单元大小类似的过滤方法的掩蔽比较的chrY性能的显著改善(SNR20vs.35),见图9。图9显示使用用以下贪心法获得的方法获得的掩蔽Y染色体的chrY计数/chr4计数:
1.在训练数据集中,在所有女性样品中,计算预定义大小的每一非重叠基因组单元的非复制25聚体读数总计数。
2.然后,基因组单元通过绝对计数以递减排序进行分选,其中最过度表达的单元对应于染色体Y区域是最前的候选者需要移走/掩蔽。
3.接下来,掩蔽阈值从低(例如,单元的10%被掩蔽)到高(例如,单元的100%被掩蔽)变动,并且男性/女性辨别度量(例如,信噪比或SNR,由样品之差除以样品的标准偏差计算得出)在独立的验证集中计算得出。验证集包括不在训练集中的女性样品和具有低胎儿分数的男性样品。
4.然后掩蔽阈值以所达到的最高SNR建立。
图9显示在左侧图对于1Mb单元大小和在右侧图对于1kb单元大小的chrY计数/chr4计数的箱须图。用数字“2”标出的在左边的框显示由验证女性样品获得的数据,该女性样品独立于训练集中的女性样品。用数字“3”标出的在右边的框显示来自验证“男性样品”的数据,该男性样品是包含男性胎儿DNA的低分数的母体样品。框中间的线表示chrY比率的平均值,框的上面和下面表示处于平均值附近的标准偏差。触须表示95%置信区间。男性中的大SD由深层的低胎儿分数解释。由于左侧图(1Mb单元大小)和右侧图(1Kb单元大小)之间的差异很明显,因此使用较小单元大小所获得的Y染色体掩体提供将男性样品与女性样品进一步分开的结果。
关于掩蔽阈值,经验分析可以帮助识别最有效的阈值。图10显示男性/女性辨别信噪比为所掩蔽的单元分数的函数。与理论预期相一致,各种阈值的检查显示在女性中具有非零表示的单元的攻击性去除导致最高SNR。辨别信号连续增加高达超过99%。信号仅当非常接近100%的具有1个来自女性样品的序列标签计数的单元被去掉时才开始下降。更激进的阈值降低在胎儿男性中所观察到的所观察到的覆盖度estate约68%。
然后,Y染色体和其他染色体的掩体可以用于计算落在感兴趣的序列(包括染色体和亚染色体区域)上的序列标签。与使用未被掩蔽的Y染色体相比,使用被掩蔽的Y染色体,一些实施方案可使用cfDNA更有效地区分胎儿的性别。图11显示对于包括女性(浅灰色)vs.男性(深灰色)胎儿cfDNAs的样品,映射至Y染色体的序列标签的频率分布。左侧图显示映射至未被掩蔽的Y染色体的序列标签的分布。右侧图显示根据以上描述的方法映射至被掩蔽的Y染色体的分布。相对于未被掩蔽的Y染色体(左侧图),女性(浅灰色)vs.男性(深灰色)样品之间的差异对于被掩蔽的Y染色体(右侧图)更显著更明显。
以下实施例举例说明人们如何可以使用被掩蔽的参考序列如以上描述的那些来评估异染色体和常染色体的拷贝数和CNV。获得了在以下实施例中给出的至少一些数据而无需使用如上所述获得的被掩蔽的参考序列。尽管如此,所述实施例提供了技术指导使得本领域技术人员能够在实践CNV评估和遗传诊断中在参考序列中的应用。
实施例4
针对染色体13、18、21、X和Y的剂量及变化
为了检查在对于所有染色体而言在映射的序列标签的数目上染色体间变异性和序列测定间变异性的程序,提取了从48名志愿者的怀孕受试者的外周血中获得的血浆cfDNA,并且进行了测序和如下分析。
确定了映射至各染色体的序列标签的总数目(序列标签密度)。作为替代方案,可以将映射的序列标签的数目归一化至染色体的长度,以产生序列标签密度比率。归一化至染色体的长度并不是必需的步骤,但是可以单独进行以减小一个数目中的数字的位数,从而将其简化而用于人工解读。可以用于将序列标签计数归一化的染色体长度可以是在万维网在genome.ucsc.edu/goldenPath/stats.html#hg18处提供的长度。
使针对各染色体得到的序列标签密度与剩余染色体中的每一个的序列标签密度相关联,以得到合格的染色体剂量,该染色体剂量被计算为针对感兴趣的染色体(例如,染色体21)的序列标签密度与针对剩余的染色体(染色体1-20、22和X)中的每一个的序列标签密度的比率。表1提供了针对感兴趣的染色体13、18、21、X和Y计算出的合格的染色体剂量的一个实例,该染色体剂量是在其中一个合格样品中测定的。对于所有样品中的所有染色体测定了染色体剂量,并且对于合格样品中的感兴趣的染色体13、18、21、X和Y的平均剂量在表2和表3中提供,并且绘制在图12-16中。图12-16也描绘了针对试验样品的染色体剂量。合格样品中针对感兴趣的染色体中的每一个的染色体剂量提供了对于每一个感兴趣的染色体而言(相对于剩余染色体中的每一个)映射的序列标签的总数变化的一种量度。因此,合格的染色体剂量可以识别出以下的一个染色体或一组染色体,即,在样品间的变异性与感兴趣的染色体的变异性最接近的归一化染色体,并且该归一化染色体将作为对进一步的统计学评估的值进行归一化的理想序列。图17和图18描绘了对于染色体13、18和21,以及染色体X和Y在一个合格的样品群组中测定的计算出的平均染色体剂量。
在有些情况下,这种最好的归一化的染色体也许不具有最小的变异性,但是可能具有合格剂量的一种分布,这种分布最好地将一个或多个试验样品与这些合格样品相区分,即:最好的归一化的染色体也许并不具有最低的变异性,但是可能具有最大的可分辨性。因此,可分辨性将染色体剂量的变化以及在合格样品中的剂量的分布考虑在内。
表2和表3提供了变异系数作为变异性的量度,并且提供了斯图登氏t-检验的p值作为染色体18、21、X和Y的可分辨性的量度,其中t-检验p值越小,则可分辨性就越大。针对染色体13的可分辨性是作为在合格样品中的平均染色体剂量与在仅有T13的试验样品中针对染色体13的剂量之间的差值与合格剂量的平均值的标准偏差的比率来确定的。
当在试验样品中识别非整倍性时,这些合格的染色体剂量还用作用于确定阈值的基础,如下所述。
表1.针对染色体13、18、21、X和Y的合格的染色体剂量(n=1;样品#11342,46 XY)
表2.针对染色体21、18和13的合格的染色体剂量、变化和可分辨性
表3.针对染色体13、X和Y的合格的染色体剂量、变化和可分辨性
在实施例5中描述了使用针对感兴趣的染色体中的每一个的归一化染色体、染色体剂量和可分辨性获得的对于T21、T13、T18以及一个特纳综合征病例的诊断实例。注意到虽然实施例5显示了运用在归一化染色体上的标签的平均值来分析非整倍性,但是在其它实施方案中可以运用归一化染色体的标签之和。
实施例5
使用归一化染色体诊断胎儿非整倍性
为了实施使用染色体剂量来评价生物学试验样品中的非整倍性,从怀孕的志愿者获得了母体血液试验样品并且制备了cfDNA,并且采用以上描述的方法进行了测序和分析。
21三体
表4提供了在一个示例性的试验样品(#11403)中针对染色体21计算出的剂量。对于T21非整倍性的阳性诊断计算出的阈值被设定在距这些合格(正常)样品的平均值>2个标准偏差处。对于T21的诊断是基于试验样品中的染色体剂量要大于所设定的阈值而给出的。使用了染色体14和15以单独的计算结果作为归一化染色体,以表明或者具有最低变异性的染色体(例如,染色体14),或者具有最大可分辨性的染色体(例如,染色体15)可以用来识别非整倍性。使用计算出的染色体剂量识别出十三个T21样品,并且通过核型证实这些非整倍性样品是T21。
表4.针对T21非整倍性的染色体剂量(样品#11403,47XY+21)
18三体
表5提供了在一个试验样品(#11390)中针对染色体18计算出的剂量。对于T18非整倍性的阳性诊断计算出的阈值被设定在距这些合格(正常)样品的平均值为2个标准偏差处。对于T18的诊断是基于试验样品中的染色体剂量大于所设定的阈值而给出的。使用染色体8作为归一化染色体。在这种情况下,染色体8具有最低的变异性和最大的可分辨性。使用这些染色体剂量识别出八个T18样品,并且通过核型证实为是T18。
这些数据显示,一个归一化染色体可以既具有最低的变异性又具有最大的可分辨性。
表5.针对T18非整倍性的染色体剂量(样品#11390,47XY+18)
13三体
表6提供了在一个试验样品(#51236)中针对染色体13计算出的剂量。对于T13非整倍性的阳性诊断计算出的阈值被设定在距这些合格样品的平均值为2个标准偏差处。对于T13的诊断是基于试验样品中的染色体剂量大于所设定的阈值而给出的。针对染色体13的染色体剂量是使用或者染色体5或者以染色体3、4、5和6为一组作为归一化染色体而计算出的。一个T13样品被识别。
表6.针对T13非整倍性的染色体剂量(样品#51236,47XY+13)
针对染色体3-6的序列标签密度为针对染色体3-6的平均标签计数。
数据显示,染色体3、4、5和6的组合提供了低于染色体5的变异性,以及大于其他染色体中任何一个的最大可分辨性。
因此,可以使用一组染色体作为归一化染色体来确定染色体剂量并且识别非整倍性。
特纳综合征(X单体)
表7提供了在一个试验样品(#51238)中针对染色体X和Y计算出的剂量。对于特纳综合征(X单体)的阳性诊断计算出的阈值被设定为针对X染色体是在距合格(正常)样品的平均值<-2个标准偏差处,并且对于不存在Y染色体的情况是在距合格(正常)样品的平均值<-2个标准偏差处。
表7.针对特纳(XO)非整倍性的染色体剂量(样品#51238,45X)
具有X染色体剂量小于所设定阈值的样品被识别为具有少于一条X染色体。同一个样品被确定为具有小于所设定阈值的Y染色体剂量,从而表明该样品不具有Y染色体。因此,使用X和Y的染色体剂量的组合来识别特纳综合征(X单体)样品。
因此,所提供的方法使得能够确定染色体的CNV。具体地说,该方法通过对母体血浆cfDNA进行大规模平行测序以及对归一化染色体进行识别用于对测序数据进行统计学分析使得能够确定过度表达和表达不足的染色体性非整倍性。该方法的灵敏度和可靠性允许进行精确测定第一和第二个三月期的非整倍性。
实施例6
非整倍体检测的证明
对于在实施例2和3中描述的并且图12-16中显示的样品所获得的测序数据进行进一步分析,以证明本方法在成功地识别母体样品中的非整倍性中的灵敏度。对针对染色体21、18、13X和Y的归一化染色体剂量作为相对于平均值的标准偏差的分布(Y-轴)进行分析,并且在图19A-19E中显示。所使用的归一化染色体显示为分母(X-轴)。
图19A显示当对于染色体21使用染色体14作为归一化染色体时,对于未被累及样品(o)和21三体样品(T21;Δ)中的染色体21剂量而言染色体剂量相对于平均值的标准偏差的分布。图19B显示当对于染色体18使用染色体8作为归一化染色体时,对于未被累及样品(o)和18三体样品(T18;Δ)中的染色体18剂量而言染色体剂量相对于平均值的标准偏差的分布。图19C显示对于未被累及样品(o)和13三体样品(T13;Δ)中的染色体13剂量而言染色体剂量相对于平均值的标准偏差的分布,使用的是染色体3、4、5和6为一组的平均序列标签密度作为归一化染色体以确定针对染色体13的染色体剂量。图19D显示当对于染色体X使用染色体4作为归一化染色体时,对于未被累及的女性样品(o)、未被累及的男性样品(Δ)和X单体样品(XO;+)中的染色体X剂量而言染色体剂量相对于平均值的标准偏差的分布。图19E显示当使用染色体1-22和X为一组的平均序列标签密度作为归一化染色体来确定针对染色体Y的染色体剂量时,对于未被累及的男性样品(o)、未被累及的女性样品(Δ)和X单体样品(+)中的染色体Y剂量而言染色体剂量相对于平均值的标准偏差的分布。
数据显示21三体、18三体、13三体与未被累及的(正常的)样品是可清楚区分开的。当具有的染色体X剂量明显低于未被累及的女性样品(图19D)的剂量时,并且具有的染色体Y剂量明显低于未被累及的男性样品(图19E)的剂量时,X单体样品可容易地识别出。
因此,所提供的方法对于确定母体血液样品中存在或不存在染色体性非整倍性是灵敏的和特异性的。
实施例7
通过对母体血浆DNA进行测序来进行全部基因组胎儿非整倍体检测:在前瞻 性、盲法、多中心研究中的诊断的准确性
将用于确定母体试验样品中存在或不存在非整倍性的方法应用于前瞻性研究中,并且其诊断的准确性如下文所述而示出。前瞻性研究进一步证明了本发明方法用于针对跨基因组的复染色体检测胎儿非整倍性的功效。盲法研究模拟实际孕妇群体,其中胎儿核型是未知的,并且选择具有任何异常核型的所有样品进行测序。将根据本公开的方法做出的分类的确定结果与得自有创性手术的胎儿核型进行比较以确定该方法对多种染色体性非整倍性的诊断性能。
本实施例的概要
在前瞻性、盲法研究中,在60个美国站点从2,882名正在接受产前诊断程序的妇女中收集血液样品(Clinicaltrials.govNCT01122524)。
独立的生物统计学家选择出具有任何异常核型的所有单胎妊娠,和平衡数目的随机选择的具有整倍体核型的妊娠。根据本文公开的方法对各样品进行染色体分类并且与胎儿核型相比较。
在532个样品的分析群组中,89/89的21三体病例(灵敏度为100%(95%CI95·9–100))、35/36的18三体病例(灵敏度为97.2%,(95%CI85.5–99.9))、11/14的13三体病例(灵敏度为78.6%,(95%CI49.2–99.9))、232/233的女性(灵敏度为99.6%,(95%CI97.6–>99.9))、184/184的男性(灵敏度为100%,95%CI98.0–100))和15/16的X单体病例(灵敏度为93.8%,95%CI69.8–99.8))被分类。在未被累及的受试者中,不存在常染色体非整倍性假阳性(100%特异性,(95%CI>98.5–100))。另外,具有21三体(3/3)、18三体(1/1)和X单体(2/7)的嵌合现象的胎儿、三例易位三体性、两例其他常染色体三体性(20和16)和其他性染色体非整倍性(XXX、XXY和XYY)被正确地分类。
这些结果进一步证明本发明方法使用母体血浆DNA来检测跨基因组的复染色体的胎儿非整倍性的功效。用于21、18、13三体和X单体检测的高灵敏度和高特异性提示本发明方法可以掺入到现有非整倍性筛查算法中以减少不必要的有创性手术。
材料和方法
实施了MELISSA(MatErnalBLoodISSourcetoAccuratelydiagnosefetalaneuploidy(母体血液是准确地诊断胎儿非整倍性的源头))研究作为具有盲法嵌套病例的前瞻性、多中心观察性研究:对照分析。招募孕妇,18周岁和18周岁以上,正在接受有创性产前手术以确定胎儿核型(Clinicaltrials.govNCT01122524)。合格准则包括妊娠在8周0天和22周0天之间的孕妇,满足以下附加准则中的至少一项:年龄≥38岁,阳性筛查检验结果(血清分析值和/或颈半透明度(NT)测量值),存在与胎儿非整倍性风险增加相关的超声波标记物,或先前怀有非整倍体胎儿。从同意参与的所有妇女获得了书面知情同意书。
在25个州的60个地理上分散的医疗中心处根据各机构的伦理审查委员会(IRB)批准的方案进行登记。聘请两个临床研究组织(CROs)(Quintiles,Durham,NC和Emphusion,SanFrancisco,CA)来保持研究是盲的并且提供临床数据管理、数据监测、生物统计学和数据分析服务。
在任何有创性手术之前,采集外周静脉血样品(17mL)装入两支枸橼酸盐葡萄糖(ACD)管(BectonDickinson)中,去除标识并且用独特研究编号进行标记。现场研究人员将研究编号、日期和抽血时间录入安全的电子病例报告表(eCRF)中。将全血样品放在温控容器里从多个站点连夜送到实验室(VerinataHealth,Inc.,CA)。在收到并且进行样品检查后,制备无细胞血浆并且以2到4个等分试样在-80℃下冷冻贮存直到测序时间为止。记录实验室进行样品接收的日期和时间。如果样品是连夜接收,摸起来是凉的并且装有至少7mL血液,那么确定其适合分析。每周将接受时合格的样品报告给CRO并且用于随机采样列表的选择(参见下文和图20)。由站点研究人员将得自妇女当前妊娠和胎儿核型的临床数据录入eCRF中并且由CRO监视器通过源文件审查进行验证。
样品大小确定是基于指数测试的性能特征(灵敏度和特异性)的目标范围的估计值的精确度。具体地讲,确定被累及的(T21、T18、T13、男性、女性或X单体)病例和未被累及的(非T21、非T18、非T13、不是男性、不是女性或不是X单体)对照的数目,以便基于正态逼近分别估计灵敏度和特异性在预先规定的较小误差幅度内(N=(1.96√p(1-p)/误差幅度)2,式中p=灵敏度或特异性的估计值)。假定真正的灵敏度为95%或更大,那么在73到114例之间的样品大小确保灵敏度的估计的精确度将使得95%置信区间(CI)的下界将是90%或更大(误差幅度≤5%)。对于更小的样品大小,计划灵敏度的95%CI的估计误差幅度更大(从6%到13.5%)。为了以更大精确度估计特异性,在取样阶段计划更大的未被累及的对照数(针对病例的比率为~4:1)。由此确保灵敏度的估计值的精确度达到至少3%。因此,随着灵敏度和/或特异性增加,置信区间的精确度亦将增加。
基于样品大小确定,CRO设计随机抽样计划以产生所选择的样品的列表以便测序(最少110个被T21、T18或T13累及的病例,和400个就三体性而言未被累及的,从而允许这些病例中的一半具有除46,XX或46,XY以外的核型)。适合选择具有单胎妊娠和合格血液样品的受试者。排除具有不合格样品、无核型记录和多胎妊娠的受试者(图20)。在整个研究当中,定期产生列表并且送到维里纳塔健康实验室(VerinataHealthlaboratory)。
针对六种独立类别对每一个合格血液样品进行分析。这些类别是针对染色体21、18和13的非整倍性状态,以及男性、女性和X单体的性别状态。尽管仍旧为盲法,但是针对各血浆DNA样品的六种独立的类别中的每一者前瞻性地产生三种分类(被累及的、未被累及的或未被分类的)之一。使用该方案时,同一样品可能在一个分析中被分类为被累及的(例如,针对染色体21的非整倍性),而在另一个分析中被分类为未被累及的(例如,针对染色体18的整倍性)。
通过绒毛膜取样(CVS)或羊膜穿刺获得的细胞的常规中期细胞遗传学分析在该研究中用作参照标准。在参与站点常规使用的诊断实验室中进行胎儿核型分析。如果在登记后患者接受了CVS和羊膜穿刺二者,那么将羊膜穿刺产生的核型结果用于研究分析。如果无法获得中期核型,那么针对靶向染色体21、18、13、X和Y的荧光原位杂交(FISH)结果被允许(表9)。所有异常核型报告(即,除46,XX和46,XY以外)都由经过委员会认证的细胞遗传学家审查,并且相对于染色体21、18和13和性别状态XX、XY和X单体分类为被累及的或未被累及的。
预先规定的规约约定规定以下异常核型将由细胞遗传学家指定为核型的‘被检查过的’状态(astatusof‘censored’):三倍性、四倍性、除三体性以外所涉及的染色体21、18或13的复杂核型(例如,嵌合性),具有混合的性染色体的嵌合性,性染色体非整倍性;或不能完全由源文档解读的核型(例如,未知来源的标记物染色体)。由于细胞遗传学诊断不为测序实验室所知,因此所有经过细胞遗传学检查的样品都被独立地分析并且指定为根据本文公开的方法使用测序信息确定的分类(测序分类),但不包括在统计学分析中。被检查过的状态只属于六种分析中相关联的一种或多种(例如,将从染色体18分析中检查嵌合性T18,但被其他分析,如染色体21、13、X和Y,认为‘未被累及的’)(表10)。没有从分析中检查出在方案设计时无法完全预见的其他异常和罕见的复杂核型(表11)。
在eCRF和临床数据库中所含有的数据仅限于经授权的用户(在研究站点、CRO和签约临床人员)。维里纳塔健康公司(VerinataHealth)的任何雇员都不可存取直到揭盲的时间为止。
在从CRO接收随机采样列表后,从经过解冻的所选择的血浆样品中提取总的无细胞DNA(母体和胎儿的混合物)。使用IlluminaTruSeq试剂盒v2.5制备测序文库。在维里纳塔健康公司实验室在IlluminaHiSeq2000仪器上进行测序(6丛,即,6个样品/泳道),获得36个碱基对的单端读数。在整个基因组上对读数映射,并且对感兴趣的每一个染色体上的序列标签进行计数并且用于如上文所述针对独立的类别对样品进行分类。
临床方案需要胎儿DNA存在的证据以便报告分类结果。男性或非整倍体的分类被视为胎儿DNA的充分证据。另外,还针对胎儿DNA的存在,使用两种等位基因特异性方法对各样品进行测试。在第一种方法中,使用AmpflSTRMinifiler试剂盒(LifeTechnologies,SanDiego,CA)来询问无细胞DNA中的胎儿组分的存在。在ABI3130遗传分析仪上,根据生产商的方案来进行短串联重复序列(STR)扩增子的电泳。通过比较呈占所有峰值的强度总和的百分比形式的所报告的各峰值的强度,对该试剂盒中的所有九个STR基因座进行分析,并且次峰值的存在用于提供胎儿DNA的证据。在不存在可以识别的微量STR情况下,用具有15种单核苷酸多态性(SNP)的SNP小组检查样品的等分试样,其中从Kidd等人的小组选择,平均杂合度≥0.4(Kidd等人,ForensicSciInt164(1):20-32[2006])。可以用于检测和/或量化母体样品中的胎儿DNA的等位基因特异性方法描述于美国专利公布20120010085、20110224087和20110201507,所述美国专利公布通过引用结合到本文中。
归一化的染色体值(NCV)是通过如上所述计算所有常染色体和性染色体的所有可能的分母排列来确定,然而,因为该研究中的测序是在与我们先前用多样品/泳道工作不同的仪器上进行,所以不得不确定新的归一化染色体分母。当前研究中的归一化染色体分母是基于在分析研究样品之前对具有110个独立的(即,不是来自MELISSA合格样品)未被累及的样品(即,合格样品)的训练集进行测序而确定。新的归一化染色体分母是通过计算所有常染色体和性染色体的所有可能的分母排列来确定,从而针对整个基因组的所有染色体将未被累及的训练集的变异最小化(表8)。
适用于提供各试验样品的常染色体分类的NCV规则是以上描述的那些。为了对常染色体的非整倍性状态进行分类,需要NCV>4.0才能将染色体归类为被累及的(即,对于该染色体为非整倍体的);以及NCV<2.5才能将染色体归类为未被累及的。常染色体具有介于2.5和4.0之间的NCV的样品被命名为“未被分类的”。
在本试验中,性染色体的分类是通过对于X和Y二者均按如下内容相继应用NCV来进行的:
1.如果NCVX<-4.0并且NCVY<2.5,那么该样品被归类为X单体。
2.如果NCVX>-2.5并且NCVX<2.5并且NCVY<2.5,那么该样品被归类为女性(XX)。
3.如果NCVX>4.0并且NCVY<2.5,那么该样品被归类为XXX。
4.如果NCVX>-2.5并且NCVX<2.5并且NCVY>33,那么该样品被归类为XXY。
5.如果NCVX<-4.0并且NCVY>4.0,那么该样品被归类为男性(XY)。
6.如果满足条件5,但是NCVY为大于所测量的NCVX值预期的近似2倍,那么该样品被归类为XYY。
7.如果染色体X和YNCV不符合以上标准中的任一项,那么该样品被归类为对于性别是“未被分类的”。
因为实验室对于临床信息都是盲的,所以测序结果对于以下人口统计变量中的任何一个不作调整:母体体重指数、吸烟状态、糖尿病的存在、受孕的类型(自然或辅助)、先前怀孕、先前非整倍性或孕龄。母亲和父亲样品都不用于分类,根据本发明方法所述的分类不依赖于特定基因座或等位基因的测量值。
在揭盲和分析之前,将测序结果送还给独立的签约生物统计学家。在研究站点的人员、CRO(包括产生随机采样列表的生物统计学家)和签约细胞遗传学家对测序结果为盲。
表8.针对所有染色体的系统性确定的归一化染色体序列
统计学方法记录在该研究的详细统计学分析计划中。针对六种分析类别中的每一种,使用克洛珀-皮尔逊(Clopper-Pearson)方法计算灵敏度和特异性的点估计值以及准确的95%置信区间。对于所进行的所有统计学估计程序,去掉未检测到胎儿DNA的样品、‘被检查过的’复杂核型的样品(根据方案定义的约定)或通过测序试验‘未被分类的’样品。
结果
在2010年6月和2011年8月之间,该研究中共登记了2,882名孕妇。有资格的受试者和所选择的群组的特征在表9中给出。登记并且提供血液,但是后来发现在数据监测期间超过纳入标准并且在登记时的实际孕龄超过22周0天的受试者被允许保留在该研究中(n=22)。这些样品中有三个是在所选择的组中。图20显示样品在登记和分析之间的流程。有2,625个样品对于选择是有资格的。
表9.患者人口统计学
*在有创性手术时间的GA。
**具有异常核型的胎儿中超声波异常的穿透率更高。
缩写:BMI–体重指数,IUGR–胎儿宫内生长迟缓。
根据随机抽样计划,选择具有异常核型的所有有资格的受试者以及怀有整倍体胎儿的一组受试者用于分析(图20B),以便总测序研究群体针对21三体产生近似地为4:1的未被累及的:被累及的受试者的比率。从这个过程中选出了534名受试者。随后由于样品跟踪问题从分析中去掉两个样品,其中在样品管和数据获取之间整个保管链未通过质量审核(图20)。由此产生由60个研究站点中的53个所贡献的532名受试者以供分析。所选择的群组的人口统计与总体群组相似。
试验性能
图21A-21C显示染色体21、18和13的非整倍性分析的流程图,并且图21D-21F显示性别分析流程图。表12显示对于六种分析中的每一种的灵敏度、特异性和置信区间,并且图22、图23和图24显示根据测序后的NCV的图解样品分布。在分析的所有6个类别中,16个样品(3.0%)由于未检测到胎儿DNA而被去掉。在揭盲后,这些样品不存在可辨别的临床特征。对于各类别的被检查过的核型的数目取决于待分析的状况(在图22中有全面详细说明)。
用于检测分析群体(n=493)中的T21的方法的灵敏度和特异性分别为100%(95%CI=95.9,100.0)和100%(95%CI=99.1,100.0)(表12和图21A)。这包括对以下的正确分类:一种复杂的T21核型47,XX,inv(7)(p22q32),+21和两种由罗伯逊易位(Robertsoniantranslocations)所致的易位T21,其中一种就X单体而言还是嵌合性的(45,X,+21,der(14;21)q10;q10)[4]/46,XY,+21,der(14;21)q10;q10)[17]和46,XY,+21,der(21;21)q10;q10))。
用于检测分析群体(n=496)中的T18的灵敏度和特异性分别为97.2%(85.5,99.9)和100%(99.2,100.0)(表12和图21B)。虽然被从初步分析检查过(按照方案),但是就T21和T18而言,具有嵌合性核型的四个样品通过本公开的方法全都正确地分类为对于非整倍性是‘被累及的’(表10)。因为它们被正确地检测出来,所以它们在图21A和图21B的左侧被指出。所有其余的被检查过的样品都被正确地分类为对于21、18和13三体是未被累及的(表10)。检测这个分析群体中的T13的灵敏度和特异性分别为78.6%(49.2,99.9)和100%(99.2,100.0)(图21C)。被检测到的一个T13病例由罗伯逊易位(46,XY,+13,der(13;13)q10;q10)引起。在染色体21分析中有七个未被分类的样品(1.4%),在染色体18分析中有五个(1.0%),并且在染色体13分析中有两个(0.4%)(图21A-21C)。在所有类别中,具有被检查过的核型(69,XXX)和未检测到胎儿DNA的三个样品中有一个重叠。在染色体21分析中的一个未被分类的样品被正确地识别为染色体13分析中的T13,而染色体18分析中的一个未被分类的样品被正确地识别为染色体21分析中的T21。
表10.被检查过的核型
*由于一个细胞系中的标志物染色体而从所有分析类别中排除的受试者。
**核型48,XXY,+18在染色体18分析中未被分类并且未检测到性染色体非整倍性的受试者。
表11.未被检查过的异常和复杂的核型
*在揭盲后,从染色体6中的测序标签中注意到增加的归一化染色体值(NCV)为3.6。
用于确定该方法的性能的性染色体分析群体(女性、男性或X单体)是433人。我们用于将性别状态进行分类的精化算法允许对性染色体非整倍性进行准确的确定,从而获得更高的未被分类的结果数。用于检测二倍体女性状态(XX)的灵敏度和特异性分别为99.6%(95%CI=97.6,>99.9)和99.5%(95%CI=97.2,>99.9);用于检测男性(XY)的灵敏度和特异性均为100%(95%CI=98.0,100.0);和用于检测X单体(45,X)的灵敏度和特异性分别为93.8%(95%CI=69.8,99.8)和99.8%(95%CI=98.7,>99.9)。虽然由分析被检查过(按照方案),但是嵌合性X单体核型的测序分类如下(表10):2/7被分类为X单体,用Y染色体组分分类的3/7被分类为XY,并且用XX染色体组分分类的2/7被分类为女性。被分类为X单体的两个样品具有47,XXX和46,XX的核型。对于核型47,XXX、47,XXY和47,XYY的十分之八的性染色体非整倍性被正确地分类(表10)。如果性染色体分类已经局限于X单体、XY和XX,那么将能够把大部分未被分类的样品正确地分类为男性,但是将不能够识别出XXY和XYY性非整倍性。
除了对21、18、13三体和性别进行准确地分类之外,测序结果还能将两个样品(47,XX,+16和47,XX,+20)中针对染色体16和20的非整倍性正确地分类(表11)。令人感兴趣的是,具有染色体6的长臂(6q)和两个复制(其中一个在大小上为37.5Mb)的临床上复杂的变化的一个样品显示染色体6中的测序标签导致NCV增加(NCV=3.6)。在另一个样品中,根据本文公开的方法检测到染色体2的非整倍性,但在羊膜穿刺时的胎儿核型中并未观测到(46,XX)。表10和表11中所显示的其他复杂核型变异体包括来自具有染色体倒位、缺失、易位、三倍性以及此处未检测到的其他异常的胎儿的样品,但是可能使用本公开的方法在更高的测序密度下和/或在进一步算法优化下进行分类。在这些情况下,该方法可将这些样品正确地分类为就21、18或13三体而言未被累及的以及男性或女性。
在本研究中,38/532经过分析的样品是来自接受辅助生殖的妇女,在这些样品中,17/38的样品具有染色体异常;在该亚群体中未检测到假阳性或假阴性。
表12.该方法的灵敏度和特异性
讨论
这项由母体血浆确定整个染色体胎儿非整倍性的前瞻性研究是设计用来模拟现实世界中样品收集、处理和分析的情形。在登记站点获得全血样品,不需要立即处理,并且连夜运输到测序实验室。与先前仅涉及染色体21的前瞻性研究(Palomaki等人,GeneticsinMedicine2011:1)相反,在本研究中,对具有任何异常核型的所有合格样品进行测序和分析。测序实验室事先不知道哪些胎儿染色体可能被累及,并且也不知道非整倍体样品与整倍体样品的比率。该研究设计招募了高风险研究孕妇人群来确保统计学上显著的非整倍性流行率,并且表10和表11指出了所分析的核型的复杂性。结果证明:i)可在高灵敏度和高特异性下检测胎儿非整倍性(包括由易位三体性、嵌合性和复杂变异所致的那些),和ii)一个染色体中的非整倍性不影响本文公开的方法用于正确地识别其他染色体的整倍体状态的能力。先前研究中所利用的算法似乎是不能够有效地确定将不可避免地存在于一般临床人群中的其他非整倍性(Erich等人,AmJObstetGynecol2011Mar;204(3):205e1-11,Chiu等人,BMJ2011;342:c7401)。
关于嵌合性,本研究中对测序信息的分析能够正确地对4/4的被累及的样品中针对染色体21和18具有嵌合性核型的样品进行分类。这些结果证明用于检测复杂混合物中的无细胞DNA的特定特征的分析的灵敏度。在一个病例中,针对染色体2的测序数据指出完整的或部分的染色体非整倍性,而针对染色体2的羊膜穿刺核型结果是二倍体。在两个其他实例(一个样品具有47,XXX核型,而另一个具有46,XX核型)中,本发明的方法将这些样品分类为X单体。有可能这些都是嵌合性病例,或者孕妇自身是嵌合性的。(重要的是应该记住,测序是对总DNA进行的,该总DNA是母体和胎儿DNA的组合)。虽然由有创性手术对羊膜细胞或绒毛进行细胞遗传学分析当前是非整倍性分类的参照标准,但对有限数目的细胞进行的核型不能够排除低水平嵌合性。当前的临床研究设计不包括长期婴儿随访或在分娩时接触胎盘组织,因此我们无法确定这些是真的还是假的阳性结果。我们推测,与标准核型确定相比,测序过程的特异性与根据用于检测整个基因组变异的本发明方法加以优化的算法组合最终提供对胎儿DNA异常的更灵敏的识别,特别是在嵌合性的情况下。
国际产前诊断学会(TheInternationalSocietyforPrenatalDiagnosis)已发表了对大规模平行测序(MPS)用于唐氏综合征(Downsyndrome)产前检测的可供商业使用性进行评论的快速反应声明(RapidResponseStatement)(Benn等人,PrenatDiagn2012doi:10.1002/pd.2919)。他们声明,在引入针对胎儿唐氏综合征的基于常规MPS的群体筛查之前,需要在一些亚群体中进行测试的证据,例如在通过体外受精怀孕的妇女中。此处报告的结果提示,本方法在该孕妇群组中是准确的,其中多人存在较高非整倍性风险。
虽然这些结果证明了利用经过优化的算法的本方法用于对来自非整倍性风险增加的妇女的单胎妊娠中的整个基因组进行非整倍体检测时的优良性能,但是当流行率较低并且是多胎妊娠时,特别是在低风险群体中,需要更多经验来建立对该方法的诊断性能的可信程度。在临床实施的早期阶段,应在阳性妊娠第一或第二个三月期筛查结果之后根据本方法使用测序信息对染色体21、18和13进行分类。由此将减少由假阳性筛查结果所致的不必要的有创性手术,同时伴随着与不良事件相关的手术减少。有创性手术可能局限于证实由测序得到的阳性结果。然而,存在孕妇想要避免有创性手术的临床情形(例如,母亲高龄和不育症);他们可能请求该测试作为初步筛查和/或有创性手术的替代方案。所有的患者都应该接受充分的测试前咨询以确保他们了解测试的限制和结果的意义。随着利用更多样品进行经验积累,该测试有可能将替代当前的筛查方案并且变成初步筛查,并且最终变成胎儿非整倍性的无创性诊断性试验。

Claims (26)

1.用于评估试验样品中的Y染色体的拷贝数方法,其在包括一个或多个处理器和系统存储器的计算机系统上实现,,该方法包括:
在计算机系统上提供包含由第一组多个女性个体的核酸样品所测得的基因组读数的训练集;
通过计算机系统将该训练集的每个个体至少约100,000个基因组读数与包含Y-染色体的参考序列的参考基因组进行比对,从而提供包含被比对的基因组读数和它们在Y染色体的参考序列上的位置的训练序列标签;
通过计算机系统将Y染色体的参考序列划分成多个单元;
通过计算机系统确定定位于各单元中的训练序列标签的计数;
通过计算机系统掩蔽超过掩蔽阈值的单元,所述掩蔽阈值基于各单元中的训练序列标签的计数,从而提供Y染色体的被掩蔽的参考序列用于评估试验样品中的Y染色体的拷贝数。
2.权利要求1的方法,其中所述试验样品包含胎儿和母体无细胞核酸。
3.权利要求2的方法,还包括:
使用测序仪对来自包含胎儿和母体无细胞核酸的试验样品的无细胞核酸进行测序,从而产生试验样品的基因组读数;和
通过计算机系统将试验样品的基因组读数与参考序列进行比对,从而提供包含被比对的基因组读数及其位置的测试序列标签。
4.权利要求3的方法,还包括:
通过计算机系统测量Y染色体的被掩蔽的参考序列上的测试序列标签的计数;
基于Y染色体的被掩蔽的参考序列上的测试序列标签的计数,通过计算机系统评估试验样品中的Y染色体的拷贝数。
5.权利要求4的方法,其中所述评估试验样品中的Y染色体的拷贝数包括:
由Y染色体的被掩蔽的参考序列上的测试序列标签的计数计算染色体剂量;和
基于来自对照样品的染色体剂量和数据,评估试验样品中的Y染色体的拷贝数。
6.权利要求5的方法,其中所述染色体剂量经计算为(a)在Y染色体的被掩蔽的参考序列上的测试序列标签的覆盖度和(b)一个或多个归一化序列的覆盖度之间的比率。
7.权利要求5的方法,还包括:
由来自对照样品的染色体剂量和数据计算归一化染色体值;和
基于归一化染色体值评估试验样品中的Y染色体的拷贝数。
8.权利要求4的方法,其中所述评估试验样品中的Y染色体的拷贝数包括确定胎儿无细胞核酸的基因组中的Y染色体的存在或不存在。
9.权利要求4的方法,其中所述评估试验样品中的Y染色体的拷贝数包括确定至少一个胎儿非整倍性的存在或不存在。
10.权利要求1的方法,其中所述掩蔽阈值通过以下步骤来确定:
在计算机系统上提供两个或两个以上掩蔽阈值候选者;
通过计算机系统掩蔽超过掩蔽阈值候选者的单元,从而提供两个或两个以上被掩蔽的参考序列;
基于两个或两个以上被掩蔽的参考序列中的每一个,通过计算机系统计算阈值评估指数,用于评估感兴趣的遗传序列的拷贝数;和
在计算机系统上选择具有最高阈值评估指数的候选者作为掩蔽阈值。
11.权利要求10的方法,其中计算所述阈值评估指数包括对于(a)与训练集的女性个体不同的女性个体和(b)已知具有Y染色体的男性个体的核酸样品,评估Y染色体的拷贝数。
12.权利要求11的方法,其中所述阈值评估指数经计算为(a)和(b)的平均值之间的差值除以(a)的标准偏差。
13.权利要求1的方法,其中所述多个单元中的每一个的大小通过以下步骤来确定:
通过计算机系统将Y染色体的参考序列划分成候选单元大小的多个单元;
通过计算机系统计算基于候选单元大小的单元评估指数;
在计算机系统上使用不同的候选单元大小迭代地重复本项权利要求的前述步骤,从而得出两个或两个以上不同的评估指数;和
在计算机系统上选择候选单元大小,得出最高单元评估指数作为单元的大小。
14.权利要求1的方法,其中所述训练集的女性个体具有多样化比对分布型,其特征为基因组读数在Y染色体的参考序列上的不同分布。
15.权利要求14的方法,其中所述提供训练集包括将第二组多个女性个体划分成两个或两个以上聚类并且在两个或两个以上聚类中的每一个中选择多个个体以形成第一组多个女性个体。
16.权利要求15的方法,其中在两个或两个以上聚类中的每一个中选择多个个体包括在两个或两个以上聚类中的每一个中选择相等数目的个体。
17.权利要求15的方法,其中所述将第二组多个女性个体划分成两个或两个以上聚类包括分层有序分区和倍数混合(HOPACH)聚类。
18.权利要求1的方法,其中所述基因组读数包含来自个体的完整基因组的任何位置的约20至50-bp的序列。
19.权利要求1的方法,其中所述单元大小为小于约2000bp。
20.权利要求1的方法,其中所述掩蔽阈值为序列标签计数的至少约第90百分位。
21.权利要求1的方法,其中该方法包括通过计算机系统将每训练集的个体至少约10,000个基因组读数与Y-染色体的参考序列进行比对。
22.用于评估试验样品中的感兴趣的遗传序列的拷贝数的系统,该系统包括:
测序仪,用于接收来自试验样品的核酸以提供来自该样品的核酸序列信息;
处理器;和
一个或多个计算机可读存储介质,其上已存储用于在所述处理器上执行的指令,以使用权利要求1的方法获得的被掩蔽的参考序列来评估试验样品中的拷贝数。
23.用于评估试验样品中的感兴趣的遗传序列的拷贝数的系统,该系统包含:
测序仪,用于接收来自试验样品的核酸以提供来自该样品的核酸序列信息;
处理器;和
一个或多个计算机可读存储介质,其上已存储用于在所述处理器上执行的指令,以使用通过掩体过滤的Y染色体的参考序列来评估试验样品中的Y染色体的拷贝数,
其中
所述掩体包含在Y染色体的参考序列上的规定大小的单元,
所述单元具有超过阈值数的与其比对的训练序列标签,和
所述训练序列标签包含与Y染色体的参考序列进行比对的来自第一组多个女性个体的基因组读数。
24.权利要求23的系统,其中所述第一组多个女性个体具有多样化比对分布型,其特征为与Y染色体的参考序列进行比对的基因组读数的不同分布。
25.权利要求24的系统,其中所述第一组多个女性个体通过将第二组多个女性个体划分成两个或两个以上聚类并且在两个或两个以上聚类中的每一个中选择相等数目的个体作为第一组多个女性个体的成员而选择。
26.计算机程序产品,包含一个或多个计算机可读的非暂时性的存储介质,其上已存储计算机可执行指令,当由计算机系统的一个或多个处理器执行该指令时,引起该计算机系统实现用于评估包含胎儿和母体无细胞核酸的试验样品中的Y染色体的拷贝数的方法,该方法包括:
在计算机系统上提供包含由第一组多个女性个体的核酸样品所测得的基因组读数的训练集;
通过计算机系统将训练集的每个个体至少约100,000个基因组读数与Y-染色体的参考序列进行比对,从而提供包含被比对的基因组读数和它们在Y染色体的参考序列上的位置的训练序列标签;
通过计算机系统将Y染色体的参考序列划分成规定大小的单元;
通过计算机系统确定定位于各单元中的训练序列标签的计数;
通过计算机系统掩蔽超过掩蔽阈值的单元,所述掩蔽阈值基于各单元中的训练序列标签的计数,从而提供Y染色体的被掩蔽的参考序列用于评估包含胎儿和母体无细胞核酸的试验样品中的Y染色体的拷贝数。
CN201480045591.2A 2013-06-17 2014-06-17 用于确定性染色体中的拷贝数变异的方法 Active CN105722994B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361836057P 2013-06-17 2013-06-17
US61/836,057 2013-06-17
PCT/US2014/042785 WO2014204991A1 (en) 2013-06-17 2014-06-17 Method for determining copy number variations in sex chromosomes

Publications (2)

Publication Number Publication Date
CN105722994A true CN105722994A (zh) 2016-06-29
CN105722994B CN105722994B (zh) 2020-12-18

Family

ID=51205579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480045591.2A Active CN105722994B (zh) 2013-06-17 2014-06-17 用于确定性染色体中的拷贝数变异的方法

Country Status (9)

Country Link
US (1) US20140371078A1 (zh)
EP (2) EP3011052B1 (zh)
JP (2) JP6521956B2 (zh)
CN (1) CN105722994B (zh)
AU (1) AU2014281635B2 (zh)
CA (1) CA2915626A1 (zh)
HK (1) HK1223988A1 (zh)
IL (1) IL242956B (zh)
WO (1) WO2014204991A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845154A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN107119145A (zh) * 2017-07-13 2017-09-01 深圳瑞科生物科技有限公司 一种基于ddPCR定量检测ctDNA的方法
CN109390039A (zh) * 2017-08-11 2019-02-26 深圳华大基因股份有限公司 一种统计dna拷贝数信息的方法、装置及存储介质
CN109689891A (zh) * 2016-07-06 2019-04-26 夸登特健康公司 用于无细胞核酸的片段组谱分析的方法
CN110024035A (zh) * 2016-09-22 2019-07-16 Illumina公司 体细胞拷贝数变化检测
CN110534202A (zh) * 2019-08-21 2019-12-03 江南大学附属医院(无锡市第四人民医院) 一种针对Sox10在三阴性乳腺癌中的表达进行分析的系统
CN111052249A (zh) * 2017-09-15 2020-04-21 深圳华大智造科技有限公司 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN111755066A (zh) * 2019-03-27 2020-10-09 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN113409885A (zh) * 2021-06-21 2021-09-17 天津金域医学检验实验室有限公司 一种自动化数据处理以及作图方法及系统
CN113795887A (zh) * 2019-03-10 2021-12-14 阿尔缇玛基因组学公司 用于序列判定的方法和系统
CN114420208A (zh) * 2022-02-28 2022-04-29 上海亿康医学检验所有限公司 一种用于鉴定核酸样本中cnv的方法和装置
CN115273984A (zh) * 2022-09-30 2022-11-01 北京诺禾致源科技股份有限公司 鉴定基因组串联重复区域的方法及装置
CN115394359A (zh) * 2022-10-27 2022-11-25 北京大学第三医院(北京大学第三临床医学院) 一种鉴定人类胚胎细胞染色体变异的方法及应用

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102373647B1 (ko) * 2013-10-21 2022-03-11 베리나타 헬스, 인코포레이티드 사본수 변동을 결정함에 있어서 검출의 감수성을 향상시키기 위한 방법
EP3502273B1 (en) 2014-12-12 2020-07-08 Verinata Health, Inc. Cell-free dna fragment
CN107111693A (zh) * 2014-12-29 2017-08-29 考希尔股份有限公司 用于确定高同源性区域中的基因型的方法
WO2016179530A1 (en) * 2015-05-06 2016-11-10 Seracare Life Sciences, Inc. Liposomal preparations for non-invasive-prenatal or cancer screening
JP2019500901A (ja) * 2015-12-04 2019-01-17 グリーン クロス ゲノム コーポレーションGreen Cross Genome Corporation 核酸の混合物を含むサンプルでコピー数異常を決定する方法
EP3408376A1 (en) 2016-01-31 2018-12-05 Hadasit Medical Research Services and Development Ltd. Autosomal-identical pluripotent stem cell populations having non-identical sex chromosomal composition and uses thereof
US10095831B2 (en) * 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
EP3497218B1 (en) * 2016-08-08 2022-03-16 Karius, Inc. Reduction of signal from contaminant nucleic acids
TWI603082B (zh) * 2016-09-30 2017-10-21 有勁生物科技股份有限公司 非侵入式胎兒性徵異常檢測系統及其方法與非侵入式胎兒性徵檢測系統及其方法
IL266654B2 (en) * 2016-11-17 2024-03-01 Lgc Clinical Diagnostics Inc Methods for preparing reference material for DNA and controls
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
CN108427864B (zh) * 2018-02-14 2019-01-29 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
US20190295684A1 (en) * 2018-03-22 2019-09-26 The Regents Of The University Of Michigan Method and apparatus for analysis of chromatin interaction data
CN112888459B (zh) * 2018-06-01 2023-05-23 格里尔公司 卷积神经网络系统及数据分类方法
CN109136371B (zh) * 2018-07-25 2019-11-01 南京世和基因生物技术有限公司 一种放疗疗效和毒性反应相关基因组合、检测探针库以及检测试剂盒
KR102405245B1 (ko) * 2018-07-27 2022-06-07 주식회사 지씨지놈 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
IL298458A (en) 2020-05-22 2023-01-01 Aqtual Inc Methods for characterizing cell-free nucleic acid fragments

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060088836A1 (en) * 2002-04-24 2006-04-27 Jay Wohlgemuth Methods and compositions for diagnosing and monitoring transplant rejection
WO2011050341A1 (en) * 2009-10-22 2011-04-28 National Center For Genome Resources Methods and systems for medical sequencing analysis
WO2012006291A2 (en) * 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation
WO2012019198A2 (en) * 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Assay systems for genetic analysis
CN102439167A (zh) * 2008-06-20 2012-05-02 加的夫大学学院咨询有限公司 通过竞争pcr测定dna拷贝数目的方法
US20130029852A1 (en) * 2010-01-19 2013-01-31 Verinata Health, Inc. Detecting and classifying copy number variation
CN103003447A (zh) * 2011-07-26 2013-03-27 维里纳塔健康公司 用于确定样品中存在或不存在不同非整倍性的方法
US20130103320A1 (en) * 2011-10-11 2013-04-25 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2668818C (en) 2006-10-10 2018-06-26 Xenomics, Inc. Compositions, methods and kits for isolating nucleic acids from body fluids using anion exchange media
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US20100331195A1 (en) 2007-10-04 2010-12-30 William Andregg Sequencing Nucleic Acid Polymers with Electron Microscopy
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
EP2366031B1 (en) 2010-01-19 2015-01-21 Verinata Health, Inc Sequencing methods in prenatal diagnoses
JP6153874B2 (ja) * 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
US9538439B2 (en) * 2013-05-10 2017-01-03 Qualcomm Incorporated Method and apparatus for estimating an achievable link throughput based on assistance information

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060088836A1 (en) * 2002-04-24 2006-04-27 Jay Wohlgemuth Methods and compositions for diagnosing and monitoring transplant rejection
CN102439167A (zh) * 2008-06-20 2012-05-02 加的夫大学学院咨询有限公司 通过竞争pcr测定dna拷贝数目的方法
WO2011050341A1 (en) * 2009-10-22 2011-04-28 National Center For Genome Resources Methods and systems for medical sequencing analysis
US20130029852A1 (en) * 2010-01-19 2013-01-31 Verinata Health, Inc. Detecting and classifying copy number variation
WO2012006291A2 (en) * 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation
WO2012019198A2 (en) * 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Assay systems for genetic analysis
CN103003447A (zh) * 2011-07-26 2013-03-27 维里纳塔健康公司 用于确定样品中存在或不存在不同非整倍性的方法
US20130103320A1 (en) * 2011-10-11 2013-04-25 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EVANGELOS BELLOS: "cnvHiTSeq:integrative model for high-resolution copy number variation detection and genotyping using population sequencing data"", 《GENOME BIOLOGY》 *
MENACHEM FROMER: ""Discovery and statistical genotyping of copy-number variation from whole-exome sequencing depth"", 《THE AMERICAN JOURNAL OF HUMAN GENETICS》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109689891A (zh) * 2016-07-06 2019-04-26 夸登特健康公司 用于无细胞核酸的片段组谱分析的方法
CN110024035A (zh) * 2016-09-22 2019-07-16 Illumina公司 体细胞拷贝数变化检测
CN110024035B (zh) * 2016-09-22 2023-11-14 Illumina公司 体细胞拷贝数变化检测
CN106845154A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN106845154B (zh) * 2016-12-29 2022-04-08 浙江安诺优达生物科技有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN107119145A (zh) * 2017-07-13 2017-09-01 深圳瑞科生物科技有限公司 一种基于ddPCR定量检测ctDNA的方法
CN109390039A (zh) * 2017-08-11 2019-02-26 深圳华大基因股份有限公司 一种统计dna拷贝数信息的方法、装置及存储介质
CN111052249A (zh) * 2017-09-15 2020-04-21 深圳华大智造科技有限公司 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN111052249B (zh) * 2017-09-15 2024-04-05 深圳华大智造科技股份有限公司 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN113795887A (zh) * 2019-03-10 2021-12-14 阿尔缇玛基因组学公司 用于序列判定的方法和系统
CN111755066B (zh) * 2019-03-27 2022-10-18 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN111755066A (zh) * 2019-03-27 2020-10-09 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN110534202A (zh) * 2019-08-21 2019-12-03 江南大学附属医院(无锡市第四人民医院) 一种针对Sox10在三阴性乳腺癌中的表达进行分析的系统
CN113409885B (zh) * 2021-06-21 2022-09-20 天津金域医学检验实验室有限公司 一种自动化数据处理以及作图方法及系统
CN113409885A (zh) * 2021-06-21 2021-09-17 天津金域医学检验实验室有限公司 一种自动化数据处理以及作图方法及系统
CN114420208B (zh) * 2022-02-28 2023-04-18 上海亿康医学检验所有限公司 一种用于鉴定核酸样本中cnv的方法和装置
CN114420208A (zh) * 2022-02-28 2022-04-29 上海亿康医学检验所有限公司 一种用于鉴定核酸样本中cnv的方法和装置
CN115273984A (zh) * 2022-09-30 2022-11-01 北京诺禾致源科技股份有限公司 鉴定基因组串联重复区域的方法及装置
CN115273984B (zh) * 2022-09-30 2022-11-29 北京诺禾致源科技股份有限公司 鉴定基因组串联重复区域的方法及装置
CN115394359A (zh) * 2022-10-27 2022-11-25 北京大学第三医院(北京大学第三临床医学院) 一种鉴定人类胚胎细胞染色体变异的方法及应用

Also Published As

Publication number Publication date
JP7021148B2 (ja) 2022-02-16
EP3543354B1 (en) 2022-01-19
IL242956B (en) 2019-10-31
AU2014281635A1 (en) 2016-02-11
EP3543354A1 (en) 2019-09-25
CA2915626A1 (en) 2014-12-24
JP2016526380A (ja) 2016-09-05
EP3011052B1 (en) 2019-05-22
CN105722994B (zh) 2020-12-18
US20140371078A1 (en) 2014-12-18
HK1223988A1 (zh) 2017-08-11
JP6521956B2 (ja) 2019-05-29
AU2014281635B2 (en) 2020-05-28
JP2019153332A (ja) 2019-09-12
WO2014204991A1 (en) 2014-12-24
EP3011052A1 (en) 2016-04-27

Similar Documents

Publication Publication Date Title
CN105722994A (zh) 用于确定性染色体中的拷贝数变异的方法
US11629378B2 (en) Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA
CN105830077B (zh) 用于在确定拷贝数变异中改善检测的灵敏度的方法
CN106795558B (zh) 检测胎儿亚染色体非整倍性和拷贝数变异
CN107077537A (zh) 用短读测序数据检测重复扩增
CN108138227A (zh) 使用具有独特分子索引(umi)的冗余读段在测序dna片段中抑制误差
CN110800063A (zh) 使用无细胞dna片段大小检测肿瘤相关变体
CN103003447A (zh) 用于确定样品中存在或不存在不同非整倍性的方法
CN108485940A (zh) 拷贝数变异的检测和分类
CN102985561B (zh) 用于确定并且验证常见的和罕见的染色体非整倍性的归一化染色体
KR20210071983A (ko) 임산부로부터 분리된 순환 페탈 세포가 현재 또는 과거의 임신의 것인지 확인하는 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant