CN106795558B - 检测胎儿亚染色体非整倍性和拷贝数变异 - Google Patents

检测胎儿亚染色体非整倍性和拷贝数变异 Download PDF

Info

Publication number
CN106795558B
CN106795558B CN201580041925.3A CN201580041925A CN106795558B CN 106795558 B CN106795558 B CN 106795558B CN 201580041925 A CN201580041925 A CN 201580041925A CN 106795558 B CN106795558 B CN 106795558B
Authority
CN
China
Prior art keywords
sequence
coverage
sample
bins
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580041925.3A
Other languages
English (en)
Other versions
CN106795558A (zh
Inventor
D·I·楚多瓦
D·阿卜杜瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Verinata Health Inc
Original Assignee
Verinata Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US201462005877P priority Critical
Priority to US62/005,877 priority
Application filed by Verinata Health Inc filed Critical Verinata Health Inc
Priority to PCT/US2015/033403 priority patent/WO2015184404A1/en
Publication of CN106795558A publication Critical patent/CN106795558A/zh
Application granted granted Critical
Publication of CN106795558B publication Critical patent/CN106795558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/16Assays for determining copy number or wherein the copy number is of special importance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Abstract

公开了用于确定已知或疑似与多种医学病症,包括与亚染色体区的拷贝数变异(CNV)相关的综合征相关的CNV的方法。在一些实施方式中,提供方法用于使用包括母体和胎儿无细胞DNA的母体样品确定胎儿CNV。本文所述的一些实施方式提供方法通过去除样品内GC‑含量偏差来改善序列数据分析的灵敏度和/或特异性。在一些实施方式中,基于针对未受影响的训练组样品间共同的系统变异校正的序列数据去除样品内GC‑含量偏差。在一些实施方式中,也去除样品数据中的综合征相关偏差以增加信噪比。还公开了用于对感兴趣序列的CNV进行评价的系统。

Description

检测胎儿亚染色体非整倍性和拷贝数变异
相关申请的交叉引用
本申请按照35U.S.C.§119(e)要求2014年5月30日提交的题为检测胎儿亚染色体非整倍性的美国临时专利申请号62/005,877的权益,其通过引用全文纳入本文用于所有目的。
背景技术
人类医学研究中的关键努力之一是发现产生不利健康结果的遗传异常。在许多情况中,在存在异常拷贝数的基因组的部分中已经鉴定到特定基因和/或关键诊断标记物。例如,在产前诊断中,全染色体的额外或缺失拷贝是常发生的遗传损伤。在癌症中,全染色体或染色体区段的拷贝数的缺失或倍增,和基因组的特定区域中较高水平扩增是通常发生的。
已经通过细胞遗传学分辨提供关于拷贝数变异(CNV)的大部分信息,细胞遗传学分辨已经能够识别结构异常。遗传筛选和生物学放射量测定的常规过程已采用侵入性过程,例如,羊膜穿刺术、脐穿刺术或绒膜绒毛取样(CVS)以获得用于核型分析的细胞。认识到对不需要细胞培养的更快速测试方法的需求,已经开发了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列比较基因组杂交(阵列-CGH)作为拷贝数变异分析的分子-细胞遗传学方法。
人类医学研究中的关键努力之一是发现产生不利健康结果的遗传异常。在许多情况中,在存在异常拷贝数的基因组的部分中已经鉴定到特定基因和/或关键诊断标记物。例如,在产前诊断中,全染色体的额外或缺失拷贝是常发生的遗传损伤。在癌症中,全染色体或染色体区段的拷贝数的缺失或倍增,和基因组的特定区域中较高水平扩增是通常发生的。
已经通过细胞遗传学分辨提供关于拷贝数变异(CNV)的大部分信息,细胞遗传学分辨已经能够识别结构异常。遗传筛选和生物学放射量测定的常规过程已采用侵入性过程,例如,羊膜穿刺术、脐穿刺术或绒膜绒毛取样(CVS)以获得用于核型分析的细胞。认识到对不需要细胞培养的更快速测试方法的需求,已经开发了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列比较基因组杂交(阵列-CGH)作为拷贝数变异分析的分子-细胞遗传学方法。
能在较短时间内对整个基因组进行测序的技术的出现,以及对循环无细胞DNA(cfDNA)的发现已经提供了比较来自一个待比较的基因组的遗传物质与来自另一个基因组的遗传物质而没有与侵入性取样方法相关的风险的机会,其提供了诊断各种类型的感兴趣遗传序列的拷贝数变异的工具。
在一些应用中诊断拷贝数变异(CNV)的技术挑战很高。例如,针对双卵多胎(或多卵)妊娠的CNV的非侵入性产前诊断(NIPD)难于单胎妊娠,因为单胎或多胎妊娠的胎儿cfDNA的总分数是相似的,使cfDNA的胎儿分数按照胎儿数量的量级降低,这进而降低了分析中的信噪比。另外,基于Y染色体的诊断,如性别鉴定受到与Y染色体相关限制的影响。具体地,Y染色体的覆盖率低于常染色体的覆盖率,并且Y染色体上的重复序列使读数与其正确位置的映射复杂化。此外,一些现有的测序方案使用超短读数,如25聚体读数和标签,存在另一种比对挑战,因为25聚体标签比大部分普遍可重复元件的一般尺寸短。本文所示的一些实施方式提供了改善分析用于评价CNV的序列数据中的灵敏度和/或特异性的方法。
所述方法的一些实施方式适于检测全染色体或染色体区段的拷贝数变异。然而,对于涉及较短遗传序列的遗传疾病,现有方法的信噪比可能太低使得难以可靠检测拷贝数变异。例如,许多亚染色体遗传综合征涉及几个兆碱基数量级的序列,限制了分析确定CNV的信号。
非侵入性产前诊断的现有方法的限制,其包括从短综合征相关序列衍生的不充足的灵敏度、限制水平的cfDNA、和从基因组信息的固有性质衍生的技术的测序偏差,构成对会提供灵敏度、特异性和实用性中任意或全部的非侵入方法以可靠诊断多种临床环境中的拷贝数变化的持续需求。本文所述的实施方式满足上述需求中的一些,并且具体提供了在提供可用于实践非侵入性产前诊断的可靠方法上的优势。
发明概述
在各种实施方式中,提供了确定任何胎儿非整倍性的拷贝数变异(CNV),以及已知或怀疑与多种医学病症相关的CNV的方法。该方法包括用于降低与感兴趣CNV不相关的样品间系统性偏差相关的噪音和错误,如基因组序列的GC波动的机制。可按照本发明的方法确定的CNV包括染色体1-22、X和Y中任意一种或多种的三体性和单体性,其他染色体多体性,和任意一种或多种染色体的区段的缺失和/或复制。
一个实施方式提供了鉴定测试样品中感兴趣序列,例如与特定综合征相关的较短区段的拷贝数变异(CNV)的方法。该方法评价了感兴趣序列而非完整染色体或染色体区段的拷贝数变异。
本发明的一个方面提供了评价测试样品中感兴趣序列,包括一个或多个基因组的核酸的拷贝数的方法。感兴趣序列在拷贝数变异与遗传综合征相关的亚染色体基因组区域中。可在包括一个或多个处理器和系统存储器的计算机系统中实施该方法。在一个实施方式中,所述方法涉及:(a)接收通过对测试样品中的无细胞DNA进行测序获得的序列读数;(b)比对测试样品的序列读数与包括感兴趣序列的参考基因组,从而提供测试序列标签,其中参考基因组分割成多个箱(bin);(c)确定包括感兴趣序列的参考基因组中箱的测试序列标签的覆盖率;(d)通过采用从以与测试样品基本相同的方式比对并测序的未受影响的训练样品的训练组的亚组中获得的预期覆盖率调整箱中测试序列标签的覆盖率,并且其中使用发现与感兴趣序列内的箱的覆盖率相关的感兴趣序列外的箱的覆盖率获得预期覆盖率;并且(e)基于来自(d)的经调整的覆盖率评价测试样品中感兴趣序列的拷贝数。
在一些实施方式中,该方法还包括评价测试样品中一个或多个染色体的拷贝数以确定基因组中的一个或多个是否具有染色体非整倍性。在一些实施方式中,在(d)之后进行对一个或多个染色体的拷贝数的评价。在一些实施方式中,该方法还包括,在(d)之前,通过应用从训练组获得的全局波概况调整测试序列标签的覆盖率,其中全局波概况包括在跨训练组平均的参考基因组中箱的覆盖率。在一些实施方式中,该方法还涉及,在(d)之前,基于测试样品的箱间的覆盖率和GC含量水平之间的关系调整测试序列标签的覆盖率。
在一些实施方式中,评价一个或多个染色体的拷贝数涉及计算测试样品的一个或多个染色体各自的序列剂量;其中通过将一个或多个染色体中测试序列标签的测试样品的覆盖率除以标准化序列中测试序列标签的覆盖率来计算序列剂量。在一些实施方式中,该方法还涉及通过将序列剂量除以训练组的序列剂量的标准偏差来获得经标准化的序列值。
在一些实施方式中,(c)中确定箱的覆盖率涉及相对于所有箱的序列标签的总数标准化各箱的标签计数,并且其中在(d)中经调整的覆盖率是经标准化的覆盖率。在一些实施方式中,(d)中使用的感兴趣序列以外的箱是除染色体13、18和21以外的人常染色体中的箱。在一些实施方式中,通过确定感兴趣序列内研究中的箱中覆盖率和感兴趣序列外的箱中覆盖率之间的相关性距离鉴定感兴趣序列外的箱。在一些实施方式中,相关性距离计算为从训练组的样品中产生的箱覆盖率的向量之间的距离。
在一些实施方式中,预期覆盖率通过以下获得:(i)将在感兴趣序列外的箱中覆盖率上彼此相关的训练组间的训练样品鉴定为训练组的亚组,并且(ii)从亚组的箱中的覆盖率获得预期覆盖率。在一些实施方式中,鉴定样品组涉及鉴定所述样品的簇。在一些实施方式中,获得预期覆盖率涉及确定经鉴定的训练样品组的覆盖率的集中趋势。
上述方法的一些实施方式还涉及重复(d)持续多次迭代。各迭代使用来自之前迭代的经调整的覆盖率作为当前迭代中待调整的覆盖率。此外,各迭代采用从所述未受影响的样品的不同亚组中获得的预期覆盖率。
在一些实施方式中,运算(d)中调整箱的测试序列标签的覆盖率涉及:将函数,例如线性函数拟合至数据点,各数据点将预期覆盖率与箱中测试样品的相应覆盖率相关联;并且通过将所述箱中覆盖率应用于该函数来调整感兴趣序列的箱中的覆盖率。在其他实施方式中,运算(d)中调整感兴趣序列的箱中测试序列标签的覆盖率涉及从感兴趣序列的箱的测量覆盖率值中减去预期值。
在一些实施方式中,上述方法还涉及进行分割以确定作为感兴趣序列的综合征特异性区域的起点和终点。
在一些实施方式中,上述方法还涉及进行分割以确定作为感兴趣序列的综合征特异性区域的起点和终点。在一些实施方式中,测试样品包括来自两个不同基因组的核酸的混合物。在一些实施方式中,所述核酸是cfDNA分子。在一些实施方式中,测试样品包括胎儿和母体无细胞核酸。在一些实施方式中,测试样品包括来自相同对象的癌细胞和未受影响的细胞的核酸。在一些实施方式中,该方法还涉及从多个未受影响的个体和/或测试样品中提取无细胞DNA。在一些实施方式中,该方法还涉及使用测序仪对来自测试样品的核酸进行测序,从而生成测试样品的序列读数。在一些实施方式中,序列读数包括来自个体的全基因组中任何位置的约20至50-bp的序列。在一些实施方式中,序列读数包括带条形码的25-聚体。在一些实施方式中,以非排除位点计数(NES计数)提供测试序列标签和训练序列标签的覆盖率。NES计数是映射至非排除位点的非冗余序列标签的数量。在一些实施方式中,或者是映射至非排除位点的唯一对齐的非冗余序列标签的数量。
对于任意上述方法,在一些实施方式中,箱尺寸为约1000bp至1,000,000bp,或者为约100,000bp。在一些实施方式中,该方法还涉及通过使用测试样品的序列读数数量的计算确定箱尺寸。在一些实施方式中,遗传综合征选自下组:1p36缺失综合征、Wolf-Hirschhorn综合征、猫叫综合征、安格尔曼综合征、威廉姆斯综合征、和迪格奥尔格综合征。
对于任意上述方法,在一些实施方式中,通过初始多重测序获得测序读数,还涉及:鉴定具有高于第一阈值的判定综合征类别或拷贝数变异的第一值的测试样品;在比初始多重测序更深的深度下对鉴定的测试样品进行再测序以获得再测序的数据;并且使用再测序的数据确定综合征类别或拷贝数变异。在一些实施方式中,使用再测序的数据确定综合征类别或拷贝数变异涉及:从再测序的数据中获得判定综合征类型或拷贝数变异的第二值;并且比较第二值与第二阈值,其中第二阈值高于第一阈值。在一些实施方式中,鉴定的测试样品具有低于预设值的第一值,其中预设值高于第一阈值,并且其中低于第一阈值的样品被确定为未受影响的,高于预设值的样品被确定为受影响的,并且第一阈值至预设值范围的样品被鉴定用于再测序。在一些实施方式中,与已知未受影响的样品相比,鉴定的测试样品的第一值较低。在一些实施方式中,鉴定的测试样品的第一值低于90%的已知受影响的样品。
本发明的另一个方面提供了鉴定用于调整测试样品(包括一个或多个基因组的核酸)中箱覆盖率的预期覆盖率的方法。在一些实施方式中,该方法涉及:(a)从以与测试样品基本相同方式测序和比对的未受影响的训练样品的训练组获得数据;并且(b)使用感兴趣序列外的箱的覆盖率确定预期覆盖率,其中感兴趣序列外的箱的覆盖率与感兴趣序列内的箱的覆盖率相关,并且其中感兴趣序列是亚染色体基因组区域,其拷贝数变异与遗传综合征相关。在一些实施方式中,(d)中使用的感兴趣序列以外的箱是除染色体13、18和21以外的人常染色体中的箱。在一些实施方式中,对于各训练样品,该方法还涉及:(i)接收通过对训练样品中无细胞DNA进行测序获得的序列读数;(ii)比对训练样品的徐序列读数与包括感兴趣序列的参考基因组,从而提供训练序列标签,其中参考基因组被分成多个箱;并且(iii)确定参考基因组中箱的训练序列标签的覆盖率,包括感兴趣序列。在一些实施方式中,(iii)中确定箱的覆盖率包括相对于所有箱的序列标签的总数标准化各箱的标签计数,并且其中在(b)中预期覆盖率是经标准化的覆盖率。
在一些实施方式中,该方法还涉及通过确定感兴趣序列内研究中的箱中的覆盖率和感兴趣序列外的箱中的覆盖率之间的相关性距离鉴定具有与感兴趣序列内的箱中的覆盖率相关的覆盖率的感兴趣序列外的箱。在一些实施方式中,相关性距离计算为从训练组的样品中产生的箱覆盖率的向量之间的距离。
在一些实施方式中,在上述方法的(b)中,使用感兴趣序列外的箱的覆盖率确定预期覆盖率涉及:(i)从未受影响的训练样品的训练组鉴定训练亚组,其中训练亚组的样品在其感兴趣序列外的箱中覆盖率上互相相关,并且(ii)从训练亚组的箱中的覆盖率获得预期覆盖率。在一些实施方式中,鉴定训练亚组涉及鉴定训练组中样品簇。在一些实施方式中,获得预期覆盖率涉及确定经鉴定的训练亚组的覆盖率的集中趋势(例如,平均、中值或模式)。
在一些实施方式中,该方法还涉及通过以下调整训练组中训练样品序列的覆盖率:将函数(例如,线性函数或二次函数)拟合至数据点,各自将特定箱中训练组的预期覆盖率关联至所述特定箱中训练样品序列的相应观察的覆盖率;并且通过将所述箱中观察的覆盖率应用到函数中来调整训练样品序列的箱中的覆盖率。在一些实施方式中,函数是线性函数。
本发明的另一个方面提供了计算机程序产品,包括储存程序代码的非瞬时机器可读介质,该程序代码在由计算机系统的一个或多个处理器执行时导致计算机系统实施用于评价与遗传综合征相关的感兴趣序列的拷贝数的方法。在一些实施方式中,该程序代码包括以下的代码:(a)接收通过对测试样品中的无细胞DNA进行测序获得的序列读数;(b)比对测试样品的序列读数与包括感兴趣序列的参考基因组,从而提供测试序列标签,其中参考基因组分割成多个箱;(c)确定包括感兴趣序列的参考基因组中箱的测试序列标签的覆盖率;(d)通过采用从以与测试样品基本相同的方式比对并测序的未受影响的训练样品的训练组获得的预期覆盖率调整箱中测试序列标签的覆盖率,并且其中使用发现与感兴趣序列内的箱的覆盖率相关的感兴趣序列外的箱的覆盖率获得预期覆盖率;并且(e)基于来自(d)的经调整的覆盖率,通过计算机系统评价测试样品中感兴趣序列的拷贝数。
在各种实施方式中,计算机程序产品可提供指令使计算机系统实施任意上述方法。
本发明的另一个方面提供了使用包括一个或多个基因组的核酸的测试样品评价与遗传综合征相关的感兴趣序列的拷贝数的系统。该系统包括用于从测试样品接收核酸的测序仪,其提供来自样品的核酸序列信息并且逻辑上设计或设置成实施或产生评价与遗传综合征相关的感兴趣序列的拷贝数的运算。在一些实施方式中,该运算包括:(a)接收通过对测试样品中的无细胞DNA进行测序获得的序列读数;(b)比对测试样品的序列读数与包括感兴趣序列的参考基因组,从而提供测试序列标签,其中参考基因组分割成多个箱;(c)确定包括感兴趣序列的参考基因组中箱的测试序列标签的覆盖率;(d)通过采用从以与测试样品基本相同的方式比对并测序的未受影响的训练样品的训练组获得的预期覆盖率调整箱中测试序列标签的覆盖率,并且其中使用发现与感兴趣序列内的箱的覆盖率相关的感兴趣序列外的箱的覆盖率获得预期覆盖率;并且(e)基于来自(d)的经调整的覆盖率,通过计算机系统评价测试样品中感兴趣序列的拷贝数。
在一些实施方式中,系统的逻辑包括处理器;和其上储存有执行所述运算的指令的一个或多个计算机可读储存介质。在一些实施方式中,该系统还包括:用于接收来自母体测试样品中胎儿和母体核酸的至少约10000个序列读数的界面,其中以电子格式提供序列读数;和用于储存,至少瞬时,多种所述序列读数的存储器。在一些实施方式中,该系统还包括用于从母体测试样品中提取无细胞DNA的设备。在一些实施方式中,用于提取无细胞DNA的设备位于与测序仪相同的装置内,并且其中用于获取母体测试样品的设备位于远程装置中。在一些实施方式中,用于提取无细胞DNA的设备位于与测序仪相同的装置内,并且其中用于获取母体测试样品的设备位于远程装置中。在一些实施方式中,该逻辑还设计或设置为执行或产生对测试样品中一个或多个染色体的拷贝数进行评价以确定基因组中的一个或多个是否具有染色体非整倍性。在一些实施方式中,该逻辑还设计或设置成在(d)后执行或产生对一个或多个染色体的拷贝数的评价。
在各种实施方式中,该系统可提供使计算机系统实施任意上述方法以评价与遗传综合征相关的感兴趣序列的拷贝数的指令。
虽然本文所述的实施例涉及人类并且语言主要针对人基因组,本文所述的概念适用于来自任意植物或动物的基因组。通过以下描述和所附权利要求书或者通过学习下文中所述的本发明的实践,可以更充分地理解本发明的这些和其他目的及特征。
通过引用纳入
本文提到的所有专利、专利申请和其他发表物,包括这些引用文献中公开的所有序列通过引用纳入本文,就好像将各篇单独的发表物、专利或专利申请专门并单独地通过引用纳入本文那样。参考部分中引用的所有文献通过引用全文纳入本文用于其引用文本所示的目的。然而,任何文献的引用并不构成对其相对本发明是现有技术的承认。
附图的简要说明
图1是用于确定包括核酸混合物的测试样品中拷贝数变异存在与否的方法100的流程图。
图2显示了用于确定用于评价拷贝数的感兴趣序列的覆盖率的方法的流程图。
图3A显示了用于降低来自测试样品的序列数据中的噪音的方法的示例的流程图。
图3B-3K是在图3A中所示方法的各阶段获得的数据的分析。
图4A显示了用于产生序列掩模(mask)的方法的流程图,所述序列掩模用于降低序列数据中的噪音的。
图4B显示MapQ分数具有与经标准化的覆盖率量的CV的强单调相关性。
图5显示了用于去除或降低引入基因组相关特异性综合征的区域的系统偏差的方法。
图6显示了两次重叠方法,第1次用于检测一般CNV并且第2次用于检测与关联较短亚染色体序列的综合征相关的CNV。
图7是用于处理测试样品并最终进行诊断的分散的系统的框图。
图8显示了处理测试样品中的不同运算如何可被分类为被系统的不同元件操控的示意图。
图9A和9B显示了按照实施例1a所述的简略方案(图9A),和实施例1b所述的方案(图9B)制备的cfDNA测序文库的电泳图。
图10显示了来自118个双胞胎妊娠的经标准化的染色体值(NCV)分布。(A)染色体21和18的NCV分布;3个样品分类为T21影响的(包括T21镶嵌型的胎儿)并且1个样品分类为T18影响的。(B)染色体Y的NCV分布。该组分成临床上分类为女性/女性的样品或含有至少一个男性胎儿(男性/女性和男性/男性)的样品并且使用染色体Y的NCV确定Y染色体的存在。
图11显示了在NIPT研究中分析的双胞胎样品。各种研究中使用的双胞胎样品的数量评价市售NIPT测试的性能。
图12显示了由2D 100kb标准化的覆盖率热图(x-轴=chr 22基因组序并且y-轴表示未受影响的CLIA样品,由无监督分级聚类驱动其序)表示的12重训练数据中的信号异质性的示例。
图13显示了迪格奥尔格综合征覆盖率频率。线表示在公开的DB/lit综述中的综合征覆盖率频率;较不致密的阴影区表示5.5Mb综合征检索边界并且较致密的阴影区表示2.7Mb共有区域。
图14显示了AS/PW综合征覆盖率频率。线表示在公开的DB/lit综述中的综合征覆盖率频率;较不致密的阴影区表示10Mb综合征检索边界并且较致密的阴影区表示5.8Mb共有区域。
图15显示了CdC综合征覆盖率频率。线表示在公开的DB/lit综述中的综合征覆盖率频率;较不致密的阴影区表示26.5Mb综合征检索边界并且较致密的阴影区表示9.8Mb共有区域。
图16显示了CdC综合征覆盖率频率。线表示在公开的DB/lit综述中的综合征覆盖率频率;较不致密的阴影区表示8.6Mb综合征检索边界并且较致密的阴影区表示1.58Mb共有区域。
图17显示了Wolf-Hirschhorn综合征覆盖率频率。线表示在公开的DB/lit综述中的综合征覆盖率频率;较不致密的阴影区表示14.5Mb综合征检索边界并且较致密的阴影区表示3.6Mb共有区域。
图18显示了1p36综合征覆盖率频率。线表示在公开的DB/lit综述中的综合征覆盖率频率;较不致密的阴影区表示13.5Mb综合征检索边界并且较致密的阴影区表示5Mb共有区域。
图19绘制了综合征的SNB人口统计学。其显示对于猫叫综合征,chr 19上升高的SNB分数,或者意料之外的高百分比(>30%)的p36SNB属于chr 22。
图20显示了综合征的SNB重叠。在1p36和迪格奥尔格和猫叫和安格尔曼综合征中SNB之间有相当大的重叠。
图21显示了作为猫叫综合征的SSS-BER中SNB波数量的函数的CV滴的概况。
图22显示了猫叫综合征的CV对比SNB尺寸的共同综合征比率。
图23显示了原始(v4)对比原型(v5)验证管线中CV降低的共同综合征比率。
图24显示了对染色体21的不同测序深度的预期假阴性(FN)对比假阳性(FP)比率。
图25显示了对染色体18的不同测序深度的预期FN对比FP比率。
图26显示了针对已知具有猫叫综合征的高胎儿分数临床样品使用本文所述的分割和决定分析的综合征判定的性能。
图27显示了针对已知具有猫叫综合征的低胎儿分数临床样品使用本文所述的分割和决定分析的综合征判定的性能。
发明详述
本文所述的实施方式涉及用于评价包括胎儿和母体许细胞核酸的测试样品中Y染色体的拷贝数的方法、设备和系统。在一些实施方式中,感兴趣序列包括例如范围从千碱基(kb)至兆碱基(Mb)到整个染色体的基因组区段序列,其已知或怀疑与遗传或疾病状况相关。在一些实施方式中,使用Y染色体的拷贝数来确定胎儿性别。在一些实施方式中,可按照本发明的方法确定的CNV包括性染色体Y的单倍体和多倍体(例如,47,XXY和47,XYY),性染色体的其他多倍体如四体和五体(例如,XXXXY和XYYYY),和任意一个或多个性染色体的区段的缺失和/或复制。感兴趣序列的其他示例包括与已知非整倍性,例如三体XXX,三体21相关的染色体,和在疾病如癌症中倍增的染色体区段,例如,在急性骨髓性白血病中的部分三体8。
除非另外说明,本文所述的方法和系统的实施包括在分子生物学、微生物学、蛋白质纯化、蛋白质工程改造、蛋白质和DNA测序、以及重组DNA领域中常用的常规技术和设备,其是本领域技术人员已知的。这类技术和设备是本领域技术人员已知的并且描述于多种教科书和参考工作中(参见,例如,Sambrook等,《分子克隆:实验室手册》(MolecularCloning:A Laboratory Manual),第3版(冷泉港)[2001];和Ausubel等,《新编分子生物学实验指南》(Current Protocols in Molecular Biology),[1987])。
数值范围包括限定该范围的数值。应理解,本说明书全文中给出的每个最大数值范围包括每个较低的数值范围,如同这些较低的数值范围清楚写在这里。本说明书全文中给出的每个最小数值范围包括每个较高的数值范围,如同这些较高的数值范围清楚写在这里。本说明书全文中给出的每个数值范围包括落入所述较宽数值范围的每个较窄数值范围,如同本文中明确写明这些较窄数值范围。
本文提供的标题并不旨在限制本发明。
除非本文中另外定义,本文中使用的所有技术和科学术语具有本领域普通技术人员通常所理解的相同含义。包括本文包括的术语的各种科学词典是熟知的并且是本领域技术人员可得的。虽然可采用与本文所述类似或等同的任何方法和材料实施或测试本文所述的实施方式,但仍描述了一些方法和材料。
参考说明书整体更完整地描述了下面紧接着定义的术语。应理解本发明并不限于所述的特定方法、方案和试剂,因为这些可根据它们被本领域技术人员使用的程度变化。
定义
如本文所用,单数形式的“一个”、“一种”和“该”包括复数指代形式,除非文中另有明确说明。
除非另有说明,核酸以5’至3’方向从左到右书写,并且氨基酸序列以氨基至羧基方向从左到右书写。
当在本文中用于分析核酸样品的CNV的内容时,术语“评价”指示用一种或三种判定类型表征染色体或区段非整倍性的状态:“正常”或“未受影响”、“受影响”和“无判定”。一般设定判定正常和受影响的阈值。测量样品中与非整倍性或其他拷贝数变异相关的参数,并且测量的值与阈值比较。对于复制型非整倍性,如果染色体或区段剂量(或其他测量的值序列含量)在受影响样品设定的限定阈值以上,则作出受影响的判定。对于这种非整倍性,如果染色体或区段剂量在正常样品的设定阈值以下,则作出正常的判定。缺失型非整倍性与此相反,如果染色体或区段剂量在受影响的样品的限定阈值以下,则作出受影响的判定,并且如果染色体或区段剂量在正常样品设定的阈值以上,则作出正常的判定。例如,在存在三体的情况中,由参数值,例如,在使用者定义的可靠性阈值以下的测试染色体剂量确定“正常”判定,并且由参数,例如,在使用设定义的可靠性阈值以上的测试染色体剂量确定“受影响”判定。由参数,例如,作出“正常”或“受影响”判定的阈值之间的测试染色体剂量确定“无判定”。术语“无判定”可与“未分类”互换使用。
本文的术语“拷贝数变异”是指与参考样品中存在的核酸序列的拷贝数相比,测试样品中存在的核酸序列的拷贝数的变化。在某些实施方式中,核酸序列是1kb或更大。在一些情况中,核酸序列是全染色体或其大部分。“拷贝数变体”是指其中通过比较测试样品中感兴趣序列与感兴趣序列的预期水平发现拷贝数不同的核酸的序列。例如,测试样品中感兴趣序列的水平与适格样品中存在的水平相比。拷贝数变体/变异包括缺失,包括微缺失,插入,包括微插入,复制,倍增,和易位。CNV包括染色体非整倍性和部分非整倍性。
本文术语“非整倍性”指由于缺失或获得全染色体,或部分染色体引起的遗传物质不平衡。
本文术语“染色体非整倍性”和“完全染色体非整倍性”是指由于缺失或获得全染色体引起的遗传物质不平衡,并且包括种系非整倍性和镶嵌型非整倍性。
本文术语“部分非整倍性”和“部分染色体非整倍性”是指由于缺失或获得染色体的部分引起的遗传物质不平衡,例如,部分单倍体和部分三体,并且包括由于易位、缺失和插入导致的不平衡。
术语“多种”是指超过1个元素。例如,本文中针对核酸分子或序列标签的数量使用该术语,其足以使用本文所述的方法鉴定适格样品和测试样品中拷贝数变异的显著差异。在一些实施方式中,各测试样品获得至少约3x 106个约20至40bp的序列标签。在一些实施方式中,各测试样品提供了至少约5x 106、8x 106、10x 106、15x 106、20x 106、30x 106、40x106、或50x 106个序列标签的数据,各序列标签包括约20至40bp。
术语“多核苷酸”、“核酸”和“核酸分子”可互换使用并指代共价连接的核苷酸(即,对于RNA是核糖核苷酸,并且对于DNA是脱氧核糖核苷酸)序列,其中一个核苷酸的戊糖的3’位通过磷酸二酯基团连接至下一个的戊糖的5’位。核苷酸包括任何形式的核酸的序列,包括但不限于RNA和DNA分子,如cfDNA分子。术语“多核苷酸”包括但不限于,单链或双链多核苷酸。
本文中参考生物样品中胎儿和母体核酸分子的序列信息的量使用术语“部分”,其总量小于1个人基因组的序列信息。
本文术语“测试样品”是指样品,其通常衍生自生物流体、细胞、组织、器官、或生物体,包括核酸或核酸混合物,其包括待筛选拷贝数变异的至少一个核酸序列。在某些实施方式中,样品包括至少一个核酸序列,其拷贝数怀疑经过变异。这类样品包括,但不限于痰液/口腔流体、羊水流体、血液、血液成分、或细针活检样品(例如,手术活检,细针活检等)、尿液、腹膜液、胸膜液等。虽然,样品通常取自人对象(例如,患者),该试验可用于来自任何哺乳动物,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等的样品中的拷贝数变异(CNV)。可直接使用从生物来源获得的样品或者进行预处理以修饰样品的性质。例如,这种预处理可包括从血液制备血浆、稀释粘稠液体等。预处理的方法也可涉及,但不限于,过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、添加试剂、裂解等。如果相对于样品采用这种预处理方法,这种预处理方法一般使得感兴趣的核酸保留在测试样品中,有时,以与未处理的测试样品的浓度成比例的浓度下(例如,即,没有经过任何这种预处理方法的样品)。这种“经处理的”或“经加工的”样品仍然被认为是本文所述方法的生物“测试”样品。
本文术语“适格样品”或“未受影响的样品”是指包括以已知拷贝数存在的核酸的混合物的样品,其中测试样品中核酸与该拷贝数相比,并且其是就感兴趣序列而言正常的样品,即,没有CNV或非整倍性。在一些实施方式中,适格样品用作训练组的未受影响的训练样品以驱动序列掩模或序列概况。在某些实施方式中,适格样品用于鉴定针对研究中的染色体的一个或多个标准化染色体或区段。例如,可使用适格样品来鉴定染色体21的标准化染色体。在这种情况中,适格样品是非三体21样品的样品。另一个实施例包括仅使用女性作为染色体X的适格样品。适格样品也可用于其他目的,如确定用于判定受影响的样品的阈值,鉴定用于限定参考序列上掩模区域的阈值,确定染色体的不同区域的覆盖率量等。
本文术语“训练组”是指一组训练样品,其可包括受影响的和/或未受影响的样品,并用于开发用于分析测试样品的模型。在一些实施方式中,训练组包括未受影响的样品。在这些实施方式中,使用未受影响的样品的训练组就感兴趣的拷贝数变异的建立用于确定CNV的阈值。训练组中未受影响的样品可用作适格样品以鉴定标准化序列,例如,标准化染色体,并且使用未受影响的样品的染色体剂量来设定各感兴趣序列,例如染色体的阈值。在一些实施方式中,训练组包括受影响的样品。可使用训练组中受影响的样品来验证可从未受影响的样品中容易地区分受影响的测试样品。
本文也参考感兴趣群的统计学样品的个体组使用“训练组”,使用其个体数据来确定群普遍的一个或多个定量感兴趣值。统计学样品是感兴趣群中个体的亚组。个体可以是人、动物、组织、细胞、其他生物样品(即,统计学样品可包括多种生物样品),和提供用于统计学分析的数据点的其他单个实体。
在一些实施方式中,训练组与验证组联用。本文使用术语“验证组”指导统计学样品中的个体组,其个体数据用于验证或评价使用训练组确定的定量感兴趣值。在一些实施方式中,例如,训练组提供了用于计算参考序列的掩模的数据;验证组提供了数据来验证或计算掩模。
在其中基因组数据组织成箱的一些实施方式中,使用未受影响的样品的训练组来获得表示基因组的箱中数据变化的波或概况,其波或概况对于未受影响的样品是常见的,但可能与感兴趣序列的CNV无关。在一些实施方式中,使用训练组的亚组来生成概况或波用于校正与感兴趣的CNV无关的偏差或变异。在一些实施方式中,亚组包括具有概况或波的系统性和一致性变异的训练组中最大样品组。
术语“概况”和“波”在本文中可互换使用以指代箱中覆盖率的变化。在一些实施方式中,从已知没有CNV的未受影响的样品获得概况或波。如此,概况和波表示与CNV无关的变异。在多个实施方式中,在作出CNV判定之前,从覆盖率测量中移去概况或波。
本文使用“拷贝数评价”指代与序列拷贝数相关的遗传序列状态的统计学评价。例如,在一些实施方式中,评价涉及确定遗传序列的存在与否。在一些实施方式中,评价包括确定遗传序列的部分或完全非整倍性。在其他实施方式中,评价包括基于遗传序列的拷贝数甄别2个或更多个样品。在一些实施方式中,评价涉及基于遗传序列的拷贝数的统计学分析,例如,标准化和比较。
术语“适格核酸”与“适格序列”互换使用,其是测试序列或测试核酸的量与之比较的序列。适格序列是优选以已知形式存在于生物样品中的序列,即,适格序列的量是已知的。一般而言,适格序列是存在于“适格样品”中的序列。“感兴趣的适格序列”是适格序列,其量在适格样品中已知,并且是与患有医学病症的个体中的序列表现的差异相关的序列。
本文中的术语“感兴趣序列”是指与健康对比患病个体中的序列表现的差异相关的核酸序列。感兴趣的序列可以是在疾病或遗传病症中错误表现的染色体上的序列,即过表现或低表现。感兴趣序列可以是染色体的部分,即染色体片段,或全染色体。例如,感兴趣序列可以是在非整倍性病症中过表现的染色体,或编码在癌症中低表现的编码肿瘤抑制物的基因。感兴趣序列包括在对象细胞的全体群或亚群中过表现或低表现的序列。“感兴趣的适格序列”是在适格样品中的感兴趣序列。“测试感兴趣序列”是在测试样品中的感兴趣序列。
本文术语“标准化序列”是指用于标准化映射到与标准化序列相关的感兴趣序列的序列标签数量的序列。在一些实施方式中,标准化序列包括强(robust)染色体。“强染色体”不大可能是非整倍性的染色体。在涉及人染色体的一些情况中,强染色体是除X染色体、Y染色体、染色体13、染色体18、和染色体21以外的任何染色体。在一些实施方式中,标准化序列显示与其映射的序列标签数量和估算用作标准化参数的感兴趣序列差异的测序运行中的差异。标准化序列可区分受影响的样品和一个或多个未受影响的样品。在一些实施方式中,当与其他潜在标准化序列如其他染色体比较时,标准化序列最佳或有效区分受影响的样品和一个或多个未受影响的样品。在一些实施方式中,标准化序列的差异计算为样品和测序运行之间感兴趣序列的染色体剂量差异。在一些实施方式中,在一组未受影响的样品中鉴定标准化序列。
“标准化染色体”、“标准化分母染色体”或“标准化染色体序列”是“标准化序列”的示例。“标准化染色体序列”可包含单个染色体或染色体组。在一些实施方式中,标准化序列包括2种或更多种强染色体。在某些实施方式中,强染色体是除了染色体X、Y、13、18、和21以外的所有常染色体。“标准化区段”是“标准化序列”的另一个示例。“标准化区段序列”可包含单个区段的染色体,或其可包含2个或更多个区段的相同或不同染色体。在某些实施方式中,标准化序列旨在标准化变异,如过程相关、染色体间(运行内)、和测序间(运行间)变异。
本文术语“可辨性”是指能够使人区分一个或多个未受影响的,即正常的样品与一个或多个受影响的,即非整倍性样品的标准化染色体的性质。显示最大“可辨性”的标准化染色体是染色体或染色体组,其提供在一组适格样品中感兴趣染色体的染色体剂量和在一个或多个受影响的样品中相应染色体的相同感兴趣染色体的染色体剂量的分布之间的最大统计学差异。
本文术语“变异性”是指能够使人区分一个或多个未受影响的,即正常的样品与一个或多个受影响的,即非整倍性样品的标准化染色体的另一种性质。在一组适格样品中测量的标准化染色体的变异性是指与之映射的序列标签数量的变异性,其估算映射到感兴趣染色体的序列标签数量的变异,其用作该染色体的标准化参数。
本文术语“序列标签密度”是指映射到参考基因组序列的序列读数数量,例如,染色体21的序列标签密度是通过映射到参考基因组的染色体21的测序方法生成的序列读数的数量。
本文术语“序列标签密度比率”是指映射到参照基因组的染色体,例如染色体21的序列标签数量与参照基因组染色体的产度的比率。
本文术语“序列剂量”是指与针对感兴趣序列鉴定的序列标签的数量和针对标准化序列鉴定的序列标签的数量相关联的参数。在一些情况中,序列剂量是感兴趣序列的序列标签覆盖率与标准化序列的序列标签覆盖率的比率。在一些情况中,序列剂量是指将感兴趣序列的序列标签密度与标准化序列的序列标签密度相关联的参数。“测试序列剂量”是将测试样品中确定的感兴趣序列,例如染色体21的序列标签密度与标准化序列,例如染色体9的序列标签密度相关联的参数。类似地,“适格序列剂量”是将适格样品中确定的感兴趣序列的序列标签密度与标准化序列的序列标签密度相关联的参数。
术语“覆盖率”是指映射至限定序列的序列标签的丰度。覆盖率可通过序列标签密度(或序列标签计数)、序列标签密度比率、经标准化的覆盖率量、经调整的覆盖率值等定量表示。
术语“覆盖率量”是原始覆盖率的修饰,并且通常代表在基因组区域,如箱中序列标签的相对量(有时称为计数)。通过标准化、调整和/或校正基因组区域的原始覆盖率或计数来获得覆盖率量。例如,可通过将映射至区域的序列标签计数除以映射至整个基因组的序列标签总数来获得区域的经标准化的覆盖率量。经标准化的覆盖率量使得能够比较不同样品间箱的覆盖率,其可有不同的测序深度。其与序列剂量不同,因为后者一般通过将映射的标签计数除以整个基因组的亚组来获得。该亚组是标准化区段或染色体。无论是否经标准化,覆盖率量可针对染色体上区域间全局概况变异、G-C分数变异、强染色体中的异常等校正。
本文术语“下一代测序(NGS)”是指允许对克隆扩增的分子和单核酸分子进行大规模平行测序的测序方法。NGS的非限制性示例包括使用可逆染料终止子的合成测序,和连接测序。
本文术语“参数”是指表针物理性质的数值。通常,参数在数字上表证定量数据组和/或定量数据组之间的数量关系。例如,映射至染色体的序列标签的数量和标签所映射的染色体长度之间的比率(或比率的函数)是参数。
本文术语“阈值”和“适格阈值”是指用作表征样品,如含有来自怀疑患有医学病症的生物体的核酸的测试样品的截止值的任何数字。阈值可与参数值比较以确定产生该参数值的样品是否表明该生物体具有医学病症。在某些实施方式中,使用适格数据组来计算适格阈值并且用作对生物体中拷贝数变异,例如,非整倍性的诊断的限制。如果通过本文所述的方法获得的结果超过阈值,则可诊断对象具有拷贝数变异,例如21三体。可分析通过针对训练组样品计算的经标准化的值(例如,染色体剂量,NCV或NSV)来鉴定用于本文所述方法的合适阈值。可使用训练组中的适格(例如,未受影响的)样品来鉴定阈值,该训练组同时包括适格(即,未受影响的)样品和受影响的样品。已知具有染色体非整倍性的训练组中的样品(即,受影响的样品)可用于确认选择的阈值可用于区分测试组中受影响的和未受影响的样品(参见本文实施例)。阈值的选择取决于使用者希望作出分类的置信水平。在一些实施方式中,用于鉴定合适阈值的训练组包括至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少2000、至少3000、至少4000、或更多适格样品。可优选使用更大组的适格样品来改善阈值的诊断实用性。
术语“箱”是指序列区段或基因组区段。在一些实施方式中,箱互相连续并且通过基因组或染色体内的位置分离。各箱可定义参照基因组中的核苷酸序列。根据特定应用和序列标签密度所需的分析,箱的尺寸可以是1kb、100kb、1Mb等。除了其在参考序列内的位置以外,箱可具有其他特征,如样品覆盖率和序列结构特征,如G-C分数。
本文所用术语“掩蔽阈值”是指基于序列箱中序列标签的数量的值所比较的量,其中具有超过掩蔽阈值的值的箱被掩蔽。在一些实施方式中,掩蔽阈值可以是百分等级、绝对计数、映射质量分数、或其他合适的值。在一些实施方式中,掩蔽阈值可定义为多个未受影响的样品间变异系数的百分等级。在其他实施方式中,掩蔽阈值可定义为映射质量分数,例如,MapQ分数,其与比对序列读数与参照基因组的可靠性相关联。应注意,掩蔽阈值不同于拷贝数变异(CNV)阈值,后者是表征含有来自怀疑具有与CNV相关的医学病症的生物体的核酸的样品的截止值。在一些实施方式中,相对于本文他处所述的经标准化的区段值(NSV)或经标准化的染色体值(NCV)定义CNV阈值。
本文术语“经标准化的值”是指将针对感兴趣序列(例如,染色体或染色体区段)鉴定的序列标签数量与针对标准化序列(例如,标准化染色体或标准化染色体区段)鉴定的序列标签数量相关联的数值。例如,“经标准化的值”可以是本文他处所述的染色体剂量,或者其可以是NCV,或者其可以是染出所述的NSV。
术语“读数”是指来自核酸样品的一部分的序列读数。一般而言,虽然不是必然的,读数表示样品中连续碱基对的短序列。读数可由样品部分的碱基对序列(以ATCG)象征性表示。其可储存在存储装置中并经合适加工以确定其是否匹配参考序列或满足其他标准。读数可直接获自测序设备或碱基获自储存的关于样品的序列信息。在一些情况中,读数是可用于鉴定较大序列或区域的足够长度(例如,至少约25bp)的DNA序列,例如,其可经比对和具体分配到染色体或基因组区域或基因。
术语“基因组读数”参考个体的全基因组中的任何区段的读数使用。
本文中术语“序列标签”与术语“映射的序列标签”互换使用指代已经通过比对具体分配(即映射)至较大序列,例如参照基因组的序列读数。映射的序列标签唯一映射至参考基因组,即,它们分配至参考基因组的单一位置。除外另外说明,映射至参考序列上相同序列的标签计数一次。可以数据结构或数据的其他组装件提供标签。在某些实施方式中,标签含有读数序列和与该读数相关的信息,如基因组中序列的位置,例如,染色体上的位置。在某些实施方式中,位置专门针对正链方向。在与参考基因组的比对中,可限定标签提供有限量的错配。在一些实施方式中,分析中可能不包括可映射至参考基因组上超过一个位置的标签,即,并不唯一映射的标签。
术语“非冗余序列标签”是指并不映射至相同位点的序列标签,在一些实施方式中,其出于确定经标准化的染色体值(NCV)的目的计数。有时,多个序列读数与参考基因组上的相同位置比对,产生冗余或重复的序列标签。在一些实施方式中,出于确定NCV的目的,映射至相同位置的重复序列标签省略或计数为一个“非冗余序列标签”。在一些实施方式中,与非排除的位点比对的非冗余序列标签计为产生“非排除位点计数”(NES计数)用于确定NCV。
术语“位点”是指参考基因组上的唯一位置(即,染色体ID、染色体位置和方向)。在一些实施方式中,位点可以是残基、序列标签、或者序列上的区段位置。
“排除的位点”是在出于序列标签计数的目的而已经排除的参考基因组的区域中发现的位点。在一些实施方式中,在含有重复序列的染色体区域(例如,着丝粒和端粒)和超过一种染色体共有的染色体区域,例如,在Y-染色体上存在的在X染色体上也存在的区域中发现排除的位点。
“非排除的位点”(NES)是出于序列标签计数的目的在参考基因组中未被排除的位点。
“非排除的位点计数”(NES计数)是映射至参考基因组上NES的序列标签的数量。在一些实施方式中,NES计数是映射至NES的非冗余序列标签的数量。在一些实施方式中,覆盖率和相关参数,如经标准化的覆盖率量、全局概况去除的覆盖率量、和染色体剂量基于NES计数。在一个示例中,染色体剂量计算为针对感兴趣染色体的NES计数的数量与针对标准化染色体的NES计数的数量的比率。
经标准化的染色体值(NVC)将测试样品的覆盖率与一组训练/适格样品的覆盖率相关联。在一些实施方式中,NCV基于染色体剂量。在实施方式中,NCV与测试样品中感兴趣染色体的染色体剂量和适格样品组中的相应染色体剂量的平均之间的差异相关联,其可计算为:
其中分别是一组适格样品中第j个染色体剂量的估计平均值和标准偏差,并且xij是观察到的测试样品i的第j个染色体比率(剂量)。
在一些实施方式中,可通过将测试样品中感兴趣染色体的染色体剂量与相同流动池中测序的多重样品中的相应染色体剂量的中值相关联来如下“在线(on the fly)”计算NCV:
其中Mj是在相同流动池上测序的多重样品组中第j个染色体剂量的估计中值;是一组或多组在一个或多个流动池上测序的多重样品中第j个染色体剂量的标准偏差,并且xi是观察到的测试样品i的第j个染色体剂量。在该实施方式中,测试样品i是在确定Mj的相同流动池上测序的多种样品之一。
例如,对于测试样品A中的感兴趣染色体21,其以一个流动池上64个多重化样品之一测序,测试样品A中染色体21的NCV计算为样品A中染色体21的剂量减去在64个多重化样品中确定的染色体21的剂量的中值,出于针对流动值1,或其他流动池,例如20上的64个多重化样品确定的染色体21剂量的标准偏差。
本文所用术语“比对的”、“比对”或“对齐”是指比较读数或标签与参照序列并且确定参考序列是否含有读数序列的过程。如果参考序列含有读数,则该读数可映射至参考序列,或者,在某些实施方式中,映射至参考序列中的特定位置。在一些情况中,比对简单表明读数是否是特定参考序列的成员(即,读数是否存在于参考序列中)。例如,读数与人染色体13的参考序列的比对将表明该读数是否存在于染色体13的参考序列中。提供该信息的工具可被称为组成员测试器。在一些情况中,比对还显示读数或标签映射的参考序列中的位置。例如,如果参考序列是全人基因组序列,比对可显示读数存在于染色体13上,并且还可显示读数在染色体13的特定链和/或位点上。
比对的读数或标签是就其核酸分子的顺序而言鉴定为与来自参考基因组的已知序列匹配的一种或多种序列。比对可以手动进行,虽然其通常通过计算机算法实施,如其可能在实施本文所述方法的合理时间段中比对读数。用于比对序列的算法的一个示例是核苷酸数据有效局部比对(ELAND)计算机程序,其为Illumina基因组分析流程的部分。或者,可采用布鲁姆过滤器或相似的组成员测试器来比对读数与参考基因组。参见2011年10月27日提交的美国专利申请号61/552,374,其通过引用全文纳入本文。比对中序列读数的匹配可以是100%序列匹配或低于100%(不完美匹配)。
术语“比对概况”参考与位置比对的序列标签的分布,该位置可鉴定为感兴趣参考序列中的碱基对箱。
本文所用术语“映射”是指将通过比对将序列读数具体分配至更大的序列,例如,参考基因组。
本文所用术语“参考基因组”或“参考序列”可指任何生物体或病毒的任何部分或全部都具体已知的基因组序列,其可用于参考从对象鉴定的序列。例如,用作人对象以及许多其他生物体的参照基因组获自国家生物技术信息中心,网址www.ncbi.nlm.nih.gov。“基因组”指以核酸序列表达的生物体或病毒的完全遗传信息。
在各种实施方式中,参考基因组显著大于与之比对的读数。例如,可以大至少约100倍、或大至少约1000倍、或大至少约10,000倍、或大至少约105倍、或大至少约106倍、或大至少约107倍。
在一个示例中,参考序列是全长人基因组的序列。这类序列可称为基因组参考序列。在另一个示例中,参考序列限于特定人染色体,如染色体13。在一些实施方式中,参考Y染色体是来自人基因组版本hg19的Y染色体序列。这类序列可称为染色体参考序列。参考序列的其他示例包括其他物种的基因组,以及任意物种的染色体、亚染色体区域(如链)等。
在各种实施方式中,参考序列是衍生自多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。
本文术语“临床相关序列”是指已知或怀疑涉及或与遗传或疾病病症相关的核酸序列。确定临床相关序列的存在与否可用于在诊断中确定或确认医学病症的诊断,或提供针对疾病发展的预后。
当在核酸或核酸混合物的内容中使用术语“衍生的”时,其在本文中指代同其产生的来源获得核酸的手段。例如,在一个实施方式中,衍生自2种不同基因组的核酸混合物表示,核酸(例如cfDNA)通过天然发生的过程(如坏死或凋亡)由细胞天然释放。在另一个实施方式中,衍生自2种不同基因组的核酸混合物表示核酸2种从来自对象的不同类型的细胞中提取。
当在获得特定定量值的内容中使用术语“基于”时,其在本文中指代使用另一种量作为输入以计算作为输出的特定定量值。
本文术语“患者样品”称为从患者,即,医疗关注、护理或治疗的受者获得的生物样品。患者样品可以是本文所述样品中的任一种。在某些实施方式中,通过非侵入性过程获得患者样品,例如,外周血样品或粪便样品。本文所述的方法不需要局限于人。因此,考虑了各种兽医学应用,其中患者样品可以是来自非人哺乳动物(例如,猫、猪、马、牛等)的样品。
本文术语“混合样品”是指含有核酸混合物的样品,其衍生自不同的基因组。
本文术语“母体样品”是指从妊娠对象,例如妇女获得的生物样品。
本文术语“生物流体”是指从生物来源获得的液体并包括,例如,血液、血清、血浆、痰液、灌洗液、脑脊液、尿液、精液、汗液、泪液、唾液等。本文所用术语“血液”、“血浆”和“血清”表述上包括其组分或处理部分。类似地,在样品取自活检、拭子、涂片等的情况中,“样品”表述上包括衍生自活检、拭子、涂片等的处理组分或部分。
本文术语“母体核酸”和“胎儿核酸”分别指妊娠女性对象的核酸和由该妊娠女性怀着的胎儿的核酸。
本文所用术语“对应于”有时是指核酸序列,例如,基因或染色体,其存在于不同对象的基因组中,并且其不必在所有基因组中有相同序列,但用于提供感兴趣序列,例如基因或染色体的相同性而非其遗传信息。
本文所用术语“基本无细胞”与所需样品联用包括从通常与样品结合的细胞组分被去除的所需样品的制备物。例如,通过去除通常与之结合的血细胞,例如红细胞,血浆样品呈现为基本无细胞。在一些实施方式中,基本无细胞的样品经处理以去除否则将产生所需的待检测CNV的遗传物质的细胞。
本文所用术语“胎儿分数”是指包括胎儿和母体核酸的样品中存在的胎儿核酸的分数。胎儿分数通常用于表征母体血液中的cfDNA。
本文所用术语“染色体”是指活细胞的携带遗传基因运载体,其衍生自包括DNA和蛋白质组分(基本是组蛋白)的染色质链。本文采用常规国际承认的单个人基因组染色体编码系统。
本文所用术语“多核苷酸长度”是指在参考基因组的区域中或序列中核酸分子(核苷酸)的绝对数。术语“染色体长度”是指以碱基对给出的染色体的已知长度,例如,在万维网上|genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=处发现的人类染色体的CBI36/hg18组件中提供。
本文术语“对象”是指人对象以及非人对象,如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。虽然本文所述的实施例涉及人并且语言主要针对人,本文所述的概念可应用于来自任何植物或动物的基因组,并且可用于兽医学、动物科学、研究实验室等的领域。
本文所用术语“病症”是指广义的“医学病症”,其包括所有疾病和紊乱,但可包括损伤和正常健康情况,如妊娠,其可能影响人的健康、受益于医学辅助、或有对医学治疗的并发症。
当本文中参考染色体非整倍性使用时,术语“完整”是指获得或损失整个染色体。
当本文中参考染色体非整倍性使用时,术语“部分”是指获得或损失染色体的部分,即区段。
本文术语“镶嵌”是指在一个已经从单个受精卵发育的个体中存在有两个不同核型的细胞的2个群。镶嵌可能来自发育期间的突变,其仅增殖成成年细胞的亚群。
本文术语“非镶嵌”是指生物体,例如,人类胎儿,其包含一种核型的细胞。
当本文中参考确定染色体剂量使用时,术语“使用染色体”是指使用获得的染色体的序列信息,即获得的染色体的序列标签数量。
本文所用的术语“灵敏度”等于真阳性数量除以真阳性和假阴性之和。
本文所用的术语“特异性”等于真阴性数量除以真阴性和假阳性之和。
本文术语“富集”是指扩增在母体样品的部分中含有的多晶型靶核酸,并且将扩增的产物与从中去除该部分的剩余母体样品合并的过程。例如,剩余的母体样品可以是原始母体样品。
本文术语“原始母体样品”是指从妊娠对象,例如,妇女获得的非富集生物样品,其用作去除部分以扩增多晶型靶核酸的来源。“原始样品”可以是从妊娠对象中获得的任何样品,及其经处理的部分,例如,从母体血浆样品中提取的纯化的cfDNA样品。
本文所用术语“引物”是指当置于诱导延伸产物合成的条件(例如,该条件包括核苷酸,诱导剂如DNA聚合酶,以及合适的温度和pH)下时能够用作合成起点的分离的寡核苷酸。引物优选为在扩增中效率最高的单链,但也可以是双链。如果是双链,引物首先经处理以使其链在用于制备延伸产物之前分离。优选地,该引物是寡脱氧核糖核苷酸。引物必须足够长以在诱导剂存在下引发延伸产物的合成。引物的精确长度将取决于许多因素,包括温度、引物来源、方法用途、和用于引物涉及的参数。
术语“给药原因(cause to be administered)”是指由医学专业人员(例如,医师),或控制或指导对象医学护理的人采取的动作,其控制和/或允许在组织处向对象给予试剂/化合物。给药原因可包括针对对象的合适的治疗性或预防性方法的诊断和/或确定,和/或处方特定试剂/化合物。这种处方可包括,例如,草拟处方形式、标注医学记录等。类似地,“实施原因(cause to be performed)”,例如,针对诊断过程,是指有医学专业人员(例如,医师)、或控制或指导对象的医学护理的人采取的动作,其控制和/或允许向该对象实施一个或多个诊断方案。
引言
各种非侵入性产前诊断(NIPD)方法采用在母体体液如外周血中可得的胎儿来源的cfDNA。许多NIPD方法提取、测序并比对来自母体外周写的cfDNA以确定来自妊娠母体的胎儿的cfDNA是否含有遗传序列中与疾病或表型相关的拷贝数变异。经提取和测序的cfDNA提供序列读数,其然后映射至参考基因组。映射至参考基因组上唯一位置或位点的序列读数称为序列标签。可使用映射至感兴趣序列的序列标签的数量来确定感兴趣序列的拷贝数或拷贝数变异。
映射至感兴趣序列的序列标签的数量称为覆盖率。遗传序列的区域或箱的覆盖率提供数据以计算一个区域对比另一个区域或者一个样品对比另一个样品的相对丰度。当感兴趣序列的覆盖率异常低或高时,可推定序列的拷贝数变异。
本文公开了方法、设备和系统用于确定测试样品中不同感兴趣序列的拷贝数和拷贝数变异(CNV),该测试样品包含衍生自2种或更多种不同基因组的核酸混合物,并且其已知或怀疑在一种或多种感兴趣序列的量上不同。通过本文所述的方法和设备确定的拷贝数变异包括获得或缺失完整染色体,涉及显微镜可见的非常大染色体区段的改变,和尺寸从单核苷酸至千碱基(kb)至兆碱基(Mb)的DNA区段的亚显微拷贝数变异的丰度。
在一些实施方式中,提供方法用于使用包括母体和胎儿无细胞DNA的母体样品确定胎儿的拷贝数变异(CNV)。本文所述的一些实施方式提供方法通过去除样品内GC-含量偏差来改善序列数据分析的灵敏度和/或特异性。在一些实施方式中,基于针对未受影响的训练组样品间共同的系统变异校正的序列数据去除样品内GC-含量偏差。
所述的一些实施方式提供方法以低噪音和高信号确定序列覆盖率量,提供数据以相对于通过常规方法获得的序列覆盖率量改善的灵敏度、特异性、和/或效率确定与拷贝数和CNV相关的各种遗传病症。已经发现所示方法在改善具有较低分数的来自研究中的基因组(例如,胎儿的基因组)的DNA的样品中的信号上特别有效。这种样品的一个示例是来自双卵双胞胎、三胞胎等的母体血液样品,其中该过程评价了胎儿之一的基因组的拷贝数变异。另一个示例是在与临床综合征相关的几兆碱基数量级上的较短亚染色体区域的CNV。
该方法可应用于确定任何胎儿非整倍性的CNV,和已知或怀疑与多种医学病症相关的CNV。在涉及人对象的一些实施方式中,可按照本发明的方法确定的CNV包括染色体1-22、X和Y中任意一种或多种的三体性和单体性,其他染色体多体性,和任意一种或多种染色体的区段的缺失和/或复制,其可通过仅对测试样品的核酸测序一次来检测。可从通过仅对测试样品的核酸测序一次获得的测序信息确定任何非整倍性。
人基因组中的CNV显著影响人对疾病的倾向和多样性(Redon等,Nature23:444-454[2006],Shaikh等,Genome Res 19:1682-1690[2009])。已知CNV通过不同机制导致遗传疾病,在大多数情况中导致基因破坏或基因剂量失衡。除了其与遗传紊乱的直接关联以外,已知CNV医治可能有害的表型变化。最近,多项研究已经报道在复杂病症如孤独症、ADHD、和精神分裂症中,与正常对照相比增加的稀有或从头组装CNV负担,突出了稀有或独特CNV的潜在致病性(Sebat等,316:445-449[2007];Walsh等,Science 320:539–543[2008])。从基因组重排产生CNV,主要是由于缺失、复制、插入、和不平衡易位事件。
本文所述的方法和设备可采用下一代测序计数(NGS),其是大规模平行测序。在某些实施方式中,在流动池中以大规模平行方式对克隆扩增DNA模板或单个DNA分子进行测序(例如,描述于Volkerding等,Clin Chem55:641-658[2009];Metzker M Nature Rev 11:31-46[2010])。除了该通量序列信息外,NGS提供定量信息,其中各序列读数是可计算的“序列标签”,其表示单个克隆DNA模板或单个DNA分子。NGS测序技术包括焦磷酸测序、使用逆染料终止子的合成法测序、寡核苷酸探针连接测序和离子半导体测序。来自单个样品的DNA可单独测序(即,单重测序)或者来自多个样品的DNA可收集并在单次测序运行上以指数基因组分子测序(即,多重测序)以生成高至数亿个DNA序列读数。下文中描述了按照本发明的方法可用于获得序列信息的测序计数的示例。
使用DNA样品的各种CNV分析涉及将来自测序仪的序列读数比对或映射至参考序列。参考序列可以是全基因组的序列、染色体的序列、亚染色体区域的序列等。由于参考序列的特性,与常染色体相比,Y染色体CNV的诊断涉及提高的技术挑战,因为Y染色体的覆盖率低于常染色体,并且Y染色体上的重复序列使将读数映射至其正确位置变得复杂。有约10Mb的现有NGS技术可及的独特Y序列,但是性别检测仍然是胎儿诊断世界中的一个挑战性任务,其中母体样品中胎儿cfDNA的量比母体DNA的量低至少一个数量级,突出了非特异性映射的问题。
另外,一些现有测序方案采用超短读数如25聚体读数和标签。测序方案过程中采用的超短测序生成短读数长度,其存在序列比对的技术挑战,这是因为接近一半的人类基因组被重复覆盖,其中许多已知数十年。从计算机透视中,重复产生比对中的模糊性,其进而甚至在全染色体计数水平上产生偏差和错误。
此外,对于较短的感兴趣序列,例如,在兆碱基数量级上的序列,信噪比通常太低以至于无法提供对CNV的可靠检测。本发明提供了方法来克服检测CNV中的这些挑战。
评价CNV
确定CNV的方法
使用本文所述的方法提供的覆盖率值,可以相对于使用通过常规方法获得的序列覆盖率改善的灵敏度、选择性和/或效率确定与序列、染色体、或染色体区段的拷贝数和CNV相关的各种遗传病症。例如,在一些实施方式中,掩蔽的参考序列用于确定包括胎儿和母体核酸分子的母体测试样品中任意两种或更多种不同的完整胎儿贪色体非整倍性的存在与否。示例性的方法在下面提供了与参考序列(包括参考基因组)的比对读数。可在未掩蔽或掩蔽的参考序列上进行比对,从而产生映射至参考序列的序列标签。在一些实施方式中,仅考虑落入参考序列的未掩蔽区段的序列标签以确定拷贝数变异。
在一些实施方式中,用于确定母体测试样品中任何完整胎儿染色体非整倍性存在与否的方法涉及(a)获得母体测试样品中胎儿和母体核酸的序列信息;(b)使用上述序列信息和方法来鉴定选自染色体1-22、X和Y的各感兴趣染色体的序列标签数量或从中衍生的序列覆盖率量,并鉴定一个或多个标准化染色体序列的序列标签数量;(c)使用针对各感兴趣染色体鉴定的序列标签数量和针对各标准化染色体鉴定的序列标签数量来计算各感兴趣染色体的单染色体剂量;并且(d)比较各染色体剂量与阈值,并从而确定母体测试样品中任何完整胎儿染色体非整倍性存在与否。
在一些实施方式中,上述步骤(a)可包括对测试样品的至少一部分核酸分子进行测序以获得针对测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方式中,步骤(c)包括将针对各感兴趣染色体的单染色体剂量计算为针对各感兴趣染色体鉴定的序列标签数量与针对标准化染色体序列鉴定的序列标签数量的比率。在一些其他实施方式中,染色体剂量基于从序列标签数量衍生的经处理的序列覆盖率量。在一些实施方式中,仅唯一非冗余序列标签用于计算经处理的序列覆盖率量。在一些实施方式中,经处理的序列覆盖率量是序列标签密度比率,其是由序列长度标准化的序列标签的数量。在一些实施方式中,经处理的序列覆盖率量是经标准化的序列标签,其是感兴趣序列的序列标签数量除以基因组的全部或大部分。在一些实施方式中,按照感兴趣序列的全局概况调整经处理的序列覆盖率量。在一些实施方式中,按照测试的样品的GC含量和序列覆盖率之间的样品内相关性调整经处理的序列覆盖率量。在一些实施方式中,经处理的序列覆盖率量来自这些过程的组合,其进一步在本文他处描述。
在一些实施方式中,染色体剂量计算为针对各感兴趣染色体的经处理的序列覆盖率量与针对标准化染色体序列的经处理的序列覆盖率量的比率。
在任意上述实施方式中,完整染色体非整倍性选自完整染色体三体性、完整染色体单体性和完整染色体多体性。完整染色体非整倍性选自染色体1-22、X和Y中任一个的完整非整倍性。例如,所述不同完整胎儿染色体非整倍性选自2三体、8三体、9三体、20三体、21三体、13三体、16三体、18三体、22三体、47,XXX、47,XYY和X单体。
在上述实施方式中的任一个中,针对来自不同母体对象的测试样品重复步骤(a)-(d),并且该方法包括确定各测试样品中任意2种或更多种不同完整胎儿染色体非整倍性的存在与否。
在任一上述实施方式中,该方法还可包括计算经标准化的染色体值(NCV),其中NCV将染色体剂量与一组适格样品中相应染色体剂量的平均值相关联,如下:
其中分别是一组适格样品中第j个染色体剂量的估计平均值和标准偏差,并且xij是观察到的测试样品i的第j个染色体剂量。
在一些实施方式中,可通过将测试样品中感兴趣染色体的染色体剂量与相同流动池中测序的多重样品中的相应染色体剂量的中值相关联来如下“在线”计算NCV:
其中Mj是在相同流动池上测序的多重样品组中第j个染色体剂量的估计中值;是一组或多组在一个或多个流动池上测序的多重样品中第j个染色体剂量的标准偏差,并且xi是观察到的测试样品i的第j个染色体剂量。在该实施方式中,测试样品i是在确定Mj的相同流动池上测序的多种样品之一。
在一些实施方式中,提供方法来确定包含胎儿和母体核酸的母体测试样品中不同部分胎儿染色体非整倍性的存在与否。该方法涉及与上述列出的用于检测完整非整倍性的方法类似的过程。然而,并不分析完整染色体,而是分析染色体的区段。参见美国专利申请公开号2013/0029852,其通过引用纳入。
图1显示了按照一些实施方式用于确定拷贝数变异存在的方法。在运算130和135中,确定了适格序列标签覆盖率和测试序列标签覆盖率。本发明提供了过程以确定提供相对于常规方法改善的灵敏度和选择性的覆盖率量。用星号标记运算130和135并且由粗线框突出以表示这些运算导致相对于现有技术的改善。在一些实施方式中,序列标签覆盖率量经标准化、调整、修整和另外处理以改善分析的灵敏度和选择性。这些过程在本文他处进一步描述。
从透视中,该方法在确定测试样品的CNV中利用适格训练样品的标准化序列。在一些实施方式中,适格训练样品未受影响并且有正常拷贝数。标准化序列提供机制以标准化运行内和运行间变异性的测量。使用来自从对象获得的一组适格样品的序列信息鉴定标准化序列,其已知包括具有任一感兴趣序列(例如染色体或其区段)的正常拷贝数的细胞。在图1所示方法的实施方式的步骤110、120、130、145和146中列出了标准化序列的确定。在一些实施方式中,使用标准化序列来计算测试序列的序列剂量。参见步骤150。在一些实施方式中,也使用标准化序列来计算阈值,测试序列的序列剂量与该阈值比较。参见步骤150。从标准化序列和测试序列获得的序列信息用于确定测试样品中染色体非整倍性的有统计学意义的鉴定(步骤160)。
参考按照一些实施方式用于确定拷贝数变异存在的方法的详细内容,图1提供了用于确定生物样品中感兴趣序列,例如,染色体或其区段的CNV的实施方式的流程图100。在一些实施方式中,生物样品获自对象并且包括由不同基因组产生的核酸的混合物。可由2个个体向样品贡献不同基因组,例如,由胎儿和怀有胎儿的母体贡献不同基因组。同样,可由3个或更多个体向样品贡献不同基因组,例如,由2个或更多胎儿和怀有胎儿的母体贡献不同基因组。或者,由来自相同对象的非整倍体癌细胞和正常整倍体细胞向样品贡献基因组,例如,来自癌症患者的血浆样品。
除了分析患者的测试样品以外,针对各可能感兴趣染色体选择一种或多种标准化染色体或者一种或多种标准化染色体区段。与患者样品的正常检测异步鉴定标准化染色体或区段,其可发生在临床设置中。换而言之,在测试患者样品之前鉴定标准化染色体或区段。储存标准化染色体或区段与感兴趣染色体或区段之间的关系用于测试期间使用。如下所述,这种关系一般在跨越许多样品测试的周期上维持。以下讨论涉及针对单个感兴趣染色体或区段选择标准化染色体或染色体区段的实施方式。
获得一组适格样品以鉴定适格标准化序列并提供变异值用于确定测试样品中CNV的有统计学意义的鉴定。在步骤110中,从多种已知包含具有针对任一感兴趣序列的正常拷贝数的细胞的多个对象获得多个生物适格样品。在一个实施方式中,从怀有已用细胞遗传手段确认具有染色体的正常拷贝数的胎儿的妊娠母体获得适格样品。如下所述,生物适格样品可以是生物流体,例如,血浆,或任何合适的样品。在一些实施方式中,适格样品含有核酸分子,例如,cfDNA分子的混合物。在一些实施方式中,适格样品是母体血浆样品,其含有胎儿和母体cfDNA分子的混合物。通过使用任何已知测序方法对核酸,例如胎儿和母体核酸的至少一部分进行测序获得用于标准化染色体和/或其区段的序列信息。优选地,使用本文他处所述的任一下一代测序(NGS)方法来对单个或克隆扩增分子的胎儿或母体核酸进行测序。在各种实施方式中,在测序前和测序期间,如下所述对适格样品进行处理。它们可使用本文所述的设备、系统和试剂盒处理。
在步骤120中,适格样品中含有的所有适格核酸各自的至少一部分经测序以生成上百万个序列读数,例如,36bp读数,其与参考基因组,例如,hg18比对。在一些实施方式中,序列读数包括约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、或约500bp。预期该技术优势使得能够有超过500bp的单末端读数,其使得能够在生成配对的末端读数时有超过约1000bp的读数。在一个实施方式中,映射的序列读数包括36bp。在另一个实施方式中,映射的序列读数包括25bp。
序列读数与参考基因组比对,并且唯一映射至参考基因组的读数被称为序列标签。落在掩蔽的参考序列的掩蔽区段上的序列标签并不针对CNV分析进行计数。
在一个实施方式中,从唯一映射至参考基因组的读数获得包括20-40bp读数的至少约3x 106个适格序列标签、至少约5x 106个适格序列标签、至少约8x 106个适格序列标签、至少约10x 106个适格序列标签、至少约15x 106个适格序列标签、至少约20x 106个适格序列标签、至少约30x 106个适格序列标签、至少约40x 106个适格序列标签、或至少约50x106个适格序列标签。
在步骤130中,所有获自对适格样品中核酸测序的标签经计数以获得适格序列标签覆盖率。类似地,在运算135中,所有获自测试样品的标签经计数以获得测试序列标签覆盖率。本发明提供了过程以确定提供相对于常规方法改善的灵敏度和选择性的覆盖率量。用星号标记运算130和135并且由粗线框突出以表示这些运算导致相对于现有技术的改善。在一些实施方式中,序列标签覆盖率量经标准化、调整、修整和另外处理以改善分析的灵敏度和选择性。这些过程在本文他处进一步描述。
由于所有适格序列标签在各适格样品中被映射和计数,确定适格样品中感兴趣序列,例如,临床相关序列的序列标签覆盖率,随后从中鉴定标准化序列的其他序列的序列标签覆盖率也一样。
在一些实施方式中,感兴趣序列是与完整染色体非整倍性相关的染色体,例如,染色体21,并且适格标准化序列是不与染色体非整倍性相关的完整染色体,并且其序列标签覆盖率的差异近似感兴趣序列(即,染色体),例如,染色体21。选择的标准化染色体可以是最近似感兴趣序列的序列标签覆盖率变异的一个或一组。染色体1-22、X、和Y中的任意一个或多个可以是感兴趣序列,并且一个或多个染色体可鉴定为适格样品中任意一个染色体1-22、X和Y各自的标准化序列。标准化染色体可以是单个染色体,或者其可以是本文他处所述的一组染色体。
在另一个实施方式中,感兴趣序列是与部分非整倍性,例如,染色体缺失或插入,或不平衡染色体易位相关的染色体的区段,并且标准化序列是染色体区段(或区段组),其与部分非整倍性不相关并且其在序列标签覆盖率中的变异与关联部分非整倍性的染色体区段相近似。选择的标准化染色体区段可以是最近似感兴趣序列的序列标签覆盖率变异的一个或多个。任意一种或多种染色体1-22、X和Y的任意一个或多个区段可以是感兴趣序列。
在其他实施方式中,感兴趣序列是与部分非整倍性相关的染色体的区段,并且标准化序列是一种或多种全染色体。在其他实施方式中,感兴趣序列是与非整倍性相关的全染色体,并且标准化序列是不与非整倍性相关的一个或多个染色体区段。
无论在适格样品中单个序列或序列组是否被鉴定为针对任意一个或多个感兴趣序列的标准化序列,可选择适格标准化序列以具有序列标签覆盖率上的变异,其最佳或有效近似在适格样品中确定的感兴趣序列。例如,适格标准化序列是在适格样品间产生最小变异性的序列,其用于标准化感兴趣序列,即,标准化序列的变异性与适格样品中确定的感兴趣序列最接近。换句话说,适格标准化序列是选择的在适格样品间的序列剂量(针对感兴趣序列)上产生最小变异的序列。因此,该过程选择序列,其在用作标准化染色体时预期在针对感兴趣序列的批次染色体剂量上产生最小的变异性。
在适格样品中针对任意一种或多种感兴趣序列鉴定的标准化序列保留标准化序列的选择用于确定数天、数周、数月和可能数年内测试样品中非整倍性的存在与否,前提是该过程需要生成测序文库,并且对样品进行测序随时间基本不变。如上所述,就样品(不同样品)和测试运行中映射至其的序列标签的数量的变异性(也可能是其他原因)而选择标准化序列用于确定非整倍性存在,所述测试运行例如在同一天和/或不同天发生的测序运行,所述变异性与用作标准化参数的感兴趣序列的变异性最近似。这些过程中的显著变化将影响映射至所有序列的标签的数量,其进而将决定哪个或哪组序列将在同一天或不同天,在相同和/或不同测序运行中有样品间变异性,其最近似感兴趣序列,其将需要再次确定标准化序列组。过程中的显著变化包括用于制备测序文库的实验室方案中的变化,其包括与制备样品用于多重测序代替单重测序相关的变化,以及测序平台的变化,其包括用于测序的化学变化。
在一些实施方式中,选择用于标准化特定感兴趣序列的标准化序列是最能区分一个或多个适格样品与一个或多个受影响的样品的序列,其意味着标准化序列是具有最大可辨性的序列,即标准化序列的可辨性使得其向受影响的测试样品中的感兴趣序列提供最优区分以易于区分受影响的样品和其他未受影响的样品。在其他实施方式中,标准化序列是具有最小变异性和最大可辨性的组合的序列。
可辨性水平可确定为适格样品群中序列剂量,例如,染色体剂量或区段剂量与一个或多个测试样品中的染色体剂量之间的统计学差异,如下文所述和实施例所示。例如,可辨性可在数字上表示成t-检验值,其表示适格样品群中的染色体剂量与一个或多个测试样品中染色体剂量之间的统计学差异。类似地,可辨性可基于区段剂量代替染色体剂量。或者,可辨性可在数字上表示成经标准化的染色体值(NCV),其是染色体剂量的z-分数,只要NCV的分布是正态的。类似地,在染色体区段是感兴趣序列的情况中,区段剂量的可辨性可在数字上表示成经标准化的区段值(NSV),其是染色体区段剂量的z-分数,只要NSV的分布是正态的。在确定z-分数中,可使用一组适格样品中染色体或区段剂量的平均和标准偏差。或者,可使用包括适格样品和受影响的样品的训练组中的染色体或区段剂量的平均和标准偏差。在其他实施方式中,标准化序列是具有最小变异性和最大可辨性或者小变异性和大可辨性的最优组合的序列。
该方法鉴定固有相似特性并且易于产生样品和测序运行间的类似变异的序列,并且其可用于确定测试样品中的序列剂量。
确定序列剂量
在一些实施方式中,如图1中所示的步骤146中所述的所有适格样品中确定一种或多种感兴趣染色体或区段的染色体或区段剂量,并且在步骤145中限定标准化染色体或区段序列。在计算序列剂量之前提供一些标准化序列。然后,按照下文进一步描述的各种标准鉴定一种或多种标准化序列,参见步骤145。在一些实施方式中,例如,鉴定的标准化序列在所有适格样品间对感兴趣序列的序列剂量产生最小变异性。
在步骤146中,基于计算的适格标签密度,将针对感兴趣序列的适格序列剂量,即染色体剂量或区段剂量确定为针对感兴趣序列的序列标签覆盖率与针对来自步骤145中随后鉴定的标准化序列的其他序列的适格序列标签覆盖率的比率。鉴定的标准化序列随后用于确定测试样品中的序列剂量。
在一个实施方式中,适格样品中的序列剂量是染色体剂量,其计算为适格样品中针对感兴趣染色体的序列标签数量与针对标准化染色体序列的序列标签数量的比率。标准化染色体序列可以是单染色体、一组染色体、一种染色体的区段、或一组来自不同染色体的区段。因此,在适格样品中感兴趣染色体的染色体剂量确定为针对感兴趣染色体的标签的数量与针对以下的标签的数量的比率:(i)包含单个染色体的标准化染色体序列,(ii)包含2个或更多个染色体的标准化染色体序列,(iii)包含染色体的单个片段的标准化区段序列,(iv)包含来自一个染色体的2个或更多个区段的标准化区段序列,或(v)包含2个或更多个染色体的2个或更多个区段的标准化区段序列。用于按照(i)-(v)确定感兴趣染色体21的染色体剂量的示例如下:感兴趣染色体,例如染色体21的染色体剂量确定为染色体21的序列标签覆盖率与以下序列标签覆盖率之一的比率:(i)各所有剩余染色体,即染色体1-20,染色体22,染色体X和染色体Y;(ii)2种或更多种剩余染色体的所有可能组合;(iii)另一种染色体,例如染色体9的区段;(iv)另一种染色体的2个区段,例如染色体9的2个区段;(v)2种不同染色体的2个区段,例如,染色体9的区段和染色体14的区段。
在另一个实施方式中,与染色体剂量相反,适格样品中的序列剂量是区段剂量,该区段剂量计算为适格样品中针对感兴趣区段(其不是全染色体)的序列标签数量与针对标准化区段序列的序列标签数量的比率。标准化区段序列可以是上述标准化染色体或区段序列中的任一种。
鉴定标准化序列
在步骤145中,针对感兴趣序列鉴定标准化序列。在一些实施方式中,例如,标准化序列是基于计算的序列剂量的序列,例如,其在所有适格训练样品间产生最小的感兴趣序列的序列剂量的变异性。该方法鉴定固有相似特性并且易于产生样品和测序运行间的类似变异的序列,并且其可用于确定测试样品中的序列剂量。
可在一组适格样品中鉴定针对一种或多种感兴趣序列的标准化序列,并且在适格样品中鉴定的序列随后用于计算各测试样品中一种或多种感兴趣序列的序列剂量(步骤150)以确定各测试样品中非整倍性存在与否。当使用不同测序平台和/或在待测序核酸的纯化和/或测序文库的制备中存在差异时,针对感兴趣染色体或区段鉴定的标准化序列可能不同。不管使用的样品制备和/或测序平台,按照本文所述的方法使用标准化序列提供了对染色体或其区段的拷贝数变异的特异性和敏感测量。
在一些实施方式中,鉴定了超过一种标准化序列,即,可确定针对一种感兴趣序列的不同标准化序列,并且可针对一种感兴趣序列确定多个序列剂量。例如,当使用染色体14的序列标签覆盖率时,针对感兴趣染色体21的染色体剂量的变异,例如,变异系数(CV=标准偏差/平均值)是最少的。然而,可鉴定2、3、4、5、6、7、8或更多个标准化序列用于确定测试样品中感兴趣序列的序列剂量。例如,可使用染色体7、染色体9、染色体11或染色体12作为标准化染色体序列确定任一测试样品中染色体21的第二剂量,因为这些染色体都具有与染色体14接近的CV。
在一些实施方式中,当单个染色体被选作针对感兴趣染色体的标准化染色体序列时,标准化染色体序列将是产生针对感兴趣染色体的染色体剂量的染色体,其在所有测试样品,例如适格样品间有最小变异性。在一些情况中,最佳标准化染色体可能有最少的变异,但是可能有最能区分一个或多个测试样品与适格样品的适格剂量分布,即,最佳标准化染色体可能没有最低的变异,但可能有最大的可辨性。
确定测试样品中的非整倍性
基于对适格样品中标准化序列的鉴定,在包括衍生自在一种或多种感兴趣序列上不同的基因组的核酸的混合物的测试样品中确定针对感兴趣序列的序列剂量。
在步骤115中,测试样品获自怀疑或已知携带感兴趣序列的临床相关CNV的对象。如下所述,测试样品可以是生物流体,例如,血浆,或任何合适的样品。如本文所述,可使用非侵入性过程,如简单抽血来获得样品。在一些实施方式中,测试样品含有核酸分子,例如,cfDNA分子的混合物。在一些实施方式中,测试样品是母体血浆样品,其含有胎儿和母体cfDNA分子的混合物。
在步骤125中,测试样品中测试核酸的至少一部分如适格样品那样测序以生成上百万个序列读数,例如,36bp读数。在步骤120中,从对测试样品中的核酸进行测序生成的读数唯一映射或比对至参考基因组以产生标签。如步骤120中所述,从唯一映射至参考基因组的读数获得包括20-40bp读数的至少约3x 106个适格序列标签、至少约5x 106个适格序列标签、至少约8x 106个适格序列标签、至少约10x 106个适格序列标签、至少约15x 106个适格序列标签、至少约20x 106个适格序列标签、至少约30x 106个适格序列标签、至少约40x 106个适格序列标签、或至少约50x 106个适格序列标签。在某些实施方式中,通过测序设备产生的读数以电子格式提供。如下所述,使用计算设备实现比对。单个读数与参考基因组比较,其通常是大量的(上百万个碱基对)以鉴定与参考基因组唯一对应的读数。在一些实施方式中,比对过程允许在读数和参考基因组之间产生有限错配。在一些情况中,读数中的1、2或3个碱基对允许与参考基因组中的相应碱基对错配,但是仍然产生映射。
在步骤135中,使用下述的计算设备,从对测试样品中的核酸进行测序获得的所有或大多数标签经计数以确定测试序列标签覆盖率。在一些实施方式中,各读数比对至参考基因组的特定区域(在大多数情况中是染色体或区段),并且通过向读数添加位点信息来将读数转化成标签。随着该过程展开,计算设备将保持运行计数的映射至参考基因组(在大多数情况中是染色体或区段)的各区域的标签/读数数量。储存针对各感兴趣染色体或区段和各相应标准化染色体或区段的计数。
在某些实施方式中,参考基因组具有一个或多个排除的区域,其是真生物基因组的部分,但不包括在参考基因组中。可能与这些排除的区域比对的读数不被计数。排除的区域的示例包括长重复序列的区域,在X和Y染色体之间相似的区域等。使用通过上述的掩蔽计数获得的掩蔽的参考序列,CNV分析仅考虑参考序列的未掩蔽区段上的标签。
在一些实施方式中,该方法决定当多个读数与参考基因组或序列上的相同位点比对时,对标签是否计数超过一次。可能存在当2个标签有相同序列并因此比对至参考序列上的相同位点的情况。用于对标签计数的方法在某些情况下可能从计数中排除相同测序的样品衍生的相同标签。如果在给定样品中有不成比例数量的标签相同,这表明在过程中存在强烈偏差或其他缺陷。因此,根据某些实施方式,计数方法并不对来自给定样品的与来自该样品中之前计数的标签相同的标签进行计数。
可设定各种标准用于选择何时从单个样品中排除相同标签。在某些实施方式中,计数的标签的限定百分比必须是唯一的。如果超过该阈值的标签不是唯一的,则舍弃它们。例如,如果限定百分比要求至少50%是唯一的,相同标签不被计数直至唯一标签的百分比针对样品超过50%。在其他实施方式中,唯一标签的阈值数是至少约60%。在其他实施方式中,唯一标签的阈值百分比是至少约75%、或至少约90%、或至少约95%、或至少约98%、或至少约99%。针对染色体21,阈值可设为90%。如果30M标签比对至染色体21,则它们中至少27M必须是唯一的。如果3M计数的标签不是唯一的,并且第三千万零一个标签不是唯一的,则其不被计数。可使用合适的统计学分析对用于确定何时不对其他相同标签进行计数的特定阈值或其他标准的选择进行选择。影响该阈值或其他标准的一个因素是测序的样品与标签可比对的基因组大小的相对量。其他因素包括读数大小和相似考虑。
在一个实施方式中,映射至感兴趣序列的测试序列标签的数量被标准化至感兴趣序列的已知长度,它们与之映射以提供测试序列标签密度比率。如适格样品所述,并不需要标准化至感兴趣序列的已知长度,并且该标准化可能以步骤包括在内以降低数字的位数以使其简化用于人类解释。由于所有映射的测试序列标签在测试样品中被计数,确定测试样品中感兴趣序列,例如,临床相关序列的序列标签覆盖率,对应于至少一种在适格样品中鉴定的标准化序列的其他序列的序列标签覆盖率也一样。
在步骤150中,基于适格样品中至少一种标准化序列的相同性,针对测试样品中的感兴趣序列确定测试序列剂量。在各种实施方式中,使用感兴趣序列和本文所述的相应标准化序列的序列标签覆盖率来计算机模拟确定测试序列剂量。负责这项任务的计算设备将电子访问感兴趣序列及其相关标准化序列之间的关系,其可能储存在数据库、表格、图片,或以代码包括在程序指令中。
如本文他处所述,至少一种标准化序列可以是单个序列或序列组。测试样品中感兴趣序列的序列剂量是针对测试样品中感兴趣序列确定的序列标签覆盖率与测试样品中确定的至少一种标准化序列的序列标签覆盖率的比率,其中测试样品中的标准化序列对应于在适格样品中针对特性感兴趣序列鉴定的标准化序列。例如,如果针对适格样品中染色体21鉴定的标准化序列被确定为染色体,例如染色体14,则针对染色体21(感兴趣序列)的测试序列剂量被确定为染色体21的序列标签覆盖率与染色体14的序列标签覆盖率的比率,其各自在测试样品中确定。类似地,确定染色体13、18、X、Y和与染色体非整倍性相关的其他染色体的染色体剂量。感兴趣染色体的标准化序列可以是一个或一组染色体,或者一个或一组染色体区段。如之前所述,感兴趣序列可以是染色体的部分,例如,染色体区段。因此,染色体区段的剂量可确定为针对测试样品中该区段确定的序列标签覆盖率与针对测试样品中标准化染色体区段的序列标签覆盖率的比率,其中测试样品中的标准化区段对应于在适格样品中针对特定感兴趣区段鉴定的标准化区段(单个或一组区段)。染色体区段的尺寸范围可以是千碱基(kb)至兆碱基(Mb)(例如,约1kb至10kb、或约10kb至100kb、或约100kb至1Mb)。
在步骤155中,阈值衍生自针对下述序列剂量建立的标准偏差值:在多个适格样品中确定的适格序列剂量,和针对感兴趣序列而已知为非整倍体的样品确定的序列剂量。注意这种运算基本与患者测试样品的分析异步进行。其可以,例如,与从适格样品选择标准化序列同时进行。精确分类取决于不同类别,例如非整倍性类型的概率分布之间的差异。在一些示例中,针对各种类型的非整倍性,例如,21三体,从经验分布中选择阈值。如实施例所述建立用于对13三体、18三体、21三体、和X单体非整倍性进行分类的可能阈值,其描述了通过对从包括胎儿和母体核酸的混合物的母体样品中提取的cfDNA进行测序确定染色体非整倍性的方法的用途。经确定来区分针对染色体非整倍性受影响的样品的阈值可以与针对不同非整倍性的阈值相同或不同。如实施例所示,从测序轮次和样品间感兴趣染色体的剂量的变异性确定各感兴趣染色体的阈值。针对任何感兴趣染色体的染色体剂量的可辨性越低,则所有未受影响的样品间感兴趣染色体剂量的分布越窄,其用于设定用于确定不同非整倍性的阈值。
参考与鉴定患者测试样品相关的工作流程,在步骤160中,通过比较针对感兴趣序列的测试序列剂量与从适格序列剂量建立的至少一个阈值来确定测试样品中感兴趣序列的拷贝数变异。可通过用于测量序列标签覆盖率和/或计算区段剂量的相同计算设备来进行该运算。
在步骤160中,针对测试感兴趣序列的计算剂量与设为阈值的剂量比较,其按照使用者限定的“可靠性阈值”选择以将样品分类为“正常”、“受影响”、或“无判定”。“无判定”样品是无法可靠作出明确诊断的样品。各种类型的受影响的样品(例如,21三体、部分21三体、X单体)有其自身的阈值,一个用于判定正常(未受影响)样品,并且另一个用于判定受影响的样品(虽然在一些情况中,2个阈值重合)。如本文他处所述,在一些情况下,如果测试样品中核酸的胎儿分数足够高,无判定可转化成判定(受影响或正常)。可由在该工作流程的其他运算中采用的计算设备报告测试序列的分类。在一些情况中,分类以电子格式报告并且可通过显示、邮寄、短信等至感兴趣的人。
在一些情况中,CNV的确定包括计算NCV或NSV,其将染色体或区段剂量与上述的一组适格样品中的相应染色体或区段剂量相关联。然后,可通过比较NCV/NSV与预定的拷贝数评价阈值来确定CNV。
可选择拷贝数评价阈值来优化假阳性率和假阴性率。拷贝数评价阈值越高,发生假阳性的可能性越小。类似地,阈值越低,发生假阴性的可能性越小。因此,在仅在其以上被分类为真阳性的第一理想阈值和在仅在其以下被分类为真阴性的第二理想阈值之间存在权衡。
阈值很大程度上根据在一组未受影响的样品中确定的针对特定感兴趣染色体的染色体剂量的变异性设定。变异性取决于多种因素,包括样品中存在的胎儿cDNA的分数。通过未受影响的样品群间然则体剂量的平均值或中值和标准偏差来确定变异性(CV)。因此,用于分类非整倍性的阈值使用NCV,按照:
(其中分别是一组定量样品中第j个染色体剂量的估计平均值和标准偏差,并且xij是观察到的测试样品i的第j个染色体剂量。)
相关胎儿分数是:
因此,对于感兴趣染色体的各NCV,可基于未受影响的样品群间感兴趣染色体的染色体比率的平均值和标准偏差从CV计算与给定的NCV相关的预期胎儿分数。
随后,基于胎儿分数和NCV值之间的关系,可选择决策边界,基于正态分布分位数,在该边界以上样品被确定为阳性(受影响)。如上所述,针对在真阳性检测和假阴性结果率之间的最优权衡设定阈值。因此,选择设定的阈值以优化假阳性和假阴性。
某些实施方式提供了用于提供对包括胎儿和母体核酸分子的生物样品中胎儿染色体非整倍性的产前诊断的方法。基于以下进行诊断:获得来自衍生自生物测试样品,例如母体血浆样品的胎儿和母体核酸分子的混合物的至少一部分的序列信息,从测序数据计算针对一种或多种感兴趣染色体的标准化染色体剂量,和/或标准化针对一个或多个感兴趣区段的标准化区段剂量,和确定测试样品中感兴趣染色体的染色体剂量和/或感兴趣区段的区段剂量分别与在多个适格(正常)样品中建立的阈值之间的统计学显著差异,并基于统计学差异提供产前诊断。如方法的步骤160所述,进行对正常或受影响的诊断。在无法确信作出对正常或受影响的诊断的情况中得出“无判定”。
在一些实施方式中,可选择2个阈值。选择第一阈值以最小化假阳性率,在其之上样品将被分类为“受影响的”,并且选择第二阈值以最小化假阴性率,在其之下样品将被分类为“未受影响的”。具有在第二阈值之上但在第一阈值之下的NCV的样品被分类为“疑似非整倍性”或“无判定”样品,可通过独立手段确认非整倍性的存在与否。第一和第二阈值之间的区域可被称为“无判定”区域。
在一些实施方式中,疑似和无判定阈值示于表1。从中可见,NCV的阈值可在不同染色体间变化。在一些实施方式中,如上所述,阈值可根据样品的FF变化。在一些实施方式中,在此应用的阈值技术产生改善的灵敏度和选择性。
表1:疑似和受影响的NCV阈值归类无判定范围
疑似 受影响的
染色体13 3.5 4.0
染色体18 3.5 4.5
染色体21 3.5 4.0
染色体X(XO,XXX) 4.0 4.0
染色体Y(XX对比XY) 6.0 6.0
确定序列覆盖率
确定序列覆盖率的一般过程
所述的一些实施方式提供方法以低噪音和高信号确定序列覆盖率量,提供数据以相对于通过常规方法获得的序列覆盖率量改善的灵敏度、特异性、和/或效率确定与拷贝数和CNV相关的各种遗传病症。在某些实施方式中,来自测试样品的序列经处理以获得序列覆盖率量。
该过程利用来自其他来源的某些信息。在一些实施方式中,所有这种信息获自已知未受影响(例如,不是非整倍体)的样品的训练组。在其他实施方式中,一些或所有信息获自其他测试样品,其可以“在线”提供,因为可在相同过程中分析多个样品。
在某些实施方式中,采用序列掩模来降低数据噪音。在一些实施方式中,同时掩蔽感兴趣序列及其标准化序列。在一些实施方式中,当考虑不同的感兴趣染色体或区段时,可采用不同的掩模。例如,当染色体13是感兴趣染色体时可采用一种掩模(或掩模组)并且当染色体21是感兴趣染色体时可采用不同掩模(或掩模组)。在某些实施方式中,在箱分辨率上限定掩模。因此,在一个示例中,掩模分辨率是100kb。在一些实施方式中,不同的掩模可应用于染色体Y。可在比其他感兴趣染色体更细的分辨率上提供染色体Y的掩蔽的排除区域,如2013年6月17日提交的美国临时专利申请号61/836,057(案卷号ARTEP008P)。以鉴定排除的基因组区域的文件形式提供掩模。
在某些实施方式中,该过程采用经标准化的覆盖率的预期值来去除感兴趣序列概况中的箱-箱变异,该变异对于确定测试样品的CNV是无信息的。该过程按照整个基因组间各箱,或至少参考基因组中强染色体的箱的经标准化的覆盖率的预期值来调整经标准化的覆盖率量(用于下文的运算317)。可从训练组的未受影响的样品确定预期值。例如,预期值可以是训练组样品间的中值。样品的预期覆盖率值可确定为与箱比对的唯一非冗余标签数量除以与参考基因组的强染色体中所有箱比对的唯一非冗余标签的总数。
图2显示了用于确定感兴趣序列的覆盖率的过程200的流程图,其用于评价块214中测试样品中感兴趣序列的拷贝数。该过程去除了在未受影响的训练样品间共有的系统变异,该变异增加了CNV评价分析中的噪音。其也去除了测试样品特有的GC偏差,从而增加了数据分析中的信噪比。
该过程通过提供测试样品的序列读数开始,如块202中所示。在一些实施方式中,通过对从包括母体和胎儿的cfDNA的妊娠妇女的血液中获得的DNA区段进行测序来获得序列读数。进行该过程以将序列读数与包括感兴趣序列的参考基因组比对,提供测试序列标签。块204。参考序列上各箱中测试序列标签计数限定了箱的覆盖率。块206。在一些实施方式中,排除了与超过一个位点比对的读数。在一些实施方式中,与相同位点比对的多个读数被排除或减少至单个读数计数。在一些实施方式中,与排除的位点比对的读数也被排除。因此,在一些实施方式中,只有与非排除位点比对的唯一对齐的非冗余标签被计数以提供用于确定各箱覆盖率的非排除位点计数(NES计数)。在一些实施方式中,各箱的覆盖率除以相同样品中标准化序列的覆盖率,提供经标准化的覆盖率量。
然后,过程200可提供感兴趣序列的全局概况。全局概况包括从未受影响的训练样品的训练组中获得的各箱中的预期覆盖率。块208。过程200通过按照预期覆盖率调整测试序列标签的经标准化的覆盖率量去除训练组中的共有变异以获得去除了全局概况的覆盖率。块210。在一些实施方式中,从块208中提供的训练组中获得的预期覆盖率是训练样品间的中值。在一些实施方式中,运算2010通过从经标准化的覆盖率减去预期覆盖率来调整经标准化的覆盖率量。在其他实施方式中,运算2010将经标准化的覆盖率量除以预期覆盖率。
此外,过程200通过进一步调整已经调整以去除全局概况的覆盖率量来去除测试样品特有的GC偏差。如块212中所示,该过程基于测试样品中存在的GC含量水平和去除了全局概况的覆盖率之间的关系调整去除了全局概况的覆盖率,从而获得样品GC校正的覆盖率。在针对未受影响的训练样品中共有的系统偏差和对象内GC偏差调整之后,该过程提供了覆盖率量以改善的灵敏度和特异性评价样品的CNV。
确定序列覆盖率的示例性过程的详细内容
图3A显示了用于降低来自测试样品的序列数据中的噪音的过程301的示例。图3B-3J显示了过程的各个阶段的数据分析。如图3A所示,所述的过程由从一个或多个样品中提取cfDNA开始。参见块303。在本文他处描述了合适的提取过程和设备。在一些实施方式中,2013年3月15日提交的美国专利申请号61/801,126中所述的过程(通过引用全文纳入本文)提取cfDNA。在一些实施方式中,设备一起处理来自多个样品的cfDNA以提供多重文库和序列数据。参见图3A中的块305和307。在一些实施方式中,设备平行处理来自8个或更多个测试样品的cfDNA。如本文他处所述,测序系统可处理提取的cfDNA以产生编码的(例如,条码编码的)cfDNA片段的文库。测序仪对cfDNA的序列文库进行测序以产生非常大量的序列读数。每个样品的编码允许在多重化样品中读数的去多重化。8个或更多个样品各自有成百上千或上百万个读数。该过程可在图3A中其他运算之前过滤读数。在一些实施方式中,读数过滤是由在测序仪中实施的软件程序所实现的质量过滤过程,以滤去错误和低质量读数。例如,亿明达(Illumina)的测序控制软件(SCS)和共有评价序列和变异软件程序通过将由测序反应生成的原始图像数据转化成密度分数、碱基判定、质量分数比对、和其他格式滤去错误和低质量读数来提供用于下游分析的生物相关信息。
在测序仪或其他设备生成样品读数之后,系统元件将读数计算机模拟比对至参考基因组。参见块309。本文他处描述了比对。比对产生标签,其含有具有标注的位置信息的读数序列,其指定参考基因组上的唯一位置。在某些实施方式中,该系统产生第一通过比对而不考虑重复读数-有相同序列的2个或更多个读数-并且随后去除重复读数或将重复读数计数为单个读数以产生无重复序列标签。在其他实施方式中,该系统并不去除重复读数。在一些实施方式中,该过程从考虑中去除与基因组上多个位置比对的读数以产生唯一对齐的标签。在一些实施方式中,计算映射至非排除的位点的唯一对齐的非冗余序列标签以产生非排除位点计数(NES计数),其产生数据来估计覆盖率。
如他处所述,排除的位点是在出于序列标签计数的目的而已经排除的参考基因组的区域中发现的位点。在一些实施方式中,在含有重复序列的染色体区域,例如,着丝粒和端粒,和超过一种染色体共有的染色体区域,例如,在Y-染色体上存在的在X染色体上也存在的区域中发现排除的位点。非排除的位点(NES)是出于序列标签计数的目的在参考基因组中未被排除的位点。
接着,该系统将比对的标签分割成参考基因组上的箱。参见块311。该箱沿着参考基因组的长度分隔。在一些实施方式中,整个参考基因组被分成连续箱子,其可具有限定的相等尺寸(例如,100kb)。或者,该箱可具有可能以每个样品为基础动态确定的长度。测序深度影响了最优箱尺寸的选择。动态尺寸的箱可能具有由文库尺寸确定的尺寸。例如,箱尺寸可确定为容纳平均1000个标签所需的序列长度。
各箱具有多个来自研究中的样品的标签。该数量的标签(其反映了比对的序列的“覆盖率”)用作过滤和另外清除样品数据的起点以可靠确定样品中的拷贝数变异。图3A显示了块313-321的清除运算。
在图3A所示的实施方式中,该过程向参考基因组的箱应用掩模。参见块313。在以下过程运算中的一些或全部中,该系统可从考虑中排除掩蔽的箱中的覆盖率。在许多情况中,来自掩蔽的箱的覆盖率值不考虑图3A中的任何剩余运算。
在多个实施方式中,应用一个或多个掩模以去除发现显示出样品间高变异性的基因组的区域的箱。对感兴趣染色体(例如,染色体13、18和21)和其他染色体同时提供这种掩模。如本文他处所述,感兴趣染色体是研究作为潜在含有拷贝数变异或其他差错的染色体。
在一些实施方式中,使用以下方法从训练组的适格样品中鉴定掩模。开始,按照图3A中的运算315-319处理并过滤各训练组样品。然后标注各箱的经标准化和校正的覆盖率量,并且计算各箱的统计学数据如标准偏差、中值绝对偏差、和/或偏差系数。可评价各感兴趣染色体的各种过滤器组合。过滤器组合提供针对感兴趣染色体的箱的一个过滤器和针对所有其他染色体的箱的不同过滤器。
在一些实施方式中,在获得掩模之后重新考虑标准化染色体(或染色体组)的选择(例如,通过如上所述选择感兴趣染色体的截止值)。在应用序列掩模之后,可如本文他处所述进行选择一种或多种标准化染色体的过程。例如,染色体的所有可能组合评价为标准化染色体并且按照其区分受影响的和未受影响的样品的能力排列。该过程可能(或可能未)发现不同的最优标准化染色体或染色体组。在其他实施方式中,标准化染色体是在所有适格样品间对感兴趣序列的序列剂量中产生最小变异性的那些。如果鉴定了不同的标准化染色体或染色体组,该过程任选地执行箱的上述鉴定以过滤。新标准化染色体可能产生不同的截止值。
在某些实施方式中,不同的掩模用于染色体Y。合适染色体Y掩模的一个示例在2013年6月17日提交的美国临时专利申请号61/836,057(案卷号ARTEP008P)中描述,其通过引用纳入本文用于所有目的。
在系统计算机模拟掩蔽箱之后,其计算机模拟标准化没有被掩模排除的箱中的覆盖率值。参见块315。在某些实施方式中,该系统标准化各箱中针对参考基因组或其部分的大部分或全部覆盖率(例如,参考基因组的强染色体中的覆盖率)的测试样品覆盖率值(例如,每个箱的NES计数)。在一些情况中,该系统通过将研究中的箱的计数处于与参考基因组中所有强染色体比对的所有非排除的位点的总数来标准化测试样品覆盖率值(每箱)。如本文所述,强染色体不大可能是非整倍体的染色体。在某些实施方式中,强染色体是除了染色体13、18、和21以外的所有常染色体。
箱的转化计数值或覆盖率被称为“经标准化的覆盖率量”用于进一步处理。使用各样品唯一的信息来进行标准化。一般而言,不使用来自训练组的信息。标准化使得来自具有不同文库尺寸(和最终不同标签和读数数量)的样品的覆盖率量平等处理。后续过程运算中的一些使用衍生自训练样品的覆盖率量,其可从比用于研究中的测试样品的文库更大或更小的文库中测序得到。在没有基于与整个参考基因组(或至少强基因组)比对的读数数量的标准化的情况下,在一些实施方式中,使用衍生自训练组的参数的处理可能不是可靠或普遍的。
图3B显示了许多样品的染色体21、13和18的覆盖率。样品中的一些经互相不同的处理。因此,可看到在任何给定基因组位置上广泛的样品间变异。标准化去除了一些样品间变异。图3C的左图显示了全基因组间的经标准化的覆盖率量。
在图3A的实施方式中,系统从在运算315中产生的经标准化的覆盖率量中去除或减少“全局概况”。参见块317。这种运算去除了从基因组结构、文库生成过程、和测序过程产生的经标准化的覆盖率量上的系统偏差。另外,这种运算设计成针对来自任何给定样品中预期概况的系统线性偏差进行校正。
在一些实施方式中,全局概况去除涉及将各箱的经标准化的覆盖率量除以各箱的相应预期值。在其他实施方式中,全局概况去除涉及从各箱的经标准化的覆盖率量中减去各箱的预期值。可从训练组的未受影响的样品(或针对X染色体的未受影响的女性样品)中获得预期值。未受影响的样品是来自已知没有针对感兴趣染色体的非整倍性的个体的样品。在一些实施方式中,全局概况去除涉及从各箱的经标准化的覆盖率量中减去各箱的预期值(获自训练组)。在一些实施方式中,该过程使用采用训练组确定的各箱的经标准化的覆盖率量的中值。换而言之,中值是预期值。
在一些实施方式中,使用针对全局概况上样品覆盖率依赖性的线性校正来实施全局概况去除。如本文所示,全局概况是从训练组确定的各箱的预期值(例如,各箱的中值)。这些实施方式可采用通过将测试样品的经标准化的覆盖率量针对各箱获得的全局中值概况拟合获得的强线性模型。在一些实施方式中,通过将样品的观察到的经标准化的覆盖率量针对全局中值(或其他预期值)概况进行回归来获得线性模型。
该线性模型是基于假设:样品覆盖率量与全局概况预期值有线性关系。参见图3D。在这种情况中,样品标准化的覆盖率量在全局概况的预期覆盖率量上的回归将产生具有斜率和截距的线。在某些实施方式中,这条线的斜率和截距用于计算来自箱的全局概况值的“预测的”覆盖率量。在一些实施方式中,全局概况校正涉及将各箱的经标准化的覆盖率量处于该箱的预测覆盖率量。可通过将截距加入斜率与箱的全局概况预期值(例如中值)的乘积来确定箱的预测值。换而言之,这种运算可通过将各箱的经标准化的覆盖率量除以按照下式计算的相应预测来实施:
预测覆盖率量=样品标准化的箱覆盖率/(斜率*全局概况+截距)–1
如图3D所示,从线获得斜率和截距。全局概况去除的一个示例示于图3C。左图显示了在许多样品间经标准化的覆盖率量的高箱间变异。右图显示了在如上所述的全局概况去除之后的相同经标准化的覆盖率量。
在该系统在块317处去除或降低全局概况变异之后,其校正样品内GC(鸟嘌呤-胞嘧啶)含量变异。参见块319。各箱有其自身的GC分数分布。通过将箱中G和C核苷酸的数量除以箱中核苷酸的总数(例如,100000)来确定分数。一些箱将具有比其他更大的GC分数。如图3E和3F所示,不同的样品显示出不同的GC偏差。将在下文中进一步描述这些差异及其校正。图3E-G显示了作为GC分数(每箱)的函数的全局概况校正的经标准化的覆盖率量(每箱)。令人惊讶的是,不同的样品显示出不同的GC依赖性。一些样品显示出单调减少的依赖性(如图3E所示),而其他样品显示出逗点状的依赖性(如图3F和3G所示)。由于这些概况可对各样品唯一,该步骤中所述的校正将针对各样品分开且唯一地进行。
在一些实施方式中,该系统在图3E-G所示的GC分数的基础上计算机模拟排列箱。然后,其使用来自具有相似GC含量的其他箱的信息校正全局概况校正的经标准化的箱的覆盖率量。该校正应用于各未掩蔽的箱。
在一些实施方式中,通过以下方式校正各箱的GC含量。该系统计算机模拟选择具有与研究中的箱的GC分数相似的GC分数的箱,然后从选择的箱中的信息确定校正参数。在一些实施方式中,使用任一限定的相似性截止值选择具有相似GC分数的那些箱。在一个示例中,所有箱中的2%被选择。这些箱是具有与研究中的箱最相似的GC含量箱的2%。例如,选择具有稍高GC含量的箱中的1%和具有稍低GC含量的1%。
使用选择的箱,该系统计算机模拟确定校正参数。在一个示例中,校正参数是选择的箱中经标准化的覆盖率量的代表值(在全局概况去除之后)。这种代表值的示例包括选择的箱中经标准化的覆盖率量的中值或平均值。该系统将针对考虑的箱的计算的校正参数应用于针对研究中的箱的经标准化的覆盖率量(在全局概况去除之后)。在一些实施方式中,从研究中的箱的经标准化的覆盖率量中减去代表值(例如,中值)。在一些实施方式中,使用仅针对强常染色体(除染色体13、18和21以外的所有常染色体)的覆盖率量来选择经标准化的覆盖率量的中值(或其他代表值)。
在使用例如100kb箱的一个示例中,各箱将具有唯一的GC分数值,并且箱基于其GC分数含量被分组。例如,箱被分成50组,其中组边界对应于GC%分布的(0、2、4、6……,和100)分位数。从映射至相同GC组的强常染色体(在实施例中)计算各组箱的中值标准化的覆盖率量,然后从经标准化的覆盖率量减去中值(针对相同GC组中全基因组上的所有箱)。这将从任何给定样品内的强染色体估计的GC校正应用于相同样品内的潜在受影响的染色体。例如,具有0.338660至0.344720的GC含量的强染色体上的所有箱被分在一起,计算该组的中值并且从该GC范围内箱的经标准化的覆盖率中减去,其箱可在基因组上的任何其他位置发现(排除染色体13、18、21和X)。在某些实施方式中,从该GC校正过程中排除染色体Y。
图3G显示了使用中值标准化的覆盖率量作为如前所述的校正参数应用GC校正。左图显示未校正的覆盖率量对比GC分数概况。如本文所述,概况具有非线性形状。右图显示校正的覆盖率量。图3H显示了在GC分数校正之前(左图)和在GC分数校正之后(右图)许多样品的经标准化的覆盖率。图3I显示了在GC分数校正之前(红色)和在GC分数校正之后(绿色)许多测试样品的经标准化的覆盖率的变异系数(CV),其中GC校正导致经标准化的覆盖率中明显较小的变异。
上述过程是GC校正的较简单实施方式。校正GC偏差的替代方法采用spline或其他非线性拟合计数,其可应用于连续GC空间并且不包括合并GC含量的覆盖率量。合适技术的示例包括连续loess校正和光滑spline校正。拟合函数可衍生自箱接着箱的经标准化的覆盖率量对比研究中的样品的GC含量。通过将研究中的箱的GC含量应用于拟合函数来计算各箱的校正。例如,可通过减去研究中的箱的GC含量处的spline的预期覆盖率值来调整经标准化的覆盖率量。或者,可通过按照spline拟合分割预期覆盖率量来实现调整。
在运算319中校正GC-依赖性之后,该系统计算机模拟去除研究中的样品中的异常箱-参见块321。这种运算可被称为单样品拟合或修剪。图3J显示甚至在GC校正之后,覆盖率仍然在小区域中有样品特异性变异。参见例,染色体12上位置1.1e8处的覆盖率,其中产生与预期酯的意外高的偏差。这种偏差可能来自母体基因组中的小拷贝数变异。或者,这可能是由于与拷贝数变异不相关的测序中的技术原因。一般而言,该运算仅应用于强染色体。
例如,该系统以计算机模拟形式过滤在携带用于过滤的研究中的箱的染色体的所有箱中具有下述特征的任何箱:具有与GC校正的经标准化的覆盖率量的中值有超过3个中值绝对偏差的GC校正的经标准化的覆盖率量。在一个示例中,截止值定义为经调整与标准偏差一致的3个中值绝对偏差,因此,实际上,截止值是1.4826*距离中值的中值绝对偏差。在某些实施方式中,这种运算应用于样品中的所有染色体,包括强染色体和疑似非整倍性的染色体。
在某些实施方式中,进行可被表征为质量控制的其他运算。参见块323。在一些实施方式中,质量控制度量涉及检测任何潜在分母染色体,即“标准化染色体”或“强染色体”是否是非整倍体或者是否不适用于确定测试样品是否具有感兴趣序列的拷贝数变异。当该过程确定强染色体不适合时,该过程可排除测试样品且不作出判定。或者,这种QC度量的失败可能引发使用另一组标准化染色体用于判定。在一个示例中,质量控制方法比较了强染色体的实际经标准化的覆盖率值与强常染色体的预期值。可通过将多变量正常模型拟合至经标准化的未受影响的训练样品概况,根据数据或贝叶斯标准(例如,使用赤池信息标准或可能贝叶斯信息标准选择模型)的概率选择最佳模型结构,并拟合用于QC的最佳模型来获得预期值。可通过,例如,使用鉴定具有正常样品中染色体覆盖率的平均和标准偏差的概率函数的聚类技术来获得强染色体的正常模型。当然,可使用其他模型形式。该过程评价了给定固定模型参数的任何进入测试样品中观察的经标准化的覆盖率的概率。其可能通过用模型对各进入测试样品进行评分以获得概况并从而鉴定相对于正常样品组的异常数来进行。测试样品的概率与训练样品的概率的偏差可能表明标准化染色体或样品操作/试验处理人为因素中的异常,其可能导致错误的样品分类。这种QC度量可用于减少与任意这些样品人为因素相关的分类错误。图3K,右图,在x-轴上显示染色体数并且y-轴显示经标准化的染色体覆盖率,基于与上述获得的QC模型的比较。该图显示具有针对染色体2的过量覆盖率的一个样品和具有针对染色体20的过量覆盖率的另一个样品。这些样品经使用本文所述的QC度量而消除或者转向使用另一组标准化染色体。图3K的左图显示一个染色体的NCV对比概率。
图3A中所述的序列可用于基因组中所有染色体的所有箱。在某些实施方式中,不同的过程用于染色体Y。为了计算染色体或区段剂量、NCV和/或NSV,使用来自用于表达剂量、NCV和/或NSV的染色体或区段中箱的校正的经标准化的覆盖率量(如图3A中确定)。参见块325。在某些实施方式中,从感兴趣染色体、标准化染色体、感兴趣区段、和/或标准化区段中的所有箱计算的平均经标准化的覆盖率量用于计算序列剂量、NCV、和/或NSV,如本文他处所述。
在某些实施方式中,不同地处理染色体Y。其可通过掩蔽Y染色体唯一的一组箱来过滤。在一些实施方式中,按照美国临时专利申请号61/836,057中的过程确定Y染色体过滤器,其之前通过引用纳入。在一些实施方式中,过滤器掩蔽比其他染色体的过滤器的那些箱小的箱。例如,Y染色体掩模可以1kb水平过滤,而其他染色体可以100kb水平过滤。无论如何,可在与其他染色体相同的箱尺寸下标准化Y染色体(例如,100kb)。
在某些实施方式中,如上所述,在图3A的运算315中标准化过滤的Y染色体。然而,另外,Y染色体并不被进一步校正。因此,Y染色体箱没有经过全局概况去除。类似地,Y染色体箱没有经过GC校正或之后进行的其他过滤步骤。这是因为当处理样品时,该过程并不知晓样品是否是男性或女性。女性样品应该没有与Y参考染色体比对的读数。
产生序列掩模
本文所述的一些实施方式采用使用序列掩模滤去(或掩蔽)感兴趣序列上非判别序列读数的策略,在用于CNV评价的覆盖率值中,其相对于通过常规方法计算的值产生更高的信号和更低的噪音。可通过各种技术来鉴定这类掩模。在一个实施方式中,使用如下文进一步详述的图4A-4B中所示的技术来鉴定掩模。
在一些实施方式中,使用训练组的代表样品来鉴定掩模,其已知具有正常拷贝数的感兴趣序列。可使用首先标准化训练组样品的技术鉴定掩模,然后针对序列范围中的系统偏差校正(例如,概况),并且然后针对GC变异性校正它们,如下所述。在来自训练组的样品,而不是测试样品上进行标准化和校正。掩模鉴定一次,然后应用于许多测试样品。
图4A显示了用于产生这种序列掩模的过程400的流程图,其可应用于一个或多个测试样品以在对拷贝数的评价中从考虑中去除感兴趣序列上的箱。通过提供包括来自多个未受影响的训练样品的序列读数的训练组来起始该过程。块402。该过程然后将训练组的序列读数与包括感兴趣序列的参考基因组比对,从而提供针对训练样品的训练序列标签。块404。在一些实施方式中,仅映射至非排除的位点的唯一对齐的非冗余标签用于进一步分析。该过程涉及将参考基因组分成多个箱并且确定针对各训练样品的各箱中各未受影响的训练样品的训练序列标签的覆盖率。块406。该过程也确定各箱的所有训练样品间训练序列标签的预期覆盖率。块408。在一些实施方式中,各箱的预期覆盖率是训练样品的中值或平均值。预期覆盖率构成全局概况。该过程然后通过去除全局概况中的变异针对各训练样品调整各箱中的训练序列标签的覆盖率,从而获得针对各训练样品的箱中训练序列标签的去除了全局概况的覆盖率。该过程然后产生序列掩模,其包括参考基因组上未掩蔽和掩蔽的箱。各掩蔽的箱具有超过掩蔽阈值的分布特性。提供了训练样品上箱中训练序列标签的经调整的覆盖率的分布特征。在一些实施方式中,掩蔽阈值可与训练样品上箱内的经标准化的覆盖率中观察到的变异相关。可基于相应度量的经验分布鉴定具有样品间高的经标准化的覆盖率的变异或中值绝对偏差系数的箱。在一些替代性实施方式中,掩蔽阈值可与训练样品上箱内的经标准化的覆盖率中观察到的变异相关。可基于相应度量的经验分布掩蔽具有样品间高的经标准化的覆盖率的变异或中值绝对偏差系数的箱。
在一些实施方式中,限定感兴趣染色体和所有其他染色体的用于鉴定掩蔽的箱的分开的截止值,即掩蔽阈值。另外,可分开鉴定各感兴趣染色体的分开的掩蔽阈值,并且可限定所有未受影响的染色体组的单个掩蔽阈值。例如,针对染色体13限定基于某些掩蔽阈值的掩模并且另一个掩蔽阈值用于限定针对其他染色体的掩模。未受影响的染色体也可具有每个染色体限定的掩蔽阈值。
可评价各感兴趣染色体的各种掩蔽阈值组合。掩蔽阈值组合提供针对感兴趣染色体的箱的一个掩模和针对所有其他染色体的箱的不同掩模。
在一种方法中,样品分布截止值的测量或变异系数的值的范围定义为箱CV值的经验分布的分位数(例如,95、96、97、98、99)并且这些截止值用于排除感兴趣染色体的所有常染色体。另外,CV的截止值分位数范围针对经验CV分布限定,并且这些截止值应用于感兴趣染色体(例如,染色体21)。在一些实施方式中,感兴趣染色体是X染色体以及染色体13、18和21。当然,可考虑其他方法;例如,可针对各染色体进行分开优化。总之,待平行优化的范围(例如,一个范围针对研究中的感兴趣染色体并且另一个范围针对所有其他染色体)限定了CV截止值组合的网格。参见,图4B。在2个截止值间评价系统对训练组的表现(一个针对标准化染色体(或除感兴趣染色体以外的常染色体)并且一个针对感兴趣染色体),并且针对最终构造选择最佳表现的组合。这种组合可能对于各感兴趣染色体不同。在某些实施方式中,在验证组而不是训练组上评价表现,即,使用交叉验证来评价表现。
在一些实施方式中,经优化以确定截止值范围的表现是染色体剂量变异的系数(基于标准化染色体的暂时选择)。该过程使用当前选择的标准化染色体选择最小化感兴趣染色体的染色体剂量(例如,比率)的CV的截止值组合。在一种方法中,该过程如下测试了网格中的各截止值组合的表现:(1)应用截止值的组合以限定所有染色体的掩模并且应用这些掩模以过滤训练组的标签;(2)通过将图3A的过程应用于过滤的标签来计算训练组的未受影响的样品间的经标准化的覆盖率;(3)通过,例如,将研究中的染色体的箱的经标准化的覆盖率加和来确定每个染色体的代表经标准化的覆盖率;(4)使用现有的标准化染色体来计算染色体剂量,和(5)确定染色体剂量的CV。该过程可通过将它们应用于与训练组的原始部分分开的测试样品组来评价选择的过滤器的表现。即,该过程将原始训练组分割成训练和测试亚组。训练亚组用于如上所述限定掩模截止值。
在替代性实施方式中,与基于覆盖率的CV限定掩模相反,可通过来自箱内训练样品间比对结果的映射质量分数的分布来限定掩模。映射质量分数反映了读数映射至参考基因组的唯一性。换而言之,映射质量分数量化了读数错误比对的概率。低映射质量分数与低唯一性(高错误比对概率)相关。唯一性考虑了读数序列中的一个或多个错误(如由测序仪生成)。关于映射质量分数的详细说明显示于Li H,Ruan J,Durbin R.(2008)映射短DNA测序读数和使用映射质量分数判定变体(Mapping short DNA sequencing reads andcalling variants using mapping quality scores).Genome Research 18:1851-8,其通过引用全文纳入本文。在一些实施方式中,本文中的映射质量分是被称为MapQ分数。图4B显示MapQ分数具有与处理的覆盖率的CV的强单调相关性。例如,具有高于0.4的CV的箱几乎完全聚类在图4B曲线的左侧,并具有低于约4的MapQ分数。因此,具有小MapQ的掩蔽箱可产生与通过掩蔽高CV的箱限定的特别相似的掩模。
去除综合征特异性系统偏差
上述的技术可用于确定一般用于检测CV的覆盖率。在涉及较短感兴趣序列的大多数实施方式中,CNV检测的信号较低,其需要额外的处理以去除综合征特异性偏差。下文所述的过程可用于确定一基因组的一个或多个综合征特异性区域中的箱的校正。如图3A的运算317处施加的全局概况校正那样,需要校正来从样品处理、测序、和/或基因组结构中去除或降低系统偏差,但在这种情况中,其集中于在基因组的综合征区域中导入的偏差。校正采取值的一个或多个“波”的形式,其用于校正针对测试样品确定的箱覆盖率。可从未受影响的样品的聚类中获得的覆盖率值确定波。
如图5的块01所示,该分析方法获得未受影响的训练组中各箱的覆盖率。该训练组数据包括从对未受影响的样品的测序中获得的各箱的覆盖率值(例如,在给定的100kb箱中发现的非排除的位点数量)。测序使用相同设备/方案,其将与本领域中的测试样品联用。在某些实施方式中,使用至少一百个,或至少三百个训练组样品。在某些实施方式中,从多重测序(例如,12-重测序)中获得覆盖率值。在一些实施方式中,将参考基因组分成各自约100kb的等尺寸箱。其他尺寸是可能的,如本文他处所述。
一次一箱进行分析的最初部分直至综合征特异性区域中或综合征特异性区域组中所有未过滤的箱都被分析,并且通过这样,该分析以与综合征特异性区域中的箱相同的一般方式鉴定了综合征特异性区域以外的一组箱。如块03中所示,该分析方法通过将综合征特异性区域中的新箱设为研究中的箱来控制箱分析路径。在某些实施方式中,从共有区域中选择综合征特异性区域的边界,如下文所述。在一些实施方式中,从超过共有区域的检索区域选择综合征特异性区域的边界,如下文所述。
接着,如块05中所示,该分析过程确定了研究中的箱和各强染色体中每个其他可及的箱之间的相关性距离。在一种方法中,该过程通过使用来自所有样品的经标准化的覆盖率值鉴定相关性距离。
块05的算法(和块07的算法一起)鉴定了通常以与研究中的箱相同的方式变化的箱。换句话说,该方法分析箱覆盖率以鉴定与综合征区域中观察到的系统变异性相同的箱。可构建代表术语强染色体的所有常染色体箱之间的成对距离的距离矩阵(即,来自所有人类染色体的箱,但排除染色体13、18和21)。当然,常染色体箱可限于在如上所述过滤产生NES等之后留下的那些。
可通过各种技术鉴定箱间相关性。在本文所述的方法中,相关性计算为2个向量之间的距离,一个通过针对研究中的箱的所有训练组样品间的覆盖率值限定,而另一个包含针对综合征区域外的比较箱的所有训练组样品间的覆盖率值。可通过许多技术计算这两个向量之间的距离,如测量向量之间的角度,例如,通过这些向量之间角度的余弦。
仍然聚焦于研究中的箱,该分析过程基于相关性距离排列强染色体的箱(在综合征特异性区域以外)并针对研究中的箱鉴定一组最近相邻箱(SNB-综合征相邻箱)的成员。参见块07。这种运算收集了与研究中的箱有最高相关性的综合征区域外的箱。在一些实施方式中,针对综合征特异性感兴趣区域中的各100kb箱选择约5%的最高度相关的箱。在其他实施方式中,可选择不同量的箱。这些箱被保留纳入SNB组中。
这使得综合征特异性区域中研究中的箱的处理结束,使得该分析确定是否仍然考虑任何其他综合征特异性箱。参见块09。如果这样,处理控制回到块03,其中来自综合征特异性区域的下一个箱设为研究中的箱。通过这种方式,针对属于综合征特异性区域的各未过滤的箱重复该分析。
针对各研究中的综合征特异性箱鉴定并保留的相邻箱经收集并保留作为综合征区域外的唯一箱的集合。在针对各研究中的综合征箱进行的过程迭代上收集相邻的箱。在已经分析了所有综合征箱之后产生的集合是SNB组。由块11显示该运算。从这点触发,该分析采取第二阶段,其中仅考虑来自SNB的覆盖率值。在一些实施方式中,SNB组包括约6000个箱。在一些实施方式中,具有包括全基因组的代表性亚组的SNB组是优选的。例如,优选具有占全基因组的约10%的SNB组。
从第二阶段开始,运算13使用含有SNB覆盖率值作为维度的向量确定了训练组的每2个成员之间的相关性距离。该过程,与块15的过程一起,鉴定了一般以与SNB组中所有箱间相同的方式变化的训练组成员(未受影响的样品)。这类训练组成员然后用于针对研究中的箱鉴定多波校正过程中单个波的校正。
在一个实施方式中,通过形成一个维度上的SNB组箱和另一个维度上的训练样品的矩阵来鉴定训练组成员。矩阵中的各位置被训练样品j中综合征相邻箱i的经标准化的覆盖率占据。结果是有效的一组向量,各自针对不同样品,并且各自具有作为维度的SNB箱。在某些实施方式中,从完全上游处理中获得覆盖率值,包括至少如上所述的全局概况校正和GC校正。
接着在运算15中,该分析过程使用训练组成员间的校正“距离”来鉴定最大聚类的样品。在该方法中,通过其针对SNB箱的覆盖率值表示训练组的各成员。可以使用各种聚类过程。在一种实施方式中,该过程运行HOPACH-PAM算法,其将基于余弦角距离的区别矩阵D作为输入(以用于确定相关性距离的方法类似,除了向量在其自身的平均值周围集中,而不是重新调节以使相关性计算中的平均值为0)。参见M.van der Laan和K.Pollard,用于采用可视化和拔靴法的杂交分级聚类的新算法(A new algorithm for hybrid hierarchicalclustering with visualization and the bootstrap),Journal of StatisticalPlanning and Inference,117:275–303,2003,其通过引用全文纳入本文。
区别矩阵可从在运算13中生成的矩阵获得并表示为(训练样品数量)乘以(训练样品数量),其中各指数对表示2个具有这些指数的训练样品的样品向量的余弦角距离(如运算13中获得)。对于余弦角距离的讨论,参见例如,brenocon.com/blog/2012/03/cosine-similarity-pearson-correlation-and-ols-coefficie nts/,其通过引用全文纳入本文。无论使用何种方法来选择未受影响的样品,选择的样品在经标准化的覆盖率上有共同的系统变异性。
接着,如块17所示,该分析过程使用聚类成员的箱覆盖率值来产生并保留校正波。该算法生成针对参考序列中各非排除的箱的分开校正值。该算法可采用多种技术中的任意一种来从聚类成员的箱值产生校正值。在一个示例中,运算从聚类成员中获取箱的校正值的单个覆盖率值的集中趋势(例如,中值)。相同的过程用于所有箱。因此,在该示例中,校正波是箱覆盖率值的集合,各自表示针对研究中的箱的覆盖率值的中值。
在这点上,已经针对综合征特异性区域的各非排除的箱和综合征特异性区域外的高度相关的箱产生校正值。这些值表示校正的“第一波”。在所示的流程图中,该分析过程将这种校正波应用于训练组覆盖率值。参见块19。该过程可使用许多可用技术中的任一种应用校正波。在一种方法中,样品的覆盖率值除以校正值,一个箱接着一个箱。在另一种方法中,从样品值中减去校正值,一个箱接着一个箱。在另一种方法中,从样品值中减去预测值,一个箱接着一个箱。
在一个示例中,该过程通过拟合各箱的含有波校正值作为一个维度和相应样品值作为另一个维度的点来确定箱预测值。因此,针对各样品,点的集合被生成且拟合。在一种方法中,该过程采用回归技术来产生通过这些点的线并且然后使用该线作为函数以从样品覆盖率值获得预测覆盖率值,使用表述如下
预测箱覆盖率值=线斜率×(样品箱覆盖率值)+线截距
所得的预测箱覆盖率可从样品箱覆盖率值中减去或用作其除数。
该过程接着确定是否应该应用任何更多的综合征特异性校正波。参见块21。在一些实施方式中,该过程仅生成单个校正波。更一般地,其生成多个校正波,各校正进一步改善了样品分析;即,降低系统变异和改善变异系数。在一些实施方式中,衍生足够大数量的波,例如,10-20个波。通过以波数量的函数计算综合征CV在独立测试组中评价波的表现。通过发现在统计学上显著降低了测试数据中的CV的所有波来确定所需的波数量。
如果该过程确定应该生成另一个波,其重复运算13-19,其中采用校正的训练组来生成下一个校正波。换而言之,其使用训练组,如通过应用大部分最近生成的校正波修饰的。
CNV检测的两次通过过程
本文所述的过程适用于确定全染色体和亚染色体区域的CNV。如上所述,当较短的亚染色体区域与遗传综合征相关时,可去除与CNV不相关的综合征特异性概况以改善检测灵敏度。
在一些实施方式中,相似的过程可应用于全染色体和综合征区域分析。图6显示了工作流的2次重叠通过的流程图,通过1针对一般CNV检测,并且通过2针对综合征特异性CNV检测。这两次通过可包括相当的运算以获得经调整的覆盖率信息,CNV的确定基于这些信息。综合征分析特异性的运算之一是在调整覆盖率数据时去除综合征特异性波,参见块620,其在本文他处进一步详述。
该过程的初始单次通过部分由接收测序数据开始,参见块602,并且通过计算如上所述的计数继续,参见块612。在这点之后,所述的过程分成2次通过,如上所述。回到该过程的初始部分,工作流将测序数据转化成序列读数。当测序数据衍生自多重测序时,序列读数也经去多重化以鉴定数据来源。参见块604。序列读数然后比对至参考序列,其中以序列标签提供比对的序列读数。参见块606。然后,序列标签经过滤以获得非排除的位点(NES),其是清楚映射的非重复序列标签。序列标签组织成特异性序列长度的箱,如1kb、100kb、或1Mb。参见块610。在涉及综合征特异性区域分析的实施方式中,箱是100kb。在一些实施方式中,可以与图3A,块313中所述的方式使用从多个未受影响的样品中获得的序列掩模掩蔽显示高变异率的箱。然后,对NES中的标签进行计数以提供待针对CNV分析标准化并调整的覆盖率。参见块612。
在所示实施方式中,运算604、606、610和612进行一次并且大部分剩余运算进行2次,一个在全染色体CNV分析通过(通过1)并且另一个在综合征-特异性CNV分析通过(通过2)。在其他实施方式中,在进行两次通过中所示的一个或多个运算进行1次,并且结果在2个过程中共享。这种共享的运算的示例包括运算614、616和618。
在所示的实施方式中,通过,例如,将箱的NES计数除以标准化染色体组或基因组的总NES来标准化获得的NES计数。参见块614。然后,在一些实施方式中,包括未受影响的样品的训练组共有的变异被去除,该变异与感兴趣CNV不相关。在所示的实施方式中,共同变异表示为以与上述的全局波概况相似的方式从未受影响的样品中获得的全局波概况。在图6所示的一些实施方式中,用于获得全局波概况的未受影响的样品包括来自相同流动池或处理浴的样品。参见块616。在下文中进一步解释了流动池特异性全局波的计算。在所示的实施方式中,在已经去除了全局波概况之后,在样品特异性基础上针对GC水平校正覆盖率。参见块616。一些针对GC校正的算法在上文中与图3A,块319相关的文本中详细描述。
在所示的实施方式中,在用于综合征分析的通过2中,针对与综合征相关的区域的CNV不相关的综合征特异性变异调整GC校正的覆盖率。如本文他处详述,可以综合征特异性波概况获得综合征特异性变异。参见块620。此后,在用于全染色体分析的通过1和用于综合征分析的通过2,数据还可针对个体样品特异性的噪音进行过滤,例如,可从分析中去除具有与其他箱极不相同的覆盖率的异常箱的数据,这种差异可能无法归因于感兴趣拷贝数变异。参见块622。这种样品内过滤运算可能对应于图3A中的块321。
在一些实施方式中,在单样品过滤之后,通过在全染色体水平聚集覆盖率进行针对全染色体分析的通过1的过程,提供针对染色体的全覆盖率值。在所示的实施方式中,总覆盖率针对多个与感兴趣CNV不相关的变异或噪音来源标准化和调整。参见块624。然后,染色体的覆盖率用于计算染色体剂量和经标准化的染色体值(NCV),如上所述。然后,NCV可与标准分数比较以确定是否应该判定涉及全染色体的CNV。参见块626和632。
在所示的实施方式中,针对综合征特异性分析的通过2的过程涉及进行分割途径以鉴定测试样品的综合征检索区域内的区段。参见块628。该综合征检索区域是其中该过程检索与感兴趣综合征相关的信号的最大区域。检索区域内的区段被确定为有最高的CNV判定信号。然后获得来自综合征检索区域内的区段的分数,其可与决策标准比较。参见块630。在决策标准之上的分数表示存在与综合项相关的序列的CNV。参见块632。
在一些实施方式中,2步测序方法应用于一些测试样品,如下文中进一步详述。简言之,样品的最初评分与设计为增加灵敏度的较低的第一阈值比较,并且如果样品分数高于第一阈值,其经过比第一轮测序更深的第二轮测序。这种样品然后在与上述相似的工作流程中经再处理和分析。然后,所得的分数与设计为改善灵敏度的较高的第二阈值进行比较。在一些实施方式中,在分数在第一阈值以上的那些中,经过第二轮测序的样品分数较低,从而降低了需要再测序的样品的数量。
样品和样品处理
样品
用于确定CNV,例如,染色体非整倍性、部分非整倍性等的样品可包括区组任何细胞、组织、或器官的样品,其中待确定一个或多个感兴趣序列的拷贝数变异。理想地,样品含有在细胞中存在的核酸和/或“无细胞”的核酸(例如,cfDNA)。
在一些实施方式中,优选获得无细胞核酸,例如,无细胞DNA(cfDNA)。可通过本领域已知的各种方法从包括但不限于血浆、血清和尿液的生物样品中获得无细胞核酸,包括无细胞DNA(参见,例如,Fan等,Proc Natl Acad Sci105:16266-16271[2008];Koide等,Prenatal Diagnosis 25:604-607[2005];Chen等,Nature Med.2:1033-1035[1996];Lo等,Lancet 350:485-487[1997];Botezatu等,Clin Chem.46:1078-1084,2000;和Su等,JMol.Diagn.6:101-107[2004])。为了从样品中的细胞分离无细胞DNA,可使用各种方法,包括但不限于分馏、离心(例如,密度梯度离心)、DNA-特异性沉淀、或高通量细胞分选和/或其他分离方法。可获得用于cfDNA的人工和自动化分离的市售试剂盒(印第安纳州印第安纳波利斯的罗氏诊断公司(Roche Diagnostics,Indianapolis,IN),加利福尼亚州巴伦西亚的凯杰公司(Qiagen,Valencia,CA),特拉华州杜伦的MN公司(Macherey-Nagel,Duren,DE))。试验中使用包括cfDNA的生物样品通过测序试验确定染色体异常,例如21三体存在与否,该测试试验可检测染色体非整倍性和/或各种多态性。
在多个实施方式中,样品中存在的cfDNA可在使用前被特异性或非特异性富集(例如,在制备测序文库之前)。样品DNA的非特异性富集是指对样品的基因组DNA片段的全基因组扩增,其可用于在制备cfDNA测序文库之前增加样品DNA水平。非特异性富集可以是在包含超过一个基因组的样品中存在的2个基因组之一的选择性富集。例如,非特异性富集可以是针对母体样品中的胎儿基因组有选择性,其可通过已知方法获得以增加样品中胎儿相对于母体DNA的相对比例。或者,非特异性富集可以是样品中存在的2种基因组的非选择性扩增。例如,非特异性扩增可以是包括来自胎儿和母体基因组的DNA的混合物的样品中胎儿和母体DNA的非特异性扩增。用于全基因组扩增的方法是本领域已知的。简并寡核苷酸引物PCR(DOP)、引物衍生PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的示例。在一些实施方式中,包括来自不同基因组的cfDNA的混合物的样品针对混合物中存在的基因组的cfDNA是未富集的。在其他实施方式中,包括来自不同基因组的cfDNA的混合物的样品针对样品中存在的任一基因组是非特异性富集的。
包括本文所述的方法应用的核酸的样品一般包括生物样品(“测试样品”),例如,如上文所述。在一些实施方式中,通过多个熟知方法中的任一种纯化或分离用于针对一种或多种CNV筛选的核酸。
因此,在某些实施方式中,样品包含或由纯化的或分离的多核苷酸组成,或者其可包含样品,如组织样品、生物流体样品、细胞样品等。合适的生物流体样品包括但不限于血液、血浆、血清、汗液、泪液、痰液、尿液、痰液、耳流体、淋巴液、唾液、脑脊液、损伤、骨髓悬液、阴道流体、子宫颈灌洗液、脑流体、腹水、乳液、呼吸道、肠道和泌尿生殖道的分泌物、羊水、乳液、和白细胞透入样品。在一些实施方式中,样品是可通过非侵入过程容易获得的样品,例如,血液、血浆、血清、汗液、泪液、痰液、尿液、痰液、耳流体、唾液或粪便。在某些实施方式中,样品是外周血样品,或者外周写样品的血浆和/或血清部分。在其他实施方式中,生物样品是拭子或涂片、活检试样、或细胞培养物。在另一个实施方式中,样品是两种或更多种生物样品的混合物,例如,生物样品可包含生物流体样品、组织样品和细胞培养样品中的两种或更多种。本文所用术语“血液”、“血浆”和“血清”表述上包括其组分或处理部分。类似地,在样品取自活检、拭子、涂片等的情况中,“样品”表述上包括衍生自活检、拭子、涂片等的处理组分或部分。
在某些实施方式中,样品可获自以下来源,包括但不限于,来自不同个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体的样品(例如,患有癌症或疑似患有遗传病症的个体)、正常个体、在个体中疾病的不同阶段获得的样品、从经过针对疾病的不同治疗的个体获得的样品、来自经过不同环境因素的个体的样品、来自有病变倾向的个体的样品、接触感染性疾病试剂(例如,HIV)的个体的样品等。
在一个示例但非限制性的实施方式中,样品是母体样品,其获自妊娠女性,例如,妊娠妇女。在这种情况中,可使用本文所述的方法来分析样品以提供针对胎儿中潜在染色体异常的产前诊断。母体样品可以是组织样品、生物流体样品、或细胞样品。生物流体样品包括以下非限制性示例:血液、血浆、血清、汗液、泪液、痰液、尿液、痰液、耳流体、淋巴液、唾液、脑脊液、损伤、骨髓悬液、阴道流体、子宫颈灌洗液、脑流体、腹水、乳液、呼吸道、肠道和泌尿生殖道的分泌物、和白细胞透入样品。
在另一个示例性而非限制性的实施方式中,母体样品是两种或更多种生物样品的混合物,例如,生物样品可包含生物流体样品、组织样品和细胞培养样品中的两种或更多种。在一些实施方式中,样品是可通过非侵入过程容易获得的样品,例如,血液、血浆、血清、汗液、泪液、痰液、尿液、乳液、痰液、耳流体、唾液和粪便。在一些实施方式中,生物样品是外周血样品,和/或其血浆和血清部分。在其他实施方式中,生物样品是拭子或涂片、活检试样、或细胞培养物的样品。如上所述,术语“血液”、“血浆”和“血清”表述上包括其组分或处理部分。类似地,在样品取自活检、拭子、涂片等的情况中,“样品”表述上包括衍生自活检、拭子、涂片等的处理组分或部分。
在某些实施方式中,可从体外培养的组织、细胞、或其他含有多核苷酸的来源中获得样品。培养的细胞可获自以下来源,包括但不限于,保持在不同培养基和条件(例如,pH、压力或温度)中的培养物(例如,组织或细胞)、保持不同长度时间段的培养物(例如,组织或细胞)、用不同因素或试剂(例如,药物候选物,或调节剂)处理的培养物(例如,组织或细胞)、或不同类型组织和/或细胞的培养物。
从生物来源分离核酸的方法是熟知的并且将根据来源的性质而不同。本领域技术人员将易于根据本文所述方法的需要从来源分离核酸。例如,可优选将核酸样品中的核酸分子片段化。实施时,片段化可以是随机的,或者可以是特异性的,例如,使用限制性内切酶消化。用于随机片段化的方法是本领域熟知的,并且包括,例如,有限DNA酶消化、碱处理和物理剪切。在一个实施方式中,从cfDNA获得样品核酸,其未经片段化。
在其他示例性实施方式中,以基因组DNA获得样品核酸,其经过片段化成为大约300个或更多,大约400个或更多、或大约500个或更多的碱基对,并且可针对其易于应用NGS方法。
测序文库制备
在一个实施方式中,本文所述的方法可采用下一代测序技术(NGS),其使得可在单次测序运行中对多个样品进行单独测序,如基因组分子(例如,单重测序)或包括指数化的基因组分子的集合样品(例如,多重测序)。这些方法可生成多达数亿个DNA序列读数。在各种实施方式中,可使用,例如,本文所述的下一代测序技术(NGS)来确定指数化的基因组核酸和/或基因组核酸的序列。在各种实施方式中,可使用本文所述的一种或多种处理器来进行对使用NGS获得的大量序列数据的分析。
在各种实施方式中,这种测序技术的使用并不涉及测序文库制备。
然而,在某些实施方式中,本文考虑的测序方法涉及制备测序文库。在一个示例性方法中,测序文库制备包括产生易于测序的衔接体修饰的DNA片段(例如,多核苷酸)的随机集合。多核苷酸测序文库可从DNA或RNA,包括DNA或cDNA任一的等价物、类似物,例如,DNA或cDNA,其是通过逆转录酶作用从RNA模板产生的互补或拷贝DNA。多核苷酸可源自双链形式(例如,dsDNA,如基因组DNA片段、cDNA、PCR扩增产物等)或者,在某些实施方式中,多可苷酸可源自单链形式(例如,ssDNA、RNA等)并已经转化成dsDNA形式。例如,在某些实施方式中,单链mRNA分子可拷贝到适用于制备测序文库的双链cDNA。原多核苷酸分子的精确序列一般不是文库制备方法的材料,并且可以是已知或未知的。在一个实施方式中,多核苷酸分子是DNA分子。更具体地,在某些实施方式中,多核苷酸分子代表生物体的整个遗传互补物,或生物体的基本整个遗传互补物,并且是基因组DNA分子(例如,细胞DNA、无细胞DNA(cfDNA)等),其一般包括内含子序列和外显子序列(编码序列),以及非编码调节序列,如启动子和增强子序列。在某些实施方式中,原多核苷酸分子包括人基因组DNA分子,例如,在妊娠对象的外周血中存在的cfDNA分子。
通过使用包含特定范围的片段尺寸的多核苷酸来促进针对一些NGS测序平台的测序文库制备。这类文库的制备一般包括大多核苷酸(例如,细胞基因组DNA)的片段化以获得合适尺寸范围的多核苷酸。
可通过本领域技术人员已知的多种方法中的任一种来实现片段化。例如,可通过包括但不限于雾化、超声、和流体动力剪切的机械手段来实现片段化。然而,机械片段化一般在C-O、P-O和C-C键处切割DNA主链,导致具有断裂的C-O、P-O和/或C-C键的钝端以及3’-和5’-突出端(参见例如,Alnemri和Liwack,J Biol.Chem 265:17323-17333[1990];Richards和Boyer,J Mol Biol 11:327-240[1965]),其可能需要修复因为它们可能缺少后续的酶促反应(例如测序衔接体的连接)所必需的5’-磷酸,其是制备用于测序的DNA所需要的。
相反,使用cfDNA,一般以少于约300个碱基对的片段存在,并且因此,对于使用cfDNA样品生成测序文库而言一般不需要片段化。
一般而言,无论多核苷酸是强制片段化的(例如,体外片段化的),或天然以片段存在,它们被转化成具有5’-磷酸和3’-羟基的钝末端DNA。使用例如,如本文他处所述的亿明达平台的标准方案(例如测序方案)指导使用者末端修复样品DNA,以在dA-加尾之前纯化末端修复的产物,并在文库制备的衔接体连接步骤之前纯化dA-加尾产物。
本文所述的序列文库制备方法的各种实施方式消除了进行一个或多个一般由标准方案要求的以获得可通过NGS测序的修饰DNA产物的步骤的需要。缩减方法(ABB方法),1步方法、和2步方法是用于制备测序文库的方法的示例,其可在2012年7月20日提交的专利申请13/555,037中发现,其通过引用全文纳入本文。
用于追踪和验证样品完整性的标记物核酸
在各种实施方式中,可通过对样品基因组核酸(例如cfDNA)和(例如在处理之前)已经导入样品的伴随标记物核酸的混合物进行测序来实现样品追踪和样品完整性验证。
标记物核酸可与测试样品(例如,生物来源样品)结合并经过包括例如,以下步骤中的一个或多个的过程:分离生物来源样品,例如从全血样品中获得基本无细胞的血浆部分,从分离的(例如血浆)或未分离的生物来源样品(例如组织样品)中纯化核酸,和测序。在一些实施方式中,测序包括制备测序文库。可选择与来源样品结合的标记物分子的序列或序列组合以使之针对来源唯一。在一些实施方式中,样品中的唯一标记物分子全部具有相同序列。在其他实施方式中,样品中的唯一标记物分子是多种序列,例如,2、3、4、5、6、7、8、9、10、15、20或更多种不同序列的组合。
在一个实施方式中,可使用具有相同序列的多种标记物核酸分子验证样品的完整性。或者,可使用多种标记物核酸分子来衍生样品的相同性,这类分子具有至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少25、至少30、至少35、至少40、至少50、或更多种不同序列。验证多种生物样品,例如,两种或更多种生物样品的完整性需要用标记物核酸各自标记这两种或更多种样品,这些标记物核酸的序列与正标记的多种测试样品各自是唯一的。例如,可用具有序列A的标记物核酸标记第一样品,并且用具有序列B的标记物核酸标记第二样品。或者,可用全部具有序列A的标记物核酸分子标记第一样品,并且用序列B和C的混合物标记第二样品,其中序列A、B和C是具有不同序列的标记物分子。
可在文库制备(如果文库是待制备的)和测序前发生的样品制备的任意阶段向样品中添加标记物核酸。在一个实施方式中,标记物分子可与未处理的来源样品合并。例如,可在用于收集血液样品的收集管中提供标记物核酸。或者,可在抽血之后向血液样品中添加标记物核酸。在一个实施方式中,向用于收集生物流体样品的容器中添加标记物核酸,例如,向用于收集血液样品的血液收集管中添加标记物核酸。在另一个实施方式中,向生物流体样品的部分中添加标记物核酸。例如,向血液样品的血浆和/或血清部分,例如,母体血浆样品中添加标记物核酸。在另一个实施方式中,向纯化的样品,例如,已经从生物样品中纯化的核酸样品中添加标记物分子。例如,向纯化的母体和胎儿cfDNA的样品中添加标记物核酸。类似地,可在处理活检试样之前向试验中添加标记物核酸。在一些实施方式中,标记物核酸可与将标记物分子递送到生物样品的细胞中的运载体合并。细胞递送运载体包括pH-敏感且阳离子的脂质体。
在各种实施方式中,标记物分子具有反基因组序列,其是生物来源的样品的基因组中没有的序列。在示例性实施方式中,用于验证人生物来源样品的完整性的标记物分子具有人基因组中没有的序列。在替代性实施方式中,标记物分子具有来源样品和任意一种或多种其他已知基因组中没有的序列。例如,用于验证人生物来源样品的完整性的标记物分子具有人基因组和小鼠基因组中没有的序列。这种替代方案使得能够验证包含两种或更多种基因组的测试样品的完整性。例如,可使用具有人基因组和影响细菌的基因组中都没有的序列的标记物分子来验证从受到病原体,例如,细菌影响的对象中获得的人无细胞DNA样品的完整性。多种病原体,例如,细菌、病毒、酵母、真菌、原生动物等的基因组的序列是万维网ncbi.nlm.nih.gov/genomes上公开可得的。在另一个实施方式中,标记物分子是具有任何已知基因组中没有的序列的核酸。可在算法上随机生成标记物分子的序列。
在各种实施方式中,标记物分子可以是天然产生的脱氧核糖核酸(DNA)、核糖核酸或人工核酸类似物(核酸模拟物),包括肽核酸(PNA)、吗啉代核酸、锁核酸、乙二醇核酸、和苏糖核酸,其通过分子的主链变化与天然产生的DNA或RNA区分,或没有磷酸二酯主链的DNA模拟物。脱氧核糖核酸可来自天然产生的基因组,或者可在实验室中通过使用酶或通过固相化学合成生成。可使用化学方法来生成在自然中未发现的DNA模拟物。可得的其中磷酸二酯键已经被置换但是其中脱氧核糖被保留的DNA的衍生物包括但不限于具有由硫甲缩醛或羧酰胺连接形成的主链的DNA模拟物,其已经显示为良好的结构DNA模拟物。其他DNA模拟物包括吗啉代衍生物和肽核酸(PNA),其含有N-(2-氨基乙基)甘氨酸-基假肽主链(Ann RevBiophys Biomol Struct 24:167-183[1995])。PNA是非常好的DNA(或核糖核酸[RNA])结构模拟物,并且PNA寡聚体能够与Watson-Crick互补DNA和RNA(或PNA)寡聚体形成非常稳定的双链结构,并且它们也可通过螺旋侵入结合至双链DNA中的靶标(Mol Biotechnol 26:233-248[2004])。可用作标记物分子的另一种DNA类似物的良好的结构模拟物/类似物是硫代磷酸酯DNA,其中非桥连的氧之一被硫置换。这种修饰降低了内切核酸酶和外切核酸酶2的作用,包括5’至3’和3’至5’DNA POL 1外切核酸酶、核酸酶S1和P1、RNA酶、血清核酸酶和蛇毒磷酸二酯酶。
标记物分子的长度可能与样品核酸的长度有区别或无区别,即,标记物分子的长度可能与样品基因组分子的长度相似,或者其可以大于或小于样品基因组分子的长度。通过组成标记物分子的核苷酸或核苷酸类似物碱基的数量来测量标记物分子的长度。具有与样品基因组分子的长度不同的长度的标记物分子可与使用本领域已知的分离方法与来源核酸区分。例如,可通过电泳分离,例如毛细管电泳来确定标记物和样品核酸分子长度的差异。对于定量和评价标记物和样品核酸的质量而言,尺寸区分可能是优选的。优选地,标记物核酸短于基因组核酸,并且具有足够的长度以将它们从映射至样品基因组中排除。例如,需要30个碱基的人序列来使其唯一映射至人基因组。因此,在某些实施方式中,用于人样品的测序生物试验的标记物分子的长度应该是至少30bp。
主要通过用于验证来源样品的完整性的测序技术来确定标记物分子的长度选择。也可考虑正测序的样品基因组核酸的长度。例如,一些测序技术采用对多核苷酸的克隆扩增,其可能需要待克隆扩增的基因组多核苷酸有最小的长度。例如,使用Illumina GAII测序分析仪的测序包括通过桥式PCR对最小长度110bp的多核苷酸的体外克隆扩增(也称为聚类扩增),向其连接衔接体以提供至少200bp且小于600bp的核酸,其可被克隆扩增并测序。在一些实施方式中,衔接体连接的标记物分子的长度为约200bp至约600bp、约250bp至550bp、约300bp至500bp、或约350至450。在其他实施方式中,衔接体连接的标记物分子的长度为约200bp。例如,当对存在于母体样品中的胎儿cfDNA进行测序时,可选择标记物分子的长度与胎儿cfDNA分子的长度相似。因此,在一个实施方式中,用于包括对母体样品中cfDNA的大规模平行测序以确定是否存在胎儿染色体非整倍性的试验中的标记物分子的长度可以是约150bp、约160bp、170bp、约180bp、约190bp或约200bp;优选地,标记物分子是约170bp。其他测序方法,例如,SOLiD测序、Polony测序和454测序使用乳液PCR来克隆扩增用于测序的DNA分子,并且各种技术决定了待扩增的分子的最小和最大长度。待作为克隆扩增的核酸测序的标记物分子的长度可以多达约600bp。在一些实施方式中,待测序的标记物分子的长度可大于600bp。
单分子测序技术,其不采用分子的克隆扩增,并且能够对非常广泛模板长度中的核酸进行测序,在大多数情况下不需要待测序的分子是任何具体长度。然而,每单位质量的序列产率取决于3’端羟基的数量,并且因此具有较短的用于测序的模板比具有长模板更高效。如果从长于1000nt的核酸开始,一般建议将核酸剪切成100-200nt的平均长度,使得可从相同质量的核酸生成更多序列信息。因此,标记物分子的长度范围可以是几十个碱基至数千个碱基。用于单分子测序的标记物分子的长度可以多至约25bp、多至约50bp、多至约75bp、多至约100bp、多至约200bp、多至约300bp、多至约400bp、多至约500bp、多至约600bp、多至约700bp、多至约800bp、多至约900bp、多至约1000bp,或更大的长度。
也可由正测序的基因组核酸的长度决定标记物分子的选择长度。例如,cfDNA在人血流中以细胞基因组DNA的基因组片段循环。在妊娠妇女的血浆中发现的胎儿cfDNA分子一般比母体cfDNA分子短(Chan等,Clin Chem50:8892[2004])。对循环胎儿DNA的尺寸分离已经确认循环胎儿DNA片段的平均长度小于300bp,而已经估计母体DNA为约0.5-1kb(Li等,Clin Chem,50:1002-1011[2004])。这些发现与Fan等的发现一致,其确定使用NGS,其胎儿cfDNA很少大于340bp(Fan等,Clin Chem 56:1279-1286[2010])。用标准二氧化硅基方法从尿液中分离的DNA由2部分组成,高分子量DNA,其来自脱落细胞,和跨肾DNA(Tr-DNA)的低分子量DNA(150-250个碱基对)部分(Botezatu等,Clin Chem.46:1078-1084,2000;和Su等,JMol.Diagn.6:101-107,2004)。新开发的用于从体液中分离无细胞核酸的技术应用于跨肾核酸的分离已经显示在尿液中存在远短于150个碱基对的DNA和RNA片段(美国专利申请公开号20080139801)。在其中cfDNA是测序的基因组核酸的实施方式中,选择的标记物分子可达到约cfDNA的长度。例如,在待作为单核酸分子或作为克隆扩增的核酸测序的母体cfDNA样品中使用的标记物分子的长度可以为约100bp至600。在其他实施方式中,样品基因组核酸是更大分子的片段。例如,测序的样品基因组核酸是片段化的细胞DNA。在实施方式中,当片段化的细胞DNA经测序时,标记物分子的长度可达到DNA片段的长度。在一些实施方式中,标记物分子的长度至少是将序列读数唯一映射至合适参考基因组所需的最小长度。在其他实施方式中,标记物分子的长度是将标记物分子从映射至样品参考基因组中排除所需的最小长度。
另外,标记物分子可用于验证未通过核酸测序测试的样品,并且其可通过除了测序以外的常用生物技术,例如,实时PCR来衍生。
样品对照(例如,用于测序和/或分析的过程中阳性对照(in process positivecontrol))。
在各种实施方式中,导入样品中的标记物序列,如上所述,可发挥阳性对照的功能以验证测序以及后续处理和分析的精确性和功效。
因此,提供了用于提供用于对样品中DNA进行测序的过程中阳性对照(IPC)的组合物和方法。在某些实施方式中,提供了用于对包含基因组混合物的样品中cfDNA进行测序的阳性对照。IPC可用于关联从不同样品组获得的序列信息中的基线偏移,例如,在不同测序运行上不同时间处测序的样品。因此,例如,IPC可将针对母体测试样品获得的序列信息与从一组在不同时间处测序的适格样品获得的序列信息相关联。
类似地,在区段分析的情况中,IPC可将针对特定区段从对象获得的序列信息与从不同时间处测序的一组适格样品(或类似序列)获得的序列相关联。在某些实施方式中,IPC可将针对特定癌症相关基因组的从对象获得的序列信息与从一组适格样品(例如,来自已知扩增/缺失,等)获得的序列信息相关联。
另外,IPC可用作标记物以贯穿测序过程追踪样品。IPC也可提供针对感兴趣染色体,例如,21三体、13三体、18三体的一种或多种非整倍性定量阳性序列剂量值,例如,NCV,以提供合适的解释,并确保数据的可靠性和准确性。在某些实施方式中,可产生IPC以包含来自男性和女性基因组的核酸,从而提供母体样品中的染色体X和Y的剂量以确定胎儿是否是男性。
过程中对照的类型和数量取决于所需测试的类型或性质。例如,对于需要对来自包含基因组混合物的样品的DNA进行测序以确定是否存在染色体非整倍性的测试,该过程中对照可包括获自已知包含正测试的相同染色体非整倍性的样品的DNA。在一些实施方式中,IPC包含来自已知包含感兴趣染色体的非整倍性的样品的DNA。例如,用于测试以确定母体样品中胎儿三体,例如21三体存在与否的IPC包括从具有21三体的个体中获得的DNA。在一些实施方式中,IPC包括从具有不同非整倍性的2个或更多个个体中获得的DNA的混合物。例如,对于测试以确定是否存在13三体、18三体、21三体和单体X,IPC包括从各自携带具有正测试的三体之一的妊娠妇女获得的DNA样品的组合。除了完整染色体非整倍性以外,可产生IPC来提供用于测试的阳性对照以确定部分非整倍性。
使用从2个对象获得的细胞基因组DNA的混合物可产生用作检测单非整倍性的对照的IPC,所述对象的一个是非整倍体基因组的贡献者。例如,可通过将来自携带三体基因组的男性或女性对象的基因组DNA与已知不携带三体基因组的女性对象的基因组DNA合并来产生作为测试的对照以确定胎儿三体,21三体的IPC。可从两个对象的细胞中提取基因组DNA,并且经剪切以提供约100-400bp、约150-350bp、或约200-300bp的片段以模拟母体样品中的循环cfDNA片段。选择来自携带非整倍性,例如,21三体的对象的片段化DNA的部分以模拟在母体样品中发现的循环胎儿cfDNA的比例以提供包含来自携带非整倍性的对象的DNA的约5%、约10%、约15%、约20%、约25%、约30%的片段化DNA的混合物的IPC。IPC可包含来自各自携带不同非整倍性的不同对象的DNA。例如,IPC可包含约80%的未受影响的女性DNA,并且其余的20%可以是来自各自携带21三体染色体、13三体染色体和18三体染色体的3个不同对象的DNA。制备片段化的DNA的混合物用于测序。对片段化的DNA的混合物的处理可包括制备测序文库,其可以单重或多重方式使用任意大规模平行方法来测序。可在多重诊断测试中储存并使用基因组IPC的母液。
或者,可使用从已知怀有具有已知染色体非整倍性的胎儿的母体中获得的cfDNA来产生IPC。例如,cfDNA可获自怀有具有21三体的胎儿的妊娠妇女。从母体样品中提取cfDNA,并且克隆到细菌载体中并在细菌中生长以提供IPC的当前来源。可使用限制性酶从细菌载体中提取DNA。或者,可通过,例如PCR扩增克隆的cfDNA。IPC DNA可经处理用于在与来自测试样品的cfDNA相同的运行中进行测序,该待分析染色体非整倍性存在与否。
虽然上文针对三体描述了IPC的产生,应理解可产生IPC来反映其他部分非整倍性,包括,例如,各种区段扩增和/或缺失。因此,例如,在各种癌症已知与特定扩增相关的情况中(例如,乳腺癌与20Q13相关),可产生包含这些已知扩增的IPC。
测序方法
如上所述,对制备的样品(例如,测序文库)进行测序可以作为鉴定拷贝数变异的过程的部分。可采用多种测序技术中的任一种。
一些测序技术是市售可得的,如来自昂飞公司(Affymetrix Inc.)(加利福尼亚州萨尼维尔)的杂交测序平台和来自454生命科学公司(454Life Sciences)(康涅狄格州布拉德福德)、亿明达/索来萨公司(Illumina/Solexa)(加利福尼亚州海沃德)和螺旋生物科学公司(Helicos BioSciences)(马萨诸塞州剑桥)的合成测序平台,以及来自应用生物系统公司(Applied Biosystems)(加利福尼亚州福斯特城)的连接测序平台。除了使用螺旋生物科学公司的合成测序进行的单分子测序以外,其他单分子测序技术包括,但不限于,太平洋生物科学公司(Pacific Biosciences)的SMRTTM技术、ION TORRENTTM技术、和例如由牛津纳米孔技术公司(Oxford Nanopore Technologies)开发的纳米孔测序。
虽然自动化Sanger方法被认为是“第一代”技术,包括自动化Sanger测序的Sanger测序也可用于本文所述的方法中。其他合适的测序方法包括但不限于核酸成像技术,例如,原子力显微术(FAM)或透射电子显微术(TEM)。在下文中将详述所示的测序方法。
在一个示例性非限制性实施方式中,本文所述的方法包括获得测试样品中核酸的序列信息,例如,母体样品中的cfDNA,正筛选癌症的对象中的cfDNA或细胞DNA等,使用Helicos真单分子测序(tSMS)技术的单分子测序技术(如Harris T.D.等,Science 320:106-109[2008]中所述)。在tSMS技术中,将DNA样品切成大约100-200个核苷酸的链,并且向各DNA链的3’端添加聚A序列。各链通过添加经荧光标记的腺嘌呤核苷酸来标记。然后使所述DNA链杂交至流动室,所述流动槽包含固定在流动室表面的数百万个寡T捕获位点。在某些实施方式中,所述模板的密度可以是约1亿模板/cm2。然后将所述流动槽载入设备,例如,HeliScopeTM测序仪,并且激光照明所述流动槽的表面以显示各模板的位置。CCD照相机可绘制所述流动室表面的模板位置。然后,切割并洗去所述模板荧光标记物。所述测序反应由引入DNA聚合酶和经荧光标记的核苷酸开始。寡T核酸用作引物。所述聚合酶以模板定向的方式将经标记的核苷酸纳入引物。去除所述聚合酶和未纳入的核苷酸。通过对所述流动室表面成像来检测已定向纳入经荧光标记的核苷酸的模板。成像后,切割步骤去除荧光标记物,并用其它经荧光标记的核苷酸重复该过程直至达到所需读数长度。各核酸添加步骤收集序列信息。通过单分子测序技术的全基因组测序排除或一般消除测序文库制备中的PCR-基扩增,并且该方法使得能够直接测量样品,而不是测量该样品的拷贝。
在另一个示例性非限制性实施方式中,本文所述的方法包括获得测试样品中核酸的序列信息,例如,母体样品中的cfDNA,正筛选癌症的对象中的cfDNA或细胞DNA等,使用454测序(罗氏)(如Margulies,M.等,Nature 437:376-380[2005]中所述)。454测序一般包括2个步骤。在第一步骤中,将DNA剪切成约300-800碱基对的片段,并使该片段具有钝端。然后使寡核苷酸衔接子连接到片段的末端。衔接子用作片段扩增和测序的引物。使用例如,衔接子B(其含有5’-生物素标签)可将片段连接至DNA捕获珠,例如,链霉亲和素包被的珠。连接至珠的片段是在油-水乳液的液滴内扩增的PCR。所得结果是各珠上克隆扩张的DNA片段的多重拷贝。在第二步骤中,使所述珠在孔(皮升(picoliter)级大小的孔)中被捕获。在各DNA片段上平行进行焦磷酸测序。添加一个或多个核苷酸产生光信号,所述光信号由测序仪器内CCD照相机记录。所述信号强度与纳入的核苷酸数目成比例。焦磷酸测序利用在添加核苷酸后释放的焦磷酸盐(PPi)。PPi在腺嘌呤5′磷酰硫酸存在下通过ATP硫酸化酶转变成ATP。荧光素酶利用ATP将荧光素转变成氧化萤光素,而该反应产生光,检测并分析所述光。
在另一个示例性非限制性实施方式中,本文所述的方法包括获得测试样品中核酸的序列信息,例如,母体样品中的cfDNA,正筛选癌症的对象中的cfDNA或细胞DNA等,使用SOLiDTM技术(应用生物系统公司)。在SOLiDTM连接测序中,基因组DNA被剪切成片段,并且衔接子连接到所述片段的5’和3’末端以生成片段库。或者,能引入内部衔接子,所述引入是通过连接衔接子到所述片段的5’和3’末端,环化所述片段、消化所述环化的片段以生成内部衔接子,并且连接衔接子到所得片段的5’和3’末端以生成伴侣配对库。接着,在包含珠、引物、模板和PCR组分的微型反应器中制备克隆珠的群。PCR后,使所述模板变性,并且富集所述珠以分离带有延伸的模板的珠。选定珠的模板进行允许其结合载玻片的3’修饰。可通过依次使部分随机寡核苷酸与中央确定碱基(或碱基对)杂交和连接来测定序列,所述中央确定碱基(或碱基对)通过特异性荧光团来鉴定。在记录颜色之后,连接的寡核苷酸被切割并去除,然后重复该过程。
在另一个示例性非限制性实施方式中,本文所述的方法包括获得测试样品中核酸的序列信息,例如,母体样品中的cfDNA,正筛选癌症的对象中的cfDNA或细胞DNA等,使用太平洋生物科学公司的单分子实时(SMRTTM)测序技术。在SMRT测序中,在DNA合成期间对连续纳入染料标记的核苷酸进行成像。单DNA聚合酶分子连接至单个零级波长检测器(ZMW检测器)的底表面,其在将磷酸连接的核苷酸纳入生长的引物链的同时获得序列信息。ZMW检测器包括能通过DNA聚合酶对比荧光核苷酸背景观察到单核苷酸整合度的限制结构,所述荧光核苷酸快速扩散在ZMW输出中(例如,以微秒计)。一般需要数毫秒来将核苷酸纳入生长中的链。在该时程中,所述荧光标记物被激发并产生荧光信号,而所述荧光标签被切割掉。测量所述染料的对应荧光指示纳入了哪个碱基。重复该过程以提供序列。
在另一个示例性非限制性实施方式中,本文所述的方法包括获得测试样品中核酸的序列信息,例如,母体样品中的cfDNA,正筛选癌症的对象中的cfDNA或细胞DNA等,使用纳米孔测序(如Soni GV和Meller A.Clin Chem 53:1996-2001[2007]中所述)。由多家公司开发了纳米孔DNA分析技术,包括,例如,牛经纳米孔技术公司(英国牛经)、塞昆纳姆公司、NAB合成公司(NABsys)等。纳米孔测序是单分子测序技术,由此当单DNA分子通过纳米孔时被直接测序。纳米孔是一般直径在1纳米级别的小洞。将纳米孔浸入传导液并穿过该液体施加电势(电压)导致轻微电流,这归因于通过所述纳米孔的离子传导。流过的电流量对纳米孔的大小和形状敏感。当DNA分子穿过纳米孔时,DNA分子上的各核苷酸不同程度地阻塞所述纳米孔,使通过纳米孔的电流的幅度发生不同程度的改变。因此,在DNA分子通过纳米孔时发生的这种电流变化提供了DNA序列读数。
在另一个示例性非限制性实施方式中,本文所述的方法包括获得测试样品中核酸的序列信息,例如,母体样品中的cfDNA,正筛选癌症的对象中的cfDNA或细胞DNA等,使用化学敏感性的场效应晶体管(chemFET)阵列(例如,如美国专利申请公开号2009/0026082中所述)。在这种技术的一个实施例中,将DNA分子置于反应室中,然后所述模板分子能与结合在聚合酶上的测序引物杂交。能通过ChemFET传感器由电流改变来检测整合到测序引物3’末端的新核酸链的一个或多个三磷酸。阵列可具有多个chemFET传感器。在另一个实施例中,单核酸可连接到微珠上,并且所述核酸能在微珠上扩增,而所述单个微珠能被转移到ChemFET阵列的单个反应室,各室有ChemFET传感器,并且能对所述核酸测序。
在另一个实施方式中,本发明的方法包括使用Halcyon分子公司(HalcyonMolecular)的技术来获得测试样品中核酸的序列信息,例如,母体测试样品中的cfDNA,该技术使用透射电子显微术(TEM)。这种称为单分子放置快速纳米转移(IndividualMolecule Placement Rapid Nano Transfer)(IMPRNT)的方法包含利用单原子分辨透射电子显微镜对用重原子标记物选择性标记的高分子量(约150kb或更大)DNA成像,并且在有相同碱基-碱基间隔的超致密(3nm链-链)平行阵列上的超薄膜上排列这些分子。所述电子显微镜用于在膜上对所述分子成像以确定重原子标记物的位置并提取DNA的碱基序列信息。该方法还描述于PCT专利公开WO 2009/046445。该方法使得能够在不到十分钟内对全人基因组进行测序。
在另一个实施方式中,DNA测序技术是Ion Torrent测序,其将半导体技术与简单测序化学配对以直接将化学编码信息(A、C、G、T)翻译成半导体芯片上的数字信息(0,1)。本质上,当通过聚合酶将核苷酸纳入DNA链时,释放氢离子作为副产物。ION TORRENT使用微机器孔的高密度阵列以大规模平行方式进行这种生物化学过程。各孔有不同的DNA分子。所述孔下面是离子灵敏层,而该层下面是离子传感器。当核苷酸(例如C)添加至DNA模板并且随后纳入DNA链时,则氢离子将被释放。来自该离子的变化将改变溶液的pH,其可通过IonTorrent的离子传感器检测。测序仪-基本是全世界最小的固态pH计-判定碱基,直接从化学信息到数字信息。然后,离子个人基因组机(PGMTM)测序器使核苷酸一个接一个地顺序流入芯片。如果下一个流过芯片的核苷酸不匹配。将没有记录电压变化并且将没有判定碱基。如果在所述DNA链上有两个相同的碱基,则该电压会加倍,并且所述芯片会记录判定的两个相同碱基。直接检测使得能在数秒内记录核苷酸纳入。
在另一个实施方式中,本发明的方法包括使用杂交测序,获得针对测试样品中核酸,例如,母体测试样品中的cfDNA的信息。杂交测序方法涉及使多核苷酸序列接触多种多核苷酸探针,其中所述多种多核苷酸探针各自可选地连接到底物。所述底物可以是包括已知核苷酸序列阵列的平面。可使用与阵列杂交的模式确定样品中存在的多核苷酸序列。在其他实施方式中,各探针连接到珠(如磁珠等)上。与所述珠的杂交能被鉴定并用于鉴定样品中的多种多核苷酸序列。
在另一个实施方式中,本发明的方法包括通过对数百万的DNA片段的大规模平行测序获得针对测试样品中核酸,例如,母体测试样品中的cfDNA的序列信息,使用亿明达的合成测序和基于可逆终止子的测序(例如,如Bentley等,Nature 6:53-59[2009]中所述)。模板DNA可以是基因组DNA,例如,cfDNA。在一些实施方式中,来自分离的细胞的基因组DNA用作模板,并且其片段化成数百个碱基对的长度。在其他实施方式中,cfDNA用作模板,并且不需要片段化,因为cfDBA以短片段存在。例如,胎儿cfDNA以长度为约170个碱基对(bp)的片段在血流中循环(Fan等,Clin Chem 56:1279-1286[2010]),并且在测序之前不需要DNA片段化。亿明达的测序技术依赖于片段化的基因组DNA连接至平坦且任选透明的表面,其上结合寡核苷酸锚。模板DNA经末端修复以生成5’-磷酸化的钝末端,并且Klenow片段的聚合酶活性用于向钝磷酸化DNA片段的3’末端添加单个A碱基。这种添加制备用于与寡核苷酸衔接体连接的DNA片段,其在其3’端处有单T碱基突出以增加连接效率。衔接体寡核苷酸与流动池锚互补。在有限稀释的条件下,向流动槽添加经衔接子修饰的单链模板DNA,并且所述单链模版DNA与锚杂交以固定。连接的DNA片段经延伸和桥式扩增以产生超高密度的测序流动池,其具有数亿个聚类,各自含有约1000个拷贝的相同模板。在一个实施方式中,在经过聚类扩增之前,使用PCR对随机片段化的基因组DNA,例如,cfDNA进行扩增。或者,使用无扩增基因组文库制备,并且仅使用聚类扩增来富集随机片段化的基因组DNA,例如,cfDNA(Kozarewa等,Nature Methods 6:291-295[2009])。使用强4色DNA合成测序技术对模板进行测序,该技术采用具有可去除的荧光染料的可逆终止子。使用激光继发和全内反射光学元件来实现高灵敏度荧光检测。约20-40bp,例如,36bp的短序列读数针对重复掩蔽的参考基因组比对并且使用专门开发的数据分析流程软件来鉴定短序列读数与参考基因组的唯一映射。也可使用无重复掩蔽的参考基因组。无论使用重复掩蔽或无重复掩蔽的参考基因组,仅唯一映射至参考基因组的读数被计数。在完成第一读数之后,可原位再生模板以能够从片段的相反端进行第二读数。因此,可使用对DNA片段的单末端或成对末端测序。进行对样品中存在的DNA片段的部分测序,并且包含预定长度,例如,36bp的读数的序列标签映射至已知参考基因组,其被计数。在一个实施方式中,参考基因组序列是NCBI36/hg18序列,其在万维网genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)上可得。或者,参考基因组序列是GRCh37/hg19,其在万维网genome.ucsc.edu/cgi-bin/hgGateway上可得。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室(the European Molecular Biology Laboratory))和DDBJ(日本DNA数据库(the DNA Databank of Japan))。多种计算机算法可用于比对序列,包括但不限于BLAST(Altschul等,1990)、BLITZ(MPsrch)(Sturrock和Collins,1993)、FASTA(Person和Lipman,1988)、BOWTIE(Langmead等,Genome Biology 10:R25.1-R25.10[2009])、或ELAND(美国加利福尼亚州圣迭戈的亿明达公司)。在一个实施方式中,通过亿明达基因组分析仪的生物信息学比对分析对血浆cfDNA分子的克隆延伸的拷贝的一个末端进行测序和处理,其采用核苷酸高效大规模比对数据库(ELAND)软件。
在本文所述方法的一些实施方式中,映射的序列标签包含以下序列读数:约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、或约500bp。预期该技术优势使得能够有超过500bp的单末端读数,其使得能够在生成配对的末端读数时有超过约1000bp的读数。在一个实施方式中,映射的序列标签包含36bp的序列读数。通过比较标签的序列与参考的序列来确定测序的核酸(例如,cfDNA)的染色体源来实现序列标签的映射,并且不需要特定遗传序列信息。小程度的错配(每个序列标签0-2个错配)可能允许在混合样品中的基因组和参考基因组之间存在小多态性。
每个样品一般获得多种序列标签。在一些实施方式中,从每个样品中读数至参考基因组的映射获得包括20-40bp读数,例如36bp的至少约3x 106个序列标签、至少约5x 106个序列标签、至少约8x 106个序列标签、至少约10x 106个序列标签、至少约15x 106个序列标签、至少约20x 106个序列标签、至少约30x 106个序列标签、至少约40x 106个序列标签、或至少约50x 106个序列标签。在一个实施方式中,所有序列读数映射至参考基因组的所有区域。在一个实施方式中,已经映射至参考基因组的所有区域,例如所有染色体的标签被计数,并且确定混合DNA样品中感兴趣序列(例如染色体或其部分)的CNV,即过表现或低表现。该方法不需要2个基因组之间的区分。
在一次测序运行中样品间映射至参考基因组的序列标签数量变异(染色体间变异性)和不同测序运行中映射至参考基因组的序列标签数量变异(测序间变异性)上预测正确确定CNV(例如非整倍性)是否存在于样品中所需的准确性。例如,对于映射至富含GC和缺乏GC的参考序列的标签,该变异可能是特别显著的。使用用于核酸提取和纯化不同方案、测序文库制备、和使用不同测序平台可产生其他变异。本发明的方法基于标准化序列(标准化染色体序列或标准化区段序列)的知识使用序列剂量(染色体剂量,或区段剂量),以从本质上考虑从染色体间(运行内)和测序间(运行间)以及平台依赖性变异性造成的累积变异性。染色体剂量是基于标准化染色体序列的知识,其可包含单染色体,或2种或更多种选自染色体1-22、X和Y的染色体。或者,标准化染色体序列可包含单染色体区段,或者1种染色体或2种或更多种染色体的两个或更多个区段。区段剂量是基于标准化区段序列的知识,其可包含染色体1-22、X和Y中任一种的单区段,或其中2种或更多种的2个或更多个区段。
CNV和产前诊断
母体血液中循环的无细胞胎儿DNA和RNA可用于对越来越多的遗传病症的早期非侵入性产权诊断(NIPD),同时用于妊娠惯例和辅助作出生殖决策。在血流中存在循环的无细胞DNA已知超过50年。最近,在妊娠期间的母体血流中发现存在小量的循环胎儿DNA(Lo等,Lancet 350:485-487[1997])。被认为来自正在死亡的胎盘细胞的无细胞胎儿DNA(cfDNA)已经显示由一般长度低于200bp的短片段组成(Chan等,Clin Chem 50:88-92[2004]),其可在早至妊娠第4周时被分辨(Illanes等,Early Human Dev 83:563-566[2007]),并且已知在递送的数小时内从母体循环中清除(Lo等,Am J Hum Genet 64:218-224[1999])。除了cfDNA以外,也可在母体血流中分辨无细胞胎儿RNA(cfRNA)的部分,其来自在胎儿或胎盘中转录的基因。对来自母体血液样品的这些胎儿遗传元素的提取和后续分析提供了NIPD的新机会。
本发明的方法是用于NIPD的多态性独立的方法,并且其不需要胎儿cfDNA与母体cfDNA区分以能确定胎儿非整倍性。在一些实施方式中,非整倍性是全染色体三体或单体,或者部分三体或单体。由染色体的获得或缺失产生部分非整倍性,并且包括由不平衡易位、不平衡翻转、缺失和插入导致的染色体失衡。迄今为止,最常见的与生命相容的非整倍性是21三体,即,唐氏综合症(DS),其由染色体21的部分或全部的存在导致。罕见的是,可由遗传或偶发缺陷导致DS,从而染色体21的全部或部分的额外拷贝变得附连至另一个染色体(通常是染色体14)以形成单个异常染色体。DS与智力损伤、严重学习困难和由长期健康问题如心脏病导致的过高死亡率相关。具有已知临床显著性的其他非整倍性包括爱德华综合征(18三体)和帕陶综合征(13三体),其通常在生命的最初几个月中是致命的。与性染色体数量相关的异常也是已知的并且包括单体X,例如,女性新生儿中的特纳综合征(XO)、和三X综合征(XXX),和男性新生儿中的克氏综合征(XXY)和XYY综合征,其全部与包括智力技能降低和无生育能力的各种表型相关。单体X[45,X]是早期妊娠的共同病因,占自然流产的约7%。在1-2/10,000的45,X(也称为特纳综合征)的新生儿频率,估计不到1%的45,X受孕将生存下来。大约30%的特纳综合征患者是45,X细胞系与46,XX细胞系或含有重排X染色体的细胞系的嵌合体(Hook和Warburton 1983)。考虑到其高胚胎致死性,新生儿中的表型是相对温和的,并且已经假设所有患有特纳综合征的女性新生儿携带含有2个性染色体的细胞系。单体X可发生在45,X或45,X/46XX的女性,和45,X/46XY的男性中。人中的常染色体单体一般被认为与生命不相容;然而,存在非常多的在活的新生儿中一个染色体21的全单体的细胞遗传报告(Vosranova I等,Molecular Cytogen.1:13[2008];Joosten等,PrenatalDiagn.17:271-5[1997])。本文所述的方法可用于产前诊断这些和其他染色体异常。
根据一些实施方式,本文所述方法可确定染色体1-22、X和Y中任一种的染色体三体存在与否。可按照本发明的方法检测的染色体三体的示例包括,但不限于,21三体(T21;唐氏综合症)、18三体(T18;爱德华综合征)、16三体(T16)、20三体(T20)、22三体(T22;猫叫综合征)、15三体(T15;Prader Willi综合征)、13三体(T13;帕陶综合征)、8三体(T8;Warkany综合征)、9三体、和XXY(克氏综合征)、XYY、或XXX三体。以非嵌合状态存在的其他常染色体的完全三体是致死的,并且在以嵌合状态存在时可与生命相容。将理解可按照本文提供的教导在胎儿cfDNA中确定各种完全三体,无论是嵌合或非嵌合状态,以及部分三体。
可通过本发明的方法确定的部分三体的非限制性示例包括,但不限于,部分三体1q32-44、三体9p、三体4镶嵌性、三体17p、部分三体4q26-qter、部分2p三体、部分三体1q、和/或部分三体6p/单体6q。
本文所述的方法也可用于确定染色体单体X、染色体单体21、和部分单体,如单体13、单体15、单体16、单体21、和单体22,其已知涉及妊娠流产。也可通过本文所述的方法确定涉及完全非整倍性的染色体的部分单体。可按照本发明的方法确定的缺失综合征的非限制性示例包括由染色体部分缺失导致的综合征。可按照本文所述的方法确定的部分缺失的示例包括但不限于染色体1、4、5、7、11、18、15、13、17、22和10的部分缺失,其如下文所述。
1q21.1缺失综合征或1q21.1(复发)微缺失是染色体1的罕见异常。除了缺失综合征以外,还存在1q21.1复制综合征。缺失综合征在特定位置上有一部分消失的DNA,而复制综合征在相同位置上有DNA的相似部分的2个或3个拷贝。文献将缺失和复制都称为1q21.1拷贝数变异(CNV)。1q21.1缺失可与TAR综合征(血小板减少症-桡骨缺失)相关。
Wolf-Hirschhorn综合征(WHS)(OMIN#194190)是与染色体4p16.3的半合子缺失相关的连续基因缺失综合征。Wolf-Hirschhorn综合征是特征为出生前和出生后生长缺陷的先天性畸形综合征、不同程度发育障碍、特征性的颅面特征(“希腊战士盔甲”外观的鼻、高额头、突出的眉间、器官距离过远、高拱形眉毛、凸眼、内眦赘皮、短人中、嘴角下弯的嘴、和小颌)、和癫痫症。
染色体5的部分缺失,也称为5p-或5p减,并且称为猫叫综合征(OMIN#123450)是由染色体5的短臂(p臂)缺失导致(5p15.3-p15.2)。患有这种病症的婴儿具有像猫一样的高亢哭声。该病症的特征在于智力障碍和延迟发育,小头尺寸(头小畸型)、低出生体重、和婴儿弱肌紧张(张力衰退)、独特的面部特征和可能的心脏缺陷。
威廉姆斯综合征,也称为染色体7q11.23缺失综合征(OMIN 194050)是连续基因缺失综合征,其产生由含有约28个基因的染色体7q11.23上1.5-1.8Mb的半合子缺失导致的多系统紊乱。
雅各布森综合征(也称为11q缺失紊乱),是从包含带11q24.1的染色体11的末端区的缺失导致的罕见先天性紊乱。其可导致智力障碍、独特的面部外观、和包括心脏缺陷和出血紊乱的多种生理问题。
染色体18的部分单体,称为单体18p,是罕见的染色体紊乱,其中染色体18的短臂(p)的全部或部分缺失(镶嵌性)。该紊乱的一般特征是身材矮小、不同程度的智力低下、语言延迟、头面部(颅面)区域畸形、和/或其他生理异常。相关的颅面缺陷可能在病例间在范围和严重性上有很大差异。
由染色体15的结构或拷贝数变化导致的病症包括安格尔曼综合征和帕-魏二氏综合征,其涉及在染色体15,15q11-q13区域的相同部分中基因活性丧失。将理解集中易位和微缺失可能在携带患者中无症状,但可能在后代中导致主要遗传疾病。例如,携带15q11-q13微缺失的健康母体可能生育有安格尔曼综合征的儿童,这是一种严重的神经变性疾病。因此,本文所述的方法、设备和系统可用于鉴定胎儿中的这种部分缺失和其他缺失。
部分单体13q是罕见的染色体紊乱,其在丢失染色体13的长臂(q)的片段时发生(镶嵌性)。有部分单体13q的新生儿可显示出低出生体重、头和面(颅面区域)畸形、骨骼异常(尤其是手和脚)、和其他生理异常。智力低下是这种病症的特征。在出生患有这种紊乱的个体中,婴儿期的死亡率高。几乎所有的部分单体13q的病例随机出现,没有明显原因(偶发)。
由染色体17的一个拷贝上的缺失、遗传物质丢失导致史密斯-马吉利综合征(SMS–OMIM#182290)。这种熟知的综合征与发育延迟、智力低下、先天性异常如心肾缺陷、和神经行为异常如严重睡眠障碍和自残行为相关。在大部分病例(90%)中,史密斯-马吉利综合征(SMS)由染色体17p11.2中的3.7-Mb间隙缺失导致。
22q11.2缺失综合征,也称为迪格奥尔格综合征,是有染色体22的小片段缺失导致的综合征。缺失(22q11.2)在染色体对之一的长臂上的染色体中间附近出现。这种综合征的特征广泛变化,甚至在同一家族的成员间也是如此,并且影响身体的许多部分。特征性的迹象和症状可包括出生缺陷,如先天性心脏病、上颚缺陷,通常大部分与闭合相关的神经肌肉问题(腭-咽闭合不充分)、学习障碍、面部特征轻度差异、和复发性感染相关。染色体区域22q11.2中的微缺失与20-30倍增加的精神分裂症风险相关。
染色体10的短臂上的缺失与迪格奥尔格综合征状表型相关。染色体10p的部分单体是罕见的,但已经在一部分显示迪格奥尔格综合征特征的患者中观察到。
在一些实施方式中,本文所述的方法、设备和系统用于确定部分单体,包括但不限于染色体1、4、5、7、11、18、15、13、17、22和10的部分单体,例如,也可使用该方法确定部分单体1q21.11、部分单体4p16.3、部分单体5p15.3-p15.2、部分单体7q11.23、部分单体11q24.1、部分单体18p、染色体15的部分单体(15q11-q13)、部分单体13q、部分单体17p11.2、染色体22的部分单体(22q11.2)、和部分单体10p。
可按照本文所述的方法确定的其他部分单体包括不平衡的易位t(8;11)(p23.2;p15.5);11q23微缺失;17p11.2缺失;22q13.3缺失;Xp22.3微缺失;10p14缺失;20p微缺失,[del(22)(q11.2q11.23)],7q11.23和7q36缺失;1p36缺失;2p微缺失;1型神经纤维瘤(17q11.2微缺失),Yq缺失;4p16.3微缺失;1p36.2微缺失;11q14缺失;19q13.2微缺失;Rubinstein-Taybi(16p13.3微缺失);7p21微缺失;敏-迪综合征(17p13.3);和2q37微缺失。部分缺失可以是染色体的部分的小缺失,或者它们可以是染色体的微缺失,其中可能出现单基因缺失。
已经鉴定了通过重复染色体臂的部分导致的集中复制综合征(参见OMIN[在ncbi.nlm.nih.gov/omim上在线阅读的人中的在线孟德尔遗传模式])。在一个实施方式中,本发明的方法可用于确定染色体1-22、X和Y中任一个的区段的复制和/或倍增的存在与否。可按照本发明的方法确定的复制综合征的非限制性示例包括染色体8、15、12和17的部分的复制,其在下文中描述。
8p23.1复制综合征是由来自人染色体8的区域的复制导致的罕见遗传病症。该复制综合征具有64000个新生儿之一的估计发病率并且与8p23.1缺失综合征相互关联。8p23.1缺失与不同表型相关,包括以下的一种或多种:语言延迟、发育延迟、轻度畸形、突出的额头和高拱形眉毛、以及先天性心脏病(CHD)。
染色体15q复制综合征(Dup15q)是临床上可鉴定的综合征,其来自染色体15q11-13.1的复制。具有Dup15q的婴儿具有张力衰退(弱肌紧张)、发育迟缓;它们可能生来就有裂唇和/或裂腭或者心脏、肾或其他器官畸形;它们显示一些程度的先天性延迟/障碍(智力低下),语言延迟,和感官处理紊乱。
Pallister Killian综合征是额外的染色体12物质的结果。通常存在细胞的混合物(镶嵌性),一些具有额外的12材料,并且一些是正常的(没有额外12材料的46个染色体)。患有这种综合征的婴儿有许多问题,包括严重的智力低下、弱肌紧张、“粗”面部特征、和凸起的前额。它们往往有非常薄的上唇和较厚的下唇,以及短鼻。其他健康问题包括癫痫、进食困难、关节僵硬、成年白内障、听力丧失、和心脏缺陷。患有Pallister Killian综合征的人有缩短的寿命。
患有命名为dup(17)(p11.2p11.2)或dup 17p的遗传病症的个体在染色体17的短臂上携带额外遗传信息(称为复制)。染色体17p11.2的复制引起Potocki-Lupski综合征(PTLS),其新发现的遗传病症,在医学文献中仅报告了几十个病例。具有这种复制的患者通常具有低肌紧张、进食困难、并且无法在婴儿期生长,并且也存在延迟发育的运动和语言发展指标。具有PTLS的许多个体具有咬合和语言困难。另外,患者可具有与患有孤独症或自闭症谱系障碍的人相似的行为特性。具有PTLS的个体可能有心脏缺陷和睡眠呼吸暂停。已知包括基因PMP22的染色体17p12中大区域复制导致恰克-马利-杜斯氏病。
CNV与死胎相关。然而,由于常规细胞遗传学的固有限制,CNV对死胎的作用被认为显示不足(Harris等,Prenatal Diagn 31:932-944[2011])。如本文他处和实施例中所示,本发明的方法能够确定部分非整倍性的存在,例如,染色体区段的缺失和倍增,并且可用于鉴定和确定与死胎相关的CNV的存在与否。
用于确定CNV的设备和系统
一般使用各种计算机执行的算法和程序来进行对测序数据的分析和从中衍生的诊断。因此,某些实施方式采用涉及储存在一个或多个计算机系统中或其他处理系统或通过其传递的数据的过程。本文所述的实施方式也涉及用于进行这些运算的设备。该设备可针对所需母体专门构造,或者其可以是一般目的的计算机(或计算机组),其通过计算机中储存的计算机程序和/或数据结构选择性激活或重构。在一些实施方式中,一组处理器协同(例如,通过网络或云计算)和/或平行进行所示分析运算中的一些或全部。用于进行本文所述的方法的一个处理器或一组处理器可以是各种类型,包括微控制器或微处理器,如可编程装置(例如,CPLD和FPGA)以及不可编程装置,如门选阵列ASIC或一般目的的微处理器。
另外,某些实施方式涉及有形和/或非瞬时计算机可读介质或计算机程序产品,其包括用于进行各种计算机执行运算的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括,但不限于,半导体存储装置、磁性介质如盘驱动器、磁带、光写介质如CD、磁光介质、和专门构造以储存并进行程序指令的硬件装置,如只读存储装置(ROM)和随机存取存储器(RAM)。可由终端使用者直接控制计算机可读介质,或者可由终端使用者间接控制该介质。直接控制的介质的示例包括位于使用者设备中的介质和/或不与其他实体共享的介质。间接控制的介质的示例包括通过外部网络和/或通过提供共享资源,如“云”的服务器间接可及的介质。程序指令的示例包括机器代码,如由编译程序产生的代码,和含有可由使用翻译器的计算机执行的更高级代码的文件。
在各种实施方式中,以电子格式提供本发明的方法和设备中使用的数据或信息。这类数据或信息可包括核酸样品衍生的读数和变迁、与参考序列的特定区域比对(例如,与染色体或染色体区段比对)的这类标签的密度或计数、参考序列(包括提供唯一或主要多态性的参考序列)、染色体和区段剂量、判定如非整倍性判定、经标准化的染色体和区段值、染色体或区段与相应标准化染色体或区段的对、咨询建议、诊断等。本文所用的以电子格式提供的数据或其他信息可用于在机器上储存并在机器间传递。常规而言,数字提供电子格式的数据并且可以位和/或字节储存在各种数据结构、列表、数据库等中。可以电子、光学等形式体现数据。
一个实施方式提供了用于生成显示测试样品中非整倍性,例如,胎儿非整倍性或癌症存在与否的计算机程序产品。在计算机产品可含有进行上述方法中的任意一种或多种来确定染色体异常的指令。如本文所述,计算机产品可包括非瞬时和/或有形计算机可读介质,其具有其上记录的计算机可执行或编译逻辑(例如,指令)用于使处理器确定染色体剂量,和在一些实施方式中,胎儿非整倍性存在与否。在一个示例中,计算机产品包括具有其上记录的计算机可执行或编译逻辑(例如,指令)用于使处理器诊断胎儿非整倍性,包括:用于接收来自母体生物样品的核酸分子的至少一部分的测序数据的接收过程,其中所述测序数据包括计算的染色体和/或区段剂量;用于从所述接收的数据中分析胎儿非整倍性的计算机辅助逻辑;和用于生成指示所述胎儿非整倍性存在、不存在或种类的输出的输出过程。
来自研究中的样品的序列信息可映射至染色体参考序列以鉴定针对任意一种或多种感兴趣染色体各自的多种序列标签并鉴定用于针对所述任意一种或多种感兴趣染色体各自的标准化区段序列的多种序列标签。在各种实施方式中,参考序列储存在数据库中,例如,相关或对象数据库。
应理解,在许多情况中,无辅助的人进行本文所述方法的计算机运算是不实际的,甚至是不可能的。例如,在没有计算设备辅助的情况下,将来自样品的单个30bp的读数映射至人类染色体中的任一个可能需要多年努力。当然,问题是复合的,因为可靠的非整倍性判定一般需要将数千(例如,至少约10000)或甚至数百万个读数映射至一个或多个染色体。
可使用用于评价测试样品中感兴趣遗传序列的拷贝数的系统来进行本文所述的方法。该系统包括:(a)用于接收来自测试样品的核酸并提供来自样品的核酸序列信息的测序仪;(b)处理器;和(c)具有其上储存的指令的一个或多个计算机可读储存介质,该指令使所述处理器执行使用通过掩模过滤的Y染色体的参考序列评价测试样品中Y染色体拷贝数。掩模包含在Y染色体的参考序列上的特定尺寸的箱。该箱具有超过阈值数量的与之比对的训练序列标签。该训练序列标签包括来自第一多个女性个体的序列读数,其与Y染色体的参考序列比对。
在一些实施方式中,通过具有其上储存的计算机可读指令的计算机可读介质指示方法来进行用于鉴定任何CNV,例如,染色体或部分非整倍性的方法。因此,一个实施方式提供了包括一个或多个计算机可读非瞬时储存介质的计算机程序产品,该储存介质具有其上储存的计算机可执行指令,其在通过计算机系统的一个或多个处理器执行时,使计算机系统实施用于评价包含胎儿和母体无细胞核酸的测试样品中感兴趣序列的拷贝数的方法。所述方法包括:(a)提供测试样品的序列读数;(b)将测试样品的序列读数与包含感兴趣序列的参考基因组比对,从而提供测试序列标签;(c)确定位于各箱中的测试序列标签的覆盖率,其中所述参考基因组被分成多个箱;(d)提供感兴趣序列的全局概况,其中该全局概况包括各箱中的预期覆盖率,并且其中从以与测试样品基本相同的方式测序并比对的未受影响的训练样品的训练组中获得预期覆盖率,该预期覆盖率显示箱间变异;(e)按照各箱中的预期覆盖率调整测试序列标签的覆盖率,从而获得测试序列标签的各箱中去除了全局概况的覆盖率;(f)基于测试序列标签的箱的GC含量水平和去除了全局概况的覆盖率之间的关系调整去除了全局概况的覆盖率,从而获得感兴趣序列上测试序列标签的样品-GC-校正的覆盖率;和(g)基于样品-GC-校正的覆盖率评价测试样品中感兴趣序列的拷贝数。
在一些实施方式中,该指令还可包括自动记录提供母体测试样品的人类对象的患者医疗记录中与该方法有关的信息,如染色体剂量和胎儿染色体非整倍性存在与否。该患者医疗记录可由,例如,实验室、医生办公室、医院、健康维护组织、保险公司、或个人医疗记录网站保存。另外,基于处理器实施的分析的结果,该方法还可包括处方、引发和/或改变对从中获取母体测试样品的人类对象的治疗。这可包括对取自该对象的其他样品进行一次或多次额外测试或分析。
也可使用计算机处理系统来进行所述的方法,其适用并设置成进行用于鉴定任何CNV,例如,染色体或部分非整倍性的方法。一个实施方式提供了计算机处理系统,其适用或设置成进行本文所述的方法。在一个实施方式中,该设备包括适用或设置成对样品中的核酸分子的至少一部分进行测序以获得本文他处所述的序列信息类型的测序装置。该设备也可包括用于处理样品的组件。这类组件在本文中他处描述。
可将序列或其他数据输入计算机或者直接或间接储存在计算机可读介质上。在一个实施方式中,计算机系统直接耦合至与读取和/或分析来自样品的核酸的序列的测序装置。通过计算机系统中的界面提供来自这类工具的序列或其他信息。或者,可从序列储存源,如数据库或其他存储器提供通过系统处理的序列。一旦可到达处理设备,存储装置或大容量存储装置至少暂时缓冲或储存核酸的序列。另外,储存装置可储存各种染色体或基因组等的标签计数。该存储器也可储存用于分析显示序列或映射数据的各种途径和/或程序。这类程序/途径可包括用于进行统计学分析等的程序。
在一个示例中,使用者向测序装置中提供样品。通过与计算机连接的测序装置收集和/或分析数据。计算机上的软件使得能够进行数据收集和/或分析。数据可被储存、显示(通过监控器或其他相似装置)、和/或输送至另一个位置。该计算机可连接至因特网,其用于将数据传输至远程使用者(例如,医生、科学家或分析者)使用的手持装置。应理解,可在传输之前储存和/或分析数据。在一些实施方式中,原始数据被收集并发送至远程使用者或设备,其将分析和/或储存该数据。传输可通过因特网发生,但也可通过卫星或其他连接方式发生。或者,数据可储存在计算机可读介质上,并且该介质可运输至终端使用者(例如,通过邮寄)。远程使用者可处于相同或不同的地理位置,包括但不限于,建筑、城市、州、国或大陆。
在一些实施方式中,该方法也包括收集关于多种多核苷酸序列的数据(例如,读数、标签和/或参考染色体序列)并将该数据发送至计算机或其他计算系统。例如,该计算机可连接至实验室装置,例如,样品收集设备、核苷酸扩增设备、核苷酸测序设备、或杂交设备。计算机然后可收集通过实验室装置汇集的适用数据。该数据然后可在任何步骤上储存在计算机上,例如,在实时收集时,在发送之前、在发送期间或与发送联合、或在发送之后。该数据可储存在可从计算机获取的计算机可读介质上。收集或储存的数据可从计算机传输至远程位置,例如,通过局域网或广域网如因特网。在远程位置处,可如下文所述对传输的数据进行各种运算。
可在本文所述的系统、设备和方法中储存、传输、分析和/或处理的电子格式化的数据的类型如下:
通过对测试样品中的核酸进行测序获得的读数
通过将读数与参考基因组或者一种或多种其他参考序列比对获得的标签
参考基因组或序列
序列标签密度-参考基因组或其他参考序列的2个或更多个区域(一般是染色体或染色体区段)各自的标签的计数或数量
针对具体感兴趣染色体或染色体区段的标准化染色体或染色体区段的特性
从感兴趣染色体或区段和相应标准化染色体或区段获得的染色体或染色体区段(或其他区域)的剂量
用于判定染色体剂量为受影响的、未受影响的、或无判定的阈值
染色体剂量的实际判定
诊断(与判定相关的临床病症)
验证自判定和/或诊断的其他测试建议
衍生自判定和/或诊断的治疗和/或监测计划
可适用不同的设备在一个或多个地点处获得、储存、传输、分析、和/或处理这些各种类型的数据。处理选项跨越宽范围。在范围的一端,这种信息的全部或许多在处理测试样品的位置处,例如,医生办公室或其他临床机构中储存并使用。在另一种极端中,样品在一个位置处获得,其在不同的位置上经处理并任选测序,在一个或多个不同位置处比对读数并作出判定,并且在另一个位置处准备诊断、建议和/或计划(其可以是获得样品的位置)。
在各种实施方式中,用测序设备生成读数,然后传输至远程位置,它们在那里经处理产生非整倍性判定。在该远程位置上,例如,读数与参考序列比对以产生标签,其经计数和与感兴趣染色体或区段比对。同样,在远程位置,使用相关的标准化染色体或区段将计数转化成剂量。另外,在远程位置处,使用剂量以生成非整倍性判定。
可在不同位置处使用的处理运算如下:
样品收集
测序前的样品处理
测序
分析序列数据并衍生非整倍性判定
诊断
向患者或健康护理提供者报告诊断和/或判定
开发用于进一步治疗、测试和/或监测的计划
执行该计划
咨询
这些运算中的任意一个或多个可如本文他处所述自动化。一般而言,将计算机模拟进行测序和对序列数据的分析以及衍生非整倍性判定。可人工或自动进行其他运算。
可进行样品收集的位置的示例包括卫生从业人员的办公室、临床机构、患者的家(其中提供样品收集工具或试剂盒)、和移动健康护理车辆。可进行测序前处理的位置的示例包括卫生从业人员的办公室、临床机构、患者的家(其中提供样品处理设备或试剂盒)、移动健康护理车辆、和非整倍性分析提供者的设施。可进行测序的位置的示例包括卫生从业人员的办公室、临床机构、卫生从业人员的办公室、患者的家(其中提供样品测序设备和/或试剂盒)、移动健康护理车辆、和非整倍性分析提供者的设施。可用用于传输电子格式的序列数据(一般是读数)的专用网络提供测序发生的位置。这种连接可以是有线或无限的并且具有且可被设置成向可在传输至处理位点前处理和/或聚集数据的位点发送数据。可有健康组织机构,如健康维护组织(HMO)保留数据聚合器。
可在前述位置中的任一个处或者在另一个专用于计算的远程位点和/或分析核酸序列数据的服务器处进行分析和/或衍生运算。这种位置包括,例如,聚类如一般目的服务器群组、非整倍性分析服务业务设施等。在一些实施方式中,用于进行分析的计算设备是租用或借用的。计算源可以是因特网可及的处理器集合,如统称为云的处理源。在一些情况中,可通过平行或大规模平行组的互相联系或不联系的处理器来进行计算。可使用分布处理,如聚类计算、网格计算等来实施处理。在这种实施方式中,汇集的计算源的网格或聚类形成包含多个一起运行以进行本文所述分析和/或衍生的处理器或计算机的超级虚拟计算机。这些技术以及更常规的超级计算机可用于如本文所述处理序列数据。各自是依赖于处理器或计算机的平行计算形式。在网格计算的情况中,这些处理器(通常是全计算机)由常规网络方案,如以太网通过网络(私人、公共、或因特网)连接。相反,超级计算机具有许多通过本地高速计算机总线连接的处理器。
在某些实施方式中,在与分析运算相同的位置上生成诊断(例如,胎儿患有唐氏综合症或者患者有特定类型的癌症)。在其他实施方式中,其在不同位置上进行。在一些示例中,报告诊断在获取样品的位置处进行,虽然并不需要如此。可生成或报告诊断和/或进行计划开发的位置的示例包括健卫生从业人员办公室、临床机构、计算机可及的因特网网站、和手持装置如收集、平板电脑、智能手机等,其有线或无线连接至网络。进行咨询的位置的示例包括卫生从业人员办公室、临床机构、计算机可及的因特网网站、手持装置等。
在一些实施方式中,在第一位置上进行样品收集、样品处理、和测序运算,并且在第二位置上进行分析和衍生运算。然而,在一些情况中,在一个位置(例如,卫生从业人员办公室或临床机构)处收集样品并且在一个不同的位置处进行样品处理和测序,该位置任选地是与发生分析和衍生相同的位置。
在各种实施方式中,上述运算顺序可被使用者或实体引发,引发样品收集、样品处理和/或测序。在一个或多个这些运算已开始执行之后,其他运算可自然跟随。例如,测序运算可使读数被自动收集并发送至处理设备,其然后通常自动并且可能在没有其他使用者介入的情况下,进行非整倍性运算衍生和序列分析。在一些实施方式中,该处理运算的结果然后(可能重建为诊断)自动递送至处理并向卫生专业人员和/或患者报告信息的系统组件或实体。如本文所述,这种信息也可经自动处理以可能与咨询信息一起产生治疗、测试和/或监测计划。因此,引发早期运算可引发首尾相连顺序,其中向卫生专业人员、患者或其他有关部门提供可用于作用于生理病症的诊断、计划、咨询和/或其他信息。甚至当整个系统的部分是物理分离的并且可能远离例如样品和测序设备的位置时,也可实现。
图7显示了用于产生来自测试样品的判定或诊断的分散系统的一个实施方式。样品收集位置01用于从患者,如妊娠女性或推定癌症患者中获得测试样品。然后提供样品至处理和测序位置03,其中测试样品可如本文所述处理并测序。位置03包括用于处理样品的设备以及用于对处理的样品进行测序的设备。如本文他处所述,测序的结果是一般以电子格式提供并提供至网络如因特网的读数集合,其由图7中的标记05表示。
向分析和判定生成的远程位置07提供序列数据。该位置可包括一个或多个强大计算机装置,如计算机或处理器。在位置07处的计算机源已经从接收的序列信息完成其分析并生成判定,将判定传回网络05。在一些实施方式中,不仅在位置07处生成判定,也生成相关诊断。该判定和/或诊断然后可通过网络传输并传回样品收集位置01,如图7所示。如本文所述,这是在多个位置上如何划分与生成判定或诊断相关的多个运算中简单的一个。一种常用变体包括在单个位置上提供样品收集和处理和测序。另一个变异包括在与分析和判定生成相同的位置上提供处理和测序。
图8详细说明了在不同位置处进行各种运算的选项。在图8所述的大部分颗粒感(granular sense)中,在分开的位置上进行各以下运算:样品收集、样品处理、测序、读数比对、判定、诊断、和报告和/或计划开发。
在一个聚集这些运载中的一些的实施方式中,在一个位置上进行样品处理和测序,并且在分开的位置上进行读数比对、判定和诊断。参见由附图标记A表示的图8的部分。在另一个实施方式中,由图8的标记B表示,全部在相同位置上进行样品收集、样品处理和测序。在该实施方式中,在第二位置上进行读数比对和判定。最后,在第三位置上进行诊断和报告和/或计划开发。在图8中标记C所示的实施方式中,在第一位置上进行样品收集,全部在第二位置上一起进行样品处理、测序、读数比对、判定和诊断,并且在第三位置上进行报告和/或计划开发。最后,在图8中D标记的实施方式中,在第一位置上进行样品收集,全部在第二位置上进行样品处理、测序、读数比对、和判定,并且在第三位置上进行诊断和报告和/或计划惯例。
一个实施方式提供了用于确定包含胎儿和母体核酸的母体测试样品中任意一种或多种不同完整胎儿染色体非整倍性存在与否的系统,该系统包括用于接收核酸样品并提供来自该样品的胎儿和母体核酸序列信息的测序仪;处理器;和包含用于在所述处理器上执行的指令的机器可读储存介质,该指令包括:
(a)用于获得样品中所述胎儿和母体核酸的序列信息的代码;
(b)用于使用所述序列信息来计算机模拟鉴定来自胎儿和母体核酸的针对选自染色体1-22、X和Y的任意一种或多种感兴趣染色体各自的一定数量的序列标签和鉴定针对所述任意一种或多种感兴趣染色体的至少一种标准化染色体序列或标准化染色体区段的一定数量的序列标签的代码;
(c)用于使用针对所述任意一种或多种感兴趣染色体各自鉴定的所述数量的序列表现和针对各标准化染色体序列或标准化染色体区段序列鉴定的所述数量的序列标签来计算针对任意一种或多种感兴趣染色体各自的单染色体剂量的代码;和
(d)用于比较针对任意一种或多种感兴趣染色体各自的单染色体剂量与针对任意一种或多种感兴趣染色体各自的相应阈值,并从而确定样品中任意一种或多种完全不同的胎儿染色体非整倍性存在与否的代码。
在一些实施方式中,用于计算针对任意一种或多种感兴趣染色体各自的单染色体剂量的代码包括用于计算感兴趣染色体中选择的那个的染色体剂量的代码,其计算为针对选择的感兴趣染色体鉴定的序列标签的数量与针对选择的感兴趣序列的相应的至少一种标准化染色体序列或标准化染色体区段序列鉴定的序列标签的数量的比率。
在一些实施方式中,该系统还包括用于重复计算针对任意一种或多种感兴趣染色体的任意一个或多个区段的任何剩余染色体区段各自的染色体剂量的代码。
在一些实施方式中,选自染色体1-22、X和Y的一种或多种感兴趣染色体包括选自染色体1-22、X和Y的至少20个染色体,并且其中指令包括用于确定至少20种不同的完全胎儿染色体非整倍性存在与否的指令。
在一些实施方式中,至少一种标准化染色体序列是选自染色体1-22、X和Y的一组染色体。在其他实施方式中,至少一种标准化染色体序列是选自染色体1-22、X和Y的单染色体。
另一个实施方式提供了用于确定包含胎儿和母体核酸的母体测试样品中任意一种或多种不同部分胎儿染色体非整倍性存在与否的系统,该系统包括:用于接收核酸样品并提供来自该样品的胎儿和母体核酸序列信息的测序仪;处理器;和包含用于在所述处理器上执行的指令的机器可读储存介质,该指令包括:
(a)用于获得所述样品中所述胎儿和母体核酸的序列信息的代码;
(b)用于使用所述序列信息来计算机模拟鉴定来自胎儿和母体核酸的针对选自染色体1-22、X和Y的任意一种或多种感兴趣染色体的任意一个或多个区段各自的一定数量的序列标签和鉴定针对所述任意一种或多种感兴趣染色体的任意一个或多个区段各自的至少一种标准化区段序列的一定数量的序列标签的代码;
(c)使用所述数量的针对所述任意一种或多种感兴趣染色体的任意一个或多个区段各自鉴定的序列标签和所述数量的针对所述标准化区段序列鉴定的序列标签来计算针对所述任意一种或多种感兴趣染色体的任意一个或多个区段各自的单染色体区段剂量的代码;和
(d)用于比较针对任意一种或多种感兴趣染色体的所述任意一个或多个区段各自的所述单染色体区段剂量各自与针对任意一种或多种感兴趣染色体的所述任意一个或多个区段各自的相应阈值,并且从而确定所述样品中一种或多种不同部分胎儿染色体非整倍性的存在与否的代码。
在一些实施方式中,用于计算单染色体区段剂量的代码包括用于计算针对染色体区段中选择的一个的染色体区段剂量的代码,其计算为针对选择的染色体区段鉴定的序列标签的数量与针对选择的染色体区段的相应标准化区段序列鉴定的序列标签的数量的比率。
在一些实施方式中,该系统还包括用于重复计算针对任意一种或多种感兴趣染色体的任意一个或多个区段的任何剩余染色体区段各自的染色体区段剂量的代码。
在一些实施方式中,该系统还包括(i)用于针对来自不同母体对象的测试样品重复(a)-(d)的代码,和(ii)用于确定各所述样品中任意一种或多种不同部分胎儿染色体非整倍性存在与否的代码。
在任意本文提供的系统的其他实施方式中,代码还包括用于在提供母体测试样品的人类对象的患者医疗记录中自动记录(d)中确定的胎儿染色体非整倍性存在与否的代码,其中使用处理器进行该记录。
在任意本文所述的系统的一些实施方式中,测序仪设置成进行下一代测序(NGS)。在一些实施方式中,测序仪设置成进行使用可逆染料终止子的合成测序的大规模平行测序。在其他实施方式中,测序仪设置成进行连接测序。在其他实施方式中,测序仪设置成进行单分子测序。
实验部分
实施例1
原代和富集的测序文库的测序和制备
a.测序文库制备-缩减方案(ABB)
所有测序文库,即原代和富集的文库,从母体血浆中提取的约2ng的纯化的cfDNA中制备。如下使用的NEBNextTMDNA样品制备DNA试剂组1(产品号E6000L;马萨诸塞州伊普斯维奇的新英格兰生物实验室公司(New England Biolabs,Ipswich,MA))的试剂进行文库制备。因为无细胞血浆DNA天然片段化,对血浆DNA样品不进行通过超声或雾化的进一步片段化。按照末端修复模块将40μl中含有的约2ng的纯化的cfDNA的突出端转化成磷酸化的钝末端,通过在20℃下在1.5ml微离心管中孵育cfDNA与5μl 10X磷酸化缓冲液、2μl脱氧核苷酸溶液混合物(10mM各dNTP)、1μl的DNA聚合酶I的1:5稀释物、1μlT4DNA聚合酶和1μl在NEBNextTMDNA样品制备DNA试剂组1中提供的T4多核苷酸激酶持续15分钟。然后通过将反应混合物在75℃下孵育5分钟来热灭活酶。该混合物冷却至4℃,并且使用10μl含有Klenow片段(无3’至5’外切活性(3’to 5’exo minus))的dA-加尾主混合物(NEBNextTM DNA样品制备DNA试剂组1)来完成对钝末端DNA的dA加尾,并在37℃下孵育15分钟。接着,通过将反应混合物在75℃下孵育5分钟来热灭活Klenow片段。在Klenow片段灭活之后,1μl的亿明达基因组衔接体寡聚混合物(Illumina Genomic Adaptor Oligo Mix)(产品号1000521;加利福尼亚州海沃德的亿明达公司(Illumina Inc.,Hayward,CA))的1:5稀释物用于使用4μl的NEBNextTM DNA样品制备DNA试剂组1中提供的T4DNA连接酶,通过将反应混合物在25℃下孵育15分钟来将亿明达衔接体(无指数Y-衔接体)连接至dA-加尾的DNA。混合物冷却至4℃,并且使用在Agencourt AMPure XP PCR纯化系统(产品号A63881;马萨诸塞州丹佛的贝克曼库尔特基因组公司(Beckman Coulter Genomics,Danvers,MA))中提供的磁珠从未链接的衔接体、衔接体二聚体和其他试剂中纯化衔接体连接的cfDNA。进行8次PCR循环以使用高保证主混合物(25μl;马萨诸塞州沃本的Finnzymes公司(Finnzymes,Woburn,MA))和亿明达的与衔接体互补的PCR引物(各0.5μM)(产品号1000537和1000537)选择性富集衔接体连接的cfDNA(25μl)。按照生产商的说明书,衔接体连接的DNA经过使用亿明达基因组PCR引物(产品号100537和1000538)和NEBNextTM DNA样品制备DNA试剂组1中提供的Phusion HF PCR主混合物的PCR(98℃持续30秒;18个循环的98℃持续10秒,65℃持续30秒,和72℃持续30;最后在72℃下延伸5分钟,并且保持在4℃下)。按照www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf可得的生产商说明书使用Agencourt AMPure XP PCR纯化系统(马萨诸塞州贝弗利的Agencourt生物科学公司(Agencourt Bioscience Corporation,Beverly,MA))纯化扩增的产物。纯化的扩增产物在40μl的Qiagen EB缓冲液中稀释,并且使用2100生物分析仪的Agilent DNA 1000试剂盒(加利福尼亚州圣克拉拉的安捷伦科技公司(Agilent technologies Inc.,SantaClara,CA))分析扩增的文库的浓度和尺寸分布。
b.制备测序文库-全长方案
本文所述的全长方案基本是由亿明达提供的标准方案,并且仅在扩增的文库的纯化上与亿明达方案不同。亿明达方案指令使用凝胶电泳对扩增的文库进行纯化,而本文所述的方案针对相同纯化不受使用磁珠。基本按照生产商的说明书,使用的NEBNextTM DNA样品制备DNA试剂组1(产品号E6000L;马萨诸塞州伊普斯威奇的新英格兰生物实验室公司)用大约2ng纯化的从母体血浆中提取的cfDNA来制备原测序文库。除了衔接体-连接产物的最后纯化(其使用Agencourt磁珠和试剂代替纯化柱)以外的所有步骤按照针对使用GAII测序的基因组DNA文库的样品制备的NEBNextTM试剂所附的方案进行。NEBNextTM方案基本按照由亿明达公司(Illumina)提供的方案,其可在grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf处得到。
按照末端修复模块将40μl中含有的约2ng的纯化的cfDNA的突出端转化成磷酸化的钝末端,通过在热循环仪中在20℃下在200μl微量离心管中孵育40μl的cfDNA与5μl 10X磷酸化缓冲液、2μl脱氧核苷酸溶液混合物(10mM各dNTP)、1μl的DNA聚合酶I的1:5稀释物、1μl T4DNA聚合酶和1μl在NEBNextTM DNA样品制备DNA试剂组200中提供的T4多核苷酸激酶持续30分钟。样品冷却至4℃,并且使用在QIAQuick PCR纯化试剂盒(加利福尼亚州巴伦西亚的凯杰公司(QIAGEN Inc.,Valencia,CA))中提供的QIAQuick柱如下纯化。将50μl反应转移至1.5ml微量离心管,并且添加250μl的Qiagen缓冲液PB。所得的300μl转移至QIAquick柱,其在微量离心管中在13,000RPM下离心1分钟。用750μl的Qiagen缓冲液PE洗涤柱,并再离心。通过在13000RPM下另外离心5分钟来去除残留乙醇。DNA通过离心在39μlQiagen缓冲液EB中洗脱。按照生产商的dA-加尾模块来使用16μl的含Klenow片段(无3’至5’外切活性)的生物dA-加尾主混合物(NEBNextTM DNA样品制备DNA试剂组1),并在37℃下孵育30分钟实现对34μl的钝末端DNA的dA加尾。样品冷却至4℃,并且使用在MinElute PCR纯化试剂盒(加利福尼亚州巴伦西亚的凯杰公司)中提供的柱如下纯化。将50μl反应转移至1.5ml微量离心管,并且添加250μl的Qiagen缓冲液PB。所得的300μl转移至MinElute柱,其在微量离心管中在13000RPM下离心1分钟。用750μl的Qiagen缓冲液PE洗涤柱,并再离心。通过在13000RPM下另外离心5分钟来去除残留乙醇。DNA通过离心在15μlQiagen缓冲液EB中洗脱。按照快速连接模块,在25℃下,10微升的DNA洗脱液与1μl亿明达基因组衔接体寡聚混合物(产品号1000521)的1:5稀释物、15μl的2X快速连接反应缓冲液、和4μl Quick T4DNA连接酶孵育15分钟。样品冷却至4℃,并使用MinElute柱如下纯化。向30μl反应中添加150微升的Qiagen缓冲液PE,并且将全部体积转移至MinElute柱,其在微量离心管中在13000RPM下离心1分钟。用750μl的Qiagen缓冲液PE洗涤柱,并再离心。通过在13000RPM下另外离心5分钟来去除残留乙醇。DNA通过离心在28μl Qiagen缓冲液EB中洗脱。按照生产商的说明书,23微升的衔接体连接的DNA洗脱液经过使用亿明达基因组PCR引物(产品号100537和1000538)和NEBNextTM DNA样品制备DNA试剂组1中提供的Phusion HFPCR主混合物的PCR(98℃持续30秒;18个循环的98℃持续10秒,65℃持续30秒,和72℃持续30;最后在72℃下延伸5分钟,并且保持在4℃下)。按照www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf可得的生产商说明书使用AgencourtAMPure XP PCR纯化系统(马萨诸塞州贝弗利的Agencourt生物科学公司(AgencourtBioscience Corporation,Beverly,MA))纯化扩增的产物。Agencourt AMPure XP PCR纯化系统去除了没有整合的dNTP、引物、引物二聚体、盐和其他污染物,并且回收超过100bp的扩增子。纯化的扩增产物在40μl的Qiagen EB缓冲液中从Agencourt珠洗脱,并且使用2100生物分析仪的Agilent DNA 1000试剂盒(加利福尼亚州圣克拉拉的安捷伦科技公司)分析文库的尺寸分布。
c.对按照缩减(a)和全长(b)方案制备的测序文库的分析
由生物分析仪生成的电泳图示于图9A和9B。图9A显示了使用(a)中所述的全长方案从血浆样品M24228纯化的cfDNA制备的文库DNA的电泳图,并且图9B显示了使用(b)中所述的全长方案从血浆样品M24228纯化的cfDNA制备的文库DNA的电泳图。在两张图中,峰1和4分别代表15bp的较低标记物和1,500较高标记物;峰上的数字表示文库片段的迁移时间;并且水平线表示积分的设定阈值。图9A的电泳图显示187bp片段的小峰和263bp片段的主峰,而图9B的电泳图仅显示265bp的一个峰。对峰面积进行积分得到针对图9A中187bp峰的DNA的0.40ng/μl的计算浓度,针对图9A中263bp峰的DNA的7.34ng/μl的浓度,和针对图9B中265bp峰的DNA的14.72ng/μl的浓度。连接至cfDNA的亿明达衔接体已知为92bp,其然后从265bp中减去,表明cfDNA的峰尺寸为173bp。在187bp处的小峰可能代表头尾连接的2个引物的片段。当使用缩减方案时,从最终的文库产品中消除了这种线性2-引物片段。缩减方案也消除了小于187bp的其他小片段。在该示例中,纯化的衔接体-连接的cfDNA的浓度是使用全长方案产生的衔接体-连接的cfDNA的浓度的两倍。已经注意到衔接体-连接的cfDNA片段的浓度总是大于使用全长方案获得的浓度(数据未显示)。
因此,使用缩减方案制备测序文库的优势在于,获得的文库一致性地包含在262-267bp范围内的仅一个峰,而使用全长方案制备的文库的质量会变化,如除表示cfDNA的峰以外的其他峰的数量和迁移率所反映。非-cfDNA产物将占据流动池上的空间并且降低了聚类聚合和之后对测序反映成像的质量,其揭示了非整倍性状态的总体分配。缩减方案显示不影响文库测序。
使用缩减方案制备测序文库的另一个优势在于,钝末端化、d-A加尾、和衔接体连接的3个酶促步骤耗费不到一个小时完成以支持快速非整倍体诊断服务的实施和验证。
另一个优势在于,钝末端化、d-A加尾、和衔接体连接的3个酶促步骤在同一反应管中进行,因此避免了多次样品转移,这种转移将可能潜在导致物质丢失,并且重要的是导致可能的样品混合和样品污染。实施例2
双胞胎妊娠中的精确非整倍性检测
介绍
使用全基因组大规模平行测序的总无细胞DNA(cfDNA)的非侵入性产前测试(NIPT)已经显示是检测胎儿染色体非整倍性的非常精确且稳健的方法。参见,Bianchi DW,Platt LD,Goldberg JD,等,通过母体血浆DNA测序的基因组范围的胎儿非整倍性检测(Genome-wide fetal aneuploidy detection by maternal plasma DNA sequencing).Obstet Gynecol 2012;119:890-901;Fan HC,Blumenfeld YJ,Chitkara U,Hudgins L,Quake SR.通过对来自母体血液的DNA的鸟枪测序的对胎儿非整倍性的非侵入性诊断(Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA frommaternal blood).Proc Natl Acad Sci U S A 2008;105:16266-71;Sehnert AJ,RheesB,Comstock D,等,通过对来自母体血液的无细胞DNA的大规模平行DNA测序对胎儿染色体异常的最优检测(Optimal detection of fetal chromosomal abnormalities bymassively parallel DNA sequencing of cell-free fetal DNA from maternalblood).Clin Chem 2011;57:1042-9。本发明的测试从单母体血液样品检测21、18、13三体以及性染色体非整倍性。本发明的测试目前显示在10周以上的单胎妊娠的妊娠妇女,并且处于针对胎儿非整倍性的高风险中。最近,美国产科医师和妇科医师学会(ACOG)、产前诊断国际协会(ISPD)、美国医学遗传学和基因组学学会(ACMG)以及遗传咨询国家协会(NSGC)已经推荐具有高风险胎儿非整倍性的妇女考虑使用NIPT。
在美国,双胞胎占30个或新生儿之一,并且双胞胎新生儿率持续增加(国家卫生中心,统计学数据简报,80期,2012年1月)。随着妇女年龄增加,他们更可能在每次月经周期中排出超过一个卵子,因此,超过30岁的妇女占双胞胎妊娠增量的约三分之一。辅助生育技术,其通常在体外受精期间转移超过一个胚胎,占双胞胎妊娠的其余增量的大部分。
初步证据表明,与单胎妊娠相比,在母体循环中存在的胎儿DNA的量在双胞胎妊娠中增加约35%,但是该研究没有关注从各胎儿衍生的cfDNA的量。Canick JA,Kloza EM,Lambert-Messerlian GM,等,对母体血浆的DNA测序以鉴定多胎妊娠中的唐氏综合症和其他三体(DNA sequencing of maternal plasma to identify Down syndrome and othertrisomies in multiple gestations).Prenat Diagn2012;32:730-4。研究人员已经证明,虽然在双胞胎妊娠中循环胎儿DNA的量有总体增加,但是各胎儿的cfDNA的量降低。Srinivasan A,Bianchi D,Liao W,Sehnert A,Rava R.52:母体血浆DNA测序:多胎妊娠对非整倍性检测的影响和每个胎儿的相对无细胞胎儿DNA(cffDNA)(Maternal plasma DNAsequencing:effects of multiple gestation on aneuploidy detection and therelative cell-free fetal DNA(cffDNA)per fetus).American journal of obstetricsand gynecology 2013;208:S31。Srinivasan A,Bianchi DW,Huang H,Sehnert AJ,RavaRP.通过对母体血浆的深度测序对胎儿亚染色体异常的非侵入性检测(Noninvasivedetection of fetal subchromosome abnormalities via deep sequencing ofmaternal plasma).American journal of human genetics 2013;92:167-76。因此,需要敏感方法来确保对双胞胎妊娠中非整倍性的正确分类。
最大化NIPT精确分类非整倍性样品的能力的因素是增加用于分析的测序读数的数量,使得统计学噪音最小化,并且最大化标准化染色体信号的能力,使得运行间变异性降低。最近,申请人已经开发了一种改进的自动样品制备工作流,其增加了每个样品可用的读数的数量,并且开发了一种改进的分析方法,其增加了非整倍体染色体的特异性信号。这些强化改善了非整倍体影响的样品的分类整体精度。
本实施例描述了将改进的分类算法应用于迄今为止使用的最大双胞胎验证组。我们证明,改进的SAFeR(胎儿结果的选择性算法)算法能进行双胞胎样品中的精确非整倍性检测,其一直具有降低量的每个胎儿的无细胞DNA。
方法
作为同时包含高风险和平均风险母体群的2个独立临床研究的部分收集样品。设计精确诊断胎儿非整倍性研究的母体血液IS源(MELISSA;NCT01122524)以检测高风险妊娠中的全染色体非整倍性。Bianchi DW,Platt LD,Goldberg JD,等,通过母体血浆DNA测序的基因组范围非整倍性检测(Genome-wide fetal aneuploidy detection by maternalplasma DNA sequencing).Obstet Gynecol 2012;119:890-901。非整倍性风险评价试验的比较(CARE;NCT01663350)设计成证明在平均风险母体群中与21三体和18三体的常规产前血清筛选方法相比本发明测试的优越特异性(已投稿)。数据组详细列于表2中。通过来自产前侵入性过程的核型或通过新生儿生理检查确定临床结果。
表2:双胞胎样品的本发明分类和核型。使用针对染色体21、18和13的非整倍性和针对Y染色体的存在的本发明的产前测试来分析来自118个双胞胎妊娠的母体样品。本发明的数据与通过核型分析或新生儿生理检测确定的临床结果比较。
无细胞DNA从冷冻的血浆样品中提取并在HiSeq2000测序仪上测序,如前所述。Sehnert AJ,Rhees B,Comstock D,等,通过对来自母体血液的无细胞胎儿DNA的大规模平行DNA测序对胎儿染色体异常的最优检测(Optimal detection of fetal chromosomalabnormalities by massively parallel DNA sequencing of cell-free fetal DNAfrom maternal blood).Clin Chem 2011;57:1042-9。大规模平行测序(MPS)序列标签映射至人基因组参考构建hg19并且使用改进的分析工作流计算染色体21、18、13、X和Y的经标准化的染色体值(NCV),该工作流最大化信噪比并改善了检测的总体灵敏度。算法组件包括改进的基因组过滤、去除通过分子生物学步骤引入的系统偏差、以及改进的标准化和分类方法。进行测序的实验室人员不知晓临床结果。
结果
在该研究中研究了来自118个具有临床确定结果的双胞胎妊娠的母体血浆样品(表2)。针对研究中的所有样品和4个来自具有一个或多个正确鉴定的非整倍性胎儿的妊娠的样品生成染色体21、18和13的非整倍性分类(图10)。这些样品中的2个来自双绒毛膜双胎,各自具有一个T21影响的男性胎儿和一个未受影响的男性胎儿(47,XY+21/46,XY);一个是具有47,XY+18核型的单绒毛膜双胎样品;并且一个样品是双绒毛膜双胎,其中一个双胎具有镶嵌核型(47,XY+T21[7]/46,XY[11])。该研究中的临床确定的未受影响的样品(N=114)都没有被分类为针对非整倍性受影响的。
可通过cfDNA中存在Y染色体来确定胎儿的性别。本文所述的测试能够阳性鉴定具有至少一个男性胎儿的所有样品中存在Y染色体(图10)。此外,该测试也正确鉴定具有2个女性胎儿的样品中缺少Y染色体。
结论
现有的研究证明,改进的分析方法能够对双胞胎样品进行最灵敏的常染色体非整倍性测试。增强的分析方法利用基因组过滤改进、系统噪音降低和改进的分类方法。在一组118个双胞胎样品中证明改进的分析工作流的实用性;在MPS的任何验证中使用最大数量的样品来检测双胞胎中的常染色体非整倍性和Y染色体存在(图11)。图11显示了在NIPT研究中分析的双胞胎样品。各种研究中使用的双胞胎样品的数量评价市售NIPT测试的性能。Canick JA,Kloza EM,Lambert-Messerlian GM,等,对母体血浆的DNA测序以鉴定多胎妊娠中的唐氏综合症和其他三体(DNA sequencing of maternal plasma to identify Downsyndrome and other trisomies in multiple gestations).Prenat Diagn 2012;32:730-4。Lau TK,Jiang F,Chan MK,Zhang H,Lo PSS,Wang W.通过双胞胎妊娠中母体血浆DNA测序对胎儿唐氏综合症的非侵入性产前筛选(Non-invasive prenatal screening offetal Down syndrome by maternal plasma DNA sequencing in twin pregnancies).Journal of Maternal-Fetal and Neonatal Medicine 2013;26:434-7。显示了改进的分析方法通过正确检测到组中所有21三体和18三体样品的存在来精确进行,包括具有21三体的镶嵌性的受影响的胎儿,而不生成任何假阳性结果。另外,改进的分析方法正确检测到在所有具有至少一个男性胎儿的双胞胎妊娠中存在Y染色体,并且在有2个女性胎儿的任意双胞胎妊娠中没有检测到Y染色体。
敏感方法的一个特性是最小化系统噪音并增加整体信噪比的能力。本发明的研究通过每个样品产生比其他市售NIPT试验(大约28M测序读数/样品)更多的测序读数并通过改善分析方法以更好地控制复杂DNA样品的生物化学操作带来的系统噪音来实现。改进的分析工作流最终降低了经标准化的染色体计数分布的宽度,允许更好地分离未受影响的和受影响的群,以及改善的精确鉴定具有低胎儿DNA量的非整倍性影响的胎儿。
有非常精确和敏感的方法来检测双胞胎妊娠中非整倍性的能力是重要的,因为虽然双胞胎妊娠中无细胞胎儿DNA的总量增加,每个胎儿贡献的量却减少了。因此,可A)忽略这种发现和测试样品如同使他们等于单胎妊娠并且增加了假阴性结果的可能性,B)由于不足的DNA而排除增加量的样品,或C)构建更灵敏的方法(表3)。
表3:使用市售NIPT测试处理双胞胎妊娠的策略
对SAFeRTM算法的分析改进延伸到能够在双胞胎妊娠中进行精确非整倍性分类以外。改进的未受影响和受影响的群的分离也降低了被分类为疑似非整倍性的样品的整体频率。另外,改进的工作流可应用于单胎妊娠,其具有在非整倍性检测和性别分类上的相似改善。
因此,本发明的研究描述了改进的分析方法,其使得能更好地分离非整倍性未受影响的和受影响的样品,并且从含有低量的胎儿DNA的样品进行更精确常染色体非整倍性分类。通过整合这些改进,产前测试的能力已经拓展到测试双胎妊娠。
实施例3:综合征特异性系统偏差去除途径(SSS-BER)
引言
各种非侵入性产前诊断(NIPD)方法采用在母体体液如外周血中可得的胎儿来源的cfDNA。许多NIPD方法提取、测序并比对来自母体外周写的cfDNA以确定来自妊娠母体的胎儿的cfDNA是否含有与疾病或表型相关的遗传序列中的拷贝数变异。经提取和测序的cfDNA提供序列读数,其然后映射至参考基因组。映射至参考基因组上唯一位置或位点的序列读数称为序列标签。可使用映射至感兴趣序列的序列标签的数量来确定感兴趣序列的拷贝数或拷贝数变异。
映射至感兴趣序列的序列标签的数量称为覆盖率。遗传序列的区域或箱的覆盖率提供数据以计算一个区域对比另一个区域或者一个样品对比另一个样品的相对丰度。当感兴趣序列的覆盖率异常低或高时,可推定序列的拷贝数变异。多种遗传疾病与拷贝数变异相关。例如,6种遗传疾病及其相关亚染色体序列列于表4。
表4:在1和12重测试组中的综合征比率CV。
用于确定拷贝数变异的信号受到各种因素的影响。例如,对于给定的样品,更深的测序提供针对感兴趣序列上的各箱或区域的更多读数和标签,其在样品测量上产生较低变异,其进而降低噪音和/或增加信号用于确定拷贝数变异。此外,感兴趣序列的长度也以相似方式影响信号,因为感兴趣序列越长,越多来自样品的序列标签映射至感兴趣序列。此外,胎儿分数,例如,来自胎儿的cfDNA与来自母体和胎儿的cfDNA的比率影响用于确定胎儿中CNV的信号。胎儿分数越高,由于胎儿DNA的相同变化可在混合cfDNA中观察到的变化程度越大。
本文所述和之前可得的一些方法适于检测全染色体或染色体区段的拷贝数变异。然而,对于涉及较小延伸的遗传序列的遗传疾病,现有方法的信噪比太低使得难以可靠检测拷贝数变异。例如,对于表4中所述的6种遗传综合征,使用12-重测序的综合征比率的变异系数(CV)的范围是1.13%至1.77%。综合征比率是基于与研究的综合征相关的序列区域中序列标签的覆盖率,其进一步在下文中描述。使用单重测序降低了综合征比率的变异系数,并增加了信噪比。如表4中最右列所示,CV范围是0.076%至1.47%。然而,根据一些研究,需要0.7%或更低的CV来可靠确定与综合征相关的序列的拷贝数变异。因此,需要开发方法来增加信噪比。一种方法减少了数据中的噪音,其是感兴趣序列的不相关拷贝数变异。该噪音可被认为是测序偏差。
已经研究了造成序列偏差的几个因素:GC含量、测序读数的映射能力、和可能由局部结构生成的区域性偏差。例如,异染色质片段可能经过与常染色质相比不同的样品制备/测序试验。由于核苷酸组成的较小规模的结构差异也可能导致DNA的断裂易感性不同。这种染色质或DNA结构影响导致覆盖率不均匀,并且将体现在偏离1的经标准化的覆盖率的系统偏差。
在对照样品和测试样品中都存在变异。这些变异中的一些与综合征相关序列相关。其他变异是全染色体常见的,并且不是综合征相关序列特异性的。去除这些并不导致感兴趣序列拷贝数变异的变异将有助于降低噪音和增加信噪比。下面的部分首先描述了基于未受影响的样品变异在测试样品的基因组上去除变异,其包括在综合征相关区域内外的箱间的一致性变异。这种变异也称为综合征特异性系统偏差。也描述了去除对基因组常见或对测试样品有特异性,但与综合征相关区域不相关的变异。常见变异的去除可首先在去除综合征特异性系统偏差之前应用。然而,本发明强调后者,其因此首先在下文中描述为综合征特异性系统偏差消除途径(SSS-BER)。
综合征特异性系统偏差消除途径(SSS-BER)
动机
对亚染色体数据的分析显示系统偏差,其表现为数据的不同“批次”之间的经标准化的覆盖率特征上的差异,例如,来自给定流动池/板或样品集合(其用相同试剂批次处理)的数据等。由这些样品、试剂、试验依赖性实验偏差引入的累积误差被称作“批次效应”。有时可通过样品处理/测序中的明显差异鉴定到这些偏差,例如,试剂供应商改变或测序运行中的随机循环错误。然而,甚至在去除对象内GC偏差之后,经标准化的覆盖率变异保留。保留变异的来源未知、未测、或者太过复杂难以通过简单模型捕获。无论如何,无法将这些异质性来源整合到分析中可能对亚染色体测试的灵敏度和特异性有广泛且不利的影响。
亚染色体概况显示经标准化的覆盖率异质性往往与不同的100kb覆盖率箱相关,其显示与=1的预期经标准化的覆盖率有协同偏差(称为“基因组波”),参见图12。这些基因组波的存在对检测算法的表现后不利影响,并且可能产生放大的假阳性/阴性判定。为了解决这种问题,使用代表性的未受影响样品的经标准化的覆盖率来捕获代表最多共同基因组波的正交概况形式的系统残留覆盖率变异性。
SSS-BER过程概述
(I)鉴定各综合征的综合征共有区域(也称为共有区)和综合征检索区域(也称为检索区)。该综合征共有区域是在针对综合征的多种已有数据库和文献中描述的序列的大部分上的共同区域。综合征检索区一般包括数据库和文献中描述的全部或许多序列,其比综合征共有区宽。
(II)鉴定各综合征的一组综合征相邻箱(SNB组)。SNB是在与综合征共有区中的箱高度相关的强染色体(例如,排除染色体13、18和21的染色体)中的箱。
(III)使用其SNB组数据对训练组T的未受影响的样品进行聚类,从而获得训练亚组S1。该训练亚组包括在SNB组中有相似变异性的未受影响的样品。
(IV)限定综合征波概况、w1概况为基因组中各箱的中值标准化的覆盖率,在S1样品间获取中值。
(V)针对训练组T中的各样品,针对基因组中的各箱,获得经标准化的覆盖率~w1概况的强线性拟合的残差。
(VI)使用从步骤(V)获得的SNB中的残差作为步骤(III)的SNB组数据迭代重复运算(III)至(V),从而限定其他综合征波概况(w2概况,w3概况等)。
(VII)迭代应用一种或多种综合征波概况于测试样品以调整测试样品的基因组中箱的覆盖率。调整迭代包括获得经标准化的覆盖率~w#概况的强线性拟合的残差。该残差用作下一次调整迭代的输入数据,直至已去除了不希望的波。然后残差用于分析CNV。
SSS-BER过程详细内容
(I)鉴定综合征边界
综合征边界限定了综合征共有区和综合征检索区。该综合征共有区是在针对综合征的多种已有数据库和文献中描述的许多序列共同的区。在该示例中,综合征共有区包括对于综合征的检索的数据库和文献的至少一半而言共同的序列位置。该综合征检索区一般包括数据库和文献中所述的全部或许多序列,包括对于许多数据库和文献研究中非共同的那些序列。综合征检索区一般比综合征共有区宽。在该示例中,综合征检索区包括在至少一个数据库或文献参考中公开的序列。本领域技术人员认识到可调整选择共有或检索区的标准。
从多个公开数据库中提取基因组数据,参见表5。对于每种综合征,探索在这些数据库中报告的变体以获得代表组的综合征断裂点。另外,进行文献综述以鉴定描述综合征变体的基因组结构和流行率的关键研究。合并后,这些来源对于建立共有综合征区以及较大的综合征断裂点检索区作出贡献,该检索区包括对于给定综合征观察到的大部分断裂点。按照参考人基因组引用本文中的基因组位置(UCSC基因组浏览器GRCh37/hg19)。
表5:用于建立综合征边界的公开数据库
迪格奥尔格综合征
细胞遗传位置:22q11.21
发病率:1/6000(93%从头开始)
有时缩写为CATCH22并包括迪格奥尔格综合征(DGS;188400)、软腭-心-面综合征(VCFS;192430)、先天性异常面容综合征(CTAFS)、和一些家族或偶发先天性心脏缺陷(217095)的一组发育紊乱已经与22q11.2的微缺失相关。与这种综合征的临床异质性相反,del22q11遗传损伤在受影响的个体中的明显同质的,仅有很少的例外。大约90%的患者具有约3Mb的一般缺失区域(TDR),其包括大约30种基因,其中约8%的患者有约1.5Mb的较小的巢式缺失。Lindsay,E.A.等,软腭-心-面综合征:22q11缺失的频率和程度(Velo-cardio-facial syndrome:frequency and extent of 22q11deletions).Am.J.Med.Genet.57,514–522(1995)。Carlson,C.等,151名软腭-心-面综合征患者中22q11缺失的分子确定(Molecular definition of 22q11deletions in 151velo-cardio-facial syndromepatients).Am.J.Hum.Genet.61,620–629(1997)。Shaikh,T.H.等,染色体22特异性低拷贝重复和22q11.2缺失综合征:基因组组织和缺失终点分析(Chromosome 22-specific lowcopy repeats and the 22q11.2deletion syndrome:genomic organization anddeletion endpoint analysis).Hum.Mol.Genet.9,489–501(2000)。
除了表5中所列的公开数据库以外,来自另一项较大研究的患者边界用作一般缺失区域尺寸的独立确认。Adeyinka A1,Stockero KJ,Flynn HC,Lorentz CP,KetterlingRP,Jalal SM.迪格奥尔格/软腭-心-面综合征中的家族性22q11.2缺失主要小于通常观察到的3Mb(Familial 22q11.2deletions in DiGeorge/velocardiofacial syndrome arepredominantly smaller than the commonly observed 3Mb).Genet Med.2004年11月-12月;6(6):517-20。
图13总结了迪格奥尔格综合征地理并且显示建立的共有/检索区边界。
安格尔曼综合征/帕-魏二氏综合征(15q11.2-q13)
细胞遗传位置:15q11.2-q13
发病率:1/12000
安格尔曼综合征(AS)和帕-魏二氏综合征(PWS)共有染色体15q11-q13的细胞遗传缺失。Williams等,安格尔曼综合征的临床和遗传方面(Clinical and genetic aspectsof Angelman syndrome).Genet Med.2010年7月;12(7):385-95。
图14显示了公开数据库中15q11-q13综合征的地理并且显示了已建立的共有/检索区边界。
猫叫综合征(5p-综合征)
细胞遗传位置:5p-(5p15.2)
发病率:1/20000-50000
猫叫综合征是与染色体5的短臂的部分缺失相关的遗传先天性综合征。该缺失的尺寸可有极小的变化,并且涉及仅带5p15.2至整个短臂。分子细胞遗传分析显示62名患者(77.50%)具有特征为从p13(D5S763)至p15.2(D5S18)的断裂点间隔的5p末端缺失。Mainardi等,具有5p缺失的80名患者的临床和分子表征:基因型-表型相关性(Clinicaland molecular characterisation of 80patients with 5p deletion:genotype-phenotype correlation).J Med Genet.2001年3月;38(3):151-8。
图15列出了观察到的猫叫综合征频率和提出的共有/检索区边界。
威廉姆斯综合征
细胞遗传位置:7q11.2缺失
发病率:1/7500-1/20000
大部分患者(95%)显示出ELN基因组的1.55-Mb缺失并且在基因座D7S489B、D7S2476、D7S613、D7S2472、和D7S1870处也是半合子(或无信息的)。参见图5的公开数据链检索结果。Bayés等,威廉姆斯综合征缺失的突变机制(Mutational mechanisms ofWilliams-Beuren syndrome deletions).Am J Hum Genet.2003年7月;73(1):131-51.Epub 2003年6月9日。Jurado等,威廉姆斯综合征中染色体7缺失的分子定义和对生长的患者来源的影响(Molecular definition of the chromosome 7deletion in Williamssyndrome and parent-of-origin effects on growth).Am J Hum Genet.1996年10月;59(4):781–792。
图16显示了CdC综合征覆盖率频率。线代表公开数据库或文献综述中的综合征覆盖率频率,灰色阴影区代表8.6Mb综合征检索边界并且绿色阴影区是1.58Mb共有区。
Wolf-Hirschhorn综合征
细胞遗传位置:4p16.3
发病率:1/50000
Wolf-Hirschhorn综合征是由部分4p缺陷导致的部分异倍体综合征。该缺失一般为1.9-3.5Mb,并且主要在末端。最近,提出了该综合征的机制并且建立的新关键区。Zollino等,Wolf-Hirschhorn综合征表型映射至目前接受的WHS关键区外和定义新关键区(Mapping the Wolf-Hirschhorn Syndrome Phenotype Outside the CurrentlyAccepted WHS Critical Region and Defining a New Critical Region),WHSCR-2Am JHum Genet.2003年3月;72(3):590–597。
图17列出了观察到的WH综合征覆率频率和提出的共有/检索区边界。
1p36缺失
细胞遗传位置:1p36
发病率:1/5000
综合征1p36缺失综合征是最常见的人末端缺失综合征,每5000个新生儿中发生1个。评价来自60个家庭的具有单体1p36的61个对象中的缺失尺寸的研究对选择1p36的共有区作出了贡献。Heilstedt等,1p36的物理图,单体1p36中断裂点的置换,和该综合征的临床表征(Physical map of 1p36,placement of breakpoints in monosomy 1p36,andclinical characterization of the syndrome).Am J Hum Genet.2003年5月;72(5):1200-12。
图18总结了1p36综合征地理并且可视化建立的共有/检索区边界。
下表6总和了所有提出的共有/检索区边界。
表6:综合征边界总结
(II)鉴定综合征相邻箱
综合征相邻箱(SNB)是在与综合征共有区中的箱高度相关的强染色体(例如,排除染色体13、18和21的染色体)中的箱。为了鉴定共有在综合征共有区中观察到的综合征变异性的100kb箱,使用训练数据来构建距离矩阵,其代表共有区中各箱与属于强染色体(例如,排除染色体13、18和21)的全部100kb常染色体箱之间的配对距离。该距离表示在共有区中的箱和强染色体中的箱之间的对象间变异的相似程度。
该距离可计算为欧几里得距离、相关性、绝对相关性、余弦角、绝对余弦角、或任何其他合适度量。相关性需要具有相似形状的相邻。余弦角距离与相关性相似,除了向量在其自身的平均值周围集中,而不是重新调整以使相关性计算中的平均值为0。在该实施例中,距离计算为100kb覆盖率计数中的余弦角(aka相关性距离)。
接着,对于综合征共有区中的各100kb箱,选择最接近(并且最高度相关)的箱。然后,针对综合征共有区中的所有100kb箱收集最接近的箱以产生综合征相邻箱(SNB)组。在一些实施方式中,合并针对多个综合征的最接近的箱以产生针对多个综合征的主SNB组。在其他实施方式中,针对不同综合征产生分开的SNB组,如图19中所示的示例。
对SNB的检验人口统计学揭示了复杂的综合征-染色体关系。图19显示了SNB染色体与综合征关系的总结。图19的纵轴是染色体号,并且横轴是SNB组中箱的百分比。似乎一些综合征具有特定染色体中特征性的高比例箱。例如,猫叫综合征在染色体19上有超过25%非人SNB,并且在染色体16上有超过15%的箱。染色体1p36缺失综合征在染色体22上具有令人惊讶的高比例,超过30%的SNB。
另外,研究了综合征间SNB的关系,同样显示了综合征间SNB区域中不平凡关系和相关性。也从未受影响的训练组中综合征表现的透视图中探索SNB的尺寸并且在下文中讨论。
(III)从未受影响的样品的训练组中获得训练亚组
使用其SNB组数据对训练组T的未受影响的样品进行聚类,从而获得训练亚组S1。该训练亚组包括在SNB组中有相似变异性的未受影响的样品。
在一些实施方式中,如该实施例中,使用分级聚类有序划分和折叠杂交(HOPACH)算法来获得亚组S1。其他聚类技术也可应用于替代性实施方式中以获得训练亚组,如K-平均聚类。HOPACH获取输入矩阵并且基于2个样品之间的配对距离来进行划分。存在不同方式来计算上述2个样品之间的距离。
在一个实施方式中,如本文实施例中所示,划分技术是通过在中心点附近的划分(PAM)的技术,并且聚类算法是指HOPACH-PAM,其是聚类的分级聚类树。参见van der Laan和K.Pollard,用于采用可视化和拔靴法的杂交分级聚类的新算法(A new algorithm forhybrid hierarchical clustering with visualization and the bootstrap),Journalof Statistical Planning and Inference,117:275–303,2003。HOPACH方法结合划分和凝聚聚类方法两者的优势并使得研究人员能在增加的详细水平上检视聚类。
HOPACH-PAM是涉及在各水平的树中重复以下步骤的分级聚类分析:
1.划分:将PAM应用个聚类中的元素;
2.排序:对从PAM获得的新聚类进行排序;和
3.折叠(Collapse):可能合并一些聚类。
当各聚类含有不超过3个元素,或者当平均轮廓最大化时,该过程停止。最终水平是元素的有序排列。
1.划分。HOPACH-PAM过程可从将训练组划分成2个(或更多个)聚类开始。在自动化聚类过程中,可任意选择2个初始聚类。然后,获得各聚类的中心点。中心点是聚类的成员,其到聚类中所有对象的平均距离最小。中心点是与平均值(或质心)的概念相似,但是中心点总是数据组的成员。然后,该过程通过重分配成员和中心点直至平均轮廓最大化来更新聚类。聚类k的范围可指定或在特定范围内自动化检索。在后一种情况中,可通过具有最大平均轮廓的聚类的数量来确定k。
概念上,轮廓测量了对象与其自身聚类中的其他对象如何良好匹配对比如果其移至另一个聚类如何良好匹配。元素j的轮廓定义为:
其中aj是元素j与其聚类的其他元素的平均距离,并且bj是元素j与元素j不属于的任一聚类的元素的最小平均距离。
2.排序。HOPACH-PAM使用与划分步骤相同的距离矩阵以一些合理的方式对各水平上的聚类进行排序。进行排序的一种方式是基于其中心点的距离在树水平上对患者进行排序。将针对儿聚类的相邻聚类作为儿聚类的母聚类右侧的聚类。然后,基于儿聚类与其相邻聚类之间的聚类对儿聚类进行排序。对于最右侧组的儿聚类,相邻聚类位于其母聚类的左侧并且从从最小到最大距离开始排序。
3.折叠。聚类树水平上的2个或更多个聚类可能相似,并且它们可能或可能不共有母体。如本文的实施例所示,折叠的决定是基于在折叠步骤前后比较的标准。在一些实施方式中,折叠持续直至没有聚类对,折叠针对其改善了树水平的平均轮廓。或者,可通过对有序距离举证的视觉检查来鉴定待折叠的聚类。通过将一个聚类的标记给予另一个来进行折叠,使得树结构被保留。标记物的选择可以是任意的(例如,最右聚类)或者基于老中心点与新相邻聚类的相似性或者一些其他标准。通过各种选项来选择合并聚类的新中心点,如2个老中心点的(可能加权)平均的最近相邻者,和聚类的平均轮廓的最大者。
在该实施例中的HOPACH-PAM的应用中,在矩阵中,HOPACH-PAM算法将训练样品的SNB覆盖率作为输入,SNBNormCov=训练样品的SNB箱x#的#,SNBNormCovij=训练样品j中综合征相邻箱i的经标准化的覆盖率。该算法基于余弦角距离(相关性相似,除了向量在其自身的平均值周围集中,而不是重新调整以使相关性计算中的平均值为0)计算与输入矩阵的距离矩阵D。如上所述,余弦角是计算2个样品间距离的可能方式之一。
未受影响的样品被划分成聚类的分级聚类树,并且从全训练组T中选择最大聚类S1。在该聚类分析中,有趣的是鉴定共有经标准化的覆盖率上系统变异性的训练未受影响的样品的组。在分级聚类树内容中,这对应于选择聚类仍然显著的树的水平。只有其平均轮廓在树的之前水平的平均轮廓上改善,这才通过下沉树并且接受数的折叠的下一水平来进行。
(IV)确定综合征波概况
在选择来自HOPACH-PAM的最大聚类作为未受影响的样品T的全训练组间的训练亚组S1之后,S1的样品提供数据以确定综合征波概况,w1概况,作为基因组中各箱的经标准化的覆盖率值,在S1样品间取中值。在一些实施方式中,如本文实施例中所示,经标准化的覆盖率值已经针对参考序列的覆盖率标准化,如全基因组或标准化常染色体组。此外,在一些实施方式中,已经如本文他处所述针对称为全局波概况调整覆盖率,该全局波概况获自全训练组T。
(V)获得强线性拟合的残差
对于训练组T中的各样品,使用Huber M-估计器来获得覆盖率~w1概况的强线性拟合。然后,通过从各箱的覆盖率中减去线性拟合值来获得各样品的残差标准化的覆盖率,从而提供去除了综合征波概况的经调整的覆盖率。
(VI)确定其他综合征波概况
在针对波#1去除了一个综合征波概况w1概况之后,可以相似方式去除其他综合征波概况。这可通过使用从运算V获得的SNB中的残差作为运算III的SNB组数据迭代重复运算III至V,从而限定其他综合征波概况(w2概况,w3概况等)来实施。去除波#1之后的残差标准化的覆盖率矩阵经过第二轮分级聚类,再次提取最大聚类的中值概况并且与波#1正交的组分被储存为波#2。这种迭代持续直至需要数量的波正积累成可应用于测试不同样品的综合征波概况的静止组的部分。
(VII)应用综合征波概况
在已经获得波概况之后,它们可迭代应用于测试样品以调整基因组中箱的覆盖率。可以与在从训练样品获得波时对训练样品的调整相同的方式进行对测试样品的调整。调整迭代包括获得覆盖率~w#概况的强线性拟合的残差。然后,残差标准化的覆盖率用作下一次调整迭代的输入数据。
一旦建立SNB波,应用它们变成了一次使用一个波并且形成用于下一次SSS-BER迭代的残差标准化的覆盖率矩阵的迭代强线性拟合的过程。
SSS-BER过程的效果
研究每个迭代步骤的SSS-BER效果揭示了性能改善随着波数超过N=4的快速下降,参见图21,猫叫综合征的CV。在此,由综合征染色体的中值标准化的覆盖率标准化共有综合征区中的中值覆盖率以建立共有综合征比率作为性能度量。
另外,研究SNB的尺寸以确定综合征相邻箱的最有代表性的集合。具体地,对于综合征共有区内的每个100kb箱,针对每个SNB构象计算中值后-SS-BER标准化的覆盖率的CV并选择不同数量的最接近箱(前2%至10%),参见图22的猫叫综合征中的效果。
前-SSS-BER步骤
流动池-特异性全局波概况去除
在一些实施方式中,在SSS-BER过程之前,针对流动池全局波概况和GC概况调整箱的覆盖率。
为了进一步降低系统变异性,一些实施方式利用基于来自相同流动池的流动池特异性批量校正,其置换基于来自全训练组的样品的全局波校正。这种校正被称为流动池特异性全局波概况(FC-GWP)去除,其中在综合征波概况去除之前,在原始覆盖率校正中使用基于流动池的全局中值概况。假设xjk是观察到的来自染色体j=1,...,h,和箱k=1,...,nj中的临床样品的NES计数,其中nj是染色体j中箱的数量。
步骤1:获得经标准化的覆盖率:针对各箱k和染色体j,我们计算
步骤2:FC-GWP计算:定义FC-GWP为通过计算质量控制阈值的FC内所有样品间nxjk的中值。
步骤3:通过nxjk除以FC–GWPjk由FC-GWP调整经标准化的覆盖率。通过使用HuberM–估计器,{α,β}=nxjk的回归系数=rlm(FC-GWPjk)将FC–GWPjk强线性拟合至nxjk来确定调整参数:
图23比较了在基于全部训练样品去除全局概况的流程,对比使用FC-GWP的过程,和包括FC-GWP和SSS-BER的过程中的中值综合征CV。表7总结了各种深度覆盖率处的FC-GWP/SSS-BER流程性能。
表7:在1和12重测试数据组中的综合征比率CV。
GC校正
在各种实施方式中,在如上所述针对综合征特异性变异调整之前,可针对GC含量偏差校正覆盖率。简言之,这可通过基于测试样品的箱间GC含量水平和覆盖率之间的关系来调整覆盖率来进行。在一些实施方式中,GC含量水平和覆盖率之间的关系可由GC含量和覆盖率之间的非线性模型表示。在一些实施方式中,通过从覆盖率中减去非线性拟合值来实现调整。在其他实施方式中,可通过将覆盖率除以非线性拟合值来实现调整。在一些更简单的实施方式中,与使用非线性拟合来获得调整值不同,由覆盖率排序的箱的平均或中值可用作调整值。
后-SSS-BER步骤
获得经标准化的综合征值
在获得针对综合征区域的覆盖率之后,可针对该区域合并覆盖率。在一些实施方式中,针对不同测试样品,该区域是相同的,其中病例合并覆盖率值可除以含有综合征区域的染色体的覆盖率。然后,可使用覆盖率值来提供基于未受影响的样品的覆盖率值标准化的分数。标准化值可被称作经标准化的综合征值:
其中分别是一组未受影响的样品中第j个综合征剂量的估计平均值和标准偏差。在这些实施方式中,NSV与决策阈值比较,该决策阈值与具有特定置信区间的决策标准对应的z-分数在概念上类似。
在其他实施方式中,各个体测试样品具有样品综合征区段,其含有与研究的综合征相关的最强信号。可如下文进一步所述获得综合征区段。在这种情况中,用于判定综合征的度量针对综合征区段获得并与决策标准比较。
分割
在一些实施方式中,上述综合征区域可以是在通过下文进一步描述的分割途径获得的综合征检索区中的综合征区段。在一些相关的实施方式中,可用下述的替代性方法替换上述的后-调整步骤。在一些实施方式中,针对综合征区段,该分析计算胎儿分数(FF)或从中衍生的值代替NSV,其FF或衍生值与决策标准比较以确定综合区区段中是否存在CNV。在下文中提供了对决策过程和详细实施例的高水平说明。
实施例4:2步测序以最大化灵敏度和选择性
对于给定的数据组,区分受影响的和未受影响的样品的决策标准通常在假阳性和假阴性判定之间权衡。假设受影响的样品具有比未受影响的样品更高平均值的正态分布,如果标准设得较低,则灵敏度增加而选择性降低。相反,如果标准设得较高,则灵敏度降低而选择性增加。再次重复,灵敏度是真阳性判定对全部实际阳性(例如,受影响的或患者)样品的比率,而选择性是真阴性判定对全部实际阴性(例如,未受影响的或对照)样品的比率。本发明提供了同时增加判定序列CNV的灵敏度和选择性的方法。这对于测量值较低的受影响的样品和测量值较高的未受影响的样品而言是特别有帮助的。
在一些实施方式中,针对通过多重测序测序的样品选择第一阳性阈值和第一阴性阈值。高于第一阳性阈值的样品被确定为受影响的,并且低于第一阴性阈值的样品被确定为未受影响的。在第一阳性和第一阴性阈值之间的样品被认为在无判定区中。初始阳性阈值设置较高,例如,z=4,以减少假阳性。同时,初始阴性阈值设置较低,例如,z=1,以减少假阴性。初始阳性和初始阴性阈值之间的范围被认为是“无判定”区。无判定区中的样品然后经过第二轮较高测序深度的测序(例如,单重测序)以获得第二NCV或NSV,或者其他测量值(例如,z值)用于决策。
除了或者代替使第一阳性阈值和第一阴性阈值之间的样品经过额外的更深测序以外,可设定第一阈值(较低,例如,NCV=1.3)并且选择用于再测序的最低排名样品的部分,如下文实施例中详述。例如,10%的第一阈值以上的样品经过再测序。然后,使用第二阈值(较高,例如,NCV=4)来确定再测序的样品是否受影响。
更深的测序产生更多读数并且降低了患者分布的分散,其减少了患者分布和对照分布之间的重叠。因此,公开的方法可应用第二阈值,第二测量值与该第二阈值比较。选择第二阈值以使假阳性保持较低,而没有使假阴性过度放大。应注意由于更深的测序,可能有效压缩真阳性样品的分散。在一些实施方式中,NCV的z分数可设为例如3或4。这种2步测序方法同时增加了选择性和选择性。
本发明提供了2步测序和序列标签计数方法,其在混合物中拷贝数变异,以及NIPT或癌症中染色体非整倍性分类中同时达到高灵敏度和高选择性。该2步方法可应用于依赖于序列标签计数的任何诊断方法。
除了最大化诊断结果的精确性以外,在NIPT中,该2步方法使得能够以合理的成本进入平均风险视场,因为在第一较低成本的测序步骤中,90%或更多的样品可从潜在阳性中排除。然后,可通过降低假阳性率在单步测序方法中改善阳性预测值(PPV),其中PPV=真阳性/(真阳性+假阳性)。
该方法也潜在允许进入以合理成本筛选和/或鉴定癌症的视场,因为在第一较低成本测序步骤中80-90%的样品从潜在阳性中排除,同时使第二测序步骤有较高特异性。
任何基因座或等位基因特异性计数应用也可针对最大特异性和灵敏度优化。
当通过对序列标签进行计数检测染色体非整倍性时:
(1)假阳性率依赖于采用的标签数量-其依赖于经选择将样品分类为“检测到非整倍性”的样品的截止值
-例如,如果在以下z-分数截止值下分类为“检测到非整倍性”:
-3–FP率为0.13%
-2–FP率为2.30%
-1.65–5%等;并且
(2)假阴性率取决于三个因素:
-采用的标签数量
-经选择将样品分类为“检测到非整倍性”的截止值(z-分数)
-针对正被分类的特定染色体的测量的相对变异(CV-变异系数)
●例如,染色体21的CV为约0.4%,而染色体18为约0.2%
-人群中cfDNA胎儿分数分布
●假设不进行胎儿分数测量以消除具有低胎儿分数的样品
因此,对于预期胎儿分数分布和特定变异系数(CV),我们可将预期假阴性(FN)与假阳性(FP)相关联,其针对图24中所示的灵敏度/选择性曲线的可计数序列标签的数量范围分类。图24显示了对染色体21的不同测序深度的假阴性与假阳性比率。图25显示了对染色体18的不同测序深度的假阴性与假阳性比率。这些曲线与针对z(真阳性)对比z(假阳性)绘制的接受运行特性(ROC)曲线互补,其中ROC曲线下的面积代表灵敏度测量值d’(本文未显示)。
示例性的2步测序过程
步骤1
用许多样品/泳道进行测序并且将NCV截止值设低使得灵敏度大于99.5%
●例如,NCV=1.3,FP率为约10%
●5M标签的检测率,针对T21大于99.3%,针对T18大于99.8%
步骤1最大化试验的灵敏度,即,最大化检测真阳性的能力。
例如,在第一步骤中,在一个流动值泳道中对来自第一(较大)数量例如,48个的样品的DNA进行测序以生成针对各样品的第一数量的序列标签,例如,5M,并且计算针对样品的NCV。NCV与第一(较低)预设阈值(例如,1SD)比较,在该阈值以上检测到最大百分比的真阳性,即预设第一阈值以最大化试验的灵敏度,例如,针对T21大于99.5%并且针对T18为99.8%。在这种情况中,在NCV=1.3下,大约90%的群将被分类为真阴性并如此报告。
步骤2
用较少样品/泳道(约8)对来自第一测序运行的10%推定阳性进行测序并且设定NCV截止值,使得特异性大于99.9%。
●例如,NCV=4,FP率远小于0.1%
●对于三体,25M标签的检测率大于99.9%
步骤2最大化试验的特异性,即,最大化检测真阴性的能力。
在第二步骤中,只有以99.5%灵敏度被确定为阳性的样品,即具有超过第一较低预设阈值(1SD)的NCV的样品经再测序以获得更大数量的序列标签/样品,即24M标签/样品。
假设样品的胎儿分数落入预期分布,可通过增加序列标签数量/样品、并且通过预设阈值使在该阈值以上检测到的假阳性样品的数量最小化来最大化试验的特异性。标签数量/样品越大,则被分类的特性染色体的测量的相对变异(CV-变异系数)越小,测试的精度越大。
可通过对每个流动池泳道测序较少的样品来实现更大的测序深度/样品。例如,在步骤2中,针对每个流动池泳泳道仅测序8个样品以获得24M标签/样品。针对各样品的NCV经计算并与第二(较高)预设阈值进行比较。在这种情况中,第二阈值预设为NCV=4,并且只有NCV大于4的样品被分类为阳性。我们已经显示,针对NCV大于4的样品检测的假阳性率低于0.1%。
使用相似的2步骤测序过程,与上述的全局概况和综合征概况去除过程结合,可检测亚染色体区的CNV。表8显示了使用针对1p36缺失综合征、Wolf-Hirschhorn综合征、猫叫综合征、安格尔曼综合征、和迪格奥尔格综合征的技术的NCV检测的灵敏度,其可以高灵敏度和阳性预测值获得。
表8.使用针对5种综合征的NCV检测的灵敏度。
实施例5:亚染色体CNV的确定和分割
在一些实施方式中,综合征检测评价了针对与综合征相关的箱中观察到的经标准化的覆盖率(Y)的零假设(M0)和替代假设(M1)。M0:不存在检测(或其他CNV),覆盖率符合与综合征相关的区中的二倍体基因组的预期。M1:检测以“ff”的胎儿分数存在,其在箱“s”处开始并在箱“e”处结束。
针对各箱的经标准化的覆盖率的可能性(Yi)构建具有ff、s和e作为参数的t-分布的模型。在下文中进一步描述了该模型关系。
因为M0中的胎儿分数并不影响Y,ff可任意设为ff=0用于建模和计算。在一些实施方式中,M1中的ff可假设从未受影响的男性的训练组中获得的分布中的值。
可针对这三个参数的所有可能值计算多种可能性(ff,s,和e-s和e使用来自文献的综合征特异性共有和检索值结合)。然后,针对观察到的经标准化的覆盖率,合并多种可能性以获得M0的概率,并且针对给定的相同覆盖率,获得M1的概率。2种概率的比较产生分数。如果分数在阈值以上,则该分析确定存在检测。
一些限制条件应用于综合征特异性区分析的参数:
-起始位置“s”在综合征的检索区内。
-如果检测确定为“末端”,则起始位置总是固定在染色体的起点
-终止位置“e”在综合征的检索区内
-胎儿分数“ff”在母体血浆样品的胎儿分数预期的分布内
-缺失尺寸(“e”–“s”)跨至少共有区的尺寸
在这两种替代的各自中,通过t-分布对观察到的经标准化的覆盖率进行建模。为了对给定样品的缺失存在进行评分,将给定经标准化的覆盖率的第一替代的概率与给定相同覆盖率的第二替代的概率进行比较。
考虑综合征边界的起点(s)/终点(e)位置和胎儿分数(ff),通过t-分布对箱i中经标准化的覆盖率概况的可能性进行建模:
可在全部可能起点/终点值上对可能性进行积分以衍生受到综合征影响的胎儿分数的分布:
2个替代模型的分数可针对最终缺失存在分类进行比较(M0和M1)。M0:不存在检测(ff=0)M1:在一些胎儿分数ff>0下存在的缺失。步骤I:确定给定综合征的众多综合征位置起点/终点位置
基于综合征边界确定所有可能起点/终点位置。可将胎儿分数分布插入之后的计算中。给定最小综合征区,有效起点/终点位置假设是等概率的。该分析包括评价在检索区和胎儿分数内的所有可能综合征位置下的可能性。下文提供了用于限定综合征区的伪代码。用于伪代码的参数示于表9。
表9.分割参数
步骤II:固定起点/终点/ff值的log-可能性的计算
固定起点/终点/ff值的log-可能性的输入:y-在综合征检索区内给定样品的观察到的经标准化的覆盖率。Theta–(start,stop,alpha(fetal fraction));Params–综合征的t-分布参数。伪代码如下。