CN116157869A - 用于检测遗传改变的系统和方法 - Google Patents

用于检测遗传改变的系统和方法 Download PDF

Info

Publication number
CN116157869A
CN116157869A CN202180044375.6A CN202180044375A CN116157869A CN 116157869 A CN116157869 A CN 116157869A CN 202180044375 A CN202180044375 A CN 202180044375A CN 116157869 A CN116157869 A CN 116157869A
Authority
CN
China
Prior art keywords
nucleic acid
sample
sequencing
sequence
fetal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180044375.6A
Other languages
English (en)
Inventor
萨拉·L·金宁斯
科斯明·德丘
迈克尔·梅恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Irumina Software Co
Original Assignee
Irumina Software Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Irumina Software Co filed Critical Irumina Software Co
Publication of CN116157869A publication Critical patent/CN116157869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1096Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Plant Pathology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Circuits Of Receivers In General (AREA)
  • Hardware Redundancy (AREA)
  • Selective Calling Equipment (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

所公开的技术涉及用于重新分析样品以实现信息更丰富的测试结果的自动流体处理系统和自动测序方法。在一个实施方案中,处理样品核酸以识别靶突变的方法包括执行第一测序反应以确定样品特定的特性。该方法还包括确定统计量度以确定由该第一测序反应得出的该靶突变的第一读段覆盖度是高于还是低于阈值。如果所确定的第一读段覆盖度未超过该阈值,则该方法还包括确定是否有足量的样品核酸可用于执行第二测序反应以将该读段覆盖度增加到高于该阈值。如果有足量的样品核酸可供使用,则该方法继续执行该样品核酸的重新测序以实现超过该阈值的第二读段覆盖度。

Description

用于检测遗传改变的系统和方法
相关申请的交叉引用
本申请要求2020年12月2日提交的美国临时申请63/120636的优先权,该临时申请的内容全文以引用方式并入。
背景技术
技术领域
所公开的技术涉及用于遗传改变的非侵入性评估的自动方法和系统。在一个方面,该系统确定具有推定遗传改变的样品是否已以足够的置信度确定,并且如果为否,则可重新处理样品。
背景技术
活生物体(例如,动物、植物和微生物)的遗传信息和复制遗传信息的其他形式(例如,病毒)被编码成脱氧核糖核酸(DNA)或核糖核酸(RNA)。遗传信息是代表化学或假定核酸的一级结构的一连串核苷酸或修饰的核苷酸。每个基因编码特定蛋白质,所述蛋白质在通过转录和翻译表达之后,在活细胞内实现特定的生物化学功能。
人类医学研究中的重要工作之一是发现会产生不良健康后果的遗传异常。在许多情况下,已经在基因组中拷贝数异常的部分中识别出特定基因和/或关键诊断标记。例如,在产前诊断中,全染色体的额外拷贝或缺失拷贝是经常发生的遗传病变。在癌症中,全染色体或染色体区段的拷贝缺失或倍增以及基因组特定区域的较高水平扩增经常发生。
许多医学病症由一个或多个遗传改变引起。某些遗传改变引起医学病症,包括例如血友病、地中海贫血、杜氏肌营养不良症(DMD)、亨廷顿氏病(HD)、阿尔茨海默病和囊性纤维化(CF)(《人类基因组突变》(Human Genome Mutations),D.N.Cooper和M.Krawczak,BIOS出版社(BIOS Publishers),1993)。此类遗传疾病可能由特定基因的DNA中单个核苷酸的添加、取代或缺失引起。某些出生缺陷由染色体异常(也称为非整倍体)造成,诸如21-三体(唐氏综合征)、13-三体(帕陶氏综合征)、18-三体(爱德华氏综合征)、X单体(特纳氏综合征)和某些性染色体非整倍体诸如克氏综合征(XXY)。一些遗传改变可能使个体倾向于或引起许多疾病中的任一种,例如糖尿病、动脉硬化、肥胖症、各种自体免疫疾病和癌症(例如,结直肠癌、乳腺癌、卵巢癌、肺癌)。
发明内容
本文所公开的系统、设备、试剂盒和方法各自具有若干方面,其中任何单个方面都不全权负责其期望的属性。在不限制权利要求的范围的情况下,现在将简要地讨论一些突出的特征。还设想了许多其他实施方案,包括具有更少、附加和/或不同部件、步骤、特征、对象、益处和优点的实施方案。还可以以不同方式对部件、方面和步骤进行布置和排序。在考虑该讨论之后,特别是在阅读标题为“具体实施方式”的章节之后,将理解本文所公开的设备和方法的特征如何提供优于其他已知设备和方法的优点。
在一个方面,所公开的技术提供了处理样品核酸以识别靶突变的方法。该方法包括执行第一测序反应以确定样品特定的特性,即靶突变的存在或不存在。该方法还包括基于样品特定的特性来确定与靶突变相关的第一统计量度。该方法还包括通过参考第一统计量度来确定由第一测序反应得出的靶突变的第一读段覆盖度是高于还是低于阈值。如果所确定的第一读段覆盖度未超过阈值,则该方法还包括确定是否有足量的样品核酸可用于执行第二测序反应以将读段覆盖度增加到高于阈值。如果有足量的样品核酸可供使用,则该方法还包括计算实现第二有效读段覆盖度所需的样品量并且对样品核酸进行重新测序以实现超过阈值的第二读段覆盖度。在另一方面,所公开的技术提供了处理样品核酸以识别靶突变的系统。该系统包括测序仪,该测序仪被配置为对样品核酸进行测序。该系统还包括处理器,该处理器被配置为控制该测序仪以执行本文所公开的方法中的任何方法。该系统还包括与该处理器可操作地连接的存储器。
应当理解,本文所公开的系统的任何特征可以任何期望的方式和/或配置组合在一起。此外,应当理解,本文所公开的方法的任何特征可以任何期望的方式组合在一起。此外,应当理解,方法和/或系统的特征的任何组合可一起使用,和/或可与本文所公开的任何示例组合。
应当理解,前述概念和下文更详细讨论的附加概念的所有组合都被设想为是本文所公开的发明主题的一部分并且可用于实现本文所述的益处和优点。
虽然本文的示例涉及人类并且语言主要针对人类,但本文所述的概念适用于来自任何植物或动物的基因组。本公开的这些和其他目的和特征将根据以下描述和所附权利要求变得更加显而易见,或者可通过如下文所述的本公开的实践来了解。
附图说明
通过参考以下具体实施方式和附图,本公开的示例的特征将变得显而易见,其中类似的附图标号对应于类似但可能不相同的部件。为了简洁起见,具有先前描述的功能的附图标号或特征可结合或可不结合它们出现的其他附图来描述。
图1是示出用于对试验样品进行自动流体处理、核苷酸测序和重新分析的系统的一个实施方案的框图。
图2是示出用于执行与图1所示的系统兼容的各种操作的选项的图表。
图3是示出可用作图1所示的系统的一部分的示例性计算机系统的框图。
图4是示出处理样品以识别靶突变的示例性方法的流程图。
图5是示出与图4所示的方法兼容的另外的方法步骤的流程图。
图6A是线图,该线图示出了对于迪乔治综合征而言在不同水平的有效读段覆盖度(ERC)下随胎儿分数而变化的对数似然比(LLR)的模拟结果。
图6B是线图,该线图示出了实现随胎儿分数而变化的期望LLR的最小ERC。
图7是图表,该图表示出了对于正常样品和具有迪乔治综合征的样品而言在第一测序反应之后随胎儿分数而变化的LLR的模拟结果。
图8是图表,该图表在图7的相同模拟结果之上示出了在重新测序之后将如何应用LLR截止值的说明。
具体实施方式
本文提及的所有专利、专利申请和其他出版物,包括在这些参考文献中公开的所有序列,均明确地以引用方式并入本文,其程度如同具体且单独地指出每个单独的出版物、专利或专利申请以引用方式并入本文。所有引用文献的相关部分均全文以引用方式并入本文以用于本文引用的上下文所指示的目的。然而,不可将任何文献的引用理解为是对其作为本公开的现有技术的认可。
例如,美国专利号10,095,831、美国专利号10,643,738、美国专利申请公布号2017/0351811、美国专利申请公布号2016/0224724和国际申请号PCT/US2020/035787中描述了关于执行遗传变异的非侵入性评估诸如非侵性产前检测(NIPT)、核型分析、判定微缺失、处理包含游离核酸片段的试验样品、使用游离DNA片段大小来确定拷贝数变异、使用用于质量控制的检测限以及遗传异常相关遗传性疾病、癌症、神经系统疾病和自体免疫疾病的列表的详情,这些专利和申请的公开内容全文以引用方式并入本文。
概述
液体活检涉及分析作为所关注分析物和其他分析物的混合物的生物样品。例如,在非侵入性产前检测中,母体血浆样品可包含游离胎儿DNA和母体DNA两者。在癌症诊断中,患者血液样品可包含循环肿瘤DNA和正常DNA两者。当使用下一代测序技术例如确定胎儿是否患有特定医学病症时,作为混合物的样品会影响诊断的灵敏度和特异性。然而,可通过以下方式提高灵敏度和特异性:执行折返分析(reflexing analysis)以重新分析测序深度可能不足以对判定特定标记或单核苷酸多态性(SNP)进行准确预测的样品。
本发明的一个实施方案是用于自动重新分析样品以实现信息更丰富的测试结果的系统或方法。例如,系统可执行第一轮测序以确定特定遗传标记的存在或不存在,然后计算样品是否已达到期望的有效读段覆盖度(ERC)。如果尚未达到期望的ERC,则该系统确定是否仍有足量的生物样品来执行附加测序反应以达到样品的阈值ERC。如果仍有足量的样品,则该系统确定需要多少样品,并且将与所计算的样品量相对应的值输出到输出文件。在一个实施方案中,该系统可读取该输出文件以指示自动流体处理系统取回所需量的剩余样品并且将其放入流通池混合物中以进行另一轮下一代测序(NGS),从而达到阈值ERC。因此,所公开的技术涉及预测重新分析样品的剩余部分是否可改善样品中的遗传信息的读段覆盖度,并且因此在对样品执行第二轮测序时潜在地改善测试结果可能有多大的信息量。
从游离核酸中检测遗传改变
识别一个或多个遗传改变或方差可有助于诊断特定医学病症或确定特定医学病症的易感性。识别遗传方差可得以促进医疗决策和/或采用有用的医疗程序。可在相对较短的时间内对全基因组进行测序的技术的出现和循环游离DNA(cfDNA)的发现,提供了将源自一个待比较染色体的遗传物质与源自另一个待比较染色体的遗传物质进行比较而无需考虑与侵入性取样方法相关联的风险的机会,其为诊断所关注基因序列的多种拷贝数变异提供了工具。在非侵入性产前检测中,母体血浆样品可包含游离胎儿DNA和母体DNA两者。在癌症诊断中,患者血液样品可包含循环肿瘤DNA和正常DNA两者。
母体血浆中存在胎儿DNA展现出激动人心的非侵入性产前检测可能性。最近,人们对使用大规模平行测序(MPS)来分析循环胎儿DNA以用于产前检测目的有着很大兴趣。例如,胎儿21、13、18-三体和所选择的性染色体非整倍体已使用对母体血浆DNA的MPS来检测并且已被迅速引入到临床服务中。除了因涉及全染色体的拷贝数变化引起的异常之外,其他异常诸如用于检测亚染色体缺失或重复的母体血浆的基于MPS的分析也可能是有用的。在一些实施方案中,所公开的技术使用下一代测序技术来确定胎儿是否患有医学病症(例如,胎儿是否具有指示迪乔治综合征或唐氏综合征的基因特征)。
在某些实施方案中,一个或多个遗传改变或方差的识别涉及游离DNA的分析。游离DNA(cfDNA)由源于细胞死亡并在外周血中循环的DNA片段构成。高浓度的cfDNA可指示某些临床病症,诸如癌症、创伤、烧伤、心肌梗塞、中风、败血症、感染和其他疾病。另外,游离胎儿DNA(cffDNA)可在母体血流中检测到并且用于各种非侵入性产前诊断。
在一些实施方案中,可由允许识别结构异常的细胞遗传学分辨率来提供关于DNA的某个基因或部分的拷贝数的信息(称为拷贝数变异(CNV))。在一些实施方案中,用于基因筛检和生物剂量测定的方法包括侵入性手术(例如羊膜穿刺术、脐带穿刺术或绒毛取样术(CVS))来获得用于染色体核型分析的细胞。由于认识到无需细胞培养的更快速测试方法的必要性,人们已经开发了荧光原位杂交(FISH)、荧光定量聚合酶链反应(qf-PCR)和阵列-比较基因组杂交(array-CGH)作为用于分析拷贝数变异的分子细胞遗传学方法。
研究已表明,孕妇血浆中胎儿cfDNA片段的平均长度短于母体cfDNA片段。在本文的具体实施中可利用母体和胎儿cfDNA之间的这种差异来确定CNV和/或胎儿分数。本文所公开的实施方案满足上述需求中的一些需求。一些实施方案可使用无PCR文库制备外加配对末端DNA测序来实施。一些实施方案为非侵入性产前诊断和多种疾病的诊断提供了高分析灵敏度和特异性。换句话讲,可通过考虑母体血浆中的胎儿DNA片段的长度分布不同于母体DNA片段的长度分布这一事实来提高灵敏度和特异性。同样,患者血液中的肿瘤DNA片段的长度分布不同于正常DNA片段的长度分布。可基于其长度来将检测到具有该基因特征的DNA片段识别为胎儿DNA或母体DNA,因此在诊断胎儿是否患有该医学病症时提高了灵敏度和特异性。
用于检测遗传改变的自动重新测序
图1示出了用于对试验样品进行自动流体处理、测序和重新分析的系统的一个实施方案。样品采集位置01用于从患者(诸如妊娠女性或推定的癌症患者)中获得试验样品。然后将样品提供给处理和测序位置03,在此处可如本文所述对试验样品进行处理和测序。位置03可包括用于处理样品的特定系统以及用于对经处理的样品进行测序的装置。例如,位置03可包括下一代测序(NGS)测序系统,诸如由Illumina公司(加利福尼亚州圣地亚哥(San Diego,CA)制造的那些。如本文他处所述的处理和测序的结果是通常以电子格式提供并且提供给内部或外部网络05诸如互联网的核苷酸读段集合。
还可将序列数据提供给执行分析和判定生成的远程位置07。该位置可包括一个或多个强大的计算设备。在位置07处的计算资源已完成其分析并根据所接收的序列信息生成判定之后,将该遗传判定中继回到网络05。在一些具体实施中,在位置07处不仅生成判定,而且还可生成相关联的诊断。然后将该判定和/或诊断通过网络传输并返回至如图1所示的样品采集位置01。如所解释的,这仅仅是关于如何在各种位置之间划分与生成判定或诊断相关联的各种操作的许多变型中的一种变型。一种常见的变异体涉及在单个位置提供样品收集、处理和测序。另一种变型包括在与分析和判定生成相同的位置处提供处理和测序。
图2是详细说明用于在不同位置A、B、C或D处执行与图1所述的系统兼容的各种操作的选项的示意图。在图2所示的最细粒度的意义上,在单独位置处执行每个以下操作:样品采集、样品处理、测序、读段比对、判定、诊断以及报告和/或计划开发。当然,应当意识到,这些操作中的每个操作也可在相同物理位置或实验室中执行。
在聚集这些操作中的一些操作的一个实施方案中,样品处理和测序在一个位置进行,而读段比对、判定和诊断在单独的位置进行。参见图2中由参考字符A标识的部分。在图2中由参考字符B标识的另一个具体实施中,样品采集、样品处理和测序均在相同位置处执行。在该具体实施中,在第二位置处执行读段比对和判定。最后,在第三位置处执行诊断和报告和/或计划开发。在图2中由参考字符C所示的具体实施中,在第一位置处执行样品采集,在第二位置处一起执行样品处理、测序、读段比对、判定和诊断,并且在第三位置处执行报告和/或计划开发。最后,在图2中标为参考字符D的具体实施中,在第一位置处执行样品采集,在第二位置处执行样品处理、测序、读段比对和判定全部,并且在第三位置处执行诊断和报告和/或计划管理。
图1所示的系统可利用任何合适的计算机系统或子系统。这种计算机系统900的示例在图3中示出。在一些实施方案中,计算机系统900包括单个计算机装置,其中子系统可为计算机装置的部件。在其他实施方案中,计算机系统可包括具有内部部件的多个计算机装置,每个计算机装置均为子系统。
图3所示的计算机系统900的子系统经由系统总线975来互连。示出了附加子系统,诸如打印机974、键盘978、存储设备979、联接到显示适配器982的监视器976及其他。外围设备和输入/输出(I/O)设备(其联接到I/O控制器971)可通过本领域已知的任何数量的装置诸如串行端口977连接到计算机系统。例如,串行端口977或外部接口981(例如,以太网、Wi-Fi等)可用于将计算机系统900连接到广域网诸如互联网、鼠标输入设备或扫描仪。经由系统总线975的互连允许中央处理器973与每个子系统通信并且控制来自系统存储器972或存储设备979(例如,固定磁盘,诸如硬盘驱动器或光盘)的指令的执行以及信息在各子系统之间的交换。系统存储器972和/或存储设备979可体现计算机可读介质。本文所提及的任何数据可从一个部件输出到另一个部件并且可输出到用户。
计算机系统可包括例如由外部接口981或由内部接口连接在一起的多个相同部件或子系统。在一些实施方案中,计算机系统、子系统或装置可通过网络通信。在此类情况下,一个计算机可被视为客户端并且另一个计算机可被视为服务器,其中每一者均可为相同计算机系统的一部分。客户端和服务器可各自包括多个系统、子系统或部件。
图1所示的系统可实施如图4所示的处理样品以识别靶突变的方法400。如图4所示,方法400从开始框401开始,然后移至框405以执行第一测序反应来确定样品特定的特性,诸如每微升样品的胎儿分数和读段覆盖度。在一些实施方案中,执行第一测序反应以确定样品特定的特性可包括从第一测序反应获得序列读段,并且将序列读段与参考序列进行比对并获得比对结果。在一些实施方案中,参考序列包含代表性基因组或转录组的部分。在一些实施方案中,第一测序反应和第二测序反应利用下一代测序过程。在一些实施方案中,通过文库制备过程从原始样品制备样品核酸,该文库制备过程与下一代测序过程兼容。在一些实施方案中,样品核酸包含来自宿主的宿主核酸和来自客体的客体核酸,宿主和客体来自相同物种,例如人类。在一些实施方案中,宿主核酸和客体核酸来源于在宿主中循环的游离核酸。例如,宿主为母亲,客体为胎儿,并且胎儿中的靶突变对应于胎儿的表型或胎儿死亡的原因。在此类情况下,靶突变可对应于胎儿的非整倍体综合征、微缺失综合征或微重复综合征。又如,宿主为患者并且客体为肿瘤,其中肿瘤中的靶突变对应于癌症类型、分期或对治疗的敏感性。
在框405处执行第一测序反应以确定样品特定的特性之后,方法400随后移至框415以基于样品特定的特性来计算与靶突变相关的第一统计量度,并且通过参考第一统计量度来确定由第一测序反应得出的靶突变的第一读段覆盖度是高于还是低于阈值。在一些实施方案中,第一统计量度是对数似然比,并且确定对数似然比包括:基于第一测序反应的结果来确定真阳性率,该真阳性率是在客体核酸中检测到靶突变的频率;基于第一测序反应的结果来确定假阳性率,该假阳性率是在宿主核酸中检测到靶突变的频率;将真阳性率除以假阳性率以获得似然比;以及对似然比进行对数变换以获得对数似然比。在一些实施方案中,确定真阳性率和确定假阳性率涉及通过将检测到具有靶突变的核酸的长度与核酸长度的统计模型进行比较来推断该核酸是宿主核酸还是客体核酸,该统计模型凭经验利用以与如何得到样品核酸类似的方式得到的生物样品来确定。
如果在框415处所确定的第一读段覆盖度未超过阈值,则方法400移至框425(通过图5中详述的另外的方法步骤)以确定是否有足量的样品核酸可用于执行第二测序反应,从而将读段覆盖度增加到高于阈值。在一些实施方案中,确定是否有足量的样品核酸可用于执行第二测序反应包括通过下式估计第二读段覆盖度RC2:RC2/V2=RC1/V1,其中RC1是所确定的第一读段覆盖度,V1是第一测序反应中使用的样品核酸的体积,并且V2是样品核酸的剩余部分的体积。如果估计的RC2超过阈值,则确定有足量的样品核酸可用于执行第二测序反应。
如果在决策框426处有足量的样品核酸可供使用,则方法400移至框435以计算实现第二有效读段覆盖度所需的量并且对样品核酸进行重新测序而实现超过阈值的第二读段覆盖度。在一些实施方案中,对样品进行重新测序包括在第一测序反应之后对样品核酸的剩余部分执行第二测序反应。另选地,如果在决策框426处,在框425处的确定之后没有足量的样品核酸可供使用,则方法400移至框445,报告对样品核酸进行重新测序将不能提供关于靶突变的信息。
在一些实施方案中,图4的方法包括图5所示的一些另外的方法步骤。例如,图4的框415确定第一统计量度以确定由第一测序反应得出的靶突变的第一读段覆盖度是高于还是低于阈值,可包括图5的框505、525和535。图5所示的方法415从框505开始以基于第一测序反应的结果来确定第一统计量度。如果在决策框506处所确定的第一统计量度超过截止值,则方法415移至框515以报告靶突变的阳性结果,然后方法415移至结束框546。另选地,如果在决策框506处所确定的第一统计量度未超过截止值,则方法415移至框525以基于第一测序反应的结果来确定第一读段覆盖度,然后移至框535以将所确定的第一读段覆盖度与阈值进行比较。任选地,如果在决策框536处,所确定的第一读段覆盖度超过阈值,则方法415可移至框545以报告靶突变的阴性结果,然后方法415移至结束框546。另选地,如果在决策框536处,所确定的第一读段覆盖度未超过阈值,则方法415可移回至图4的框425。
在一些实施方案中,在对样品核酸进行重新测序之后,方法400可移至获得另外的序列读段。然后方法400可移至将另外的序列读段与参考序列进行比对并获得另外的比对结果,其中参考序列包含代表性基因组或转录组的部分。然后方法400可移至基于另外的比对结果来确定具有靶突变的第二统计量度。如果所确定的第二统计量度未超过截止值,则方法400可移至报告靶突变的阴性结果。否则,方法400随后可移至报告靶突变的阳性结果。
LLR截止值在图7中示出,该图示出了在第一测序反应之后随胎儿分数而变化的LLR的模拟结果。根据其LLR得分相对于图7所示的LLR截止值落在何处,图7所示的样品可被判定为呈阳性、阴性或可被标记用于折返分析(例如如果ERC<所需ERC)。对于LLR得分可被标记用于折返分析但其ERC>所需ERC的那些样品,则那些LLR得分将被判定为呈阴性并且不会被标记用于折返分析。对于LLR得分被标记用于折返分析的那些样品,如果考虑到其残余体积,确定它们不能在重新测序反应时满足其目标ERC,则它们不会折返。
图8在图7的相同模拟结果之上示出了在重新测序之后将如何应用LLR截止值的说明,并与在图7所示的第一测序反应时将如何应用阈值进行比较。如图8所示,如果样品的LLR得分实现了超过上限LLR截止值的所需ERC,而LLR得分仍未超过上限LLR截止值,则样品的LLR得分将被判定为呈阴性。最终LLR得分可为来自重新测序的单独得分或来自第一测序反应和重新测序反应两者的LLR得分的总和(即,“累加”LLR得分)。
在一些实施方案中,通过以下方式设定方法400的LLR截止值:假设样品中的客体核酸和宿主核酸均不包含靶突变,通过计算生成与具有不同丰度水平的客体核酸的样品相对应的多个序列表示;假设在不同读段覆盖度下执行测序,由该多个序列表示模拟比对结果;基于模拟的比对结果来确定客体在每个丰度水平和每个读段覆盖度下具有靶突变的第一统计量度;以及将截止值设定为不超过预设百分比的此类序列表示可实现的第一统计量度的值。
在一些实施方案中,考虑到样品核酸中的客体核酸已知或假定包含靶突变并且样品核酸中的宿主核酸已知或假定不包含靶突变,方法400的阈值被设定为允许所确定的第一统计量度超过截止值的最小读段覆盖度,如图6A和图6B所示。在一些实施方案中,该阈值是靶突变的复杂度和样品核酸中的客体核酸的丰度的函数。在一些实施方案中,通过以下方式获得该函数:假设样品中的客体核酸包含靶突变而样品中的宿主核酸不包含靶突变,通过计算生成与具有不同丰度水平的客体核酸的样品相对应的多个序列表示;假设在不同读段覆盖度下执行测序,由该多个序列表示模拟比对结果;基于模拟的比对结果来确定客体在每个丰度水平和每个读段覆盖度下具有靶突变的第一统计量度;以及针对靶突变将每个丰度水平下的阈值设定为允许所确定的第一统计量度超过截止值的最小读段覆盖度。在一些实施方案中,通过以下方式估计样品核酸中的客体核酸的丰度:基于第一测序反应的结果来获得样品核酸中的核酸的长度分布;以及通过将所获得的长度分布与核酸长度的统计模型进行比较来推断丰度,该统计模型凭经验利用以与如何得到样品核酸类似的方式得到的生物样品来确定。
测序数据分析和诊断方法
可使用各种计算机执行的算法和程序来执行测序数据的分析和所得的诊断。因此,某些实施方案采用包括存储在一个或多个计算机系统或其他处理系统中或通过一个或多个计算机系统或其他处理系统传输的数据的过程。本文所公开的实施方案还包括用于执行这些操作的装置。该装置可被专门构造用于所需目的,或者其可以由存储在计算机中的计算机程序和/或数据结构来选择性地激活或重新配置的通用计算机(或计算机组)。在一些实施方案中,处理器组协同地(例如,经由网络或云计算)和/或并行地执行所述分析操作中的一些或全部操作。用于执行本文所述的方法的处理器或处理器组可以是各种类型,包括微控制器和微处理器,微处理器诸如可编程设备(例如,CPLD和FPGA)和不可编程设备(诸如门阵列ASIC或通用微处理器)。
此外,某些实施方案涉及有形和/或非暂态计算机可读介质或计算机程序产品,其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括但不限于半导体存储器设备、磁性介质(诸如磁盘驱动器)、磁带、光学介质(诸如CD)、磁光介质以及被专门配置为存储和执行程序指令的硬件设备,诸如只读存储器设备(ROM)和随机存取存储器(RAM)。计算机可读介质可由最终用户直接控制,或者所述介质可由最终用户间接控制。直接控制介质的示例包括位于用户设施处的介质和/或不与其他实体共享的介质。间接控制介质的示例包括用户可经由外部网络和/或经由提供共享资源(诸如“云”)的服务间接访问的介质。程序指令的示例包括诸如由编译器产生的机器代码以及包含可由计算机使用解释器执行的较高级代码的文件。
在各种实施方案中,在本发明所公开的方法和装置中采用的数据或信息以电子格式提供。此类数据或信息可包括来源于核酸样品的读段和标签、与参考序列的特定区域进行比对(例如,与染色体或染色体区段进行比对)的此类标签的计数或密度、参考序列(包括仅提供或主要提供多态性的参考序列)、染色体和区段剂量、判定(诸如非整倍体判定)、归一化染色体和区段值、染色体或区段和对应的归一化染色体或区段的配对、咨询建议、诊断等。如本文所用,以电子格式提供的数据或其他信息可用于存储在机器上并在机器之间传输。常规地,电子格式的数据以数字方式提供,并且可作为位和/或字节存储在各种数据结构、列表、数据库等中。数据可以电子方式、光学方式等体现。
一个实施方案提供了用于生成输出的计算机程序产品,该输出指示在试验样品中是否存在非整倍体(例如,胎儿非整倍体)或癌症。计算机产品可包含用于执行上述用于确定染色体异常的方法中的任何一种或多种方法的指令。如所解释的,计算机产品可包括非暂态和/或有形计算机可读介质,该非暂态和/或有形计算机可读介质具有记录在其上的用于使处理器能够确定染色体剂量,并且在一些情况下,确定是否存在胎儿非整倍体的计算机可执行或可编译逻辑(例如,指令)。在一个示例中,计算机产品包括计算机可读介质,该计算机可读介质具有记录在其上的用于使处理器能够诊断胎儿非整倍体的计算机可执行或可编译逻辑(例如,指令),该计算机可执行或可编译逻辑包括:用于从来自母体生物样品的核酸分子的至少一部分中接收测序数据,其中所述测序数据包括计算的染色体和/或区段剂量;用于根据所接收的数据分析胎儿非整倍体的计算机辅助逻辑;和用于生成输出的输出程序,该输出指示所述胎儿非整倍体的存在、不存在或种类。
可将来自所考虑样品的序列信息映射到染色体参考序列,以识别任意一条或多条所关注染色体中的每一条染色体的序列标签数目,以及识别所述任意一条或多条所关注染色体中的每一条染色体的归一化区段序列的序列标签数目。在各种实施方案中,例如,参考序列存储在数据库诸如关系数据库或对象数据库中。
应当理解,对于无辅助的人类而言,执行本文所公开的方法的计算操作是不切实际的,甚至在大多数情况下是不可能的。例如,在没有计算装置辅助的情况下,将来自样品的单个30bp读段映射到人类染色体中的任意一条染色体可能需要多年的努力。当然,由于可靠的非整倍体判定通常需要将数千(例如,至少约10,000)或甚至数百万个读段映射到一条或多条染色体,因此该问题是复杂的。
可使用用于评价试验样品中所关注基因序列的拷贝数的系统来执行本文所公开的方法。该系统包括:(a)测序仪,该测序仪用于接收来自该试验样品的核酸并提供来自该样品的核酸序列信息;(b)处理器;和(c)一个或多个计算机可读介质,所述一个或多个计算机可读介质具有存储在其上的指令,所述指令用于在所述处理器上执行以执行用于识别任何CNV(例如,染色体或部分非整倍体)的方法。
在一些实施方案中,由具有存储在其上的计算机可读指令的计算机可读介质来指示方法,所述计算机可读指令用于执行用于识别任何CNV(例如,染色体或部分非整倍体)的方法。因此,一个实施方案提供了计算机程序产品,该计算机程序产品包括一个或多个计算机可读非暂态存储介质,所述一个或多个计算机可读非暂态存储介质具有存储在其上的计算机可执行指令,所述计算机可执行指令当由计算机系统的一个或多个处理器执行时,使得该计算机系统实现用于评估包含胎儿和母体游离核酸的试验样品中所关注序列的拷贝数的方法。该方法包括:(a)接收通过对试验样品中的游离核酸片段进行测序而获得的序列读段;(b)将所述游离核酸片段的所述序列读段与包含所述所关注序列的参考基因组进行比对,从而提供测试序列标签,其中将所述参考基因组分成多个分组;(c)确定存在于该试验样品中的所述游离核酸片段的大小;(d)基于从中获得所述标签的游离核酸片段的所述大小来对所述测试序列标签进行加权;(e)基于(d)的所加权的标签来计算所述分组的覆盖度;以及(f)根据所计算的覆盖度来识别所述所关注序列中的拷贝数变异。在一些具体实施中,对测试序列标签进行加权包括使覆盖度偏向测试序列标签,所述测试序列标签从试验样品中一个基因组特有的大小或大小范围的游离核酸片段中获得。在一些具体实施中,对测试序列标签进行加权包括将值1分配给从该大小或该大小范围的游离核酸片段中获得的标签,以及将值0分配给其他标签。在一些具体实施中,该方法还涉及在参考基因组(包括所关注序列)的分组中确定片段大小参数的值,该片段大小参数包括试验样品中片段大小短于或长于阈值的游离核酸片段的量。此处,识别所关注序列中的拷贝数变异包括使用片段大小参数的值以及(e)中计算的覆盖度。在一些具体实施中,该系统被配置为使用上述各种方法和过程来评估试验样品中的拷贝数。
在一些实施方案中,指令还可包括在提供母体试验样品的人类受试者的患者病历中自动记录与方法相关的信息,诸如染色体剂量和胎儿染色体非整倍体的存在与否。可由例如实验室、医师办公室、医院、健康维护组织、保险公司或个人病历网站来维护患者病历。此外,基于处理器实现的分析的结果,方法还可包括开处方、启动和/或改变从中获取母体试验样品的人类受试者的治疗。这可涉及对从受试者中获得的另外的样品执行一个或多个另外的测试或分析。
本发明所公开的方法还可使用计算机处理系统来执行,该计算机处理系统适于或被配置成执行用于识别任何CNV(例如,染色体或部分非整倍体)的方法。一个实施方案提供了适于或被配置为执行如本文所述的方法的计算机处理系统。在一个实施方案中,装置包括测序设备,该测序设备适于或被配置用于对样品中的核酸分子的至少一部分进行测序,以获得本文他处所述的序列信息的类型。该装置还可包括用于处理样品的部件。此类部件在本文他处有所描述。
序列或数据可直接或间接地输入到计算机中或存储在计算机可读介质上。在一个实施方案中,计算机系统直接联接到读取和/或分析来自样品的核酸序列的测序设备。来自此类工具的序列或其他信息经由计算机系统中的接口提供。另选地,由系统处理的序列由序列存储源诸如数据库或其他储存库提供。一旦可供处理装置使用,存储器设备或大容量存储装置就会至少暂时地缓冲或存储核酸序列。此外,该存储器设备可存储各种染色体或基因组等的标签计数。该存储器还可存储用于分析呈现序列或映射数据的各种例程和/或程序。此类程序/例程可包括用于执行统计分析的程序等。
在一个示例中,用户将样品置于测序装置中。通过连接到计算机的测序装置来采集和/或分析数据。计算机上的软件允许数据采集和/或分析。可将数据存储、显示(经由监视器或其他类似设备)和/或发送到另一个位置。计算机可连接到互联网,该互联网用于将数据传输到由远程用户(例如,医师、科学家或分析员)使用的手持设备。应当理解,可在传输之前存储和/或分析数据。在一些实施方案中,采集原始数据并将其发送到将分析和/或存储该数据的远程用户或装置。传输可经由互联网进行,但也可经由卫星或其他连接进行。另选地,数据可存储在计算机可读介质上,并且该介质可发送到最终用户(例如,经由邮件)。远程用户可位于相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或洲。
在一些实施方案中,方法还包括采集关于多条多核苷酸序列的数据(例如读段、标记和/或参考染色体序列)并将该数据发送到计算机或其他计算系统。例如,计算机可连接到实验室装备,例如样品采集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置。然后,计算机可采集由实验室设备收集的适用数据。数据可在任何步骤存储在计算机上,例如,在实时收集时、在发送之前、在发送期间或与发送同时、或在发送之后。数据可存储在可从计算机提取的计算机可读介质上。所采集或存储的数据可例如经由局域网或广域网(诸如互联网)从计算机传输到远程位置。在该远程位置处,可对所传输的数据执行各种操作,如下所述。
在本文所公开的系统、装置和方法中,可存储、传输、分析和/或操纵的电子格式数据的类型如下:
·通过对试验样品中的核酸测序而获得的读段
·通过将读段与参考基因组或一个或多个其他参考序列进行比对而获得的标签
·参考基因组或序列
·序列标签密度—参考基因组或其他参考序列的两个或更多个区域(通常为染色体或染色体片段)中每一个区域的标签计数或数目
·归一化染色体或染色体片段对特定所关注染色体或染色体片段的同一性
·从所关注染色体或片段中获得的染色体或染色体片段(或其他区域)和对应的归一化染色体或片段的剂量
·将染色体剂量判定为受影响、未受影响或无判定的阈值
·染色体剂量的实际判定
·诊断(与判定相关联的临床病症)
·对来源于判定和/或诊断的进一步测试的建议
·来源于判定和/或诊断的治疗和/或监测计划
可使用不同的装置在一个或多个位置处获得、存储、分析和/或操纵这些各种类型的数据。处理选项范围很广。在最简单的情况下,在处理试验样品的位置处(如医生办公室或其他临床环境)存储和使用所有或大部分的这些信息。在最复杂的情况下,在一个位置处获得样品,在不同位置处对其进行处理并且任选地测序,在一个或多个不同位置处将读段进行比对并且作出判定,并且在又一个位置(其可以是获得样品的位置)处准备诊断、建议和/或计划。
在各种实施方案中,用测序装置生成读段,然后将读段传输到远程位点,在该远程位点处对读段进行处理以产生非整倍体判定。在该远程位置处,例如,将读段与参考序列进行比对以产生标签,对所述标签计数并将其指定给所关注染色体或片段。同样在该远程位置处,使用相关联的归一化染色体或片段将计数转换成剂量。还在该远程位置处,使用剂量来生成非整倍体判定。
在处理操作中,可在不同位置采用以下操作:
·样品采集
·测序前的样品处理
·测序
·分析序列数据并推导非整倍体判定
·诊断
·向患者或医疗服务人员报告诊断和/或判定
·开发用于进一步治疗、测试和/或监测的计划
·执行计划
·咨询
这些操作中的任意一个或多个操作可以是自动化的,如本文他处所述。通常,序列数据的测序和分析以及推导非整倍体判定将通过计算来执行。其他操作可手动或自动执行。
可执行样品采集的位置的示例包括医务人员的办公室、诊所、患者的家(其中提供了样品采集工具或试剂盒)和移动医疗车。可执行测序前的样品处理的位置的示例包括医务人员的办公室、诊所、患者的家(其中提供样品处理装置或试剂盒)、移动医疗车和非整倍体分析供应商的设施。可执行测序的位置的示例包括医务人员的办公室、诊所、医务人员的办公室、诊所、患者的家(其中提供样品测序装置和/或试剂盒)、移动医疗车和非整倍体分析供应商的设施。进行测序的位置可设置有用于以电子格式传输序列数据(通常为读段)的专用网络连接。此类连接可以是有线的或无线的,并且具有数据并且可被配置为将数据发送到位点,在该位点处可将数据在传输到处理站点之前处理和/或聚合。数据聚合器可由健康组织诸如健康维护组织(HMO)维护。
分析和/或推导操作可在任何前述位置处执行,或者另选地在专用于计算和/或服务于分析核酸序列数据的另外的远程位点处执行。此类位置包括例如簇,诸如通用服务器群、非整倍体分析服务业务的设施等。在一些实施方案中,用于执行分析的计算装置被租用或租借。计算资源可以是可互联网访问的处理器集合的一部分,诸如通称为云的处理资源。在一些情况下,由彼此关联或非关联的并行或大规模并行处理器组来执行计算。可使用分布式处理诸如簇计算、网格计算等来完成该处理。在此类实施方案中,计算资源的簇或网格共同形成由多个处理器或计算机构成的超级虚拟计算机,所述多个处理器或计算机共同作用以执行本文所述的分析和/或推导。这些技术以及更常规的超级计算机可用于处理如本文所述的序列数据。每项技术都是依赖于处理器或计算机的并行计算的形式。就网格计算而言,这些处理器(通常是全部计算机)通过网络(私人、公共或互联网)通过常规网络协议诸如以太网连接。相比之下,超级计算机具有通过本地高速计算机总线连接的许多处理器。
在某些实施方案中,诊断(例如,胎儿患有唐氏综合征(Downs syndrome)或患者患有特定类型的癌症)在与分析操作相同的位置处生成。在其他实施方案中,诊断在不同位置处执行。在一些示例中,报告诊断在获取样品的位置处执行,虽然不一定是这种情况。可生成或报告诊断和/或执行计划开发的位置的示例包括医务人员的办公室、诊所、计算机可访问的互联网站和具有与网络的有线或无线连接的手持设备(诸如手机、平板电脑、智能电话等)。执行咨询的位置的示例包括医务人员的办公室、诊所、计算机可访问的互联网站、手持设备等。
在一些实施方案中,样品采集、样品处理和测序操作在第一位置处进行,并且分析和推导操作在第二位置处进行。然而,在一些情况下,在一个位置处(例如,医务人员的办公室或诊所)进行样品采集,并且在不同位置处进行样品处理和测序,所述不同位置任选地为进行分析和推导的相同位置。
在多个实施方案中,上文列出的操作的序列可由用户或实体启动样品采集、样品处理和/或测序来引发。在一个或多个这些操作已开始执行之后,其他操作可自然地紧随其后。例如,测序操作可以使读段被自动采集并发送到处理装置,然后该处理装置通常自动地并且可能在没有进一步用户干预的情况下执行序列分析和非整倍体的推导操作。在一些具体实施中,然后将该处理操作的结果(可能会重新格式化为诊断)自动递送到处理信息并将信息报告给健康专业人员和/或患者的系统部件或实体。如所解释的,此类信息也可进行自动处理以产生治疗、测试和/或监测计划,可能还有咨询信息。因此,启动早期操作可引发端对端顺序,其中为健康专业人员、患者或其他相关方提供可用于根据身体状况采取行动的诊断、计划、咨询和/或其他信息。即使整个系统的各部分在物理上是分开的并且可能远离例如样品和序列装置的位置,也可实现这一点。
一个实施方案提供了用于确定包含胎儿和母体核酸的试验样品中是否存在非整倍体的系统,该系统包括测序仪,该测序仪用于接收核酸样品并提供来自该样品的胎儿和母体核酸序列信息;一个或多个处理器,所述一个或多个处理器被配置为:(a)确定该试验样品的胎儿分数值,其中该试验样品的该胎儿分数指示该试验样品中胎源游离核酸片段的相对量;(b)由所述计算机系统接收通过对所述试验样品中的所述游离核酸片段进行测序而获得的序列读段;(c)由所述计算机系统将所述游离核酸片段的所述序列读段与包含所关注序列的参考基因组进行比对,从而提供序列标签;(d)由所述计算机系统确定所述参考基因组的至少一部分的所述序列标签的覆盖度;以及(e)基于在(d)中确定的所述序列标签的覆盖度和在(a)中确定的胎儿分数来确定该试验样品在排除区域内,其中该排除区域由至少胎儿分数检测限(LOD)曲线限定,其中该胎儿分数LOD曲线随覆盖度值而变化,并且指示在给定不同覆盖度的情况下实现检测标准所需的胎儿分数的最小值。
在本文提供的系统中的任意一种系统的一些实施方案中,测序仪被配置为执行下一代测序(NGS)。在一些实施方案中,测序仪被配置为使用具有可逆染料终止子的边合成边测序来执行大规模并行测序。在其他实施方案中,测序仪被配置为执行边连接边测序。在其他实施方案中,测序仪被配置为执行单分子测序。
在本文提供的系统中的任意一种系统的一些实施方案中,一个或多个处理器被编程为执行上述各种方法。
本公开的另一方面涉及计算机程序产品,该计算机程序产品包括存储程序代码的非暂态机器可读介质,该程序代码在由计算机系统的一个或多个处理器执行时,使得该计算机系统:(a)确定试验样品的胎儿分数值,其中该试验样品的胎儿分数指示该试验样品中胎源游离核酸片段的相对量;(b)由所述计算机系统接收通过对所述试验样品中的所述游离核酸片段进行测序而获得的序列读段;(c)由所述计算机系统将所述游离核酸片段的所述序列读段与包含所关注序列的参考基因组进行比对,从而提供序列标签;(d)由所述计算机系统确定所述参考基因组的至少一部分的所述序列标签的覆盖度;以及(e)基于在(d)中确定的所述序列标签的覆盖度和在(a)中确定的胎儿分数来确定该试验样品在排除区域内,其中该排除区域由至少胎儿分数检测限(LOD)曲线限定,其中该胎儿分数LOD曲线随覆盖度值而变化,并且指示在给定不同覆盖度的情况下实现检测标准所需的胎儿分数的最小值。
在本文提供的系统的一些实施方案中,计算机程序产品包括存储程序代码的非暂态机器可读介质,该程序代码将由一个或多个处理器执行以执行上述各种方法。
计算系统
在一些实施方案中,所述系统和方法可涉及用于将某些序列数据分析特征和序列数据存储转移或分布到云计算环境或基于云的网络的方法。可经由中央集线器介导与测序数据、基因组数据或其他类型的生物数据的用户交互,该中央集线器存储并控制对与该数据的各种交互的访问。在一些实施方案中,云计算环境还可提供方案、分析方法、文库、序列数据的共享以及对测序、分析和报告的分布式处理。在一些实施方案中,云计算环境促进用户对序列数据的修改或注释。在一些实施方案中,所述系统和方法可在计算机浏览器中、按需或在线实现。
在一些实施方案中,为执行如本文所述的方法而编写的软件存储在某种形式的计算机可读介质中,诸如存储器、CD-ROM、DVD-ROM、记忆棒、闪存驱动器、硬盘驱动器、SSD硬盘驱动器、服务器、大型机存储系统等。
在一些实施方案中,所述方法可用各种合适的编程语言中的任一种编程语言编写,例如诸如C、C#、C++、Fortran和Java之类的编译语言。其他编程语言可为脚本语言,诸如Perl、MatLab、SAS、SPSS、Python、Ruby、Pascal、Delphi、R和PHP。在一些实施方案中,所述方法用C、C#、C++、Fortran、Java、Perl、R、Java或Python编写。在一些实施方案中,该方法可为具有数据输入和数据显示模块的独立应用程序。另选地,该方法可为计算机软件产品并且可包括这样的类,其中分布式对象包括含如本文所述的计算方法的应用程序。此外,计算机软件产品可为部件软件产品的一部分,包括但不限于与如下公司所提供的测序系统相关联的计算机实现的软件产品:Illumina公司(加利福尼亚州圣地亚哥(San Diego,Calif.))、应用生物系统公司(Applied Biosystems)和离子激流公司(Ion Torrent)(生命技术公司(Life Technologies);加利福尼亚州卡尔斯巴德(Carlsbad,Calif.))、罗氏454生命科学公司(Roche 454Life Sciences)(康涅狄格州布兰福德(Branford,Conn.))、罗氏NimbleGen公司(Roche NimbleGen)(威斯康星州麦迪逊(Madison,Wis.))、奎克生技公司(Cracker Bio)(中国台湾新竹Chulung(Chulung,Hsinchu,Taiwan,China))、全基因组学公司(Complete Genomics)(加利福尼亚州山景城(Mountain View,Calif.))、GE全球研发中心(GE Global Research)(纽约州尼斯卡尤纳(Niskayuna,N.Y.))、霍尔康分子公司(Halcyon Molecular)(加利福尼亚州红木市(Redwood City,Calif.))、螺旋生物科学公司(Helicos Biosciences)(马萨诸塞州剑桥(Cambridge,Mass.))、智能生物系统公司(Intelligent Bio-Systems)(马萨诸塞州沃尔瑟姆(Waltham.Mass.))、NABsys(罗得岛州普罗维登斯(Providence,R.I.))、牛津纳米孔公司(Oxford Nanopore)(英国牛津(Oxford,UK))、太平洋生物科学公司(Pacific Biosciences)(加利福尼亚州门洛帕克(Menlo Park,Calif.)),以及其他用于确定来自核酸样品的序列的测序软件相关产品。
在一些实施方案中,所述方法可结合到既有数据分析软件(诸如在测序仪器上发现的数据分析软件)中。此类软件的示例是CASAVA软件程序(Illumina公司,参见作为程序容量示例的CASAVA软件用户指南,其全文以引用方式并入本文)。包括如本文所述的计算机实现的方法的软件直接安装到计算机系统上,或间接保持在计算机可读介质上并按需加载到计算机系统上。此外,所述方法可位于远离产生数据的地方的计算机上,诸如在相对于产生数据的地方保持在另一个位置中的服务器等上发现的软件(诸如由第三方服务提供商提供)。
测定仪器、台式计算机、膝上型计算机或服务器可包含与可访问存储器操作性通信的处理器,该可访问存储器包含用于实现系统和方法的指令。在一些实施方案中,台式计算机或膝上型计算机与一个或多个计算机可读存储介质或设备和/或输出设备操作性通信。测定仪器、台式计算机和膝上型计算机可在多种不同基于计算机的操作性语言下操作,诸如基于Apple的计算机系统或基于PC的计算机系统所利用的那些操作性语言。测定仪器、台式计算机和/或膝上型计算机和/或服务器系统还可提供用于创建或修改实验定义和/或条件、查看数据结果并监测实验进展的计算机接口。在一些实施方案中,输出设备可为图形用户界面诸如计算机监视器或计算机屏幕、打印机、手持设备诸如个人数字助理(即,PDA、Blackberry、iPhone)、平板电脑(例如,
Figure GDA0004164350260000211
)、硬盘驱动器、服务器、记忆棒、闪存驱动器等。
计算机可读存储设备或介质可为诸如服务器、大型机、超级计算机、磁带系统等的任何设备。在一些实施方案中,存储设备可位于现场,位置在与测定仪器邻近之处,例如与测定仪器相邻或紧密接近之处。例如,存储设备可相对于测定仪器位于相同房间中、相同建筑物中、相邻建筑物中、建筑物中的相同楼层上、建筑物中的不同楼层上等。在一些实施方案中,存储设备可位于测定仪器的场外或远处。例如,存储设备可相对于测定仪器位于城市的不同地方、不同城市、不同州、不同国家等。在存储设备位于测定仪器的远处的实施方案中,测定仪器与台式计算机、膝上型计算机或服务器中的一者或多者之间的通信通常经由互联网连接(要么是无线的,要么通过经接入点的网络电缆)。在一些实施方案中,存储设备可由与测定仪器直接相关联的个人或实体维护和管理,而在其他实施方案中,存储设备可由通常在与测定仪器相关联的个人或实体的远程位置处的第三方维护和管理。在如本文所述的实施方案中,输出设备可为用于使数据可视化的任何设备。
测定仪器、台式计算机、膝上型计算机和/或服务器系统本身可用于存储和/或检索计算机实现的软件程序,所述计算机实现的软件程序结合用于执行并实现如本文所述的计算方法的计算机代码、用于实现计算方法的数据等。测定仪器、台式计算机、膝上型计算机和/或服务器中的一者或多者可包括用于存储和/或检索软件程序的一个或多个计算机可读存储介质,所述软件程序结合用于执行并实现如本文所述的计算方法的计算机代码、用于实现计算方法的数据等。计算机可读存储介质可包括但不限于硬盘驱动器、SSD硬盘驱动器、CD-ROM驱动器、DVD-ROM驱动器、软盘、磁带、闪存记忆棒或卡等中的一者或多者。此外,包括互联网的网络可为计算机可读存储介质。在一些实施方案中,计算机可读存储介质是指可由计算机网络经由互联网或服务提供商提供的公司网络访问而不是例如可从测定仪器的远程位置处的本地台式计算机或膝上型计算机访问的计算资源存储装置。
在一些实施方案中,用于存储和/或检索计算机实现的软件程序(所述计算机实现的软件程序结合用于执行并实现如本文所述的计算方法的计算机代码、用于实现计算方法的数据等)的计算机可读存储介质由经由互联网连接或网络连接来与测定仪器、台式计算机、膝上型计算机和/或服务器系统操作性通信的服务提供商操作和维护。
在一些实施方案中,用于提供计算环境的硬件平台包括处理器(即,CPU),其中处理器时间和存储器布局诸如随机存取存储器(即,RAM)是系统考虑因素。例如,更小的计算机系统提供廉价的快速处理器及大存储器和存储容量。在一些实施方案中,可使用图形处理单元(GPU)。在一些实施方案中,用于执行如本文所述的计算方法的硬件平台包括具有一个或多个处理器的一个或多个计算机系统。在一些实施方案中,更小的计算机群集在一起而得到超级计算机网络。
在一些实施方案中,对相互连接或内部连接的计算机系统的集合(即,网格技术)执行如本文所述的计算方法,这些计算机系统可以以协调方式运行多种操作系统。例如,CONDOR框架(威斯康星大学麦迪逊分校(University of Wisconsin-Madison))和可通过联合设备公司(United Devices)购得的系统是协调多个独立计算机系统以达到处理大量数据的目的的示例。这些系统可提供Perl接口,以按串行或并行配置在集群上提交、监测和管理大序列分析任务。
测序方法
在一些实施方案中,将所制备的样品(例如,测序文库)作为用于识别靶突变的程序的一部分进行测序。可利用多种测序技术中的任意一种技术。
一些测序技术是可商购获得的,诸如从Affymetrix公司(Sunnyvale,CA)获得的边杂交边测序平台,从454Life Sciences(Bradford,CT)、Illumina/Solexa(Hayward,CA)和Helicos Biosciences(Cambridge,MA)获得的边合成边测序平台以及从AppliedBiosystems(Foster City,CA)获得的边连接边测序平台,如下所述。除了使用螺旋生物科学公司(Helicos Biosciences)的边合成边测序进行的单分子测序之外,其他单分子测序技术包括但不限于太平洋生物科学公司(Pacific Biosciences)的SMRTTM技术、IONTORRENTTM技术,以及例如由牛津纳米孔科技公司(Oxford Nanopore Technologies)开发的纳米孔测序。
虽然自动桑格法(Sanger method)被认为是“第一代”技术,但包括自动桑格测序(Sanger sequencing)的桑格测序也可用于本文所述的方法中。另外的合适测序方法包括但不限于核酸成像技术,例如原子力显微镜(AFM)或透射电子显微镜(TEM)。下文更详细地描述了示例性的测序技术。
在一个例示性但非限制性的实施方案中,本文所述的方法包括使用Illumina的边合成边测序和基于可逆终止子的测序化学方法来获得试验样品中核酸的序列信息,例如母体样品中的cfDNA、正在筛查癌症的受试者中的cfDNA或细胞DNA等(例如,如Bentley等人,《自然》(Nature)第6卷:第53-59页[2009年]中所述)。模板DNA可以是基因组DNA,例如细胞DNA或cfDNA。在一些实施方案中,将来自分离细胞的基因组DNA用作模板,并且将其片段化成几百个碱基对的长度。在其他实施方案中,将cfDNA用作模板,并且不需要将其片段化,因为cfDNA是作为短片段存在的。例如,胎儿cfDNA在血流中以长度为约170个碱基对(bp)的片段循环(Fan等人,《临床化学》(Clin Chem),第56卷:第1279-1286页[2010年]),并且不需要在测序之前将该DNA片段化。Illumina的测序技术依赖于将片段化的基因组DNA连接到锚寡核苷酸所结合的平面的光学透明表面。将模板DNA进行末端修复以产生5'-磷酸化的平末端,并且使用克列诺片段(Klenow fragment)的聚合酶活性将单个A碱基添加到平末端磷酸化的DNA片段的3'末端。此添加制备用于连接至寡核苷酸衔接子的DNA片段,所述寡核苷酸衔接子在其3'末端具有单个T碱基的突出端以提高连接效率。衔接子寡核苷酸与流通池锚寡核苷酸互补(不会与重复扩增分析中的锚/锚定读段混淆)。在有限稀释条件下,将接头修饰的单链模板DNA添加到流通池中,并通过与锚寡核苷酸杂交进行固定。将连接的DNA片段延伸并桥式扩增以产生具有数亿簇的超高密度测序流通池,每个簇包含约1,000个相同模板的拷贝。在一个实施方案中,随机片段化的基因组DNA在其进行簇扩增之前使用PCR进行扩增。另选地,使用无扩增(例如,无PCR)基因组文库制备,并且仅使用簇扩增来富集随机片段化的基因组DNA(Kozarewa等人,Nature Methods第6章:第291-295页[2009年])。使用稳健的四色DNA边合成边测序技术对模板进行测序,该技术采用具有可去除荧光染料的可逆终止子。使用激光激发和全内反射光学器件来实现高灵敏度荧光检测。将约几十至几百个碱基对的短序列读段与参考基因组进行比对,并且使用专门开发的数据分析管线软件来识别短序列读段与参考基因组的唯一映射。在第一次读取完成之后,模板可原位再生以能够从片段的相反端进行第二次读取。因此,可使用DNA片段的单末端或配对末端测序。
本发明的各种实施方案可使用允许配对末端测序的边合成边测序。在一些实施方案中,Illumina的边合成边测序涉及聚类片段。进行聚类是其中每个片段分子进行等温扩增的过程。在一些实施方案中,如此处所述的示例,片段具有连接至该片段的两个末端的两种不同衔接子,所述衔接子允许该片段与流通池泳道表面上的两种不同寡核苷酸杂交。片段还包括或连接至片段两端的两个索引序列,所述索引序列提供标记以在多重测序中识别不同的样品。在一些测序平台中,待测序的片段也称为插入序列。
在一些具体实施中,用于在Illumina平台中进行聚类的流通池是具有泳道的载玻片。每个泳道是涂覆有两种类型寡核苷酸的引物苔的玻璃通道。通过在表面上的两种类型寡核苷酸中的第一种寡核苷酸来实现杂交。该寡核苷酸与片段一个末端上的第一接头互补。聚合酶产生杂交片段的互补链。双链分子变性,并且原始模板链被洗掉。剩余的链与许多其他剩余的链平行,通过桥式应用进行克隆扩增。
在桥式扩增中,一条链折叠,并且该链的第二末端上的第二衔接子区域与流通池表面上的第二类型寡核苷酸杂交。聚合酶产生互补链,从而形成双链桥式分子。该双链分子变性,导致两个单链分子通过两种不同的寡核苷酸连接到流通池。然后反复重复该过程,并且同时在数百万个簇中进行,从而导致所有片段的克隆扩增。在桥式扩增之后,反向链被裂解并洗掉,仅留下正向链。封闭3'端以防止不需要的引发。
在聚类之后,测序开始于延伸第一测序引物以生成第一次读取。在每次循环中,荧光标记的核苷酸竞争添加到正在增长的链中。基于模板的序列仅掺入一个荧光标记的核苷酸。在添加每个核苷酸后,簇由光源激发,并发出特征性荧光信号。循环次数决定了读段的长度。发射波长和信号强度决定了碱基判定。同时读取给定簇的所有相同的链。以大规模平行的方式对数以亿计的簇进行测序。在完成第一次读取时,将所读取的产物洗掉。
在包括两种索引引物的方案的下一步骤中,引入索引1引物并将其与模板上的索引1区域杂交。索引区域提供对片段的识别,这可用于在多重测序过程中解复用样品。生成与第一次读取类似地索引1读取。在完成索引1读取之后,将所读取的产物洗掉,并将链的3'末端去保护。然后模板链折叠并结合至流通池上的第二寡核苷酸。以与索引1相同的方式读取索引2序列。然后在步骤结束时洗掉索引2读段产物。
在读取两个索引后,通过使用聚合酶来延伸第二流通池寡核苷酸从而形成双链桥来启动读取2。该双链DNA变性,并且3'端被阻断。原正向链被切割并洗掉,留下反向链。读取2以引入读取2测序引物开始。与读取1一样,重复测序步骤直到实现所需长度。将读取2产物洗掉。该整个过程生成数百万个读段,表示所有片段。基于在样品制备期间引入的唯一索引来分离来自合并样品文库的序列。对于每个样品,对碱基判定的相似延伸的读段进行本地聚类。将正向和反向读段配对,从而产生邻接序列。将这些邻接序列与参考基因组进行比对以进行变异体鉴定。
上述边合成边测序示例涉及配对末端读段,其用于所公开方法的许多实施方案中。配对末端测序涉及从片段两个末端进行的2次读取。当一对读段映射到参考序列时,可以确定两个读段之间的碱基对距离,然后可以使用该距离来确定从中获得读段的片段的长度。在一些情况下,跨越两个分组的片段将使其配对末端读取中的一次读取与一个分组进行比对,并且另一次读取与相邻分组进行比对。随着分组变得更长或读段变的更短,这种情况将变得越来越少。可使用各种方法来说明这些片段的分组成员身份。例如,在确定分组的片段大小频率时可以省略这些片段;可对相邻分组中的两者的这些片段进行计数;可将这些片段分配给包含两个分组的更大数量的碱基对的分组;或者可将这些片段分配给具有与每个分组中的碱基对的部分碱基对相关联的权重的两个分组。
配对末端读段可使用不同长度的插入序列(即,待测序的不同片段大小)。作为本公开中的默认含义,配对末端读段用于指从各种插入序列长度中获得的读段。在一些情况下,为了区分短插入序列配对末端读段与长插入序列配对末端读段,后者也称为配偶对读段。在包括配偶对读段的一些实施方案中,首先将两个生物素连接衔接子连接到相对长的插入序列(例如,几kb)的两个末端。然后所述生物素连接衔接子连接插入序列的这两个末端以形成环化分子。然后可通过进一步使该环状化分子片段化来获得包含所述生物素连接衔接子的亚片段。然后可通过与上述短插入序列配对末端测序相同的程序对以相反序列顺序包含原始片段的两个末端的亚片段进行测序。使用Illumina平台的配对测序的更多详情在以下URL处的在线出版物(该在线出版物全文以引用方式并入)中示出:https://www.illumina.com/documents/products/technotes/technote_nextera_mate pair_data_processing.pdf。关于配对末端测序的附加信息可见于美国专利7601499和美国专利公布2012/0,053,063,这些专利在配对末端测序方法和装置上的材料方面以引用方式并入。
在DNA片段测序后,将预定长度(例如,100bp)的序列读段映射到已知的参考基因组或与其进行比对。所映射的或比对的读段及它们在参考序列上的对应位置也称为标签。在一个实施方案中,参考基因组序列是NCBI36/hg18序列,其可在万维网上genome dotucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)处获得。另选地,参考基因组序列是GRCh37/hg19,其可在万维网上genome dot ucsc dot edu/cgi-bin/hgGateway处获得。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。多种计算机算法可用于比对序列,包括但不限于BLAST(Altschul等人,1990年)、BLITZ(MPsrch)(Sturrock和Collins,1993年)、FASTA(Person和Lipman,1988年)、BOWTIE(Langmead等人,Genome Biology,10:R25.1-R25.10[2009年])或ELAND(Illumina公司,San Diego,CA,USA)。在一个实施方案中,对血浆cfDNA分子的克隆扩增拷贝的一个末端进行测序,并通过Illumina基因组分析仪的生物信息学比对分析进行处理,该分析仪使用核苷酸数据库(ELAND)软件的高效大规模比对。
可使用其他测序方法和系统来获得序列读段。
测序仪
在一些实施方案中,测序仪由
Figure GDA0004164350260000271
公司(NovaSeq 6000、NextSeq550、NextSeq 1000、NextSeq 2000、HiSeq 1000、HiSeq 2000、基因组分析仪、MiSeq、HiScan、iScan、BeadExpress系统)、Applied BiosystemsTM生命技术公司(ABI/>
Figure GDA0004164350260000272
序列检测系统、SOLIDTM系统)、罗氏454生命科学公司(Roche 454Life Sciences)(FLX基因组测序仪,GSJunior)、Applied BiosystemsTM生命技术公司(ABI/>
Figure GDA0004164350260000274
序列检测系统、SOLiDTM系统)或Ion/>
Figure GDA0004164350260000273
生命技术公司(个人基因组机器测序仪)提供。
测序仪可根据任何测序技术来实现,诸如结合美国专利申请公布号2007/0166705、2006/0188901、2006/0240439、2006/0281109、2005/0100900、美国专利号7,057,026、PCT申请公布号WO 2005/065814、WO 2006/064199和WO 2007/010251所述的边合成边测序方法的那些测序技术,这些专利和申请的公开内容全文以引用方式并入本文。另选地,可在测序仪中使用边连接边测序技术,诸如美国专利号6,969,488、6,172,218和6,306,597所述,这些专利的公开内容全文以引用方式并入本文。边连接边测序技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。一些实施方案可利用纳米孔测序,由此靶核酸链或从靶核酸外切移除的核苷酸穿过纳米孔。随着样品核酸或核苷酸穿过纳米孔,可以通过测量孔的电导率的波动来识别每种类型的碱基,诸如美国专利号7,001,792;Soni和Meller,《临床化学》(Clin.Chem.),第53卷,第1996-2001页(2007年);Healy,Nanomed.第2卷,第459-481页(2007年);以及Cockroft等人,《美国化学会志》(J.Am.Chem.Soc.),第130卷,第818-820页(2008年)所述,这些文献的公开内容全文以引用方式并入本文。又一些实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从离子激流公司(Ion Torrent)公司(康涅狄格州吉尔福德(Guilford,Conn.),生命技术(Life Technologies)子公司)商购获得的电检测器和相关技术或在美国专利申请公布号US 2009/0026082A1、US 2009/0127589 A1、US 2010/0137143 A1或US 2010/0282617 A1中所述的测序方法和系统,这些专利申请公布中的每一篇均全文以引用方式并入本文。特定实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过带有荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或者利用零模式波导来检测核苷酸掺入,如例如以下文献中所述:Levene等人,《科学》(Science),第299卷,第682-686页(2003年);Lundquist等人,《光学快报》(Opt.Lett.),第33卷,第1026-1028页(2008年);以及Korlach等人,《美国国家科学院院刊》(Proc.Natl.Acad.Sci.USA),第105卷,第1176-1181页(2008年),这些文献的公开内容全文以引用方式并入本文。其他合适的替代技术包括例如荧光原位测序(FISSEQ)和大规模并行签名测序(MPSS)。在特定实施方案中,这些测序仪之一可为得自Illumina公司(加利福尼亚州圣地亚哥(San Diego,Calif.))的HiSeq、MiSeq或HiScanSQ。
在一些实施方案中,可将生物样品以样品玻片的形式装载到测序仪中并且可使这些生物样品成像以生成序列数据。例如,与生物样品相互作用的试剂响应于由成像模块生成的激发束而以特定波长发荧光,并且由此返回辐射以用于成像。例如,荧光组分可由荧光标记的核酸生成,该荧光标记的核酸与组分的互补分子或与使用聚合酶掺入生物样品的寡核苷酸中的荧光标记的核苷酸杂交。激发样品的染料的波长和其发荧光的波长可取决于特定染料的吸收和发射光谱。此类返回的辐射可通过引导成像模块的光学器件传播回来。成像模块检测光学器件可以基于任何合适的技术,并且可以是例如带电耦合装置(CCD)传感器,其基于影响装置中的位置的光子生成像素化图像数据。另选地,成像模块检测光学器件可基于被配置用于时间延迟积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)检测器、Geiger模式光子计数器或任何其他合适的检测器。TDI模式检测可与线扫描耦合,如美国专利号7,329,860中所述,该专利以引用方式并入本文。
生物样品
用于确定CNV的样品(例如染色体非整倍体、部分非整倍体等)可包括从一个或多个所关注序列的拷贝数变异待确定的任何细胞、组织或器官中取得的样品。有利地,样品含有存在于细胞中的核酸和/或“游离”的核酸(例如cfDNA)。
在一些实施方案中,有利的是获得游离核酸,例如游离DNA(cfDNA)。可通过本领域已知的各种方法从包括但不限于血浆、血清和尿液的生物样品获得包括游离DNA的游离核酸(参见例如Fan等人,《美国国家科学院院刊》(Proc Natl Acad Sci),第105卷:第16266-16271页[2008年];Koide等人,《产前诊断》(Prenatal Diagnosis),第25卷:第604-607页[2005年];Chen等人,《自然-医学》(Nature Med.),第2卷:第1033-1035页[1996年];Lo等人,《柳叶刀》(Lancet),第350卷:第485-487页[1997年];Botezatu等人,《临床化学》(ClinChem.),第46卷:第1078-1084页,2000年;以及Su等人,《分子诊断杂志》(J Mol.Diagn.),第6卷:第101-107页[2004年])。为了从样品中的细胞中分离游离DNA,可使用各种方法,包括但不限于分馏、离心(例如密度梯度离心)、DNA特异性沉淀或高通量细胞分选和/或其他分离方法。用于手动和自动分离cfDNA的市售试剂盒是可用的(Roche Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。包含cfDNA的生物样品已用于测定中,以通过可检测染色体非整倍体和/或多种多态性的测序测定来确定是否存在染色体异常(例如,21-三倍体)。
在各种实施方案中,存在于样品中的cfDNA可在使用之前(例如,在制备测序文库之前)特异性地或非特异性地富集。样品DNA的非特异性富集是指可用于在制备cfDNA测序文库之前增加样品DNA水平的样品基因组DNA片段的全基因组扩增。非特异性富集可以是存在于包含多于一个基因组的样品中的两个基因组中的一个基因组的选择性富集。例如,非特异性富集可对母体样品中的胎儿基因组具有选择性,其可通过已知方法获得以增加样品中胎儿与母体DNA的相对比例。另选地,非特异性富集可以是存在于样品中的两个基因组的非选择性扩增。例如,非特异性扩增可以是胎儿和母体DNA在包含来自胎儿和母体基因组的DNA混合物的样品中的扩增。用于全基因组扩增的方法是本领域已知的。简并寡核苷酸引物PCR(DOP)、引物延伸PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的示例。在一些实施方案中,包含来自不同基因组的cfDNA混合物的样品未富集存在于混合物中的基因组的cfDNA。在其他实施方案中,包含来自不同基因组的cfDNA混合物的样品非特异性富集存在于样品中的基因组中的任意一个基因组。
包含本文所述方法所应用的核酸的样品通常包括生物样品(“试验样品”),例如如上所述。在一些实施方案中,通过多种熟知的方法中的任意一种方法纯化或分离待筛选一种或多种CNV的核酸。
因此,在某些实施方案中,样品包含经纯化或分离的多核苷酸或由经纯化或分离的多核苷酸组成,或者其可包括样品,诸如组织样品、生物流体样品、细胞样品等。合适的生物流体样品包括但不限于血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳溢液、淋巴液、唾液、脑脊液、灌洗液、骨髓悬浮液、阴道液、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物、羊水、乳汁和白细胞析离样品。在一些实施方案中,样品是易于通过非侵入性手术获得的样品,例如血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳液、唾液或粪便。在某些实施方案中,样品是外周血样品或外周血样品的血浆和/或血清级分。在其他实施方案中,生物样品是拭子或涂片、活检标本或细胞培养物。在另一实施方案中,样品是两种或更多种生物样品的混合物,例如,生物样品可包括生物流体样品、组织样品和细胞培养样品中的两种或更多种。如本文所用,术语“血液”、“血浆”和“血清”明确地涵盖其级分或加工部分。类似地,在样品取自活检、拭子、涂片等的情况中,“样品”明确地涵盖衍生自活检、拭子、涂片等的处理级分或部分。
在某些实施方案中,样品可从来源中获得,包括但不限于来自不同个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体(例如患有癌症或疑似患有遗传性疾病的个体)的样品、正常个体、在个体疾病的不同阶段获得的样品、从对疾病进行不同治疗的个体获得的样品、受到不同环境因素影响的个体的样品、对病理易感的个体的样品、从暴露于传染病因子(例如HIV)的个体获得的样品等。
在一个示例性但非限制性的实施方案中,样品是从妊娠女性(例如,孕妇)中获得的母体样品。在这种情况下,可使用本文所述的方法分析样品以提供胎儿的潜在染色体异常的产前诊断。母体样品可以是组织样品、生物流体样品或细胞样品。作为非限制性示例,生物流体包括血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳溢液、淋巴液、唾液、脑脊液、灌洗液、骨髓悬浮液、阴道液、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物和白细胞析离样品。
在另一个示例性但非限制性的实施方案中,母体样品是两种或更多种生物样品的混合物,例如,生物样品可包括生物流体样品、组织样品和细胞培养样品中的两种或更多种。在一些实施方案中,样品是易于通过非侵入性手术获得的样品,例如血液、血浆、血清、汗液、泪液、痰、尿液、乳汁、痰、耳溢液、唾液和粪便。在一些实施方案中,生物样品是外周血样品和/或其血浆及血清组分。在其他实施方案中,生物样品是拭子或涂片、活检标本或细胞培养物样品。如上所公开,术语“血液”、“血浆”和“血清”明确地涵盖其级分或加工部分。类似地,在样品取自活检、拭子、涂片等的情况中,“样品”明确地涵盖衍生自活检、拭子、涂片等的处理级分或部分。
在某些实施方案中,也可从体外培养的组织、细胞或其他含多核苷酸的来源中获得样品。培养的样品可从来源中获得,包括但不限于在不同培养基和条件(例如pH、压力或温度)中维持的培养物(例如组织或细胞)、维持不同时长的培养物(例如组织或细胞)、用不同的因子或试剂(例如候选药物或调节剂)处理的培养物(例如组织或细胞)、或不同类型的组织和/或细胞的培养物。
用于测序的样品处理
从生物来源分离核酸的方法将根据来源的性质而有所不同。本领域技术人员可以容易地从本文所述方法所需的来源分离核酸。在某些情况下,可能有利的是将核酸样品中的核酸分子片段化。片段化可以是随机的,或者它可以是特异性的,如例如使用限制性内切核酸酶消化所实现的。随机片段化的方法可包括例如限制性DNA酶消化、碱处理和物理剪切。在一个实施方案中,从未经片段化的cfDNA中获得样品核酸。
在一个实施方案中,本文所述的方法可利用下一代测序技术(NGS),其允许在单次测序运行中以基因组分子(即,单重测序)或以包含索引基因组分子的合并样品(例如,多重测序对多个样品进行单独测序。这些方法可生成高达数十亿个DNA序列读段。在各种实施方案中,可使用例如本文所述的下一代测序技术(NGS)来确定基因组核酸和/或索引基因组核酸的序列。在各种实施方案中,可使用如本文所述的一个或多个处理器来执行对使用NGS获得的大量序列数据的分析。
在各种实施方案中,此类测序技术的使用不包括测序文库的制备。
然而,在某些实施方案中,本文设想的测序方法包括测序文库的制备。在一个例示性方法中,测序文库制备涉及随机采集待测序的衔接子修饰的DNA片段(例如,多核苷酸)。可通过逆转录酶的作用从DNA或RNA(包括DNA或cDNA的等同物或类似物,例如由RNA模板产生的互补或拷贝DNA的DNA或cDNA)中制备多核苷酸测序文库。多核苷酸可以双链形式(例如,dsDNA,诸如基因组DNA片段、cDNA、PCR扩增产物等)起始,或者在某些实施方案中,多核苷酸可以单链形式(例如,ssDNA、RNA等)起始并已转化为dsDNA形式。举例来说,在某些实施方案中,单链mRNA分子可拷贝成适用于制备测序文库的双链cDNA。初级多核苷酸分子的精确序列通常对文库制备方法并不重要,并且可以是已知的或未知的。在一个实施方案中,多核苷酸分子是DNA分子。更具体地,在某些实施方案中,多核苷酸分子表示生物体的整个遗传互补序列或生物体的基本上整个遗传互补序列,并且是基因组DNA分子(例如,细胞DNA、游离DNA(cfDNA)等),其通常包括内含子序列和外显子序列(编码序列),以及非编码调控序列诸如启动子和增强子序列。在某些实施方案中,初级多核苷酸分子包括人基因组DNA分子,例如存在于怀孕受试者的外周血中的cfDNA分子。
通过使用包含特定范围的片段大小的多核苷酸来促进一些NGS测序平台的测序文库的制备。此类文库的制备通常涉及大的多核苷酸(例如,细胞基因组DNA)的片段化,以获得所需大小范围内的多核苷酸。
可通过本领域技术人员已知的多种方法中的任意一种方法来实现片段化。例如,可通过机械方法来实现片段化,机械方法包括但不限于雾化、超声处理和水剪切。然而,机械片段化通常会在C-O、P-O和C-C键处裂解DNA主链,从而产生具有C-O、P-O和/或C-C断键的平端及3’-和5’-突出端的异质混合物(参见例如Alnemri和Liwack,《生物化学杂志》(JBiol.Chem),第265卷:第17323-17333页[1990年];Richards和Boyer,《分子生物学杂志》(JMol Biol),第11卷:第327-240页[1965年]),可能需要修复这些断键,因为它们可能缺少必需的5’-磷酸来进行制备测序用DNA所需的后续酶反应,例如测序衔接子的连接。
相比之下,cfDNA通常以小于约300个碱基对的片段存在,因此片段化通常不是使用cfDNA样品生成测序文库所必需的。
通常,无论多核苷酸是强制片段化的(例如体外片段化的)还是作为片段天然存在的,它们均转化成具有5'-磷酸和3'-羟基的平末端DNA。标准方案,例如,使用例如本文他处所述的Illumina平台进行测序的方案,指示用户对样品DNA进行末端修复,在dA-加尾之前对末端修复的产品进行纯化,以及在文库制备的衔接子连接步骤之前对dA-加尾产品进行纯化。
本文所述的测序文库制备方法的各种实施方案无需执行标准方案通常要求的一个或多个步骤来获得可由NGS测序的经修饰的DNA产物。简化方法(ABB方法)、1步方法和2步方法是用于制备测序文库的方法的示例,其可见于2012年7月20日提交的专利申请13/555,037,该专利申请全文以引用方式并入本文。
在各种实施方案中,可通过例如在处理之前对已引入样品中的样品基因组核酸(例如,cfDNA)和伴随的标记核酸的混合物进行测序来实现样品完整性的验证和样品跟踪。
可将标记核酸可与试验样品(例如,生物来源样品)组合并进行包括例如以下步骤中的一个或多个步骤的处理:对生物来源样品进行分馏(例如,从全血样品中获得基本上游离的血浆级分),对来自分馏的(例如,血浆)或未分馏的生物来源样品(例如,组织样品)的核酸进行纯化,以及测序。在一些实施方案中,测序包括制备测序文库。与来源样品组合的标记分子的序列或序列组合选择为对该来源样品而言是唯一的。在一些实施方案中,样品中的唯一标记分子均具有相同的序列。在其他实施方案中,样品中的唯一标记分子是多条序列,例如两条、三条、四条、五条、六条、七条、八条、九条、十条、十五条、二十条或更多条不同序列的组合。
在一个实施方案中,可使用具有相同序列的多个标记核酸分子来验证样品的完整性。另选地,可使用多个标记核酸分子来验证样品的同一性,所述标记核酸分子具有至少两条、至少三条、至少四条、至少五条、至少六条、至少七条、至少八条、至少九条、至少十条、至少11条、至少12条、至少13条、至少14条、至少15条、至少16条、至少17条、至少18条、至少19条、至少20条、至少25条、至少30条、至少35条、至少40条、至少50条或更多条不同的序列。验证所述多个生物样品(即,两个或更多个生物样品)的完整性要求所述两个或更多个样品中的每一个样品都用标记核酸进行标记,所述标记核酸具有对于被标记的所述多个试验样品中的每一个样品而言是唯一的序列。例如,可用具有序列A的标记核酸来标记第一样品,并且可用具有序列B的标记核酸来标记第二样品。另选地,可用均具有序列A的标记核酸分子来标记第一样品,并且可用序列B和C的混合物来标记第二样品,其中序列A、B和C是具有不同序列的标记分子。
可在文库制备(如果要制备文库的话)和测序之前发生的样品制备的任何阶段将标记核酸添加到样品中。在一个实施方案中,可将标记分子与未处理的来源样品组合。例如,可在用于采集血样的采集管中提供标记核酸。另选地,可在抽血后将标记核酸添加到血样中。在一个实施方案中,将标记核酸添加到用于采集生物流体样品的容器中,例如将标记核酸添加到用于采集血样的采血管中。在另一个实施方案中,将标记核酸添加到生物流体样品的级分中。例如,将标记核酸添加到血样(例如母体血浆样品)的血浆和/或浆液组分中。在另一个实施方案中,将标记分子添加到经纯化的样品中,例如已从生物样品中纯化的核酸样品。例如,将标记核酸添加到经纯化的母体和胎儿cfDNA样品中。类似地,可在处理标本之前将标记核酸添加到活检标本中。在一些实施方案中,可将标记核酸与将标记分子递送到生物样品的细胞中的载体组合。细胞递送载体包括pH灵敏型和阳离子脂质体。
在各种实施方案中,标记分子具有反基因组序列,这些反基因组序列是不存在于生物来源样品的基因组中的序列。在一个示例性实施方案中,用于验证人类生物来源样品完整性的标记分子具有不存在于人类基因组中的序列。在另选的实施方案中,标记分子具有不存在于来源样品和任意一种或多种其他已知基因组中的序列。例如,用于验证人类生物来源样品完整性的标记分子具有不存在于人类基因组和小鼠基因组中的序列。替代方案允许验证包含两个或更多个基因组的试验样品的完整性。例如,可使用具有不存在于人类基因组和受影响细菌的基因组两者中的序列的标记分子来验证从受病原体(例如,细菌)影响的受试者中获得的人类游离DNA样品的完整性。可在万维网上ncbi.nlm.nih.gov/genomes处公开获得多种病原体(例如细菌、病毒、酵母菌、真菌、原生动物等)的基因组序列。在另一个实施方案中,标记分子是具有不存在于任何已知基因组中的序列的核酸。可通过算法随机生成标记分子的序列。
在各种实施方案中,标记分子可以是天然存在的脱氧核糖核酸(DNA)、核糖核酸或人工核酸类似物(核酸模拟物),人工核酸类似物包括肽核酸(PNA)、吗啉代核酸、锁核酸、二醇核酸和苏糖核酸,它们与天然存在的DNA或RNA的区别在于不具有磷酸二酯主链的分子或DNA模拟物主链的改变。脱氧核糖核酸可来自天然存在的基因组或可通过使用酶或通过固相化学合成在实验室中生成。化学方法也可用于生成自然界中不存在的DNA模拟物。可用的其中磷酸二酯键已被置换,但脱氧核糖得以保留的DNA的衍生物包括但不限于具有由硫代甲酰缩醛或羧酰胺键形成的主链的DNA模拟物,该DNA模拟物已显示是良好的结构DNA模拟物。其他DNA模拟物包括吗啉代衍生物和肽核酸(PNA),PNA包含基于N-(2-氨基乙基)甘氨酸的假肽主链(Ann Rev Biophys Biomol Struct第24章:第167-183页[1995年])。PNA是极好的DNA(或核糖核酸[RNA])的结构模拟物,并且PNA低聚物能够与沃森-克里克(Watson-Crick)互补DNA和RNA(或PNA)低聚物形成非常稳定的双链体结构,并且它们还可通过螺旋侵入与双链体DNA中的靶标结合(Mol Biotechnol第26章:第233-248页[2004年]。可用作标记分子的DNA类似物的另一种良好的结构模拟物/类似物是硫代磷酸酯DNA,其中非桥联氧中的一个氧被硫置换。此修饰降低了核酸内切酶和核酸外切酶2(包括5'至3'和3'至5'DNAPOL 1核酸外切酶)、核酸酶S1和P1、RNA酶、血清核酸酶和蛇毒磷酸二酯酶的作用。
标记分子的长度可不同于或类似于样品核酸的长度,即,标记分子的长度可类似于样品基因组分子的长度,或者其可大于或小于样品基因组分子的长度。通过构成标记分子的核苷酸或核苷酸类似物碱基的数目来测量标记分子的长度。可使用本领域已知的分离方法,将长度不同于样品基因组分子的长度的标记分子与来源核酸区分开。例如,可通过电泳分离(例如毛细管电泳)来确定标记和样品核酸分子的长度差异。大小差异可有利于对标记和样品核酸质量的定量和评估。优选地,标记核酸短于基因组核酸,并且具有足够的长度以排除它们映射到样品的基因组。例如,如需要30个碱基的人类序列来唯一地映射到人类基因组的情况。因此,在某些实施方案中,用于对人类样品进行测序生物测定的标记分子的长度应为至少30bp。
主要通过用于验证来源样品完整性的测序技术来确定标记分子长度的选择。还可考虑经测序的样品基因组核酸的长度。例如,一些测序技术采用多核苷酸的克隆扩增,这可需要待克隆扩增的基因组多核苷酸具有最小长度。例如,使用Illumina GAII序列分析仪进行测序包括通过桥式PCR(也称为簇扩增)对具有110bp最小长度的多核苷酸进行体外克隆扩增,将衔接子连接到该多核苷酸以提供可进行克隆扩增和测序的至少200bp且小于600bp的核酸。在一些实施方案中,衔接子连接的标记分子的长度在约200bp至约600bp之间、约250bp至550bp之间、约300bp至500bp之间、或约350bp至450bp之间。在其他实施方案中,衔接子连接的标记分子的长度为约200bp。例如,当对存在于母体样品中的胎儿cfDNA进行测序时,可将标记分子的长度选择为类似于胎儿cfDNA分子的长度。因此,在一个实施方案中,在测定中使用的标记分子的长度可为约150bp、约160bp、170bp、约180bp、约190bp或约200bp,该测定包括对母体样品中的cfDNA进行大规模平行测序以确定是否存在胎儿染色体非整倍体;优选地,标记分子为约170pp。其他测序方法(例如SOLiD测序、Polony测序和454测序)使用乳液PCR来克隆扩增DNA分子进行测序,并且每种技术都规定了待扩增分子的最小和最大长度。待作为克隆扩增核酸进行测序的标记分子的长度可为至多约600bp。在一些实施方案中,待测序的标记分子的长度可大于600bp。
单分子测序技术不采用分子的克隆扩增,并且能够在非常宽的模板长度范围内对核酸进行测序,在大多数情况下不需要待测序的分子具有任何特定长度。然而,每单位质量的序列收率取决于3'端羟基基团的数目,因此具有相对较短的测序模板比具有长模板更有效。如果从长于1000nt的核酸开始,则通常建议将核酸剪切至100至200nt的平均长度,使得可从相同质量的核酸产生更多的序列信息。因此,标记分子的长度可在数十个碱基至数千个碱基的范围内。用于单分子测序的标记分子的长度可为至多约25bp、至多约50bp、至多约75bp、至多约100bp、至多约200bp、至多约300bp、至多约400bp、至多约500bp、至多约600bp、至多约700bp、至多约800bp、至多约900bp、至多约1000bp或更长。
还通过经测序的基因组核酸的长度来确定所选的标记分子的长度。例如,cfDNA在人类血流中作为细胞基因组DNA的基因组片段循环。孕妇血浆中存在的胎儿cfDNA分子通常比母体cfDNA分子短(Chan等人,Clin Chem第50章:第8892页[2004年])。循环胎儿DNA的大小分馏已证实循环胎儿DNA片段的平均长度为<300bp,而母体DNA据估计为约0.5Kb至1Kb之间(Li等人,Clin Chem,第50章:第1002-1011页[2004年])。这些发现与Fan等人的发现一致,他们使用NGS确定胎儿cfDNA很少为>340bp(Fan等人,Clin Chem第56章:第1279-1286页[2010年])。用标准的基于二氧化硅的方法从尿液中分离的DNA由两种级分组成:源自脱落细胞的高分子量DNA和经肾DNA(Tr-DNA)的低分子量(150-250碱基对)级分(Botezatu等人,《临床化学》(Clin Chem.),第46卷:第1078-1084页,2000年;以及Su等人,《分子诊断杂志》(J Mol.Diagn.),第6卷:第101-107页,2004年)。将新开发的用于从体液中分离游离核酸的技术应用于分离经肾核酸已表明,尿液中存在的DNA和RNA片段远短于150个碱基对(美国专利申请公布20080139801)。在实施方案中,其中cfDNA是经测序的基因组核酸,所选择的标记分子可为至多约cfDNA的长度。例如,待作为单个核酸分子或克隆扩增核酸进行测序的母体cfDNA样品中使用的标记分子的长度可在约100bp至600bp之间。在其他实施方案中,样品基因组核酸是较大分子的片段。例如,经测序的样品基因组核酸是片段化的细胞DNA。在实施方案中,当对片段化的细胞DNA进行测序时,标记分子的长度可为至多DNA片段的长度。在一些实施方案中,标记分子的长度为至少将序列读段唯一地映射到适当的参考基因组所需的最小长度。在其他实施方案中,标记分子的长度是排除标记分子映射到样品参考基因组所需的最小长度。
此外,标记分子可用于验证未通过核酸测序进行测定,并且可通过除测序之外的生物技术(例如实时PCR)进行验证的样品。
在各种实施方案中,例如如上所述,引入样品中的标记序列可用作阳性对照来验证测序以及后续加工和分析的准确性和有效性。
因此,提供了用于提供对样品中的DNA进行测序的过程中阳性对照(IPC)的组合物和方法。在某些实施方案中,提供了用于对包含基因组混合物的样品中的cfDNA进行测序的阳性对照。IPC可用于将从不同样品(例如,在不同测序运行上在不同时间进行测序的样品)集中获得的序列信息的基线偏移相关联。因此,例如,IPC可将从母体试验样品中获得的序列信息与从在不同时间进行测序的合格样品集中获得的序列信息相关联。
类似地,在区段分析的情况下,IPC可将从受试者中获得的特定区段的序列信息与从在不同时间进行测序的(类似序列的)合格样品集中获得的序列相关联。在某些实施方案中,IPC可将从受试者中获得的特定癌症相关基因座的序列信息与从合格样品集(例如,来自已知的扩增/缺失等)中获得的序列信息相关联。
此外,IPC可用作在测序过程中跟踪样品的标记。IPC还可为所关注染色体的一个或多个非整倍体(例如,21-三倍体、13-三倍体、18-三倍体)提供定性阳性序列剂量值(例如,NCV),以提供适当的解释并确保数据的可靠性和准确性。在某些实施方案中,可产生包含来自男性基因组和女性基因组的核酸的IPC,来为母体样品中的X染色体和Y染色体提供剂量,以确定胎儿是否为男性。
过程中对照的类型和数量取决于所需测试的类型或性质。例如,对于需要对来自包含基因组混合物的样品的DNA进行测序以确定是否存在染色体非整倍体的测试,过程中对照可包含从已知包含正在测试的相同染色体非整倍体的样品中获得的DNA。在一些实施方案中,IPC包含来自已知包含所关注染色体的非整倍体的样品的DNA。例如,用于确定母体样品中是否存在胎儿三倍体(例如21-三倍体)的测试的IPC包含从具有21-三倍体的个体中获得的DNA。在一些实施方案中,IPC包含从具有不同非整倍体的两个或更多个个体中获得的DNA混合物。例如,用于确定是否存在13-三倍体、18-三倍体、21-三倍体和X单倍体的测试的IPC,包含从每个怀有胎儿的孕妇中获得的DNA样品与被测试的三倍体中的一种三倍体的组合。除了完整的染色体非整倍体之外,还可产生IPC来为用于确定是否存在部分非整倍体的测试提供阳性对照。
可使用从两个受试者中获得的细胞基因组DNA的混合物来产生用作检测单个非整倍体的对照的IPC,其中一个受试者是非整倍体基因组的贡献者。例如,可通过将来自携带三体染色体的男性或女性受试者的基因组DNA与已知不携带三体染色体的女性受试者的基因组DNA组合来产生IPC,该IPC作为用于确定胎儿三倍体(21-三倍体)的测试的对照。可从两个受试者的细胞中提取基因组DNA,并且将其剪切来提供在约100bp至400bp之间、约150bp至350bp之间、或约200bp至300bp之间的片段,以模拟母体样品中的循环cfDNA片段。选择来自携带非整倍体(例如,21-三倍体)的受试者的片段化DNA的比例,来模拟母体样品中存在的循环胎儿cfDNA的比例,以提供包含片段化DNA的混合物的IPC,该片段化DNA包括约5%、约10%、约15%、约20%、约25%、约30%的来自携带非整倍体的受试者的DNA。IPC可包含来自各自携带不同非整倍体的不同受试者的DNA。例如,IPC可包含约80%的未受影响的女性DNA,并且剩余的20%可以是来自各自携带21-三体染色体、13-三体染色体和18-三体染色体的三个不同受试者的DNA。制备片段化DNA的混合物以进行测序。片段化DNA的混合物的处理可包括制备测序文库,该测序文库可使用任何大规模平行的方法以单重或多重方式进行测序。基因组IPC的储备溶液可储存并用于多个诊断测试中。
另选地,可使用从已知怀有具有已知染色体非整倍体的胎儿的母体中获得的cfDNA来产生IPC。例如,可从怀有具有21-三倍体的胎儿的孕妇中获得cfDNA。从母体样品中提取cfDNA,将其克隆到细菌载体中并在细菌中生长,以提供IPC的持续来源。可使用限制性酶从细菌载体中提取DNA。另选地,可通过例如PCR扩增克隆的cfDNA。可在与来自试验样品的cfDNA相同的运行中处理IPC DNA以进行测序,所述试验样品将分析是否存在染色染非整倍体。
虽然上文针对三倍体描述了IPC的产生,但应当理解,可产生IPC来反映其他部分非整倍体,包括例如各种区段扩增和/或缺失。因此,例如,在已知与特定扩增相关联的各种癌症(例如,与20Q13相关联的乳腺癌)的情况下,可产生结合这些已知扩增的IPC。
确定客体核酸的丰度
可确定样品中的核酸的量(例如,浓度、相对量、绝对量、拷贝数等)。在一些实施方案中确定核酸中的客体或少数核酸的丰度(例如,浓度、相对量、绝对量、拷贝数等)。在某些实施方案中,样品中的少数核酸物质的量被称为“少数物质分数”。在一些实施方案中,“少数物质分数”是指从妊娠女性或其他受试者获得的样品(例如,血液样品、血清样品、血浆样品、尿液样品)中的循环游离核酸中的少数核酸物质的分数。
在一些实施方案中确定核酸中的癌细胞核酸的量(例如,浓度、相对量、绝对量、拷贝数等)。在某些实施方案中,样品中的癌细胞核酸的量被称为“癌细胞核酸的分数”。在一些实施方案中,“癌细胞核酸的分数”是指从受试者获得的样品(例如,血液样品、血清样品、血浆样品、尿液样品)中的循环游离核酸中的癌细胞核酸的分数。本文所述或本领域已知的用于确定胎儿分数的某些方法可用于确定癌细胞核酸的分数和/或少数物质分数。
在一些实施方案中确定核酸中的胎儿核酸的量(例如,浓度、相对量、绝对量、拷贝数等)。在某些实施方案中,样品中的胎儿核酸的量被称为“胎儿分数”。在一些实施方案中,“胎儿分数”是指从妊娠女性获得的样品(例如,血液样品、血清样品、血浆样品、尿液样品)中的循环游离核酸中的胎儿核酸的分数。
在某些实施方案中,根据男性胎儿特异性的标记(例如,Y-染色体STR标记(例如,DYS 19、DYS 385、DYS 392标记);RhD阴性女性的RhD标记)、多态序列的等位基因比率或根据胎儿核酸而非母体核酸特异性的一个或多个标记(例如,母亲与胎儿之间的差异表观遗传生物标记(例如,甲基化;如下文更详细描述)或母体血浆中的胎儿RNA标记(参见例如Lo,2005年,《组织化学与细胞化学杂志》(Journal of Histochemistry and Cytochemistry),第53卷第3期:第293-296页))来确定胎儿核酸的量。
胎儿核酸含量(例如,胎儿分数)的确定有时使用如例如美国专利申请公布2010/0105049所述的胎儿量标测定法(fetal quantifier assay,FQA)执行,该专利申请公布据此以引用方式并入。该类型的测定法允许基于样品中的核酸的甲基化状态来检测和定量母体样品中的胎儿核酸。在某些实施方案中,可相对于所存在的核酸的总量来确定来自母体样品的胎儿核酸的量,从而提供样品中的胎儿核酸的百分比。在某些实施方案中,可在母体样品中确定胎儿核酸的拷贝数。在某些实施方案中,可以以序列特异性(或部分特异性)方式确定胎儿核酸的量,有时灵敏度足以允许准确的染色体剂量分析(例如,检测胎儿非整倍体、微重复或微缺失的存在或不存在)。
胎儿量标测定法(FQA)可连同本文所述的任何方法一起执行。这种测定法可由本领域已知和/或美国专利申请公布2010/0105049所述的任何方法执行,例如由可基于差异甲基化状态来区分母体和胎儿DNA并定量(即,确定其量)胎儿DNA的方法执行。用于基于甲基化状态来区分核酸的方法包括但不限于甲基化敏感性捕获,例如使用MBD2-Fc片段,其中MBD2的甲基结合结构域融合至抗体的Fc片段(MBD-FC)(Gebhard等人,(2006年)《癌症研究》(Cancer Res.),第66卷第12期,第6118-28页);甲基化特异性抗体;亚硫酸氢盐转化方法,例如,MSP(甲基化敏感性PCR)、COBRA、甲基化敏感性单核苷酸引物延伸(Ms-SNuPE)或Sequenom MassCLEAVETM技术;以及甲基化敏感性限制性酶的使用(例如,使用一种或多种甲基化敏感性限制性酶消化母体样品中的母体DNA,从而富集胎儿DNA)。甲基敏感性酶还可用于基于甲基化状态来区分核酸,从而例如在其DNA识别序列未甲基化时可优先或基本上在该序列处裂解或消化。因此,未经甲基化的DNA样品会被切成比甲基化的DNA样品更小的片段,而高甲基化的DNA样品不会被裂解。除非明确指出,基于甲基化状态来区分核酸的任何方法均可与本文技术的组合物和方法一起使用。可通过例如在扩增反应期间引入已知浓度的一种或多种竞争剂来确定胎儿DNA的量。还可通过例如RT-PCR、引物延伸、测序和/或计数来确定胎儿DNA的量。在某些情况下,可使用如美国专利申请公布2007/0065823所述的BEAMing技术来确定核酸的量。在某些实施方案中,可确定限制性效率并使用该效率比进一步确定胎儿DNA的量。
在某些实施方案中,胎儿量标测定法(FQA)可用于确定母体样品中的胎儿DNA的浓度,例如通过以下方法:a)确定母体样品中存在的DNA总量;b)使用一种或多种甲基化敏感性限制性酶选择性地消化母体样品中的母体DNA,从而富集胎儿DNA;c)确定来自步骤b)的胎儿DNA的量;以及d)比较来自步骤c)的胎儿DNA的量与来自步骤a)的DNA的总量,从而确定母体样品中的胎儿DNA的浓度。在某些实施方案中,可确定母体样品中的胎儿核酸的绝对拷贝数,例如,采用质谱法和/或利用针对绝对拷贝数测量的竞争性PCR方法的系统。参见例如Ding和Cantor(2003年),《美国国家科学院院刊》(Proc.Natl.Acad.Sci.USA),第100卷:第3059-3064页和美国专利申请公布2004/0081993,这两篇文献均据此以引用方式并入。
在某些实施方案中,可基于多态序列的等位基因比率(例如,单核苷酸多态性(SNP))来确定胎儿分数,例如使用美国专利申请公布2011/0224087所述的方法,该专利申请公布据此以引用方式并入。在此类方法中,针对母体样品获得核苷酸序列读段,并通过比较在参考基因组中的信息多态位点(例如,SNP)处映射至第一等位基因的核苷酸序列读段的总数与映射至第二等位基因的核苷酸序列读段的总数来确定胎儿分数。在某些实施方案中,通过例如在样品中的胎儿和母体核酸的混合物中,相比于母体核酸对混合物的较大贡献,胎儿等位基因的相对较小贡献来识别胎儿等位基因。因此,对于多态位点的两个等位基因中的每个等位基因而言,可作为映射至参考基因组上的靶核酸序列的独特序列读段的总数的参数来确定母体样品中的胎儿核酸的相对丰度。
在一些实施方案中,可使用结合如例如国际申请公布WO2014/055774所述的从母体染色体畸变得出的信息的方法来确定胎儿分数,该国际申请公布以引用方式并入本文。在一些实施方案中,可使用结合如例如美国专利申请公布US 2013-0288244所述的从性染色体得出的信息的方法来确定胎儿分数,该美国专利申请公布以引用方式并入本文。
在一些实施方案中,可使用结合片段长度信息(例如,片段长度比率(FLR)分析、胎儿比率统计(FRS)分析,如国际申请公布WO2013/177086所述,该国际申请公布以引用方式并入本文)的方法来确定胎儿分数。游离胎儿核酸片段通常短于母源核酸片段(参见例如Chan等人,(2004年),《临床化学》(Clin.Chem.),第50卷:第88-92页;Lo等人,(2010年),《科学转化医学》(Sci.Transl.Med.),2:61ra91)。因此,在一些实施方案中,可通过以下方式确定胎儿分数:对特定长度阈值下的片段进行计数,并且将这些计数与例如特定长度阈值内的片段的计数和/或样品中的总核酸的量进行比较。国际申请公布WO2013/177086中更详细描述了用于对特定长度的核酸片段进行计数的方法。
在一些实施方案中,可根据部分特异性胎儿分数估计值来确定胎儿分数(例如,如国际申请公布WO 2014/205401所述,该国际申请公布以引用方式并入本文)。不受理论的限制,来自胎儿CCF片段(例如,特定长度或长度范围的片段)的读段的量通常以测距频率映射至部分(例如,相同样品内,例如相同测序运行内)。另外,不受理论的限制,当在多个样品间比较时,某些部分倾向于具有来自胎儿CCF片段(例如,特定长度或长度范围的片段)的读段的类似表示,并且该表示与部分特异性胎儿分数关联(例如,源自胎儿的CCF片段的相对量、百分比或比率)。
在一些实施方案中,部分地基于部分特异性参数及其与胎儿分数的关系来确定部分特异性胎儿分数估计值。部分特异性参数可为反映(例如,与之关联)一部分中特定大小(例如,大小范围)的CCF片段长度的读段的量或比例的任何合适参数。部分特异性参数可以是为多个样品确定的部分特异性参数的平均值、均值或中值。可使用任何合适的部分特异性参数。部分特异性参数的非限制性示例包括FLR(例如,FRS)、长度低于所选片段长度的读段的量、基因组覆盖度(即,覆盖度)、可映射性、计数(例如,映射至该部分的序列读段的计数,例如归一化计数、PERUN归一化计数、ChAI归一化计数)、DNA酶I敏感性、甲基化状态、乙酰化、组蛋白分布、鸟嘌呤-胞嘧啶(GC)含量、染色质结构等或它们的组合。部分特异性参数可为以部分特异性方式与FLR和/或FRS关联的任何合适参数。在一些实施方案中,一些或所有部分特异性参数是一部分的FLR的直接或间接表示。在一些实施方案中,部分特异性参数不是鸟嘌呤-胞嘧啶(GC)含量。
在一些实施方案中,部分特异性参数是表示来自CCF片段的读段的量、与之关联或与之成比例的任何合适值,其中映射至一部分的读段具有小于所选片段长度的长度。在某些实施方案中,部分特异性参数是源自映射至一部分的相对较短的CCF片段(例如,约200碱基对或更少)的读段的量的表示。长度小于所选片段长度的CCF片段通常为相对较短的CCF片段,有时所选片段长度为约200碱基对或更少(例如,长约190、180、170、160、150、140、130、120、110、100、90、80、70、60或50个碱基的CCF片段)。可通过任何合适方法(例如,测序方法、杂交方法)确定(例如,推导或推断)CCF片段或源自CCF片段的读段的长度。在一些实施方案中,通过从配对末端测序方法获得的读段来确定(例如,推导或推断)CCF片段的长度。在某些实施方案中,直接从源自CCF片段的读段(例如,单末端读段)的长度来确定CCF片段模板的长度。
部分特异性参数可由一个或多个加权因子加权或调整。在一些实施方案中,加权或调整的部分特异性参数可为样品(例如,试验样品)提供部分特异性胎儿分数估计值。在一些实施方案中,加权或调整一般将一部分的计数(例如,映射至一部分的读段)或另一个部分特异性参数转换为部分特异性胎儿分数估计值,并且这种转换有时被视为变换。
在一些实施方案中,加权因子是系数或常数,其部分地描述和/或定义胎儿分数(例如,从多个样品确定的胎儿分数)和多个样品(例如,训练集)的部分特异性参数之间的关系。在一些实施方案中,根据多个胎儿分数确定和多个部分特异性参数的关系来确定加权因子。一个或多个加权因子可定义关系并且可从关系确定一个或多个加权因子。在一些实施方案中,根据以下几项从一部分的拟合关系来确定加权因子(例如,一个或多个加权因子):(i)为多个样品中的每个样品确定的胎儿核酸的分数,和(ii)多个样品的部分特异性参数。
加权因子可为从合适关系(例如,合适的数学关系、代数关系、拟合关系、回归、回归分析、回归模型)导出的任何合适的系数、估计系数或常数。加权因子可根据合适的关系确定,从合适的关系导出或从合适的关系估计。在一些实施方案中,加权因子是由拟合关系估计的系数。对多个样品的关系进行拟合有时被称为对模型进行训练。可使用对关系进行拟合(例如,针对训练集来训练模型)的任何合适模型和/或方法。可使用的合适模型的非限制性示例包括回归模型、线性回归模型、简单回归模型、普通最小二乘回归模型、多元回归模型、一般多元回归模型、多项式回归模型、一般线性模型、广义线性模型、离散选择回归模型、逻辑回归模型、多项式分对数模型、混合分对数模型、概率单位模型、多项式概率单位模型、有序分对数模型、有序概率单位模型、泊松模型、多元响应回归模型、多级模型、固定效应模型、随机效应模型、混合模型、非线性回归模型、非参数模型、半参数模型、鲁棒模型、分位模型、等渗模型、主成分模型、最小角模型、局部模型、分段模型和变量误差模型。在一些实施方案中,拟合关系不是回归模型。在一些实施方案中,拟合关系选自决策树模型、支持向量机模型和神经网络模型。训练模型(例如,回归模型、关系)的结果通常是可在数学上描述的关系,其中该关系包括一个或多个系数(例如,加权因子)。更复杂的多变量模型可确定一个、两个、三个或更多个加权因子。在一些实施方案中,根据胎儿分数和从多个样品获得的两个或更多个部分特异性参数(例如,系数)(例如,例如通过矩阵拟合至多个样品的拟合关系)来训练模型。
可通过合适方法从合适关系(例如,合适的数学关系、代数关系、拟合关系、回归、回归分析、回归模型)导出加权因子。在一些实施方案中,拟合关系通过估计来拟合,其非限制性示例包括最小二乘法、普通最小二乘法、线性、部分、总、广义、加权、非线性、迭代重加权、岭回归、最小绝对偏差、贝叶斯、贝叶斯多变量、降秩、LASSO、加权秩选择标准(WRSC)、秩选择标准(RSC)、弹性网络估计器(例如,弹性网络回归)以及它们的组合。
加权因子可为基因组的任何合适部分确定或与之相关联。加权因子可为任何合适染色体的任何合适部分确定或与之相关联。在一些实施方案中,加权因子为基因组中的一些或所有部分确定或与之相关联。在一些实施方案中,加权因子为基因组中的一些或所有染色体的部分确定或与之相关联。加权因子有时为所选择的染色体的部分确定或与之相关联。加权因子可为一个或多个常染色体的部分确定或与之相关联。加权因子可为多个部分中包括常染色体中的部分或其子集的部分确定或与之相关联。在一些实施方案中,加权因子为性染色体(例如,ChrX和/或ChrY)的部分确定或与之相关联。加权因子可为一个或多个常染色体和一个或多个性染色体的部分确定或与之相关联。在某些实施方案中,加权因子为所有常染色体及染色体X和Y的多个部分中的部分确定或与之相关联。加权因子可为多个部分中不包括X和/或Y染色体中的部分的部分确定或与之相关联。在某些实施方案中,加权因子为染色体的部分确定或与之相关联,其中该染色体包含非整倍体(例如,全染色体非整倍体)。在某些实施方案中,加权因子仅为染色体的部分确定或与之相关联,其中该染色体不是非整倍体(例如,整倍体染色体)。加权因子可为多个部分中不包括染色体13、18和/或21中的部分的部分确定或与之相关联。
在一些实施方案中,根据一个或多个样品(例如,样品的训练集)为一部分确定加权因子。加权因子通常特定于一部分。在一些实施方案中,一个或多个加权因子被独立分配给一部分。在一些实施方案中,依据用于多个样品的胎儿分数确定(例如,样品特定的胎儿分数确定)的关系以及根据多个样品确定的部分特异性参数来确定加权因子。通常从多个样品,例如从约20至约100,000个或更多个样品、从约100至约100,000个或更多个样品、从约500至约100,000个或更多个样品、从约1000至约100,000个或更多个样品、或从约10,000至约100,000个或更多个样品确定加权因子。可从整倍体样品(例如,来自包含整倍体胎儿的受试者的样品,例如不存在非整倍体染色体的样品)确定加权因子。在一些实施方案中,从包含非整倍体染色体的样品(例如,来自包含整倍体胎儿的受试者的样品)获得加权因子。在一些实施方案中,从来自具有整倍体胎儿的受试者以及来自具有三体胎儿的受试者的多个样品确定加权因子。可从多个样品导出加权因子,其中这些样品来自具有男性胎儿和/或女性胎儿的受试者。
通常为可从其导出加权因子的训练集的一个或多个样品确定胎儿分数。从其确定加权因子的胎儿分数有时是样品特定的胎儿分数确定。从其确定加权因子的胎儿分数可通过本文所述或本领域已知的任何合适方法来确定。在一些实施方案中,确定胎儿核酸含量(例如,胎儿分数)使用本文所述或本领域已知的合适胎儿量标测定法(FQA)来进行,其非限制性示例包括根据下述内容的胎儿分数确定:根据对男性胎儿特异的标记、基于多态序列的等位基因比率、根据对胎儿核酸特异而对母体核酸非特异的一种或多种标记、通过使用基于甲基化的DNA识别(例如,A.Nygren等人,(2010年),《临床化学》(ClinicalChemistry),第56卷第10期:第1627-1635页)、通过质谱方法和/或使用竞争性PCR方法的系统、通过美国专利申请公布2010/0105049所述的方法(该专利申请公布以引用方式并入本文)等等或它们的组合。通常部分地根据Y染色体的水平(例如,一个或多个基因组区段水平、图谱水平)来确定胎儿分数。在一些实施方案中,根据Y染色体的合适测定法(例如,通过使用定量实时PCR比较胎儿特异基因座的量(诸如母体内的男婴中染色体Y上的SRY基因座)与母亲和胎儿中都常见的任何常染色体上的基因座的量(例如,Lo Y M等人,(1998年),《美国人类遗传学杂志》(Am J Hum Genet),第62卷:第768-775页))来确定胎儿分数。
(例如,试验样品的)部分特异性参数可由一个或多个加权因子(例如,从训练集导出的加权因子)加权或调整。例如,可根据就多个样品的训练集而言的部分特异性参数和胎儿分数确定的关系来为一部分导出加权因子。然后可根据从训练集导出的加权因子来对试验样品的部分特异性参数进行调整和/或加权。在一些实施方案中,从其导出加权因子的部分特异性参数与调整或加权的(例如,试验样品的)部分特异性参数相同(例如,这两个参数均为FLR)。在某个实施方案中,从其导出加权因子的部分特异性参数与调整或加权的(例如,试验样品的)部分特异性参数不同。例如,可从就样品的训练集而言的覆盖度(即,部分特异性参数)和胎儿分数之间的关系确定加权因子,并且可根据从覆盖度导出的加权因子来调整试验样品的一部分的FLR(即,另一个部分特异性参数)。不受理论的限制,由于每个部分特异性参数和常见部分特异性FLR之间的关系和/或关联,(例如,试验样品的)部分特异性参数有时可由从(例如,训练集的)不同部分特异性参数导出的加权因子调整和/或加权。
可通过由为该部分确定的加权因子对部分特异性参数进行加权来为样品(例如,试验样品)确定部分特异性胎儿分数估计值。加权可包括通过应用任何合适的数学操作根据加权因子对部分特异性参数进行调整、转换和/或变换,该数学操作的非限制性示例包括乘、除、加、减、积分、符号计算、代数计算、算法、三角函数或几何函数、变换(例如,傅里叶变换)等等或它们的组合。加权可包括根据加权因子合适的数学模型对部分特异性参数进行调整、转换和/或变换。
在一些实施方案中,根据一个或多个部分特异性胎儿分数估计值来为样品确定胎儿分数。在一些实施方案中,根据加权或调整一个或多个部分的部分特异性参数来为样品(例如,试验样品)确定(例如,估计)胎儿分数。在某些实施方案中,基于调整的计数或调整的计数子集来估计试验样品的胎儿核酸的分数。在某些实施方案中,基于一部分的调整的FLR、调整的FRS、调整的覆盖度和/或调整的可映射性来估计试验样品的胎儿核酸的分数。在一些实施方案中,加权或调整约1至约500,000、约100至约300,000、约500至约200,000、约1000至约200,000、约1500至约200,000或约1500至约50,000个部分特异性参数。
可通过任何合适的方法根据(例如,相同试验样品的)多个部分特异性胎儿分数估计值来确定(例如,试验样品的)胎儿分数。在一些实施方案中,用于提高来自妊娠女性的试验样品中胎儿核酸的分数的估计的精确性的方法包括确定一个或多个部分特异性胎儿分数估计值,其中该样品的胎儿分数的估计值根据该一个或多个部分特异性胎儿分数估计值来确定。在一些实施方案中,估计或确定样品(例如,试验样品)的胎儿核酸的分数包括对一个或多个部分特异性胎儿分数估计值求和。求和可包括根据多个部分特异性胎儿分数估计值来确定平均值、均值、中值、AUC或积分值。
在一些实施方案中,用于提高来自妊娠女性的试验样品中胎儿核酸的分数的估计的精确性的方法包括获得映射至参考基因组的部分的序列读段的计数,所述序列读段是来自妊娠女性的试验样品的循环游离核酸的读段,其中所获得的计数的至少子集从该基因组的区域导出,与相对于基因组的另一个区域的总计数的胎儿核酸计数相比,该区域贡献了相对于来自该区域的总计数的从胎儿核酸导出的更大数量的计数。在一些实施方案中,根据这些部分的子集来确定胎儿核酸的分数的估计值,其中这些部分的子集根据映射有一定数量的从胎儿核酸导出的计数的部分来选择,该数量比另一部分的胎儿核酸计数更大。在一些实施方案中,这些部分的子集根据映射有相对于非胎儿核酸的一定数量的从胎儿核酸导出的计数的部分来选择,该数量比另一部分的相对于非胎儿核酸的胎儿核酸计数更大。可对映射至所有部分或部分子集的计数进行加权,从而提供加权的计数。加权的计数可用于估计胎儿核酸的分数,并且这些计数可根据映射有一定数量的从胎儿核酸导出的计数的部分进行加权,该数量比另一部分的胎儿核酸计数更大。在一些实施方案中,这些计数根据映射有相对于非胎儿核酸的一定数量的从胎儿核酸导出的计数的部分进行加权,该数量比另一部分的相对于非胎儿核酸的胎儿核酸计数更大。
可根据样品(例如,试验样品)的多个部分特异性胎儿分数估计值来为该样品确定胎儿分数,其中这些部分特异性估计值来自基因组的任何合适区域或区段的部分。可为合适染色体(例如,一个或多个所选择的染色体、一个或多个常染色体、性染色体(例如,ChrX和/或ChrY)、非整倍体染色体、整倍体染色体等或它们的组合)的一个或多个部分确定部分特异性胎儿分数估计值。
在一些实施方案中,确定胎儿分数包括(a)获得映射至参考基因组的部分的序列读段的计数,所述序列读段是来自妊娠女性的试验样品的循环游离核酸的读段;(b)使用微处理器对以下几项进行加权:(i)映射至每个部分的序列读段的计数,或(ii)其他部分特异性参数,根据与每个部分独立地相关联的加权因子得出胎儿核酸的部分特异性分数,从而根据加权因子提供部分特异性胎儿分数估计值,其中每个加权因子已从每个部分的如下两者之间的拟合关系确定:(i)多个样品中的每个样品的胎儿核酸的分数,和(ii)映射至每个部分的序列读段的计数或该多个样品的其他部分特异性参数;以及(c)基于部分特异性胎儿分数估计值来估计试验样品的胎儿核酸的分数。
细胞外核酸中的胎儿核酸的量可定量,并可与本文所提供的方法联合使用。因此,在某些实施方案中,本文所述技术的方法包括确定胎儿核酸的量的附加步骤。可在加工以制备样品核酸之前或之后在来自受试者的核酸样品中确定胎儿核酸的量。在某些实施方案中,在加工和制备样品核酸之后,在样品中确定胎儿核酸的量,该量用于进一步评估。在一些实施方案中,结果包括将样品核酸中的胎儿核酸分数作为一种因素(例如,调整计数、去除样品、作出判定或不作出判定)。
该确定步骤可在本文所述方法之前、期间、本文所述方法中的任何时间点或在本文所述某些(例如,非整倍体检测、微重复或微缺失检测、胎儿性别确定)方法之后进行。例如,为了以给定灵敏度或特异性实现胎儿性别或非整倍体、微重复或微缺失确定方法,胎儿核酸定量方法可在胎儿性别或非整倍体、微重复或微缺失确定之前、期间或之后实施以识别具有大于约2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%或更多胎儿核酸的那些样品。在一些实施方案中,被确定为具有一定阈值量的胎儿核酸(例如,约15%或更多胎儿核酸;约4%或更多胎儿核酸)的样品被进一步用于分析例如胎儿性别或非整倍体、微重复或微缺失确定,或非整倍体或遗传变异的存在或不存在。在某些实施方案中,仅为具有一定阈值量的胎儿核酸(例如,约15%或更多胎儿核酸;约4%或更多胎儿核酸)的样品选择(例如,选择并传达给患者)例如胎儿性别或非整倍体、微重复或微缺失的存在或不存在的确定。
在一些实施方案中,确定胎儿分数或确定胎儿核酸的量并非识别染色体非整倍体、微重复或微缺失的存在或不存在所必需或必要。在一些实施方案中,识别染色体非整倍体、微重复或微缺失的存在或不存在不需要胎儿与母体DNA的序列区分。在某些实施方案中,这是由于分析了特定染色体、染色体部分或其片段中的母体和胎儿序列的总和贡献。在一些实施方案中,识别染色体非整倍体、微重复或微缺失的存在或不存在不依赖于将区分胎儿DNA与母体DNA的先验序列信息。
在一些实施方案中,根据被分类为代表癌细胞和/或非癌细胞拷贝数变异(例如,非整倍体、微重复、微缺失)的水平来确定癌细胞核酸的分数。例如,确定癌细胞核酸的分数可包括评估用于确定癌细胞核酸的分数的癌细胞和/或非癌细胞拷贝数变异的预期水平。在一些实施方案中,根据为相同类型的拷贝数变异确定的预期水平范围来为被分类为代表拷贝数变异的水平(例如,第一水平)确定癌细胞核酸的分数。通常根据落在预期水平范围内并由此被分类为癌细胞和/或非癌细胞拷贝数变异的观察到的水平来确定癌细胞核酸的分数。在一些实施方案中,当被分类为癌细胞和/或非癌细胞拷贝数变异的观察到的水平(例如,第一水平)不同于为相同癌细胞和/或非癌细胞拷贝数变异确定的预期水平时,确定癌细胞核酸的分数。下文所述的用于根据水平来确定胎儿分数的方法可用于确定癌细胞核酸的分数。
在一些实施方案中,根据被分类为代表母体和/或胎儿拷贝数变异(例如,非整倍体、微重复、微缺失)的水平来确定胎儿分数。例如,确定胎儿分数通常包括评估用于确定胎儿分数的母体和/或胎儿拷贝数变异的预期水平。在一些实施方案中,根据为相同类型的拷贝数变异确定的预期水平范围来为被分类为代表拷贝数变异的水平(例如,第一水平)确定胎儿分数。通常根据落在预期水平范围内并由此被分类为母体和/或胎儿拷贝数变异的观察到的水平来确定胎儿分数。在一些实施方案中,当被分类为母体和/或胎儿拷贝数变异的观察到的水平(例如,第一水平)不同于为相同母体和/或胎儿拷贝数变异确定的预期水平时,确定胎儿分数。
在一些实施方案中,水平(例如,第一水平、观察到的水平)与第二水平明显不同,第一水平被分类为母体和/或胎儿拷贝数变异,并且根据第一水平来确定胎儿分数。在一些实施方案中,第一水平是观察到的和/或通过实验获得的水平,其与图谱中的第二水平明显不同,并且根据第一水平来确定胎儿分数。在一些实施方案中,第一水平是平均、均值或总和水平,并且根据第一水平来确定胎儿分数。在某些实施方案中,第一水平和第二水平是观察到的和/或通过实验获得的水平,并且根据第一水平来确定胎儿分数。在一些情况下,第一水平包括第一组部分的归一化计数并且第二水平包括第二组部分的归一化计数,并且根据第一水平来确定胎儿分数。在一些实施方案中,第一水平的第一组部分包括拷贝数变异(例如,第一水平代表拷贝数变异),并且根据第一水平来确定胎儿分数。在一些实施方案中,第一水平的第一组部分包括纯合或杂合母体拷贝数变异,并且根据第一水平来确定胎儿分数。在一些实施方案中,图谱包括用于第一组部分的第一水平和用于第二组部分的第二水平,第二组部分基本上不包括拷贝数变异(例如,母体拷贝数变异、胎儿拷贝数变异或母体拷贝数变异和胎儿拷贝数变异),并且根据第一水平来确定胎儿分数。
在一些实施方案中,水平(例如,第一水平、观察到的水平)与第二水平明显不同,第一水平被分类为母体和/或胎儿拷贝数变异,并且根据第一水平和/或拷贝数变异的预期水平来确定胎儿分数。在一些实施方案中,根据拷贝数变异的预期水平来将第一水平分类为拷贝数变异,并且根据第一水平与预期水平之间的差值来确定胎儿分数。在某些实施方案中,水平(例如,第一水平、观察到的水平)被分类为母体和/或胎儿拷贝数变异,并且胎儿分数被确定为第一水平与拷贝数变异的预期水平之间的差值的两倍。在一些实施方案中,水平(例如,第一水平、观察到的水平)被分类为母体和/或胎儿拷贝数变异,从预期水平减去第一水平,从而提供差值,并且胎儿分数被确定为该差值的两倍。在一些实施方案中,水平(例如,第一水平、观察到的水平)被分类为母体和/或胎儿拷贝数变异,从第一水平减去预期水平,从而提供差值,并且胎儿分数被确定为该差值的两倍。
通常胎儿分数以百分比的形式提供。例如,胎儿分数可除以100,从而提供百分比值。例如,对于代表母体纯合重复并具有155的水平的第一水平以及用于母体纯合重复并具有150的水平的预期水平,胎儿分数可被确定为10%(例如,(胎儿分数=2×(155-150))。
在一些实施方案中,胎儿分数由图谱内被分类为拷贝数变异的两个或更多个水平确定。例如,有时,图谱中的两个或更多个水平(例如,两个或更多个第一水平)被识别为与参考水平(例如,第二水平,基本上不包括拷贝数变异的水平)明显不同,该两个或更多个水平被分类为代表母体和/或胎儿拷贝数变异,并且由该两个或更多个水平中的每个水平确定胎儿分数。在一些实施方案中,由图谱内的约3个或更多个、约4个或更多个、约5个或更多个、约6个或更多个、约7个或更多个、约8个或更多个、或约9个或更多个胎儿分数确定来确定胎儿分数。在一些实施方案中,由图谱内的约10个或更多个、约20个或更多个、约30个或更多个、约40个或更多个、约50个或更多个、约60个或更多个、约70个或更多个、约80个或更多个、或约90个或更多个胎儿分数确定来确定胎儿分数。在一些实施方案中,由图谱内的约100个或更多个、约200个或更多个、约300个或更多个、约400个或更多个、约500个或更多个、约600个或更多个、约700个或更多个、约800个或更多个、约900个或更多个、或约1000个或更多个胎儿分数确定来确定胎儿分数。在一些实施方案中,由图谱内的约10个至约1000个、约20个至约900个、约30个至约700个、约40个至约600个、约50个至约500个、约50个至约400个、约50个至约300个、约50个至约200个、或约50个至约100个胎儿分数确定来确定胎儿分数。
在一些实施方案中,胎儿分数被确定为图谱内的多个胎儿分数确定的平均值或均值。在某些实施方案中,由多个胎儿分数确定来确定的胎儿分数是多个胎儿分数确定的均值(例如,平均值、均值、标准平均值、中值等)。通常,由多个胎儿分数确定来确定的胎儿分数是通过本领域已知或本文所述的合适方法确定的均值。在一些实施方案中,胎儿分数确定的均值是加权的均值。在一些实施方案中,胎儿分数确定的均值是未加权的均值。由多个胎儿分数确定生成的均值、中值或平均胎儿分数确定(即,均值、中值或平均胎儿分数确定值)有时与不确定性值(例如,方差、标准偏差、MAD等)相关联。在由多个确定来确定均值、中值或平均胎儿分数值之前,在一些实施方案(在本文中更详细描述)中移除一个或多个异常的确定。
图谱内的一些胎儿分数确定有时不包括在胎儿分数的总体确定(例如,均值或平均胎儿分数确定)之中。在一些实施方案中,从图谱中的第一水平(例如,与第二水平明显不同的第一水平)导出胎儿分数确定,并且第一水平不指示遗传变异。例如,图谱中的一些第一水平(例如,尖峰或尖谷)由异常或未知原因生成。此类值通常生成与从真实拷贝数变异获得的其他胎儿分数确定明显不同的胎儿分数确定。在一些实施方案中,与图谱中其他胎儿分数确定明显不同的胎儿分数确定被识别出来,并从胎儿分数确定中移除。例如,从异常尖峰和尖谷获得的一些胎儿分数确定通过将其与图谱内的其他胎儿分数确定进行比较而被识别出来,并从胎儿分数的总体确定中排除。
在一些实施方案中,与均值、中值或平均胎儿分数确定明显不同的独立胎儿分数确定是被识别的、被辨别的和/或可观察的差异。在某些实施方案中,术语“明显不同”可意指统计学差异和/或统计学显著差异。“独立的”胎儿分数确定可以是由被分类为拷贝数变异的特定水平确定的胎儿分数(例如,在一些实施方案中,单个确定)。任何合适的阈值或范围均可用于确定胎儿分数确定与均值、中值或平均胎儿分数确定明显不同。在某些实施方案中,胎儿分数确定与均值、中值或平均胎儿分数确定明显不同,并且该确定可被表示为与该平均值或均值的百分比偏差。在某些实施方案中,与均值、中值或平均胎儿分数确定明显不同的胎儿分数确定相差约10%或更多。在一些实施方案中,与均值、中值或平均胎儿分数确定明显不同的胎儿分数确定相差约15%或更多。在一些实施方案中,与均值、中值或平均胎儿分数确定明显不同的胎儿分数确定相差约15%至约100%或更多。
在某些实施方案中,根据与均值或平均胎儿分数确定相关联的不确定性值的倍数,胎儿分数确定与均值、中值或平均胎儿分数确定明显不同。通常,不确定性值和常数n(例如,置信区间)定义范围(例如,不确定性截止值)。例如,有时,不确定性值是胎儿分数确定的标准偏差(例如,+/-5),并且乘以常数n(例如,置信区间),由此定义范围或不确定性截止值(例如,5n至-5n,有时称为5σ)。在一些实施方案中,独立的胎儿分数确定落在由不确定性截止值定义的范围之外,并且被视为与均值、中值或平均胎儿分数确定明显不同。例如,对于10的均值和3的不确定性截止值,大于13或小于7的独立的胎儿分数是明显不同的。在一些实施方案中,与均值、中值或平均胎儿分数确定明显不同的胎儿分数确定相差不确定性值的超过n倍(例如,n×σ),其中n约等于或大于1、2、3、4、5、6、7、8、9或10。在一些实施方案中,与均值、中值或平均胎儿分数确定明显不同的胎儿分数确定相差不确定性值的超过n倍(例如,n×σ),其中n约等于或大于1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9或4.0。
在一些实施方案中,水平代表胎儿和/或母体微倍性(例如,微缺失、微重复)。在一些实施方案中,水平(例如,第一水平、观察到的水平)与第二水平明显不同,第一水平被分类为母体和/或胎儿拷贝数变异,并且第一水平和/或第二水平代表胎儿微倍性和/或母体微倍性。在某些实施方案中,第一水平代表胎儿微倍性。在一些实施方案中,第一水平代表母体微倍性。通常,第一水平代表胎儿微倍性和母体微倍性。在一些实施方案中,水平(例如,第一水平、观察到的水平)与第二水平明显不同,第一水平被分类为母体和/或胎儿拷贝数变异,第一水平代表胎儿和/或母体微倍性,并且根据胎儿和/或母体微倍性来确定胎儿分数。在一些情况下,第一水平被分类为母体和/或胎儿拷贝数变异,第一水平代表胎儿微倍性,并且根据胎儿微倍性来确定胎儿分数。在一些实施方案中,第一水平被分类为母体和/或胎儿拷贝数变异。第一水平代表母体微倍性,并且根据母体微倍性来确定胎儿分数。在一些实施方案中,第一水平被分类为母体和/或胎儿拷贝数变异,第一水平代表母体和胎儿微倍性,并且根据母体和胎儿微倍性来确定胎儿分数。
在一些实施方案中,胎儿分数的确定包括确定胎儿和/或母本微倍性。在一些实施方案中,水平(例如,第一水平、观察到的水平)与第二水平明显不同,第一水平被分类为母体和/或胎儿拷贝数变异,根据第一水平和/或第二水平来确定胎儿和/或母体微倍性,并且确定胎儿分数。在一些实施方案中,第一水平被分类为母体和/或胎儿拷贝数变异,根据第一水平和/或第二水平来确定胎儿微倍性,并且根据胎儿微倍性来确定胎儿分数。在某些实施方案中,第一水平被分类为母体和/或胎儿拷贝数变异,根据第一水平和/或第二水平来确定母体微倍性,并且根据母体微倍性来确定胎儿分数。在一些实施方案中,第一水平被分类为母体和/或胎儿拷贝数变异,根据第一水平和/或第二水平来确定母体和胎儿微倍性,并且根据母体和胎儿微倍性来确定胎儿分数。
当母亲的微倍性与胎儿的微倍性相差(例如,不相同)给定的水平或被分类为拷贝数变异的水平时,通常确定胎儿分数。在一些实施方案中,当母亲是重复纯合的(例如,微倍性为2)并且胎儿是相同重复杂合的(例如,微倍性为1.5)时,确定胎儿分数。在一些实施方案中,当母亲是重复杂合的(例如,微倍性为1.5)并且胎儿是相同重复纯合的(例如,微倍性为2)或在该胎儿中不存在该重复(例如,微倍性为1)时,确定胎儿分数。在一些实施方案中,当母亲是缺失纯合的(例如,微倍性为0)并且胎儿是相同缺失杂合的(例如,微倍性为0.5)时,确定胎儿分数。在一些实施方案中,当母亲是缺失杂合的(例如,微倍性为0.5)并且胎儿是相同缺失纯合的(例如,微倍性为0)或在该胎儿中不存在该缺失(例如,微倍性为1)时,确定胎儿分数。
在某些实施方案中,当母亲的微倍性与胎儿的微倍性对于被识别为拷贝数变异的给定水平而言相同(例如,被识别为相同)时,无法确定胎儿分数。例如,在一些实施方案中,对于其中母亲和胎儿携带相同拷贝数的拷贝数变异的给定水平而言,不确定胎儿分数。例如,当母亲和胎儿对于相同缺失均是纯合的或对于相同重复均是纯合的时,无法为被分类为拷贝数变异的水平确定胎儿分数。在某些实施方案中,当母亲和胎儿对于相同缺失均是杂合的或对于相同重复均是杂合的时,无法为被分类为拷贝数变异的水平确定胎儿分数。在其中对样品进行多个胎儿分数确定的实施方案中,显著偏离均值、中值或平均值的确定可能因母体倍性等于胎儿倍性的拷贝数变异所致,并且此类确定可被剔除在考虑范围之外。
在一些实施方案中,母体拷贝数变异和胎儿拷贝数变异的微倍性是未知的。在一些实施方案中,在没有对拷贝数变异的胎儿和/或母体微倍性的确定的情况下,生成胎儿分数并将其与均值、中值或平均胎儿分数确定进行比较。与均值、中值或平均胎儿分数确定明显不同的拷贝数变异的胎儿分数确定有时是因为母亲和胎儿的微倍性对于该拷贝数变异而言是相同的。通常将与均值、中值或平均胎儿分数确定明显不同的胎儿分数确定从总体胎儿分数确定中排除,无论该差异的来源或原因如何。在一些实施方案中,母亲和/或胎儿的微倍性通过本领域已知的方法(例如,通过靶向测序方法)确定和/或验证。
定义
如本文所用,关于数值的术语“约”是指±10%。
术语“由……组成”意指“包括并限于”。
术语“基本上由……组成”意指组合物、方法或结构可包括另外的成分、步骤和/或部分,但前提是所述另外的成分、步骤和/或部分不在实质上改变所要求保护的组合物、方法或结构的基本特性和新颖特性。
除非另外指明,否则本文所公开的方法和系统的实践涉及分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序以及重组DNA领域中使用的常规技术和装置,这些技术和装置在本领域的技术范围内。此类技术和装置是本领域技术人员已知的,并且在许多文本和参考文献中有所描述(参见例如Sambrook等人,“分子克隆实验指南(MolecularCloning:A Laboratory Manual)”,第三版(冷泉港实验室(Cold Spring Harbor)),[2001年]);和Ausubel等人,“最新分子生物学实验方法汇编(Current Protocols in MolecularBiology)”[1987年])。
数值范围包括限定该范围的数字。在本说明书通篇中给出的每一最大数值限度旨在包括每一更低数值限度,如同此类更低数值限度在本文中明确地写出一样。在本说明书通篇中给出的每一最小数值限度将包括每一更高数值限度,如同此类更高数值限度在本文中明确地写出一样。在本说明书通篇中给出的每一数值范围将包括落入此类更宽数值范围内的每一更窄数值范围,如同此类更窄数值范围均在本文中明确写出一样。
除非本文中另有定义,否则本文所用的所有技术和科学术语的含义与本领域的普通技术人员理解的含义相同。包括本文所包括的术语的各种科学词典可供本领域技术人员使用。虽然与本文所述的方法和材料类似或等同的任何方法和材料也可用于本文所公开的实施方案的实践或测试,但本文描述了一些方法和材料。
下文紧接着定义的术语通过整体参考本说明书来进行更全面的描述。应当理解,本公开不限于所述的特定方法、方案和试剂,因为这些方法、方案和试剂可根据本领域技术人员使用它们的上下文而变化。如本文所用,除非上下文另有明确指示,否则单数术语“一个”、“一种”和“该”包括复数指代。
除非另外指明,否则分别地,以5'至3'的取向从左到右书写核酸,并且以氨基至羧基的取向从左到右书写氨基酸序列。
如本文所用,“似然比”用于评估执行诊断检测的价值。其使用该检测的灵敏度和特异性来确定检测结果是否有用地改变存在病症(诸如疾病状态)的概率。阳性似然比按如下计算:LR+=(灵敏度)/(1-特异性),这等同于Pr(T+|D+)/Pr(T+|D-)或疾病检测呈阳性的人的概率除以疾病检测不呈阳性的人的概率。此处T+或T-分别表示检测的结果呈阳性或阴性。同样,D+或D-分别表示存在或不存在该疾病。因此“真阳性”是检测呈阳性(T+)并患有疾病(D+)的那些,并且“假阳性”是检测呈阳性(T+)但未患有该疾病(D-)的那些。特定检测的LR+值越大,阳性检测结果越可能呈真阳性。另一方面,LR+<1将意味着未患病的个体比患病的个体更可能收到阳性检测结果。
检测限(LOD)是可以限定置信度检测的最小水平的信号(例如,分析物、胎儿分数、指示条件的得分等)。在本申请中,LOD是以限定置信度检测靶突变(例如,CNV、微缺失、微重复或SNP)所需的胎儿分数或肿瘤分数(或其他分析物)的最低水平。
术语“片段大小参数”是指与片段或片段集合(诸如核酸片段,例如从体液获得的cfDNA片段)的大小或长度相关的参数。如本文所用,在以下情况时,参数“偏向片段大小或大小范围”:1)对片段大小或大小范围的参数进行有利地加权,例如,当与该大小或大小范围的片段相关联时,计数的权重比其他大小或范围的计数的权重更大;或者2)从对片段大小或大小范围有利地进行加权的值中获得参数,例如,当与该大小或大小范围的片段相关联时,从权重更大的计数中获得的比率。当基因组产生相对于来自另一基因组或同一基因组的另一部分的核酸片段富含或具有更高浓度的大小或大小范围的核酸片段时,片段大小或大小范围可以是该基因组或其一部分的特性。
术语“加权”是指使用被认为是“权重”的一个或多个值或函数来修改量(诸如参数或变量)。在某些实施方案中,将参数或变量乘以权重。在其他实施方案中,参数或变量以指数方式修改。在一些实施方案中,函数可以是线性或非线性函数。适用的非线性函数的示例包括但不限于赫维赛德(Heaviside)阶跃函数、箱车函数、阶梯函数或S形函数。对原始参数或变量进行加权可系统性地增大或减小加权变量的值。在各种实施方案中,加权可产生正值、非负值或负值。
“遗传变异”或“遗传改变”是指某些个体中存在的特定基因型,并且通常遗传变异存在于统计学显著的个体亚群中。可使用本文所述的方法或装置确定遗传方差的存在或不存在。在某些实施方案中,根据本文所述的方法和装置所提供的结果来确定一个或多个遗传变异的存在或不存在。在一些实施方案中,遗传变异是染色体异常(例如,非整倍体)、部分染色体异常或镶嵌性,每一者均在本文中更详细描述。遗传变异的非限制性示例包括一个或多个缺失(例如,微缺失)、重复(例如,微重复)、插入、突变、多态性(例如,单核苷酸多态性)、融合、重复序列(例如,短串联重复序列)、差异甲基化位点、差异甲基化形式等以及它们的组合。插入、重复序列、缺失、重复、突变或多态性可为任意长度,并且在一些实施方案中,长度为约1个碱基或碱基对(bp)至约250兆碱基(Mb)。在一些实施方案中,插入、重复序列、缺失、重复、突变或多态性的长度为约1个碱基或碱基对(bp)至约1,000千碱基(kb)(例如,长度为约10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb或1000kb)。
遗传变异有时是缺失。在某些实施方案中,缺失是部分染色体或DNA序列丢失的突变(例如,遗传畸变)。缺失通常是遗传物质丢失。可缺失任何数量的核苷酸。缺失可包括缺失一个或多个全染色体、染色体片段、等位基因、基因、内含子、外显子、任何非编码区、任何编码区、它们的片段或它们的组合。缺失可包括微缺失。缺失可包括缺失单个碱基。
遗传变异有时是基因重复。在某些实施方案中,重复是部分染色体或DNA序列被复制并插回基因组中的突变(例如,遗传畸变)。在某些实施方案中,基因重复(即,重复)是DNA区域的任何重复。在一些实施方案中,重复是基因组或染色体内重复(通常串联)的核酸序列。在一些实施方案中,重复可包括下述的拷贝:一个或多个全染色体、染色体片段、等位基因、基因、内含子、外显子、任何非编码区、任何编码区、它们的片段或它们的组合。重复可包括微重复。重复有时包括复制的核酸的一个或多个拷贝。重复有时被表征为重复一次或多次(例如,重复1、2、3、4、5、6、7、8、9或10次)的基因区域。在一些情况下,重复的范围可以是小区域(数千碱基对)到全染色体。重复经常由于同源重组的错误或由于逆转录转座子事件造成。重复与某些类型的增生性疾病相关联。可使用基因组微阵列或比较基因组杂交(CGH)来表征重复。
遗传变异有时是插入。插入有时是将一个或多个核苷酸碱基对添加到核酸序列中。插入有时是微插入。在某些实施方案中,插入包括将染色体的片段添加到基因组、染色体或其片段中。在某些实施方案中,插入包括将等位基因、基因、内含子、外显子、任何非编码区、任何编码区、其片段或其组合添加到基因组或其片段中。在某些实施方案中,插入包括将未知来源的核酸添加(即,插入)到基因组、染色体或其片段中。在某些实施方案中,插入包括添加(即,插入)单个碱基。
本文中术语“拷贝数变异(CNV)”是指与存在于参考样品中的核酸序列的拷贝数相比,存在于试验样品中的核酸序列的拷贝数变异。在某些实施方案中,核酸序列为1kb或更大。在一些情况下,核酸序列是全染色体或其重要部分。“拷贝数变异体”是指通过将试验样品中的所关注核酸序列与所关注核酸序列的预期水平进行比较来发现拷贝数差异的核酸序列。例如,将试验样品中所关注核酸序列的水平与合格样品中存在的核酸序列水平进行比较。拷贝数变异体/变异包括缺失(包括微缺失)、插入(包括微插入)、复制、倍增和易位。CNV涵盖染色体非整倍体和部分非整倍体。
本文中术语“非整倍体”是指由全染色体或染色体的一部分的丢失或获得引起的遗传物质的失衡。
本文中术语“染色体非整倍体”和“完整染色体非整倍体”是指由全染色体的丢失或获得引起的遗传物质的失衡,并且包括种系非整倍体和嵌合性非整倍体。
本文中术语“部分非整倍体”和“部分染色体非整倍体”是指由染色体的一部分的丢失或获得引起的遗传物质的失衡(例如,部分单倍体性和部分三倍体性),并且涵盖由易位、缺失和插入引起的失衡。
术语“多个”是指多于一个元件。例如,本文所用的术语是指使用本文所公开的方法足以识别试验样品和合格样品的拷贝数变异的显著差异的多个核酸分子或序列标签。在一些实施方案中,每个试验样品获得至少约3×106个约20bp至40bp之间的序列标签。在一些实施方案中,每个试验样品提供至少约5×106、8×106、10×106、15×106、20×106、30×106、40×106或50×106个序列标签的数据,每个序列标签的长度在约20bp和40bp之间。
术语“配对末端读段”是指来自从核酸片段的每个末端获得一个读段的配对末端测序的读段。配对末端测序可包括将多核苷酸链片段化成称为插入序列的短序列。片段化对于相对较短的多核苷酸(诸如无细胞DNA分子)是可选的或不必要的。
术语“多核苷酸”、“核酸”和“核酸分子”可互换使用,并且是指共价连接的核苷酸(即RNA的核糖核苷酸和DNA的脱氧核糖核苷酸)的序列,其中一个核苷酸的戊糖的3'位置通过磷酸二酯基团连接至下一个核苷酸的戊糖的5'位置。核苷酸包括任何形式的核酸的序列,这些核酸包括但不限于RNA和DNA分子(诸如cfDNA分子)。术语“多核苷酸”包括但不限于单链多核苷酸和双链多核苷酸。
本文中术语“试验样品”是指通常来源于生物流体、细胞、组织、器官或生物体且包含核酸或核酸混合物的样品,该核酸或核酸混合物包含待筛选拷贝数变异的至少一种核酸序列。在某些实施方案中,样品包含拷贝数疑似已发生变异的至少一条核酸序列。此类样品包括但不限于痰/口腔液、羊水、血液、血液级分或细针活检样品(例如,外科活检、细针活检等)、尿液、腹膜液、胸膜液等。虽然样品通常取自人类受试者(例如,患者),但测定可用于任何哺乳动物的拷贝数变异(CNV),这些哺乳动物包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可按从生物来源中获得的原样直接使用,或者经过预处理以改变样品的性质后使用。例如,此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、添加试剂、裂解等。如果对于样品采用此类预处理方法,则此类预处理方法通常使得所关注核酸保留在试验样品中,有时其浓度与未处理的试验样品(例如,即未受到任何此类预处理方法的样品)中的浓度成比例。就本文所述的方法而言,此类“经处理的”或“处理后的”样品仍被视为生物“试验”样品。
本文中术语“训练集”是指可包括受影响和/或未受影响样品并且用来开发用于分析试验样品的模型的训练样品集。在一些实施方案中,训练集包括未受影响样品。在这些实施方案中,使用不受所关注拷贝数变异影响的样品训练集来建立用于确定CNV的阈值。训练集中的未受影响样品可用作合格样品以识别归一化序列(例如,归一化染色体),并且未受影响样品的染色体剂量用于设定用于所关注序列(例如,所关注染色体)中的每一者的阈值。在一些实施方案中,训练集包括受影响样品。训练集中的受影响样品可用于确认受影响试验样品易于与未受影响样本区分开。
训练集也是所关注群体中的统计样品,该统计样品不会与生物样品混淆。统计样品通常包括多个个体,这些个体的数据用于确定适用于群体的一个或多个所关注定量值。统计样品是所关注群体中的个体子集。这些个体可以是提供用于统计分析的数据点的人、动物、组织、细胞、其他生物样品(即,统计样品可包括多个生物样品)和其他个体实体。
通常,训练集与验证集结合使用。术语“验证集”用于指统计样品中的个体集,这些个体的数据用于验证或评估使用训练集确定的所关注定量值。在一些实施方案中,例如,训练集提供用于计算参考序列的掩蔽的数据,而验证集提供用于评估掩蔽的有效性或效果的数据。
本文中术语“所关注序列”或“所关注核酸序列”是指与健康个体和患病个体之间的序列表示的差异相关联的核酸序列。所关注序列可以是在疾病或遗传病症中错误表示(即过度表示或表示不足)的染色体上的序列。所关注序列可以是染色体的一部分(即染色体区段)或全染色体。例如,所关注序列可以是在非整倍体病症中过度表示的染色体或编码在癌症中表示不足的肿瘤抑制因子的基因。所关注序列包括在受试者的细胞总群或细胞亚群中过度表示或表示不足的序列。“所关注合格序列”是合格样品中的所关注序列。“所关注测试序列”是试验样品中的所关注序列。
本文中术语“归一化序列”是指用于将映射到与归一化序列相关联的所关注序列的序列标签数目归一化的序列。在一些实施方案中,归一化序列包含稳健染色体(robustchromosome)。“稳健染色体”是不可能为非整倍体的染色体。在涉及人类染色体的一些情况下,稳健染色体是除X染色体、Y染色体、13号染色体、18号染色体和21号染色体之外的任何染色体。在一些实施方案中,归一化序列显示在样品和测序运行间映射到其的序列标签数目的变异性,该变异性近似于用作归一化参数的所关注序列的变异性。归一化序列可将受影响样品与一个或多个未受影响样品区分开。在一些具体实施中,当与其他潜在归一化序列(诸如其他染色体)相比时,归一化序列最佳地或有效地将受影响样品与一个或多个未受影响样品区分开。在一些实施方案中,以在样品和测序运行间所关注序列的染色体剂量变异性来计算归一化序列的变异性。在一些实施方案中,在未受影响样品集中识别归一化序列。
“归一化染色体”、“归一化分母染色体”或“归一化染色体序列”是“归一化序列”的示例。“归一化染色体序列”可由单条染色体或一组染色体构成。在一些实施方案中,归一化序列包含两条或更多条稳健染色体。在某些实施方案中,稳健染色体均为除X染色体、Y染色体、13号染色体、18号染色体和21号染色体之外的染色体。“归一化区段”是“归一化序列”的另一个示例。“归一化区段序列”可由染色体的单个片段构成,或可由相同或不同染色体的两个或更多个片段构成。在某些实施方案中,归一化序列旨在将变异性诸如过程相关变异性、染色体间(运行内)变异性和测序间(运行间)变异性归一化。
本文中术语“可区分性”是指归一化染色体的特性,其使得人们能够将一个或多个未受影响(即正常)样品与一个或多个受影响(即非整倍体)样品区分开。显示最大“可区分性”的归一化染色体是这样的染色体或染色体组,其提供合格样品集中所关注染色体的染色体剂量与一个或多个受影响样品中的对应染色体中相同所关注染色体的染色体剂量的分布之间的最大统计差异。
本文中术语“变异性”是指归一化染色体的特性,其使得人们能够将一个或多个未受影响(即正常)样品与一个或多个受影响(即非整倍体)样品区分开。在合格样品集中测量的归一化染色体的变异性是指映射到其的序列标签数目的变异性,该变异性近似于映射到用作归一化参数的所关注染色体的序列标签数目的变异性。
术语“覆盖度”是指映射到限定序列的序列标签的丰度。可通过序列标签密度(或序列标签的计数)、序列标签密度比、归一化覆盖度量、调整的覆盖度值等定量地表示覆盖度。
如本文所用,术语“测序深度”通常是指基因座被与该基因座比对的序列读段覆盖的次数。基因座可小至一个核苷酸,或大至染色体臂,或大至整个基因组。测序深度可被表示为50×、100×等,其中“×”是指基因座被序列读段覆盖的次数。测序深度还可应用于多个基因座或全基因组,在这种情况下,x可指基因座或单倍体基因组或全基因组分别被测序的平均次数。当引用平均深度时,包括在数据集中的不同基因座的实际深度跨越一定值范围。超深测序可指至少100×的测序深度。
染色体的“有效读段覆盖度”被定义为读段所覆盖的实际碱基量。测序深度(其是指读段对核苷酸的预期覆盖度)基于在染色体中均匀合成读段的假设来计算。事实上,跨基因组的读段覆盖度并不均匀。尽管例如10x覆盖度意指核苷酸平均被覆盖10次,但在基因组的某些部分中,核苷酸被覆盖多得多或少得多。影响覆盖度的一个因素是读段比对工具将读段与基因组进行比对的能力。如果基因组的一部分较复杂,例如具有许多重复序列,则比对工具可能难以将读段与该区域进行比对,从而产生低覆盖度。
术语“覆盖度量”是指原始覆盖度的修改,并且通常表示基因组区域诸如分组中序列标记的相对量(有时称为计数)。可通过归一化、调整和/或校正基因组区域的原始覆盖度或计数来获得覆盖度量。例如,可通过将映射到区域的序列标签计数除以映射到全基因组的序列标签总数来获得该区域的归一化覆盖度量。归一化覆盖度量允许在不同样品间比较分组覆盖度,这些样品可具有不同的测序深度。归一化覆盖度量与序列剂量的不同之处在于后者通常是通过除以映射到全基因组的子集的标签计数获得的。该子集是一个或多个归一化区段或染色体。无论是否归一化,覆盖度量都可针对基因组上区域与区域之间的全局图谱变化、G-C分数变化、稳健染色体异常值等加以校正。
本文中术语“下一代测序(NGS)”是指允许对克隆扩增分子和单个核酸分子进行大规模平行测序的测序方法。NGS的非限制性实例包括边连接边测序和使用可逆染料终止子的边合成边测序。
本文中术语“参数”是指表征系统特性的数值。通常,参数以数值方式表征定量数据集和/或定量数据集之间的数值关系。例如,映射到给染色体的序列标签的数目和标签所映射的染色体长度之间的比率(或比率的函数)是参数。在一些情况下,本文所用的术语“参数”表示其值或其他特性影响相关条件(诸如拷贝数变异)的物理特征。在一些情况下,术语参数是指影响数学关系或模型输出的变量,该变量可以是自变量(即,模型的输入)或基于一个或多个自变量的中间变量。根据模型的范围,一个模型的输出可成为另一个模型的输入,从而成为另一个模型的参数。
术语“分组”是指序列的区段或基因组的区段。在一些实施方案中,分组在基因组或染色体内彼此邻接。每个分组可限定参考基因组中的核苷酸序列。根据特定应用和序列标签密度所需的分析,分组的大小可以是1kb、100kb、1Mb等。除了在参考序列内的位置之外,分组还可具有其他特性,诸如样品覆盖度和序列结构特性(诸如G-C分数)。
本文中术语“归一化值”是指将所识别的所关注序列(例如染色体或染色体片段)的序列标签数目与所识别的归一化序列(例如归一化染色体或归一化染色体片段)的序列标签数目相关联的数值。例如,“归一化值”可以是如本文他处所述的染色体剂量,或者其可以是NCV,或者其可以是如本文他处所述的NSV。
术语“读段”是指从核酸样品的一部分中获得的序列。通常,尽管不是必须的,读段表示样品中邻接碱基对的短序列。读段可由样品部分的碱基对序列(以A、T、C或G)象征性地表示。读段可存储在存储器设备中并视情况进行处理,以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下,读段为足够长度(例如,至少约25bp)的DNA序列,其可用于鉴定更大的序列或区域,例如,其可被比对并特异性地分配给染色体或基因组区域或基因。
术语“基因组读段”用于指个体的全基因组中的任何片段的读段。
如本文所用,“序列读段”(或测序读段)通常是指从核酸分子的任何部分或全部测序的核苷酸链。例如,序列读段可为从核酸片段测序的短核苷酸链(例如,20-150)、在核酸片段的一端或两端处的短核苷酸链,或存在于生物样品中的整个核酸片段的测序。序列读段可以多种方式获得,例如使用测序技术或使用探针(例如在杂交阵列或捕获探针中),或扩增技术,诸如聚合酶链反应(PCR)或使用单引物的线性扩增或等温扩增。
术语“位点”是指参考基因组上的唯一位置(即,染色体ID、染色体位置和取向)。在一些实施方案中,位点可提供残基、序列标签或区段在序列上的位置。
如本文所用,术语“比对(aligned、alignment或aligning)”是指将读段或标签与参考序列进行比较,从而确定参考序列是否包含该读段序列的过程。如果参考序列包含该读段,则该读段可映射到参考序列,或者在某些实施方案中,映射到参考序列中的特定位置。在一些情况下,比对简单地告知读段是否为特定参考序列的成员(即,该读段是否存在于该参考序列中)。例如,读段与人类13号染色体的参考序列的比对将告知该读段是否存在于13号染色体的参考序列中。提供该信息的工具可被称为集合成员资格测试仪(setmembership tester)。在一些情况下,比对另外指示读段或标签在参考序列中映射到的位置。例如,如果参考序列是人类全基因组序列,则比对可指示读段存在于13号染色体上,并且还可指示该读段存在于13号染色体的特定链和/或位点上。
比对的读段或标签是就其核酸分子顺序而言识别为与来自参考基因组的已知序列匹配的一条或多条序列。比对可手动进行,尽管其通常通过计算机算法来实现,因为不可能在实现本文所公开的方法的合理时间段内比对读段。来自比对序列的算法的一个示例是作为Illumina Genomics分析管线的一部分分布的高效核苷酸数据局部比对(ELAND)计算机程序。另选地,布隆(Bloom)过滤器或类似的集成员资格测试仪可用于将读段与参考基因组进行比对。参见2011年10月27日提交的美国专利申请61/552,374,其全文以引用方式并入本文。比对中序列读段的匹配可以是100%序列匹配或小于100%(非完全匹配)。
本文所用的术语“映射”指通过比对将序列读段特异性地分配给较大的序列,例如参考基因组。
如本文所用,术语“参考基因组”或“参考序列”是指可用于参考来自受试者的识别序列的任何生物体或病毒的任何特定已知基因组序列,无论是部分的还是完整的。例如,可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center forBiotechnology Information)找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。
在各种实施方案中,参考序列显著大于与其进行比对的读段。例如,参考序列可为比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约105倍大、或至少约106倍大、或至少约107倍大。
在一个示例中,参考序列是全长人类基因组的序列。此类序列可称为基因组参考序列。在另一个示例中,参考序列限于特定的人类染色体,诸如13号染色体。在一些实施方案中,参考染色体是来自人类基因组版本hg19的Y染色体序列。此类序列可称为染色体参考序列。参考序列的其他示例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。
在各种实施方案中,参考序列是衍生自多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。
本文中术语“临床相关序列”是指已知或疑似与遗传或疾病病症相关联或相牵连的核酸序列。确定是否存在临床相关序列可用于确定或确认医学病症的诊断,或提供用于疾病发展的预后。
当用于核酸或核酸混合物的上下文时,本文中术语“衍生的”是指从其来源中获得核酸的方式。例如,在一个实施方案中,衍生自两种不同基因组的核酸混合物意指核酸(例如cfDNA)由细胞通过自然发生的过程(诸如坏死或细胞凋亡)自然释放。在另一个实施方案中,衍生自两种不同基因组的核酸混合物意指从来自受试者的两种不同类型的细胞中提取核酸。
当用于获得特定定量值的上下文时,本文中术语“基于”是指使用另一数量作为输入来计算特定定量值作为输出。
本文中术语“患者样品”是指从患者,即医学关注、护理或治疗的接受者中获得的生物样品。患者样品可以是本文所述的任何样品。在某些实施方案中,患者样品通过非侵入性手术获得,例如外周血样品或粪便样品。本文所述的方法不需要限于人类。因此,考虑了各种兽医应用,在这种情况下,患者样品可以是来自非人类哺乳动物(例如,猫科动物、猪、马、牛等)的样品。
本文中术语“混合样品”是指含有衍生自不同基因组的核酸混合物的样品。
本文中术语“母体样品”是指从妊娠受试者(例如,女性)中获得的生物样品。
本文中术语“生物流体”是指取自生物来源的液体,并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿液、精液、汗液、泪液、唾液等。如本文所用,术语“血液”、“血浆”和“血清”明确地涵盖其级分或加工部分。类似地,在样品取自活检、拭子、涂片等的情况中,“样品”明确地涵盖衍生自活检、拭子、涂片等的处理级分或部分。
本文中术语“母体核酸”和“胎儿核酸”分别指妊娠女性受试者的核酸和该妊娠女性受试者所怀的胎儿的核酸。术语“肿瘤核酸”在本文中是指从患者的一个或多个肿瘤得到的核酸。
如本文所用,术语“对应于”有时是指存在于不同受试者的基因组中的核酸序列(例如基因或染色体)不必在所有基因组中具有相同的序列,而是用于提供所关注序列(例如基因或染色体)的同一性而非遗传信息。
如本文所用,术语“胎儿分数”是指存在于包含胎儿和母体核酸的样品中的胎儿核酸的分数。胎儿分数通常用于表征母体血液中的cfDNA。如本文所用,术语“肿瘤分数”是指存在于样品中的肿瘤核酸的分数,该样品包含患者的肿瘤和正常核酸的混合物。
如本文所用,术语“染色体”是指活细胞的携带遗传性的基因载体,其衍生自包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。
如本文所用,术语“多核苷酸长度”是指序列中或参考基因组的区域中核苷酸的绝对数目。术语“染色体长度”是指以碱基对给出的染色体的已知长度,例如,在以人类染色体的NCBI36/hg18组件提供的长度。参见互联网,网址为ncbi.nlm.nih.gov/assembly/GCF_000001405.12/
本文中术语“受试者”是指人类受试者以及非人受试者,该非人受试者诸如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。虽然本文的示例涉及人类并且语言主要针对人类,但本文所公开的概念适用于来自任何植物或动物的基因组,并且可用于兽医学、动物科学、研究实验室等领域。
本文中术语“病症”是指作为广义术语的“医学病症”,其包括所有疾病和紊乱,也可包括可能影响人的健康、受益于医学辅助或对医学治疗有影响的损伤和正常健康情况,诸如妊娠。
当用于指染色体非整倍体时,本文中术语“完整”是指全染色体的获得或丢失。
当用于指染色体非整倍体时,本文中术语“部分”是指染色体的一部分(即片段)的获得或丢失。
本文中术语“嵌合性”是指表示在已从单个受精卵发育成的一个个体中存在具有不同染色体核型的两个细胞群。嵌合可由发育期间的突变引起,这种突变仅增殖成成体细胞的亚群。
本文术语“非嵌合性”是指生物体(例如人类胎儿)由一种染色体核型的细胞构成。
如本文所用,术语“灵敏度”是指当存在所关注条件时测试结果将为阳性的概率。可用真阳性的数目除以真阳性和假阴性之和来计算灵敏度。
如本文所用,术语“特异性”是指当不存在所关注条件时测试结果将为阴性的概率。可用真阴性的数目除以真阴性和假阳性之和来计算特异性。
本文中术语“富集”是指扩增母体样品的一部分中包含的多态性靶核酸,并将所扩增的产物与去除该部分的该母体样品的其余部分组合的过程。例如,母体样品的其余部分可为原始母体样品。
本文中术语“原始母体样品”是指从作为从中去除一部分以扩增多态性靶核酸的来源的妊娠受试者(例如女性)中获得的未富集生物样品。“原始样品”可以是从妊娠受试者中获得的任何样品及其处理级分,例如从母体血浆样品中提取的经纯化cfDNA样品。
如本文所用,术语“引物”是指当置于诱导延伸产物合成的条件下(例如,该条件包括核苷酸、诱导剂(诸如DNA聚合酶)以及合适的温度和pH)时能够充当合成起始点的分离寡核苷酸。引物优选为在扩增中效率最高的单链,但也可以是双链。如果是双链,则在用于制备延伸产物之前首先对引物进行处理以分离其链。优选地,引物是寡脱氧核糖核苷酸。引物必须足够长以在存在诱导剂的情况下引发延伸产物的合成。引物的确切长度将取决于许多因素,包括温度、引物来源、方法的用途和用于引物设计的参数。
附加说明
应当理解,前述概念和下文更详细讨论的附加概念(假设此类概念不相互矛盾)的所有组合都被设想为是本文所公开的发明主题的一部分。具体地讲,出现在本公开末尾的要求保护的主题的所有组合都被设想为是本文所公开的发明主题的一部分。还应当理解,本文明确采用的也可出现在以引用方式并入的任何公开中的术语应被赋予与本文所公开的特定概念最一致的含义。
本说明书通篇提及的“一个示例”、“另一个示例”、“一种示例”等意指结合该示例描述的特定元素(例如,特征、结构和/或特性)包括在本文所述的至少一个示例中,并且可存在于或不存在于其他示例中。此外,应当理解,用于任何示例的所述元素可以任何合适的方式组合在各种示例中,除非上下文另有明确说明。
应当理解,本文提供的范围包括规定范围和规定范围内的任何值或子范围,如同此类值或子范围被明确列举一样。例如,约2nm至约20nm的范围应被解释为不仅包括明确列举的约2nm至约20nm的限值,而且还包括单个值,诸如约3.5nm、约8nm、约18.2nm等,以及子范围,诸如约5nm至约10nm等。此外,当利用“约”和/或“基本上”来描述值时,这意在涵盖与所述值的微小变化(高达+/-10%)。
虽然已经详细描述了若干示例,但是应当理解,可以对所公开的示例进行修改。因此,上述说明应被认为是非限制性的。
虽然已经描述了某些示例,但是这些示例仅以举例的方式呈现,并且不旨在限制本公开的范围。实际上,本文所述的新型方法和系统可以多种其他形式来体现。此外,在不脱离本公开的精神的情况下,可以对本文所述的系统和方法进行各种省略、替换和改变。所附权利要求及其等同物旨在涵盖落入本公开的范围和精神内的此类形式或修改。
在不脱离本发明的范围的情况下,本发明的所述方法和组合物的各种修改和变化对于本领域技术人员将是显而易见的。尽管已经结合特定优选实施方案描述了本发明,但是应当理解,所要求保护的本发明不应当不适当地限于此类特定实施方案。实际上,对相关领域的技术人员显而易见的用于执行本发明的所述模式的各种修改旨在落入所附权利要求的范围内。
结合特定方面或示例描述的特征、材料、特性或组应被理解为适用于在本节中或在本说明书中的其他地方描述的任何其他方面或示例,除非与此不兼容。在本说明书(包括任何所附权利要求、说明书摘要和附图)中公开的所有特征和/或如此公开的任何方法或过程的所有步骤可以以任何组合来组合,但此类特征和/或步骤中的至少一些特征和/或步骤相互排斥的组合除外。保护不限于任何前述示例的细节。保护扩展到本说明书(包括任何所附权利要求、说明书摘要和附图)中公开的特征的任何一个新型特征或任何新型组合,或者扩展到如此公开的任何方法或过程的步骤的任何一个新型步骤或任何新型组合。
此外,在本公开中在单独具体实施的上下文中描述的某些特征也可以组合形式在单个具体实施中实施。相反,在单个具体实施的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个具体实施中实施。此外,尽管特征可在上文中描述为以某些组合起作用,但在一些情况下,可从要求保护的组合中删除来自该组合的一个或多个特征,并且该组合可作为子组合或子组合的变型来要求保护。
此外,虽然可以以特定顺序在附图中描绘或在本说明书中描述操作,但不需要以所示的特定顺序或按顺序执行此类操作,或不需要执行所有操作以实现期望的结果。未描绘或描述的其他操作可并入示例性方法和过程中。例如,可在任何所述操作之前、之后、同时或之间执行一个或多个附加操作。此外,在其他具体实施中,操作可被重新排列或重新排序。本领域的技术人员将理解,在一些示例中,所示出和/或公开的过程中采取的实际步骤可不同于图中所示的步骤。根据示例的不同,可移除上文所述的某些步骤或可添加其他步骤。此外,上文所公开的特定示例的特征和属性可以以不同的方式组合以形成附加示例,所有这些附加示例都落入本公开的范围内。另外,上文所述的具体实施中各种系统部件的分离不应被理解为在所有具体实施中都需要此类分离,并且应当理解,所述的部件和系统通常可一起集成在单个产品中或封装到多个产品中。例如,本文所述的用于储能系统的任何部件可单独提供或集成在一起(例如,封装在一起或附接在一起)以形成储能系统。
出于本公开的目的,本文描述了某些方面、优点和新型特征。不一定可根据任何特定示例来实现所有此类优点。因此,例如,本领域的技术人员将认识到,本公开可以以一定方式体现或实施,使得实现本文所教导的一个优点或一组优点而不一定实现本文可教导或建议的其他优点。
除非另有明确说明,或在所使用的上下文中以其他方式理解,否则条件语言诸如“可”、“可以”或“可能”通常旨在传达某些示例包括某些特征、元素和/或步骤,而其他示例不包括某些特征、元素和/或步骤。因此,这种条件语言一般不旨在暗示特征、元素和/或步骤采用一个或多个示例所需的任何方式,或者一个或多个示例必然包括用于在有或没有用户输入或提示的情况下决定这些特征、元素和/或步骤是否被包括或将在任何特定示例中被执行的逻辑。
除非另有明确说明,否则诸如短语“X、Y和Z中的至少一者”的连接语言另外按照如一般用于传达项目、项等可为X、Y或Z中任一者的上下文来理解。因此,这种连接语言一般不旨在暗示某些示例要求存在至少一个X、至少一个Y和至少一个Z。
本文所使用的程度语言诸如术语“大约”、“约”、“一般”和“基本上”表示与所述值、量或特性接近并且仍执行期望的功能或实现期望的结果的值、量或特性。
本公开的范围不旨在受本节中或本说明书其他地方的优选示例的特定公开内容的限制,并且可以由如在本节中或在本说明书其他地方或在未来呈现的权利要求来限定。权利要求的语言将基于权利要求中所采用的语言来广义地解释,并且不限于本说明书中描述的示例,或在本申请的审查期间,所述示例将被解释为非排他的。

Claims (34)

1.一种处理样品核酸以识别靶突变的方法,所述方法包括:
执行第一测序反应以确定样品特定的特性;
基于所述样品特定的特性来确定与所述靶突变相关的第一统计量度;
通过参考所述第一统计量度来确定由所述第一测序反应得出的所述靶突变的第一读段覆盖度是高于还是低于阈值;
如果所确定的第一读段覆盖度未超过所述阈值,则确定是否有足量的样品核酸可用于执行第二测序反应以将所述第一读段覆盖度增加到高于所述阈值;以及
如果有足量的样品核酸可供使用,则计算实现第二有效读段覆盖度所需的样品量并且对所述样品核酸进行重新测序以实现超过所述阈值的第二读段覆盖度。
2.根据权利要求1所述的方法,其中所述第一统计量度是所述样品核酸的胎儿分数与所述第一测序反应的所述测序深度之间的关系。
3.根据权利要求1所述的方法,其中所述第一统计量度是所述样品核酸的肿瘤分数与所述第一测序反应的所述测序深度之间的关系。
4.根据权利要求1所述的方法,其中所述第一统计量度特定于指定检测概率的所关注条件。
5.根据权利要求1至4中任一项所述的方法,所述方法还包括:
如果没有足量的样品核酸可供使用,则报告对所述样品核酸进行重新测序将不能提供关于所述靶突变的信息。
6.根据权利要求1至4中任一项所述的方法,其中执行所述第一测序反应以确定样品特定的特性包括:
从所述第一测序反应获得序列读段;以及
将所述序列读段与参考序列进行比对并获得比对结果,其中所述参考序列包含代表性基因组或转录组的部分。
7.根据权利要求1至4中任一项所述的方法,其中对所述样品核酸进行重新测序包括:
在所述第一测序反应之后对所述样品核酸的剩余部分执行所述第二测序反应。
8.根据权利要求7所述的方法,其中确定是否有所述足量的所述样品核酸可用于执行所述第二测序反应包括:
通过下式估计所述第二读段覆盖度RC2:RC2/V2=RC1/V1,其中RC1是所确定的第一读段覆盖度,V1是所述第一测序反应中使用的所述样品核酸的体积,并且V2是所述样品核酸的剩余部分的体积;以及
如果所述估计的RC2超过所述阈值,则确定有所述足量的所述样品核酸可用于执行所述第二测序反应。
9.根据权利要求1至4中任一项所述的方法,其中所述第一测序反应和所述第二测序反应利用下一代测序过程。
10.根据权利要求9所述的方法,其中通过文库制备过程从原始样品制备所述样品核酸,所述文库制备过程与下一代测序过程兼容。
11.根据权利要求10所述的方法,其中所述原始样品包含血浆。
12.根据权利要求10所述的方法,其中所述原始样品包含血清。
13.根据权利要求1至4中任一项所述的方法,其中确定由所述第一测序反应得出的所述靶突变的所述第一读段覆盖度是高于还是低于所述阈值包括:
基于所述第一测序反应的结果来确定所述第一统计量度;
如果所确定的第一统计量度未超过截止值,则基于所述第一测序反应的结果来确定所述第一读段覆盖度;以及
将所确定的第一读段覆盖度与所述阈值进行比较。
14.根据权利要求13所述的方法,所述方法还包括:
如果所确定的第一统计量度未超过低于所述截止值的第二截止值,则报告所述靶突变的阴性结果。
15.根据权利要求13所述的方法,所述方法还包括:
如果所确定的第一统计量度未超过所述截止值并且如果所确定的第一读段覆盖度超过所述阈值,则报告所述靶突变的阴性结果。
16.根据权利要求14或15中任一项所述的方法,所述方法还包括:
如果所确定的第一统计量度超过所述截止值,则报告所述靶突变的阳性结果。
17.根据权利要求13所述的方法,所述方法还包括在对所述样品核酸进行重新测序之后:
获得另外的序列读段;
将所述另外的序列读段与参考序列进行比对并获得另外的比对结果,其中所述参考序列包含代表性基因组或转录组的部分;
基于所述另外的比对结果来确定具有所述靶突变的第二统计量度;以及
如果所确定的第二统计量度未超过所述截止值,则报告所述靶突变的阴性结果;
否则,报告所述靶突变的阳性结果。
18.根据权利要求17所述的方法,其中所述第二统计量度基于来自所述第一测序反应和所述第二测序反应的所述序列读段的组合。
19.根据权利要求17所述的方法,其中所述第二统计量度是所述第一统计量度与基于所述第二测序反应的附加统计量度的组合。
20.根据权利要求17所述的方法,其中所述第二统计量度是基于以下的参数:所述第一统计量度与基于所述第二测序反应的附加统计量度的组合。
21.根据权利要求13所述的方法,其中所述样品核酸包含:
来自宿主的宿主核酸;以及
来自客体的客体核酸,
其中所述宿主和所述客体来自相同物种。
22.根据权利要求21所述的方法,其中所述第一统计量度是对数似然比,并且其中确定所述对数似然比包括:
基于所述第一测序反应的结果来确定真阳性率,所述真阳性率是在所述客体核酸中检测到所述靶突变的频率;
基于所述第一测序反应的结果来确定假阳性率,所述假阳性率是在所述宿主核酸中检测到所述靶突变的频率;
将所述真阳性率除以所述假阳性率以获得所述似然比;以及
对所述似然比进行对数变换以获得所述对数似然比。
23.根据权利要求22所述的方法,其中确定所述真阳性率和确定所述假阳性率包括:
通过将检测到具有所述靶突变的核酸的长度与核酸长度的统计模型进行比较来推断所述核酸是所述宿主核酸还是所述客体核酸,所述统计模型凭经验利用以与如何得到所述样品核酸类似的方式得到的生物样品来确定。
24.根据权利要求21至23中任一项所述的方法,其中所述宿主核酸和所述客体核酸来源于在所述宿主中循环的游离核酸。
25.根据权利要求21至23中任一项所述的方法,其中所述宿主为母亲并且所述客体为胎儿,并且其中所述胎儿中的所述靶突变对应于所述胎儿的表型或胎儿死亡的原因。
26.根据权利要求25所述的方法,其中所述靶突变对应于所述胎儿的非整倍体综合征、微缺失综合征或微重复综合征。
27.根据权利要求21所述的方法,其中所述宿主为患者并且所述客体为肿瘤,并且其中所述肿瘤中的所述靶突变对应于癌症类型、分期或对治疗的敏感性。
28.根据权利要求21所述的方法,其中通过以下方式设定所述截止值:
假设所述样品中的所述客体核酸和所述宿主核酸均不包含所述靶突变,通过计算生成与具有不同丰度水平的客体核酸的样品相对应的多个序列表示;
假设在不同读段覆盖度下执行测序,由所述多个序列表示模拟比对结果;
基于所述模拟的比对结果来确定所述客体在每个所述丰度水平和每个所述读段覆盖度下具有所述靶突变的所述第一统计量度;以及
将所述截止值设定为不超过预设百分比的此类序列表示可实现的所述第一统计量度的值。
29.根据权利要求28所述的方法,其中所述预设百分比为0.1%、0.5%、1%、5%或10%。
30.根据权利要求21所述的方法,其中当所述样品核酸中的所述客体核酸已知或假定包含所述靶突变并且所述样品核酸中的所述宿主核酸已知或假定不包含所述靶突变时,所述阈值被设定为允许所确定的第一统计量度超过所述截止值的最小读段覆盖度。
31.根据权利要求30所述的方法,其中所述阈值是如下的函数:所述靶突变的复杂度和所述样品核酸中的所述客体核酸的丰度。
32.根据权利要求31所述的方法,其中通过以下方式估计所述样品核酸中的所述客体核酸的所述丰度:
基于所述第一测序反应的结果来获得所述样品核酸中的所述核酸的长度分布;以及
通过将所获得的长度分布与核酸长度的统计模型进行比较来推断所述丰度,所述统计模型凭经验利用以与如何得到所述样品核酸类似的方式得到的生物样品来确定。
33.根据权利要求31所述的方法,其中通过以下方式获得所述函数:
假设所述样品中的所述客体核酸包含所述靶突变而所述样品中的所述宿主核酸不包含所述靶突变,通过计算生成与具有不同丰度水平的客体核酸的样品相对应的多个序列表示;
假设在不同读段覆盖度下执行测序,由所述多个序列表示模拟比对结果;
基于所述模拟的比对结果来确定所述客体在每个所述丰度水平和每个所述读段覆盖度下具有所述靶突变的所述第一统计量度;以及
针对所述靶突变将每个所述丰度水平下的所述阈值设定为允许所确定的第一统计量度超过所述截止值的所述最小读段覆盖度。
34.一种处理样品核酸以识别靶突变的系统,所述系统包括:
测序仪,所述测序仪被配置为对所述样品核酸进行测序;
处理器,所述处理器被配置为控制所述测序仪以执行根据权利要求1至33中任一项所述的方法;以及
存储器,所述存储器与所述处理器可操作地连接。
CN202180044375.6A 2020-12-02 2021-11-30 用于检测遗传改变的系统和方法 Pending CN116157869A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063120636P 2020-12-02 2020-12-02
US63/120,636 2020-12-02
PCT/US2021/061139 WO2022119812A1 (en) 2020-12-02 2021-11-30 System and method for detection of genetic alterations

Publications (1)

Publication Number Publication Date
CN116157869A true CN116157869A (zh) 2023-05-23

Family

ID=79165076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180044375.6A Pending CN116157869A (zh) 2020-12-02 2021-11-30 用于检测遗传改变的系统和方法

Country Status (7)

Country Link
US (1) US20220170010A1 (zh)
EP (1) EP4256565A1 (zh)
JP (1) JP2023552015A (zh)
CN (1) CN116157869A (zh)
AU (1) AU2021391422A1 (zh)
CA (1) CA3179883A1 (zh)
WO (1) WO2022119812A1 (zh)

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
JP2006509040A (ja) 2002-08-23 2006-03-16 ソレックサ リミテッド 修飾されたヌクレオチド
US8034567B2 (en) 2002-09-06 2011-10-11 Trustees Of Boston University Quantification of gene expression
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3673986A1 (en) 2004-01-07 2020-07-01 Illumina Cambridge Limited Improvements in or relating to molecular arrays
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
WO2007145612A1 (en) 2005-06-06 2007-12-21 454 Life Sciences Corporation Paired end sequencing
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
CA2668818C (en) 2006-10-10 2018-06-26 Xenomics, Inc. Compositions, methods and kits for isolating nucleic acids from body fluids using anion exchange media
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP2092322B1 (en) 2006-12-14 2016-02-17 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale fet arrays
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US20110245085A1 (en) 2010-01-19 2011-10-06 Rava Richard P Methods for determining copy number variations
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2902401T3 (es) 2012-05-21 2022-03-28 Sequenom Inc Métodos y procesos para la evaluación no invasiva de variaciones genéticas
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10643738B2 (en) 2013-01-10 2020-05-05 The Chinese University Of Hong Kong Noninvasive prenatal molecular karyotyping from maternal plasma
CN105555968B (zh) 2013-05-24 2020-10-23 塞昆纳姆股份有限公司 遗传变异的非侵入性评估方法和过程
IL283586B2 (en) 2013-06-21 2023-11-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations
US20160034640A1 (en) 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10095831B2 (en) * 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
AU2020286376A1 (en) * 2019-06-03 2021-04-22 Illumina, Inc. Limit of detection based quality control metric

Also Published As

Publication number Publication date
WO2022119812A1 (en) 2022-06-09
AU2021391422A1 (en) 2022-11-03
JP2023552015A (ja) 2023-12-14
EP4256565A1 (en) 2023-10-11
CA3179883A1 (en) 2022-06-09
US20220170010A1 (en) 2022-06-02

Similar Documents

Publication Publication Date Title
EP3464626B1 (en) Methods for detecting genetic variations
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
EP3598452B1 (en) Chromosome representation determinations
CN107077537B (zh) 用短读测序数据检测重复扩增
CN106795558B (zh) 检测胎儿亚染色体非整倍性和拷贝数变异
US8688388B2 (en) Methods and processes for non-invasive assessment of genetic variations
AU2014332241B2 (en) Methods and processes for non-invasive assessment of chromosome alterations
CA2851537C (en) Methods and processes for non-invasive assessment of genetic variations
JP2018186825A (ja) 遺伝子の変動の非侵襲性評価のための方法および処理
CA3002449A1 (en) Methods and processes for non-invasive assessment of genetic variations
JP7506060B2 (ja) 検出限界ベースの品質管理メトリック
US20220170010A1 (en) System and method for detection of genetic alterations
CN112823391B (zh) 基于检测限的质量控制度量

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40094109

Country of ref document: HK