CN111863131A - 用于非侵入性评估染色体改变的方法和过程 - Google Patents

用于非侵入性评估染色体改变的方法和过程 Download PDF

Info

Publication number
CN111863131A
CN111863131A CN202010419604.5A CN202010419604A CN111863131A CN 111863131 A CN111863131 A CN 111863131A CN 202010419604 A CN202010419604 A CN 202010419604A CN 111863131 A CN111863131 A CN 111863131A
Authority
CN
China
Prior art keywords
reads
nucleic acid
sequence
read
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010419604.5A
Other languages
English (en)
Inventor
S·金
T·J·詹森
M·埃里希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sequinham Co ltd
Sequenom Inc
Original Assignee
Sequinham Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequinham Co ltd filed Critical Sequinham Co ltd
Publication of CN111863131A publication Critical patent/CN111863131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Abstract

本文提供用于非侵入性评估染色体改变的方法、过程、系统、机器和设备。

Description

用于非侵入性评估染色体改变的方法和过程
相关专利申请
本专利申请要求2013年10月7日提交的名为“用于非侵入性评估染色体改变的方法和过程(METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF CHROMOSOMEALTERATIONS)”,发明人为Sung K.Kim, Taylor Jacob Jensen,和Mathias Ehrich,案卷号为SEQ-6074-PV的美国临时专利申请61/887,801的权益。前述专利申请的全部内容通过引用纳入本文,包括所有文本、表格和附图。
领域
本文提供的技术部分涉及用于非侵入性评估染色体改变的方法、过程、机器和设备。
背景
活体生物(如动物、植物和微生物)的遗传信息和复制遗传信息的其他形式(如病毒)被编码成脱氧核糖核酸(DNA)或核糖核酸(RNA)。遗传信息是代表化学或假定核酸的一级结构的一连串核苷酸或修饰的核苷酸。人的完整基因组包含位于二十四 (24)条染色体上的约30,000个基因(见《人类基因组》(The人类基因组),T.Strachan, BIOS科学出版社、1992)。各基因编码特定蛋白质,所述蛋白质在通过转录和翻译表达之后,在活细胞中实现特定的生物化学功能。
对一种或多种染色体改变的鉴定可有助于诊断特定医学病症,或确定特定医学病症的诱因。鉴定染色体改变能帮助医疗决策和/或使用有益的医疗方案。在某些实施方式中,对一种或多种染色体改变的鉴定涉及分析无细胞DNA。无细胞DNA(CF-DNA)由来自细胞死亡和外周血循环的DNA片段组成。高浓度的CF-DNA 能指示某些临床病症,例如癌症、创伤、烧伤、心肌梗塞、中风、败血症、感染和其它疾病。此外,无细胞胎儿DNA(CFF-DNA)能在母体血流中检测,并且用于多种非侵入性产前诊断。
胎儿核酸存在于母体血浆中使得通过分析母体血样来进行非侵入性产前诊断。例如,母体血浆中的胎儿DNA的定量异常可与多种妊娠相关疾病和染色体改变相关的遗传疾病关联。因此,分析母体血浆中的胎儿核酸可以是监控母婴健康的有用机制。
概述
本发明一些方面提供一种包括存储器和一个或多个微处理器的系统,其中存储器包括指令,且一个或多个微处理器设置为按照所述指令进行用于确定样品核酸中是否存在一个或多个染色体改变的过程,该过程包括
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
本发明一些方面还提供一种包括存储器和一个或多个微处理器的方法,其中存储器包括指令,且一个或多个微处理器设置为按照所述指令进行用于确定样品核酸中是否存在一个或多个染色体改变的过程,该过程包括
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
本发明一些方面还提供非-瞬时计算机-可读储存介质,其上存有可执行程序,该程序设置为指令微处理器执行以下操作
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
下述说明、实施例、权利要求和附图中进一步描述某些技术方面和实施方式。
附图说明
附图描述本技术的实施方式但不具限制性。为了说明的清楚和方便,附图未按比例制作,并且在一些情况中,可能夸大或放大多个方面以协助对具体实施方式的理解。
图1A-C显示母体血浆中的胎儿平衡易位(fetal balanced translocation)的鉴定。图1A显示Circos图(Krzywinski M.等,(2009)Genome Res.19:1639-45),详述了染色体8和11之间鉴定到的胎儿平衡易位。对角线代表测序片段的开始和末尾。高亮染色体以强调条带形状和着丝粒。图1B显示Circos图,关注各受影响的染色体中鉴定到的易位的面积。这些区域中的每个内的重复区域用黑色高亮。各线代表测序片段的开始和末尾。图1C显示横跨各交互易位事件的易位断裂点的个体测序读数的碱基水平描述。染色体8的序列用“CHR8”表示,位于标示的右侧。染色体11的序列用“CHR11”表示,位于标示的右侧。垂直虚线表示染色体断裂点位置。标示“CHR8/CHR11”显示断裂点位置左侧的染色体8序列和断裂点位置右侧的染色体11序列。标示“CHR11/CHR8”显示断裂点位置左侧的染色体11序列和断裂点位置右侧的染色体8序列。水平虚线表示删除的核苷酸。
图2A-D显示各位置处含结构重排断裂点(垂直黑线)的模拟读数的序列读数亚序列的平均MAPQ分值。以单碱基递增产生序列读数亚序列。图2A-2D显示伴侣对1(R1),和伴侣对2(R2)的各序列读数亚序列(假读数)的总体映射置信度,其中就给定的约140bp靶片段长度的断裂点位于位置10(图2A)、40(图2B)、70(图 2C)或120(图2D)。对于R1来说,长度32-100bp的假读数长度的平均MAPQ分值绘制为从片段的左侧最开始位置的灰色方块。对于R2来说,长度32-100bp的假读数长度的平均MAPQ分值绘制为从片段的右侧末尾的反向黑色方块。图2C证实具有高映射性的假读数的平均MAPQ的变化由于不同基因组区域的序列的增加而变得没有映射性。
图3显示含高度独特序列的两个区域的模拟易位。对各模拟易位事件来说,在所有模拟断裂点位置(x轴)绘制映射质量分数的平均斜率(y轴)。
图4显示含高度独特序列的左区域和含重复元件的右区域的模拟易位。对各模拟易位事件来说,在所有模拟断裂点位置(x轴)绘制映射质量分数的平均斜率 (y轴)。
图5A-B显示就Mixture B(图5A)和“汇集的”对照组(图5B)的染色体2和5 之间观察到的(可能为假阳性)易位。灰色柱表示重复元件的区域。左侧和右侧坐标分别对应染色体2和5(hg19)。
图6显示系统的示例性实施方式,其中可实施技术的某些实施方式。
图7显示过滤器的示例性实施方式。
图8显示系统的示例性实施方式,其中可实施技术的某些实施方式。
发明详述
本文提供用于分析核酸混合物中的多核苷酸的系统和方法,包括,例如,用于确定是否存在染色体改变(易位、缺失、倒置、插入)的方法。染色体改变在群体中广泛存在,造成群体内的表型变化。某些染色体改变可在各种疾病(例如癌症)、紊乱(例如结构残损、生育紊乱)和障碍(例如精神障碍)的发作和进展中起作用。本发明提供的系统、方法和产品可用于定位和/或鉴定染色体改变并且可用于诊断和治疗与某些染色体改变相关的疾病、病症和障碍。
下一代测序允许通过比常规测序方法更快更廉价的方法在全基因组规模上对核酸进行测序。本文提供的方法、系统和产品可利用先进的测序技术来定位并鉴定染色体改变和/或相关的疾病和病症。本发明提供的方法、系统和产品通常可提供使用血液样或其部分的对象基因组(例如,胎儿基因组)的非侵入性评估,并且通常比侵入性更强的技术(例如,羊膜穿刺术,活检)更安全、更快和/或更廉价。在一些实施方式中,本发明提供了部分包括获得样品中存在的核酸的序列读数 (本文还称为“测序读数”),该序列读数通常映射到参照序列,鉴定所选序列读数子集的某些映射特征并且确定是否存在染色体改变的方法。在一些实施方式中,本文还提供进行本文所述的方法的系统、机器、设备、产品和模块。
染色体改变
本文提供鉴定是否存在一种或多种染色体改变的方法和系统。本文所用“染色体改变”指一个或多个人类染色体中遗传材料的任何插入、删除(例如缺失)、易位、倒置和/或融合。本文术语“遗传材料”指一种或多种多核苷酸。染色体改变可包括或为任何长度多核苷酸的插入、删除和/或易位,其非限制性示例包括至少10bp、至少20bp、至少50bp、至少100bp、至少500bp、至少1000bp、至少2500bp、至少5000bp、至少10,000bp、至少50,000bp、至少100,000bp、至少500,000bp、至少1兆碱基对(Mbp)、至少5Mbp、至少10Mbp、至少20 Mbp、至少50Mbp、至少100Mbp、和至少150Mbp的多核苷酸。在一些实施方式中,染色体改变包括下述长度的多核苷酸的插入、删除或易位:约10bp-约200 Mbp、约20bp-约200Mbp、约50bp-约200Mbp、约100bp-约200Mbp、约500 bp-约200Mbp、约1000bp-约200Mbp、约2500bp-约200Mbp、约5000bp-约 200Mbp、约10,000bp-约200Mbp、约50,000bp-约200Mbp、约100,000bp-约 200Mbp、约500,000bp-约200Mbp、约1Mbp-约200Mbp、约5Mbp-约200Mbp、约10Mbp-约200Mbp、约20Mbp-约200Mbp、约50Mbp-约200Mbp、约100Mbp -约200Mbp、或约150Mbp-约200Mbp。在一些实施方式中,染色体改变包括下述的多核苷酸的插入、删除和/或易位:染色体的约1%或更多、染色体的约2%或更多、染色体的约3%或更多、染色体的约4%或更多、染色体的约5%或更多、染色体的约10%或更多、染色体的约15%或更多、染色体的约20%或更多、染色体的约25%或更多、或染色体的约30%或更多。可通过本文所述方法和/或系统检测的染色体改变的非限制性示例如本文详述,并示于表1(见后)。
染色体改变有时包括同源遗传材料的插入、删除和/或易位。同源遗传材料通常包括与人参照基因组或其部分同源的任何合适多核苷酸。在一些实施方式中,染色体改变包括异源遗传材料的插入、删除和/或易位。本文所述“异源遗传材料”指源自任何非人物种的遗传材料。异源遗传材料有时包括与任何非人物种的基因组或其部分高度同源的多核苷酸。异源遗传材料的示例包括病毒基因组或其部分。可用作异源遗传材料的病毒的属、科、组和种包括泡疹病毒科、腺病毒科、乳多泡病毒科、指环病毒科、圆环病毒科、细小病毒科、呼肠病毒科、甲型逆转录病毒属、乙型逆录病毒属、丙型逆录病毒属、丁型逆转录病毒属、戊型逆转录病毒属、慢病毒属、PUMA病毒属、细小病毒属、玻纳病毒属、圆环病毒属和多瘤病毒属。
在一些实施方式中,遗传改变包括或为易位。本文术语“易位”指染色体区段的位置发生改变的染色体突变。易位可为单向易位或交互易位。单向易位包括遗传材料从基因组的一个区段(该遗传材料删除或复制)转移到基因组的另一区段(该遗传材料插入)。交互易位包括基因组一个区段与基因组另一区段的遗传材料的交换。易位可发生在染色体内(例如染色体内易位)或染色体之间(例如染色体间易位)。易位可为平衡易位,其中遗传材料的交换不涉及遗传材料的缺失或获得。例如,平衡易位通常为区段x和区段y的交换,其中区段x和y的长度和完整性(例如序列)在交换中得以保持,且除区段x和/或y之外没有遗传材料的加入或除去。在一些实施方式中,平衡易位是单向易位,其中基因组区段插入且除插入的区段之外没有其他遗传材料在插入位点加入或除去。在一些实施方式中,平衡易位中交换的一个或两个多核苷酸包括一种或多种遗传变异(例如SNP、微插入、微删除),通过与参照基因组的比较确定。该遗传变异通常位于易位的多核苷酸内(例如不位于或接近断裂点),且该遗传变异通常不是易位事件的结果。在一些实施方式中,易位是不平衡易位,其中区段x和区段y的交换包括x和/或y的遗传材料的缺失。在一些实施方式中,不平衡易位包括区段x和区段y的交换,其中遗传材料加入x 和/或y(例如复制、插入)。不平衡易位通常包括遗传材料在易位多核苷酸末尾(例如各区段的断裂点处或附近)的获得或缺失。是否存在易位以及易位断裂点的位置可通过本文方法或系统确定。确定是否存在易位通常包括确定是否存在插入、缺失和/或交换的遗传材料(例如多核苷酸)。在一些实施方式中,通过本文所述的方法和/或系统确定是否存在易位。
在一些实施方式中,易位包括或为倒置。倒置在本文中有时指“染色体倒置”。在一些实施方式中,倒置是染色体区段移出并以相反方向(例如相对于5'→3'DNA 链)重新加入相同的染色体。在一些实施方式中,区段在其移出的约相同位置重新加入染色体。在一些实施方式中,区段在其移出的不同位置重新加入染色体。在一些实施方式中,倒置发生时不产生遗传材料的缺失或添加,尽管有时当倒置断裂点在控制基因表达的基因或区域内发生时可能有表型后果。在倒置的一些实施方式中,遗传材料缺失或加入,并且可用本文所述方法检测。
在一些实施方式中,染色体改变包括或为插入。插入有时指“染色体插入”。插入有时为一个或多个核苷酸碱基对或多核苷酸插入基因组或其区段(例如染色体)。在一些实施方式中,插入指通常由于有丝分裂期间的不等量交换所致的大序列插入染色体中。插入有时指易位或其部分。例如,在单向易位中,多核苷酸在一处删除(删除)并插入另一处(例如插入)。在一些实施方式中,插入独立于易位 (例如包含病毒DNA插入的插入)。在某些实施方式中插入不是易位。插入通常伴随易位。例如有时插入包括不平衡易位期间加入的其他遗传材料。伴随不平衡易位的插入通常添加在染色体断裂点和易位多核苷酸的一个或两个末尾之间。伴随不平衡易位的插入本文指“微插入”。微插入或其部分可包括同源遗传材料和/或异源遗传材料。在一些实施方式中,微插入或其部分包括未知来源和/或未知同源性的核酸或多核苷酸。确定是否存在插入通常包括确定是否存在微插入和/或易位(例如存在易位多核苷酸)。
在一些实施方式中,微插入为约1bp-约10,000bp、约1bp-约5000bp、约 1bp-约1000bp、约1bp-约500bp、约1bp-约250bp、约1bp-约100bp、约1bp -约50bp、或约1bp-约30bp。在一些实施方式中,多核苷酸插入长度为1、2、3、 4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、 24、25、26、27、28、29或30bp。
在一些实施方式中,遗传改变包括或为删除。删除在本文中有时指染色体删除。本文所用删除指根据参照基因组而预期位于具体位置(位点)或基因组的具体序列的遗传材料(例如一个或多个核苷酸、多核苷酸序列)的缺失和/或丢失。在一些实施方式中,删除指核酸(例如多核苷酸)的连续链的缺失。在一些实施方式中,删除导致遗传材料从基因组中缺失。删除有时指单向易位或其部分。例如,在单向易位中,多核苷酸在一处删除(删除)并插入另一处。在某些实施方式中删除不是易位。有时删除独立于易位。删除有时伴随易位。例如有时删除包括不平衡易位期间丢失的遗传材料。由于伴随不平衡易位的删除而确定缺失和/或丢失的遗传材料本文指微删除。伴随不平衡易位的微删除可从易位多核苷酸的一个或两个末端缺失。在一些实施方式中,伴随不平衡易位的微删除从插入位点的一个或两个末端缺失。微删除可包括断裂点的一个或两个末端处的遗传材料缺失。在一些实施方式中,确定存在微删除通常包括确定遗传材料的丢失和/或存在易位(例如存在易位的多核苷酸)。
在一些实施方式中,微删除的长度为约1bp-约10,000bp、约1bp-约5000bp、约1bp-约1000bp、约1bp-约500bp、约1bp-约250bp、约1bp-约100bp、约 1bp-约50bp、或约1bp-约30bp。在一些实施方式中,微删除包括缺失1、2、3、 4、5、6、7、8、9、10、11、12、13、14、15、16、17,18、19、20、21、22、23、 24、25、26、27、28、29或30bp。
样品
本文提供分析核酸的系统、方法和产品。在一些实施方式中,分析核酸片段混合物中的核酸片段。核酸混合物可包括两种或更多核酸片段种类,所述两种或更多核酸片段种类具有不同核苷酸序列、不同片段长度、不同来源(例如基因组来源、胎儿与母体来源、细胞或组织来源、癌症与非癌症来源、肿瘤与非肿瘤来源、样品来源、对象来源等)或其组合。
本文所述系统、方法和产品中使用的核酸或核酸混合物经常从获自对象的样品中分离。对象可以是任何活体或非活体生物,包括但不限于人、非人动物、植物、细菌、真菌或原生生物。能选择任何人或非人动物,包括但不限于哺乳动物、爬行动物、鸟类、两栖类、鱼类、有蹄类动物、反刍动物、牛科动物(如牛)、马科动物 (如马)、山羊和绵羊类动物(如绵羊、山羊)、猪科动物(如猪)、羊驼类动物(如骆驼、美洲驼、羊驼)、猴子、猿(如大猩猩、黑猩猩)、熊科动物(如熊)、家禽、犬、猫、小鼠、大鼠、鱼、海豚、鲸鱼和鲨鱼。对象可为雄性或雌性(例如妇女、妊娠妇女)。对象可为任何年龄(如胚胎、胎儿、婴儿、儿童、成人)。
核酸可以从任何类型的合适生物试样或样品中分离(例如测试样品)。样品或测试样品可为分离或获自对象或其部份(如人对象、妊娠雌性、胎儿)的任何试样。试样的非限制性示例包括对象的液体或组织,包括但不限于血液或血液制品(例如,血清、血浆等)、脐带血、绒毛、羊水、脑脊液、脊髓液、洗液(如支气管肺泡、胃、腹膜、导管、耳、关节镜)、活检样品(例如来自移植前胚胎、癌症活检)、膜间液样品、细胞(血液细胞,胎盘细胞、胚胎或胎儿细胞、胎儿有核细胞或胎儿细胞残余)或其部分(例如,线粒体、核、提取物等)、女性生殖道清洗物、尿、粪便、痰、唾液、鼻黏膜、前列腺液、灌洗液、精液、淋巴液、胆汁、眼泪、汗液、母乳、乳腺体液等或其组合。在一些实施方式中,生物样品是来自对象的宫颈擦拭物。在一些实施方式中,生物样品可以是血液,而有时是血浆或血清。本文所用的术语"血液"指来自妊娠妇女或就可能妊娠而作测试妇女的血液样品或制品。术语涵盖全血、血液制品或血液的任何部分,例如常规定义的血清和血浆、棕黄层等。血液或其部分常包括核小体(例如母体和/或胎儿核小体)。核小体包括核酸且有时无细胞或为细胞内的。血液还包括棕黄层。棕黄层有时通过菲克(ficoll)梯度来分离。棕黄层可包括白血细胞(例如白细胞、T细胞、B细胞、血小板等)。在一些实施方式中,棕黄层包括母体和/或胎儿核酸。血液血浆指经抗凝剂处理的血液离心所得的全血的部分。血液血清指血液样品凝结后保留的液体水层部分。通常按照医院或临床常规遵循的标准方法来采集液体或组织样品。就血液而言,通常采集适当量的外周血 (例如3-40毫升),并且在制备前或后可按标准流程保存。提取核酸所用的液体或组织样品可以是非细胞的(如无细胞)。在一些实施方式中,液体或组织样品可含有细胞要素或细胞残余物。在一些实施方式中,所述样品中可包含胎儿细胞或癌细胞。
样品可为液体样品。液体样品可包括胞外核酸(例如循环无细胞DNA)。液体样品的非限制性示例包括血液或血液制品(例如,血清、血浆等)、脐带血、绒毛、羊水、脑脊液、脊髓液、洗液(如支气管肺泡、胃、腹膜、导管、耳、关节镜)、活检样品(例如检测癌症的液体活检)、膜间液样品、女性生殖道清洗物、尿、粪便、痰、唾液、鼻黏膜、前列腺液、灌洗液、精液、淋巴液、胆汁、眼泪、汗液、母乳、乳腺体液等或其组合。在一些实施方式中,样品是液体活检,其通常指评估来自对象的液体样品中是否存在疾病、或疾病的进展或缓解(例如,癌症)。液体活检可与固体活检(例如肿瘤活检)联用或作为其的替代。在某些示例中,胞外核酸在液体活检中分析。
样品通常是异质性的,即所述样品中存在超过一种类型的核酸物质。例如,异质性核酸能包括但不限于(i)癌症和非癌症核酸、(ii)病原体和宿主核酸、(iii) 胎儿源性和母体源性的核酸、和/或更常见的(iv)突变的和野生型核酸。样品可以是异质性的原因是,存在超过一种细胞类型,例如胎儿细胞和母体细胞,癌细胞和非癌细胞,或者病原体和宿主细胞。在一些实施方式中,存在少数核酸物质和多数核酸物质。
就本文所述技术的产前应用而言,液体或组织样品可采自孕龄适于测试的雌性或经测试可能有孕的雌性。适当孕龄可能视所进行的产前测试而不同。在某些实施方式中,妊娠雌性对象有时在孕期前三个月,有时在孕中期三个月或有时在孕期末三个月。在某些实施方式中,液体或组织采自胎儿妊娠约1-约45周(如胎儿妊娠1-4、4-8、8-12、12-16、16-20、20-24、24-28、28-32、32-36、36-40或40-44 周)和有时胎儿妊娠约5-约28周(如胎儿妊娠6、7、8、9、10、11、12、13、14、 15、16、17、18、19、20、21、22、23、24、25、26或27周)的妊娠妇女。在某些实施方式中,在分娩(例如阴道或非阴道分娩(如手术分娩))期间或刚分娩后 (如0-72小时后)从妊娠雌性收集流体或组织样品。
获取血液样品和DNA提取
在一些实施方式中,本发明的方法包括分离、富集和/或分析对象血液中所见DNA,作为无创性手段来检测对象基因组中是否存在染色体改变和/或监控对象健康。
获取血液样品
血液样品可用本发明技术方法获自任何年龄的对象(例如雄性或雌性对象)。血液样品可获自适合采用本发明所述方法的测试的孕龄妊娠妇女。合适的妊娠年龄可根据所测疾病而不同,如下所述。收集对象(例如妊娠妇女)血液通常根据医院或诊所一般遵循的标准方案来进行。采集适当量的外周血,例如,通常为5-50毫升,并在进一步制备前按照标准规程保存。可以能使样品中所存在核酸量的降解最小或确保其品质的方式采集、保存或运输所述血液样品。
制备血液样品
采用例如全血、血清或血浆对对象血液中发现的DNA进行分析。采用例如全血、血清或血浆对母体血液中发现的胎儿DNA进行分析。从获自对象(例如母体对象)的血液中制备血清或血浆的方法已知。例如,可将对象(例如妊娠妇女)的血液置入含有避免血液凝结的EDTA或专用市售产品如Vacutainer SST(新泽西州富兰克林湖市的BD公司(BectonDickinson))的管内,然后可通过离心从全血获取血浆。血清可通过或可不通过血液凝固后的离心来获取。若使用离心,则通常(并不限于)在合适速度(例如1,500-3,000倍g)下进行。血浆或血清可在转移至用于DNA提取的新管之前经过其它离心步骤。
除了全血的非细胞部分,DNA还可从细胞组分回收,在棕黄层部分中富集,这可通过从妇女的全血样品离心并去除血浆来获取。
提取DNA
有多种已知方法用于从包括血液在内的生物样品中提取DNA。可按照DNA 制备的常规方法(例如,描述于Sambrook和Russell,Molecular Cloning:A Laboratory Manual(《分子克隆:实验室手册》),第3版,2001);多种市售可得试剂或试剂盒,例如凯杰公司(Qiagen)的QIAamp循环核酸试剂盒,QiaAmp DNA迷你试剂盒或QiaAmp DNA血液迷你试剂盒(德国海尔登的凯杰公司),基因组PrepTM血液 DNA分离试剂盒(威斯康星州麦迪逊的普洛麦格公司(Promega,Madison,Wis.))和 GFXTM基因组血液DNA纯化试剂盒(新泽西州皮斯卡特维的安玛西亚公司 (Amersham))也可用于从对象的血液样品获取DNA。还可使用这些方法中多于一种的组合。
在一些实施方式中,获自妊娠雌性对象的样品可通过一种或多种方法先富集或相对胎儿核酸富集。例如,胎儿和母体DNA的区分可以采用单独的本发明所述组合物和方法进行或与其它区分因子联用。这些因子的示例包括但不限于染色体X 和Y中的单核苷酸差异、染色体Y特异序列、基因组中别处的多态性、胎儿和母体DNA之间的大小差异和母体和胎儿组织之间甲基化形式的差异。
用于就特定核酸物质富集样品的其它方法描述于2007年5月30日提交的PCT 专利申请号PCT/US07/69991,2007年6月15日提交的PCT专利申请号 PCT/US2007/071232,美国临时申请号60/968,876与60/968,878(指定给本申请人)、 (PCT专利申请号PCT/EP05/012707,2005年11月28日提交),这些都通过引用纳入本文。在某些实施方式中,从样品中选择性除去(部分、基本、几乎完全或完全) 母体核酸。
术语“核酸”和“核酸分子”在本文中可互换使用。该术语指任意组合物形式的核酸,来自如:DNA(例如,互补DNA(cDNA),基因组DNA(gDNA)等),RNA(例如,信使RNA(mRNA),短抑制RNA(siRNA),核糖体RNA(rRNA),tRNA,微小RNA,胎儿或胎盘高度表达的RNA等),和/或DNA或RNA类似物(例如,含有碱基类似物,糖类似物和/或非天然主链等),RNA/DNA杂交体和聚酰胺核酸(PNA),所有这些可以是单链或双链形式,且除非另有限定,可涵盖能以与天然存在核苷酸相似方式起作用的天然核苷酸的已知类似物。在某些实施方式中,核酸可以是或者可来自:质粒、噬菌体、病毒、自主复制序列(ARS)、着丝粒、人工染色体、染色体、或者能够在体外或在宿主细胞、细胞、细胞的细胞核或细胞质中复制或被复制的其它核酸。在一些实施方式中,模板核酸可来自单个染色体(例如核酸样品可来自二倍体生物所得样品的一个染色体)。除非明确限定,该术语涵盖含有结合特性与参比核酸类似且与以与天然存在核苷酸相似方式代谢的天然核苷酸的已知类似物。除非另有说明,特定核酸序列也包括其保守修饰变体(如,简并密码子取代),等位基因,直向同源物,单核苷酸多态性(SNP)和互补序列,以及明确指出的序列。具体说,可通过产生一个或多个选定(或所有)密码子的第三个位置被混合碱基和/或脱氧肌苷残基取代的序列来获得简并密码子取代。术语核酸与基因座、基因、cDNA、和基因编码的mRNA互换使用。所述术语也可包括从核苷酸类似物、单链("正义"或"反义","正"链或"负"链,"正向"阅读框或"反向"阅读框)和双链多核苷酸合成的 RNA或DNA的等价物、衍生物、变体和类似物。术语“基因”指参与产生多肽链的 DNA区段;其包括参与基因产物的转录/翻译和所述转录/翻译调节的编码区之前和之后的区域(前导区和尾部区),以及单个编码区段(外显子)之间的插入序列(内含子)。
脱氧核糖核苷酸包含脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。就RNA而言,碱基胞嘧啶替换为尿嘧啶。模板核酸可采用获自对象的核酸作为模板制备。
核酸分离和加工
可用本领域已知方法从一种或多种样品来源(如细胞、血清、血浆、棕黄层、淋巴液、皮肤、土壤等)中获取核酸。可采用任何合适的方法从生物样品(例如从血液或血液制品)中分离、提取和/或纯化DNA,非限制性示例包括DNA制备的方法(例如,描述于Sambrook和Russell,Molecular Cloning:A Laboratory Manual(《分子克隆:实验室手册》),第3版,2001);多种市售可得试剂或试剂盒,例如凯杰公司(Qiagen)的QIAamp循环核酸试剂盒,QiaAmp DNA迷你试剂盒或QiaAmp DNA血液迷你试剂盒(德国海尔登的凯杰公司),基因组PrepTM血液DNA分离试剂盒(威斯康星州麦迪逊的普洛麦格公司(Promega,Madison,Wis.))和GFXTM基因组血液DNA纯化试剂盒(新泽西州皮斯卡特维的安玛西亚公司(Amersham))等或其组合。
细胞裂解方法和试剂是本领域已知的,且一般可通过化学(例如洗涤剂、低渗溶液、酶促过程等或其组合)、物理(例如法式压滤、超声等)或电解的裂解方法进行。能使用任何合适的裂解过程。例如化学方法通常使用裂解剂破坏细胞并从细胞中提取核酸,然后用离液盐处理。物理方法例如冷冻/解冻然后研磨,使用细胞压滤等也有用。高盐裂解法也是常用的。例如,可采用碱裂解法。所述后一种方法传统上包括使用苯酚-氯仿溶液,且可采用替代的包括三种溶液的无苯酚-氯仿方法。在后一种方法中,一种溶液可包含15mM Tris,pH8.0;10mM EDTA和100μg/ml RNA酶A;第二溶液可包含0.2N NaOH和1%SDS;以及第三溶液可包含3M KOAc,pH 5.5。这些方法可参见纽约约翰韦利森公司(John Wiley&Sons,Inc., NewYork)的《新编分子生物学实验指南》(Current Protocols in Molecular Biology) 的6.3.1-6.3.6(1989),其全文纳入本文。
核酸还可以在与另一核酸不同的时间点分离得到,其中各样品来自相同或不同来源。核酸可来自核酸库,例如cDNA或RNA库。核酸可以是样品中核酸分子的核酸纯化或分离和/或扩增的产物。为本文所述方法提供的核酸可包含来自一个样品或来自两个或更多个样品(例如来自1个或更多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、 9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、 14个或更多个、15个或更多个、16个或更多个、17个或更多个、18个或更多个、 19个或更多个、20个或更多个的样品)的核酸。
在某些实施方式中,核酸可包括胞外核酸。本文所用术语“胞外核酸”指从基本不具有细胞的来源分离的核酸,还称为或“无细胞”核酸、“循环无细胞核酸” (例如,CCF片段)和/或“无细胞循环核酸”。胞外核酸可存在于并获自血液(例如获自人血液、例如获自妊娠妇女的血液)。胞外核酸通常不包括可检测到的细胞且可含有细胞元件或细胞残余物。胞外核酸的无细胞来源的非限制性示例有血液、血浆、血清和尿液。本文所用术语“获取循环无细胞样品核酸”包括直接获取样品 (如收集样品例如测试样品)或从已收集样品的人那里获取样品。不受理论限制,胞外核酸可以是细胞凋亡和细胞破裂的产物,这使胞外核酸常具有跨范围的系列长度(例如"梯状带(ladder)")。
在某些实施方式中,胞外核酸可包含不同的核酸物质,因而在本文中称作“异质性”。例如,患有癌症的人的血液血清或血浆可包含来自癌细胞的核酸与来自非癌细胞的核酸。在另一例子中,妊娠雌性的血液血清或血浆可包含母体核酸和胎儿核酸。在一些示例中,胎儿核酸有时占全部核酸的约5%-约50%(例如,总体核酸中约4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、 22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、 40、41、42、43、44、45、46、47、48或49%是胎儿核酸)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约500个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约500个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约250个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、 97、98、99或100%是约250个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约200个碱基对或更短(例如,胎儿核酸长度的约80、85、 90、91、92、93、94、95、96、97、98、99或100%是约200个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约150个碱基对或更短 (例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或 100%是约150个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约100个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、 93、94、95、96、97、98、99或100%是约100个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约50个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约50个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约25个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、 97、98、99或100%是约25个碱基对或更短)。
在某些实施方式中,可不经对含核酸样品的处理而提供核酸用于进行本文所述方法。在一些实施方式中,在处理含核酸的样品后提供核酸用于进行本文所述方法。例如,可从样品提取、分离、纯化、部分纯化或扩增核酸。如本文所用的术语“分离”指将核酸从其原始环境中取出(例如,天然产生核酸的天然环境或外源表达核酸的宿主细胞),因此核酸从其原始环境通过人的干预(如“人工”)而被改变。本文所用术语“分离的核酸”指从对象(如人类对象)中移出的核酸。与来源样品中具有的组分含量相比,分离的核酸可带有较少的非核酸组分(例如,蛋白质、脂质)。包含分离的核酸的组合物可以是约50%至多于99%不含非核酸组分。包含分离的核酸的组合物可以是约90%、91%、92%、93%、94%、95%、96%、97%、98%、 99%或大于99%不含非核酸组分。本文所用术语“纯化”指与将核酸经历纯化程序之前所存在的非核酸组分的含量相比,所提供的核酸带有较少的非核酸组分(例如,蛋白质、脂质、碳水化合物)。包含纯化核酸的组合物可以是约80%、81%、82%、 83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、 96%、97%、98%、99%或大于99%不含其他非核酸组分。本文所用术语“纯化”可指提供的核酸与其所衍生自的样品来源相比包含更少的核酸物质。包含纯化核酸的组合物可以是约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不含其他核酸物质。例如,胎儿核酸可从含母体和胎儿核酸的混合物中纯化。在一些实施方式中,胎儿核酸的小片段(例如30-500bp片段)可经纯化、或部分纯化自含胎儿和母体核酸片段的混合物。在某些示例中,含胎儿核酸的较小片段的核小体可从含母体核酸的较大片段的大核小体复合物的混合物中纯化。在某些示例中,癌症细胞核酸可纯化自癌症细胞和非癌症细胞核酸的混合物。在某些示例中,含癌症细胞核酸的小片段的核小体可从含非癌症核酸的较大片段的大核小体复合物的混合物中纯化。
在一些实施方式中,本发明方法之前、期间或之后对核酸进行剪切或切割。剪切或切割的核酸可具有约5-约10,000个碱基对、约100-约1,000个碱基对、约 100-500个碱基对或约10、15、20、25、30、35、40、45、50、55、60、65、70、 75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、 2000、3000、4000、5000、6000、7000、8000或9000个碱基对的标称、平均或算术均值(nominal,average或mean)长度。可通过本领域已知的合适方法产生剪切或切割的核酸,且所得核酸片段的平均、等比中数或标称长度可通过选择适当的片段生成方法而加以控制。
在一些实施方式中,核酸可通过合适方法进行剪切或切割,其非限制性示例包括物理方法(例如剪切、例如超声、法式压滤、热、紫外照射等)、酶加工(例如酶切割试剂(例如合适的核酸酶、合适的限制性酶、合适的甲基化敏感的限制性酶))、化学方法(例如烷基化、DMS、哌啶、酸水解、碱水解、热、等或其组合)、美国专利申请公开20050112590中所述方法等,或其组合。
本文所用的“剪切”或“切割”指使核酸分子(如核酸模板基因分子或其扩增产物)可以分成两个或更多较小核酸分子的方法或条件。这种剪切或切割可以是序列特异性、碱基特异性或非特异性的,并且能通过多种方法、试剂或条件(包括例如化学、酶、物理剪切例如物理片段化)的任一来完成。本文所用的“切割产物”、“剪切产物”或其语法变体指由核酸或其扩增产物的剪切或切割获得的核酸分子。
如本文所用术语“扩增”是指使处理样品中的靶核酸经过以线性或指数形式产生扩增子核酸的过程,所述扩增子核酸的核苷酸序列与靶核酸或其区段的核苷酸序列相同或基本相同。在某些实施方式中,术语“扩增”指包括聚合酶链式反应(PCR) 的方法。例如,扩增产物能含有比核酸模板序列的扩增核苷酸区域多一个或多个的核苷酸(如引物能包含除了与核酸模板基因分子互补的核苷酸以外的"额外"核苷酸例如转录起始序列,生成包含"额外"核苷酸或者与所述核酸模板基因分子的扩增核苷酸区域不对应的核苷酸的扩增产物)。
本文所用的术语“互补剪切反应”是指用不同剪切试剂或者通过改变相同剪切试剂的剪切特异性在相同核酸上进行的剪切反应,从而产生相同目标或参比核酸或蛋白质的不同剪切模式。在某些实施方式中,可以用一种或多种特异性剪切剂(例如1、2、3、4、5、6、7、8、9、10或更多种特异性剪切剂)在一个或多个反应容器中处理核酸(例如用各种特异性剪切剂在单独的容器内处理核酸)。如本文所用术语“特异性剪切剂”指试剂,有时是可在一个或多个特异性位点处剪切核酸的化学品或酶。
在提供核酸用于本文所述方法之前,还可对核酸进行处理修饰核酸中某些核苷酸。例如,可对核酸施用根据核酸中核苷酸的甲基化状态选择性修饰核酸的处理。此外,诸如高温、紫外辐射、x-射线辐射等条件可诱导核酸分子序列中的变异。可以用于进行合适序列分析的任何合适形式提供核酸。
核酸可为单链或双链。例如,可通过加热或(例如)用碱处理来变性双链DNA 来生成单链DNA。在某些实施方式中,核酸是D环结构,通过双链DNA分子中链入侵有寡核苷酸或DNA样分子例如肽核酸(PNA)来形成。添加大肠杆菌RecA 蛋白质和/或改变盐浓度(例如使用本领域已知方法)有助于形成D环。
少数与多数物质
至少两种不同核酸物质可以不同含量存在于胞外(例如循环无细胞)核酸中,有时其表示少数物质和多数物质。在一些示例中,核酸的少数物质来自受影响的细胞类型(例如癌症细胞、消耗细胞,受免疫系统攻击的细胞)。在一些实施方式中,针对少数核酸物质确定染色体改变。在一些实施方式中,针对多数核酸物质确定染色体改变。并不意在任何方面严格定义,本文所用的术语“少数”或“多数”。在一方面中,被认为是“少数”的核酸,例如,其丰度可以是样品中总核酸的至少约0.1%~少于样品中总核酸的50%。在一些实施方式中,少数核酸的丰度可以是样品中总核酸的至少约1%~样品中总核酸的约40%。在一些实施方式中,少数核酸的丰度可以是样品中总核酸的至少约2%~样品中总核酸的约30%。在一些实施方式中,少数核酸的丰度可以是样品中总核酸的至少约3%~样品中总核酸的约25%。例如,少数核酸的丰度可以是样品中总核酸的约1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%或30%。在一些例子中,胞外核酸的少数物质有时占全部核酸的约1%~约40%(例如,所述核酸中的约1、2、3、 4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、 24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40%是少数物质核酸)。在一些实施方式中,所述少数核酸是胞外DNA。在一些实施方式中,所述少数核酸是来自凋亡组织的胞外DNA。在一些实施方式中,所述少数核酸是来自受细胞增殖紊乱影响的组织的胞外DNA。在一些实施方式中,所述少数核酸是来自肿瘤细胞的胞外DNA。在一些实施方式中,所述少数核酸是胞外胎儿 DNA。
在另一方面中,被认为是“多数”的核酸,例如,其丰度可以是样品中总核酸的多于50%~样品中总核酸的约99.9%。在一些实施方式中,多数核酸的丰度可以是样品中总核酸的至少约60%~样品中总核酸的约99%。在一些实施方式中,多数核酸的丰度可以是样品中总核酸的至少约70%~样品中总核酸的约98%。在一些实施方式中,多数核酸的丰度可以是样品中总核酸的至少约75%~样品中总核酸的约97%。例如,多数核酸的丰度可以是样品中总核酸的至少约70%、71%、72%、 73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、 86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。在一些实施方式中,所述多数核酸是胞外DNA。在一些实施方式中,所述多数核酸是胞外母体DNA。在一些实施方式中,所述多数核酸是健康组织的 DNA。在一些实施方式中,所述多数核酸是非肿瘤细胞的DNA。
在一些实施方式中,胞外核酸的少数物质的长度为约500个碱基对或更短(例如,少数物质核酸的约80、85、90、91、92、93、94、95、96、97、98、99或100%的长度是约500个碱基对或更短)。在一些实施方式中,胞外核酸的少数物质的长度为约300个碱基对或更短(例如,少数物质核酸的约80、85、90、91、92、93、 94、95、96、97、98、99或100%的长度是约300个碱基对或更短)。在一些实施方式中,胞外核酸的少数物质的长度为约200个碱基对或更短(例如,少数物质核酸的约80、85、90、91、92、93、94、95、96、97、98、99或100%的长度是约200个碱基对或更短)。在一些实施方式中,胞外核酸的少数物质的长度为约150 个碱基对或更短(例如,少数物质核酸的约80、85、90、91、92、93、94、95、96、 97、98、99或100%的长度是约150个碱基对或更短)。
细胞类型
本文所用“细胞类型”指可与其他类型细胞区分的一类的细胞。胞外核酸可包括来自数种不同细胞类型的核酸。可向循环无细胞核酸提供核酸的细胞类型的非限制性示例包括肝细胞(如肝实质细胞)、肺细胞、脾细胞、胰腺细胞、结肠细胞、皮肤细胞、膀胱上皮细胞、眼细胞、脑细胞、食管癌细胞,头部细胞、颈部细胞、卵巢细胞、睾丸细胞、前列腺细胞,胎盘细胞、上皮细胞、内皮细胞、脂肪细胞、肾/肾细胞、心脏细胞、肌肉细胞、血液细胞(例如白细胞)、中枢神经系统(CNS) 细胞,等及其组合。在一些实施方式中,可向分析的循环无细胞核酸提供核酸的细胞类型包括白细胞、内皮细胞和肝实质细胞。不同细胞类型可筛选为鉴定和选择核酸基因座的部分,其中具有医学病症的对象中的细胞类型的标记状态与不具有所述医学病症的对象中的细胞类型的标记状态相同或基本相同,如下详述。
具有医学病症的对象中的具体细胞类型与不具有所述医学病症的对象中的具体细胞类型有时保持相同或基本相同。在非限制性示例中,具体细胞类型的活或有活力细胞的数量可能在细胞退化病症中减少,并且在具有所述医学病症的对象中,活细胞、有活力的细胞无变化或无显著变化。
具体细胞类型有时作为医学病症的一部分发生变化,与其原始状态相比具有一种或多种不同性质。在非限制性示例中,具体细胞类型可以高于正常的速率增殖、可转变为具有不同形态的细胞、可转变为表达一种或多种不同细胞表面标记的细胞、和/或可变为肿瘤的一部分作为癌症病症的一部分。在具体细胞类型(即祖细胞)变化为医学病症的一部分的实施方式中,具有该医学病症的对象中的具体细胞类型与不具有该医学病症的对象中的具体细胞类型相比,其中测试的一种或多种标记中每个的标记状态通常相同或基本相同。因此,术语“细胞类型”有时涉及不具有医学病症的对象中的细胞类型,并涉及具有该医学病症的对象中的细胞的变化形式。在一些实施方式中,“细胞类型”仅是祖细胞且不是祖细胞产生的变化形式。“细胞类型”有时涉及祖细胞和该祖细胞产生的变化细胞。在该实施方式中,具有医学病症的对象中的细胞类型与不具有该医学病症的对象中的细胞类型相比,所分析的标记的标记状态通常相同或基本相同。
在一些实施方式中,细胞类型是癌症细胞。某些癌症细胞类型包括例如白血病细胞(如急性髓细胞白血病、急性淋巴细胞白血病、慢性髓细胞白血病、慢性淋巴细胞白血病);癌性肾脏/肾细胞(例如,肾细胞癌(透明细胞、乳头状类型1、乳头状类型2、嫌色细胞、嗜酸细胞、集合管)、肾腺癌、肾上腺样瘤、Wilm肿瘤、移行细胞癌);脑肿瘤细胞(如侧听神经瘤、星形细胞瘤(I级︰毛细胞型星形细胞瘤、II级︰低级星形细胞瘤,III级︰间变性星形细胞瘤、IV级︰胶质母细胞瘤(GBM))、脊索瘤、中枢神经系统淋巴瘤、颅咽管瘤、胶质瘤(脑干胶质瘤、室管膜瘤、混合性胶质、视神经胶质瘤、室管膜下瘤)、髓母细胞瘤、脑膜瘤、脑转移瘤、少突胶质细胞瘤、垂体瘤、原始神经外胚层(PNET)、神经鞘瘤、青少年毛细胞型星形细胞瘤(JPA)、松果体肿瘤,横纹肌样瘤)。
不同细胞类型可通过任何合适特征区分,包括但不限于,一种或多种不同细胞表面标记、一种或多种不同形态特征、一种或多种不同功能、一种或多种不同蛋白质(例如组蛋白)修饰和一种或多种不同核酸标记。核酸标记的非限制性示例包括单核苷酸多态性(SNP)、核酸基因座的甲基化状态、短串联重复、插入(例如微插入)、缺失(微缺失)等和其组合。蛋白质(例如组蛋白)修饰的非限制性示例包括乙酰化、甲基化、泛素化、磷酸化、SUMO化等和其组合。
本文所用术语“相关细胞类型”指与其他细胞类型具有多种相同特征的细胞类型。在相关细胞类型中,75%或更多细胞表面标记有时与所述细胞类型的相同(例如约80%、85%、90%或95%或更多细胞表面标记与所述相关细胞类型的相同)。
核酸亚群的富集和分离
在一些实施方式中,针对核酸亚群或物质对核酸(例如胞外核酸)进行富集或相对富集。核酸亚群可包括例如胎儿核酸、母体核酸、含特定长度或长度范围的片段的核酸、或来自特定基因组区域(例如单一染色体、染色体组、和/或某些染色体区域)的核酸。此类富集的样品可与本文所述方法联合使用。本文所述方法有时包括分离、富集和分析母体血液中所发现的胎儿DNA,作为非侵入性手段来检测是否存在母体和/或胎儿染色体改变。因此,在某些实施方式中,该技术的方法包括富集样品中核酸亚群例如胎儿核酸的额外步骤。在某些实施方式中,本文所述的确定胎儿分数的方法也可用于富集胎儿核酸。在某些实施方式中,从样品中选择性除去(部分、基本、几乎完全或完全)母体核酸。在某些实施方式中,富集特定低拷贝数的核酸(例如胎儿核酸)可提高定量敏感性。富集样品中特定种类核酸的方法例如下述,美国专利号6,927,028、国际申请公开号WO2007/140417、国际申请公开号WO2007/147063、国际申请公开号WO2009/032779、国际申请公开号 WO2009/032781、国际申请公开号WO2010/033639、国际申请公开号 WO2011/034631、国际申请公开号WO2006/056480和国际申请公开号 WO2011/143659,其都通过引用纳入本文。
在某些实施方式中,在测序之前选择核酸片段的子集。在某些实施方式中,可使用基于杂交的技术(例如,使用寡核苷酸阵列)首先对来自某些染色体(例如性染色体和/或怀疑包括染色体改变的染色体)的核酸序列进行选择。在一些实施方式中,核酸可按大小分离(如通过凝胶电泳、尺寸排阻色谱或通过基于微流体的方法),而在某些示例中,胎儿核酸可通过选择具有较低分子量(例如少于300个碱基对、少于200个碱基对、少于150个碱基对、少于100个碱基对)的核酸来富集。在一些实施方式中,胎儿核酸可通过抑制母体背景核酸(例如通过添加甲醛)来富集。在一些实施方式中,对预选核酸片段的组的部分或子集进行随机测序。在一些实施方式中,在测序前扩增所述核酸。在一些实施方式中,在测序之前扩增核酸的部分或子集。
核酸库
在一些实施方式中,核酸库是针对具体过程进行制备、装配和/或修改的多种多核苷酸分子(例如核酸样品),所述具体过程的非限制性示例包括在固相(例如固体支持物,例如流动池、珠)上固定、富集、扩增、克隆、检测和/或用于核酸测序。在某些实施方式中,在测序过程之前或期间制备核酸库。核酸库(例如测序库)可用本领域已知的合适方法制备。可通过靶向或非靶向制备过程制备核酸库。
在一些实施方式中,核酸库经修饰以包括化学部分(例如功能基团),其配置为用于将核酸固定至固体支持物。在一些实施方式中,核酸库经修饰以包括生物分子(例如功能基团)和/或结合对成员,其配置为用于将库固定至固体支持物,其非限制性示例包括甲状腺素结合球蛋白、类固醇结合蛋白质、抗体、抗原、半抗原、酶、血凝素、核酸、抑制剂、蛋白质A、蛋白质G、抗生物素蛋白、链霉亲和素、生物素、补体组分C1q、核酸-结合蛋白质、受体、碳水化合物、寡核苷酸、多核苷酸、互补核酸序列等及其组合。特异结合对的一些示例包括包括但不限于:抗生物素蛋白部分和生物素部分;抗原表位和抗体或其免疫活性片段;抗体和半抗原;地高辛配基部分和抗地高辛配基抗体;荧光素部分和抗荧光素抗体;操纵子和抑制剂;核酸酶和核苷;凝集素和多糖;类固醇和类固醇结合蛋白;活性化合物和活性化合物受体;激素及激素受体;酶和底物;免疫球蛋白和蛋白A;寡核苷酸或多多核苷酸和其相应的互补物;等等或其组合。
在一些实施方式中,核酸库经修改以包括已知组成的一种或多种多核苷酸,其非限制性示例包括鉴定物(例如标签、索引标签)、捕获序列、标记衔接子、限制性酶位点、启动子、增强子、复制起点、茎环、互补序列(例如引物结合位点、退火位点)、合适的整合位点(例如转座子、病毒整合位点)、修饰的核苷酸等或其组合。已知序列的多核苷酸可加入合适的位置,例如5′末尾、3′末尾或核酸序列内部。已知序列的多核苷酸可为相同或不同序列。在一些实施方式中,已知序列多核苷酸配置为与固定在表面(例如流动池的表面)的一种或多种寡核苷酸杂交。例如,核酸分子的5′已知序列可与第一多种寡核苷酸杂交,而3′已知序列可与第二多种寡核苷酸杂交。在一些实施方式中,核酸库可包括染色体-特异的标签、捕获序列、标记和/或衔接子。在一些实施方式中,核酸库包括一种或多种可检测标记。在一些实施方式中,一种或多种可检测标记可纳入核酸库的5′末端、3′末端和/或库中核酸的任何核苷酸位置。在一些实施方式中核酸库包括杂交的寡核苷酸。在某些实施方式中,杂交的寡核苷酸是标记探针。在一些实施方式中,固定在固相上之前,核酸库包括杂交的寡核苷酸探针。
在一些实施方式中,已知序列的多核苷酸包括通用序列。通用序列是整合入两种或更多核酸分子或两种或更多核酸分子子集的特定核苷酸序列,其中所述通用序列就其所整合入的所有分子或分子子集来说相同。通用序列通常设计成使用与通用序列互补的单个通用引物进行杂交和/或扩增多种不同序列。在一些实施方式中,使用两种(例如一对)或更多通用序列和/或通用引物。通用引物通常包括通用序列。在一些实施方式中,衔接子(例如通用衔接子)包括通用序列。在一些实施方式中,一种或多种通用序列用于捕获、鉴定和/或检测多种核酸物质或其子集。
在制备核酸库的某些实施方式中,(例如合成程序的某些测序中),核酸的大小经选择和/或经片段化为数百碱基对或更少的长度(例如库生成制备中)。在一些实施方式中,进行库制备无需片段化(例如使用ccfDNA时)。
在一些实施方式中,使用基于连接的库制备方法。基于连接的库制备方法和试剂盒的非限制性示例包括TRUSEQ或ScriptMiner、Illumina公司,加利福尼亚州圣地亚哥;KAPA实验室制备试剂盒、KAPA生物系统公司,马萨诸塞州沃本; NEBNext、NEB生物实验室、马萨诸塞州伊维池;MuSeek、赛默飞世尔科技公司 (Thermo Fisher Scientific),马萨诸塞州沃特汉姆市;
Figure BDA0002496369110000241
DNA样品制备试剂盒、Lucigen公司,威斯康星州米歇尔顿;PureGenome,EMD Millipore公司,马萨诸塞州比尔里卡等)。基于连接的库制备方法通常利用衔接子设计,其可在初始连接步骤处纳入索引序列并且通常可用于制备用于单读数测序、配对读数测序和多重化测序的样品。例如,有时核酸(例如片段化核酸或ccfDNA)通过填入(fill-in) 反应、内切核酸酶反应或其组合进行末端修复。在一些实施方式中,随后可将所得钝末端修复核酸延伸单个核苷酸,其与衔接子/引物的3末端的单核苷酸突出互补。’任何核苷酸可用于延伸/突出的核苷酸。在一些实施方式中,核酸库制备包括连接衔接子寡核苷酸。衔接子寡核苷酸通常与流动池锚互补,并且有时用于固定核酸库至固体支持物,例如流动池的内表面。在一些实施方式中,衔接子寡核苷酸包括鉴定物、一种或多种测序引物杂交位点(例如与通用测序引物互补的序列、单末端测序引物、双末端测序引物、多重测序引物等)或其组合(例如衔接子/测序、衔接子/鉴定物,衔接子/鉴定器/测序)。
鉴定物可为纳入或接合核酸(例如多核苷酸)的合适的可检测标记,其允许检测和/或鉴定包括该鉴定物的核酸。一些实施方式中鉴定物在测序方法期间纳入或接合核酸(例如通过聚合酶)。鉴定物的非限制性示例包括核酸标签、核酸索引或条码、放射标记(例如同位素)、金属标记、化学发光标记、磷光标记、荧光淬灭剂、染料、蛋白质(例如酶、抗体或其部分、连接子、结合对的成员)等或其组合。在一些实施方式中鉴定物(例如核酸索引或条码)是核苷酸或核苷酸类似物的独特、已知和/或可鉴定的序列。在一些实施方式中,鉴定物是六个或更多连续核苷酸。可用许多具有各种不同激发和发射光谱的荧光团。任何合适的类型和/或数量的荧光团可用作鉴定物。在一些实施方式中、1个或更多、2个或更多、3个或更多、4个或更多、5个或更多、6个或更多、7个或更多、8个或更多、9个或更多、10个或更多、20个或更多、30或更多或50或更多个不同鉴定物用于本文所述方法(例如核酸检测和/或测序方法)。在一些实施方式中,一种或两种类型的鉴定物(例如荧光标记)连接至库中各核酸。鉴定物检测和/或定量可通过合适的方法、设备或机器进行,其非限制性示例包括流式细胞术、定量聚合酶链式反应 (qPCR)、凝胶电泳、照度计、荧光仪、分光光度计、合适的基因芯片或微阵列分析、Western印迹、质谱、色谱、细胞荧光分析、荧光显微镜、合适的荧光或数字成像方法、共焦激光扫描显微镜、激光扫描流式细胞术、亲和层析、手动批处理模式分离、电场悬浮,合适的核酸测序方法和/或核酸测序装置(例如测序仪,例如测序器)等及其组合。
在一些实施方式中,使用基于转座子的库制备方法(例如EPICENTRE NEXTERA,Epicentre,威斯康星州麦迪逊)。基于转座子的方法通常在单管反应中使用体外移位至相似片段或标签DNA(通常允许纳入平台特异的标签和任选的条码),并制备测序仪准备库。
在一些实施方式中核酸库或其部分经扩增(例如通过基于PCR的方法扩增)。在一些实施方式中测序方法包括扩增核酸库。核酸库可在固定至固体支持物之前或之后进行扩增(例如流动槽中的固体支持物)。核酸扩增包括扩增或增加(例如核酸库中)存在的核酸模板和/或其互补物数量的过程,所述过程通过产生一个或多个模板和/或其互补物的拷贝实现。扩增可通过合适的方法进行。核酸库可通过热循环法或通过等温扩增法进行扩增。在一些实施方式中,使用滚环扩增方法。在一些实施方式中,扩增发生在固体支持物上(例如流动池内)其中核酸库或其部份经固定。某些测序方法中,核酸库加入流动池中并通过合适条件下与锚杂交而固定。此类核酸扩增通常称为固相扩增。在固相扩增的一些实施方式中,所有或部分扩增产物通过从固定化引物开始延伸而合成。固相扩增反应与标准溶液相扩增类似,除了至少一种所述扩增寡核苷酸(例如引物)固定在固体支持物上。
在一些实施方式中,固相扩增包括核酸扩增反应,其包括固定在表面上的仅一种寡核苷酸引物。在某些实施方式中,固相扩增包括多种不同固定化寡核苷酸引物物质。在一些实施方式中,固相扩增可包括核酸扩增反应,其包括固定在固体表面的一种寡核苷酸引物和溶液中的第二种不同寡核苷酸引物。可使用多种不同固定化或溶液引物。固相核酸扩增反应的非限制性示例包括界面扩增、桥式扩增、乳液 PCR、WildFire扩增(例如美国专利申请US20130012399)等或其组合。
测序
在一些实施方式中,核酸(例如核酸片段、样品核酸、无细胞核酸)可经测序。在一些实施方式中,获得全序列或基本全序列,有时获得部分序列。测序、定位和相关分析方法如本文所述或本领域已知(如美国专利申请公开 US2009/0029377,通过引用纳入)。下文描述此类方法的某些方面。
可使用测序核酸的任何合适的方法,其非限制性示例包括Maxim和Gilbert,链终止方法、合成测序、连接测序、质谱测序、基于显微镜的技术等或其组合。在一些实施方式中,第一代测序技术例如桑格测序方法包括自动桑格测序方法(包括微流体桑格测序)可用于本发明方法。在一些实施方式中,本文也使用核酸成像技术在内的其它测序技术(如透射电子显微镜(TEM)和原子力显微镜(AFM))。在一些实施方式中,使用高通量测序方法。高通量测序方法通常涉及有时在流动池中以大规模平行方式测序的克隆扩增DNA模板或单个DNA分子。下一代(例如第二和第三代)测序技术(能以大量平行方式测序DNA)可用于本文所述方法并且本文统称为“大量平行测序”(MPS)。在一些实施方式中,MPS测序方法采用靶向方法,其中特异染色体、基因或感兴趣的区域产生序列读数。特异染色体、基因或感兴趣的区域本文有时指靶基因组区域。在某些实施方式中,使用非-靶向方法,其中样品中大多数或所有核酸片段(例如ccf片段、ccf DNA、多核苷酸)经测序,扩增和/或随机捕获。
MPS测序有时使用通过合成和某些成像方法的测序。本文所述方法中可以使用的核酸测序技术是合成法测序和基于可逆终止子的测序(如亿明达公司(Illumina) 的基因组分析仪(基因组分析仪)和基因组分析仪II(基因组分析仪II);HISEQ 2000; HISEQ 2500(亿明达,加利福尼亚州圣迭戈))。采用这种技术能对数百万核酸(如 DNA)片段平行测序。在这种测序技术的一个实施例中,使用包含具备8个单独通道的光学透明载玻片的流动池,所述流动池表面结合寡核苷酸锚(如衔接子引物)。
在一些实施方式中,合成测序包括以模板引导的方式重复添加(例如通过共价添加)核苷酸至引物或预先存在的核酸链。检测各重复添加的核苷酸并重复所述过程多次直到获得核酸链的序列。所获序列长度部分取决于进行的添加和检测步骤的数量。在一些合成测序的实施方式中,加入一种、两种、三种或更多相同类型的核苷酸(例如A,G,C或T)并在添加核苷酸轮中进行检测。核苷酸可通过任何合适的方法添加(例如酶或化学)。例如,在一些实施方式中,聚合酶或连接酶以模板引导的方式添加核苷酸至引物或预先存在的核酸链。在合成测序的一些实施方式中,使用不同类型核苷酸、核苷酸类似物和/或鉴定物。在一些实施方式中,使用可逆终止子和/或可移除(例如可剪切)鉴定物。在一些实施方式中,使用荧光标记的核苷酸和/或核苷酸类似物。在某些实施方式中,合成测序包括切割(例如切割和移除鉴定物)和/或清洗步骤。在一些实施方式中,通过本文所述或本领域已知合适的方法检测添加一种或多种核苷酸,其非限制性示例包括任何合适的成像装置、合适的照相机、数码照相机、基于CCD(电荷藕合器件)的成像装置(例如CCD照相机)、基于CMOS(互补金属氧化物半导体)的成像装置(例如 CMOS照相机)、光二极管(例如光电倍增管)、电子显微镜、场效应晶体管(例如DNA场效应晶体管)、ISFET离子感应器(例如CHEMFET感应器)等或其组合。其他可以用于进行本文所述方法的测序方法包括数字PCR和杂交法测序。
进行本文所述方法非人合适的MPS方法、系统或技术平台可用于获取核酸测序读数。MPS平台的非限制性示例包括Illumina/Solex/HiSeq(例如Illumina的基因组分析仪;基因组分析仪II;HISEQ 2000;HISEQ)、SOLiD、Roche/454、PACBIO 和/或SMRT、HelicosTrue单个分子测序、基于粒子流(Ion Torrent)和离子半导体(Ion semiconductor)的测序(例如生命技术公司所开发)、基于WildFire、5500、 5500xl W和/或5500xl W遗传分析仪的技术(例如Life Technologies公司所开发和销售的、美国专利申请US20130012399);Polony测序、Pyro测序、大量平行签名测序(MPSS)、RNA聚合酶(RNAP)测序、LaserGen系统和方法、基于纳米孔的平台、化学敏感的场效应晶体管(CHEMFET)阵列、基于电子显微镜的测序(例如ZS Genetics公司、Halcyon Molecular公司所开发)、纳米球测序等。
其他可以用于进行本文所述方法的测序方法包括数字PCR和杂交法测序。数字聚合酶链式反应(数字PCR或dPCR)能用于直接鉴定和定量样品中的核酸。在一些实施方式中,可在乳液中进行数字PCR。例如,个体核酸在例如微流体设备中分离且各核酸通过PCR单独扩增。分离核酸使得每个孔中不超过一个核酸。在一些实施方式中,能使用不同探针区分多种等位基因(例如胎儿等位基因和母体等位基因)。等位基因可经计数以确定拷贝数。
在一些实施方式中,可使用杂交测序。所述方法涉及使多种多核苷酸序列接触多种多核苷酸探针,其中所述多种多核苷酸探针各自可选地连接到底物。在一些实施方式中,所述底物可以是带有已知核苷酸序列阵列的平面。可使用与阵列杂交的模式确定样品中存在的多核苷酸序列。在一些实施方式中,各探针连接到珠(如磁珠等)上。与所述珠的杂交能被鉴定并用于鉴定样品中的多种多核苷酸序列。
在一些实施方式中,纳米孔测序能用在本文所述的方法中。纳米孔测序是单分子测序技术,由此当单核酸分子(如DNA)通过纳米孔时被直接测序。
在一些实施方式中,进行染色体特异性测序。在一些实施方式中,染色体-特异性测序采用DANSR(所选区域的数码分析)进行。所选区域的数码分析能同时定量数百个位点,通过两个位置特异性寡核苷酸的cfDNA-依赖性连锁,利用干扰‘桥式’寡核苷酸以形成PCR模板。在一些实施方式中,染色体-特异性测序通过生成富集染色体-特异性序列的库来进行。在一些实施方式中,仅获得所选染色体组的序列读数。在一些实施方式中,仅获得染色体21、18和13的序列读数。
在一些实施方式中,序列模块获取、生成、聚集、组装、处理、变换、加工、变换和/或转移序列读数。序列模块可利用本领域已知的测序技术确定核酸序列。在一些实施方式中序列模块可比对、组装、片段化、互补、反向互补、检错、或纠错序列读数。在一些实施方式中,序列模块向映射模块或任何其他合适模块提供序列读数。
测序读数
本文所用的“读数”(即“一个读数”、“序列读数”)是由本文所述或本领域已知的任意测序方法生成的短核苷酸序列。读数能从多核苷酸片段的一个末端生成("单末端读数"),而有时从多核苷酸片段的两个末端生成(例如成对末端读数、双末端读数)。
序列读数的长度通常与具体测序技术相关。例如高通量方法提供了大小能由数十到数百碱基对(bp)变化的序列读数。例如纳米孔测序提供大小能由数十到数百到数千碱基对变化的序列读数。在一些实施方式中,序列读数是长度约15bp–约 900bp长的算术均值、中位数、平均或绝对长度。在某些实施方式中,所述序列读数是长度约1000bp或更长的算术均值、中位数、平均或绝对长度。
单末端读数可为任何合适长度。在一些实施方式中,单末端读数的标称、平均、算数平均或绝对长度有时为约10核苷酸-约1000连续核苷酸、约10核苷酸-约500连续核苷酸、约10核苷酸-约250连续核苷酸、约10核苷酸-约200连续核苷酸、约10核苷酸-约150连续核苷酸、约15连续核苷酸-约100连续核苷酸、约20连续核苷酸-约75连续核苷酸、或约30连续核苷酸或约50连续核苷酸。在某些实施方式中,单末端读数的标称、平均、算术平均或绝对长度是约5、 6、7、8、9、10、11、12、49、15、16、17、18、19、21、22、23、24、25、26、 27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、 45、46、47、48、49或50或更多个核苷酸。
成对末端读数可为任何合适长度。在一些实施方式中,两个末端均在合适的读数长度进行测序,其足以映射各读数(例如片段模板的两个末端的读数)至参照基因组。在一些实施方式中,成对末端读数的标称、平均、算术平均或绝对长度是约10核苷酸-约100连续核苷酸、约10核苷酸-约75连续核苷酸、约10核苷酸 -约50连续核苷酸、约15核苷酸-约50连续核苷酸、约15核苷酸-约40连续核苷酸、约15连续核苷酸-约30连续核苷酸、约15连续核苷酸-约20连续核苷酸。在一些实施方式中,成对末端读数的标称、平均、算术平均或绝对长度是约10、 11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、 29、30、35、40、45、50、55、60、65、70、75、80或更多核苷酸。
读数通常是生理核酸中核苷酸序列的表示。例如,读数中用ATGC描述序列,生理核酸中“A”表示腺嘌呤核苷酸、“T”表示胸腺嘧啶核苷酸、“G”表示鸟嘌呤核苷酸、“C表示胞嘧啶核苷酸。”序列读数通常获自怀有胎儿的妊娠雌性的核酸样品。获自怀有胎儿的妊娠雌性的核酸样品的序列读数通常是胎儿和/或胎儿母亲(例如妊娠雌性对象)的序列读数表示。
获自妊娠雌性血液的序列读数可为胎儿和母体核酸混合物的读数。相对较短读数的混合可通过本文所述方法变换为妊娠雌性和/或胎儿中基因组核酸的表示。相对短读数的混合可变换为表示例如染色体改变。母体和胎儿核酸的混合物的读数可变换为表示包含母体和胎儿染色体之一或二者的特征的复合染色体或其区段。在某些实施方式中,从对象样品“获得”核酸序列读数,和/或从一个或多个参照个体的生物样品“获得”核酸序列读数能直接涉及测序核酸以获得序列信息。在一些实施方式中,“获得”可涉及接收从其他核酸直接获得的序列信息。
已观察到,获自妊娠雌性的循环无细胞核酸片段(CCF片段)一般包含来自胎儿细胞的核酸片段(即,胎儿片段)和来自母体细胞的核酸片段(即,母体片段)。来自胎儿的源自CCF片段的序列读数在本文中称作“胎儿读数”。来自怀有胎儿的妊娠雌性(例如,母亲)的基因组的源自CCF片段的序列读数在本文中称作“母体读数”。从中获得胎儿读数的CCF片段在本文中称作胎儿模板,而从中获得母体读数的 CCF片段在本文中称作母体模板。
在一些实施方式中,确定多核苷酸片段(例如多核苷酸模板)的长度。样品中的多核苷酸片段的长度或多核苷酸片段的平均或算数平均长度可通过合适方法估计和/或确定。在一些实施方式中,样品中的多核苷酸片段的长度或多核苷酸片段的平均或算数平均长度用测序方法确定。在一些实施方式中,片段长度采用双末端法测序平台来确定。有时片段模板的长度通过计算分配至成对末端读数的各映射读数的基因组坐标之间的差异来确定。在一些实施方式中,片段长度可采用测序法来确定,由此获得该片段的完整或基本完整的核苷酸序列。所述测序法包括产生相对长的读数长度的平台(例如,罗氏454、离子激流(Ion Torrent),单分子(太平洋生物科学公司(Pacific Biosciences)),实时SMRT技术等)。
在一些实施方式中,选择读数的子集用于分析,而有时,将读数的某些部分从分析移除。在某些情况中,选择读数的子集能够富集核酸(例如,胎儿核酸)的种类。来自胎儿核酸的读数的富集,例如,通常会提高本文所述的方法(例如,染色体改变检测)的准确性。然而,选择和移除来自分析的读数通常会使本文所述的方法的准确性降低(例如,归因于差异的增加)。因此,不受理论限制,通常而言,在包括选择和/或移除读数(例如,来自具体尺寸范围中的片段)的方法中,在与胎儿读数富集相关联的准确性提高和与减少的读数量相关联的准确性降低之间需要折中。在一些实施方式中,方法包括选择对来自胎儿核酸的读数进行富集的读数的子集,而不显著地降低所述方法的准确性。不论该明显的折中,已确定,如本文所述,采用核苷酸序列读数(例如,来自相对较短片段的读数)的子集能够提高或维持胎儿遗传分析的准确性。例如,在某些实施方式中,可弃去约80%或更多的核苷酸序列读数,并将灵敏度和特异度的值保持在与不弃去所述核苷酸序列读数的相当的方法相似的值。
在一些实施方式中,在测序之前或期间富集和/或扩增样品中的一些或所有核酸(例如非-特异性,例如通过基于PCR的方法)。在某些实施方式中,在测序之前或期间富集和/或扩增样品中的特定核酸部份或子集。在一些实施方式中,对预选核酸集合的部分或子集进行随机测序。在一些实施方式中,在测序之前或期间不富集和/或扩增样品中的核酸。
在一些实施方式中,使用靶向富集、扩增和/或测序法。靶向方法通常通过使用序列特异性寡核苷酸分离、选择和/或富集样品中的核酸子集(例如靶基因组区域)用于进一步加工。在一些实施方式中,靶基因组区域与染色体改变相关,包括但不限于易位、插入、添加、删除和/或倒置。在一些实施方式中,多个靶基因组区域的核酸片段经测序和/或分析。源自任何合适染色体、其部分或染色体组合的多核苷酸(例如ccf DNA)可使用本文所述方法或系统通过靶向方法或非靶向方法进行测序和/或分析。可用本文所述方法或系统分析的染色体的非限制性示例包括染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、 20、21、22、X和Y。在一些实施方式中,采用序列特异性寡核苷酸的库以靶向(例如杂交)样品中的一个或多个核酸组。序列特异性寡核苷酸和/或引物通常就一种或多种感兴趣的染色体、基因、外显子、内含子和/或调控区域中存在的具体序列 (例如独特核酸序列)具备选择性。任何合适的方法或方法组合可用于富集、扩增和/或测序一种或多种靶核酸子集。在一些实施方式中,使用一种或多种序列特异性锚通过捕获至固相(例如流动池、珠)分离和/或富集靶序列。在一些实施方式中,通过基于聚合酶方法(例如基于PCR-方法,通过任何合适的基于聚合酶的延伸)使用序列特异性引物和/或引物组富集和/或扩增靶序列。序列特异性锚通常可用作序列特异性引物。
在一些实施方式中,对基因组部分测序,其有时以测定的核苷酸序列覆盖基因组的量来表述(如小于1"倍"覆盖率)。当用约1倍覆盖率对基因组测序时,读数表示基因组的约100%核苷酸序列。也能用冗余度对基因组测序,其中所述基因组的给定区域能通过两次或更多次读数或者重叠读数来覆盖(如大于1"倍"覆盖率)。在一些实施方式中,用约0.1倍–约100倍覆盖率、约0.2倍-20倍覆盖率或者约0.2 倍-约1倍覆盖率(如约0.02-、0.03-、0.04-、0.05-、0.06-、0.07-、0.08、0.09-、0.1-、 0.2-、0.3-、0.4-、0.5-、0.6-、0.7-、0.8-、0.9-、1-、2-、3-、4-、5-、6-、7-、8-、 9-、10-、15-、20-、30-、40-、50-、60-、70-、80-、90-倍覆盖率)对基因组测序。
在一些实施方式中,降低序列覆盖率而不显著降低本文所述的方法的准确性 (例如,灵敏度和/或特异度)。准确性的显著降低可以是相较于未使用减少的序列读数计数的方法而言,准确性降低约1%-约20%。例如,准确性的显著降低可以是降低约2%、3%、4%、5%、6%、7%、8%、9%、10%、15%或更多。在一些实施方式中,序列覆盖率和/或序列读数计数减少约50%或更多。例如,序列覆盖率和/或序列读数计数可减少约55%、60%、65%、70%、75%、80%、85%、90%、95%或更多。在一些实施方式中,序列覆盖率和/或序列读数计数减少约60%-约85%。例如,序列覆盖率和/或序列读数计数可减少约61%、62%、63%、64%、65%、66%、 67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、 80%、81%、82%、83%或84%。在一些实施方式中,序列覆盖率和/或序列读数计数可通过移除某些序列读数而减少。在一些示例中,移除来自比具体长度长的片段 (例如,比约160个碱基长的片段)的序列读数。
在一些实施方式中,一个或多个样品在测序运行中进行测序。不同样品的核酸通常通过一种或多种独特鉴定物或鉴定标签进行鉴定。测序方法通常利用允许测序过程中序列反应倍增的鉴定物。测序过程可使用任何合适数量的样品和/或独特鉴定物(例如4、8、12、24、48、96或更多)来进行。
测序过程有时使用固相,有时固相包括流动池,其上可接合来自库的核酸且试剂可流动并与所接合的核酸接触。流动池有时包括流动池通道,并且使用鉴定物可便于分析各通道中的样品数量。流动池通常是能被构建以保留和/或可供试剂溶液有序通过结合分析物的固体支持物。流动池通常是平面形状,光学透明,通常在毫米或亚毫米级,并且常具备通道或通路,在所述通道或通路中发生分析物/试剂的相互作用。在一些实施方式中,在给定流动池通道中分析的样品数目取决于库制备和/或探针设计中使用的独特鉴定物的数量。多重使用12种鉴定物,例如可允许在8个通道流动池中同时分析96个样品(如等于96孔微孔板中的孔数)。类似地,多重使用48种鉴定物,例如可允许在8个通道流动池中同时分析384个样品(如等于384孔微孔板中的孔数)。市售可得的多重测序试剂盒的非限制性示例包括亿明达的多重样品制备寡核苷酸试剂盒和多重测序引物和PhiX对照试剂盒(分别例如亿明达的目录号PE-400-1001和PE-400-1002)。
映射读数
序列读数或其部分(例如序列读数亚序列)可通过合适方法映射至和/或比对至参照序列(例如参照基因组)。比对一个或多个读数至参照基因组的过程称为“映射”。有时映射至特定核酸区域(例如染色体、其部分或区段)的序列读数的数量可定量。可使用任何合适的映射方法(例如过程、算法、程序、软件、模块等或其组合)。下文描述映射方法的某些方面。
映射核苷酸序列读数(即物理基因组位点未知的片段的序列信息)能以多种方式进行,其通常包括使获得的测序读数与参照基因组中的匹配序列进行比对。所述比对中,序列读数通常与参照序列进行比对,经比对的那些称为经"映射"、"映射的序列读数"或“映射的读数”。
本文所用术语“比对”、“对齐”指可鉴定为匹配(例如100%相同性)或部分匹配的两个或更多核酸序列。比对可人工(例如通过视觉观察)或通过计算机 (例如软件、程序、模块或算法)完成,其非限制性示例包括核苷酸数据有效局部比对(ELAND)计算机程序,其为Illumina基因组分析流程的部分。序列读数的比对可为100%序列匹配。在一些情况中,比对小于100%序列匹配(即,非完美匹配、部分匹配、部分比对)。在一些实施方式中,比对为约99%、98%、97%、 96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、 83%、82%、81%、80%、79%、78%、77%、76%或75%匹配。在一些实施方式中,比对包括错配。在一些实施方式中,比对包括1,2,3,4或5个错配。两个或更多序列可使用任一链比对。在某些实施方式中,核酸序列与另一核酸序列的反向互补链比对。
各种计算机方法可用于将各序列读数映射至部份。可用于比对序列的计算机算法的非限制性示例包括但不限于BLAST,BLITZ,FASTA,BOWTIE 1,BOWTIE 2,ELAND,MAQ,探针MATCH,SOAP或SEQMAP或其变体或其组合。在一些实施方式中,序列读数或其部分可与参照基因组中的序列比对。在一些实施方式中,序列读数可从本领域已知核酸数据库获得和/或与其中的序列比对,所述数据库包括例如GenBank,dbEST,dbSTS,EMBL(欧洲分子生物实验室)和DDBJ (日本DNA数据库)。BLAST或相似工具可用于针对序列数据库搜索相同序列。
在一些实施方式中,读数可唯一或非唯一映射至参照基因组。若读数与参照基因组中的单一序列比对,则其称为“唯一映射”。若读数与参照基因组中的两个或多个序列比对,则其称为“非唯一映射”。在一些实施方式中,非唯一映射的读数从进一步分析中去除(例如通过过滤方法移除)。在某些实施方式中,某些小程度的错配(0-1)可说明在所述参照基因组和经映射的来自个体样品的读数之间可能存在单核酸多态性。在一些实施方式中,没有错配可使读数映射到参照序列上。
本文所用术语“参照基因组”可指任何生物体或病毒的任何部分或全部都具体已知的、测序的或表征的基因组或其部分,其可用于参照来自对象的鉴定序列。例如,人对象、细菌、寄生虫、病毒以及许多其他生物体的参照基因组可获自国家生物技术信息中心,万维网统一资源定位符:www.ncbi.nlm.nih.gov。在一些实施方式中,参照基因组获自参照样品或参照样品组。“基因组”指以核酸序列表达的生物体或病毒的完全遗传信息。本文所用术语“参照序列”指参照基因组或其部分 (例如染色体、基因、保守区域、高可映射区域)。参照序列有时是参照基因组或其部分。本文所用参照基因组经常是来自个体或多个个体的组装或部分组装的基因组序列。在一些实施方式中,参照基因组是来自一个或多个人个体的组装或部分组装的基因组序列。在一些实施方式中,参照基因组包括比对至染色体的序列。在一些实施方式中,参照基因组是病毒基因组或其部分。在一些实施方式中,一种或多种病毒的参照基因组用于比对和/或映射获自人对象(例如人样品)的核酸(例如序列读数)。
在某些实施方式中,当样品核酸来自妊娠雌性时,有时参照序列不来自胎儿、胎儿母亲或胎儿父亲,从而在本文中被称为“外部参照”。在一些实施方式中可制备和使用母体参照。基于外部参照制备来自妊娠雌性的参照时("母体参照序列"),基本不含胎儿DNA的来自妊娠雌性的DNA的读数通常映射至外部参照序列并组装。在某些实施方式中,所述外部参照来自与所述妊娠雌性基本属同一种族的个体的DNA。母体参照序列可以不完全覆盖母体基因组DNA(如可以覆盖母体基因组 DNA的约50%、60%、70%、80%、90%或更多),并且所述母体参照可以不与母体基因组DNA序列完美匹配(如所述母体参照序列可以包含多个错配)。
序列读数可通过映射模块或包括映射模块的装置经映射,该映射模块通常映射读数至参照基因组或其区段。映射模块可通过本领域已知合适的方法或本文所述方法映射测序读数。在一些实施方式中,需要映射模块或包括映射模块的装置以提供映射的序列读数。映射模块通常包括合适的映射和/或比对程序或算法。
不一致读数
在一些实施方式中,本文提供确定是否存在染色体改变的方法,和鉴定与染色体改变相关的断裂点的方法。在一些实施方式中,鉴定断裂点和/或染色体改变的方法包括鉴定不一致的序列读数。在一些实施方式中,方法包括鉴定序列、测序读数和/或测序读数对(例如读数伴侣对)的不一致性的状态。本文术语“不一致性”表示这样一种状态,其中(i)第一读数或其部分映射至参照基因组的第一位置和(ii)第二读数或其部分映射或第一读数的第二部分不能映射、包括较低的可映射性分数、和/或映射至参照基因组的第二位置,其中参照基因组的所述第一和第二位置不连续和/或被比模板多核苷酸片段(从中获得一个或多个序列读数)长的距离分开。在一些实施方式中,不一致性表示测序读数对的两个读数(例如,读数伴侣的对)均不能映射的状态。不一致序列读数和/或不一致序列读数对通常包括不一致性。可确定多核苷酸序列、序列读数、单末端读数、和双末端读数(例如成对末端读数)的不一致性。在一些实施方式中,方法包括鉴定不一致读数和/或不一致读数对。不一致读数和/或不一致读数对可用合适的测序方法鉴定。在一些实施方式中,不一致读数对从成对末端测序读数中鉴定。术语“成对末端测序读数”和“成对末端读数”本文同义使用,表示测序读数对,其中所述对的各成员源自多核苷酸片段的测序互补链。成对末端读数的各读数本文称为“读数伴侣”。
序列读数和/或成对末端读数通常通过使用合适的映射和/或比对程序映射至参照基因组,其非限制性示例包括BWA(Li H.和Durbin R.(2009)Bioinformatics 25,1754–60)、Novoalign[Novocraft(2010)]、Bowtie(Langmead B,等, (2009)Genome Biol.10:R25),SOAP2(Li R,等,(2009)Bioinformatics 25,1966–67), BFAST(Homer N,等,(2009)PLoS ONE 4,e7767),GASSST(Rizk,G.和Lavenier, D.(2010)Bioinformatics 26,2534–2540),和MPscan(Rivals E.,等.(2009)Lecture Notes in Computer Science 5724,246–260)等。序列读数和/或成对末端读数可用合适的短读数比对程序映射和/或比对。短读数比对程序的非限制性示例为 BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、BWA、CASHX、CUDA-EC、 CUSHAW、CUSHAW2、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、 GMAP、GeneiousAssembler、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOSAIK、 MPscan、Novoalign、NovoalignCS、Novocraft、NextGENe、Omixon、PALMapper、 Partek、PASS、PerM、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG、 Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOCS、 SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、TimeLogic、XpressAlign、ZOOM等或其组合。成对末端读数通常映射至根据参照基因组的相同多核苷酸片段的相反末端。在一些实施方式中,序列读数单独映射。在一些实施方式中,读数伴侣单独映射。在一些实施方式中,来自两个序列读数(即,来自各端)的信息因数化在映射过程内。参照基因组通常用于确定和/或推断位于成对末端读数伴侣之间的核酸序列。本文术语“不一致读数对”指含读数伴侣对的成对末端读数,其中一个或两个读数伴侣不能清楚地映射至连续核苷酸区段所部分限定的参照基因组的相同区域。在一些实施方式中,不一致读数对是映射至参照基因组的预料之外的位点的成对末端读数伴侣。参照基因组的预料之外的位点的非限制性示例包括(i)两个不同染色体,(ii)分隔大于预定片段大小(例如大于300bp、大于500bp、大于1000bp、大于5000bp、或大于10000bp、)的位点,(iii)与参照序列不一致的方向(例如反向),等或其组合。在一些实施方式中,映射和/或比对至两个不同染色体的读数伴侣鉴定为不一致读数伴侣。映射和/ 或比对至两个不同染色体的读数伴侣在本文中称为“嵌合读数伴侣”。在一些实施方式中,不一致读数对不包括读数伴侣对,其中第一读数伴侣映射至第一染色体,而第二读数伴侣映射至第二染色体,且其中所述第一染色体不同于第二染色体。在一些实施方式中,不一致读数对包括映射至参照基因组的第一区段(例如第一染色体)的第一读数伴侣和映射至参照基因组的第一区段(例如第一染色体)的第二读数伴侣。本文术语“部分映射”中的“部分”指读数的核苷酸的90%或更少、80%或更少、60%或更少、50%或更少、40%或更少、30%或更少、25%或更少、 20%或更少、15%或更少、10%或更少或5%或更少。在一些实施方式中,不一致读数对包括映射至参照基因组的第一区段(例如第一染色体)的第一读数伴侣和不能映射和/或可映射性低(例如可映射分数低)的第二读数伴侣。在一些实施方式中,不一致读数对包括映射至参照基因组的第一区段(例如第一染色体)的第一读数伴侣和第二读数伴侣,其中第二读数伴侣或其部分的可映射性未确定。在一些实施方式中,不一致读数对包括映射至参照基因组的第一区段(例如第一染色体) 的第一读数伴侣和部分映射至参照基因组的第二区段(例如第二染色体)的第二读数伴侣,其中第一区段和第二区段不同(例如不同染色体)。在一些实施方式中,不一致读数对的子集(例如集合)包括映射至不同染色体的第一和第二读数伴侣,和其中一个或两个读数伴侣不能映射和/或部分映射至相同或不同染色体的第一和第二读数伴侣。在一些实施方式中,不一致读数对根据样品中模板多核苷酸片段的长度(例如平均长度、预定片段尺寸)或预期长度来鉴定。例如,样品中映射至的位置被大于模板多核苷酸片段的平均长度或预期长度分隔的读数伴侣有时鉴定为不一致读数对。以相反方向映射的读数对有时通过取用读数之一的反向互补并用参照序列的相同链比较两个读数的比对来确定。可通过本领域已知或本文所述任何合适方法和/或算法来鉴定不一致读数对。可通过不一致读数鉴定模块或通过包括不一致读数对鉴定模块的机器来鉴定不一致读数对,其中不一致读数鉴定模块一般鉴定不一致读数对。不一致读数鉴定模块的非限制性示例包括SVDetect、Lumpy、 BreakDancer、BreakDancerMax、CREST、DELLY等或其组合。在一些实施方式中,不一致读数对不通过仅鉴定映射或比对至不同染色体的读数伴侣的算法来鉴定。在一些实施方式中,不一致读数对通过鉴定集合的算法鉴定,所述集合包括映射或比对至不同染色体的成对末端读数伴侣,和其中一个或两个读数伴侣不能映射和/或部分映射至相同或不同染色体的成对末端读数伴侣。在一些实施方式中,需要不一致读数鉴定模块或含其的机器来提供不一致读数对。
在一些实施方式中,不一致读数对不成簇或不经历成簇分析。本文所述成簇分析表示根据基因组内的一个或两个读数伴侣的映射位置来组合成对末端读数的过程。在一些实施方式中,成簇分析包括产生成对读数的子集,其中各读数对的一个读数伴侣映射至第一染色体,且各读数对的另一读数伴侣映射至第二染色体,其中第一染色体不同于第二染色体。
本文术语“不一致读数”指序列读数,其中读数的第一部分无法清楚地映射至作为读数的第二部分的参照基因组的相同区域,其中参照基因组的相同区域部分限定为连续核苷酸的区段。在一些实施方式中,不一致读数包括映射至参照基因组的意料之外的位置的第一和第二部分。在一些实施方式中,不一致读数包括映射至第一染色体的第一部分和映射至第二染色体的第二部分,其中第一染色体与第二染色体不同。在一些实施方式中,不一致读数包括部份映射至参照基因组的第一区段 (如第一染色体)的部分。在一些实施方式中,不一致读数包括映射至参照基因组的第一区段(例如第一染色体)的第一部份和不能映射和/或可映射性低(例如可映射分数低)的第二部分。在一些实施方式中,不一致读数包括映射至参照基因组的第一区段(例如第一染色体)的第一部分和第二部分,其中第二部分或其一部分的可映射性未确定。在一些实施方式中,不一致读数包括映射至参照基因组的第一区段(例如第一染色体)的第一部分和部分映射至参照基因组的第二区段(例如第二染色体)的第二部分,其中第一区段和第二区段不同(例如不同染色体)。可通过本领域已知或本文所述的合适方法和/或算法来鉴定不一致读数。不一致读数有时通过表征读数的过程鉴定。可通过不一致读数鉴定模块或通过包括不一致读数鉴定模块的机器来鉴定不一致读数,其中不一致读数鉴定模块一般鉴定不一致读数。在一些实施方式中,不一致读数通过鉴定不一致读数的子集或集合的算法来鉴定。在一些实施方式中,需要不一致读数鉴定模块或含其的机器来提供不一致读数。
可映射性变化
在一些实施方式中,表征一个或多个读数的可映射性。在一些实施方式中,表征读数的可映射性包括表征多个序列读数亚序列的可映射性。术语“表征读数的多个序列读数亚序列的可映射性”有时在本文中指“表征读数”。表征读数有时包括生成读数的多个序列读数亚序列并映射各序列读数亚序列至参照基因组。在一些实施方式中,就不一致读数对的两个读数伴侣生成序列读数亚序列。序列读数亚序列本文有时指假读数。序列读数亚序列可通过任何合适方法生成。序列读数亚序列通常通过计算机过程生成。在一些实施方式中,序列读数亚序列通过下述方法生成并映射:(i)映射读数,(ii)通过计算机过程从映射的读数末尾移除一个或多个碱基, (iii)映射所得的变短读数(即序列读数亚序列),和(v)重复(ii)和(iii)。在一些实施方式中,重复步骤(ii)和(iii)直到读数达到末端。在一些实施方式中,重复步骤 (ii)和(iii)直到得到的变短读数不能再映射。序列读数亚序列可通过从读数的3’末端或读数的5’末端逐步和/或逐渐移除一个或多个碱基来生成。可通过从读数末端(例如步骤(ii)中)以一次一个碱基、一次两个碱基、一次三个碱基、一次四个碱基、一次五个碱基或其组合来移除碱基,从而生成序列读数亚序列。在一些实施方式中,就读数生成的各序列读数亚序列长度不同。在一些实施方式中,读数的各序列读数亚序列是读数的连续核苷酸的亚序列。在一些实施方式中,读数的各序列读数亚序列比全长读数短且有时最大的序列读数亚序列比读数短约1个碱基、约2 个碱基或更少、约3个碱基或更少、约4个碱基或更少、约5个碱基或更少、约6 个碱基或更少、约7个碱基或更少、约8个碱基或更少、约9个碱基或更少、或约 10个碱基或更少。在一些实施方式中,读数的各序列读数亚序列比第二大的序列读数亚序列或读数短约1个碱基、约2个碱基或更少、约3个碱基或更少、约4 个碱基或更少、约5个碱基或更少、约6个碱基或更少、约7个碱基或更少、约8 个碱基或更少、约9个碱基或更少、或约10个碱基或更少。在一些实施方式中,各不一致读数伴侣的序列读数亚序列比第二大的亚序列或读数伴侣逐渐短约1个碱基、约2个碱基或更少、约3个碱基或更少、约4个碱基或更少、约5个碱基或更少、约6个碱基或更少、约7个碱基或更少、约8个碱基或更少、约9个碱基或更少、约10个碱基或更少,或其组合。本文术语“序列读数亚序列”指就本文所述方法的读数由计算机生成的多核苷酸片段的组。本文所述“序列读数亚序列”还可指就一个或多个读数由计算机生成的多核苷酸片段的一个或多个组。本文所述“序列读数亚序列”还可指和/或包括全长读数,从中生成序列读数亚序列的组。序列读数亚序列本文有时指“亚序列”。本文所述“序列读数亚序列”和/或“亚序列”在单数时指就读数由计算机生成的多核苷酸片段的组的成员。
序列读数亚序列可通过合适的模块、程序或方法生成。在一些实施方式中,序列读数亚序列通过片段化模块生成。序列读数亚序列可通过合适的映射模块、程序或方法生成,其非限制性示例包括BWA(Li H.和Durbin R.(2009)Bioinformatics 25,1754–60)、Novoalign[Novocraft(2010)]、Bowtie(Langmead B,等, (2009)Genome Biol.10:R25),SOAP2(Li R,等,(2009)Bioinformatics 25,1966–67), BFAST(Homer N,等,(2009)PLoSONE 4,e7767),GASSST(Rizk,G.和Lavenier, D.(2010)Bioinformatics 26,2534–2540),和MPscan(Rivals E.,等.(2009)Lecture Notes in Computer Science 5724,246–260)等。
在一些实施方式中,就样品生成的一些或所有序列读数亚序列映射至参照基因组。在一些实施方式中,读数的序列读数亚序列映射至一种或多种参照基因组的组合。一个或多个读数的亚序列通常映射至人参照基因组。在一些实施方式中,亚序列映射至人基因组和/或病毒基因组。在一些实施方式中,确定读数的一些或所有序列读数亚序列的可映射性。术语“可映射性”指多核苷酸片段映射参照基因组的程度的量度。有时可映射性包括可映射性分数或值。有时针对读数(例如读数伴侣)的各序列读数亚序列确定可映射性分数或值。可针对序列读数亚序列确定任何合适的可映射性分数或值。可映射性分数可为已知或本文所述的映射模块、程序或方法等或其组合生成的任何合适分数。例如,在一些实施方式中,映射分数可为 MAPQ分数。在一些实施方式中,可映射性分数包括比对分数。例如比对分数可通过合适的局部比对算法(例如Smith-Waterman算法)生成,或者比对分数可根据用参照基因组中发生数量进行加权的两个序列之间的欧几里德距离来生成。比对分数可通过定量或定性多核苷酸序列的独特性的任何合适的度量生成。本领域已知用于确定高、良好、可接受、低、不可接受和/或差的可映射性分数的标准,且其通常对所用的映射或比对程序特异。
在一些实施方式中,确定是否存在染色体改变包括确定和/或鉴定读数的序列读数亚序列(例如不一致读数、不一致读数对的读数伴侣)的可映射性变化。在一些实施方式中,表征读数包括确定和/或鉴定读数的序列读数亚序列的可映射性变化。可映射性变化有时在一个或多个序列读数亚序列之间确定。例如,有时可映射性变化由以下情况指示:含位于读数的第一侧的一个或多个核苷酸的一个或多个亚序列包含可映射性分数基本相同或相似的第一子集,且含读数的第二侧上的核苷酸的一个或多个亚序列包含可映射性分数与第一子集基本不同的第二子集。读数的序列读数亚序列中鉴定的可映射性变化有时指读数的可映射性变化。例如,读数可包含可映射性变化,其中读数的序列读数亚序列包括可映射性变化。在一些实施方式中,可在就读数确定了可映射性变化的读数中鉴定不一致性。在一些实施方式中,不一致性读数包括可映射性变化。在一些实施方式中,可映射性变化可就确定了不一致性的读数进行确定。在一些实施方式中,未鉴定和/或确定读数的可映射性变化,且读数不包括不一致性。有时不一致性读数对的读数伴侣之一或二者包括可映射性变化。在一些实施方式中,鉴定不一致性读数对,其中成对末端读数对的读数伴侣之一或二者包括可映射性变化。在一些实施方式中,可就不一致性读数对的读数伴侣之一或二者确定可映射性变化。在一些实施方式中,嵌合读数对的读数伴侣之一或二者不包括可映射性变化。
有时确定和/或鉴定读数的序列读数亚序列的可映射性变化包括确定读数的各序列读数亚序列与读数(例如不一致读数、不一致读数对、不一致读数对的读数伴侣)的各序列读数亚序列的合适特征之间的关系。可确定一个或多个读数的关系。例如,在一些实施方式中,确定不一致读数对的两个读数伴侣的关系。
本文术语“关系”指两个或更多变量或值之间的数学和/或几何关系。关系的非限制性示例包括数学或几何过程表示:函数、相关性、分布、线性或非-线性等式、线、回归、拟合回归等或其组合。在一些实施方式中,确定关系包括生成线性、非线性或拟合关系。在一些实施方式中,关系经作图或绘图。
可用于确定关系的序列读数亚序列的合适特征的非限制性示例包括片段长度、各片段的指示其相对顺序的鉴定物、分子量、GC含量等或其组合。在一些实施方式中,确定和/或鉴定读数的序列读数亚序列的可映射性变化包括确定读数(例如的读数伴侣之一或二者)的各序列读数亚序列的长度与可映射性之间的关系。
在一些实施方式中,确定和/或鉴定可映射性变化包括确定描述和/或定量关系的一个或多个系数、变量、值、常数等或其组合中是否存在变化。本文所用“变化”有时指“不同”。可用于确定可映射性变化的系数、常数、值和变量的非限制性示例包括斜率(例如线性、非线性或拟合关系的斜率),坐标(例如x坐标或y坐标值)的加和、均值、中值或算数平均,截距(例如y截距),最大值(例如最大峰高度),最小值(例如最低值),曲线积分(例如曲线下的面积),等或其组合。在一些实施方式中,可映射性变化经数学方法确定。变化可通过合适的显著性(例如显著性差异)统计检验来确定,非限制性示例包括Wilcoxon检验(例如Wilcoxon 符号秩)、t检验、X2检验等。在一些实施方式中,可映射性变化经视觉鉴定和/ 或确定(例如来自图谱或图片)。在一些实施方式中,可映射性变化包括确定一个或多个读数的可映射性变化的算数平均、中值或均值。例如,有时可映射性变化包括确定不一致读数对的两个读数伴侣的可映射性变化的算数平均、中值或均值。在一些实施方式中,可映射性变化包括就第一读数的亚序列生成的第一关系和就第二读数的亚序列生成的第二关系(例如不一致读数对的第一和第二读数伴侣)的算数平均、中值或平均斜率。可通过任何合适模块、系统或软件来生成、确定和/或鉴定可映射性变化。可映射性变化通常通过映射表征模块来鉴定和/或确定。映射表征模块可生成亚序列、生成关系、表征亚序列的可映射性、确定可映射性变化、接收或生成可映射性阈值和/或比较可映射性变化与可映射性阈值。
在一些实施方式中,映射表征模块包括代码和/或源代码形式(例如,标准或自定义脚本集合)的微处理器的指令(例如,算法)和/或进行映射表征模块函数的一个或多个软件包(例如,统计学软件包)。在一些实施方式中,映射表征模块包括以采用合适的包(例如,S包或R包)的S或R编写的代码(例如,脚本)。例如,映射表征的变化的斜率可在R中计算并可包括下述脚本:
lm(y~x)[[“coefficients”]][2]
其中y是各逐步比对的MAPQ分数且x是逐步比对的长度。在一些实施方式中,映射表征模块包括和/或使用合适的统计软件包。统计软件包的非限制性示例包括S-plus、stata、SAS、MATLAB、R中的统计包,等或其组合。
在一些实施方式中,可确定读数和/或读数子集的可映射性变化。在一些实施方式中,可确定鉴定到不一致的读数和/或读数子集的可映射性变化。在一些实施方式中,根据序列读数亚序列的可映射性变化来选择和/或鉴定一个或多个读数(例如读数子集、不一致读数对的子集)。在一些实施方式中,鉴定和/或确定可映射性变化包括鉴定和/或确定两个或更多亚序列或读数的亚序列子集之间的可映射性的显著差异(例如统计学差异)。在一些实施方式中,根据可映射性变化和/或可映射性阈值来鉴定和/或选择一种或多种读数(例如读数子集)。在一些实施方式中,根据读数之一或二者的可映射性变化和/或可映射性阈值来选择不一致读数对。在一些实施方式中,选择读数包括比较可映射性变化与可映射性阈值。在一些实施方式中,所选读数包括可映射性变化高于、低于可映射性阈值、在其内、在其外、与其显著不同或基本相同的读数。通常选择一个或多个读数,其中一个或多个读数的可映射性变化包括与预定的可映射性阈值显著不同或落在可映射性阈值所限定的值预定范围之外的数字值(例如定量值)。读数(例如读数子集)可根据读数选择模块(例如120)来鉴定和/或选择。在一些实施方式中,读数选择模块包括代码和/或源代码形式(例如,标准或自定义脚本集合)的微处理器的指令(例如,算法)和/或进行映射表征模块函数的一个或多个软件包(例如,统计学软件包)。在一些实施方式中,读数选择模块包括以采用合适的包(例如,S包,R包)的S 或R编写的代码(例如,脚本)。例如,为了选择伴侣1和伴侣2的平均斜率低于阈值0的读数,R中可写作:
data[data<0]
其中data含伴侣1和伴侣2的算数平均斜率。在一些实施方式中,读数选择模块包括和/或使用合适的统计软件包。统计软件包的非限制性示例包括S-plus、 stata、SAS、MATLAB、R中的童吉包,Prism(GraphPad软件公司,加利福尼亚州拉由拉),SigmaPlot(Systat软件公司,加利福尼亚州圣何塞),Microsoft Excel(美国华盛顿州雷蒙德),等或其组合。
可映射性阈值通常包括一个或多个预定值、值极限和/或值范围。术语“阈”或“阀值”指用符合要求的数据组计算并作为选择的限制的任何数字。可映射性阈值通常通过数学和/或统计学操作可映射性变化来计算。
在一些实施方式中,鉴定和/或选择读数子集,其中子集中的读数包括子集中各读数的多个亚序列的可映射性和片段长度之间所确定的关系的斜率变化。在一些实施方式中,斜率变化指示存在候选断裂点。在一些实施方式中,关系(例如读数的多个亚序列的可映射性和片段长度之间的关系)的斜率显著大于或小于1(例如可映射性阈值为1)通常指示读数包括候选断裂点或鉴定到读数子集具有可映射性变化。在一些实施方式中,鉴定和/或选择的读数(例如读数子集)包含的可映射性变化(例如斜率)比可映射性阈值大约0、约0.1、约0.2、约0.3、约0.4、约0.5、约0.6、约0.7、约0.8、约0.9或大约1.0。在一些实施方式中,鉴定和/或选择的读数(例如读数子集)包含的可映射性变化(例如斜率)超出约-0.1至约0.1、约-0.2 至约0.2、约-0.3至约0.3、约-0.4至约0.4、约-0.5至约0.5、约-0.6至约0.6、约 -0.7至约0.7、约-0.8至约0.8、约-0.9至约0.9、或约-1.0至约1.0的可映射性阈值范围。在一些实施方式中,可映射性变化(例如平均、算数平均或中值斜率)和 /或可映射性阈值表示为绝对值。阈值可为指示可映射性变化的任何合适参数(例如一个或多个可映射性分数的差异、标准偏差、或MAD)。
表征读数和/或评估读数(例如读数的亚序列)的可映射性变化可提供一个或多个断裂点和/或候选断裂点。本文术语“断裂点”指读数伴侣的两个相邻碱基判定之间的位置,其中断裂点的第一侧上的碱基映射至第一染色体区域,且断裂点的第二侧上的碱基映射至第二染色体区域,其中根据参照基因组的第一染色体区域和第二染色体区域不相邻。在一些实施方式中,第一染色体区域和第二染色体区域在不同染色体上。在一些实施方式中,第一染色体区域和第二染色体区域在相同染色体上,其中根据参照基因组的第一染色体区域和第二染色体区域不相邻。在一些实施方式中,本文术语“断裂点”指读数伴侣的两个相邻碱基判定之间的位置,其中位置的第一侧上的碱基映射至参照基因组,且位置的第二侧上的碱基不能映射(例如不能以一定水平进行映射)。在一些实施方式中,本文术语“断裂点”指读数伴侣的两个相邻碱基判定之间的位置,其中位置的第一侧上的碱基映射至人基因组,且位置的第二侧上的碱基映射至异源基因组材料(例如病毒基因组)。在一些实施方式中,断裂点指示染色体改变或其部分的定位和/或位置。在一些实施方式中,断裂点鉴定根据参照基因组的核酸位置,其中遗传材料已经插入、删除和/或交换。在一些实施方式中,当染色体改变包括插入或易位时,断裂点可指示插入或易位的一侧的位置和/或定位。在一些实施方式中,插入或易位的第一断裂点在第一读数或读数的第一子集中鉴定,且插入或易位的第二断裂点在第二读数或读数的第二子集中鉴定。本文术语“候选断裂点”指读数中可能包括断裂点的读数和/或位置。在一些实施方式中,候选断裂点包括断裂点。在一些实施方式中,候选断裂点不包括断裂点。根据可映射性变化和/或根据可映射性阈值鉴定和/或选择的读数和/或读数子集通常包括候选断裂点。
在一些实施方式中,对从读数生成的多个序列读数亚序列的可映射性进行表征包括鉴定和/或确定候选断裂点的定位和/或位置。在一些实施方式中,读数是基因组的表示(例如母体基因组、胎儿基因组、或其部分。)在一些实施方式中,含候选断裂点的映射的读数表示候选断裂点位于基因组(例如,母体基因组、胎儿基因组、或其部分)中。在一些实施方式中,读数中候选断裂点的定位和/或位置根据关系(例如可映射性和序列长度之间的关系)进行确定。在一些实施方式中,读数中的候选断裂点的定位和/或位置根据可映射性变化来确定。在一些实施方式中,鉴定和/或确定读数中的候选断裂点的定位和/或位置包括鉴定读数的两个或更多序列读数亚序列之间可映射性的实质差异(例如统计学差异)。在一些实施方式中,在位置x确定候选断裂点的位置,其中位置x的第一侧上的序列读数亚序列的可映射性值与位置x的第二侧上的序列读数亚序列的可映射性值实质不同,从而指示位置x处的候选断裂点。在一些实施方式中,候选断裂点的位置根据斜率分析确定。例如,通常在多个亚序列的可映射性和片段长度之间确定关系,所述关系部分由线定义,且所述线或其一部分则部分由斜率定义。在前述示例中,斜率中的实质变化通常指示候选断裂点的位置(例如位于位置x,其中位置x的第一侧的序列的斜率与位置x的第二侧的序列的斜率实质不同)。在一些实施方式中,含推定断裂点的所有读数(例如根据可映射性变化和/或阈值所确定)为从头组织,并确定断裂点。有时通过比对含可映射性变化的读数与参照基因组来确定断裂点。在一些实施方式中,候选断裂点和/或断裂点的位置以读数长度的分辨率鉴定。例如,映射的读数可包括可映射性变化,该可映射性变化指示位于参照基因组内的位置处的候选断裂点,其中所述读数映射。在一些实施方式中,候选断裂点和/或断裂点的位置以150 或更少的碱基、100或更少的碱基、75或更少的碱基、50或更少的碱基、10或更少的碱基、9或更少的碱基、8或更少的碱基、7或更少的碱基、6或更少的碱基、5或更少的碱基、4或更少的碱基、3或更少的碱基、2或更少的碱基的分辨率或以单一碱基分辨率进行鉴定。
在一些实施方式中,候选断裂点通过断裂点模块鉴定。断裂点模块通常配置为通过本文方法鉴定断裂点。在一些实施方式中,断裂点模块包括以采用合适的包 (例如,S包,R包)的S或R编写的代码(例如,脚本)。在一些实施方式中,断裂点模块包括和/或使用合适的统计软件包。任何合适的从头组织,例如SOAP 从头组织或Wikipedia中列举的那些(例如Wikipedia,序列组织[在线],[2013-09-25上线],从英特网于万维网统一资源定位符检索:en.wikipedia.org/wiki/Sequence_assembly),可单独或与自定义脚本组合使用来鉴定断裂点的定位。在一些实施方式中,给定伴侣1和2的位置,使用R和/或R中的一个或多个生物导体(bioconductor)(万维网统一资源定位符:bioconductor.org) 评估各读数,其与人参照基因组的相似性,以确定断裂点。为了用斜率确定断裂点的精确位置,可使用任何合适的统计学包软件或自定义脚本。
在一些实施方式中,不一致读数对的不一致读数伴侣之一或二者包括实质相似和/或相同的候选断裂点。在一些实施方式中,不一致读数对的一个读数伴侣包括候选断裂点,且所述对的另一读数伴侣不包括候选断裂点。在一些实施方式中,不一致读数对的第一读数伴侣的序列与所述对的第二读数伴侣的序列重叠,并且两个读数伴侣均包括相同或实质相似的候选断裂点。本文术语“实质相似的断裂点” (例如“实质相似的候选断裂点”)表示位于参照基因组的相同或基本相同的位置的断裂点。实质相似的断裂点有时位于不同读数的不同相关位置(例如通常相对于读数末端所确定),其中各读数上的各断裂点的位置与参照基因组的基本相同。有时两个或更多读数(例如不一致读数伴侣)包括相同和/或实质相似的断裂点,其中各读数上的各断裂点的位置可相同或不同。在一些实施方式中,实质相似的断裂点位于不同读数的相同位置。在一些实施方式中,侧接实质相似的断裂点的各侧的1、2、3、4、5、6、7、或8或更多核苷酸(例如碱基判定)的序列是基本相同的序列。在一些实施方式中,实质相似的断裂点位于第一读数和第二读数上,其中第一读数是第二读数的反向互补。
在一些实施方式中,根据可映射性变化选择读数子集,其中选择的子集中的各读数包括的最小长度为20个连续碱基、21个连续碱基、22个连续碱基、23个连续碱基、24个连续碱基、25个连续碱基、26个连续碱基、27个连续碱基、28 个连续碱基、29个连续碱基、30个连续碱基、31个连续碱基、32个连续碱基、33 个连续碱基、34个连续碱基、35个连续碱基、36个连续碱基、37个连续碱基、38 个连续碱基、39个连续碱基、40个连续碱基、50个连续碱基、60个连续碱基、70 个连续碱基、80个连续碱基、90个连续碱基、或100个连续碱基。
在一些实施方式中,根据可映射性变化选择读数子集,其中选择的子集中的各读数在候选断裂点的各侧包括至少约10-约60,15-约50,15-约40,15-约30,15 -约25、或约15-约20个连续碱基。
在一些实施方式中,样品中的两个或更多读数(例如不一致读数伴侣)包括实质相似的候选断裂点。在一些实施方式中,从样品中获取的2或更多、5或更多、10或更多、20或更多、50或更多、100或更多、或1000或更多读数包括相同或实质相似的候选断裂点。在一些实施方式中,含实质相似的候选断裂点的读数、不一致读数伴侣和/或不一致读数对汇集成子集。在一些实施方式中,鉴定和/ 或选择两个或更多子集,其中各子集包括含实质相似的候选断裂点的读数。在一些实施方式中,读数的第一子集和读数的第二子集包括不同断裂点。有时含实质相似的候选断裂点的读数的第一子集与含实质相似的候选断裂点的读数的第二子集含有不同断裂点。通常读数的任何一个子集或包含与读数的另一子集的断裂点不同的候选断裂点。
在一些实施方式中,使用本文所述系统或方法从参照中获取和/或生成含实质相似的候选断裂点的一个或多个读数子集。使用相同或基本相同的方法从参照和测试样品(例如测试对象)中获取和/或生成含实质相似的候选断裂点的不一致读数伴侣的子集。本文术语“参照”指一个或多个参照对象或参照样品。本文所用“参照”通常指获自一个或多个参照对象或参照样品的数据(例如读数、不一致读数伴侣子集、选择的读数组)。通常参照对象和/或参照样品已知或假定没有染色体改变。例如,参照对象和/或参照样品通常不包含染色体改变。在一些实施方式中,参照包括来自与染色体改变不相关的具体基因组区域或多个基因组区域的多核苷酸和/或核苷酸读数。
生成比较
从测试样品生成和/或获取的一种或多种读数子集可进行比较。通常,来自含实质相似的候选断裂点的样品的读数的子集与来自含实质相似的候选断裂点的参照的读数的子集进行比较。在一些实施方式中,来自样品的读数的子集与来自参照的读数的子集进行比较,其中来自两个子集的读数(即来自样品的子集与来自参照的子集)包含实质相似的候选断裂点。在一些实施方式中,来自样品的读数的子集与来自参照的读数的子集进行比较,其中来自两个子集的读数(即来自样品的子集与来自参照的子集)映射至参照基因组中相同或基本相同的位置。映射至参照基因组中“基本相同”的位置的读数指在下述距离内映射的读数:100,000千碱基(kb) 或更少、50,000kb或更少、25,000kb或更少、10,000kb或更少、5000kb或更少、1000kb或更少、500kb或更少、100kb或更少、50kb或更少、25kb或更少、10kb或更少、5kb或更少、1000碱基对(bp)或更少、500bp或更少、或 100bp内或更少。映射至参照基因组中“基本相同”的位置的读数指在下述距离内映射的读数:彼此距离50、30、20、10、9、8、7、6、5、4、3、2、1、或0碱基。例如,有时来自样品的读数的子集与来自参照的读数的子集进行比较,其中两个子集(即来自样品的子集与来自参照的子集)根据可映射性变化进行选择,并且来自两个子集的读数映射至参照基因组中相同或基本相同的位置。在一些实施方式中,来自样品和参照的读数的所选子集根据可映射性变化进行鉴定,映射至基因组的相同箱(bin)或部分,并比较。读数所映射至的基因组的相同箱或预选的部分可为任何合适长度。在一些实施方式中,读数所映射至的基因组的相同箱或预选的部分为约100,000千碱基(kb)或更少、50,000kb或更少、25,000kb或更少、 10,000kb或更少、5000kb或更少、1000kb或更少、500kb或更少、100kb或更少、50kb或更少、25kb或更少、10kb或更少、5kb或更少、1000碱基对(bp) 或更少、或约500bp或更少。在一些实施方式中,一个或多个子集中的读数数量经定量并比较。在一些实施方式中,测试样品中的一个或多个子集中的读数数量与参照的一个或多个子集中的读数数量进行比较。
含实质相似的候选断裂点的子集可通过合适的统计、几何或数学方法比较。在一些实施方式中,比较包括确定来自测试样品和参照的读数的子集是否相同。在一些实施方式中,确定来自测试样品和参照的读数的子集是否相同包括统计分析。在一些实施方式中,读数的子集经比较,并且子集基本相同或基本不同时做出确定。在一些实施方式中,子集中读数的数量经比较,并且第一子集和第二子集的读数数量统计学上不同或没有统计学上差异时做出确定。本文术语“统计学上不同”和“统计学上差异”指统计学显著差异。统计学显著差异可通过合适方法评估。确定统计学差异的方法的非限制性示例包括确定和/或比较Z分数、分布、相关性(例如相关系数、t检验、k检验等)、不确定性值、置信度量度(例如置信区间、置信度水平、置信系数)等或其组合。计算和/或比较分布可包括计算和/或比较概率分布函数(例如核心密度评价)。计算和/或比较分布可包括计算和/或比较两个或更多分布的不确定性值。不确定值通常是方差或误差的量度且可为变异或误差的任何合适量度。不确定性值的非限制性示例包括标准偏差、标准误差、计算方差、p-值、算术平均绝对偏差(MAD)等或其组合。
在一些实施方式中,比较(例如确定统计学差异)包括比较读数子集(例如读数数量)与阈限或范围。本文术语“阈”和“阈值”指用定性数据组(列如一个或多个参照)计算并作为所述确定(例如确定是否存在断裂点和/或染色体改变) 的极限的任何数。在一些实施方式中,超出阈值,且两个或更多子集确定为统计学上不同。在一些实施方式中,超出阈值,且测试样品(例如对象、例如胎儿)确定为包含染色体改变。在一些实施方式中,超出阈值,且读数的子集确定为包括断裂点。在一些实施方式中,就读数子集确定的定量值(例如读数计数、读数分布、Z 分数、不确定性值、置信度量度等或其组合)在值的阈值范围之内或之外并确定是否存在断裂点和/或染色体改变。在一些实施方式中,阈值或值的范围通常通过数学和/或统计学操作读数数据进行计算(例如来自参照和/或测试对象的一个或多个子集中的读数数量)。在一些实施方式中,阈值包括不确定性值。
任何合适的阈值或范围可用于确定明显不同的两个读数子集。在一些情况中,有约0.01%或更多(例如子集值之一或各自的0.01%)差异的两个读数子集为显著不同。有时有约0.1%或更多差异的两个子集为显著不同。在一些情况中,有约0.5%或更多差异的两个子集为显著不同。有时两个子集差异约0.5、0.75、1、 1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或大于10%为显著不同。有时两个子集显著不同且各子集中无重叠和/或在就一个或两个子集计算的不确定值定义的范围内无重叠。在一些情况中,不确定性值(例如标准偏差) 表示为σ。有时两个子集显著不同,它们差异为约1或更多倍的所述不确定值(例如1σ)。有时两个子集显著不同,它们差异为约2或更多倍不确定值(例如偏差、标准偏差、MAD、
Figure BDA0002496369110000511
)、约3或更多、约4或更多、约5或更多、约6或更多、约 7或更多、约8或更多、约9或更多或约10或更多倍不确定值。有时两个子集差异为约1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、 2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、或4.0倍不确定值或更多时,它们显著不同。在一些实施方式中,置信水平随着两个子集之间差异的增加而增加。在一些情况中,置信水平随着两个子集之间差异的降低和/ 或不确定值的增加而降低。
在一些实施方式中,当测试样品和参照的读数数量之间偏差(例如标准偏差、平均绝对偏差)的数量小于约3.5、小于约3.4、小于约3.3、小于约3.2、小于约 3.1、小于约3.0、小于约2.9、小于约2.8、小于约2.7、小于约2.6、小于约2.5、小于约2.0、小于约1.5或小于约1.0,则确定不存在统计学差异。例如,有时测试样品的读数数量与参照的读数数量差异小于3量度的偏差时(例如3σ,3MAD),确定不存在显著性差异。在一些实施方式中,获自妊娠雌性的测试样品的读数数量与参照的读数数量差异小于3量度的偏差时(例如3σ,3MAD),确定不存在显著性差异。在一些实施方式中,例如测试样品和参照的读数数量之间偏差小于3(例如标准偏差的3σ)通常指示不存在染色体改变。测试样品的读数数量和一种或多种参照对象的参照的读数数量之间的偏差可作图并可视化(例如Z-分数作图)。
在一些实施方式中比较包括比较Z-分数。在一些实施方式中,比较包括比较测试样品的读数子集的Z分数与预定阈值、阈值范围和/或与源自参照的一个或多个Z分数(例如Z分数范围)。在一些实施方式中,Z分数和/或根据Z分数确定的阈值用于确定读数子集与另一子集显著不同和/或与参照显著不同。在一些实施方式中,所含Z分数低于阈值范围和/或在阈值范围内(例如不确定性水平内、例如低于3、2或1σ、预定范围内)的读数子集没有显著性差异。在一些实施方式中,所含Z分数大于阈值范围和/或在阈值范围外(例如大于预定的不确定性水平、例如大于2、2.5、3、3.5、4、5或6σ、预定范围外)的读数子集具有显著性差异。在一些实施方式中,用于比较Z分数的阈值或预定值为至少2.5、至少2.75、至少 3.0、至少3.25、至少3.5、至少3.75、至少4.0、至少4.25、至少4.5、至少4.75、至少5.0、至少5.25、至少5.5、至少5.75、至少6.0、至少6.25、至少6.5、至少 6.75、至少7.0、至少7.25、至少7.5、至少7.75、至少8、至少8.5、至少9、至少 9.5或至少10。
比较通常包括多变量分析。在一些实施方式中,多变量分析包括生成和/或比较热图。在一些实施方式中,热图可进行视觉比较并视觉确定是否存在断裂点和/ 或染色体改变。多变量分析有时包括两个或更多数据组(例如两个或更多读数子集) 的数学运算。例如,有时两个或更多数据组(例如就两个或更多数据子集获得的读数数量、Z分数、不确定值和/或系数)经加、减、乘、除和/或标准化。
本文所述比较可通过比较模块(例如130)或通过含比较模块的机器进行。在一些实施方式中,比较模块包括以采用合适的包(例如,S包,R包)的S或R编写的代码(例如,脚本)。例如,热图可使用热图2,一种用gplots描述的R软件包(gplots[在线],[2013-09-25上线],从英特网于万维网统一资源定位符检索: cran.r-project.org/web/packages/gplots/gplots.pdf),其可在gplots(gplots[在线],[2013-09-25上线],从英特网于万维网统一资源定位符检索: cran.r-project.org/web/packages/gplots)上下载。例如,热图可用热图2和下述脚本生成
heatmap.2(x)
其中x是样品和参照组就染色体A和B进行的比较的Z分数(直接用R计算) 的矩阵。在一些实施方式中,比较模块包括和/或使用合适的统计软件包。
鉴定染色体改变
在一些实施方式中,确定是否存在染色体改变。确定是否存在染色体改变本文有时指确定或生成“结果”或“进行判定”。在一些实施方式中,根据比较确定是否存在染色体改变。是否存在染色体改变有时通过获自样品的不一致读数的一个或多个所选子集与获自参照的那些进行比较来确定。在一些实施方式中,就测试样品所确定的含实质相似的候选断裂点的不一致读数伴侣的数量与就参照所确定的含实质相似的候选断裂点的不一致读数伴侣的数量进行比较。
根据比较确定测试对象(例如胎儿)中不含染色体改变。在一些实施方式中,当来自测试样品的不一致读数伴侣的所选子集包含与来自参照的不一致读数伴侣的所选子集相同或实质相似的候选断裂点时,确定不存在染色体改变。有时,当测试样品的一个或多个或所有读数子集与参照的读数子集不同(例如统计上不同)时,确定测试对象中不存在染色体改变。在一些实施方式中,确定不存在染色体改变包括根据比较确定测试样品(例如测试对象)中不存在一个或多个断裂点。
根据比较确定测试对象(例如胎儿)中含有一个或多个染色体改变。在一些实施方式中,当测试样品的一个或多个读数子集(例如所选的读数子集)与参照的一个或多个读数子集不同(例如统计上不同)时,确定测试对象中存在染色体改变。有时,通过下述方法确定测试对象中存在染色体改变:鉴定含候选断裂点或实质相似的候选断裂点的测试对象的读数数量显著多于含候选断裂点或实质相似的候选断裂点的测试参照的读数数量,其中测试样品和参照的候选断裂点和/或实质相似的候选断裂点实质相似。在一些实施方式中,当测试样品的不一致读数伴侣的所选子集所包括的候选断裂点和/或断裂点与参照的不一致读数伴侣的所选子集的候选断裂点显著不同(例如统计上不同)时,确定测试对象中存在染色体改变。在一些实施方式中,确定存在染色体改变包括通过比较测试样品的候选断裂点与参照的候选断裂点来鉴定测试样品(例如测试对象)中的一个或多个断裂点。在一些实施方式中,确定存在染色体改变包括鉴定来自含实质相似的断裂点的测试样品的读数子集,其中确定参照(例如来自参照样品的读数子集)不包含与测试样品中鉴定的断裂点实质相似的候选断裂点。在一些实施方式中,确定存在染色体改变包括鉴定测试对象中的染色体改变(例如易位或插入)的第一断裂点和第二断裂点。在一些实施方式中,确定存在染色体改变包括鉴定测试对象中的单一断裂点。在一些实施方式中,确定存在染色体改变包括提供与测试对象中鉴定的染色体改变相关的一个或多个断裂点。
有时候选断裂点包括真断裂点且有时候选断裂点不包括真断裂点。不希望受理论限制,有时根据读数的两个区域与两个不同染色体或染色体的非邻近位置的未对齐所引起的映射伪像来鉴定候选断裂点,其中候选断裂点不包括真断裂点。映射伪像和/或未对齐通常发生在测试样品中或参照样品中(例如已知不包括染色体改变的样品),导致候选断裂点实质不包括真断裂点。在一些实施方式中,根据比较确定是否存在断裂点。例如,通常可通过比较测试样品的候选断裂点与参照的候选断裂点来鉴别和/或彼此区分不包含断裂点的候选断裂点和含真断裂点的候选断裂点。例如,有时通过比较测试样品的读数子集与参照的读数子集来鉴定断裂点,其中两个子集含实质相似的候选断裂点。通常,根据比较确定含实质相似的候选断裂点的测试样品的读数子集含有真断裂点,其中确定参照(例如来自参照样品的读数子集)不包括含与测试样品中鉴定的断裂点实质相似的候选断裂点的读数子集。
在一些实施方式中,根据候选断裂点(例如含所述断裂点的候选断裂点)的定位和/或位置确定断裂点的定位和/或位置。在一些实施方式中,通过确定候选断裂点的定位和/或位置的本文所述方法确定断裂点的定位和/或位置。在一些实施方式中,确定测试对象中2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、 17、18、19、20或更多断裂点的定位和/或位置。
在一些实施方式中,根据一个或多个断裂点的定位和/或位置确定染色体改变的定位和/或位置。在一些实施方式中,确定测试对象中的第一断裂点,其中第一断裂点的定位和/或位置指示染色体改变(例如易位、插入)的定位和/或位置。例如,当第一易位位于染色体末端时,可鉴定第一易位的单一断裂点,指示第一易位事件的位置。在一些实施方式中,确定测试样品中的第一断裂点和第二断裂点,其中第一和第二断裂点的定位和/或位置指示染色体改变(例如易位、插入)的定位和/或位置。例如,染色体含插入时,有时可鉴定两个断裂点(例如5’和3’断裂点代表插入区段的5’和3’侧),其中所有序列读数映射至参照基因组的相同链(例如正义链)。当易位在染色体内时(例如易位包括将区段插入染色体),通常鉴定两个断裂点。对于第一和第二染色体之间的平衡易位,当两个染色体之间发生完整区段的交换时,有时可在第一染色体上鉴定一个或两个断裂点(例如,第一染色体上的5’和/或3’断裂点)且有时可在第二染色体上鉴定一个或两个断裂点(例如,第二染色体上的5’和/或3’断裂点),其中所有序列读数映射至参照基因组的相同链(例如正义链)。在一些实施方式中,在测试样品中确定断裂点的定位和/或位置,其中断裂点的定位和/或位置指示染色体删除的定位和/或位置。
本文所述方法可提供确定样品是否存在染色体改变(例如胎儿易位),从而提供结果(例如从而提供是否存在染色体改变(例如胎儿易位)的确定性结果)。是否存在染色体改变可通过变换、分析和/或操作映射至参照基因组的序列读数来确定。在一些实施方式中,确定结果包括分析妊娠雌性的核酸。
可用测试样品的读数的数量将任何其他合适的参照因数化,用于确定测试样品的测试区域是否存在染色体改变。例如,可用测试样品的读数的数量将胎儿分数确定因数化,以确定是否存在染色体变异。可采用合适的过程定量胎儿分数,其非限制性示例包括质谱法、测序过程或其组合。
在一些实施方式中,根据判定区确定是否存在染色体改变(例如易位)。在某些实施方式中,当值(例如,测量值和/或不确定性水平)或值的集合落在预定范围内(例如区,判定区),做出判定(例如确定是否存在染色体改变的判定,例如结果)。在一些实施方式中,根据获自相同患者样品的值的集合定义判定区。在某些实施方式中,根据获自相同染色体或其区段的值的集合定义判定区。在一些实施方式中,根据置信水平(例如高置信水平、例如低不确定性水平)和/或胎儿分数定义基于倍性确定的判定区。在一些实施方式中,根据约2.0%或更多、约2.5%或更多、约3%或更多、约3.25%或更多、约3.5%或更多、约3.75%或更多或约4.0%或更多的倍性确定和胎儿分数定义判定区。例如,在一些实施方式中,对于获自怀有胎儿的妊娠雌性的样品,基于大于1.25的倍性确定与2%或更多或4%或更多的胎儿分数确定,做出胎儿包括21三体的判定。例如,在某些实施方式中,对于获自怀有胎儿的妊娠雌性的样品,基于小于1.25的倍性确定与2%或更多或4%或更大的胎儿分数确定,做出胎儿是整倍体的判定。在一些实施方式中,通过约99%或更大、约99.1%或更大、约99.2%或更大、约99.3%或更大、约99.4%或更大、约99.5%或更大、约99.6%或更大、约99.7%或更大、约99.8%或更大或约99.9%或更大的置信水平定义判定区。一些实施方式中不使用判定区进行判定。在一些实施方式中使用判定区和其他数据或信息做出判定。在一些实施方式中基于倍性值而不使用判定区做出判定。一些实施方式中进行判定而不计算倍性值。在一些实施方式中,基于概况的视觉观察(例如视觉观察基因组区段水平)进行判定。可通过任何合适的方法全部或部分基于本文所述方法获得的确定、值和/或数据进行判定,所述方法非限制性示例包括可映射性变化、可映射性阈值、关系、比较、不确定性和/或置信度确定、z分数等或其组合。
在一些实施方式中非判定区是不进行判定的区。在一些实施方式中,通过表明低精确性、高风险、高误差、低水平置信度、高水平不确定性等或其组合的值或值的集合定义非-判定区。在一些实施方式中,部份通过约5%或更少、约4%或更少、约3%或更少、约2.5%或更少、约2.0%或更少、约1.5%或更少或约1.0%或更少的胎儿分数定义非-判定区。
在一些实施方式中,用于确定是否存在染色体改变(例如,易位)的方法以至少约90%-约100%的准确性进行。例如,是否存在染色体改变可以至少约91%、92%、 93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、 99.6%、99.7%、99.8%或99.9%的准确性确定。在一些实施方式中,确定染色体改变的存在与否的准确性约等于或高于采用染色体改变确定的其它方法(例如,染色体组型分析)的准确性。在一些实施方式中,确定染色体改变的存在与否的准确性具有约80%-约100%的置信区间(CI)。例如,所述置信区间(CI)可以是约81%、82%、 83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、 96%、97%、98%或99%。
在某些实施方式中,灵敏度、特异性和/或置信水平中的一个或多个表示为百分数。在一些实施方式中,独立地对应各变量的百分数超过约90%(例如,约90、 91、92、93、94、95、96、97、98或99%或超过99%(例如,约99.5%或更高,约 99.9%或更高、约99.95%或更高、约99.99%或更高))。在一些实施方式中,变异系数(CV)表示为百分数,有时所述百分数为约10%或更低(例如,约10、9、8、7、6、 5、4、3、2或1%或低于1%(例如,约0.5%或更低、约0.1%或更低、约0.05%或更低、约0.01%或更低))。在某些实施方式中,概率(如特定结果不是由于偶然)被表示为Z-分值、p值或t检验的结果。在一些实施方式中,可用本文所述的一种或多种数据处理操作生成针对结果的测量的方差、置信区间、灵敏度、特异性等(例如统称为置信参数)。生成结果和相关置信水平的具体示例描述于实施例部分以及国际申请号PCT/US12/59123(WO2013/052913),其全文通过引用纳入本文,包括所有文本、表格、等式和图。
本文所用的术语“灵敏度”指真阳性的数量除以真阳性数量与假阴性数量之和,其中灵敏度(sens)可在0≤sens≤1范围内。本文所用的术语“特异性”指真阴性的数量除以真阴性数量与假阴性数量之和,其中特异性(spec)可在0≤spec≤1范围内。在一些实施方式中,有时选择灵敏度和特特异性等于1、或100%、或接近1(如约90%-约99%)的方法。在一些实施方式中,选择灵敏度等于1或100%的方法,而在某些实施方式中,选择灵敏度接近1(如灵敏度约90%、灵敏度约91%、灵敏度约92%、灵敏度约93%、灵敏度约94%、灵敏度约95%、灵敏度约96%、灵敏度约97%、灵敏度约98%或灵敏度约99%)的方法。在一些实施方式中,选择特异性等于1或100%的方法,而在某些实施方式中,选择特异性接近1(如特异性约 90%、特异性约91%、特异性约92%、特异性约93%、特异性约94%、特异性约 95%、特异性约96%、特异性约97%、特异性约98%或特异性约99%)的方法。
理想地,假阴性数量等于0或接近0,从而若对象事实上具有至少一种染色体改变,则没有对象被错误鉴定为不具有至少一种染色体改变。相反地,关于预测算法正确分类阴性的能力通常做出评估,其为一种灵敏度的互补的测量方法。理想地,假阳性数量等于0或接近0,从而若对象不具有所评价的染色体改变,则没有对象被错误鉴定为具有至少一种染色体改变。
在一些实施方式中,在进行本文所述一个或多个处理步骤后能生成结果。在某些实施方式中,结果作为本文所述处理步骤之一的结果生成,而在一些实施方式中,在数据组的各统计学和/或数学运算进行之后,能生成结果。关于确定是否存在染色体改变的结果能以任意形式表示,所述形式包括但不限于与对象或样品中染色体改变存在与否相关的概率(如让步比、p值)、可能性、簇内或簇外值、过阈或阈下值、范围内(如阈值范围)的值、有方差或置信测量的值或风险因子。在某些实施方式中,样品间的比较允许确定样品特征(例如允许鉴定重复样品和/或已混合的样品(例如错标的、组合的等))。
在一些实施方式中,结果包含高于或低于预定阈值或截止值的值(如大于1、小于1),和与所述值相关联的不确定性或置信水平。在某些实施方式中,预定阈值或截止值是预期水平或预期水平范围。结果也能描述用于数据处理的假定。在某些实施方式中,结果包含落在值预定范围(如阈值范围)内或外的值,和该值在所述范围内或外的相关不确定性或置信水平。在一些实施方式中,结果包含的值等于预定值(如等于1、等于0)等于预定值范围内的值,以及其等于或者在范围内或外的相关不确定性或置信水平。结果有时以图(如分布图)来图示显示。
如上所述,结果能表征为真阳性、真阴性、假阳性或假阴性。本文所用的术语“真阳性”指对象正确诊断为具有染色体改变。本文所用的术语“假阳性”指对象错误鉴定为具有染色体改变。本文所用的术语“真阴性”指对象正确鉴定为不具有染色体改变。本文所用的术语“假阴性”指对象错误鉴定为不具有染色体改变。可根据发生比例对任何给定方法计算两种性能度量:(i)灵敏度值,通常是被正确鉴定为阳性的预测阳性部分;和(ii)特异性值,通常是被正确鉴定为阴性的预测阴性部分。
在一些实施方式中,从样品中的核酸检测是否存在染色体改变。在一些实施方式中,检测或未检测的变异在一个来源的样品核酸中残留而在另一来源的样品核酸中不残留。来源的非限制性示例包括胎盘核酸、胎儿核酸、母体核酸、癌细胞核酸、非-癌细胞核酸、等及其组合。在非-限制性示例中,检测或未检测的特定染色体改变(i)在胎盘核酸中残留而在胎儿核酸和母体核酸中不残留;(ii)在胎儿核酸中残留但在母体核酸中不残留;或(iii)在母体核酸中残留但在胎儿核酸中不残留。在一些实施方式中,确定胎儿是否存在染色体改变(例如易位)。在该实施方式中,确定母体是否存在染色体改变(例如易位)。
本文所述方法和/或系统可检测的一些染色体改变(例如易位、插入、删除、倒置)与紊乱或疾病关联,其非限制性示例示于表1。
表1-易位和关联紊乱
Figure BDA0002496369110000591
Figure BDA0002496369110000601
Figure BDA0002496369110000611
Figure BDA0002496369110000621
Figure BDA0002496369110000631
Figure BDA0002496369110000641
Figure BDA0002496369110000651
Figure BDA0002496369110000661
Figure BDA0002496369110000671
Figure BDA0002496369110000681
Figure BDA0002496369110000691
Figure BDA0002496369110000701
Figure BDA0002496369110000711
Figure BDA0002496369110000721
Figure BDA0002496369110000731
Figure BDA0002496369110000741
Figure BDA0002496369110000751
Figure BDA0002496369110000761
Figure BDA0002496369110000771
Figure BDA0002496369110000781
Figure BDA0002496369110000791
Figure BDA0002496369110000801
Figure BDA0002496369110000811
Figure BDA0002496369110000821
Figure BDA0002496369110000831
Figure BDA0002496369110000841
Figure BDA0002496369110000851
Figure BDA0002496369110000861
Figure BDA0002496369110000871
Figure BDA0002496369110000881
Figure BDA0002496369110000891
Figure BDA0002496369110000901
Figure BDA0002496369110000911
Figure BDA0002496369110000921
Figure BDA0002496369110000931
Figure BDA0002496369110000941
Figure BDA0002496369110000951
Figure BDA0002496369110000961
Figure BDA0002496369110000971
染色体改变有时关联医学病症(例如表1)。染色体改变的确定性结果有时是是否具有病症(例如医学病症)、疾病、症状或异常,或包括检测病症、疾病、症状或异常的确定性结果(非限制性示例列于表1)。在某些实施方式中,诊断包括评估结果。通过本文所述方法对是否存在病症(例如医学病症)、疾病、症状或异常的结果确定有时可通过其他测试(例如染色体组型和/或羊水诊断)单独验证。数据的分析和处理能提供一种或多种结果。本文术语“结果“可指有利于确定是否存在染色体改变(例如易位、删除)的数据处理结果。在一些实施方式中,本文术语“结果”指预测和/或确定是否存在染色体改变(例如易位、删除)的结论。在一些实施方式中,本文术语“结果”指预测和/或确定对象(例如胎儿)是否存在染色体改变(例如易位、删除)的风险或可能性的结论。诊断有时包括使用结果。例如,健康医师可分析结果并基于或部份给予该结果提供诊断。在一些实施方式中,确定、检测或诊断病症、症状或异常(例如表1所列)包括使用是否存在染色体改变的确定性结果。在一些实施方式中,基于不一致读数对、映射特征和断裂点鉴定的结果确定是否存在染色体改变。在某些实施方式中,使用本文所述一种或多种方法或系统生成的结果确定是否存在表1中列举的一种或多种病症、症状或异常。在一些实施方式中,诊断包括确定是否存在病症、症状或异常。通常诊断包括确定作为病症、症状或异常的性质和/或原因的染色体改变。在一些实施方式中,结果不是诊断。结果常包括在关于概率的一种或多种考虑的前提下使用本文所述的处理方法生成的一个或多个数值。风险或概率的考虑可包括但不限于不确定值、测量可变性、置信水平、灵敏度、特异性、标准偏差、方差系数(CV)和/或置信水平、Z- 分数、Chi值、Phi值、倍数性值、拟合胎儿分数、面积比率、中值水平、等或其组合。关于概率的考虑能帮助确定对象是否有染色体改变的风险或有遗传变异,而是否存在遗传疾病的确定性结果常包括这种考虑。
结果有时是表型。有时,结果是具有相关置信水平的表型(例如,不确定性值,例如,胎儿呈孤独症阳性,其置信水平为99%;妊娠雌性携带男性胎儿,置信水平为95%;测试对象呈染色体改变相关癌症阴性,其置信水平为95%)。产生结果值的不同方法有时可产生不同类型结果。通常,基于使用本文所述方法生成的结果值有四种可能的评分或判定:真阳性、假阳性、真阴性和假阴性。本文所用的术语“评分”、“分数”、“判定”指就对象/样品中是否存在特定染色体改变的概率的计算。分值可用来确定,例如,可与染色体改变相对应的定位的序列读数的变化、差异或比例。例如,关于参照基因组,对数据组的所选染色体改变或部份计正分能引导鉴定是否存在染色体改变,所述染色体改变有时与医学病症相关联(如癌症、孤独症等)。在一些实施方式中,结果包括水平、概况和/或图(如概况图)。在那些结果包括概况的那些实施方式中,可就结果使用合适的概况或概况组合。能就结果使用的概况的非限定性示例包含z-分数概况、p值概况、÷值概况、
Figure BDA0002496369110000981
值概况等,及其组合。
接收包含确定是否存在染色体改变的一个或多个结果的报告的健康护理专业人员、或其他有资格的人员能使用报告中显示的数据做出关于测试对象或患者的状态判定。在一些实施方式中,健康护理专业人员能根据提供的结果给出建议。在一些实施方式中,健康护理专业人员或有资格的人员能向测试对象或患者提供关于是否存在染色体改变的判定或评分,所述判定或评分基于一个或多个结果值或报告中提供的相关置信参数。在某些实施方式中,通过可见观察提供的报告,由健康护理专业人员或有资格的人员人工做出判定或评分。在某些实施方式中,由自动化程序 (有时编入软件)做出评分或判定,并且在由健康护理专业人员或有资格的人员复查准确性之后再向测试对象或患者提供信息。本文所用的术语“接收报告”指通过任意联系方式获得包含结果的书面和或图示表示,其经复查后供健康护理专业人员或其他有资格的人员就关于测试对象或患者中是否存在染色体改变作出决定。所述报告可以通过计算机或人工数据输入生成,并且能使用电子方式(如从一个网络地址向相同或不同物理位点的另一个地址通过因特网、通过计算机、通过传真),或者通过发送或接收数据的任意其他方法(如信件服务、快递服务等)传达。在一些实施方式中,结果以合适介质传送至健康护理专家,包括但不限于非瞬时计算机可读储存介质和/或口头、档案或文件形式。文件可为例如但不限于声音文件、非瞬时计算机可读文件、纸质文件、实验室文件或医学报告文件。
本文所用的术语“提供结果”及其语法等同形式也能指获得这种信息的任意方法,包括但不限于从实验室(例如实验室文件)中获得信息。能通过实验室进行一种或多种试验或者一个或多个数据处理步骤生成实验室文件以确定是否存在所述医学病症。所述实验室可以和由所述实验室文件鉴定有或没有所述医学病症的人处于相同地点或不同地点(例如,在另一国家)。例如实验室文件可在一个地点生成并传递至另一地点,在后者处信息将传递至妊娠雌性对象。在某些实施方式中,所述实验室文件可以是有形形式或电子形式(例如计算机可读形式)。
在一些实施方式中,结果可提供给健康护理专家、医师或实验室里有资格的个体并且健康护理专家、医师或有资格的个体可基于结果进行诊断。在一些实施方式中,结果可提供给健康护理专家、医师或实验室里有资格的个体并且健康护理专家、医师或有资格的个体可部分基于结果以及其他数据和/或信息和其他结果进行诊断。
健康护理专家和有资格的个体可基于本报告中提供的结果提供合适的建议。能根据提供的结果报告提供建议的非限定性示例包括手术、放疗、化疗、遗传咨询、出生后治疗方案(如生命计划、长期辅助治疗、药物、对症治疗)、妊娠终止、器官移植、输血等,或前述组合。
实验室人员(例如实验室管理员)可分析可能确定是否存在染色体改变的值 (例如测试样品读数数量、参照读数数量、偏差水平)。对于关于是否存在染色体改变的狭窄(close)或可疑的判定,实验室人员可再进行相同测试和/或安排不同测试(例如胎儿染色体改变情况中的分核型和/或羊膜穿刺),其使用测试对象的相同或不同样品核酸。
结果通常提供给健康护理专业人员(如实验室技术人员或管理者;医师或助手)。通常结果由结果模块提供。结果模块可包括合适的统计软件包。在某些实施方式中,结果通过作图模块提供。通常合适的统计学软件包括合适的做图模块。在一些实施方式中,结果模块产生和/或比较Z分数。
在一些实施方式中作图模块处理和/或变换数据和/或信息为合适的可视媒体,其非限制性示例包括图表、图、图示等或其组合。在一些实施方式中,作图模块处理、变换和/或转移数据和/或信息用于在合适的显示器(例如监视器、LED、LCD、 CRT等或其组合)、打印机(例如打印的纸质显示)、合适的外围设备或设备上呈现。在某些实施方式中,做图模块提供对关系和/或概况的可视显示。
在某些实施方式中,结果在装置或装置的外围设备或组件上提供。例如,有时结果在打印机或显示器上提供。在一些实施方式中,是否存在染色体改变和/或相关疾病或紊乱的确定性结果以报告形式提供给健康护理专业人员,而在某些实施方式中,所述报告包含显示结果值和相关置信参数。通常,结果能以帮助确定是否存在染色体改变和/或医学病症的合适的格式显示。合适用于报告和/或显示数据组或报告结果的格式的非限定性示例包含数字数据、曲线图、2D图、3D图、和4D 图、图片、象形图、图表、条线图、饼图、线图、流程图、散点图、图谱、柱状图、密度图、函数图、线路图、框图、起泡图、星座图、轮廓图、统计图、蛛网图、维恩图、列线图等,及其组合。结果表示的各种示例如附图所示和本文所述。
数据过滤和加工
在一些实施方式中,一个或多个处理步骤能包括一个或多个过滤步骤。本文术语“过滤”指将数据的部分或数据组移出考虑并保留数据子集。能根据任意合适的标准选择序列读数,包括但不限于冗余数据(如冗余或重叠映射读数)、无信息数据、含有过高频出现或过低频出现的序列、噪音数据等,或以上组合。过滤过程通常涉及将一个或多个读数和/或读数对(例如不一致读数对)移出考虑。减少用于分析是否存在染色体改变的数据组中含候选断裂点的读数数量、读数对、和/或读数通常降低数据组的复杂度和/或维度,并且有时提高搜索和/或鉴定染色体改变的速度两个或更多数量级。
在一些实施方式中,本文所述系统或方法包括过滤读数、不一致读数伴侣和/ 或不一致读数对。过滤可在下述步骤之前或之后进行:鉴定不一致读数伴侣、表征多个序列读数亚序列的可映射性、提供可映射性变化、选择不一致读数伴侣的子集、鉴定候选断裂点、比较读数子集、比较候选断裂点、鉴定断裂点、或比较样品和参数的不一致读数伴侣的数量。过滤通常在确定是否存在一个或多个染色体改变之前进行。
过滤通常通过系统或模块进行。进行过滤的系统或模块本文指过滤模块。在一些实施方式中,过滤模块包括以采用合适的包(例如,S包,R包)的S或R编写的代码(例如,脚本)。例如,过滤模块可包括并使用一个或多个SAM工具(SAM 工具[在线],[2013-09-25上线],从英特网于万维网统一资源定位符检索: samtools.sourceforge.net)。例如,所有可应用的标记的加和可用于鉴定一致读数,其中一致或PCR重复读数的选择是“if(bitwiseA==83||bitwiseA==163|| bitwiseA==99||bitwiseA==147||bitwiseA>=1024)”,其中bitwiseA是SAM格式文件中所有可应用的标记的加和。
滤器通常接受数据组(例如读数组)作为过滤的数据的子集(例如过滤的读数的子集)的输入和输出。在一些实施方式中,在过滤过程中移除的读数通常舍弃和/或从进一步分析中移除(例如统计分析)。过滤通常包括从读数组中移除数据。在一些实施方式中,过滤包括移除不一致读数对中的一个或两个读数伴侣。在一些实施方式中,过滤包括从读数组中移除多个读数。有时过滤步骤不移除数据。
过滤通常根据预定条件询问来移除、舍弃或拒绝读数组的某些数据,例如,有时滤器接受来自系统或其他模块的输入读数,在接受的读数上进行过滤功能,并仅接受满足条件的那些输入读数。在一些实施方式中,滤器接受来自系统或其他模块的输入读数进行过滤功能并仅移除、舍弃或拒绝满足条件的那些输入读数。在一些实施方式中,条件询问包括是/非或真/假决定。例如,有时当询问条件满足时,“真”或“是”分配给一个或多个读数,当询问条件不满足时,“假”或“非”分配给读数。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃非不一致读数(例如一致读数)。在一些实施方式中,滤器(例如20)的条件询问包括确定是否存在不一致成对读数。在一些实施方式中,非不一致的成对读数经移除、拒绝和/或舍弃。在一些实施方式中,非不一致的成对读数分配为“假”或“非”,并被模块移除、拒绝,和/或被舍弃。在一些实施方式中,非不一致读数不允许通过滤器20。在一些实施方式中,非不一致读数被删除,移入垃圾文件或临时文件(例如10),或保持其原始数据定位和/或格式。在一些实施方式中,不一致成对读数经鉴定和/ 或保持在过滤的读数的输出子集。在一些实施方式中,不一致成对读数经鉴定并送入另一模块或滤器。在一些实施方式中,不一致成对读数经鉴定,分配为“真”或“是”,并保持在过滤的读数(例如不一致读数对)的输出子集。在一些实施方式中,不一致读数被接受并通过滤器20。可通过不一致读数鉴定模块(例如滤器20) 根据是否存在不一致和/或非不一致读数来过滤读数。不一致读数鉴定模块有时包括配置为移除、拒绝和/或舍弃非不一致读数的滤器。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃非精确重复的读数。重复读数本文指PCR重复。在一些实施方式中,滤器(例如30)的条件询问包括确定是否存在PCR重复。在一些实施方式中,PCR重复分配为“真”或“是”,并被模块移除、拒绝,和/或被舍弃。在一些实施方式中,PCR重复不允许通过滤器30。在一些实施方式中,PCR重复被删除,移入垃圾文件或临时文件(例如10),或保持其原始数据定位和/或合适。重复读数组的代表读数本文指“代表读数”。在一些实施方式中,代表读数和独特读数保持在过滤的读数的输出子集。代表读数和独特读数通常经鉴定并送入另一模块或滤器。在一些实施方式中,代表读数和独特读数经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集。在一些实施方式中,代表读数和独特读数被接受入滤器(例如30)和/或通过滤器(例如30)。可通过PCR重复滤器(例如滤器30)根据PCR重复来过滤读数。滤器模块有时包括PCR重复滤器。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃低测序质量读数。低测序质量读数通常为PHRED分数等于或低于约40、约35、约30、约25、约20、约 15、约10、或约5的读数。在一些实施方式中,滤器(例如40)的条件询问包括确定是否存在低测序质量读数。在一些实施方式中,低测序质量读数分配为“真”或“是”,并被模块移除、拒绝,和/或舍弃。在一些实施方式中,低测序质量读数不允许通过滤器40。在一些实施方式中,低测序质量读数被删除,移入垃圾文件或临时文件(例如10),或保持其原始数据定位和/或合适。非低测序质量读数 (例如高测序质量读数)有时保持在过滤的读数的输出子集。非低测序质量读数通常经鉴定和/或送入另一模块或滤器。在一些实施方式中,非低测序质量读数经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集。在一些实施方式中,非低测序质量读数被接受入滤器(例如40)和/或通过滤器(例如40)。可通过测序质量滤器(例如滤器40)根据测序质量来过滤读数。滤器模块有时包括测序质量滤器。
在一些实施方式中,当读数的序列读数亚序列包括映射不连续性时,过滤包括移除、拒绝和/或舍弃读数。映射不连续性通常指读数的序列读数亚序列中3个或更多(例如>2)片段映射至参照基因组(例如含步进式多重比对的读数)的不同(例如非显而易见的)位置。映射不连续性有时指映射至下述内容的读数的二氧化硅片段(i)不同染色体(例如3或更多不同染色体),(ii)不同位置,其中各位置被大于预定片段尺寸(例如大于300bp、大于500bp、大于1000bp、大于5000bp 或大于10,000bp)分开(iii)不同和/或相反方向等或其组合。例如映射不连续性可指两个片段映射至相反方向且第三片段映射至不同染色体的序列读数亚序列。在一些实施方式中,滤器(例如60)的条件询问包括确定是否存在含映射不连续性的读数。在一些实施方式中,含映射不连续性的读数分配为“真”或“是”,并被模块移除、拒绝,和/或舍弃。在一些实施方式中,含映射不连续性的读数不允许通过滤器60。在一些实施方式中,含映射不连续性的读数被删除,移入垃圾文件或临时文件(例如10),或保持其原始数据定位和/或合适。不含映射不连续性的读数有时保持在过滤的读数的输出子集。不含映射不连续性的读数通常经鉴定和/或送入另一模块或滤器。在一些实施方式中,不含映射不连续性的读数经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集。在一些实施方式中,不含映射不连续性的读数被接受入滤器(例如60)和/或通过滤器(例如60)。可通过映射不连续性滤器(例如滤器60)根据映射不连续性来过滤读数。滤器模块有时包括映射不连续性滤器。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃含不能映射的序列读数亚序列的读数。在一些实施方式中,过滤包括移除、拒绝和/或舍弃读数,所述读数含一个或多个、多于2个、多于3个、多于4个、多于5个、多于6个、多于7 个、多于8个、多于9个、多于10个、多于11个、多于12个、多于13个、多于 14个、或多于15个不能映射的序列读数亚序列。不能映射指不能清楚地映射多核苷酸至参照基因组(例如人参照基因组)的位置。在一些实施方式中,滤器(例如 70)的条件询问包括确定是否存在含不能映射的序列读数亚序列的读数。在一些实施方式中,含不能映射的序列读数亚序列的读数分配为“真”或“是”,并被模块移除、拒绝,和/或舍弃。在一些实施方式中,含不能映射的序列读数亚序列的读数不允许通过滤器70。在一些实施方式中,含不能映射的序列读数亚序列的读数被删除,移入垃圾文件或临时文件(例如10),或保持其原始数据定位和/或格式。不含不能映射的序列读数亚序列的读数有时保持在过滤的读数的输出子集。不含不能映射的序列读数亚序列的读数通常经鉴定和/或送入另一模块或滤器。在一些实施方式中,不含不能映射的序列读数亚序列的读数经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集。在一些实施方式中,不含不能映射的序列读数亚序列的读数被接受入滤器(例如70)和/或通过滤器(例如70)。可通过映射滤器 (例如滤器70)根据不能映射的序列读数亚序列来过滤读数。滤器模块有时包括映射滤器。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃含映射至线粒体DNA的序列读数亚序列的读数。在一些实施方式中,过滤包括移除、拒绝和/或舍弃读数,所述读数含一个或多个、多于2个、多于3个、多于4个、多于5个、多于6个、多于7个、多于8个、多于9个、多于10个、多于11个、多于12个、多于13 个、多于14个、或多于15个映射至线粒体DNA的序列读数亚序列。在一些实施方式中,滤器(例如80)的条件询问包括确定是否存在含映射至线粒体DNA的序列读数亚序列的读数。在一些实施方式中,含映射至线粒体DNA的序列读数亚序列的读数分配为“真”或“是”,并被模块移除、拒绝,和/或舍弃。在一些实施方式中,含映射至线粒体DNA的序列读数亚序列的读数不允许通过滤器80。在一些实施方式中,含映射至线粒体DNA的序列读数亚序列的读数被删除,移入垃圾文件或临时文件(例如10),或保持其原始数据定位和/或合适。不含映射至线粒体DNA的序列读数亚序列的读数有时保持在过滤的读数的输出子集。不含映射至线粒体DNA的序列读数亚序列的读数通常经鉴定和/或送入另一模块或滤器。在一些实施方式中,不含映射至线粒体DNA的序列读数亚序列的读数经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集。在一些实施方式中,不含映射至线粒体DNA的序列读数亚序列的读数被接受入滤器(例如80)和/或通过滤器(例如80)。可通过线粒体滤器(例如滤器80)根据映射至线粒体DNA的序列读数亚序列来过滤读数。滤器模块有时包括线粒体滤器。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃含映射至着丝粒DNA的序列读数亚序列的读数。在一些实施方式中,过滤包括移除、拒绝和/或舍弃读数,所述读数含一个或多个、多于2个、多于3个、多于4个、多于5个、多于6个、多于7个、多于8个、多于9个、多于10个、多于11个、多于12个、多于13 个、多于14个、或多于15个映射至着丝粒DNA的序列读数亚序列。在一些实施方式中,滤器的条件询问包括确定是否存在含映射至着丝粒DNA的序列读数亚序列的读数。在一些实施方式中,含映射至着丝粒DNA的序列读数亚序列的读数分配为“真”或“是”,并被模块移除、拒绝,和/或舍弃。在一些实施方式中,含映射至着丝粒DNA的序列读数亚序列的读数不允许通过滤器。在一些实施方式中,含映射至着丝粒DNA的序列读数亚序列的读数被删除,移入垃圾文件或临时文件 (例如10),或保持其原始数据定位和/或格式。不含映射至着丝粒DNA的序列读数亚序列的读数有时保持在过滤的读数的输出子集。不含映射至着丝粒DNA的序列读数亚序列的读数通常经鉴定并送入另一模块或滤器。在一些实施方式中,不含映射至着丝粒DNA的序列读数亚序列的读数经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集。在一些实施方式中,不含映射至着丝粒DNA的序列读数亚序列的读数被接受入滤器和/或通过滤器。可通过着丝粒DNA滤器根据映射至着丝粒DNA的序列读数亚序列来过滤读数。滤器模块有时包括着丝粒DNA 滤器。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃含映射至重复元件的序列读数亚序列的读数。在一些实施方式中,过滤包括移除、拒绝和/或舍弃读数,所述读数含一个或多个、多于2个、多于3个、多于4个、多于5个、多于6个、多于7个、多于8个、多于9个、多于10个、多于11个、多于12个、多于13个、多于14个、或多于15个映射至重复元件的序列读数亚序列。在一些实施方式中,滤器(例如110)的条件询问包括确定是否存在含映射至重复元件的序列读数亚序列的读数。在一些实施方式中,含映射至重复元件的序列读数亚序列的读数分配为“真”或“是”,并被模块移除、拒绝,和/或舍弃。在一些实施方式中,含映射至重复元件的序列读数亚序列的读数不允许通过滤器110。在一些实施方式中,含映射至重复元件的序列读数亚序列的读数被删除,移入垃圾文件或临时文件(例如 10),或保持其原始数据定位和/或格式。不含映射至重复元件的序列读数亚序列的读数有时保持在过滤的读数的输出子集。不含映射至重复元件的序列读数亚序列的读数通常经鉴定和/或送入另一模块或滤器。在一些实施方式中,不含映射至重复元件的序列读数亚序列的读数经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集。在一些实施方式中,不含映射至重复元件的序列读数亚序列的读数被接受入滤器(例如110)和/或通过滤器(例如110)。可通过重复元件滤器(例如滤器110)根据映射至重复元件的序列读数亚序列来过滤读数。滤器模块有时包括重复元件滤器。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃含单现突变事件的读数。在一些实施方式中,滤器(例如100)的条件询问包括确定是否存在含单现突变事件。本文所用“单现突变事件”指含第一候选断裂点的读数或不一致读数对,其中样品中所获任何其他读数未鉴定到和/或不存在实质相似的候选断裂点(例如与第一候选断裂点实质相似的候选断裂点)。在一些实施方式中,单现突变事件分配为“真”或“是”,并被移除、拒绝,和/或舍弃。在一些实施方式中,单现突变事件不允许通过滤器100。在一些实施方式中,单现突变事件被删除,移入垃圾文件或临时文件(例如10),或保持其原始数据定位和/或格式。非单现突变事件的读数有时保持在过滤的读数的输出子集(例如所选子集)。非单现突变事件的读数通常经鉴定和/或送入另一模块或滤器。非单现突变事件的读数经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集(例如所选子集)。在一些实施方式中,非单现突变事件被接受入滤器(例如100)和/或通过滤器(例如100)。可通过单现突变事件滤器(例如滤器100)根据是否存在单现突变事件来过滤读数。滤器模块有时包括单现突变事件滤器。
在一些实施方式中,过滤包括移除、拒绝和/或舍弃样品的读数子集,其中所述样品的读数子集含与参照的读数子集实质相似的断裂点或实质相似的候选断裂点。在一些实施方式中,含与参照的读数子集实质相似的断裂点或实质相似的候选断裂点的样品的读数子集分配为“真”或“是”,并被移除、拒绝,和/或舍弃。在一些实施方式中,含与参照的读数子集实质相似的断裂点或实质相似的候选断裂点的样品的读数子集不允许通过滤器。在一些实施方式中,含与参照的读数子集实质相似的断裂点或实质相似的候选断裂点的样品的读数子集被删除,移入垃圾文件或临时文件(例如10),或保持其原始数据定位和/或格式。含参照的读数子集实质中未发现和/或不存在的断裂点或候选断裂点的样品的读数子集有时保持在过滤的读数的输出子集(例如所选子集)中。含参照的读数子集实质中未发现和/或不存在的断裂点或候选断裂点的样品的读数子集通常经鉴定和/或送入另一模块或滤器。含参照的读数子集实质中未发现和/或不存在的断裂点或候选断裂点的样品的读数子集通常经鉴定,分配为“假”或“非”,并保持在过滤的读数的输出子集(例如所选子集)中。在一些实施方式中,含参照的读数子集实质中未发现和/或不存在的断裂点或候选断裂点的样品的读数子集被接受入滤器和/或通过滤器。可通过断裂点滤器根据是否存在含参照的读数子集中发现的候选断裂点或断裂点的读数子集来过滤样品的读数子集。滤器模块有时包括断裂点滤器。
确定样品是否存在染色体改变的系统或方法可包括一个或多个过滤步骤和/或滤器。确定样品是否存在染色体改变的系统或方法可包括1或更多、2或更多、3或更多、4,或更多、5或更多、6或更多、7或更多、8或更多、9或更多、10或更多、11或更多、12或更多、13或更多、14或更多、15或更多、20或更多、 30或更多、40或更多、或50或更多过滤步骤和/或滤器。过滤步骤可在本文所述任何方法、其部分或其步骤之前和/或之后进行。本文所述系统可包括本文所述任何合适过程或模块之前和/或之后的合适滤器。例如,在图6所示的示例性系统中,可在15之前或之后、150处、151处、152处、153处、和/或140之后、引入一个或多个滤器和/或过滤步骤。一个或多个滤器和/或过滤步骤可为任何合适的顺序或排列。例如,如图7所示,不一致读数鉴定模块发送不一致读数至PCR重复滤器30;滤器30发送过滤的读数至序列定量滤器40;滤器40发送过滤的读数至映射不连续性滤器60;滤器60发送过滤的读数至映射滤器70;滤器70发送过滤的读数至读数选择模块120;模块120发送选择的读数至单现突变事件滤器100;滤器100发送过滤的读数至重复元件滤器110;且滤器110发送过滤的读数至比较模块130。在一些实施方式中,读数可在相同滤器中过滤1次或多次。任何合适的滤器可加入本文所述方法或系统。滤器和/或过滤方法有时任选并可或可不用于本文所述方法或系统。例如,滤器30、40、60、70、80、90、100和/或110可包括在本文所述方法或系统中,或排除在之外。
任何合适的程序可用于处理本文所述的数据组。适用于处理数据组的方法的非限定性示例包含过滤、标准化、加权、数据的数学处理、数据的统计学处理、数学算法的应用、对数据作图以鉴定模式或趋势以供其它处理等,及以上组合。在某些实施方式中,处理本文所述的数据组能降低大数据组和/或复杂数据组的复杂性和/或维数。复杂数据组的非限定性示例包括由一个或多个测试对象和不同年龄与种族背景的多种参照对象生成的序列读取数据。在一些实施方式中,数据组能包含各测试对象和/或参照对象的数千到数百万的序列读数。
某些实施方式中,数据处理可在任何数量的步骤中进行。例如,在一些实施方式中,可以仅用单一处理方法调整和/或处理数据,而在某些实施方式中,可以使用1个或更多个、5个或更多个、10个或更多个或者20个或更多个处理步骤(如 1个或更多个处理步骤、2个或更多个处理步骤、3个或更多个处理步骤、4个或更多个处理步骤、5个或更多个处理步骤、6个或更多个处理步骤、7个或更多个处理步骤、8个或更多个处理步骤、9个或更多个处理步骤、10个或更多个处理步骤、 11个或更多个处理步骤、12个或更多个处理步骤、13个或更多个处理步骤、14 个或更多个处理步骤、15个或更多个处理步骤、16个或更多个处理步骤、17个或更多个处理步骤、18个或更多个处理步骤、19个或更多个处理步骤或者20个或更多个处理步骤)处理数据。在一些实施方式中,处理步骤可以是重复两次或更多次 (如过滤两次或更多次,标准化两次或更多次)的同一步骤,而在某些实施方式中,处理步骤可以是同时或依次进行的两种或更多种不同的处理步骤(如过滤、标准化;标准化、监测峰高和边缘;过滤、标准化、针对参照标准化、统计学处理以确定p 值等)。在一些实施方式中,可使用相同或不同处理步骤的任意合适次数和/或组合来处理序列读数数据以帮助提供结果。在某些实施方式中,通过本文所述的标准加工数据组可降低数据组的复杂性和/或维数。
在一些实施方式中,处理步骤能包括使用一种或多种统计学算法。任意合适的统计学算法都可以单一或联合用于分析和/或处理本文所述的数据组。可使用任何合适数量的统计学算法。在一些实施方式中,能使用1种或更多种、5种或更多种、10种或更多种或者20种或更多种统计学算法来分析数据组。合适伴随本文所述方法使用的统计学算法的非限定性示例包括决策树、计数空值(计数ernull)、多重比较、综合检验、贝伦斯-费希尔问题、拔靴法(bootstrapping)、结合显著性独立测试的费舍尔方法、零假设、I型误差、II型误差、精确检验、单样本Z检验、双样本Z检验、单样本t检验、配对t检验、有相等方差的双样本合并t检验、有不相等方差的双样本未合并t检验、单比例z检验、合并的双比例z检验、未合并的双比例z检验、单样本卡方检验、有相等方差的双样本F检验、置信区间、可信区间、显著性、荟萃分析(meta-analysis)、简单线性回归、强线性回归等,或前述组合。
在某些实施方式中,数据组可采用多种(例如2或更多)统计算法进行分析 (例如最小二乘回归、主成分分析、线性判别分析、二次判别分析、Bagging、神经网络、支持向量机模型、随机森林、分类树模型、K-最近邻法(k-nearest neighbors),逻辑回归和/或平滑损失(loss smoothing)和/或数学和/或统计学操作(例如本文所述操作)。在一些实施方式中,使用多种操作可产生N维空间,其可用于提供结果。在某些实施方式中,通过采用多种操作的数据组分析可降低数据组的复杂性和 /或维度。
在一些实施方式中,序列读数的数据组经过滤、标准化、成簇、技术和/或加权后,经加工的数据组可通过数学和/或统计学比较和/或分析(如通过使用统计函数或统计算法)。在某些实施方式中,处理的数据可通过计算一个或多个所选染色体或其部分的Z分数来进一步分析和/或比较。在一些实施方式中,处理的数据组可通过计算p值来进一步分析和/或比较。计算Z分数的等式的一个实施方式如等式A所示(实施例1)。
确定胎儿核酸含量
在一些实施方式中,确定核酸中胎儿核酸的量(例如,浓度、相对量、绝对量、拷贝数等)。在某些实施方式中,样品中胎儿核酸的量称为“胎儿分数”。在一些实施方式中,“胎儿分数”指获自妊娠雌性的样品(例如血液样品、血清样品、血浆样品)中的循环无细胞核酸中的胎儿核酸分数。在一些实施方式中,其中确定染色体改变的方法也可包括确定胎儿分数。在一些实施方式中,根据胎儿分数(例如,样品的胎儿分数确定)来确定染色体改变的存在与否。胎儿分数的确定能够由合适的方法进行,其非限制性示例包括如下所述的方法。
在一些实施方式中,可采用本文所述的用于确定片段长度的方法来确定胎儿分数。无细胞胎儿核酸片段通常比母体来源的核酸片段短(参见例如Chan等(2004)Clin.Chem.50:88-92;Lo等.(2010)Sci.Transl.Med.2:61ra91)。因此,在一些实施方式中,胎儿分数可通过如下方式确定:对处于具体长度阈值之下的片段计数,并将该计数与样品中总核酸的量做比较。用于对具体长度的核酸片段计数的方法法在下文中做进一步描述。
在某些实施方式中,根据下述内容确定胎儿核酸的含量:对雄性胎儿特异的标记物(例如Y染色体STR标记物(例如DYS 19、DYS 385、DYS 392标记物);RhD阴性女性中的RhD标记物)、多态性序列的等位基因比例、或对胎儿核酸特异而对母体核酸非特异的一种或多种标记物(例如母体和胎儿之间的差异性表观遗传学生物标记(例如甲基化;如下详述)、或母体血浆中的胎儿RNA标记物(参见例如Lo,2005,Journal of Histochemistry andCytochemistry 53(3):293-296))。
确定胎儿核酸含量(例如胎儿分数)有时用胎儿定量试验(FQA)进行,如美国专利申请公开2010/0105049所述,其通过引用纳入本文。此类试验允许基于样品中核酸的甲基化状态检测和定量母体样品中的胎儿核酸。在某些实施方式中,母体样品中胎儿核酸的含量可相对存在的核酸总量进行确定,从而提供样品中胎儿核酸的百分比。在某些实施方式中,可确定母体样品中胎儿核酸的拷贝数。在某些实施方式中,可以序列特异性(或部份-特异性)方式确定胎儿核酸的量,且有时灵敏度足以进行精确的染色体剂量分析(例如,用以检测胎儿染色体改变的存在与否)。
胎儿定量试验(FQA)可与本文所述任何方法联合进行。可通过本领域任何已知方法和/或美国专利申请公开2010/0105049所述进行该试验,例如通过可基于差异性甲基化状态区分母体和胎儿DNA的方法、以及定量胎儿DNA(即确定其含量)的方法。基于甲基化状态区分核酸的方法包括但不限于甲基化敏感性捕获(例如使用MBD2-Fc片段,其中MBD2的甲基化结合结构域融合至抗体的Fc片段 (MBD-FC)(Gebhard等(2006)Cancer Res.66(12):6118-28));甲基化特异抗体、亚硫酸氢盐转化法,例如MSP(甲基化敏感的PCR)、COBRA、甲基化敏感的单核苷酸引物延伸(Ms-SNuPE)或塞昆纳姆股份有限公司(Sequenom)MassCLEAVETM技术;和甲基化敏感的限制性酶的应用(例如用一种或多种甲基化敏感的限制性酶消化母体样品中的母体DNA,从而富集胎儿DNA)。甲基敏感的酶还可用于基于甲基化状态区分核酸,例如其DNA识别序列未甲基化时优选或显著切割或消化。因此,未经甲基化的DNA样品会被切成比甲基化样品小的片段,而高甲基化的DNA 样品不会被切割。除非明确指出,基于甲基化状态的任何区分核酸的方法均可用于本发明组合物和方法。可通过例如在扩增反应期间引入已知浓度的一种或多种竞争剂来确定胎儿DNA的含量。还可通过例如RT-PCR、引物延伸、测序和/或计数来确定胎儿DNA的含量。在某些示例中,可用美国专利申请公开2007/0065823中所述的BEAMing技术来确定核酸的含量。在某些实施方式中,可确定限制性功效并用该效率比进一步确定胎儿DNA的量。
在某些实施方式中,胎儿定量试验(FQA)可用母体样品中的胎儿DNA浓度来确定,例如通过下述方法:a)确定母体样品中存在的DNA总量;b)用一种或多种甲基化敏感的限制性酶选择性消化母体样品中的母体DNA从而富集所述胎儿 DNA;c)确定来自步骤b)的胎儿DNA量;以及d)比较步骤c)所得胎儿DNA的量与步骤a)所得DNA的总量,从而确定母体样品中胎儿DNA的浓度。在某些实施方式中,可确定母体样品中胎儿核酸的绝对拷贝数,例如,采用质谱和/或利用针对绝对拷贝数确定的竞争性PCR方法的系统。参见例如Ding和Cantor(2003) PNAS.USA 100:3059-3064,和美国专利申请公开2004/0081993,其均通过引用纳入本文。
在某些实施方式中,可基于多肽性序列的等位基因比例(例如单核苷酸多态性(SNP))来确定胎儿分数,例如使用美国专利申请公开2011/0224087中所述的方法,其通过引用纳入本文。该方法中,就母体样品获取核苷酸序列读数,并通过比较映射至第一等位基因的核苷酸序列读数的总数与映射至位于参照基因组中的参照性多态位点(如SNP)的第二等位基因的核苷酸序列读数的总数来确定胎儿分数。在某些实施方式中,通过例如在样品中的胎儿和母体核酸的混合物中,相对于母体核酸对混合物的较大贡献,胎儿等位基因的相对较小贡献来鉴定胎儿等位基因。因此,母体样品中胎儿核酸的相对丰度可作为(就多态位点的两个等位基因中每个来说)映射至参照基因组上靶核酸序列的独特序列读数的总数的参数来确定。
细胞外核酸中的胎儿核酸的量可定量,并可与本文所述方法联合使用。因此,在某些实施方式中,本文所述技术的方法包括确定胎儿核酸的量的额外步骤。可在加工以制备样品核酸之前或之后确定对象的核酸样品中胎儿核酸的量。在某些实施方式中,在样品核酸经加工和制备后,确定样品中胎儿核酸的量,并用于进一步评价。在一些实施方式中,结果包括将样品核酸中的胎儿核酸分数分解为因子(如调整数据、除去样品、作出判定或不作出判定)。
确定步骤(例如确定是否存在染色体改变)可在本文所述方法之前、期间、本文所述方法之中任何时间点或本文所述某些方法之后进行。例如,为了实现给定灵敏度或特异性的确定(例如确定胎儿中的染色体改变),胎儿核酸定量方法可以在染色体改变确定之前、中或后进行,以鉴定有大于约2%、3%、4%、5%、6%、 7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、 20%、21%、22%、23%、24%、25%或更多胎儿核酸的那些样品。在一些实施方式中,被确定为具有某一胎儿核酸阈值量(如约15%或更多胎儿核酸;如约4%或更多胎儿核酸)的样品进一步用于分析例如胎儿性别或是否存在染色体改变。在某些实施方式中,仅选择(例如,选择并告知患者)具有某一胎儿核酸阈值量(如约15%或更多胎儿核酸;如约4%或更多胎儿核酸)的样品确定是否存在染色体改变。
在一些实施方式中,确定胎儿分数分或确定胎儿核酸的量并非鉴定是否存在染色体改变所必需。在一些实施方式中,鉴定是否存在染色体改变不需要胎儿与母体DNA的序列区分。在某些实施方式中,这是由于对母体和胎儿序列对具体染色体、染色体部份或其区段的加成贡献进行了分析。在一些实施方式中,鉴定是否存在染色体改变不依赖于区分胎儿DNA和母体DNA的先验序列信息。
胎儿性别
在某些情况中,确定子宫中胎儿性别有益处。例如,具有一种或多种性连锁疾病家族史的亲本(例如妊娠雌性)可能希望确定所怀胎儿性别以评估胎儿遗传该疾病的风险。
在一些实施方式中,可通过本文所述方法、系统、机器、设备或非瞬时计算机可读储存介质确定对胎儿性别或性别相关疾病的预测。性别决定通常基于性染色体。人有两条性染色体,X和Y染色体。Y染色体含有启动胚胎发育为雄性的基因SRY。人和其他哺乳动物的Y染色体还含有产生正常精子所需的其他基因。
在一些实施方式中,其中确定胎儿性别的方法还可包括确定胎儿分数和/或胎儿染色体改变的存在与否。胎儿性别的存在与否的确定可以合适的方式进行,其非限制性示例包括染色体组型分析、羊水诊断、循环无细胞核酸分析、无细胞胎儿 DNA分析、核苷酸序列分析、序列读数定量、靶向法、基于扩增的方法、基于质谱的方法、基于差异甲基化的方法、基于差异消化的方法、基于多态性的方法、基于杂交的方法(例如,采用探针)等。
医学紊乱和医学病症
本文方法可用于任何合适医学紊乱或医学病症。医学紊乱或医学病症的非限制性示例包括细胞增殖紊乱和病症、消耗紊乱和病症、退化紊乱和病症、自身免疫紊乱和病症、先兆子痫、化学或环境毒性、肝损伤或疾病、肾损伤或疾病、血管病、高血压和心肌梗塞。
在一些实施方式中,细胞增殖紊乱或病症是肝、肺、脾、胰腺、结肠、皮肤、膀胱、眼、脑、食道、头、脖子、卵巢、睾丸、前列腺的癌症等或其组合。癌症的非限制性示例包括造血细胞肿瘤性紊乱,其涉及造血来源的增生性/肿瘤细胞(例如产生自骨髓、淋巴或红细胞系、或其祖细胞)并且可产生自低分化急性白血病(例如成红细胞性白血病和急性巨核细胞性白血病)。某些骨髓紊乱包括但不限于急性早髓性白血病(APML)、急性髓性白血病(AML)和慢性髓性白血病(CML)。某些恶性淋巴增殖性疾病包括但不限于急性淋巴母细胞性白血病(ALL),其包括B-系ALL 和T-系ALL,慢性淋巴母细胞性白血病(CLL)、早淋巴细胞白血病(PLL)、毛细胞白血病(HLL)和瓦尔登斯特伦巨球蛋白血症(WM)。某些形式的恶性淋巴瘤包括但不限于非霍奇金淋巴瘤及其变体、外周T细胞淋巴瘤,成人T细胞白血病/ 淋巴瘤(ATL)、皮肤T细胞淋巴瘤(CTCL)、大颗粒淋巴细胞白血病(LGF)、霍奇疾病和里德伯格疾病。细胞增殖紊乱有时是非内分泌瘤或内分泌瘤。非内分泌瘤的示例包括但不限于腺癌、腺泡细胞癌、腺鳞癌、巨细胞瘤、导管内乳头状黏液性肿瘤、黏液性囊腺癌、胰腺胚细胞瘤(pancreatoblastomas)、浆液性囊腺瘤、固体和假乳头状肿瘤。内分泌瘤有时是胰岛细胞瘤。
在一些实施方式中,消耗紊乱或病症、或退化紊乱或病症是肝硬化、萎缩侧索硬化(ALS)、阿尔茨海默氏病、帕金森病、多系统萎缩、动脉粥样硬化、进行性核上性麻痹、泰伊-萨克斯病、糖尿病、心脏病、圆锥角膜、炎症性肠病(IBD)、前列腺炎、骨关节炎、骨质疏松症、类风湿关节炎、亨廷顿病、慢性创伤性脑病、慢性阻塞性肺疾病(COPD)、结核病、慢性腹泻、获得性免疫缺陷综合征(AIDS)、肠系膜上动脉综合征,等或其组合。
在一些实施方式中,自体免疫紊乱或病症是急性播散性脑脊髓(ADEM),阿狄森病、斑秃、强直性脊柱炎、抗磷脂抗体综合征(APS),自身免疫性溶血性贫血、自身免疫性肝炎、自身免疫性内耳病、大疱性类天疱疮、麸质过敏症、恰加斯病、慢性阻塞性肺疾病,克罗恩病(一种特发性炎性肠病"IBD")、皮肌炎、1型糖尿病、子宫内膜异位症、Goodpasture综合征、格雷夫斯病、格林-巴利综合征(GBS)、桥本氏病、化脓性汗腺炎、特发性血小板减少性紫癜、间质性膀胱炎、红斑狼疮、混合结缔组织病、硬斑病、多发性硬化(MS)、重症肌无力、嗜睡症、神经性肌强直(euromyotonia)、寻常型天疱疮、恶性贫血、多发性肌炎、原发性胆汁性肝硬化、类风湿性关节炎、精神分裂症、硬皮病、舍格伦综合征、颞动脉炎(也被称为 "巨细胞动脉炎")、溃疡性结肠炎(一种特发性炎性肠病"IBD")、血管炎、白癜风、韦格纳肉芽肿,等或其组合。
系统、机器、储存介质和接口
在没有计算机、微处理器、软件、模块或其它机器的情况下,本文所述的某些过程和方法通常不可进行。本文所述方法通常是计算机-执行方法,且方法的一或多部份有时通过一种或多种处理器(例如微处理器)、计算机或微处理器控制的装置进行。本文相关方法的实施方式通常可应用于本文所述系统、装置和计算机程序产物中的指令执行的相同或相关过程。与本申请所述方法有关的实施方式一般可应用于相同或相关的步骤,所述步骤通过其上存储有可执行程序的非暂时性的计算机可读存储介质进行,其中所述程序向微处理器提供指令以进行该方法,或其部分。本文术语“非瞬时”限定清楚,排除了瞬时性、传播信号(例如传输信号、电子传输、波(例如载波))。本文术语“非瞬时计算机可读介质”包括所有计算机可读介质除了瞬时、传播信号。在一些实施方式中,本文过程和方法通过自动化方法进行。在一些实施方式中,本文所述一种或多种步骤和方法通过处理器和/或计算机进行、和/或联合存储器进行。在一些实施方式中,自动化方法涵盖在软件、模块、微处理器、外设和/或含这些的机器中,所述方法(i)鉴定不一致读数,(ii)生成可映射性变化,(iii)根据可映射性变化选择读数子集,(iv)确定候选断裂点,(v) 过滤读数,(vi)比较读数与实质相似的候选断裂点,(vii)确定是否存在染色体改变或(viii)进行上述的组合。
序列读数、不一致读数、可映射性变化、根据可映射性变化选择的读数子集、过滤的读数的子集、含相似的候选断裂点的读数子集、参照的读数和/或测试对象的读数可经进一步分析和加工以确定是否存在染色体改变。读数、选择的读数、读数子集和定量的读数有时称为“数据”或“数据组”。在一些实施方式中,数据或数据组能表征为一种或多种特性或变量(如基于序列的[如GC含量、特异性核苷酸序列等]、功能特异性[如表达的基因、癌基因等]、基于定位的[基因组特异性、染色体特异性等及其组合)。在某些实施方式中,能根据一种或多种特性或变量将数据或数据组组织成有两个或多个维数的矩阵。能使用任何合适的特性或变量对组织成矩阵的数据分级。矩阵中的数据的非限定性示例包含通过参照的候选断裂点、测试样品的候选断裂点、参照的Z分数、样品的Z分数和断裂点位置所组织的数据。
机器、软件和接口可以用于执行本文所述方法。使用机器、软件和接口,用户可以进入、请求、查询或确定用于使用特定信息、程序或方法的选项(如映射序列读数、产生序列读数亚序列、映射序列读数亚序列、产生关系、产生可映射性变化、选择读数子集、比较读数和/或提供结果),例如,所述信息、程序或方法可涉及实现统计学分析算法、统计学显著性算法、统计学算法、重复步骤、验证算法和图示显示。在一些实施方式中,数据组可以作为输入信息由用户输入,用户可以通过任意合适的硬件介质(如闪存)下载一个或多个数据组,并且/或者用户可以从一个系统向另一个系统发送数据组以供后续处理和/或提供结果(如从一个测序器向计算机系统发送序列读取数据以定位序列读数;向计算机系统发送定位的序列数据以处理和生成结果和/或报告)。
系统通常包括一种或多种装置。各装置包括一种或多种存储器、一种或多种微处理器和指令。系统包括两个或更多装置时,一些或全部装置可位于相同位置、一些或全部装置可位于不同位置、所有装置可位于一个位置和/或所有装置可位于不同位置。系统包括两个或更多装置时,一些或全部装置可位于用户的相同位置、一些或全部装置可位于用户的不同位置、所有装置可位于用户的相同位置和/或所有装置可位于用户的一个或多个不同位置。
系统有时包括计算设备或测序设备,或计算设备和测序设备(即,测序机器和/或计算机器)。本文所述设备有时是机器。测序设备通常设置成接收生理核酸并生成对应于核酸的核苷酸碱基的信号。通常用包含核酸的样品“加载”测序设备并且加载到测序设备的样品的核酸一般经过核酸测序过程。本文所用术语“加载测序设备”是指使测序设备的部份(例如,流动池)接触核酸样品,测序设备的部份设置为接收样品用于进行核酸测序过程。在一些实施方式中,用多种样品核酸来加载测序设备。有时通过修饰样品核酸至适于对核酸测序的形式来产生变体(例如,通过连接(例如,通过连接在样品核酸的末端添加衔接子)、扩增、限制性消化等或其组合)。测序设备通常部份设置为进行合适的DNA测序方法,其生成对应于加载的核酸的核苷酸碱基的信号(例如,电子信号、检测器信号、图像等或其组合)。
对应于DNA序列的各碱基的一个或多个信号通常通过合适的过程加工和/或转化成碱基判定(例如,具体核苷酸碱基,例如,鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、腺嘌呤等)。来自加载的核酸的碱基判定的集合通常经处理和/或组成成一个或多个序列读数。在同一时间对多个样品核酸进行测序(即,多重化)的实施方式中,可使用合适的去多重化方法来将特定读数与它们来源的样品核酸相关联。可通过合适方法将序列读数与参照基因组比对,并且可对与参照基因组的部份比对的读数进行计数,如本文所述。
在系统中,测序设备有时关联和/或包括一个或多个计算设备。该一个或多个计算设备有时设置成进行以下过程中的一个或多个:从测序设备信号中生成碱基判定、组装读数(例如,生成读数)、去多重化读数、将读数与参照基因组比对、对与参照基因组中的基因组部份对齐的读数进行计数等。该一个或多个计算设备有时设置成进行以下额外过程中的一个或多个:标准化读数计数(例如,减少或去除偏好)、生成一个或多个确定(例如,确定胎儿分数、胎儿倍性、胎儿性别、胎儿染色体计数、结果、是否存在遗传变异(例如,是否存在胎儿染色体非整倍性(例如,染色体13、18和/或21三体性)))等。
在一些实施方式中,一个计算设备关联测序设备,并且在某些实施方式中,这一个计算设备进行以下过程中的大多数或全部:从测序设备信号生成碱基判定、组装读数、去多重化读数、比对读数和对与参照基因组的基因组部份对齐的读数进行计数、标准化读数计数和生成一个或多个结果(例如,胎儿分数,是否存在特定遗传变异)。在后一个实施方式中,其中一个计算设备关联测序设备,该计算设备通常包括一个或多个处理器(例如,微处理器)和具有由一个或多个处理器进行的指令的存储器以进行该过程。在一些实施方式中,这一个计算设备可以是测序设备本地的单核或多核计算设备(例如,位于同一位置(例如,相同地址、相同构造、相同层、相同室等))。在一些实施方式中,这一个计算设备与测序设备集成。
在一些实施方式中,系统中的多个计算设备关联测序设备,并且由系统进行的总过程的子集可在系统中的特定计算设备之间分配或划分。过程的总数的子集可在2个或更多个计算设备或其组之间以任意合适的组合划分。在某些实施方式中,由第一计算设备或其组进行从测序设备信号生成碱基判定、组装读数和对读数去多重化,由第二计算设备或其组进行对映射至参照基因组的部份的读数的比对和计数,并且由第三计算设备或其组进行对读数计数的标准化并提供一个或多个结果。在包括2个或更多个计算设备或其组的系统中,各特定计算设备可包括存储器、一个或多个处理器或其组合。多计算设备系统有时包括测序设备本地的一个或多个合适的服务器,并且有时包括非测序设备本地的一个或多个合适的服务器(例如,网页服务器、即时服务器、应用服务器、远端文件服务器、云服务器(例如,云环境、云计算))。
不同系统构造中的设备可生成不同类型的输出数据。例如,测序设备可输出碱基信号并且该碱基信号输出数据可转移至将碱基信号数据转化为碱基判定的计算设备。在一些实施方式中,碱基判定是来自一个计算设备的输出数据并且转移至另一个计算设备用于生成序列读数。在某些实施方式中,碱基判定不是来自特定设备的输出数据,并且相反,用于接收测序设备碱基信号以生成序列读数的同一设备中。在一些实施方式中,一个设备接收测序设备计数信号,生成碱基判定、序列读数和去多重化序列读数,并且输出样品的去多重化序列读数,其可转移至将测序读数与参照基因组比对的另一个设备或其组。在一些实施方式中,一个设备或其组可输出映射至参照基因组的部份(例如,SAM或BAM文件)的对齐的序列读数,并且这种输出数据可转移至将序列读数标准化(例如,将序列读数的计数标准化) 并生成结果(例如,胎儿分数和/或是否存在胎儿三体性)的第二计算设备或其组。来自一个设备的输出数据可以任意合适的方式转移至第二设备。例如,来自一个设备的输出处理有时置于物理存储装置上并且将该存储装置运输并连接至输出数据转移至的第二设备。有时由数据库中的一个设备来存储输出数据,并且第二设备评估来自相同数据库的输出数据。
在一些实施方式中,用于与设备(例如,计算设备,测序设备)交互。例如,用户可以向软件设置查询,所述软件随后可以通过因特网入口获得数据组,而在某些实施方式中,可指示可编程的微处理器根据给定参数获得合适的数据组。可编程的微处理器也可以提示用户选择由微处理器在给定参数基础上所选的一个或多个数据组选项。可编程的微处理器可以提示用户选择由所述微处理器基于通过因特网、其它内部或外部信息等发现的信息所选的一个或多个数据组选项。可以选定选项以选择方法、机器、设备(多个设备,本文还表示其复数形式)、计算机程序或其上存储有可执行程序的非暂时性的计算机可读存储介质的一个或多个数据特性选择、一种或多种统计学算法、一种或多种统计学分析算法、一种或多种统计学显著性算法、重复步骤、一种或多种确证算法和一种或多种图示显示。
本文所述的系统可以包括计算机系统的通用组件,例如网络服务器、笔记本系统、台式系统、手持系统、个人数字助理、计算机自助服务终端等。计算机系统可包括一种或多种输入方式例如键盘、触摸屏、鼠标、语音识别或其他方式以允许用户向系统输入数据系统。系统还可以包含一个或多个输出,包括但不限于显示屏 (如CRT或LCD)、扬声器、传真机、打印机(如激光、喷墨、击打式、黑白或彩色打印机)或用于提供信息的视觉、听觉和/或硬拷贝输出(如结果和/或报告)的其它方式。
系统中,可使所述输入和输出方式连接中央处理单元,该单元可含有运行程序指令的微处理器和存储程序编码与数据的存储器和其它组件。在一些实施方式中,处理可作为位于单一地理位置的单用户系统实施。在某些实施方式中,处理可作为多用户系统实施。在多用户执行的情况中,多中央处理单元可通过网络连通。所述网络可位于本地,涵盖建筑物的部分中的单一隔室、整个建筑物、跨多个建筑物、跨区域、跨国家或全球。所述网络可为私人的,由提供者所有并控制,或其可作为基于网络的服务而执行,用户进入网页来输入或找回信息。因此,在某些实施方式中,系统包含可由用户定位或遥控的一种或多种机器。用户可以访问在一个或多个位置的多于一台机器,并且数据可以以系列和/或平行方式作图和/或处理。因此,可利用任意合适的结构和控制来使用多机器绘图和/或处理数据,所述机器例如局部网络、远程网络和/或"云"计算平台。
在一些实施方式中,系统能包含通信接口。通信接口使软件和数据能在计算机系统和一种或多种外部设备之间转移。通信接口的非限定性示例可包括调制解调器、网络接口(例如以太网卡)、通信端口、PCMCIA槽和卡等。经通信接口转移的软件和数据通常为信号形式,其可以是能被通信接口接收的电子、电磁、光学和/ 或其它信号。信号经常通过通道提供给通信接口。通道经常携带信号,并能采用导线或线缆、光纤、电话线、手机连接、RF连接和其它通信通道实现。因此,在一个实施例中,可采用通信接口接收能由信号检测模块确定的信号信息。
数据能由任意合适的设备和/或方法输入,所述设备和/或方法包括但不限于人工输入设备或直接数据输入设备(DDE)。人工设备的非限定性示例包括键盘、概念键盘、触敏屏、光笔、鼠标、轨迹球、操纵杆、图形平板、扫描仪、数码相较、视频数字化仪和语音识别设备。DDE的非限定性示例包括条形码扫描仪、磁条编码、智能卡、磁墨字符识别、光学字符识别、光学标记识别、和周转文件。
在一些实施方式中,测序设备或装置的输出可以作为能通过输入设备输入的数据。在某些实施方式中,定位的序列读数可以作为能通过输入设备输入的数据。在某些实施方式中,核酸片段大小(例如,长度)可作为能够通过输入装置被输入的数据。在某些实施方式中,来自核酸捕获步骤(例如,基因组区域源数据)的输出可作为能够通过输入装置被输入的数据。在某些实施方式中,核酸片段大小(例如,长度)和来自核酸捕获步骤(例如,基因组区域源数据)的组合可作为能够通过输入装置被输入的数据。在某些实施方式中,模拟数据通过计算机虚拟(in silico)方法生成,并且所述模拟数据作为能通过输入设备输入的数据。术语“计算机模拟(in silico)”指用计算机进行的数据(例如序列读数亚序列)、数据操作、研究和实验。计算机模拟过程包括但不限于,根据本文所述过程映射序列读数、产生序列读数亚序列、映射读数和读数亚序列和加工映射的序列读数。
系统可包含用于运行本文所述方法的软件,并且软件能包含用于运行这种方法的一种或多种模块(如测序模块、逻辑处理模块、数据显示管理模块)。如本文所用,软件指在由计算机执行时进行计算机操作的计算机可读程序指令。一个或多个微处理器可执行的指令有时作为可执行代码提供,其在运行时可使一个或多个微处理器执行本发明方法。
本文所述模块可以软件形式存在,且软件中内置的指令(例如过程、例程、子例程)可通过微处理器执行或进行。例如,模块(例如软件模块)是执行特定方法和任务的程序的部分。术语“模块”指能用于较大装置或软件系统的独立功能单元。模块可包括指令组以通过一个或多个微处理器进行模块的功能。可通过使用合适的编程语言、合适的软件、和/或写成合适语言的代码(例如,本领域已知的计算机编程语言)和/或操作系统来执行模块的指令,其非限制性示例包括UNIX、 Linux、oracle、windows、Ubuntu、ActionScript、C、C++、C#、Haskell、Java、JavaScript、 Objective-C、Perl、Python、Ruby、Smalltalk、SQL、VisualBasic、COBOL、Fortran、 UML、HTML(例如,PHP)、PGP、G、R、S等或其组合。在一些实施方式中,本文所述的模块包括以采用合适的包(例如,S包或R包)的S或R编写的代码 (例如,脚本)。R、R源代码、R程序、R包和R存档可从镜像网站下载获得(R 综合档案网络(CRAN)[在线],[2013-04-24上线],从英特网于万维网统一资源定位符检索:cran.us.r-project.org)。CRAN是全世界ftp和web服务器的网络,其储存R的存档和代码的相同最新版本。
模块可变换数据和/或信息。一种或多种模块可用于本文所述方法,其非限制性示例包括序列模块、映射模块、不一致读数鉴定模块、片段化模块、读数选择器模块、映射表征模块、断裂点模块、比较模块、过滤模块、作图模块、结果模块,等或其组合。例如,图6中所示的实施方式作为示例,不一致读数鉴定模块15将不一致读数发送至映射表征模块50,后者配置为接受来自不一致读数鉴定模块15 的不一致读数。映射表征模块50可将映射表征发送至读数选择器模块120,后者配置为接受映射表征模块50的映射表征。读数选择模块120可将选择的读数子集 (例如不一致读数对)发送至比较模块130,后者配置为接受读数选择模块120的选择的读数子集。比较模块130可生成比较(例如将下述进行对比:(i)与候选断裂点关联并任选与一个或多个实质相似的断裂点关联的样品的不一致读数伴侣的数量和(ii)与候选断裂点关联并任选与一个或多个实质相似的断裂点关联的参照的不一致读数伴侣的数量)并将比较发送至结果模块140,后者配置为接受比较。然后结果模块140可确定测试对象中是否存在易位,并提供结果给终端用户或发送结果至另一模块(如做图模块)。模块有时受微处理器控制。在某些实施方式中模块或包括一种或多种模块的装置从其他模块、装置、组件、装置的外围设备或操作器聚集、集合、接受、获取、存取、回收提供和/或转移数据和/或信息或至其他模块、装置、组件、装置的外围设备或操作器。在一些实施方式中,通过包含一种或多种下述部件的装置将数据和/或信息(例如测序读数)提供至模块:一种或多种流动池、相机、检测器(例如光检测器、光电池、电学检测器(例如正交调幅检测器、频率和相调节检测器、相锁定环检测器)、计数器、感应器(例如压力、温度、体积、流动、重量的感应器)、流体操作设备、数据输入装置(例如键盘、鼠标、扫描仪、声音识别软件和麦克风、触笔等)、打印机、显示器(例如LED、LCT或 CRT)等或其组合。例如,有时及其或装置的操作器提供常量、阈值、公式或预定值至模块。模块通常配置为从微处理器和/或存储器转移数据和/或信息或至其他模块或装置。模块通常配置为将数据和/或信息转移至另一合适模块或机器,或从其接受数据和/或信息。模块可操作和/或变换数据和/或信息。来自或变换自模块的数据和/或信息可转移至其他合适机器和/或模块。包括模块的装置可包括至少一个微处理器。包括模块的装置包括微处理器(例如一种或多种微处理器),该微处理器可进行和/或执行模块的一种或多种指令(例如过程、例程和/或子例程)。在一些实施方式中,模块用一种或多种外部处理器操作(例如内部或外部网络、服务器、储存设备和/或储存网络(例如云))。
数据和/或信息可为合适的形式。例如数据和/或信息可为数字或模拟的。在一些实施方式中,有时,数据和/或信息可为包裹、字节、字符或比特。在一些实施方式中,数据和/或信息可为任何收集的、集合的或有用的数据或信息。数据和/或信息的非限制性示例包括合适的媒介、图片、视频、声音(例如听得见或听不见的频率)、数字、常量、值、物体、时间、函数、指令、图谱、参照、序列、读数、映射的读数、水平、范围、阈值、信号、显示、表示,或其变换。模块可接受或接收数据和/或信息、变换数据和/或信息为第二形式、和提供或转移该第二形式至装置、外围设备、组件或其他模块。模块可进行一种或多种下述非-限制性函数:例如映射序列读数、鉴定不一致读数对、生成序列读数亚序列、表征多个序列读数亚序列的可映射性、生成可映射性变化、生成可映射性阈值、过滤、根据可映射性变化和/或可映射性阈值选择不一致读数伴侣的子集、鉴定候选断裂点、鉴定断裂点、作图、生成比较(例如比较(i)与候选断裂点以及任选一个或多个基本相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个基本相似断裂点关联的来自参照的不一致读数伴侣的数量)和/或确定结果(例如确定是否存在染色体改变)。在某些实施方式中,微处理器可进行模块中的指令。在一些实施方式中,需要一个或多个微处理器进行模块或模块组中的指令。模块可提供数据和/或信息至其他模块、装置或源并可接收其他模块、装置或源的数据和/ 或信息。
计算机程序产品有时物化在非瞬时计算机-可读介质上、和有时实体物化在非-瞬时计算机-可读介质上。模块有时储存在非瞬时计算机可读介质(例如磁盘、驱动器)或存储器中(例如随机存取存储器)。能执行来自模块的指令的模块和微处理器可位于装置内或不同装置内。能执行模块的指令的模块和/或微处理器可位于用户的相同位置(例如局部网络)或用户的不同位置(例如远程网络、云系统)。方法与两个或更多模块联合进行的实施方式中,模块可位于相同装置、一种或多种模块可位于相同物理位置中的不同装置中、和一种或多种模块可位于不同物理位置中的不同装置中。
在一些实施方式中,装置包括至少一个微处理器用于进行模块中的指令。映射至参照基因组的序列读数有时通过微处理器存取,所述微处理器运行进行本文所述方法的指令。通过微处理器存取的序列读数可在系统的存储器内,且可在访问读数后对其进行存取并将其置于和系统的存储器内。在一些实施方式中,装置包括微处理器(例如一种或多种微处理器),该微处理器可进行和/或执行模块的一种或多种指令(例如过程、例程和/或子例程)。在一些实施方式中,装置包括多个微处理器,例如协同和并行工作的微处理器。在一些实施方式中,装置用一种或多种外部微处理器操作(例如内部或外部网络、服务器、储存设备和/或储存网络(例如云))。在一些实施方式中,装置包括模块。在某些实施方式中,装置包括一个或多个模块。装置包括模块通常可从其他模块接受和传递一种或多种数据和/或信息和至其他模块。在某些实施方式中,装置包括外围设备和/或组件。在某些实施方式中装置可包括一种或多种外围设备或组件,其可将数据和/或信息传递至其他模块、外围设备和/或组件和从其传递。在某些实施方式中,装置与提供数据和/或信息的外围设备和/或组件交互。在某些实施方式中外围设备和组件协助装置行使功能或直接与模块交互。外围设备和/或组件的非限制性示例包括合适的计算机外围设备、I/O或储存方法或设备,包括不限于扫描仪、打印机、显示器(例如监视器、LED、LCT或CRT)、相机、麦克风、平板电脑(例如,书写板)、触摸屏、智能手机、移动电话、USBI/O设备、USB存储器、键盘、计算机鼠标、数码笔、调制解调器、硬盘、跳跃引擎、闪存驱动器、微处理器、服务器、CD、DVD、图形卡、专用I/O设备(例如序列发生器、光电池、光电放大管、光阅读器、感应器、等)、液体处理部件、网络交互控制器、ROM、RAM、无线传递设备(蓝牙、WiFi 等)、万维网(www)、网络、计算机和/或其他模块。
软件常在含有程序指令的程序产品上提供,所述指令记录在非瞬时计算机可读介质上,包括但不限于,磁性介质(例如软盘、硬盘、ROM和磁带),光学介质(例如CD-ROM、DVD等),磁光盘、闪存盘、RAM等和其它可记录所述程序指令的此类介质。在线执行中,由组织维持的服务器和网站能被设置成向远端用户提供软件下载,或者远端用户可以使用由组织维持的远端系统来远端获取软件。软件可获得或接收输入信息。软件可以包含特定获得或接收数据的模块(如接收序列读取数据和/或定位的读取数据的数据接收模块)并且可以包含特定处理数据的模块(如处理数据的处理模块(如过滤器、提供结果和/或报告)。术语“获得”和“接收”输入信息指通过计算机通信方式从本地或远端位点、人工数据输入或任意其它接收数据的方法来接收数据(如序列读数、定位读数)。输入信息可在其接收的相同位置生成,或其可在不同位置生成并传送至接收位置。在一些实施方式中,输入信息在处理前经修饰(例如置于利于处理的形式中(例如表格))。
在一些实施方式中,提供计算机程序产品,例如包括内含非瞬时计算机可读程序编码的非瞬时计算机可用介质的计算机程序产品,所述计算机可读程序编码适于运行以执行方法,所述方法包括:(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个基本相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个基本相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
软件能用于进行本文所述方法或过程的一个或多个或所有步骤,包括但不限于:鉴定不一致读数(例如15)、生成序列读数亚序列、表征序列读数亚序列的可映射性、生成可映射性变化(例如50)、鉴定候选断裂点和/或断裂点、选择读数伴侣的子集(例如120)、比较含相似断裂点的读数子集(例如130)、过滤(例如20,30, 40,50,70,80,90,100,和110)、数据处理、确定是否存在染色体改变(例如140)、生成结果和/或根据生成的结果提供一个或多个建议,如下文详细描述。本文术语“软件”指其上具有可执行程序的非瞬时计算机可读存储介质,其中所述程序给微处理器提供指令以进行功能(例如方法)。在一些实施方式中,其上具有可执行程序的非瞬时计算机可读存储介质指令微处理器从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣。在一些实施方式中,其上具有可执行程序的非瞬时计算机可读存储介质指令微处理器表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化和候选断裂点。在一些实施方式中,其上具有可执行程序的非瞬时计算机可读存储介质指令微处理器根据可映射性变化和/或可映射性阈值选择所述不一致读数伴侣的子集。在一些实施方式中,其上具有可执行程序的非瞬时计算机可读存储介质指令微处理器比较(i)与候选断裂点以及任选一个或多个基本相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个基本相似断裂点关联的来自参照的不一致读数伴侣的数量。在一些实施方式中,其上具有可执行程序的非瞬时计算机可读存储介质指令微处理器确定样品是否存在一个或多个染色体改变。在一些实施方式中,其上具有可执行程序的非瞬时计算机可读存储介质指令微处理器:
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个基本相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个基本相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
在某些实施方式中,软件能包含一种或多种算法。算法可以用于根据有限的序列指令来处理数据和/或提供结果或报告。算法经常是用于完成任务的定义指令表。从起始状态开始,所述指令可以描述通过定义的一系列连续的状况进行并且以最终结束状态终止的计算。从一个状态转换成下一个状态不必是确定性的(例如,一些算法会纳入任意性)。作为非限定性示例,算法能是搜索算法、分类算法、归并算法、数值算法、图解算法、字符串搜索算法、建模算法、计算几何(几何学) 算法、组合算法、机器学习算法、密码术算法、数据压缩算法、分析算法等。算法能包含一种算法或者两种或更多种算法的组合应用。算法可以是任意合适的复杂性分类和/或参数化的复杂性。算法能用于计算和/或数据处理,而在一些实施方式中能用在确定性的或盖然论/预测方法中。算法能通过使用合适的程序语言(非限定性示例是C、C++、Java、Perl、R、S、Python、Fortran等)植入到计算机环境中。在一些实施方式中,算法能构建或改进成包含误差容限、统计学分析、统计学显著性和/或与其它信息或数据组的比较(如当使用神经网络或簇算法时的应用)。
在某些实施方式中,可将若干算法植入软件以便于使用。在一些实施方式中,这些算法能采用原始数据训练。对各种新的原始数据样品而言,所述经训练的算法可以生成代表性的经处理的数据组或结果。相较经处理的父数据组(亲本数据集)而言,经处理的数据组有时复杂性降低。在一些实施方式中,基于经处理的数据组,能根据灵敏度和特异性来评价经训练的算法的实现。在某些实施方式中,可以鉴定并利用有最高灵敏度和/或特异性的算法。
在某些实施方式中,模拟数据可协助数据处理,例如通过算法的训练或算法的测试。在一些实施方式中,模拟数据包含不同组序列读数的多种假定取样。模拟数据可基于真实群体中可能的预期情况或可被歪曲以测试算法和/或分配正确的分类。模拟数据本文中还指“实质”数据。在某些实施方式中模拟可通过计算机程序进行。使用模拟数据组中的一个可能步骤是评价经鉴定结果的置信度,如随机取样匹配或最佳代表原始数据的良好程度。一种方法是计算概率值(p值),该值评估随机样品比选定样品更好的概率。在一些实施方式中,可评估经验模型,其中假设至少一个样品匹配参照样品(具有或没有分辨出(resolved)的变异)。在一些实施方式中,其他分布例如泊松分布可用于定义概率分布。
在某些实施方式中,系统可以包括一个或多个微处理器。微处理器可连接通信总线。计算机系统可包括主存储器(经常为随机读取存储器(RAM)),也可包括第二存储器。在一些实施方式中,存储器包括非-瞬时计算机-可读储存介质。二级存储器可包括例如,硬盘设备和/或可移除储存设备、代表软盘设备、磁带设备、光盘设备、存储卡等。移动存储驱动器经常读取和/或写入可移动的储存单元。可移动储存单元的非限定性示例包括能读取或写入例如移动存储驱动器的软盘、磁带、光盘等。可移动储存单元可包括其内储存有计算机软件和/或数据的非瞬时计算机-可用的储存介质。
微处理器可以执行系统中的软件。在一些实施方式中,可以对微处理器编程以自动运行本文所述用户可以进行的任务。因此,微处理器或者由这种微处理器执行的算法能几乎不需要监控至没有监控或者来自用户的输入(如可以编写软件以自动化实施功能)。在一些实施方式中,所述处理具有很大复杂性以至于单个个人或一组人不能在足够短的时间范围内实行所述处理以确定是否存在染色体改变。
在一些实施方式中,第二存储器可包括允许计算机程序的其它相似方式或装载到计算机系统的其它指令。例如系统可包括可移除储存单元和交互设备。这种系统的非限定性示例可包括程序模块和模块接口(例如视频游戏设备中发现的那种)、可移动存储芯片(例如EPROM或PROM)以及关联插座和允许软件和数据从可移动储存单元转移到计算机系统的其它可移动储存单元和接口。
在一些实施方式中,一个实体可在本文所述方法、系统、机器、设备或计算机程序产物中生成序列读数、映射序列读数、鉴定不一致读数对、并使用不一致读数对。在某些实施方式中,本文所述方法、系统、机器、设备或计算机程序产品中,映射至参照基因组的序列读数有时从一个实体转移至第二实体由其使用。
在一些实施方式中,一个实体生成序列读数和第二实体映射那些序列读数至参照基因组。第二实体有时鉴定不一致读数和在本文所述方法、系统、机器或计算机程序产品中采用该不一致读数。在某些实施方式中第二实体转移映射的读数至第三实体、和第三实体鉴定不一致读数并在本文所述方法、系统、机器或计算机程序产品中采用该不一致读数。在某些实施方式中第二实体鉴定不一致读数并将该不一致读数转移至第三实体、和第三实体在本文所述方法、系统、机器或计算机程序产品中采用该鉴定的不一致读数。在涉及第三实体的实施方式中,第三实体有时与第一实体相同。即,第一实体有时转移序列读数至第二实体,第二实体可映射序列读数至参照基因组和/或鉴定不一致读数,且和第二实体可转移该映射的和/或不一致读数至第三实体。第三实体有时可在本文所述方法、系统、装置或计算机程序产品中采用该映射的和/或不一致读数,其中所述第三实体有时与第一实体相同,而有时该第三实体与第一或第二实体不同。
在一些实施方式中,一个实体从妊娠雌性获得血液、任选从血液(例如从血浆或血清)分离核酸血液、和转移所述血液或核酸至第二实体,所述第二实体从所述核酸生成序列读数。
图8显示计算环境510的非-限制性示例,其中可执行本文所述各种系统、方法、算法、和数据结构。计算环境510仅为合适的计算环境的一个实施例,并非旨在限制本文所述系统、方法、和数据结构的使用或功能范围。计算环境510也不应解释为对计算环境510中所示的任何一种组件或其组合的任何依赖或需求。在某些实施方式中,可使用图8中所示的系统、方法、和数据结构的子集。本文所述系统、方法、和数据结构可用其他通常目的或特定目的大量计算系统环境或配置进行操作。已知的合适计算系统、环境、和/或配置的示例包括但不限于个人计算机、服务器计算机、瘦客户机、厚客户机、手持-或膝式设备、多处理器系统、基于微处理器的系统、顶置盒、可编程客户电子装置、网络PC、迷你计算机、主机计算机、包括任何上述系统或设备分布的计算环境等。
图8的操作环境510包括常规目的计算设备,其为计算机520形式,包括处理单元521、系统存储器522、和可操作地偶联各种系统组件(包括系统存储器522) 至处理单元521的系统总线523。可仅有一个或可有多于一个处理单元521,从而计算机520的微处理器包括单中央-处理单元(CPU)或多种处理单元,通常称为平行处理环境。计算机520可为传统计算机、分布计算机,或任何其他类型计算机。
系统总线523可为任何数种总线结构,包括存储器总线或存储器控制器、外围设备总线、和局部总线,使用各种总线构架中的任何。系统存储器还可简单称为存储器,仅包括读数存储器(ROM)524和随机存取存储器(RAM)。基本输入/ 输出系统(BIOS)526存于ROM524,BIOS包含例如在启动时协助在计算机520 元件之间转移信息的基本例程。计算机520还可包括硬盘驱动器接口527用于从其读取和写入硬盘(未显示),磁盘驱动器528用于从其读取或写入可移除磁盘 529,和光盘驱动器530用于从其读取或写入可移除光盘531,例如CD ROM或其他光学介质。
硬盘驱动器527、磁盘驱动器528、和光盘驱动器530分别通过硬盘驱动器接口532,磁盘驱动器接口533、和光盘驱动器接口534连接至系统总线523。驱动器和其关联的计算机-可读介质提供计算机520的计算机-可读指令、数据结构、程序模块和其他数据的固定存储器。任何类型的计算机可存取并可存储数据的计算机- 可读介质例如磁盒、闪存卡、数码视频盘、贝努利筒、随机存取存储器(RAM)、只读存储器(ROM)等可用于该操作环境。
许多程序模块可存于硬盘、磁盘529、光盘531、ROM 524或RAM上,包括操作系统535、一种或多种应用程序536、其他程序模块537、和程序数据538。用户可通过输入设备例如540和设备542键入命令和信息至个人计算机520。其他输入设备(未显示)可包括麦克风、操纵杆、游戏板、圆盘式卫星电视天线、扫描仪或等。这些和其他输入设备通常通过偶联至系统总线的串行端口接口546连接至处理单元521,但可不通过其他结构连接,例如并行端口、游戏端口或通用串行总线 (USB)。监视器547或其他类型的显示设备还通过接口例如视频适配器548连接至系统总线523。除监视器外,计算机通常包括其他外围设备输出设备(未显示) 例如扬声器和打印机。
计算机520可在联网环境中操作,使用逻辑连接至一种或多种远程计算机、例如远程计算机549。这些逻辑连接可通过偶联至或部分的计算机520的通信设备或以其他方式实现。远程计算机549可以是其他计算机、服务器、路由器、网络 PC、对等设备或其它常见的网络节点,且一般包括以上关于计算机520描述的多个或所有的元件,虽然图8仅显示存储器储存设备550。图8中所描绘的逻辑连接包括局域网(LAN)551和广域网(WAN)552。这些联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机520通过网络接口或适配器553连接到局域网551,其为一种通信设备。当在WAN联网环境中使用时,计算机520通常包括调制解调器554,一种通信设备,或用于通过广域网552建立通信的其它类型通信设备。调制解调器554可以是内置的或外置的,可经由串行端口接口546连接到系统总线523。在联网环境中,相关于计算机520所示的程序模块或其部分可被存储在远程存储器存储设备中。应当理解,所示的网络连接是示例性的,并且可使用在计算机之间建立通信链路的其它手段。
某些系统,机器和计算机程序产品实施方式
本发明一些方面提供一种包括存储器和一个或多个微处理器的系统,其中存储器包括指令,且一个或多个微处理器设置为按照所述指令进行用于确定样品核酸中是否存在一个或多个染色体改变的过程,该过程包括
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
本发明一些方面还提供一种包括存储器和一个或多个微处理器的方法,其中存储器包括指令,且一个或多个微处理器设置为按照所述指令进行用于确定样品核酸中是否存在一个或多个染色体改变的过程,该过程包括
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
本发明一些方面还提供非-瞬时计算机-可读储存介质,其上存有可执行程序,该程序设置为指令微处理器执行以下操作
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
某些方面提供确定是否存在染色体改变的计算机执行方法,包括
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
某些方面中,还提供包含一个或多个微处理器和存储器的系统,其中,存储器包含可由所述一个或多个微处理器执行的指令,并且其中,存储器包含映射至参照基因组的核苷酸序列读数,其中序列读数是测试对象样品的循环无细胞核酸的读数且其中指令引导一个或多个微处理器进行
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
一种包括存储器和一个或多个微处理器的系统,其中存储器包括指令,且一个或多个微处理器设置为按照所述指令进行用于确定样品核酸中是否存在一个或多个染色体改变的过程,该过程包括
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。在一些实施方式中,系统包括一个或多个机器。在一些实施方式中,系统包括配置为生成序列读数的测序机器。在一些实施方式中,本文系统包括在一个机器中。
某些方面中,还提供包含一个或多个微处理器和存储器的机器,其中,存储器包含可由所述一个或多个微处理器执行的指令,并且其中,存储器包含映射至参照基因组的核苷酸序列读数,其中序列读数是测试对象样品的循环无细胞核酸的读数且其中指令引导一个或多个微处理器进行
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
某些方面还提供包含一个或多个处理器和存储器的设备,其中,存储器包含可由所述一个或多个处理器执行的指令,并且其中,存储器包含映射至参照基因组的核苷酸序列读数;且其中可由所述一个或多个处理器执行的指令被配置为进行
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
某些实施方式中,还提供包含一个或多个微处理器和存储器的设备,其中所述存储器包括(i)由所述一个或多个处理器执行的指令和(ii)从成对末端序列读数鉴定的不一致读数对,其中所述成对末端序列读数是测试对象样品的循环无细胞核酸的读数且其中一个或多个处理器执行的指令被配置为
(a)表征与参照基因组比对的各不一致读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化和候选断裂点;
(b)根据(a)中的可映射性变化选择不一致读数伴侣的子集,
(c)针对(b)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(d)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
在某些实施方式中,还提供有形地包含在非瞬时计算机可读介质上的计算机程序产品,其包含指令,所述指令在被一个或多个微处理器执行时被配置为
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
本文还提供一种非瞬时计算机可读存储介质,其上储存有可执行的程序,其中所述程序对微处理器下指令,以进行如下操作:
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度,从而提供不一致读数伴侣的可映射性变化;
(c)根据(b)的可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
变换
在一些实施方式中,如本文所述确定是否存在染色体改变可显示为核酸序列读数变换为对象的细胞核酸(例如胎儿细胞核酸)的表示。对象的细胞核酸表示通常反映具体染色体或其部份的染色体改变,因此,所述表示通常是该对象的核酸的性质。例如,将多个相对较小的序列读数转换成一个或多个相对较大的染色体的表示,能够以转化形式观察。作为说明,在产生染色体21(其长约4千7百万个碱基) 的过程中,采用大约36个碱基对长度的读数,成千上万个比染色体小至少100,000 倍的读数被转化成显著较大的染色体的展示。所述染色体的展示的产生通常涉及若干读数操作(例如,映射、过滤、分析和/或标准化),以获得相对较大的染色体的展示,如本文所述。通常采用多个操作,其可能需要应用一台或多台计算机,通常为多台计算机平行合作。
当采用来自妊娠雌性的样品提供胎儿染色体的染色体展示时,鉴于多数读数通常来自母体核酸,而少数读数通常来自胎儿核酸,所述转化进一步明显。母体核酸的读数通常相对于胎儿核酸读数占优势,而多数母体核酸读数常遮蔽胎儿染色体的展示。典型的母体读数大背景会使胎儿与母体染色体核酸之间的差异变模糊,并且,针对这样的背景获得胎儿染色体的展示涉及到反褶积母体读数的贡献的处理,如本文所述。
在一些实施方式中,确定是否存在染色体改变获自序列读数从对象(例如妊娠雌性)变换为表示对象(例如母亲和/或胎儿)中的现存结构(例如基因组,染色体或其区段)。在一些实施方式中,确定是否存在染色体改变包括序列读数从第一对象(例如妊娠雌性)变换为结构(例如基因组、染色体或其区段)的复合表示,和复合表示的第二变换,其产生对第一对象(例如妊娠雌性)和/或第二对象(例如胎儿)中存在结构的表示。在一些实施方式中,确定是否存在染色体改变包含将来自第一对象(例如,雌性对象、妊娠雌性)的序列读数变换成第二对象(例如,胎儿) 中存在的结构的展示(例如,基因组、染色体或其区段)。
有时,本文的变换方法包括:从获自怀有胎儿的妊娠雌性对象的样品中的核酸读数,确定胎儿中易位的存在与否。在一些实施方式中,本文的变换方法可包括:从获自怀有胎儿的妊娠雌性对象的样品中的核酸读数制备(例如,确定、检视、展示、提供)胎儿的染色体展示(例如,染色体易位)。
如上所述,数据有时从一种形式变换成另一种形式。本文使用术语“变换的”、“变换”和其语法衍生形式或等同形式指从物理起始材料(如测试对象和/或参照对象样品核酸)变成物理起始材料的数字表现(如序列读数数据)的数据变化,而在一些实施方式中,其包括将所述数字表示进一步变换成能用于提供结果的一种或多种数值或图示。在某些实施方式中,所述数字形式表示的数据的一种或多种数值和/或图示能用于表示测试对象的物理基因组的显示(如虚拟表示或直观表示是否存在基因组插入、复制或删除;表示是否存在与医学病症相关联的序列的物理量变化)。有时将虚拟表示进一步变换成所述起始材料的数字表示的一种或多种数值或图示。这些方法能把物理起始材料变换成数值或图示,或者表示测试对象基因组的物理存在。
在一些实施方式中,变换数据组通过降低数据复杂性和/或数据维数来帮助提供结果。有时在将物理起始材料变换成所述起始材料的虚拟表示(如物理起始材料的序列读数表示)的处理过程中降低数据组复杂性。合适的特性或变量都能用于降低数据组的复杂性和/或维数。能选择用作数据处理的靶标特征的特征的非限定性示例包括GC含量、胎儿性别预测、不一致读数对、可映射性变化、候选断裂点确定、读数计数(例如含实质相似的候选断裂点的计数)、断裂点确定、鉴定染色体改变、特定基因或蛋白质鉴定、癌症鉴定、疾病、遗传基因/性状、染色体异常、生物学分类、化学分类、生物化学分类、基因或蛋白质分类、基因本体学(gene ontology)、蛋白质本体学(protein ontology)、共调基因、细胞信号转导基因、细胞循环基因、与前述基因有关的蛋白质、基因变异、蛋白质变异、共调基因、共调蛋白、氨基酸序列、核苷酸序列、蛋白质结构数据等,及以上组合。降低数据组复杂性和/或维数的非限定性示例包括:使多重序列读数简化为分布图,使多重序列读数简化为数值(如标准化的值、Z-分值、p值);使多种分析方法简化为概率图或单点;对导出的量进行主成分分析等或其组合。
实施例
仅以说明的形式而非限制的形式提供以下实施例。下述实施例说明某些实施方式但不限制本技术。本领域技术人员不难了解,可改变或调整各种非关键参数而获得基本相同或相似的结果。
实施例1:方法发展(模拟)
通过连接来自人参照基因组(hg19)的两个独立区域用计算机模拟结构排列。序列设计为双末端独特、一个末端独特且另一个源自重复序列、或双末端源自重复元件。由于报道的ccf DNA的平均长度为约166bp,模拟读数的片段长度限制为140-180bp。此外,沿着片段长度系统性生成断裂点位置。没有测序错误的情况下,生成2 x 100成对末端序列读数,其中各伴侣对重叠多至60碱基。就模拟片段 140bp,通过Bowtie确定各伴侣对的MAPQ分数特征与断裂点位置和读数长度的函数(图2A-2D)。当断裂点接近片段边缘(图2A)时,就伴侣1而言,短读数长度表明较低的映射质量,而长读数长度具有较高映射质量。伴侣2不受断裂点影响。随着断裂点沿着片段长度经过,观察到交互行为,其中表现两个伴侣对表现出随着读数长度增加而映射质量下降(图2)。
无论模拟片段的长度几何,映射特征一致,并且提供不一致成对末端读数的信号,其相对人参照基因组含有片段特异性重排。使用两个度量描述给定的成对末端读数的映射/比对特征。第一个是各伴侣的读数长度和MAPQ分数的线性模型的平均斜率。第二个是各伴侣的比对分数中最大差异的平均值。确定140碱基的模拟片段长度的所有断裂点处的平均斜率量度的总体分布(图3)。含中央定位的断裂点的模拟片段表现出斜率中的最大变化和比对分数中的差异。当重复元件纳入模拟中时,观察到量度的变异增加(图4)。然而,除了低序列复杂性之外,读数长度保持足够的独特性以允许正确比对,这支持了检测基因组重复区域的结构排列的灵活性。
样品获取和血液处理
临床样品在研究审查委员会(IRB)批注内的临床方案(Compass IRB 00508或Western IRB 20080757)下收集。在进行任何相关程序(包括静脉穿刺收集多至20mL 全血至EDTA-K2喷雾干燥的10mL真空采血管(EDTA管;BD公司(Becton Dickinson)(美国新泽西州富兰克林湖市))之前对象提供书写的知情同意书。冷冻样品并存于湿冰中并在采血6小时内加工至血浆。处理血液并如前所述分离DNA (Palomaki等,(2011)Genet Med 13:913-20)。如前所述,从提取的ccf DNA制备测序库(Jensen TJ等.,(2013)Plos One 8:e57381)。对于基因组DNA,测序库根据操作手册制备(TruSeq;Illumina公司)。对所有制备的库或库混合物而言,用Illumina HiSeq2000测序仪进行100循环的成对末端测序。
数据和结果
本研究使用四个样品(表2)。混合物B是剪切以模拟ccf DNA片段长度分布的基因组DNA样品,并以各种浓度与获自无已知结构重排的非妊娠母体供体血浆的ccfDNA混合。基因组DNA获自科里尔研究所(Coriell Institute)。
表2-本研究所用4个样品的描述和核型结果。
Figure BDA0002496369110001401
表3所示的数据过滤步骤显示基于不一致性、碱基分数支链、映射/比对特征和假阳性一致检查的成对末端读数选择。
表3-在各数据处理步骤时各测序样品的序列读数计数
Figure BDA0002496369110001411
假阳性一致检查使用对照数据组并移除两个数据组中发现的结构重排。在两个测试和汇集的“对照”组(图5)中发现染色体2和5之间有推定的结构重排,表明该区域可能为假阳性。后续数据过滤鉴定65和76推定的含结构重排的成对末端读数,其Z分数>5,分别对应于混合物B和血浆C的2和1区域。根据等式A 计算Z分数;
Figure BDA0002496369110001412
其中a和b是测试和汇集的“对照”组,且基于1Mb分辨率处的推定的易位事件的分布,其假定为正常。
混合物B是来自已知t(2;22)(q23;q13)易位的具有剪切的基因组DNA的模式系统,其片段化以与ccf DNA的大小相似,并以各种浓度与非妊娠血浆样品混合。数据过滤后,在染色体4(152Mb)和11(67Mb)以及染色体2(149Mb)和22(45 Mb)之间鉴定到两个推定的易位。虽然推定的染色体4/11易位限制性很高(Z=6.50, p=4.02e-11),但连接的边界(人工组装的213bp区域的位置106)含数个标注弱的序列(表4),表明其很可能为假阳性。第二显著区域涉及染色体2p23和22q13,其Z=7.52(p=2.74e-14)。35个读数(15、30、50、和100%的基因组剪切样品的分别为4、4、0和27个读数)的处理后重新组装,表明清楚的结构重排而没有侧接重复元件。下述事实支持所观察到的染色体重排的存在:染色体2和22 之间没有鉴定到其他区域,且结构重排的重新组装证据支持前述注释。
表4-针对混合物B,发现推定易位的从头组装的213bp区域的BLAT9结果显著
Figure BDA0002496369110001421
实施例2:
来自母体血浆的循环无细胞(cff)DNA的大规模平行测序开始作为非侵入性产前测试的主要技术。建立最完善的方法利用测序以高灵敏度和特异性检测某些常染色体三体性和其他拷贝数量变异。虽然前述了CNV的检测,导致拷贝数量中性事件(包括平衡易位)的染色体改变已证实更具挑战性并且尚无法从ccf DNA以非侵入性方式检测。
于第15周收集38岁妊娠妇女的全血,在进行侵入性程序前妊娠5天。母体年龄较大和已知其姐妹带有平衡易位作为羊膜穿刺术的指示。随后的核型分析的结果揭示染色体8和11的短臂之间发生胎儿易位[核型结果:平衡易位46XY, t(8;11)(p11.2;p11.2)]。
在进行影响个体的方法之前,开发分析的、实验室的模型,从而可以检测胎儿易位(参见实施例1)。进行计算机数据建模以评估多个方法,最终利用长度短的ccf DNA和成对末端测序来构建源自碱基递增比对的映射特征。然后,生成具有已知易位的含基因组DNA样品的混合物以模拟妊娠妇女的ccf DNA中存在的受影响DNA的比例以优化数据过滤方法。
开发这些分析方法之后,从怀有受影响胎儿的母体中分离血浆ccf DNA并分析。该样品中的胎儿分数为16%,且DNA的质量足以生成标准测序库。用Illumina 技术进行测序,其产生2.7 x 109总成对末端测序读数。开发的方法应用于以单碱基分辨率鉴定染色体断裂点是否存在及其精确位置。所用方法清楚地鉴定已知易位 (p=1.2 x 10-8)并且使其他的可能性下降,使得胎儿核型的推定扩展能包括碱基特异性断裂点t(8;11)(34880907;44556834)(hg19)(图1)。此外,在染色体11和染色体 8的连接处鉴定到6bp删除,这在交互重排中不存在(图1C)。
综上,这些数据证实了通过测序母体血浆的ccf DNA以碱基特异分辨率进行非侵入性检测和平衡胎儿易位事件的表征的概念。
实施例3:实施方式示例
下述实施例说明某些实施方式但不限制本技术。
A1.一种包括存储器和一个或多个微处理器的系统,其中存储器包括指令,且一个或多个微处理器设置为按照所述指令进行用于确定样品核酸中是否存在一个或多个染色体改变的过程,该过程包括
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度;
(c)根据可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
A1.1.一种包括测序设备和一个或多个计算设备的系统,
所述测序设备设置成产生对应于加载到所述测序设备中的核酸的核苷酸碱基的信号,所述核酸是来自测试对象样品的循环无细胞核酸,或者加载到所述测序设备中的核酸是所述循环无细胞核酸的修饰变体;并且
所述一个或多个计算设备包括存储器和一个或多个处理器,所述存储器包括可由所述一个或多个处理器执行的指令并且所述可由所述一个或多个处理器执行的指令设置为:
从所述信号产生成对末端序列读数并且将所述序列读数比对至参照基因组;
从所述成对末端序列读数鉴定不一致读数对,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度;
(c)根据可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
A1.2.如实施方式A1或A1.1所述的系统,其中所述一种或多种染色体改变包括染色体易位。
A1.3.如实施方式A1或A1.1所述的系统,其中所述一种或多种染色体改变包括染色体删除。
A1.4.如实施方式A1或A1.1所述的系统,其中所述一种或多种染色体改变包括染色体倒置。
A1.5.如实施方式A1或A1.1所述的系统,其中所述一种或多种染色体改变包括异源插入。
A1.6.如实施方式A1-A1.5中任一项所述的系统,其中所述系统包括确定一个或多个候选断裂点的位置。
A2.如实施方式A1-A1.5中任一项所述的系统,其中(b)中的表征包括产生各不一致读数伴侣的各序列读数亚序列的长度与可映射性之间的拟合关系。
A3.如实施方式A1–A2中任一项所述的系统,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣短5个碱基或更少。
A3.1.如实施方式A3所述的系统,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣短1个碱基或2个碱基。
A4.如实施方式A3所述的系统,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣逐渐缩短。
A5.如实施方式A4所述的系统,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣以约1个碱基的增量逐渐缩短。
A6.如实施方式A2-A5中任一项所述的系统,其中所述可映射性变化包括拟合关系的斜率。
A7.如实施方式A1-A6中任一项所述的系统,其中(c)中的选择根据可映射性阈值进行。
A8.如实施方式A1-A7中任一项所述的系统,其包括过滤所述不一致读数伴侣。
A9.如实施方式A8所述的系统,其中所述过滤包括移除不一致读数伴侣之一或二者。
A10.如实施方式A8或A9所述的系统,其中所述过滤选自以下的一个或多个: (i)移除低质量读数,(ii)移除一致读数,(iii)移除PCR复制的读数,(iv)移除映射至线粒体DNA的读数,(v)移除映射至重复元件的读数,(vi)移除不能映射的读数, (vi)移除含步进式多重比对的读数,和(vii)移除映射至着丝粒的读数。
A11.如实施方式A8-A10中任一项所述的系统,其中所述过滤包括移除一个或多个单现突变事件。
A12.如实施方式A8-A10中任一项所述的系统,其中所述过滤包括当参照中存在实质相似的断裂点时移除不一致读数伴侣。
A13.如实施方式A1-A12中任一项所述的系统,其中断裂点的位置以单碱基分辨率鉴定。
A14.如实施方式A2-A13中任一项所述的系统,其中在(e)中确定平衡的易位的存在。
A15.如实施方式A14中任一项所述的系统,其中平衡易位是平衡易位。
A16.如实施方式A1-A15中任一项所述的系统,其中在(e)中确定不平衡易位的存在。
A17.如实施方式A1-A16中任一项所述的系统,其中在(e)中确定染色体改变的存在包括在(d)中的比较中鉴定来自样品的序列读数的数量显著大于参照。
A18.如实施方式A1-A17中任一项所述的系统,其中第一断裂点和第二断裂点根据(d)中的比较鉴定。
A19.如实施方式A18所述的系统,其中在(e)中根据所述第一和第二断裂点确定染色体改变的存在。
A20.如实施方式A1-A19中任一项所述的系统,其中(c)中的选择或(d)中的比较,或者(c)中的选择和(d)中的比较,不包括进行成簇分析。
A21.如实施方式A1-A20中任一项所述的系统,其中(d)中的比较包括确定置信水平。
A22.如实施方式A21所述的系统,其中,所述确定置信水平包括确定p-值。
A23.如实施方式A21所述的系统,其中,所述确定置信水平包括确定Z分数。
A24.如实施方式A1-A23中任一项所述的系统,其包含一个或多个机器。
A25.如实施方式A24所述的系统,其包含配置为生成序列读数的测序机器。
A26.如实施方式A24或A25所述的系统,其包含在一个机器中。
A27.如实施方式A1-A26中任一项所述的系统,其中所述存储器包含序列读数、不一致读数对、不一致读数伴侣子集、可映射性变化、断裂点、或其组合。
A28.如实施方式A1-A27中任一项所述的系统,其中所述样品核酸是来自怀有胎儿的妊娠雌性的循环无细胞核酸。
A29.如实施方式A1-A27中任一项所述的系统,其中所述样品核酸是来自患有或疑似患有细胞增殖紊乱的对象的循环无细胞核酸。
A30.如实施方式A29所述的系统,其中细胞增殖紊乱是癌症。
A31.如实施方式A1-A30中任一项所述的系统,其中针对少数核酸物质确定是否存在一种或多种染色体改变。
A32.如实施方式A31所述的系统,其中所述少数核酸物质包括胎儿核酸。
A33.如实施方式A31所述的系统,其中所述少数核酸物质包括癌细胞的核酸。
B1.一种确定样品核酸中是否存在一种或多种染色体改变的方法,所述方法包括:
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度;
(c)根据可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
B1.1.一种确定样品核酸中是否存在一种或多种染色体改变的方法,所述方法包括:
用来自测试样品的循环无细胞核酸加载测序设备,或用所述核酸的修饰变体加载测序设备,所述测序设备产生对应于所述核酸的核苷酸碱基的信号;
在任选地将所述信号转移至包括一个或多个计算设备的系统之后,由所述系统从所述核酸的信号生成成对末端序列读数,其中所述系统中的一个或多个计算设备包括存储器和一个或多个处理器,并且
通过所述系统确定样品核酸中是否存在一种或多种染色体改变,其中系统中的一个计算设备或计算设备的组合配置为比对所述序列读数和参照基因组;
从所述成对末端序列读数鉴定不一致读数对,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度;
(c)根据可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
B1.2.如实施方式B1或B1.1所述的方法,其中所述一种或多种染色体改变包括染色体易位。
B1.3.如实施方式B1或B1.1所述的方法,其中所述一种或多种染色体改变包括染色体删除。
B1.4.如实施方式B1或B1.1所述的方法,其中所述一种或多种染色体改变包括染色体倒置。
B1.5.如实施方式B1或B1.1所述的方法,其中所述一种或多种染色体改变包括异源插入。
B1.6.如实施方式B1-B1.5中任一项所述的方法,其中所述方法包括确定一个或多个候选断裂点的位置。
B2.如实施方式B1-B1.6中任一项所述的方法,其中(b)中的表征包括产生各不一致读数伴侣的各序列读数亚序列的长度与可映射性之间的拟合关系。
B3.如实施方式B1-B2中任一项所述的方法,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣短5个碱基或更少。
B3.1.如实施方式B3所述的方法,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣短1个碱基或2个碱基。
B4.如实施方式B3所述的方法,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣逐渐缩短。
B5.如实施方式B4所述的方法,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣以约1个碱基的增量逐渐缩短。
B6.如权利要求B2-B5中任一项所述的方法,其中可映射性变化从所述拟合关系的斜率中确定。
B6.1.如实施方式B2-B5中任一项所述的方法,其中所述可映射性变化包括拟合关系的斜率。
B7.如实施方式B1-B6中任一项所述的方法,其中(c)中的选择根据可映射性阈值进行。
B8.如实施方式B1-B7中任一项所述的方法,其包括过滤所述不一致读数伴侣。
B9.如实施方式B8所述的方法,其中所述过滤包括移除不一致读数伴侣之一或二者。
B10.如实施方式B8或B9所述的方法,其中所述过滤选自以下的一个或多个:(i)移除低质量读数,(ii)移除一致读数,(iii)移除PCR复制的读数,(iv)移除映射至线粒体DNA的读数,(v)移除映射至重复元件的读数,(vi)移除不能映射的读数, (vii)移除含步进式多重比对的读数,和(viii)移除映射至着丝粒的读数。
B11.如实施方式B8-B10中任一项所述的方法,其中所述过滤包括移除一个或多个单现突变事件。
B12.如实施方式B8-B10中任一项所述的方法,其中所述过滤包括当参照中存在实质相似的断裂点时移除不一致读数伴侣。
B13.如实施方式B1-B12中任一项所述的方法,其中断裂点的位置以单碱基分辨率鉴定。
B14.如实施方式B1-B13中任一项所述的方法,其中在(e)中确定平衡易位的存在。
B15.如实施方式B14所述的方法,其中所述平衡易位是平衡易位。
B16.如实施方式B1-B15中任一项所述的方法,其中在(e)中确定不平衡易位的存在。
B17.如实施方式B1-B16中任一项所述的方法,其中在(e)中确定染色体改变的存在包括在(d)中的比较中鉴定来自样品的序列读数的数量显著大于参照。
B18.如实施方式B1-B17中任一项所述的方法,其中第一断裂点和第二断裂点根据(d)中的比较鉴定。
B19.如实施方式B18所述的方法,其中在(e)中根据所述第一和第二断裂点确定染色体改变的存在。
B20.如实施方式B1-B19中任一项所述的方法,其中(c)中的选择或(d)中的比较,或者(c)中的选择和(d)中的比较,不包括进行成簇分析。
B21.如实施方式B1-B20中任一项所述的方法,其中(d)中的比较包括确定置信水平。
B22.如实施方式B21所述的方法,其中,所述确定置信水平包括确定p-值。
B23.如实施方式B21所述的方法,其中,所述确定置信水平包括确定Z分数。
B24.如实施方式B1-B23中任一项所述的方法,其包含一个或多个机器。
B25.如实施方式B24所述的方法,其包含配置为生成序列读数的测序机器。
B26.如实施方式B24或B25所述的方法,其包含在一个机器中。
B27.如实施方式B1-B26中任一项所述的方法,其包含获取序列读数、不一致读数对、不一致读数伴侣子集、可映射性变化、断裂点、或其组合。
B28.如实施方式B1-B27中任一项所述的方法,其中所述样品核酸是来自怀有胎儿的妊娠雌性的循环无细胞核酸。
B29.如实施方式B1-B27中任一项所述的方法,其中所述样品核酸是来自患有或疑似患有细胞增殖紊乱的对象的循环无细胞核酸。
B30.如实施方式B29所述的方法,其中细胞增殖紊乱是癌症。
B31.如实施方式B1-B30中任一项所述的方法,其中针对少数核酸物质确定是否存在一种或多种染色体改变。
B32.如实施方式B31所述的方法,其中所述少数核酸物质包括胎儿核酸。
B33.如实施方式B31所述的方法,其中所述少数核酸物质包括癌细胞的核酸。
C1.包含一个或多个处理器和存储器的设备,其中,存储器包含可由所述一个或多个处理器执行的指令,并且其中,存储器包含映射至参照基因组的核酸序列读数;且其中可由所述一个或多个处理器执行的指令被配置为进行:
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度;
(c)根据可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
C1.1.如实施方式C1所述的设备,其中所述一种或多种染色体改变包括染色体易位。
C1.2.如实施方式C1所述的设备,其中所述一种或多种染色体改变包括染色体删除。
C1.3.如实施方式C1所述的设备,其中所述一种或多种染色体改变包括染色体倒置。
C1.4.如实施方式C1所述的设备,其中所述一种或多种染色体改变包括异源插入。
C1.5.如实施方式C1-C1.4中任一项所述的设备,其中所述方法包括确定一个或多个候选断裂点的位置。
C2.如实施方式C1-C1.5中任一项所述的设备,其中(b)中的表征包括产生各不一致读数伴侣的各序列读数亚序列的长度与可映射性之间的拟合关系。
C3.如实施方式C1-C2中任一项所述的设备,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣短5个碱基或更少。
C3.1.如实施方式C3所述的设备,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣短1个碱基或2个碱基。
C4.如实施方式C3所述的设备,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣逐渐缩短。
C5.如实施方式C4所述的设备,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣以约1个碱基的增量逐渐缩短。
C6.如实施方式C2-C5中任一项所述的设备,其中所述可映射性变化包括拟合关系的斜率。
C7.如实施方式C1-C6中任一项所述的设备,其中(c)中的选择根据可映射性阈值进行。
C8.如实施方式C1-C7中任一项所述的设备,其包含可由一个或多个处理器执行的指令,配置用于过滤不一致读数伴侣。
C9.如实施方式C8所述的设备,其中所述过滤包括移除不一致读数伴侣之一或二者。
C10.如实施方式C8或C9所述的设备,其中所述过滤选自以下的一个或多个: (i)移除低质量读数,(ii)移除一致读数,(iii)移除PCR复制的读数,(iv)移除映射至线粒体DNA的读数,(v)移除映射至重复元件的读数,(vi)移除不能映射的读数, (vi)移除含步进式多重比对的读数,和(vii)移除映射至着丝粒的读数。
C11.如实施方式C8-C10中任一项所述的设备,其中所述过滤包括移除一个或多个单现突变事件。
C12.如实施方式C8-C10中任一项所述的设备,其中所述过滤包括当参照中存在实质相似的断裂点时移除不一致读数伴侣。
C13.如实施方式C1-C12中任一项所述的设备,其中断裂点的位置以单碱基分辨率鉴定。
C14.如实施方式C2-C13中任一项所述的设备,其中在(e)中确定平衡易位的存在。
C15.如实施方式C14中任一项所述的设备,其中平衡易位是平衡易位。
C16.如实施方式C1-C15中任一项所述的设备,其中在(e)中确定不平衡易位的存在。
C17.如实施方式C1-C16中任一项所述的设备,其中在(e)中确定易位的存在包括在(d)中的比较中鉴定来自样品的序列读数的数量显著大于参照。
C18.如实施方式C1-C17中任一项所述的设备,其中第一断裂点和第二断裂点根据(d)中的比较鉴定。
C19.如实施方式C18所述的设备,其中在(e)中根据所述第一和第二断裂点确定染色体改变的存在。
C20.如实施方式C1-C19中任一项所述的设备,其中(c)中的选择或(d)中的比较,或者(c)中的选择和(d)中的比较,不包括进行成簇分析。
C21.如实施方式C1-C20中任一项所述的设备,其中(d)中的比较包括确定置信水平。
C22.如实施方式C21所述的设备,其中,所述确定置信水平包括确定p-值。
C23.如实施方式C21所述的设备,其中,所述确定置信水平包括确定Z分数。
C24.如实施方式C1-C23中任一项所述的设备,其包含一个或多个机器。
C25.如实施方式C24所述的设备,其包含配置为生成序列读数的测序机器。
C26.如实施方式C24或C25所述的设备,其包含在一个机器中。
C27.如实施方式C1-C26中任一项所述的设备,其中所述存储器包含序列读数、不一致读数对、不一致读数伴侣子集、可映射性变化、断裂点、或其组合。
C28.如实施方式C1-C27中任一项所述的设备,其中所述样品核酸是来自怀有胎儿的妊娠雌性的循环无细胞核酸。
C29.如实施方式C1-C27中任一项所述的设备,其中所述样品核酸是来自患有或疑似患有细胞增殖紊乱的对象的循环无细胞核酸。
C30.如实施方式C29所述的设备,其中细胞增殖紊乱是癌症。
C31.如实施方式C1-C30中任一项所述的设备,其中针对少数核酸物质确定是否存在一种或多种染色体改变。
C32.如实施方式C31所述的设备,其中所述少数核酸物质包括胎儿核酸。
C33.如实施方式C31所述的设备,其中所述少数核酸物质包括癌细胞的核酸。
D1.其上存有可执行程序的非瞬时计算机可读储存介质,其中所述程序配置为指令微处理器执行以下操作:
(a)从成对末端序列读数中鉴定不一致读数对,其中所述成对末端序列读数是来自测试对象样品的循环无细胞核酸的读数,从而鉴定不一致读数伴侣;
(b)表征与参照基因组比对的各序列读数伴侣的多个序列读数亚序列的可映射性,其中各不一致读数伴侣的各序列读数亚序列具有不同长度;
(c)根据可映射性变化选择所述不一致读数伴侣的子集,其中所述子集包括含候选断裂点的读数;
(d)针对(c)中所选的子集中的不一致读数伴侣,比较(i)与候选断裂点以及任选一个或多个实质相似断裂点关联的来自样品的不一致读数伴侣的数量与(ii)与候选断裂点以及所述任选一个或多个实质相似断裂点关联的来自参照的不一致读数伴侣的数量,从而生成比较;和
(e)根据(d)中的比较确定样品中是否存在一个或多个染色体改变。
D1.1.如实施方式D1所述的储存介质,其中所述一种或多种染色体改变包括染色体易位。
D1.2.如实施方式D1所述的储存介质,其中所述一种或多种染色体改变包括染色体删除。
D1.3.如实施方式D1所述的储存介质,其中所述一种或多种染色体改变包括染色体倒置。
D1.4.如实施方式D1所述的储存介质,其中所述一种或多种染色体改变包括异源插入。
D1.5.如实施方式D1-D1.4中任一项所述的储存介质,其中所述程序指令微处理器确定一个或多个候选断裂点的位置。
D2.如实施方式D1-D1.5中任一项所述的储存介质,其中(b)中的表征包括产生各不一致读数伴侣的各序列读数亚序列的长度与可映射性之间的拟合关系。
D3.如实施方式D1-D2中任一项所述的储存介质,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣短约5个碱基或更少。
D3.1.如实施方式D1-D3中任一项所述的储存介质,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣短1个碱基或2个碱基。
D4.如实施方式D1-D3.1中任一项所述的储存介质,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣逐渐缩短。
D5.如实施方式D1-D4中任一项所述的储存介质,其中各不一致读数伴侣的各序列读数亚序列比第二大的片段或读数伴侣以约1个碱基的增量逐渐缩短。
D6.如实施方式D2-D5中任一项所述的储存介质,其中所述可映射性变化包括拟合关系的斜率。
D7.如实施方式D1-D6中任一项所述的储存介质,其中(c)中的选择根据可映射性阈值进行。
D8.如实施方式D1-D6中任一项所述的储存介质,其中所述程序指令所述处理器过滤不一致读数伴侣。
D9.如实施方式B8所述的储存介质,其中所述过滤包括移除不一致读数伴侣之一或二者。
D10.如实施方式D8或D9所述的储存介质,其中所述过滤选自以下的一个或多个:(i)移除低质量读数,(ii)移除一致读数,(iii)移除PCR复制的读数,(iv)移除映射至线粒体DNA的读数,(v)移除映射至重复元件的读数,(vi)移除不能映射的读数,(vi)移除含步进式多重比对的读数,和(vii)移除映射至着丝粒的读数。
D11.如实施方式D8-D10中任一项所述的储存介质,其中所述过滤包括移除一个或多个单现突变事件。
D12.如实施方式D8-D10中任一项所述的储存介质,其中所述过滤包括当参照中存在实质相似的断裂点时移除不一致读数伴侣。
D13.如实施方式D1-D12中任一项所述的储存介质,其中断裂点的位置以单碱基分辨率鉴定。
D14.如实施方式D1-D13中任一项所述的储存介质,其中在(e)中确定平衡易位的存在。
D15.如实施方式D14中任一项所述的储存介质,其中平衡易位是平衡易位。
D16.如实施方式D1-D15中任一项所述的储存介质,其中在(e)中确定不平衡易位的存在。
D17.如实施方式D1-D16中任一项所述的储存介质,其中在(e)中确定染色体改变的存在包括在(d)中的比较中鉴定来自样品的序列读数的数量显著大于参照。
D18.如实施方式D1-D17中任一项所述的储存介质,其中第一断裂点和第二断裂点根据(d)中的比较鉴定。
D19.如实施方式D18所述的储存介质,其中在(e)中根据所述第一和第二断裂点确定染色体改变的存在。
D20.如实施方式D1-D19中任一项所述的储存介质,其中(c)中的选择或(d)中的比较,或者(c)中的选择和(d)中的比较,不包括进行成簇分析。
D21.如实施方式D1-D20中任一项所述的储存介质,其中(d)中的比较包括确定置信水平。
D22.如实施方式D21所述的存储介质,其中,所述确定置信水平包括确定p- 值。
D23.如实施方式D21所述的储存介质,其中,所述确定置信水平包括确定Z 分数。
D24.如实施方式D1-D23中任一项所述的储存介质,其包含一个或多个机器。
D25.如实施方式D24所述的储存介质,其包含配置为生成序列读数的测序机器。
D26.如实施方式D24或D25所述的储存介质,其包括在一个机器中。
D27.如实施方式D1-D26中任一项所述的储存介质,其中所述储存介质包含序列读数、不一致读数对、不一致读数伴侣子集、可映射性变化、断裂点、或其组合。
D28.如实施方式D1-D27中任一项所述的储存介质,其中所述样品核酸是来自怀有胎儿的妊娠雌性的循环无细胞核酸。
D29.如实施方式D1-D27中任一项所述的储存介质,其中所述样品核酸是来自患有或疑似患有细胞增殖紊乱的对象的循环无细胞核酸。
D30.如实施方式D29所述的储存介质,其中细胞增殖紊乱是癌症。
D31.如实施方式D1-D30中任一项所述的储存介质,其中针对少数核酸物质确定是否存在一种或多种染色体改变。
D32.如实施方式D31所述的储存介质,其中所述少数核酸物质包括胎儿核酸。
D33.如实施方式D31所述的储存介质,其中所述少数核酸物质包括癌细胞的核酸。
E1.一种包括存储器和一个或多个微处理器的系统,其中存储器包括指令,且一个或多个微处理器设置为按照所述指令进行用于确定样品核酸中是否存在一个或多个染色体改变的过程,该过程包括
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中:各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化;
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
E1.1.一种包括测序设备和一个或多个计算设备的系统,
所述测序设备设置成产生对应于加载到所述测序设备中的核酸的核苷酸碱基的信号,所述核酸是来自测试对象样品的循环无细胞核酸,或者加载到所述测序设备中的核酸是所述循环无细胞核酸的修饰变体;并且
所述一个或多个计算设备包括存储器和一个或多个处理器,所述存储器包括可由所述一个或多个处理器执行的指令并且所述可由所述一个或多个处理器执行的指令设置为:
从所述信号产生序列读数并且将所述序列读数比对至参照基因组;
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中:各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
E2.如实施方式E1或E1.1所述的系统,其中所述序列读数是循环无细胞核酸的序列读数。
E3.如实施方式E1、E1.1或E2所述的系统,其中样品核酸中的多核苷酸的平均长度小于约300碱基对。
E4.如实施方式E2或E3所述的系统,其中所述循环无细胞核酸来自血清或血浆。
E5.如实施方式E1-E4中任一项所述的系统,其中所述序列读数已映射至参照基因组或其部分。
E6.如实施方式E5所述的系统,其在步骤(a)之前包括步骤:鉴定所有碱基与参照基因组或其部分不对齐的序列读数的子集并对所述子集进行(a)、(b)、(c)和(d)。
E7.如实施方式E1-E6中任一项所述的系统,其中所述序列读数是单末端序列读数。
E7.1.如实施方式E1-E7所述的系统,其中所述序列读数是不一致读数。
E7.2.如实施方式E7.1所述的系统,其中针对所述不一致读数确定可映射性变化。
E8.如实施方式E1-E6中任一项所述的系统,其中所述序列读数是成对末端序列读数。
E9.如实施方式E8所述的系统,其中所述序列读数是不一致读数对。
E10.如实施方式E1-E9.1中任一项所述的系统,所述系统包括鉴定不一致读数对从而提供不一致读数伴侣。
E10.1.如实施方式E10所述的系统,其中针对所述不一致读数伴侣确定可映射性变化。
E11.如实施方式E1-E10.1所述的系统,其中(a)之前不鉴定嵌合读数对。
E12.如实施方式E1-E11中任一项所述的系统,所述方法包括在(c)中的比较之前鉴定子集中各序列读数的候选断裂点。
E13.如实施方式E12所述的系统,其中根据可映射性变化鉴定各序列读数的候选断裂点。
E14.如实施方式E12或E13所述的系统,其中(c)中的比较包括比较(i)来自关联所述候选断裂点的样品的(b)中鉴定的子集中的各序列读数的数量与(ii)来自关联所述候选断裂点的参照的(b)中鉴定的子集中的各序列读数的数量。
E15.如实施方式E1-E14中任一项所述的系统,其中(b)中鉴定的子集中的序列读数具有约32个连续碱基的最小长度。
E16.如实施方式E12-E15中任一项所述的系统,其中(b)中鉴定的子集中的各序列读数中的候选断裂点的两侧各至少有约15个连续碱基-约20个连续碱基。
E17.如如实施方式E1-E16中任一项所述的系统,其中所述序列读数是具有平均、算数平均、中值或最大长度为约20个碱基-约500个碱基的核酸片段。
E17.1.如实施方式E17所述的系统,其中所述序列读数是具有平均、算数平均、中值或最大长度为约40个碱基-约500个碱基的核酸片段。
E18.如实施方式E1-E17.1中任一项所述的系统,其中所述一种或多种染色体改变包括染色体易位。
E18.1如实施方式E1-E18中任一项所述的系统,其中所述一种或多种染色体改变包括平衡染色体易位。
E19.如实施方式E1-E17中任一项所述的系统,其中所述一种或多种染色体改变包括染色体删除。
E20.如实施方式E1-E17中任一项所述的系统,其中所述一种或多种染色体改变包括染色体倒置。
E21.如实施方式E1-E17中任一项所述的系统,其中所述一种或多种染色体改变包括异源插入。
E22.如实施方式E1-E21中任一项所述的系统,所述方法包括在(d)中确定存在一种或多种染色体改变的情况中提供一个或多个断裂点位置。
E23.如实施方式E22所述的系统,其中一个或多个断裂点中每个的位置以一碱基对分辨率提供。
E24.如实施方式E1-E23中任一项所述的系统,其中(b)中的鉴定包括产生各读数的各序列读数亚序列的长度与可映射性之间的拟合关系。
E25.如实施方式E24所述的方法,其中可映射性变化从所述关系的斜率中确定。
E26.如实施方式E1-E25中任一项所述的系统,其中(b)中鉴定的子集中不包括这样的序列读数,就该序列读数而言有长度增加的序列读数亚序列与第一染色体的比对,然后与第二染色体的比对以及然后与所述第一染色体的比对。
E26.1.如实施方式E1-E26中任一项所述的系统,其中(b)中鉴定的子集中包括这样的序列读数:就该序列读数而言有长度增加的序列读数亚序列与第一染色体的比对,然后与第二染色体的比对。
E27.如实施方式E1-E26.1中任一项所述的系统,其中(c)中的比较根据(c)(i)中的序列读数的数量和(c)(ii)中的序列读数的数量之间的z分数来确定。
E28.如实施方式E12-E27中任一项所述的系统,其中(b)中鉴定的子集中的各序列读数包括实质相似的候选断裂点。
E29.如实施方式E1-E28中任一项所述的系统,其中各读数的各序列读数亚序列比第二大的片段或读数短约5个碱基或更少。
E30.如实施方式E29所述的系统,其中各读数的各序列读数亚序列比第二大的片段或读数短1个碱基或2个碱基。
E31.如实施方式E30所述的系统,其中各读数的各序列读数亚序列比第二大的片段或读数逐渐缩短。
E32.如实施方式E31所述的方法,其中各读数的各序列读数亚序列比第二大的片段或读数以约1个碱基的增量逐渐缩短。
E33.如实施方式E24-E32中任一项所述的系统,其中对多个序列读数亚序列的可映射性的表征包括确定拟合关系的斜率。
E34.如实施方式E1-E33中任一项所述的系统,其中(b)中的鉴定根据可映射性阈值进行。
E35.如实施方式E1-E34中任一项所述的系统,其包括过滤读数。
E36.如实施方式E10-E34中任一项所述的系统,其中所述过滤包括移除不一致读数伴侣之一或二者。
E37.如实施方式E35或E36所述的系统,其中所述过滤选自以下的一个或多个:(i)移除低质量读数,(ii)移除一致读数,(iii)移除PCR复制的读数,(iv)移除映射至线粒体DNA的读数,(v)移除映射至重复元件的读数,(vi)移除不能映射的读数,(vi)移除含步进式多重比对的读数,和(vii)移除映射至着丝粒的读数。
E38.如实施方式E35-E37中任一项所述的系统,其中所述过滤包括移除一个或多个单现突变事件。
E39.如实施方式E35-E38中任一项所述的方法,其中所述过滤包括在来自样品的子集中的各序列读数的数量与来自参照的子集中的各序列读数的数量实质相似时移除(b)中鉴定的读数的子集。
E40.如实施方式E28-E39中任一项所述的系统,其中候选断裂点的位置以单碱基分辨率鉴定。
E41.如实施方式E1-E40中任一项所述的系统,其中在(d)中确定平衡易位的存在。
E42.如实施方式E1-E41中任一项所述的系统,其中在(d)中确定不平衡易位的存在。
E43.如实施方式E1-E42中任一项所述的系统,其中在(d)中确定染色体改变的存在包括在(c)中的比较中鉴定来自样品的序列读数的数量显著大于参照。
E44.如实施方式E1-E43中任一项所述的系统,其中所述断裂点根据(c)中的比较鉴定。
E45.如实施方式E1-E44中任一项所述的系统,其中第一断裂点和第二断裂点根据(c)中的比较鉴定。
E46.如实施方式E45所述的系统,其中在(d)中根据所述第一和第二断裂点鉴定染色体改变的存在。
E47.如实施方式E1-E46中任一项所述的系统,其中(c)中的比较包括确定置信水平。
E48.如实施方式E47所述的系统,其中,所述确定置信水平包括确定p-值。
E49.如实施方式E47所述的系统,其中,所述确定置信水平包括确定Z分数。
E50.如实施方式E1-E49中任一项所述的系统,其包含一个或多个机器。
E51.如实施方式E50所述的系统,其包含配置为生成序列读数的测序机器。
E52.如实施方式E50或E51所述的系统,其包含在一个机器中。
E53.如实施方式E1-E52中任一项所述的系统,其中所述存储器包括以下的一个或多个:序列读数、多个序列读数亚序列、不一致读数对、读数子集、候选断裂点或其组合。
E54.如实施方式E1-E35中任一项所述的系统,其中所述样品核酸是来自怀有胎儿的妊娠雌性的循环无细胞核酸。
E55.如实施方式E1-E53中任一项所述的系统,其中所述样品核酸是来自患有或疑似患有细胞增殖紊乱的对象的循环无细胞核酸。
E56.如实施方式E55所述的系统,其中细胞增殖紊乱是癌症。
E57.如实施方式E1-E56中任一项所述的系统,其中针对少数核酸物质确定是否存在一种或多种染色体改变。
E58.如实施方式E57所述的系统,其中所述少数核酸物质包括胎儿核酸。
E59.如实施方式E57所述的系统,其中所述少数核酸物质包括癌细胞的核酸。
F1.一种包括存储器和一个或多个微处理器的方法,其中存储器包括指令,且一个或多个微处理器设置为按照所述指令进行用于确定样品核酸中是否存在一个或多个染色体改变的过程,该过程包括
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中:各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化;
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
F1.1.一种确定样品核酸中是否存在一种或多种染色体改变的方法,所述方法包括:
用来自测试样品的循环无细胞核酸加载测序设备,或用所述核酸的修饰变体加载测序设备,所述测序设备产生对应于所述核酸的核苷酸碱基的信号;
在任选地将所述信号转移至包括一个或多个计算设备的系统之后,由所述系统从所述核酸的信号生成序列读数,其中所述系统中的一个或多个计算设备包括存储器和一个或多个处理器,并且
通过所述系统确定样品核酸中是否存在一种或多种染色体改变,其中系统中的一个计算设备或计算设备的组合配置为比对所述序列读数和参照基因组;
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中:各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
F1.2.一种确定样品核酸中是否存在一种或多种染色体改变的方法,所述方法包括:
用来自测试样品的循环无细胞核酸加载测序设备,或用所述核酸的修饰变体加载测序设备,所述测序设备产生对应于所述核酸的核苷酸碱基的信号;
在任选地将所述信号转移至包括一个或多个计算设备的系统之后,由所述系统从所述核酸的信号生成序列读数,其中所述系统中的一个或多个计算设备包括存储器和一个或多个处理器,并且
通过所述系统确定样品核酸中是否存在一种或多种染色体改变,其中系统中的一个计算设备或计算设备的组合配置为比对所述序列读数和参照基因组;
从所述成对末端序列读数鉴定不一致读数对,从而鉴定不一致读数伴侣;
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中:各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
F2.如实施方式F1或F1.1所述的方法,其中所述序列读数是循环无细胞核酸的序列读数。
F3.如实施方式F1、F1.1或F2所述的方法,其中样品核酸中的多核苷酸的平均长度小于约300个碱基对。
F4.如实施方式F2或F3所述的方法,其中所述循环无细胞核酸来自血清或血浆。
F5.如实施方式F1-F4中任一项所述的方法,其中所述序列读数已映射至参照基因组或其部分。
F6.如实施方式F5所述的方法,其在步骤(a)之前包括步骤:鉴定所有碱基与参照基因组或其部分不对齐的序列读数的子集并对所述子集进行(a)、(b)、(c)和(d)。
F7.如实施方式F1-F6中任一项所述的方法,其中所述序列读数是单末端序列读数。
F7.1.如实施方式F1-F7中任一项所述的方法,其中所述序列读数是不一致读数。
F7.2.如实施方式F7.1所述的方法,其中针对所述不一致读数确定可映射性变化。
F8.如实施方式F1-F6中任一项所述的方法,其中所述序列读数是成对末端序列读数。
F9.如实施方式F8所述的方法,其中所述序列读数是不一致读数对。
F10.如实施方式F1-F9中任一项所述的方法,所述方法包括鉴定不一致读数对从而提供不一致读数伴侣。
F10.1.如实施方式F10所述的系统,其中针对所述不一致读数伴侣确定可映射性变化。
F11.如实施方式F1-F10.1所述的方法,其中(a)之前不鉴定嵌合读数对。
F12.如实施方式F1-F11中任一项所述的方法,所述方法包括在(c)中的比较之前鉴定子集中各序列读数的候选断裂点。
F13.如实施方式F12所述的方法,其中根据可映射性变化鉴定各序列读数的候选断裂点。
F14.如实施方式F12或F13所述的方法,其中(c)中的比较包括比较(i)来自关联所述候选断裂点的样品的(b)中鉴定的子集中的各序列读数的数量与(ii)来自关联所述候选断裂点的参照的(b)中鉴定的子集中的各序列读数的数量。
F15.如实施方式F1-F14中任一项所述的方法,其中(b)中鉴定的子集中的序列读数具有约32个连续碱基的最小长度。
F16.如实施方式F12-F15中任一项所述的方法,其中(b)中鉴定的子集中的各序列读数中的候选断裂点的两侧各至少有约15个连续碱基-约20个连续碱基。
F17.如如实施方式F1-F16中任一项所述的方法,其中所述序列读数是具有平均、算数平均、中值或最大长度为约20个碱基-约500个碱基的核酸片段。
F17.1.如实施方式F17所述的系统,其中所述序列读数是具有平均、算数平均、中值或最大长度为约40个碱基-约500个碱基的核酸片段。
F18.如实施方式F1-F17.1中任一项所述的方法,其中所述一种或多种染色体改变包括染色体易位。
F18.1如实施方式F1-F18中任一项所述的方法,其中所述一种或多种染色体改变包括平衡染色体易位。
F19.如实施方式F1-F17中任一项所述的方法,其中所述一种或多种染色体改变包括染色体删除。
F20.如实施方式F1-F17中任一项所述的方法,其中所述一种或多种染色体改变包括染色体倒置。
F21.如实施方式F1-F17中任一项所述的方法,其中所述一种或多种染色体改变包括异源插入。
F22.如实施方式F1-F21中任一项所述的方法,所述方法包括在(d)中确定存在一种或多种染色体改变的情况中提供一个或多个断裂点位置。
F23.如实施方式F22所述的方法,其中一个或多个断裂点中每个的位置以一碱基对分辨率提供。
F24.如实施方式F1-F23中任一项所述的方法,其中(b)中的鉴定包括产生各读数的各序列读数亚序列的长度与可映射性之间的拟合关系。
F25.如实施方式F24所述的方法,其中可映射性变化从所述关系的斜率中确定。
F26.如实施方式F1-F25中任一项所述的方法,其中(b)中鉴定的子集中不包括这样的序列读数,就该序列读数而言有长度增加的序列读数亚序列与第一染色体的比对,然后与第二染色体的比对以及然后与所述第一染色体的比对。
F26.1.如实施方式F1-F26中任一项所述的方法,其中(b)中鉴定的子集中包括这样的序列读数:就该序列读数而言有长度增加的序列读数亚序列与第一染色体的比对,然后与第二染色体的比对。
F27.如实施方式F1-F26.1中任一项所述的方法,其中(c)中的比较根据(c)(i)中的序列读数的数量和(c)(ii)中的序列读数的数量之间的z分数来确定。
F28.如实施方式F12-F27中任一项所述的方法,其中(b)中鉴定的子集中的各序列读数包括实质相似的候选断裂点。
F29.如实施方式F1-F28中任一项所述的方法,其中各读数的各序列读数亚序列比第二大的片段或读数短约5个碱基或更少。
F30.如实施方式F29所述的方法,其中各读数的各序列读数亚序列比第二大的片段或读数短1个碱基或2个碱基。
F31.如实施方式F30所述的方法,其中各读数的各序列读数亚序列比第二大的片段或读数逐渐缩短。
F32.如实施方式F31所述的方法,其中各读数的各序列读数亚序列比第二大的片段或读数以约1个碱基的增量逐渐缩短。
F33.如实施方式F24-F32中任一项所述的方法,其中对多个序列读数亚序列的可映射性的表征包括确定拟合关系的斜率。
F34.如实施方式F1-F33中任一项所述的方法,其中(b)中的鉴定根据可映射性阈值进行。
F35.如实施方式F1-F34中任一项所述的方法,其包括过滤读数。
F36.如实施方式F35所述的方法,其中所述过滤包括移除不一致读数伴侣之一或二者。
F37.如实施方式F35或F36所述的方法,其中所述过滤选自以下的一个或多个:(i)移除低质量读数,(ii)移除一致读数,(iii)移除PCR复制的读数,(iv)移除映射至线粒体DNA的读数,(v)移除映射至重复元件的读数,(vi)移除不能映射的读数,(vi)移除含步进式多重比对的读数,和(vii)移除映射至着丝粒的读数。
F38.如实施方式F35-F37中任一项所述的方法,其中所述过滤包括移除一个或多个单现突变事件。
F39.如实施方式F35-F38中任一项所述的方法,其中所述过滤包括在来自样品的子集中的各序列读数的数量与来自参照的子集中的各序列读数的数量实质相似时移除(b)中鉴定的读数的子集。
F40.如实施方式F28-F39中任一项所述的方法,其中候选断裂点的位置以单碱基分辨率鉴定。
F41.如实施方式F1-F40中任一项所述的方法,其中在(d)中确定平衡易位的存在。
F42.如实施方式F1-F41中任一项所述的方法,其中在(d)中确定不平衡易位的存在。
F43.如实施方式F1-F42中任一项所述的方法,其中在(d)中确定染色体改变的存在包括在(c)中的比较中鉴定来自样品的序列读数的数量显著大于参照。
F44.如实施方式F1-F43中任一项所述的方法,其中所述断裂点根据(c)中的比较鉴定。
F45.如实施方式F1-F44中任一项所述的方法,其中第一断裂点和第二断裂点根据(c)中的比较鉴定。
F46.如实施方式F45所述的方法,其中在(d)中根据所述第一和第二断裂点鉴定染色体改变的存在。
F47.如实施方式F1-F46中任一项所述的方法,其中(c)中的比较包括确定置信水平。
F48.如实施方式F47所述的方法,其中,所述确定置信水平包括确定p-值。
F49.如实施方式F47所述的方法,其中,所述确定置信水平包括确定Z分数。
F50.如实施方式F1-F49中任一项所述的方法,其中所述存储器包括以下的一个或多个:序列读数、多个序列读数亚序列、不一致读数对、读数子集、候选断裂点或其组合。
F51.如实施方式F1-F50中任一项所述的方法,其中所述样品核酸是来自怀有胎儿的妊娠雌性的循环无细胞核酸。
F52.如实施方式F1-F50中任一项所述的方法,其中所述样品核酸是来自患有或疑似患有细胞增殖紊乱的对象的循环无细胞核酸。
F53.如实施方式F52所述的方法,其中细胞增殖紊乱是癌症。
F54.如实施方式F1-F53中任一项所述的方法,其中针对少数核酸物质确定是否存在一种或多种染色体改变。
F55.如实施方式F54所述的方法,其中所述少数核酸物质包括胎儿核酸。
F56.如实施方式F54所述的方法,其中所述少数核酸物质包括癌细胞的核酸。
G1.其上存有可执行程序的非瞬时计算机可读储存介质,其中所述程序配置为指令微处理器执行以下操作:
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中:各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化,
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
G2.如实施方式G1所述的储存介质,其中所述序列读数是循环无细胞核酸的序列读数。
G3.如实施方式G1或G2所述的储存介质,其中所述序列读数是不一致读数对。
G4.如实施方式G1-G3中任一项所述的储存介质,其中所述程序配置为指令微处理器鉴定子集中各序列读数的候选断裂点。
G5.如实施方式G1-G4中任一项所述的储存介质,其中所述一种或多种染色体改变包括染色体易位。
* * *
本文中引用的各专利、专利申请、出版物和文献的全部内容均通过引用纳入本文。对上述专利、专利申请、出版物和文献的引用并不表示承认上述任何内容是相关的现有技术,也并不表示承认这些出版物或文献的内容或日期。
可以对上述内容进行改变而不背离本技术的基本方面。尽管参照一个或多个具体实施方式充分详细描述了本技术,但是本领域普通技术人员应认识到可对本申请中具体公开的实施方式进行改变,而这些改良和改进在本技术的范围和精神内。
本文中适当地说明性描述的技术可在没有任何本文未具体公开的元素的情况下实施。因此,例如,在本文的各个例子中,术语“包括”、“基本由……组成”和“由……组成”中的任何一个都可用其它两个中的任意一个代替。已经使用的术语和表达用作说明而非限制性的术语,此类术语和表达的使用并不排除对所显示和所描述的特征或其部分的任何等价物,以及在要求权利的本技术范围内可进行各种改良。术语“一个”或“一种”表示一种或多种其修饰的元素(例如“一种试剂”可表示一种或多种试剂),除非上下文清楚表示所描述的是元素之一或是一种以上的元素。本文所使用的术语“约”表示在基础参数的10%范围内的数值(即±10%),在一列数值的开头处使用的术语“约”表示修饰该列数值中的每个数值(即“约1、2和3”指约1、约2和约3)。例如,“约100克”的重量能包含90克-110克的重量。此外,当本文描述数值列表(例如,约50%、60%、70%、80%、85%或86%)时,该列表包含其所有中间值和分数值(例如,54%、85.4%)。因此,应理解,尽管通过代表性实施方式和任选的特征具体公开了本技术,但是本领域技术人员能对本文所公开内容进行改良和变化,应认为此类改良和变化落在本技术的范围内。
本技术的某些实施方式示于以下的权利要求书中。

Claims (1)

1.一种确定样品核酸中是否存在一种或多种染色体改变的方法,所述方法包括:
(a)就序列读数而言表征多个序列读数亚序列的可映射性,其中:各序列读数有多个序列读数亚序列,各序列读数的序列读数亚序列具有不同长度,且所述序列读数是所述样品核酸的序列读数,
(b)鉴定序列读数的子集,其中一个或多个亚序列的可映射性发生变化;
(c)比较(i)(b)中鉴定的来自样品的子集中的各序列读数的数量与(ii)(b)中鉴定的来自参照的子集中的各序列读数的数量,从而生成比较;和
(d)根据(c)中的比较确定样品中是否存在一个或多个染色体改变。
CN202010419604.5A 2013-10-07 2014-10-03 用于非侵入性评估染色体改变的方法和过程 Pending CN111863131A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361887801P 2013-10-07 2013-10-07
US61/887,801 2013-10-07
CN201480066990.7A CN105874082B (zh) 2013-10-07 2014-10-03 用于非侵入性评估染色体改变的方法和过程

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480066990.7A Division CN105874082B (zh) 2013-10-07 2014-10-03 用于非侵入性评估染色体改变的方法和过程

Publications (1)

Publication Number Publication Date
CN111863131A true CN111863131A (zh) 2020-10-30

Family

ID=51844846

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201480066990.7A Active CN105874082B (zh) 2013-10-07 2014-10-03 用于非侵入性评估染色体改变的方法和过程
CN202010419604.5A Pending CN111863131A (zh) 2013-10-07 2014-10-03 用于非侵入性评估染色体改变的方法和过程

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201480066990.7A Active CN105874082B (zh) 2013-10-07 2014-10-03 用于非侵入性评估染色体改变的方法和过程

Country Status (7)

Country Link
US (2) US10438691B2 (zh)
EP (3) EP3851539A1 (zh)
JP (3) JP6680680B2 (zh)
CN (2) CN105874082B (zh)
AU (2) AU2014332241B2 (zh)
CA (1) CA2925111C (zh)
WO (1) WO2015054080A1 (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI335354B (en) 2006-09-27 2011-01-01 Univ Hong Kong Chinese Methods for the detection of the degree of the methylation of a target dna and kits
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP4148739A1 (en) 2012-01-20 2023-03-15 Sequenom, Inc. Diagnostic processes that factor experimental conditions
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP4187543A1 (en) 2013-04-03 2023-05-31 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN112575075A (zh) 2013-05-24 2021-03-30 塞昆纳姆股份有限公司 遗传变异的非侵入性评估方法和过程
US10622094B2 (en) 2013-06-21 2020-04-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2015051163A2 (en) 2013-10-04 2015-04-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN105874082B (zh) 2013-10-07 2020-06-02 塞昆纳姆股份有限公司 用于非侵入性评估染色体改变的方法和过程
EP3760739A1 (en) 2014-07-30 2021-01-06 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2993362A1 (en) 2015-07-23 2017-01-26 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free dna
EP3464626B1 (en) 2016-05-27 2022-04-06 Sequenom, Inc. Methods for detecting genetic variations
CA3030894A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
WO2018022890A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Genetic copy number alteration classifications
ES2962513T3 (es) * 2016-10-05 2024-03-19 Hoffmann La Roche Secuenciación de ácido nucleico usando nanotransistores
EP3571317A1 (en) 2017-01-20 2019-11-27 Sequenom, Inc. Sequencing adapter manufacture and use
US11929143B2 (en) 2017-01-20 2024-03-12 Sequenom, Inc Methods for non-invasive assessment of copy number alterations
CA3049682C (en) 2017-01-20 2023-06-27 Sequenom, Inc. Methods for non-invasive assessment of genetic alterations
WO2018140521A1 (en) 2017-01-24 2018-08-02 Sequenom, Inc. Methods and processes for assessment of genetic variations
SG11201906397UA (en) 2017-01-25 2019-08-27 Univ Hong Kong Chinese Diagnostic applications using nucleic acid fragments
WO2018152542A1 (en) * 2017-02-17 2018-08-23 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof
CN106834490B (zh) * 2017-03-02 2021-01-22 上海亿康医学检验所有限公司 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
PT3596233T (pt) 2017-03-17 2022-08-22 Sequenom Inc Métodos e processos para avaliação de mosaicismo genético
WO2018183745A1 (en) * 2017-03-30 2018-10-04 Illumina, Inc. Genomic data analysis system and method
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
WO2020006370A1 (en) * 2018-06-29 2020-01-02 Grail, Inc. Nucleic acid rearrangement and integration analysis
JP2021536612A (ja) * 2018-08-31 2021-12-27 ガーダント ヘルス, インコーポレイテッド マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出
GB2606945B (en) 2019-08-16 2023-06-28 Univ Hong Kong Chinese Determination of base modifications of nucleic acids
WO2021087491A1 (en) 2019-10-31 2021-05-06 Sequenom, Inc. Application of mosaicism ratio in multifetal gestations and personalized risk assessment
EP4087928A1 (en) * 2020-02-14 2022-11-16 Rhode Island Hospital Rna sequencing to diagnose sepsis
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
CN111584003B (zh) * 2020-04-10 2022-05-10 中国人民解放军海军军医大学 病毒序列整合的优化检测方法
CN111785324B (zh) * 2020-07-02 2021-02-02 深圳市海普洛斯生物科技有限公司 一种微卫星不稳定分析方法及装置
CN111815614B (zh) * 2020-07-17 2021-04-06 中国人民解放军军事科学院军事医学研究院 基于人工智能的寄生虫检测方法、系统及终端设备
CN113920069B (zh) * 2021-09-26 2022-07-08 广州达安临床检验中心有限公司 染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质

Family Cites Families (165)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US5720928A (en) 1988-09-15 1998-02-24 New York University Image processing and analysis of individual nucleic acid molecules
US5075212A (en) 1989-03-27 1991-12-24 University Of Patents, Inc. Methods of detecting picornaviruses in biological fluids and tissues
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5641628A (en) 1989-11-13 1997-06-24 Children's Medical Center Corporation Non-invasive method for isolation and detection of fetal DNA
DE69133566T2 (de) 1990-01-12 2007-12-06 Amgen Fremont Inc. Bildung von xenogenen Antikörpern
US5091652A (en) 1990-01-12 1992-02-25 The Regents Of The University Of California Laser excited confocal microscope fluorescence scanner and method
US5432054A (en) 1994-01-31 1995-07-11 Applied Imaging Method for separating rare cells from a population of cells
DE69532492T2 (de) 1994-08-31 2004-12-02 Mitsubishi Pharma Corp. Verfahren zur Reinigung von rekombinantem menschlichem Serumalbumin
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
EP0799320B1 (en) 1994-12-23 2001-03-07 Imperial College Of Science, Technology & Medicine Automated dna sequencing
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5670325A (en) 1996-08-14 1997-09-23 Exact Laboratories, Inc. Method for the detection of clonal populations of transformed cells in a genomically heterogeneous cellular sample
JP2000510582A (ja) 1996-04-25 2000-08-15 ゼニコン・サイエンシーズ・コーポレーション 微粒子標識を使用した分析物アッセイ
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US6100029A (en) 1996-08-14 2000-08-08 Exact Laboratories, Inc. Methods for the detection of chromosomal aberrations
US5928870A (en) 1997-06-16 1999-07-27 Exact Laboratories, Inc. Methods for the detection of loss of heterozygosity
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
US6403311B1 (en) 1997-02-12 2002-06-11 Us Genomics Methods of analyzing polymers using ordered label strategies
GB9704444D0 (en) 1997-03-04 1997-04-23 Isis Innovation Non-invasive prenatal diagnosis
US6566101B1 (en) 1997-06-16 2003-05-20 Anthony P. Shuber Primer extension methods for detecting nucleic acids
US6570001B1 (en) 1997-06-20 2003-05-27 Institut Pasteur Polynucleotides and their use for detecting resistance to streptogramin A or to streptogramin B and related compounds
CA2339121A1 (en) 1998-07-30 2000-02-10 Shankar Balasubramanian Arrayed biomolecules and their use in sequencing
US6263286B1 (en) 1998-08-13 2001-07-17 U.S. Genomics, Inc. Methods of analyzing polymers using a spatial network of fluorophores and fluorescence resonance energy transfer
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
DE19932890A1 (de) 1999-07-19 2001-02-01 Deutsches Krebsforsch DNA zum Nachweis von Veränderungen des Chromosoms 8
US20050287592A1 (en) 2000-08-29 2005-12-29 Yeda Research And Development Co. Ltd. Template-dependent nucleic acid polymerization using oligonucleotide triphosphates building blocks
AU783675B2 (en) 1999-09-07 2005-11-24 Regents Of The University Of California, The Methods of determining the presence of double stranded nucleic acids in a sample
WO2001023610A2 (en) 1999-09-29 2001-04-05 Solexa Ltd. Polynucleotide sequencing
DE60027040T2 (de) 1999-10-29 2006-11-23 Stratagene California, La Jolla Zusammensetzungen und methoden zur verwendung von dna polymerasen
WO2001062952A1 (en) 2000-02-24 2001-08-30 Dna Sciences, Inc. Methods for determining single nucleotide variations
US6664056B2 (en) 2000-10-17 2003-12-16 The Chinese University Of Hong Kong Non-invasive prenatal monitoring
US6936433B2 (en) 2000-11-27 2005-08-30 The Regents Of The University Of California Methods and devices for characterizing duplex nucleic acid molecules
DE10112515B4 (de) 2001-03-09 2004-02-12 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern mit hoher Sensitivität
US7297518B2 (en) 2001-03-12 2007-11-20 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences by asynchronous base extension
AU2002318386A1 (en) 2001-06-21 2003-01-08 Agilent Technologies, Inc. Methods for characterization of nucleic acid molecules
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
US20030157489A1 (en) 2002-01-11 2003-08-21 Michael Wall Recursive categorical sequence assembly
US6977162B2 (en) 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
WO2003078593A2 (en) 2002-03-15 2003-09-25 Epigenomics Ag Discovery and diagnostic methods using 5-methylcytosine dna glycosylase
US20040110208A1 (en) 2002-03-26 2004-06-10 Selena Chan Methods and device for DNA sequencing using surface enhanced Raman scattering (SERS)
US7744816B2 (en) 2002-05-01 2010-06-29 Intel Corporation Methods and device for biomolecule characterization
US20050019784A1 (en) 2002-05-20 2005-01-27 Xing Su Method and apparatus for nucleic acid sequencing and identification
US7005264B2 (en) 2002-05-20 2006-02-28 Intel Corporation Method and apparatus for nucleic acid sequencing and identification
US6952651B2 (en) 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
WO2004022721A2 (en) 2002-09-06 2004-03-18 The Trustees Of Boston University Quantification of gene expression
WO2004050839A2 (en) 2002-11-27 2004-06-17 Sequenom, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
US7629123B2 (en) 2003-07-03 2009-12-08 University Of Medicine And Dentistry Of New Jersey Compositions and methods for diagnosing autism
WO2005010145A2 (en) 2003-07-05 2005-02-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
US7846738B2 (en) 2003-08-15 2010-12-07 President And Fellows Of Harvard College Study of polymer molecules and conformations with a nanopore
EP2354253A3 (en) 2003-09-05 2011-11-16 Trustees of Boston University Method for non-invasive prenatal diagnosis
EP1524321B2 (en) 2003-10-16 2014-07-23 Sequenom, Inc. Non-invasive detection of fetal genetic traits
US20050095599A1 (en) 2003-10-30 2005-05-05 Pittaro Richard J. Detection and identification of biopolymers using fluorescence quenching
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20050147980A1 (en) 2003-12-30 2005-07-07 Intel Corporation Nucleic acid sequencing by Raman monitoring of uptake of nucleotides during molecular replication
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20100216151A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
US7279337B2 (en) 2004-03-10 2007-10-09 Agilent Technologies, Inc. Method and apparatus for sequencing polymers through tunneling conductance variation detection
WO2006028508A2 (en) 2004-03-23 2006-03-16 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
CN102925549A (zh) 2004-08-13 2013-02-13 哈佛学院院长等 超高处理量光学-纳米孔dna读出平台
US9074013B2 (en) 2004-11-29 2015-07-07 Sequenom, Inc. Means and methods for detecting methylated DNA
AU2006224971B2 (en) 2005-03-18 2009-07-02 Boston University A method for the detection of chromosomal aneuploidies
WO2007063807A1 (ja) 2005-11-29 2007-06-07 Olympus Corporation 核酸の一次構造変化の解析方法
US7960105B2 (en) 2005-11-29 2011-06-14 National Institutes Of Health Method of DNA analysis using micro/nanochannel
EP3591068A1 (en) 2006-02-02 2020-01-08 The Board of Trustees of the Leland Stanford Junior University Non-invasive fetal genetic screening by digital analysis
SI2351858T1 (sl) 2006-02-28 2015-06-30 University Of Louisville Research Foundation Med Center Three, Zaznavanje fetalnih kromosomskih nenormalnosti z uporabo tandema polimorfizmov posameznih nukleotidov
US8189892B2 (en) 2006-03-10 2012-05-29 Koninklijke Philips Electronics N.V. Methods and systems for identification of DNA patterns through spectral analysis
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US20090075252A1 (en) 2006-04-14 2009-03-19 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
EP3260556B1 (en) 2006-05-31 2019-07-31 Sequenom, Inc. Methods for the extraction of nucleic acid from a sample
US8137912B2 (en) 2006-06-14 2012-03-20 The General Hospital Corporation Methods for the diagnosis of fetal abnormalities
EP2029779A4 (en) 2006-06-14 2010-01-20 Living Microsystems Inc HIGHLY PARALLEL SNP GENOTYPING UTILIZATION FOR FETAL DIAGNOSIS
US20080096766A1 (en) 2006-06-16 2008-04-24 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
US20080081330A1 (en) 2006-09-28 2008-04-03 Helicos Biosciences Corporation Method and devices for analyzing small RNA molecules
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP1944273A1 (en) 2007-01-15 2008-07-16 Rockwool International A/S Process and apparatus for making mineral fibers
US8003319B2 (en) 2007-02-02 2011-08-23 International Business Machines Corporation Systems and methods for controlling position of charged polymer inside nanopore
US8722327B2 (en) 2007-03-28 2014-05-13 Bionano Genomics, Inc. Methods of macromolecular analysis using nanochannel arrays
EP2156179B1 (en) 2007-04-04 2021-08-18 The Regents of The University of California Methods for using a nanopore
GB0713143D0 (en) 2007-07-06 2007-08-15 Ucl Business Plc Nucleic acid detection method
US9218449B2 (en) 2007-07-23 2015-12-22 The Chinese University Of Hong Kong Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
EP2527471B1 (en) 2007-07-23 2020-03-04 The Chinese University of Hong Kong Diagnosing cancer using genomic sequencing
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
EP2195452B1 (en) 2007-08-29 2012-03-14 Sequenom, Inc. Methods and compositions for universal size-specific polymerase chain reaction
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
CN101889074A (zh) 2007-10-04 2010-11-17 哈尔西恩莫尔丘勒公司 采用电子显微镜对核酸聚合物测序
US7767400B2 (en) 2008-02-03 2010-08-03 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis
CN101230403B (zh) 2008-02-21 2010-12-29 浙江理工大学 解析染色体端粒g-末端序列的方法
WO2009114543A2 (en) 2008-03-11 2009-09-17 Sequenom, Inc. Nucleic acid-based tests for prenatal gender determination
CA2718137A1 (en) 2008-03-26 2009-10-01 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
CN102292451A (zh) 2008-06-30 2011-12-21 生物纳米芯股份有限公司 用于单分子全基因组分析的方法和装置
AU2009269792A1 (en) 2008-07-07 2010-01-14 Oxford Nanopore Technologies Limited Base-detecting pore
EP2682460B1 (en) 2008-07-07 2017-04-26 Oxford Nanopore Technologies Limited Enzyme-pore constructs
EP2329021B1 (en) 2008-09-16 2016-08-10 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non invasive prenatal diagnoses
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
HUE031849T2 (en) 2008-09-20 2017-08-28 Univ Leland Stanford Junior Non-invasive diagnosis of fetal aneuploidy by sequencing
CN104195227B (zh) 2008-11-07 2017-04-12 适应生物技术公司 通过序列分析监测状况的方法
US20110301042A1 (en) 2008-11-11 2011-12-08 Helicos Biosciences Corporation Methods of sample encoding for multiplex analysis of samples by single molecule sequencing
EP2370594B1 (en) 2008-11-18 2014-01-08 BioNano Genomics, Inc. Polynucleotide mapping and sequencing
WO2010065470A2 (en) 2008-12-01 2010-06-10 Consumer Genetics, Inc. Compositions and methods for detecting background male dna during fetal sex determination
CA2748030A1 (en) 2008-12-22 2010-07-01 Arnold R. Oliphant Methods and genotyping panels for detecting alleles, genomes, and transcriptomes
CN102272334B (zh) 2009-01-13 2014-08-20 关键基因股份有限公司 新基因组测序策略
US8455260B2 (en) 2009-03-27 2013-06-04 Massachusetts Institute Of Technology Tagged-fragment map assembly
WO2010115016A2 (en) 2009-04-03 2010-10-07 Sequenom, Inc. Nucleic acid preparation compositions and methods
US8246799B2 (en) 2009-05-28 2012-08-21 Nabsys, Inc. Devices and methods for analyzing biomolecules and probes bound thereto
US20100330557A1 (en) 2009-06-30 2010-12-30 Zohar Yakhini Genomic coordinate system
US8825412B2 (en) 2010-05-18 2014-09-02 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US20120192298A1 (en) 2009-07-24 2012-07-26 Sigma Aldrich Co. Llc Method for genome editing
CN102858985A (zh) 2009-07-24 2013-01-02 西格马-奥尔德里奇有限责任公司 基因组编辑方法
WO2011038327A1 (en) 2009-09-28 2011-03-31 Bionanomatrix, Inc. Nanochannel arrays and near-field illumination devices for polymer analysis and related methods
KR20120084313A (ko) 2009-10-21 2012-07-27 바이오나노 제노믹스, 인크. 단일 분자 전체 게놈 분석을 위한 방법 및 관련 장치
PT3241914T (pt) 2009-11-05 2019-04-30 Sequenom Inc Análise genómica fetal a partir de uma amostra biológica materna
DK2516680T3 (en) 2009-12-22 2016-05-02 Sequenom Inc Method and kits to identify aneuploidy
US20120270739A1 (en) 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
EP2366031B1 (en) 2010-01-19 2015-01-21 Verinata Health, Inc Sequencing methods in prenatal diagnoses
WO2011090556A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acid in maternal samples
CA2786565C (en) 2010-01-19 2017-04-25 Verinata Health, Inc. Partition defined detection methods
US10662474B2 (en) 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US20110312503A1 (en) 2010-01-23 2011-12-22 Artemis Health, Inc. Methods of fetal abnormality detection
EP2569453B1 (en) 2010-05-14 2015-12-16 Fluidigm Corporation Nucleic acid isolation methods
KR102042253B1 (ko) * 2010-05-25 2019-11-07 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
WO2012006291A2 (en) * 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation
EP2596127A2 (en) 2010-07-23 2013-05-29 Esoterix Genetic Laboratories, LLC Identification of differentially represented fetal or maternal genomic regions and uses thereof
EP2656263B1 (en) 2010-12-22 2019-11-06 Natera, Inc. Methods for non-invasive prenatal paternity testing
CN103384725A (zh) 2010-12-23 2013-11-06 塞昆纳姆股份有限公司 胎儿遗传变异的检测
WO2012098515A1 (en) 2011-01-19 2012-07-26 Koninklijke Philips Electronics N.V. Method for processing genomic data
US20120190020A1 (en) 2011-01-25 2012-07-26 Aria Diagnostics, Inc. Detection of genetic abnormalities
JP6153874B2 (ja) 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
US20120219950A1 (en) 2011-02-28 2012-08-30 Arnold Oliphant Assay systems for detection of aneuploidy and sex determination
GB2484764B (en) 2011-04-14 2012-09-05 Verinata Health Inc Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies
HUE031239T2 (en) 2011-05-31 2017-07-28 Berry Genomics Co Ltd Device for determining the copy number of fetal chromosomes or tumor cell chromosomes
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
JP5659319B2 (ja) 2011-06-29 2015-01-28 ビージーアイ ヘルス サービス カンパニー リミテッド 胎児の遺伝的異常の非侵襲的検出
WO2013019361A1 (en) 2011-07-07 2013-02-07 Life Technologies Corporation Sequencing methods
CN102409088B (zh) 2011-09-22 2014-11-12 郭奇伟 一种基因拷贝数变异的检测方法
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
CA2850781C (en) 2011-10-06 2020-09-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2624686T3 (es) 2011-10-11 2017-07-17 Sequenom, Inc. Métodos y procesos para la evaluación no invasiva de variaciones genéticas
US8688388B2 (en) 2011-10-11 2014-04-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2012347522B2 (en) 2011-12-08 2015-07-30 Five3 Genomics, Llc MDM2-containing double minute chromosomes and methods therefore
EP4148739A1 (en) * 2012-01-20 2023-03-15 Sequenom, Inc. Diagnostic processes that factor experimental conditions
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK2852680T3 (da) 2012-05-21 2020-03-16 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv evaluering af genetiske variationer
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR102393608B1 (ko) 2012-09-04 2022-05-03 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP4009329A1 (en) 2012-10-04 2022-06-08 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP4187543A1 (en) 2013-04-03 2023-05-31 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN112575075A (zh) 2013-05-24 2021-03-30 塞昆纳姆股份有限公司 遗传变异的非侵入性评估方法和过程
US10622094B2 (en) 2013-06-21 2020-04-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10174375B2 (en) 2013-09-20 2019-01-08 The Chinese University Of Hong Kong Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases
WO2015051163A2 (en) 2013-10-04 2015-04-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN105874082B (zh) 2013-10-07 2020-06-02 塞昆纳姆股份有限公司 用于非侵入性评估染色体改变的方法和过程
EP3598452B1 (en) 2014-05-30 2023-07-26 Sequenom, Inc. Chromosome representation determinations
EP3760739A1 (en) 2014-07-30 2021-01-06 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Also Published As

Publication number Publication date
US10438691B2 (en) 2019-10-08
CA2925111C (en) 2024-01-16
EP3851539A1 (en) 2021-07-21
CN105874082A (zh) 2016-08-17
AU2014332241A1 (en) 2016-05-19
CN105874082B (zh) 2020-06-02
AU2021209224A1 (en) 2021-08-19
CA2925111A1 (en) 2015-04-16
US20200058372A1 (en) 2020-02-20
JP2016540520A (ja) 2016-12-28
EP3495496A1 (en) 2019-06-12
JP2022191522A (ja) 2022-12-27
JP2020110173A (ja) 2020-07-27
JP6680680B2 (ja) 2020-04-15
EP3055427B1 (en) 2018-09-12
US20160292356A1 (en) 2016-10-06
US11929146B2 (en) 2024-03-12
EP3055427A1 (en) 2016-08-17
EP3495496B1 (en) 2020-11-25
WO2015054080A1 (en) 2015-04-16
AU2014332241B2 (en) 2021-04-29
AU2021209224B2 (en) 2024-03-14

Similar Documents

Publication Publication Date Title
CN105874082B (zh) 用于非侵入性评估染色体改变的方法和过程
JP7446979B2 (ja) 染色体提示の決定
JP6854272B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
US20230187021A1 (en) Methods for Non-Invasive Assessment of Genomic Instability
ES2939547T3 (es) Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
JP2022037112A (ja) 診断方法
US20240029826A1 (en) Methods and Processes for Assessment of Genetic Variations
JP2018500876A (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
CA3049455C (en) Sequencing adapter manufacture and use
CA3049682A1 (en) Methods for non-invasive assessment of genetic alterations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035887

Country of ref document: HK