CN109477101B - 从保存的样品中回收长范围连锁信息 - Google Patents

从保存的样品中回收长范围连锁信息 Download PDF

Info

Publication number
CN109477101B
CN109477101B CN201780043800.3A CN201780043800A CN109477101B CN 109477101 B CN109477101 B CN 109477101B CN 201780043800 A CN201780043800 A CN 201780043800A CN 109477101 B CN109477101 B CN 109477101B
Authority
CN
China
Prior art keywords
dna
sample
nucleic acid
cases
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780043800.3A
Other languages
English (en)
Other versions
CN109477101A (zh
Inventor
克里斯多佛·约翰·特罗尔
马丁·P·鲍尔斯
尼古拉斯·H·帕特南
马可·布兰切特
保罗·哈特利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dovetail Genomics LLC
Original Assignee
Dovetail Genomics LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dovetail Genomics LLC filed Critical Dovetail Genomics LLC
Publication of CN109477101A publication Critical patent/CN109477101A/zh
Application granted granted Critical
Publication of CN109477101B publication Critical patent/CN109477101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/10Characterised by chemical treatment
    • C12Q2523/101Crosslinking agents, e.g. psoralen
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/161Modifications characterised by incorporating target specific and non-target specific sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Abstract

本公开内容提供了从保存的样品中分离基因组或染色体水平结构信息的方法。在一些情况下,处理在长范围核酸信息被认为不可挽回地丢失的条件下保存的样品,如FFPE样品,以回收作为样品保存过程的一部分而稳定的核酸‑蛋白质复合物。处理该复合物以回收关于哪些核酸与共同复合物结合的信息,并且利用该信息回收基因组结构信息。

Description

从保存的样品中回收长范围连锁信息
相关引用
本申请要求2016年5月13日提交的美国临时专利申请号62/336,252的权益,该申请通过引用整体并入本文;并且要求2016年10月20日提交的美国临时专利申请号62/410,599的权益,该申请通过引用整体并入本文。
背景技术
在理论上和实践中仍然难以产生高质量、高度连续的基因组序列。当试图从诸如福尔马林固定、石蜡包埋的(FFPE)样品等保存的样品中回收基因组序列、定相信息或其他所需遗传信息时,该问题变得复杂。FFPE样品是最常见的库存临床和癌症样品类型。然而,固定和包埋步骤以及诸如脱水和长期储存等其他因素被认为导致DNA损伤。在DNA提取过程中可能发生额外的DNA损伤和片段化,该过程通常包括过夜蛋白酶K处理和煮沸以逆转交联。提取后的典型DNA片段长度小于500个碱基对且通常小于300个碱基对。
发明内容
本文提供了从保存的样品(诸如根据手术切除储存的样品或根据药物试验存档的样品)获得基因组结构信息的方法。一些这样的方法包括从受试者获得保存的样品,所述样品包含核酸;并通过分析所述样品中的所述核酸来得出基因组结构信息。在一些情况下,例如使用甲醛、福尔马林、紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)和环磷酰胺中的至少一种交联所述保存的样品。或者,使用福尔马林交联所述保存的样品。通常,所述保存的样品保持有关其内部核酸的位置信息。任选地,所述保存的样品是包埋的样品,诸如福尔马林固定、石蜡包埋的(FFPE)样品。如果存在于样品基因组中,所述基因组结构信息足以指示相对于参考基因组的倒位、插入、缺失和易位中的至少一种。许多参考基因组与本文的公开内容一致,诸如所述受试者共同物种的野生型基因组或从所述受试者的参考组织中获得的基因组。方法通常包括得出指示所述核酸的第一区段和第二区段的相位状态的信息。任选地,所述方法包括标记所述样品的暴露的核酸末端以便传递物理连锁信息。在一些情况下,所述标记包括将寡核苷酸连接至从所述保存的样品释放的DNA蛋白质复合物,以使得所述寡核苷酸传递指示共同复合物的信息。所述寡核苷酸包含对复合物具有特异性的或对复合物独特的碱基序列。或者,在优选的实施方案中,所述标记包括将所述复合物的第一核酸区段连接至所述复合物的第二区段以形成配对末端分子。在这些情况下,一些方法包括对所述第一核酸区段的一部分和所述第二核酸区段的一部分进行测序。具有与所述第一核酸区段的所述部分共同的独特序列的叠连群和具有与所述第二核酸区段的所述部分共同的独特序列的叠连群被分配至核酸装配体中的共同支架。一些方法包括使配对末端核酸分子接触一组探针,例如作为荧光探针或能够支持扩增并且与参与基因组结构重排的第一基因座和第二基因座退火的抗体或核酸探针。通常,所述第一基因座和所述第二基因座在不受基因组结构重排影响的基因组中不相邻。或者,所述第一基因座和所述第二基因座在不受基因组结构重排影响的基因组中相邻。任选地,所述方法包括当接触所述一组探针指示重排时对所述样品的核酸进行测序。一些方法包括使所述配对末端核酸分子与包括核酸引物的一组探针接触。在一些情况下,所述一组核酸引物与参与基因组结构重排的第一基因座和第二基因座退火。在这些情况下,当所述第一基因座和所述第二基因座形成连接的配对末端分子时,所述一组核酸引物在核酸扩增反应中产生扩增子。类似地,在一些情况下,当所述第一基因座和所述第二基因座不形成连接的配对末端分子时,所述一组核酸引物在核酸扩增反应中不产生扩增子。在一些情况下,所述第一基因座和所述第二基因座在不受基因组结构重排影响的基因组中不相邻。或者,所述第一基因座和所述第二基因座在不受基因组结构重排影响的基因组中相邻。一些实施方案可选地包括当从与所述配对末端核酸分子接触的所述一组核酸引物生成扩增子时对所述样品的核酸进行测序。优选地,处理所述保存的组织样品以分离核酸,以使得蛋白质DNA复合物不被破坏。在一些情况下,分离所述蛋白质DNA复合物,以使得第一核酸区段和第二核酸区段不依赖于磷酸二酯骨架而被保持在一起。在一些情况下,通过使所述保存的组织样品与二甲苯接触来处理所述保存的组织样品。在一些情况下,通过使所述保存的组织样品与乙醇接触来处理所述保存的组织样品。在一些情况下,通过保护所述样品免受煮沸条件的影响来处理所述保存的组织样品。在一些情况下,通过使所述保存的组织样品与邻氨基苯甲酸盐和对氨基苯膦酸盐(phosphanilate)中的至少一种接触来处理所述保存的组织样品。在一些情况下,所述保存的组织样品在不高于40℃的温度下处理。任选地,所述DNA蛋白质复合物包括染色质。在一些情况下,所述保存的组织样品保留反映其在组织中的构型的位置信息。通常,所述保存的组织样品在保存期间或在分离核酸之前未被均质化,以使得从所述样品切除的DNA蛋白质复合物的位置信息得以保留并且可作为基因组结构分析的一部分获得。在一些情况下,在分离核酸之前将所述保存的组织样品储存至少一周。在一些情况下,在分离核酸之前将所述保存的组织样品储存至少6个月。在一些情况下,在分离核酸之前从收集点运送所述保存的组织样品。在一些情况下,所述保存的组织样品在无菌环境中收集。在一些情况下,在分离核酸之前将所述保存的组织样品置于非无菌环境中。
本文提供了从保存的样品如交联的石蜡包埋的组织样品获得长距离序列信息如基因组结构信息的方法。一些这样的方法包括:从所述交联的石蜡包埋的组织样品中分离核酸,以使得蛋白质DNA复合物不被破坏或破裂;标记蛋白质DNA复合物,以使得第一DNA区段和第二DNA区段被标识为来自共同的蛋白质DNA复合物;将所述第一DNA区段和所述第二DNA区段与共同的DNA复合物分开;从所述第一DNA区段和所述第二DNA区段产生序列信息;并将共有指示共同蛋白质DNA复合物的标签序列的序列信息分配给共同的基因组结构。在一些情况下,在分离核酸之前,所述交联的石蜡包埋的组织未被均质化。在一些情况下,所述标签序列包括标识复合物的寡核苷酸标签。在一些情况下,所述标签序列来源于将所述第一区段连接至所述第二区段。在一些情况下,从所述保存的样品如交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏或破裂包括使交联的石蜡包埋的组织样品与二甲苯接触。在一些情况下,从所述保存的样品如交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏或破裂包括使交联的石蜡包埋的组织样品与乙醇接触。在一些情况下,从所述保存的样品如交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏或破裂包括使交联的石蜡包埋的组织样品与乙醇接触。在一些情况下,从所述保存的样品如交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破裂包括保护所述样品免受煮沸条件的影响。在一些情况下,将所述第一DNA区段和所述第二DNA区段与所述共同的DNA复合物分开包括蛋白酶K处理。提取方法任选地不涉及在提取过程中添加任何交联剂。相反,依赖于根据样品保存而产生的复合物,以便最小化交联暴露的次数,交联暴露可能损害保存中的核酸。或者,分离核酸,并且仅在核酸分离和染色质重装配后添加交联剂。
本文提供了从保存的样品如交联的石蜡包埋的组织样品获得长距离序列信息如基因组结构信息的方法。一些这样的方法包括:从所述交联的石蜡包埋的组织样品中分离核酸,以便回收大于50kb的核酸片段;使所述核酸与多个核酸结合部分接触以形成至少一个复合物,以使得核酸分子的第一DNA区段和第二DNA区段不依赖于其共同的磷酸二酯骨架而被保持在一起;裂解所述至少一个复合物的至少一个磷酸二酯骨架;标记所述至少一个复合物,以使得第一DNA区段和第二DNA区段被标识为来自共同的复合物;将所述第一DNA区段和所述第二DNA区段与所述共同复合物分开;从所述第一DNA区段和所述第二DNA区段生成序列信息;并将共有指示共同蛋白质DNA复合物的标签序列的序列信息分配给共同的基因组结构。在一些情况下,在分离核酸之前,所述交联的石蜡包埋的组织样品未被均质化。在一些情况下,所述标签序列包括标识复合物的寡核苷酸标签。在一些情况下,所述标签序列来源于将所述第一DNA区段连接至所述第二DNA区段。在一些情况下,从所述保存的样品如交联的石蜡包埋的组织样品中分离核酸以便回收大于50kb的核酸片段包括使所述保存的样品如交联的石蜡包埋的组织样品与邻氨基苯甲酸盐和对氨基苯膦酸盐中的至少一种接触。在一些情况下,所述分离在不高于40℃的温度下进行。在一些情况下,所述分离在不高于40℃的温度下进行。在一些情况下,将所述第一DNA区段和所述第二DNA区段与所述共同的DNA复合物分开包括蛋白酶K处理。在一些情况下,所述多个核酸结合部分包含核蛋白质。在一些情况下,所述多个核酸结合部分包含转座酶。在一些情况下,所述多个核酸结合部分包含组蛋白。在一些情况下,所述多个核酸结合部分包含核酸结合蛋白质。在一些情况下,所述多个核酸结合部分包含纳米颗粒。在一些情况下,裂解所述至少一个复合物的至少一个磷酸二酯骨架包括与限制性内切核酸酶接触。在一些情况下,其中裂解所述至少一个复合物的至少一个磷酸二酯骨架包括与非特异性内切核酸酶接触。在一些情况下,裂解所述至少一个复合物的至少一个磷酸二酯骨架包括剪切所述DNA。在一些情况下,裂解所述至少一个复合物的至少一个磷酸二酯骨架包括与转座酶接触。在一些情况下,裂解所述至少一个复合物的至少一个磷酸二酯骨架包括与拓扑异构酶接触。
本文提供了从保存的组织样品中回收空间分布的基因组结构信息的方法。一些这样的方法包括:获得组织样品;从所述保存的组织样品如固定的三维石蜡包埋的组织样品的第一位置提取一部分;从来自所述第一位置的所述部分分离核酸,以使得蛋白质DNA复合物不被破坏或破裂;标记蛋白质DNA复合物,以使得第一DNA区段和第二DNA区段被标识为来自共同的蛋白质DNA复合物;将所述第一DNA区段和所述第二DNA区段与共同的DNA复合物分开;从所述第一DNA区段和所述第二DNA区段产生序列信息;将共有指示共同蛋白质DNA复合物的标签序列的序列信息分配给共同的基因组结构;并将所述共同的基因组结构分配给所述保存的组织样品的所述第一位置。在一些情况下,在分离核酸之前,所述保存的组织样品未被均质化。在一些情况下,所述组织样品包括固定的三维石蜡包埋的组织样品。在一些情况下,所述标签序列包括标识复合物的寡核苷酸标签。在一些情况下,所述标签序列来源于将所述第一区段连接至所述第二区段。在一些情况下,从所述交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏或破裂包括使交联的石蜡包埋的组织样品与二甲苯接触。在一些情况下,从所述交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏或破裂包括使交联的石蜡包埋的组织样品与乙醇接触。在一些情况下,从所述交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏或破裂包括保护所述样品免受煮沸条件的影响。在一些情况下,将所述第一DNA区段和所述第二DNA区段与所述共同的DNA复合物分开包括蛋白酶K处理。在一些情况下,所述组织样品包括固定的三维石蜡包埋的组织样品。
本文提供了重新评价治疗方案试验结果的方法。一些这样的方法包括:获得患者群体中关于治疗方案结果的数据;从所述患者群体的多个患者获得保存的组织样品,诸如固定的组织样品;从所述固定的组织样品中提取核酸复合物;使用所述核酸复合物确定多个所述固定的组织样品的基因组结构信息;并将所述关于治疗方案结果的数据与基因组结构信息相关联,以便鉴定与治疗方案结果相关的基因组结构信息。在一些情况下,在提取核酸之前,所述保存的组织样品未被均质化。在一些情况下,从所述固定的组织样品中提取核酸复合物并使用所述核酸复合物测定多个所述固定的组织样品的基因组结构信息包括本文公开的任何方法。
本文提供了核苷酸序列装配方法。一些这样的方法包括:提供固定的组织样品;从所述固定的组织样品中回收交联的DNA:蛋白质复合物;将来自所述交联的DNA:蛋白质复合物的DNA的第一部分连接至来自所述交联的DNA:蛋白质复合物的DNA的第二部分,从而形成连接的DNA;从所述交联的DNA:蛋白质复合物中提取所述连接的DNA;对所述连接的DNA进行测序;并使用来自所述测序的信息来装配核苷酸序列。在一些情况下,所述固定的组织样品是福尔马林固定的。在一些情况下,在分离核酸之前,所述固定的组织样品未被均质化。在一些情况下,所述固定的组织是福尔马林固定、石蜡包埋的(FFPE)。在一些情况下,所述交联的DNA:蛋白质复合物包括染色质。在一些情况下,所述连接包括平端连接。在一些情况下,本文公开的方法还包括,在所述连接之前,消化来自所述交联的DNA:蛋白质复合物的DNA。在一些情况下,所述消化包括限制酶消化。在一些情况下,本文公开的方法还包括,在所述消化之后,补平所述消化产生的粘端,以产生平端。在一些情况下,其中所述补平使用生物素化的核苷酸进行。在一些情况下,所述回收包括将来自所述交联的DNA:蛋白质复合物的DNA与固体支持物结合。在一些情况下,所述提取包括消化来自所述交联的DNA:蛋白质复合物的蛋白质。在一些情况下,所述信息包括超过2000个碱基对(bp)的距离上的长范围信息。在一些情况下,所述距离大于10,000bp。在一些情况下,所述距离大于100,000bp。在一些情况下,所述距离大于200,000bp。在一些情况下,本文公开的方法还包括,在所述回收之前,溶解所述固定的组织样品的包埋材料。在一些情况下,所述包埋材料包括石蜡。
本文提供了组织样品分析方法。一些这样的方法包括:提供固定的组织样品;收集所述固定的组织样品的第一部分和所述固定的组织样品的第二部分,其中所述第一部分和所述第二部分来自所述固定的组织样品的不同区域;从所述第一部分回收第一交联的DNA:蛋白质复合物并从所述第二部分回收第二交联的DNA:蛋白质复合物;(i)将来自所述第一交联的DNA:蛋白质复合物的DNA的第一部分连接至来自所述第一交联的DNA:蛋白质复合物的DNA的第二部分,从而形成第一连接的DNA,以及(ii)将来自所述第二交联的DNA:蛋白质复合物的DNA的第二部分连接至来自所述第二交联的DNA:蛋白质复合物的DNA的第二部分,从而形成第二连接的DNA;从所述第一交联的DNA:蛋白质复合物中提取所述第一连接的DNA并从所述第二交联的DNA:蛋白质复合物中提取所述第二连接的DNA;对所述第一连接的DNA和所述第二连接的DNA进行测序;并使用来自所述测序的信息来装配第一核苷酸序列和第二核苷酸序列。在一些情况下,在分离核酸之前,所述固定的组织样品未被均质化。在一些情况下,所述固定的组织样品是福尔马林固定的。在一些情况下,所述固定的组织是福尔马林固定、石蜡包埋的(FFPE)。在一些情况下,所述第一交联的DNA:蛋白质复合物和所述第二交联的DNA:蛋白质复合物各自包括染色质。在一些情况下,(d)(i)和(d)(ii)中的所述连接包括平端连接。在一些情况下,本文公开的方法还包括,在(d)(i)和(d)(ii)中的所述连接之前,消化来自所述第一交联的DNA:蛋白质复合物和所述第二交联的DNA:蛋白质复合物的DNA。在一些情况下,所述消化包括限制酶消化。在一些情况下,本文公开的方法还包括,在所述消化之后,补平所述消化产生的粘端,以产生平端。在一些情况下,所述补平使用生物素化的核苷酸进行。在一些情况下,所述回收包括将来自所述第一交联的DNA:蛋白质复合物和来自所述第二交联的DNA:蛋白质复合物的DNA与固体支持物结合。在一些情况下,所述提取包括消化来自所述第一交联的DNA:蛋白质复合物和来自所述第二交联的DNA:蛋白质复合物的蛋白质。在一些情况下,所述信息包括超过2000个碱基对(bp)的距离上的长范围信息。在一些情况下,所述距离大于10,000bp。在一些情况下,所述距离大于100,000bp。在一些情况下,所述距离大于200,000bp。在一些情况下,本文公开的方法还包括,在所述回收之前,溶解所述固定的组织样品的包埋材料。在一些情况下,所述包埋材料包括石蜡。
本文还提供了用于从保存的样品获得基因组结构信息的试剂盒。一些这样的试剂盒包含:缓冲液、DNA结合剂、亲和标签结合剂、脱氧核苷酸、标记的脱氧核苷酸、DNA片段化试剂、末端修复酶、连接酶、蛋白质去除剂以及用于从保存的样品获得基因组结构信息的说明书。任选地,所述试剂盒还包含用于PCR的试剂或关于试剂盒与PCR试剂组合使用的说明书。在一些情况下,用于PCR的试剂包括缓冲液、核苷酸、正向引物、反向引物和热稳定DNA聚合酶。各种缓冲液包括限制性消化缓冲液、末端修复缓冲液、连接缓冲液、TE缓冲液、洗涤缓冲液、TWB溶液、NTB溶液、LWB溶液、NWB溶液和交联的逆转缓冲液中的至少一种。在一些情况下,所述限制性消化缓冲液包括DpnII缓冲液。例如,所述末端修复缓冲液通常包括NEB缓冲液2。所述连接缓冲液通常包含T4DNA连接酶缓冲液、BSA和Triton X-100。所述TE缓冲液通常包含tris和EDTA。在一些情况下,所述洗涤缓冲液包含tris和氯化钠。在一些情况下,所述TWB溶液包含tris、EDTA和吐温20。在一些情况下,所述NTB溶液包含tris、EDTA和氯化钠。在一些情况下,所述LWB溶液包含tris、氯化锂、EDTA和吐温20。在一些情况下,所述NWB溶液包含tris、氯化钠,EDTA和吐温20。在一些情况下,所述交联的逆转缓冲液包含tris、SDS和氯化钙。在一些情况下,所述DNA结合剂包括染色质捕获珠子。在一些情况下,所述染色质捕获珠子包括PEG-800粉末、tris缓冲液、氯化钠、EDTA、表面活性剂、TE缓冲液和sera-mag珠子。在一些情况下,所述亲和标签结合剂包括链霉亲和素珠子。在一些情况下,所述链霉亲和素珠子包括dynabead。在一些情况下,所述脱氧核苷酸包括dATP、dTTP、dGTP和dCTP中的至少三种。在一些情况下,所述生物素化的脱氧核苷酸包括生物素化的dCTP、生物素化的dATP、生物素化的dTTP和生物素化的dGTP中的至少一种。在一些情况下,所述DNA片段化试剂是限制酶、转座酶、核酸酶、声处理装置、流体动力学剪切装置和二价金属阳离子中的至少一种。在一些情况下,所述限制酶包括DpnII。在一些情况下,所述末端修复酶包括T4DNA聚合酶、klenow DNA聚合酶和T4多核苷酸激酶中的至少一种。在一些情况下,所述连接酶包括T4DNA连接酶。在一些情况下,所述蛋白质去除剂包括蛋白酶和苯酚中的至少一种。在一些情况下,所述蛋白酶包括蛋白酶K、灰色链霉菌蛋白酶、丝氨酸蛋白酶、半胱氨酸蛋白酶、苏氨酸蛋白酶、天冬氨酸蛋白酶、谷氨酸蛋白酶、金属蛋白酶和天冬酰胺肽裂合酶中的至少一种。在一些情况下,所述试剂盒任选地包含用于去除包埋材料的溶剂。在一些情况下,所述溶剂是二甲苯、苯和甲苯中的至少一种。考虑到本文列出的试剂盒组分及其基本上等同的变体,想到了替代试剂盒,其中排除了至少一种市售试剂盒组分,用关于成功使用其余组分与独立获得的试剂组合的说明书代替。
援引并入
本说明书中提到的所有出版物、专利和专利申请均通过引用并入本文,其程度如同特别地且单独地指出每一个单独的出版物、专利或专利申请均通过引用而并入。本说明书中提及的所有出版物、专利和专利申请以及其中引用的任何参考文献均通过引用整体并入本文。
附图说明
图1A描绘了福尔马林固定、石蜡包埋的(FFPE)组织样品的示例性示意图。
图1B描绘了用于基于染色质的下一代测序(NGS)文库制备的方案的示例性示意图。
图2A和图2B描绘了可用于寻找相互易位的示例性简单内核(kernel)。
图3描绘了在ETV6与NTRK3之间具有相互易位的信号的图像。
图4A、图4B和图4C描绘了在三个不同样品中比较的相同染色体对的基于图像分析的结果。
图5A、图5B和图5C描绘了染色体1对染色体7(图5A)、染色体2对染色体5(图5B)以及染色体1对染色体1(图5C)的归一化读取密度中值(在10个样品上)。
图6A和图6B描绘了各种箱元(bin)处理方法。图6A示出了相等的箱元大小,而图6B示出了箱元插值。
图7描绘了通过全基因组扫描分析管线的分析。
图8A和图8B描绘了来源于基于FFPE的‘Chicago’读取对文库(图8A)和基于经典‘Chicago’的读取对文库(图8B)的读取对距离频率数据。
图9A和图9B图示了读取对在GRCh38参考序列上的映射位置被绘制在GM12878与参考之间的结构差异附近。图9A描绘了具有侧翼20kb重复区域的80kb倒位的数据。图9B描绘了定相的杂合缺失的数据。
图10示出了被编程或以其他方式配置以实现本文提供的方法的示例性计算机系统。
图11A示出了通过本公开内容的方法分析FFPE组织和FFPE细胞培养物样品的结果,并与通过Hi-C分析的细胞培养物进行比较。
图11B、图11C和图11D示出了对Ashkenazi父亲(GM24149)细胞培养物FFPE样品进行分析以生成长范围基因组连锁数据的结果。
具体实施方式
将大量生物信息存储在保存的样品,如福尔马林固定、石蜡包埋的(FFPE)组织样品中,这样的样品常规在手术期间获得,例如在从患者切除病变或受损组织的手术期间获得。然而,认为在保存这样的样品期间发生的交联阻止从这些样品中提取DNA。保存和储存在技术上是直接且经济的,因此已使用这种方法储存了大量患者样品。因此,从例如经历癌症治疗试验的患者的肿瘤组织获得并保存样品早已成为常规。
一直到最近,这些样品仅可用于获取结构信息。三维组织切片保存完好且可用于形态学分析,但组织保存过程阻止了从保存的样品获取基因组水平信息。例如,图1A描绘了保存的样品(例如,FFPE样品)的示例性示意图。细胞101被描绘为在空间上分布在固定样品的组织102内,以使得它们的三维分布得以保留。核酸103存在于细胞内。
已经努力从这些样品获得核酸信息,但获得的核酸短且高度降解,使得仅可获得局部序列信息。因此,不容易获得关于重排的基因组水平信息。重排可包括但不限于缺失、重复、插入、倒位或逆转、易位、连接、融合和裂变。
在许多已知的病症中,正是这些基因组规模的重排与疾病有关。基因融合,特别是由基因组重排产生的基因融合,在某些癌症中特别常见,并且通常指示响应于疗法的疾病结果。通常,这些重排模式不能可靠地与保存的样品中的一种或另一种形态结构相关联。相反,它们必须直接进行基因分型。因此,尽管肿瘤样品本身被保存,但是该信息是不可获得的,并且关于肿瘤对化疗或其他疗法的反应的数据是容易获得的。
本文的方法和组合物涉及从诸如上文考虑的样品等保存的样品确定基因组结构信息。本文的一些方法依赖于利用提取方法的方法,以便获取保存的样品中包含的基因组结构信息。从样品中提取蛋白质DNA复合物,以使得复合物不被破坏或破裂,并且利用核酸的第一区段和第二区段不依赖于其磷酸二酯骨架而被保持在一起的事实。使用寡核苷酸或通过将区段彼此连接来标记这些区段,并且获得序列信息,从而允许人们将序列信息所映射到的叠连群分配至共同支架。通过评估由评价连接的区段所产生的读取对的频率和类型,可以推断出物理连锁或相位信息,并确定特定基因组结构重排,如与疾病有关的结构重排的存在。
保留在这些样品中的还有所保存的组织的三维构型。癌性肿瘤在其基因组结构上通常是异质的。肿瘤通常以涉及DNA修复缺陷、细胞死亡抑制、肿瘤生长和转移的单独突变为特征。肿瘤通常涉及具有各种突变组合并具有不同程度的健康风险的多个细胞亚群。通常,这些风险与局部形态学相关。肿瘤细胞群体从静止的,到良性的局部复制细胞群体,到代表相对较高健康风险的转移细胞群体。因此,不仅是确定肿瘤中通常存在给定的基因组结构,而且确定肿瘤样品中空间分离的亚群的局部基因组结构,对于试图评估先前药物治疗的相对功效或试图为呈现出未知风险的肿瘤的患者选择合适的药物的研究人员和从业者都是有价值的。特别地,将基因组结构与肿瘤中的位置和肿瘤内已知的细胞形态学相关联对于确定哪些基因组结构最接近地对应于肿瘤位置和最高风险的局部细胞形态学是有价值的。
据认为,使用本领域的方法从诸如FFPE样品等保存的样品中提取的DNA的长度通常小于300个碱基对。在保存(例如,FFPE)过程和随后的脱水和长期储存期间可能发生一些切口产生和损伤。在提取过程中也可能发生大量的片段化,该过程通常涉及过夜蛋白酶K处理,然后煮沸以逆转交联并释放DNA。尽管如此,通过本文的方法,这样的核酸分子与在不破坏或破裂DNA蛋白质复合物的情况下切除的DNA蛋白质复合物中保留的结构信息相组合,产生关于基因组结构重排的信息。
天然的和重构的染色质
保存的样品通常包含天然的或重构的染色质,或者以其他方式具有在多个点与蛋白质或非蛋白质支架结合的核酸,以使得第一区段和第二区段在接触交联剂之前不久不依赖于其共同的磷酸二酯骨架而被保持在一起。在真核生物中,基因组DNA被包装成染色质,作为细胞核内的染色体。真核原生染色质的基本结构单元是核小体,其由包裹在组蛋白八聚体周围的146个碱基对(bp)的DNA组成。该组蛋白八聚体由核心组蛋白H2A-H2B二聚体和H3-H4二聚体各两个拷贝组成。核小体沿着DNA规则地间隔开,因此通常称为“串上的珠子”。
核心组蛋白和DNA装配成核小体是由伴侣蛋白和相关的装配因子介导的。几乎所有这些因子均为核心组蛋白结合蛋白质。一些组蛋白伴侣蛋白,如核小体装配蛋白-1(NAP-1),显示出与组蛋白H3和H4结合的偏好。还观察到新合成的组蛋白被乙酰化,随后在装配成染色质之后发生脱乙酰化。因此,介导组蛋白乙酰化或脱乙酰化的因子在染色质装配过程中起重要作用。
总体上,已开发了两种体外方法用于重构或装配染色质。一种方法是不依赖ATP的,而第二种方法是ATP依赖性的。用于重构染色质的不依赖ATP的方法涉及DNA和核心组蛋白加上充当组蛋白伴侣分子的蛋白质如NAP-1或盐。该方法导致组蛋白在DNA上的随机排列,该随机排列没有准确地模拟细胞中的天然核心核小体颗粒。这些颗粒通常被称为单核小体,因为它们不是规则排序、延伸的核小体阵列,并且所用的DNA序列通常不长于250bp(Kundu,T.K.等人,Mol.Cell6:551-561,2000)。为了在更长长度的DNA序列上生成有序的核小体的延伸阵列,必须通过ATP依赖性方法装配染色质。
周期性核小体阵列的ATP依赖性装配,与天然染色质中所见的类似,需要DNA序列、核心组蛋白颗粒、伴侣蛋白以及利用ATP的染色质装配因子。ACF(利用ATP的染色质装配和重塑因子)或RSF(重塑和间距因子)是两种用于在体外生成延伸到染色质中的有序核小体阵列的得到广泛研究的装配因子(Fyodorov,D.V.和Kadonaga,J.T.Method Enzymol.371:499-515,2003;Kundu,T.K等人,Mol.Cell 6:551-561,2000)。
在具体的实施方案中,本公开内容的方法可以容易地应用于任何类型的片段化双链DNA,包括但不限于,例如,从血浆、血清和/或尿液中分离的游离DNA;来自细胞和/或组织的凋亡DNA;在体外酶促(例如,由DNA酶I、转座酶和/或限制性内切核酸酶)片段化的DNA;和/或通过机械力(水力剪切、声处理、雾化等)片段化的DNA。
重构的染色质不需要包含核小体或甚至不需要包含蛋白质。相反,广泛定义的重构的染色质包含至少一个结合的核酸,以使得第一区段和第二区段不依赖于其磷酸二酯骨架而被保持在一起。许多核酸结合部分适用于染色质重构。实例包括单独的或装配成核小体的核蛋白质,如组蛋白,以及其他核酸结合蛋白质,如转录因子、转座子或具有核酸结合活性的任何其他蛋白质。还考虑了非核蛋白质,如细胞器核酸结合蛋白质。还考虑了非蛋白质部分,如纳米颗粒或核酸结合表面。
在保存的提取的核酸中保留DNA连接性信息
保存的样品,如福尔马林固定、石蜡包埋的样品,通常包含具有损伤,如由固定剂和/或包埋材料引起的损伤的核酸。在DNA利用中的相关组分保留了经受DNA损伤剂的分离的DNA的DNA物理连锁信息的完整性。虽然DNA是一种相对稳定的分子,但DNA的完整性受环境因素且尤其是时间的影响。核酸酶污染、水解、氧化、化学、物理和机械损伤的存在代表了对DNA保存的一些主要威胁。DNA在运送过程中遇到的机械、环境和物理因素经常使它们成为片段并可能丢失长范围信息,该信息对于基因组分析至关重要。用于保存DNA信息的现有方法主要延迟DNA的衰减,但是随着时间的推移,尤其是当发生片段化时,对DNA损伤几乎没有提供保护。在许多情况下,通过固定并包埋打算长期储存的样品可以减轻这样的DNA损伤。例如,FFPE(福尔马林固定、石蜡包埋的)样品可以保存很长时间。但是,该保存过程会导致DNA损伤。此外,后续的DNA提取方法通常很苛刻并且会导致进一步的DNA损伤和片段化。
本文公开了与从保存和/或储存的核酸分子中回收长距离基因组信息有关的方法、组合物和试剂盒,该核酸分子例如是DNA复合物或染色质聚集体中的核酸分子,该DNA复合物或染色质聚集体例如是保存的(例如,FFPE)样品(包括基于组织的保存的样品和基于细胞培养物的保存的样品)中储存的交联的染色质。特别地,方法、组合物、系统和试剂盒涉及从这些保存的样品中回收核酸样品,从而保留核酸物理连锁信息。如下保留物理连锁信息:通过在FFPE提取过程中保留核酸本身,或通过保留核酸复合物以使得独立于核酸本身在提取过程中可能发生的任何损伤而保留物理连锁信息。
通常,在DNA储存期间或从诸如FFPE样品等保存的样品中提取DNA期间发生双链断裂,导致物理连锁信息的丢失。物理连锁信息的丢失是特别不利的,因为它妨碍序列装配者确定在二倍体生物样品中,映射到共同基因座的突变实际上是在同一等位基因中还是存在于位于二倍体基因组的不同链上的两个单独的同源等位基因上。由于基因组信息用于个体化医疗或用于更多药物或治疗目的,因此将物理连锁信息分配给装配的叠连群序列变得越来越重要。
因为基因组学技术随着全球的、长期的、历史性的或大规模的基因组研究计划的扩展而得到提高,这些对DNA完整性的挑战会成为问题。这样的研究对于了解当前人群和个体的基因组及其对人类健康的影响以及保存现有基因组以便未来通过更强大的技术进行研究势在必行。后一关注也与法医学关注重叠,法医学关注寻求无限期地保存DNA样品以供日后分析和鉴定。
保持物理连锁
保存的样品,如福尔马林固定、石蜡包埋的样品,经常在从该保存的样品确定核酸的物理连锁信息方面具有挑战。许多下游分析可用于从样品获得物理连锁信息,因此由于在FFPE样品DNA提取过程中此类信息的丢失而受到损害或变得复杂。核酸样品经常作为模板用于扩增大片段,例如使用已知与感兴趣区域相邻退火的引物经由聚合酶链反应(“PCR”)扩增。PCR依赖于模板的存在,从该模板生成多个扩增子核酸分子。扩增依赖于在单个分子上彼此物理连锁的两个退火位点(或退火位点和第二退火位点的反向互补体)。因此,引物退火位点之间的物理连锁的丢失使包含PCR扩增的分析复杂化。
类似地,通过将单个分子作为起始材料,极大地促进了将片段克隆至细胞宿主中以使其可以被复制、扩增、表达或转基因操作。片段的物理连锁的丢失(即,该片段的切割)使克隆复杂化,并且在片段装配中需要多个额外步骤。
或者,一些分析方法需要保持物理接近,但不要求核酸的第一区段和第二区段通过其磷酸二酯骨架而保持物理连锁。例如,可以测定探针与第一核酸区段和第二核酸区段的共定位,以确定它们是否存在于未降解样品中的共同分子上。保持物理连锁有利于这种分析,但对于这样的分析不是必需的。将分子装配成重构的染色质复合物,以使得第一区段和该区段不依赖于其共同的磷酸二酯骨架而结合,例如类似地促进这样的分析。即使在它们的共同磷酸二酯骨架被切割的情况下,第一区段和第二区段的物理接近信息也被保留,以使得用第一和第二探针探测复合物将指示第一片段和第二片段是否存在于原始样品中的共同分子上。
测序是受益于物理连锁信息保留的另一种分析,但不需要保持物理连锁,甚至物理接近。物理连锁的保持有助于测序,但是本文公开的和本领域技术人员已知的其他方法也有助于测序。例如,物理接近的保持有利于测序,因为保持接近的片段容易末端标记,以便传送物理连锁信息。使用允许相邻的片段序列被映射到共同分子上的寡核苷酸标签标记暴露的内部末端。替代地或组合地,将暴露的末端随机彼此连接,以生成读取对,其中标记的连接事件任一侧的序列被映射到共同的分子。即使在没有物理接近的情况下,如果处理核酸样品以便在物理接近信息丢失之前添加物理接近标记物,则促进序列分析。也就是说,重构的染色质在核酸分子上的装配、内部双链末端的暴露以及经由交叉连接或经由使用常见寡核苷酸标记来标记这些暴露的末端,如果在使样品经受降解之前进行,可能危及分子区段之间的物理连锁或者导致分子区段之间的物理连锁丢失。
由于所有这些原因,用于从保存的(例如,FFPE)样品中提取由DNA编码的物理连锁信息的简单、可负担的技术已成为该领域的关键必需技术。本文公开的方法可用于许多领域,作为非限制性实例,包括法医学、农业、环境研究、可再生能源、流行病学或疾病爆发反应和物种保存。本公开内容的技术用于映射组织样品如肿瘤样品的异质性。例如,可以在整个体积内对组织块进行采样,并且本公开内容的技术可以用于分析样品,从而允许比较整个组织体积中的变化。还可以在整个组织体积中分析感染。本公开内容的技术可以用于临床重要区域的定相、结构变体的分析、拷贝数变体的分析、假基因的解析(例如,STRC)、用于癌症中可药用结构变体的靶向小组以及其他应用。
在本文公开的方法的一些实施方案中,通过物理防止或减少核酸破坏来避免或减少物理连锁信息和/或样品提取(例如,从FFPE样品中提取)期间的物理连锁信息的丢失。通过保持第一区段和第二区段不依赖于其磷酸二酯骨架而物理接近来避免或减少相位信息和/或物理连锁信息的丢失。替代地或组合地,通过使用共同或相互互补的标签标记第一区段和第二区段来避免或减少相位信息和/或物理连锁信息的丢失,以使得一旦物理接近信息丢失且共同的磷酸二酯骨架系链丢失,附着于第一区段和第二区段上的测序标签信息足以将这两个区段鉴定为共有原始的、未降解的样品中的共同相位或共同分子。另外或可替代地,通过将第一区段连接至第二区段来实现标记,其中第二区段与第一区段不相邻,尽管它们在相同的原始DNA分子上物理连锁。
核酸降解由许多不同的来源引起。本文考虑到保护免受许多类型的DNA降解,特别是导致引入双链断裂的DNA降解,如导致在核酸样品中的原始的共同分子上第一区段与第二区段之间的物理连锁丢失的DNA降解。特别重要的是非酶促DNA降解,如储存的核酸样品随着时间推移而发生的降解,或者在室温下储存的样品发生的降解。非酶促核酸降解包括煮沸、蛋白酶处理、UV辐射、氧化、水解、物理应力,如剪切或缠结,或通过游离3'羟基亲核附接到核酸分子的内部键上,以使得分子被切割或形成套索(lariat)。本文还考虑到由酶活性,如非特异性内切核酸酶活性、涉及单链切口产生或双链断裂的拓扑异构酶活性、限制性内切核酸酶活性、转座酶活性、DNA错配修复或碱基切除或导致核酸损伤(诸如相位信息的丢失和/或物理连锁信息的丢失)的其他酶活性引起的核酸损伤。在一些情况下,酶促降解是外源性的,如由不完全核酸分离或在非无菌环境中的初始分离引起的,如在“现场”(如远程位置或例如由于科学资源的流行病学或其他负担而不容易或不经常获得无菌条件的位置)收集期间可能遇到的。
本文的一些实施方案涉及在体外将染色质装配到部分或完全分离的核酸上,如从保存的(例如,FFPE)样品中提取的核酸上,以使得在第一核酸分子与第二核酸分子之间发生双链断裂的情况下,将核酸分子的第一区段与该核酸分子的第二区段相关联的物理连锁信息不会丢失。重新装配的染色质在一些情况下包含从另一来源提供的核酸结合蛋白质。或者,在一些情况下,不完全分离的核酸样品,诸如经过处理以破坏或破裂其天然染色质构型、灭活天然核酸酶活性或者破坏或破裂天然染色质且灭活天然核酸酶活性的核酸样品,与交联剂接触,以稳定样品中的核酸。在其他情况下,使用样品中保留的天然染色质结构来分析来自保存的样品的核酸。
随着时间推移,在DNA储存期间经常发生双链断裂。因此,DNA分子的定相信息通常难以获得,因为不能确信地在长距离上将变体与单元型相关联。此外,由长重复区域分开的核酸区段不能连接或装配成共同的支架。这些挑战仅通过由FFPE提取方法、煮沸、蛋白酶处理、长期储存、室温储存、酶促或非酶降解或在分离期间或之后污染具有核酸酶活性的组合物引起的双链断裂引入而放大。
样品降解显著影响从头装配。在一些实施方案中,本发明通过防止随时间推移由双链断裂引起的DNA损伤并且任选地另外通过减少双链断裂对相位确定的影响来同时解决这些问题。保留的高度DNA完整性使得用于产生极长范围读取对数据(XLRP)的方法能够采用适当的输入DNA跨越数十万碱基并高达兆碱基量级的基因组距离。
为了克服通过物理连锁信息丢失由于双链断裂、DNA片段化和基因组中的大重复区域(包括着丝粒)而导致的物理连锁信息丢失所表现出来的实质性障碍;实现具有成本效益的从头装配;并为基因组分析和个体化医疗产生具有足够完整性和准确性的重新测序数据,这样的数据是非常宝贵的。
本文的公开内容通过以下手段来解决这些问题:防止通常在常见的提取(例如,FFPE提取)方法中发生的相位和/或物理连锁信息的丢失,或者保留与双链断裂无关的相位和/或物理连锁信息,以使得即使在下游处理时,如煮沸或蛋白酶处理时,也保留物理连锁信息。可以通过结合核酸分子的第一区段和第二区段,以使得它们不依赖于其共同的磷酸二酯骨架而被保持在一起,来物理保留物理连锁信息。替代地或组合地,可以通过标记或相互标记共同核酸分子的第一区段和第二区段,以使得在区段之间引入双链断裂的情况下,通过对第一区段和相邻序列以及第二区段和相邻序列进行测序而获得的标签或其他标记信息足以将第一区段和第二区段映射到共同核酸分子的共同相位,来保留物理连锁信息。或者,标记可以通过将第一区段连接至第二区段来实现,其中第二区段与第一区段不相邻,尽管它们在相同的原始DNA分子上物理连锁。例如,第一区段和第二区段可以沿着DNA分子序列不相邻,但是由于在诸如染色质等结构中折叠而彼此紧密物理接近或至少是共同的复合物中的成分。这类区段的暴露末端可以连接在一起。在另一个实例中,通过将条形码(例如,寡核苷酸条形码)或其他标签连接到第一和第二区段上以使得第一区段和第二区段可识别地映射到共同的复合物或共同的分子来实现标记。先前已经描述了通过染色质重新装配或核酸标签或标记来保留物理连锁信息的方法(PCT专利申请号PCT/US2016/024225,其整体并入本文)。
本文一些实施方案特别重要的是从保存的样品如FFPE包埋的样品中保存长核酸,以使得染色质可以使用蛋白质或非蛋白质核酸结合部分重构。对于在非常遥远但在分子上连接的DNA区段之间形成关联而言,使用重构的染色质是有利的。本公开内容使得远距离的区段能够不依赖于其共同磷酸二酯骨架而保持在一起且彼此物理结合,从而物理连接共同DNA分子的曾经远距离的部分。结果,这些不同核酸区段之间的双链连接的断裂不会导致相位和/或物理连锁信息的丢失。优选地,注意使染色质重构在最小化或防止每个单独的重构染色质单元包含多于一个核酸分子的条件下发生。随后的处理允许确定相缔合的区段的序列,从而产生在基因组上的分离延伸至可达输入DNA分子的全长的读取对。
样品
将此处的样品例如作为福尔马林固定、石蜡包埋的样品来保存,并且在一些情况下,在分析之前储存相当长的一段时间。可以根据药物试验获得样品,并且在多年后检查该样品以试图鉴定与阳性药物治疗结果相关或预测阳性药物治疗结果的基因组结构重排。这样的样品可用于确定长距离序列信息,如基因组结构信息。通过本文公开的方法产生的长范围信息可用于检测结构变异,如倒位、缺失和重复。结构变异检测还可以用于确定活性增强子何时接近癌基因或抑制性顺式作用元件何时接近肿瘤抑制基因。这样的驱动事件的鉴定适用于癌症研究,特别是其中肿瘤组织在研究完成后保存很长时间并且其中肿瘤的各种细胞亚群具有不同的基因组重构事件的研究。例如,可以检测新的结构变异并确定其为癌症类型的诱因。
本文的方法用于从诸如从患者、研究动物或环境样品获得的样品等保存的样品获得基因组结构信息。一些这样的样品包括活检样品、手术样品、肿瘤样品、整个器官和其他样品。这些样品通常在诸如甲醛、福尔马林、紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)或环磷酰胺等固定剂中保存。在一些情况下,通过将样品滴入固定剂溶液中,在不进行均质化的情况下直接固定保存的样品。保存后,这些样品可以储存数月或数年。此外,样品的完整性质保留了样品的位置信息,从而允许在整个样品中在空间上分析基因组结构信息。例如,可以将活检样品边缘的基因组结构信息与活检样品中心的基因组结构信息进行比较。
基于本文公开的方法的结构变异检测也可用于确定基因融合体的DNA结构。常用的FISH方法或RNA-seq可以确定DNA重排已经发生,但这些方法不提供重排的实际顺序。另一方面,本文提供了用于确定创建感兴趣的基因融合体的结构变体的方法。
本文提供了用于确定三维DNA结构信息的方法。在一些情况下,通过这些方法检测染色质的开放或闭合状态。通过本文公开的方法收集的结构信息也可用于确定绝缘子或环的存在或不存在,或用于检测新环或其他新的染色体内或染色体间关联。
本文提供了用于组织映射的方法。组织映射是从组织的不同区域如肿瘤进行钻取活检并从每个活检物确定结构或定相信息以确定不同区域中的基因组异质性的过程。
本文公开的方法可用于从保存的(例如,FFPE)样品生成包含长范围信息的读取对文库。这些文库可以从无限期保存的样品,例如FFPE组织中回收。
本文提供了用于确定淋巴细胞的结构和相位信息的方法。在一些情况下,这些方法用于区分不同的细胞或受体亚型。
在一些实施方案中,本文提供的方法用于使用长范围数据和包含数据的相位信息检测结构变异或基因组重排。这些方法的起始材料是已经在福尔马林中固定并在石蜡中包埋的样品,这对于大多数临床样品保存来说是常见的。使用本文提供的方法,从样品获得结构和长范围信息;由于高水平的DNA片段化,使用现有方法无法获得这样的信息。因此,使用本文提供的方法提供了在临床研究和药物发现的许多领域中使用该新数据的机会。
本文提供的方法的临床研究应用包括使用患者样品追踪治疗反应或抗性。为了减轻文库制备或测序变化,同时处理样品是有益的。这需要保存早期时间点的样品,如通过FFPE。本文提供的方法提供了从这些保存的样品中有效提取可用基因组材料的方法,使得可以同时处理并分析来自多个时间点的样品。
在一个实例中,从患者采集样品(例如,活检物),并在医疗程序期间将其置于固定剂(例如福尔马林)中。随后使用本公开内容的技术分析该固定的样品。例如,可以鉴定诸如与癌症相关的重排的基因组特征。可以分析肿瘤/非肿瘤定相,以将癌症基因组信息与体细胞基因组信息区分开。
此外,使用本文提供的方法,也可以从在发明这类提取方法之前保存的较老样品获得有用的长范围基因组信息。例如,可以使用本文提供的方法处理肿瘤样品库,并将其与患者的已知结果相关联,以便挖掘该信息以获得临床相关信息。以这种方式,本文提供的方法允许预后和诊断相关性。
本文提供的方法和组合物可用于确定保存的组织的结构变异谱。这些结构变异谱可以与其他数据集,如基因表达谱、突变谱、甲基化谱等结合使用,以定义不同的亚型或其他簇。
通过本文提供的方法确定的结构变异谱也用于确定突变随时间的结构演变。例如,在一些情况下,可以从起初到进展或复发的过程中监测肿瘤基因组结构中结构变体的演变。通过这种方式,可以更好地了解恶性肿瘤和转移。根据样品的可获得性,监测既可以通过在三维样品中检查不同的亚群而在空间上进行,也可以通过检查保存的样品的时间过程而在时间上进行。
本文提供的方法还可以在库存的、存档的或以其他方式长期存储的遗传样品上进行。例如,可以通过本文提供的方法分析来自现已死亡的曾患罕见或未知疾病的患者的保存的组织样品的档案,从而提供使用标准方法无法获得的见解。
通过本文公开的技术分析的样品可以降解或已经经受各种条件,包括对DNA的保存或长范围DNA信息(包括结构信息)有害的条件。在一些情况下,样品已经受酸处理。在一些情况下,样品已经受交联剂,如甲醛或福尔马林。在一些情况下,样品已经受包埋,如石蜡包埋。在一些情况下,样品未经受包埋,如石蜡包埋。在一些情况下,样品已经受热处理(例如,熔化包埋材料)。在一些情况下,样品已经受溶剂,如二甲苯(例如,以溶解粘合剂)。
固定的样品可以在固定后但在后续处理或分析之前经受各种条件。例如,固定后,时间可以经过至少约10分钟、20分钟、30分钟、40分钟、50分钟、1小时、1.5小时、2小时、3小时、4小时、5小时、6小时、7小时、8小时、9小时、10小时、11小时、12小时、18小时、1天、2天、3天、4天、5天、6天、1周、2周、3周、4周、1个月、2个月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、1年、2年、3年、4年、5年、6年、7年、8年、9年、10年、15年、20年、25年、30年、35年、40年、45年、50年、55年、60年、65年、70年、75年、80年、85年、90年、95年、100年或更久。固定后,样品可以经受至少约5℃、10℃、15℃、20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、60℃、65℃、70℃、75℃、80℃、85℃、90℃、95℃、100℃或更高的温度升高。固定后,样品可以经受至少约5℃、10℃、15℃、20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、60℃、65℃、70℃、75℃、80℃、85℃、90℃、95℃、100℃或更高的温度降低。固定后,样品可以经受至少约10帕斯卡(Pa)、20Pa、30Pa、40Pa、50Pa、60Pa、70Pa、80Pa、90Pa、100Pa、110Pa、120Pa、130Pa、140Pa、150Pa、160Pa、170Pa、180Pa、190Pa、200Pa、210Pa、220Pa、230Pa、240Pa、250Pa、260Pa、270Pa、280Pa、290Pa、300Pa、310Pa、320Pa、330Pa、340Pa、350Pa、360Pa、370Pa、380Pa、390Pa、400Pa、410Pa、420Pa、430Pa、440Pa、450Pa、460Pa、470Pa、480Pa、490Pa、500Pa、550Pa、600Pa、650Pa、700Pa、750Pa、800Pa、850Pa、900Pa、950Pa、1000Pa、2000Pa、3000Pa、4000Pa、5000Pa、6000Pa、7000Pa、8000Pa、9000Pa、10000Pa、20000Pa、30000Pa、40000Pa、50000Pa、60000Pa、70000Pa、80000Pa、90000Pa、100000Pa、101325Pa或更高的压力(例如,环境压力)降低。固定后,样品可以经受至少约10帕斯卡(Pa)、20Pa、30Pa、40Pa、50Pa、60Pa、70Pa、80Pa、90Pa、100Pa、110Pa、120Pa、130Pa、140Pa、150Pa、160Pa、170Pa、180Pa、190Pa、200Pa、210Pa、220Pa、230Pa、240Pa、250Pa、260Pa、270Pa、280Pa、290Pa、300Pa、310Pa、320Pa、330Pa、340Pa、350Pa、360Pa、370Pa、380Pa、390Pa、400Pa、410Pa、420Pa、430Pa、440Pa、450Pa、460Pa、470Pa、480Pa、490Pa、500Pa、550Pa、600Pa、650Pa、700Pa、750Pa、800Pa、850Pa、900Pa、950Pa、1000Pa、2000Pa、3000Pa、4000Pa、5000Pa、6000Pa、7000Pa、8000Pa、9000Pa、10000Pa、20000Pa、30000Pa、40000Pa、50000Pa、60000Pa、70000Pa、80000Pa、90000Pa、100000Pa、101325Pa或更高的压力(例如,环境压力)升高。固定后,样品可以经受至少约0.1米(m)、0.2m、0.3m、0.4m、0.5m、0.6m、0.7m、0.8m、0.9m、1m、2m、3m、4m、5m、6m、7m、8m、9m、10m、11m、12m、13m、14m、15m、16m、17m、18m、19m、20m或更高的高度变化。
固定的样品可在持续至少约10分钟、20分钟、30分钟、40分钟、50分钟、1小时、1.5小时、2小时、3小时、4小时、5小时、6小时、7小时、8小时、9小时、10小时、11小时、12小时、18小时、24小时或更长时间的固定反应中固定。在一些情况下,固定的样品在持续至少约30分钟的固定反应中固定。在一些情况下,固定反应时间可以是在固定反应猝灭之前经过的时间。在一些情况下,固定的样品在未猝灭的固定反应中固定。
本文公开的方法可用于分析感兴趣的选择性基因组区域以及可与感兴趣的选择性区域相互作用的基因组区域的遗传信息。如本文公开的扩增方法可在遗传分析的领域已知的装置、试剂盒和方法中使用,例如但不限于美国专利号6,449,562、6,287,766、7,361,468、7,414,117、6,225,109和6,110,709中发现的那些装置、试剂盒和方法。在一些情况下,本公开内容的扩增方法可用于扩增靶核酸以进行DNA杂交研究,以确定多态性的存在或不存在。所述多态性或等位基因可与疾病或病况如遗传病有关。在其他情况下,多态性可与疾病或病况的易感性有关,例如,与成瘾、退行性和与年龄相关的病况、癌症等有关的多态性。在其他情况下,多态性可与有益的特征(如增加的冠状动脉健康,或对疾病如HIV或疟疾的抵抗力,或对退行性疾病如骨质疏松、阿尔茨海默病或痴呆的抵抗力)有关。
本公开内容的组合物和方法可用于诊断、预后、治疗、患者分层、药物开发、治疗选择和筛选目的。本公开内容提供了以下优点,即使用本公开内容的方法可同时分析来自单个生物分子样品的许多不同靶分子。这允许例如对一个样品进行若干种诊断测试。
本公开内容的组合物和方法可用于基因组学。本文所述的方法可快速提供答案,这对于该应用来说是非常理想的。本文所述的方法和组合物可的发现生物标志物的过程中使用,所述生物标志物可用于诊断或预后以及作为健康和疾病的指示物。本文所述的方法和组合物可用于筛选药物,例如药物开发、治疗的选择、疗效的确定,和/或确定药物开发的目标。在涉及药物的筛选试验中测试基因表达的能力是非常重要的,因为蛋白质是体内最终的基因产物。在一些实施方案中,本文所述的方法和组合物将同时测量蛋白质和基因表达,这将提供关于正在进行的特定筛选的大部分信息。
本公开内容的组合物和方法可在基因表达分析中使用。本文所述的方法区分核苷酸序列。靶核苷酸序列之间的差异可以是例如,单核酸碱基差异、核酸缺失、核酸插入或重排。还可以检测到涉及超过一个碱基的这样的序列差异。本公开内容的方法能够检测感染性疾病、遗传病和癌症。
本发明方法可应用于获自或来源于患者的生物分子样品的分析,以确定样品中是否存在病变的细胞类型、疾病的阶段、患者的预后、患者对特定治疗作出反应的能力或对于患者的最佳治疗。本发明方法还可应用于鉴定特定疾病的生物标志物。
在一些实施方案中,本文所述的方法在病况的诊断中使用。如本文所用的术语病况的“诊断”可包括预测或诊断病况,从而确定病况的诱因、监测病况的治疗、诊断疾病的治疗反应,或对病况、病况进展或对病况的特定治疗的反应进行预后。例如,可根据本文所述的任何一种方法测定保存的(例如,FFPE)临床样品,以确定该样品中疾病或恶性细胞类型的标志物的存在和/或量,从而对疾病或癌症进行诊断或分期。
在一些实施方案中,本文所述的方法和组合物用于病况的诊断和预后。许多免疫性、增生性和恶性疾病和病症特别适合于本文所述的方法。免疫性疾病和病症包括变应性疾病和病症、免疫功能病症以及自身免疫疾病和病况。变应性疾病和病症包括但不限于变应性鼻炎、变应性结膜炎、变应性哮喘、特应性湿疹、特应性皮炎和食物变态反应。免疫缺陷包括但不限于重症联合免疫缺陷(SCID)、嗜酸细胞增多综合征、慢性肉芽肿病、白细胞粘附缺陷I和II、高IgE综合征、Chediak Higashi、嗜中性粒细胞增多症、嗜中性粒细胞减少症、发育不全、丙种球蛋白缺乏症、高IgM综合征、DiGeorge/Velocardial面部综合征(DiGeorge/Velocardial-facial syndromes)和干扰素γ-TH1通路缺陷。自身免疫和免疫失调病症包括但不限于类风湿性关节炎、糖尿病、系统性红斑狼疮、格雷夫斯病(Graves'disease)、格雷夫斯眼病、克罗恩病(Crohn’s disease)、多发性硬化、银屑病、系统性硬化、甲状腺肿和淋巴瘤性甲状腺肿(桥本甲状腺炎(Hashimoto's thyroiditis)、淋巴细胞性甲状腺肿)、脱发、自身免疫性心肌炎、硬化性苔藓、自身免疫性葡萄膜炎、艾迪生病(Addison's disease)、萎缩性胃炎、重症肌无力、特发性血小板减少性紫癜、溶血性贫血、原发性胆汁性肝硬化、韦格纳肉芽肿病(Wegener's granulomatosis)、结节性多动脉炎和炎性肠病、同种异体移植排斥以及由对感染性微生物或环境抗原的变态反应引起的组织破坏。
可通过本公开内容的方法评价的增生性疾病和病症包括但不限于新生儿血管瘤病;继发性进行性多发性硬化;慢性进行性骨髓退行性疾病;神经节瘤病(ganglioneuromatosis);节细胞性神经瘤;瘢痕疙瘩形成;骨佩吉特病(Paget's Diseaseof the bone);纤维囊性疾病(例如,乳房或子宫的纤维囊性疾病);结节病;Peronies和Duputren纤维化,肝硬化,动脉粥样硬化和血管再狭窄。
可通过本公开内容的方法评价的恶性疾病和病症包括恶性血液病和实体瘤。
当样品为血液样品时,恶性血液病特别适合于本公开内容的方法,因为这样的恶性病涉及血源性细胞的变化。这样的恶性病包括非霍奇金淋巴瘤(non-Hodgkin’slymphoma)、霍奇金淋巴瘤、非B细胞淋巴瘤和其他淋巴瘤、急性或慢性白血病、红细胞增多症、血小板增多、多发性骨髓瘤、骨髓增生异常症、骨髓增生性疾病、骨髓纤维化、非典型免疫淋巴细胞增生和浆细胞病症。
可通过本公开内容的方法评价的浆细胞病症包括多发性骨髓瘤、淀粉样变性和瓦尔登斯特伦巨球蛋白血症(Waldenstrom’s macroglobulinemia)。
实体瘤的实例包括但不限于结肠癌、乳腺癌、肺癌、前列腺癌、脑肿瘤、中枢神经系统肿瘤、膀胱肿瘤、黑色素瘤、肝癌、骨肉瘤和其他骨癌、睾丸和卵巢癌、头颈部肿瘤和宫颈肿瘤。
还可以通过本公开内容的方法检测遗传病。这可以通过产前或产后筛查染色体和遗传变异或遗传病来进行。可检测的遗传病的实例包括:21羟化酶缺乏、囊性纤维化、脆性X综合征、特纳综合征(Turner Syndrome)、杜氏肌营养不良(Duchenne MuscularDystrophy)、唐氏综合征或其他三体综合征、心脏病、单基因疾病、HLA分型、苯丙酮尿症、镰状细胞贫血、Tay-Sachs病、地中海贫血、克兰费尔特综合征(Klinefelter Syndrome)、亨廷顿病、自身免疫病、脂肪沉积、肥胖缺陷、血友病、先天性代谢缺陷和糖尿病。
本文所述的方法可用于通过确定样品中细菌或病毒各自的标志物的存在和/或量来诊断病原体感染,例如通过细胞内细菌和病毒引起的感染。
可通过本公开内容的方法检测各种感染性疾病。感染性疾病可能是由细菌、病毒、寄生虫和真菌致病原引起的。还可以使用本公开内容测定各种致病原对药物的抗性。
可通过本公开内容检测的细菌致病原包括大肠杆菌(Escherichia coli)、沙门氏菌属(Salmonella)、志贺氏菌属(Shigella)、克雷伯氏菌属(Klesbiella)、假单胞菌属(Pseudomonas)、单核细胞增多性利斯特氏菌(Listeria monocytogenes)、结核分枝杆菌(Mycobacterium tuberculosis)、鸟胞内分枝杆菌(Mycobacteriumaviumintracellulare)、耶尔森氏菌属(Yersinia)、弗朗西丝氏菌属(Francisella)、巴斯德氏菌属(Pasteurella)、布鲁氏菌属(Brucella)、梭菌属(Clostridia)、百日咳博德特氏菌(Bordetella pertussis)、拟杆菌属(Bacteroides)、金黄色葡萄球菌(Staphylococcusaureus)、肺炎链球菌(Streptococcus pneumonia)、B-溶血性链球菌(B-Hemolyticstrep.)、棒杆菌属(Corynebacteria)、军团菌属(Legionella)、枝原体属(Mycoplasma)、脲原体属(Ureaplasma)、衣原体属(Chlamydia)、淋病奈瑟氏球菌(Neisseria gonorrhea)、脑膜炎奈瑟氏菌(Neisseria meningitides)、流感嗜血杆菌(Hemophilus influenza)、粪肠球菌(Enterococcus faecalis)、普通变形杆菌(Proteus vulgaris)、奇异变形杆菌(Proteus mirabilis)、幽门螺杆菌(Helicobacter pylori)、梅毒螺旋体(Treponemapalladium)、布氏疏螺旋体(Borrelia burgdorferi)、回归热疏螺旋体(Borreliarecurrentis)、立克次体病原体(Rickettsial pathogens)、诺卡氏菌属(Nocardia)和放线菌(Acitnomycetes)。
可通过本公开内容检测的真菌致病原包括新型隐球菌(Cryptococcusneoformans)、皮炎芽生菌(Blastomyces dermatitidis)、荚膜组织胞浆菌(Histoplasmacapsulatum)、粗球孢子菌(Coccidioides immitis)、巴西副球孢子菌(Paracoccidioidesbrasiliensis)、白假丝酵母(Candida albicans)、烟曲霉(Aspergillus fumigautus)、藻状菌纲(Phycomycetes)(根霉属(Rhizopus))、申克孢子丝菌(Sporothrix schenckii)、着色真菌病原体(Chromomycosis)和足分支菌病原体(Maduromycosis)。
可通过本公开内容检测的病毒致病原包括人类免疫缺陷病毒、人类T细胞淋巴细胞营养病毒、肝炎病毒(例如,乙型肝炎病毒和丙型肝炎病毒)、EB病毒、巨细胞病毒、人类乳头瘤病毒、正粘病毒、副粘病毒、腺病毒、冠状病毒、弹状病毒、脊髓灰质炎病毒、披膜病毒、布尼亚病毒(bunya viruses)、沙粒病毒、风疹病毒和呼肠孤病毒。
可通过本公开内容检测的寄生虫致病原包括恶性疟原虫(Plasmodiumfalciparum)、疟疾疟原虫(Plasmodium malaria)、间日疟原虫(Plasmodium vivax)、卵形疟原虫(Plasmodium ovale)、旋盘尾丝虫(Onchoverva volvulus)、利什曼原虫属(Leishmania)、锥虫属(Trypanosoma spp.)、血吸虫属(Schistosoma spp.)、溶组织内阿米巴(Entamoeba histolytica)、隐孢子虫(Cryptosporidum)、贾第虫属(Giardia spp.)、毛滴虫属(Trichimonas spp.)、结肠小袋虫(Balatidium coli)、班氏丝虫(Wuchereriabancrofti)、弓浆虫属(Toxoplasma spp.)、蠕形住肠蛲虫(Enterobius vermicularis)、人蛔虫(Ascaris lumbricoides)、毛首鞭形线虫(Trichuris trichiura)、麦地那龙线虫(Dracunculus medinesis)、吸虫类(trematodes)、阔节裂头绦虫(Diphyllobothriumlatum)、绦虫属(Taenia spp.)、卡氏肺孢子虫(Pneumocystis carinii)和美洲板口线虫(Necator americanis)。
本公开内容还可用于检测致病原的药物抗性。例如,万古霉素抗性屎肠球菌(Enterococcus faecium)、甲氧西林抗性金黄色葡萄球菌、青霉素抗性肺炎链球菌、多种药物抗性结核分枝杆菌和AZT抗性人类免疫缺陷病毒均可采用本公开内容来鉴定。
因此,使用本公开内容的组合物和方法检测的靶分子可以是患者标志物(如癌症标志物)或感染外来病原体的标志物,如细菌或病毒标志物。
本公开内容的组合物和方法可用于鉴定和/或量化靶分子,该靶分子的丰度指示生物状态或疾病状况,例如,作为疾病状态的结果而上调或下调的血液标志物。
在一些实施方案中,本公开内容的方法和组合物可用于细胞因子表达。本文所述方法的低灵敏度将有助于细胞因子(例如,作为疾病如癌症的状况、诊断或预后的生物标志物)的早期检测,以及亚临床状况的鉴定。
靶多核苷酸所来源的不同样品可包含来自相同个体的多个样品、来自不同个体的样品或其组合。在一些实施方案中,样品包含来自单个个体的多个多核苷酸。在一些实施方案中,样品包含来自两个或更多个个体的多个多核苷酸。个体是可以产生靶多核苷酸的任何生物体或其部分,所述个体的非限制性实例包括植物、动物、真菌、原生生物、无核原生物、病毒、线粒体和叶绿体。可从受试者分离样品多核苷酸,如来源于受试者的保存的(例如,FFPE)细胞样品、保存的(例如,FFPE)组织样品或器官样品,包括例如,组织或肿瘤活检物。受试者可以是动物,包括但不限于动物,如牛、猪、小鼠、大鼠、鸡、猫、狗等,并且在一些情况下是哺乳动物,如人。样品还可以通过人工获得,如通过化学合成。在一些实施方案中,样品包含DNA。在一些实施方案中,样品包含基因组DNA。在一些实施方案中,样品包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签或其组合。在一些实施方案中,样品包含通过使用引物和DNA聚合酶的任何合适的组合进行引物延伸反应而生成的DNA,所述引物延伸反应包括但不限于聚合酶链反应(PCR)、逆转录及其组合。在引物延伸反应的模板为RNA的情况下,逆转录的产物被称为互补DNA(cDNA)。在引物延伸反应中有用的引物可包含对一个或多个靶标具有特异性的序列、随机序列、部分随机序列及其组合。适合于引物延伸反应的反应条件是本领域已知的。通常,样品多核苷酸包含样品中存在的任何多核苷酸,其可能包括或可能不包括靶多核苷酸。
用于提取和纯化核酸的方法是本领域公知的。例如,核酸可通过采用苯酚、苯酚/氯仿/异戊醇或类似的制剂(包括TRIzol和TriReagent)进行有机提取来纯化。提取技术的其他非限制性实例包括:(1)有机提取,然后进行乙醇沉淀,例如,在使用或不使用自动化核酸提取器例如可从Applied Biosystems(Foster City,Calif.)获得的型号341DNA提取器的情况下,使用苯酚/氯仿有机试剂(Ausubel等人,1993);(2)固定相吸附法(美国专利号5,234,809;Walsh等人,1991);和(3)盐诱导的核酸沉淀法(Miller等人,(1988)),这样的沉淀法通常被称为“盐析”法。核酸分离和/或纯化的另一个实例包括使用核酸可特异性或非特异性结合的磁性颗粒,然后使用磁铁分离珠子,洗涤珠子,并从珠子上洗脱核酸(参见,例如美国专利号5,705,628)。在一些实施方案中,以上的分离方法可在酶消化步骤之前,以帮助从样品中除去不需要的蛋白质,例如,采用蛋白酶K或其他类似的蛋白酶进行消化。参见,例如,美国专利号7,001,724。如果需要的话,可向裂解缓冲液中添加RNA酶抑制剂。对于某些细胞或样品类型,可能需要在方案中添加蛋白质变性/消化步骤。纯化方法可针对分离DNA、RNA或二者。当DNA和RNA二者在提取程序过程中或之后被一起分离出时,可采用进一步的步骤通过使彼此分离而纯化其中的一种或二者。还可以生成提取的核酸的亚级分,例如,按大小、序列或其他物理或化学特征进行纯化。除了初始的核酸分离步骤以外,还可在本公开内容的方法中的任何步骤之后进行核酸的纯化,如用于去除过量或不需要的试剂、反应物或产物。
可以如2003年10月9日公开的美国专利申请公开号US2002/0190663 A1中所述获得核酸模板分子。通常,可通过多种技术,如通过Maniatis等人,Molecular Cloning:ALaboratory Manual,Cold Spring Harbor,N.Y.,pp.280-281(1982)所述的那些技术,从生物样品中提取核酸。在一些情况下,可以先从生物样品中提取核酸,然后在体外进行交联。在一些情况下,可进一步从核酸中去除天然缔合蛋白质(例如,组蛋白)。
天然染色质的提取和回收
本文提供了从保存的样品(例如,FFPE样品)中提取长片段长度和/或含有相位信息的片段的方法。在一些情况下,这些方法涉及温和地处理保存的细胞(例如,FFPE细胞)的细胞核,以便保留在该保存的样品(例如,FFPE样品)中已经存在的染色质结构。
本文公开了用于进行提取和原位文库制备以保留长范围DNA片段和/或含有相位信息的片段的方法。随后可以进一步处理所释放的DNA以供分析,如用于产生读取对文库。
可以用溶解剂处理保存的样品(诸如FFPE样品)以溶解包埋材料(例如,石蜡)。在一些情况下,该溶解剂是溶剂,如二甲苯。合适的溶剂的其他实例包括但不限于有机溶剂,如二甲苯、甲苯和苯,以及各自的合适的异构体。可以将组合物混合,以使得包埋材料溶解在溶解剂剂中。在一些情况下,混合涉及涡旋或高速摇动或搅拌。或者,在一些情况下使用温和搅拌。处理样品以将样品与溶剂和溶解的包埋材料分离,如通过以足以沉淀样品的速度离心。足够的速度包括但不限于台式离心机的最大速度,例如14,000转/分钟。随后可以通常轻柔地除去包含溶解的包埋材料的溶解剂,以免干扰沉淀物。随后可以用洗涤剂除去过量的溶解剂。在一些实例中,该洗涤剂是乙醇,例如100%乙醇。将样品混合、涡旋或搅拌,以从保持容器的内壁移出样品沉淀物。可任选地将样品再次离心以重新沉淀。然后从保持容器中移出任何剩余的液体并干燥该样品。代表性的干燥技术包括风干、真空干燥或本领域熟知的其他干燥技术。干燥后,向样品中加入缓冲液,如裂解缓冲液。裂解缓冲液可包含诸如tris等缓冲剂,诸如氯化钠等盐,诸如十二烷基硫酸钠(SDS)、triton等一种或多种去污剂,诸如EDTA等螯合剂,及其任意组合。代表性的裂解缓冲液包含50mM Tris pH 8、50mMNaCl、1%SDS、0.15%Triton、1mM EDTA,但是本领域技术人员理解,可以容易地产生该组合物的变体。可以采用合适的方案来去除其他包埋剂。
可以使样品再水合,如任选地在摇动或轻轻搅拌的同时,通过温育(例如,在37℃下)足够的时间。随后可以搅拌、移液或以其他方式混合样品,以便破碎沉淀物并将其重新悬浮在裂解缓冲液中。随后可以将剩余的不溶性碎片从裂解缓冲液中分离,如通过以足够的速度离心。可以回收DNA-蛋白质复合物,并使用下游技术,如标记核酸片段的技术进行评价。
天然DNA:蛋白质复合物(例如,染色质)可以从保存的样品(例如,FFPE样品)中分离,以使得复合物而不是核酸保持完整。在这些方法中,核酸物理连锁信息可以不是必须通过保留核酸磷酸二酯骨架来保留,而是通过保留不依赖于磷酸二酯骨架状态的连锁信息来保留,以使得通常标记的复合物片段可以被推断为具有原始样品中的结构或物理连锁排列。
染色质的增溶可以是分离天然DNA:蛋白质复合物和从诸如FFPE样品等保存的样品中提取长范围连锁信息中的重要步骤。染色质复合物可以通过多种方法增溶,包括但不限于蛋白酶消化和声处理。这样的增溶方法可以破裂组织和染色质以释放可溶性染色质。
经由蛋白酶消化的增溶可以使用多种蛋白酶(也称为肽酶或蛋白酶),包括但不限于蛋白酶K、内切蛋白酶胰蛋白酶、胰凝乳蛋白酶、内切蛋白酶Asp-N、内切蛋白酶Arg-C、内切蛋白酶Glu-C、内切蛋白酶Lys-C、嗜热菌蛋白酶、木瓜蛋白酶、枯草杆菌蛋白酶、梭菌蛋白酶、羧肽酶B、羧肽酶P、羧肽酶Y、组织蛋白酶C、酰基氨基酸释放酶和焦谷氨酸氨肽酶中的一种或多种。蛋白酶可以是丝氨酸蛋白酶、半胱氨酸蛋白酶、苏氨酸蛋白酶、天冬氨酸蛋白酶、谷氨酸蛋白酶、金属蛋白酶或天冬酰胺肽裂合酶。
经由蛋白酶消化增溶的示例性方案可包括去除包埋材料(例如,石蜡)、蛋白酶消化、回收溶解的染色质(例如,用羧化珠子,如SPRI珠子)和对文库制备物进行测序。例如,首先,可将组织材料放入管(例如,1.5mLEppendorf管)中。然后,可以使用诸如二甲苯、Hemo-De或柠檬烯等溶剂溶解包埋材料(例如,石蜡)。可以使用乙醇(例如,100%EtOH)除去溶剂,并且可以干燥该样品以除去乙醇。然后可以用蛋白酶(例如蛋白酶K)消化该样品。这可导致大部分或全部组织样品溶解。不受理论的限制,蛋白酶处理可以是有效的,因为在蛋白酶处理的条件下(例如,在37℃下1小时),蛋白质-DNA亚甲基交联逆转可以非常小。
经由声处理增溶的示例性方案可包括去除包埋材料(例如,石蜡)、裂解、均质化、声处理、回收溶解的染色质(例如,用羧化珠子,如SPRI珠子)和对文库制备物进行测序。例如,首先可以使用诸如二甲苯、Hemo-De或柠檬烯等溶剂溶解包埋材料(例如,石蜡)。然后可以将组织样本再水合,例如在从100%乙醇到纯水的不同乙醇浓度的连续洗涤中。然后可将组织材料放入管中并在裂解缓冲液中温育(例如,1小时)。然后可以将组织重新悬浮于缓冲液,例如消化缓冲液(例如,MNase消化缓冲液)中。然后可以通过包括但不限于Dounce均质化的方法将样品均质化。然后可以对样品进行声处理并重新悬浮在超声缓冲液中。然后可以根据需要尽可能多地重复声处理循环(例如,在最高功率下30秒)(例如,10个循环、20个循环、30个循环、40个循环)以获得足够的溶解的染色质。然后可以回收可溶性部分。
溶解后,可以根据本文讨论的方法进一步处理样品,例如回收溶解的染色质(例如,通过与固相可逆固定化(SPRI)珠子结合)、制备测序文库,如本文所述的Chicago文库(例如,核酸的切割、标记和连接)、测序(例如,包括长范围信息)和序列装配。
大小选择
可使从保存的(例如,FFPE)生物样品获得的核酸发生片段化以产生用于分析的合适的片段。可使用多种机械、化学和/或酶法,将模板核酸片段化或剪切成所需长度。可经由声处理,例如Covaris法,短暂暴露于DNA酶,或使用一种或多种限制酶的混合物或转座酶或切口酶(nicking enzyme),来对DNA进行随机剪切。可通过短暂暴露于RNA酶、热加镁或通过剪切使RNA片段化。RNA可转化为cDNA。如果采用片段化,则RNA可在片段化之前或之后转化为cDNA。在一些实施方案中,通过声处理使来自生物样品的核酸发生片段化。在其他实施方案中,通过水力剪切仪器使核酸发生片段化。通常,单独的核酸模板分子可为约2kb碱基至约40kb。在各个实施方案中,核酸可为约6kb-10kb片段。核酸分子可以是单链、双链或具有单链区域的双链(例如,茎和环结构)。
在一些实施方案中,交联的DNA分子可经历大小选择步骤。可对小于或大于特定大小的交联的DNA分子进行核酸的大小选择。大小选择可进一步受到交联的频率和/或片段化方法(例如受到选择常见的或罕见的切割限制酶)的影响。在一些实施方案中,可制备组合物,其包括使在约1kb至5Mb、约5kb至5Mb、约5kB至2Mb、约10kb至2Mb、约10kb至1Mb、约20kb至1Mb、约20kb至500kb、约50kb至500kb、约50kb至200kb、约60kb至200kb、约60kb至150kb、约80kb至150kb、约80kb至120kb或约100kb至120kb范围内,或由这些值中的任何值所界定的任何范围内(例如,约150kb至1Mb)的DNA分子交联。
在一些实施方案中,使样品多核苷酸片段化成具有一个或多个特定大小范围的片段化DNA分子的群体。在一些实施方案中,可由至少约1、约2、约5、约10、约20、约50、约100、约200、约500、约1000、约2000、约5000、约10,000、约20,000、约50,000、约100,000、约200,000、约500,000、约1,000,000、约2,000,000、约5,000,000、约10,000,000个或更多个起始DNA的基因组等同物生成片段。可通过本领域已知的方法实现片段化,包括化学、酶和机械片段化。在一些实施方案中,片段具有约10至约10,000、约20,000、约30,000、约40,000、约50,000、约60,000、约70,000、约80,000、约90,000、约100,000、约150,000、约200,000、约300,000、约400,000、约500,000、约600,000、约700,000、约800,000、约900,000、约1,000,000、约2,000,000、约5,000,000、约10,000,000个或更多个核苷酸的平均长度。在一些实施方案中,片段具有约1kb至约10Mb的平均长度。在一些实施方案中,片段具有约1kb至5Mb、约5kb至5Mb、约5kB至2Mb、约10kb至2Mb、约10kb至1Mb、约20kb至1Mb、约20kb至500kb、约50kb至500kb、约50kb至200kb、约60kb至200kb、约60kb至150kb、约80kb至150kb、约80kb至120kb或约100kb至120kb,或由这些值中的任何值所界定的任何范围(例如,约60至120kb)的平均长度。在一些实施方案中,片段具有少于约10Mb、少于约5Mb、少于约1Mb、少于约500kb、少于约200kb、少于约100kb或少于约50kb的平均长度。在其他实施方案中,片段具有大于约5kb、大于约10kb、大于约50kb、大于约100kb、大于约200kb、大于约500kb、大于约1Mb、大于约5Mb或大于约10Mb的平均长度。在一些实施方案中,机械地实现片段化,其包括使样品DNA分子进行声波的声处理。在一些实施方案中,片段化包括采用一种或多种酶在适合于该一种或多种酶生成双链核酸断裂的条件下处理样品DNA分子。用于生成DNA片段的酶的实例包括序列特异性和非序列特异性核酸酶。核酸酶的非限制性实例包括DNA酶I、片段化酶、限制性内切核酸酶、其变体及其组合。例如,采用DNA酶I进行的消化可在不存在Mg++及存在Mn++的情况下诱导DNA中的随机双链断裂。在一些实施方案中,片段化包括采用一种或多种限制性内切核酸酶处理样品DNA分子。片段化可产生具有5’突出端、3’突出端、平端或其组合的片段。在一些实施方案中,例如当片段化包括使用一种或多种限制性内切核酸酶时,样品DNA分子的裂解留下了具有可预测序列的突出端。在一些实施方案中,所述方法包括经由标准方法如柱纯化或从琼脂糖凝胶中分离对片段进行大小选择的步骤。
对文库制备物进行测序
图1B示出了基于染色质的下一代测序(NGS)文库制备(例如,“Chicago”)的示例性示意图。在第一步骤111中,染色质核酸酶(蓝色圆圈)交联(红色线),形成染色质聚集体。在第二步骤112中,用限制性内切核酸酶切割染色质聚集体。在第三步骤113中,使切割的末端成为平端、连接并标记(例如,用生物素)(小绿色圆圈)。在第四步骤114中,随机连接平端,形成短、中和长范围关联(红色星号表示连接事件)。在第五步骤(115)中,使交联逆转,纯化DNA,并且用标记物下拉选择含有信息性连接的片段。然后,可以进行常规的测序文库制备。得到的读取对可以跨越基因组距离,直至输入DNA的最大尺寸。这样的文库可用于构建具有染色体级超支架的高度连续的基因组装配体。
图1C示出了来自保存的样品(例如,FFPE样品)的染色质提取和文库制备(例如,Chicago文库制备)的工作流程的示例性示意图。可以处理保存的样品以提取固定的染色质,随后可以对其进行生成长范围基因组连锁信息并对其进行测序的方法。例如,保存的样品121可以进行染色质提取122并且片段化(例如,用限制酶,如DpnII)。该染色质可包含交联123。可以用包括生物素化的核苷酸的核苷酸混合物补平突出端(例如,4bp 5'突出端)124。然后可以将平端连接125,并且可以下拉(例如,使用链霉亲和素)标记物(例如,生物素)126。随后可以除去未标记的(例如,非生物素化的)平端,并且可以附接测序衔接子(例如,Illumina测序衔接子、Pacific Biosciences测序衔接子、纳米孔测序衔接子),并且可以制备测序文库127。该文库可以对含有生物素化连接接头的分子进行富集,扩增(例如,通过PCR),并测序(例如,使用Illumina测序仪,如MiSeq或HiSeq,使用Pacific Biosciences长读取测序仪,或使用纳米孔测序仪,如Oxford Nanopore或Genia)。在一些情况下,例如当使用像Pacific Biosciences或纳米孔测序仪这样的长读取测序仪时,可以在测序之前将多个分子接合(例如,连接)成更长的分子。
作为富集标记的核苷酸(例如,生物素化的核苷酸,表观遗传修饰的核苷酸)的备选或补充,可对感兴趣的遗传区域进行富集。例如,可以对融合基因富集样品或文库,如通过靶向融合基因的已知的相关的一半。也可以针对如本文所讨论的其他遗传和基因组特征进行富集。
在许多情况下,作为纯化过程的一部分,没有将固定剂添加到先前获得的样品(诸如FFPE样品)中。相反,可以依赖于先前根据原始样品保存过程产生的交联来稳定此处分离的DNA-蛋白质(例如,染色质)复合物,并且提取过程保留了连接的复合物而不是生成大量新的复合物。然后通过本文公开的任何方法处理溶解在裂解缓冲液中的样品部分。
或者,在一些实施方案中,使用体外邻近连接(例如,Chicago体外邻近连接)或其他蛋白质-DNA复合物标记方法从重构的染色质生成读取对文库,该染色质由从包含DNA的保存的样品(诸如FFPE保存的样品)中提取的高质量核酸生成。例如,可以处理保存的样品(例如,FFPE样品)以提取核酸,如DNA,从而使提取过程中的DNA损伤减至最小。在一些情况下,从核酸提取方案中排除涡旋、剪切、煮沸、高温温育或DNA酶相关酶处理中的一种或多种,以减少对分离的裸DNA的损伤。回收的分离的DNA的质量足以保留物理连锁、相位或基因组结构信息。提取的核酸可以被稀释并用于产生重构的染色质(例如,使用诸如在以下文献中教导的那些方法:2014年8月7日公开的PCT公开号WO2014/121091,其通过引用整体并入本文,或2016年2月4日公开的PCT公开号WO2016/019360,其通过引用整体并入本文中),以使得DNA:蛋白质复合物包含单个DNA分子和至少一个DNA结合部分。重构的染色质可以交联,例如用甲醛交联,以独立于其共同的磷酸二酯骨架保留同一DNA分子内DNA序列的近侧信息。重要的是,在从保存的样品中分离后,可以对从保存的样品(诸如FFPE样品)中提取的DNA进行交联。如上文在分离DNA-蛋白质复合物的背景下所讨论的,在许多情况下,在分离过程中不添加交联剂。可以标记这些交联的重构复合物,例如使用生物素、甲基化、硫化、乙酰化或其他碱基修饰,随后分离,例如在生物素标记的情况下使用链霉亲和素珠子。随后可以用限制酶消化分离的复合物,以生成游离的粘端,该粘端随后用标记的核苷酸补平,例如使用所提及的生物素化的核苷酸或其他核苷酸。
DNA:蛋白质复合物中暴露的DNA末端,无论是预先存在的(例如,来自保存的样品的降解)还是本文公开的方案(例如,酶促或物理切割)的结果,都可以连接起来以在同一DNA分子内的DNA序列之间生成配对末端。这些连接的配对末端可能通常最初在DNA分子上彼此不相邻。配对末端可以是平端,在一些情况下是补平粘端的结果。
替代地或另外地,暴露的核酸复合物末端可通过本文所述的标点寡核苷酸(punctuation oligonucleotide)彼此连接,或者可以使用寡核苷酸标签群体来标记,以使得核酸片段可识别地定位于共同的DNA蛋白质复合物。在一些情况下,配对末端读取不是从直接连接的DNA复合物的切割末端生成的,而是从连接到共同的标点寡核苷酸的切割末端生成的。标点寡核苷酸包括可以与靶多核苷酸连接以桥接经历相位保留重排的样品分子的两个切割的内部末端的任何寡核苷酸。标点寡核苷酸可包括DNA、RNA、核苷酸类似物、非规范核苷酸、标记的核苷酸、修饰的核苷酸或其组合。在许多实例中,双链标点寡核苷酸包含两个彼此杂交的单独寡核苷酸(也称为“寡核苷酸双链体”),并且杂交可留下一个或多个平端、一个或多个3’突出端、一个或多个5’突出端、一个或多个由错配的和/或未配对的核苷酸产生的凸起,或这些的任何组合。在一些情况下,不同的标点寡核苷酸在顺序反应中或同时与靶多核苷酸连接。例如,可向同一反应中添加第一和第二标点寡核苷酸。或者,标点寡核苷酸群体在一些情况下是均匀的。先前已经描述了标点分子和在保留及确定基因组结构和接近信息中的使用方法(美国临时申请号62/298906、62/298966和62/305957,这三篇均以其整体并入本文)。一些标点寡核苷酸包含促进分离的标签或标记物,如生物素标签,以使得包含标点寡核苷酸的文库的片段易于分离。备选的标签包括但不限于甲基化、乙酰化或其他碱基修饰。通常,将标点寡核苷酸连接到暴露的核酸末端,但也考虑将标点寡核苷酸掺入文库中的替代方法。
可以标记核苷酸,如用于补平粘端的核苷酸。标记的核苷酸可以是生物素化的、硫酸化的、与荧光团附接的、去磷酸化的或任何其他数目的核苷酸修饰。核苷酸修饰还可包括表观遗传修饰,如甲基化(例如,5-mC、5-hmC、5-fC、5-caC、4-mC、6-mA、8-oxoG、8-oxoA)。可从测序过程中可检测的标记物或修饰(如通过纳米孔测序可检测的表观遗传修饰)来选择标记物或修饰;以这种方式,可在测序过程中检测连接接头的位置。也可靶向这些标记物或修饰以供结合或富集;例如,靶向甲基胞嘧啶的抗体可用于捕获、靶向、结合或标记用甲基胞嘧啶补平的平端。非天然核苷酸、非规范或修饰的核苷酸和核酸类似物也可用于标记平端补平的位置。非规范或修饰的核苷酸可包括假尿苷(Ψ)、二氢尿苷(D)、肌苷(I)、7-甲基鸟苷(m7G)、黄嘌呤、次黄嘌呤、嘌呤、2,6-二氨基嘌呤和6,8-二氨基嘌呤。核酸类似物可包括肽核酸(PNA)、吗啉代核酸和锁定核酸(LNA)、乙二醇核酸(GNA)和苏糖核酸(TNA)。在一些情况下,用未标记的dNTP(如不含生物素的dNTP)补平突出端。在一些情况下,如通过用转座子切割,生成不需要补平的平端。这些游离的平端在转座酶插入两个未连接的标点寡核苷酸时生成。然而,标点寡核苷酸可被合成为具有所需的粘端或平端。也可对与样品核酸相关的蛋白质(如组蛋白)进行修饰。例如,可对组蛋白进行乙酰化(例如,在赖氨酸残基处)和/或甲基化(例如,在赖氨酸和精氨酸残基处)。
在一些实施方案中,可以使用Hi-C或其他连接或标记介导的方法从天然存在的染色质生成读取对文库,该染色质是交联的,例如根据样品保存而交联的染色质。DNA可以交联,例如用甲醛交联,以在保存过程中保留天然染色质结构。可以如上所述进行提取,以将这些DNA-蛋白质结构与任何样品防腐剂或固定剂如石蜡分离,而不破坏交联的DNA-蛋白质结构,从而独立于磷酸二酯骨架保留DNA分子之间的近侧信息。这些交联的结构可以用限制酶消化以生成游离的粘端,该粘端随后用标记的核苷酸,如生物素标记的核苷酸补平。得到的平端可以连接在一起以生成DNA片段的配对末端。这些配对末端代表染色质结构中彼此接近的DNA分子。Hi-C方法和变化形式是本领域已知的(Liberman-Aiden等人,2009,Science 326,289,其整体并入本文;US20130096009,其整体并入本文)。
配对末端可以从染色质蛋白质中释放,例如通过酶(例如,用蛋白酶,如蛋白酶K)消化。可以用外切核酸酶处理释放的配对末端,以从剩余的游离末端除去标记的核苷酸,以使得仅仅标记的核苷酸位于连接的配对末端之间。然后可以纯化这些配对末端,例如在生物素标记物的情况下使用链霉亲和素珠子。纯化也可以通过其他手段进行,例如用SPRI珠子(例如羧化珠子)或经由电泳(例如凝胶电泳、毛细管电泳)。然后可以准备配对末端以供测序。例如,配对末端可以附接至测序衔接子,然后进行测序以生成读取对文库。先前已经描述了Chicago体外邻近连接方法(参见,例如,美国专利公开号20140220587,其通过引用整体并入本文;美国专利公开号20150363550,其通过引用整体并入本文)。
在一个示例性实施方案中,从先前在FFPE中包埋的细胞创建文库,该细胞在15-20微米厚的切片中,每个切片具有约3x 105个细胞。或者,在FFPE中包埋的细胞在1-5、5-10、10-15、15-20、25-30、35-40或45-50厚的切片中提供,每个切片具有约103、104、105、106或107个细胞。在一些情况下,样品是AJ GIAB('瓶中的基因组')样品GM24149(父亲)和GM24385(儿子)。用诸如二甲苯、甲苯或苯等溶剂洗涤切片以除去包埋材料。通过用乙醇溶液洗涤切片除去溶剂,在一些情况下,使用100%乙醇洗涤切片。然后将无石蜡的组织样品溶解在缓冲液中,例如溶解在去污剂缓冲液中。然后用内切核酸酶,例如限制酶,如Mbo1,消化样品中的核酸。通过使用DNA聚合酶和核苷酸,如生物素化的dNTP,补平由限制酶消化产生的突出端,从而在消化的核酸中产生平端。使用DNA连接酶,例如在有利于平端连接的反应中使用T4DNA连接酶,将该平端连接在一起,产生生物素化的DNA片段。制备这些片段以用于测序反应。
测序
本文还公开了用于产生携带基因组结构信息如物理连锁信息的核酸测序文库的方法和组合物。DNA复合物由保存的样品,如FFPE衍生的核酸样品产生。通过分离结合的核酸复合物产生配对末端、连接接头、标点末端或共同标记的末端,以使得第一区段和第二区段不依赖于任何磷酸二酯骨架键而被保持在一起,暴露的末端被标记,并且标签接头被分开。标记不同地包括直接使用第二暴露的末端标记一个暴露的末端,以使得根据以下事实可以鉴别该接头:该接头的任一侧上的序列映射到对应于基因组支架上的远侧位置的叠连群,是无支架的,或映射到未经重排的基因组中的不同染色体。或者,标记涉及使用标点寡核苷酸连接暴露的末端,或者将共同的寡核苷酸标签添加到复合物的暴露末端,以使得与标记的末端相邻的序列确信地映射到共同的DNA复合物,因此映射到生成该DNA复合物的来源源核酸的共同相位。
使用适当的短读取或长读取测序技术平台对配对末端、多联化的配对末端或标点的分子进行测序,然后分析序列读取。
在一些情况下,如本文所述生成多个配对末端分子,随后使用短读取测序技术进行测序。在这些情况下,生成跨越配对末端连接接头的短序列读取,或生成来自配对末端片段的每个末端的短读取以建立读取对。如果在单个序列读取或读取对中检测到来自第一和第二核酸区段的序列,则确定第一和第二核酸区段在输入DNA样品中的相同DNA分子上是同相的。在这样的情况下,生成的序列文库产生DNA区段的相位和结构信息。
对于给定的标点分子序列读取或读取对,观察未被标点元件局部中断的序列区段。假定这些区段中的序列是同相的,并且是局部正确地排序和定向的。观察到区段被标点寡核苷酸分开。推断标点寡核苷酸任一侧的区段在共同的样品核酸分子上彼此同相,但没有在标点分子上相对于彼此正确地排序和定向。重排的益处是彼此远离的区段有时会邻近,使得它们在共同的读取中进行读取并确信地分配给共同的相位,即使在样品分子中它们相隔相同的、难以将序列定相的远距离。另一个益处是区段序列本身包含大部分、基本上全部或全部原始样品序列,使得除了相位信息之外,在一些情况下,还确定叠连群信息足以在一些情况下进行从头序列装配。该从头序列任选地用于生成新的支架或叠连群组,或增加先前或独立生成的叠连群或支架序列组。
在一些情况下,如本文所公开的,生成多个标点的DNA分子,将其多联化成单个长核酸分子,或者不经剪切或裂解而保持为单个重排的长分子,随后使用长读取测序技术进行测序。对每个标点的分子进行测序,并分析序列读取。在优选的实例中,对于序列反应而言,序列读取平均10kb。在其他实例中,序列读取平均约5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、25kb、30kb、35kb、40kb或更大。在有利的实例中,鉴定包含通过标点寡核苷酸序列连接的第一区段的至少500个碱基和第二区段的500个碱基的序列读取。在其他实例中,序列读取包含第一DNA区段的至少约100个碱基、200个碱基、300个碱基、400个碱基、500个碱基、600个碱基、700个碱基、800个碱基、900个碱基、1000个碱基或更多个碱基和第二DNA区段的至少约100个碱基、200个碱基、300个碱基、400个碱基、500个碱基、600个碱基、700个碱基、800个碱基、900个碱基、1000个碱基或更多个碱基。在一些实例中,将第一和第二区段序列映射至支架基因组,并且发现其映射至相隔至少100kb的叠连群。在其他实例中,分隔距离为8kb、9kb、10kb、12.5kb、15kb、17.5kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kb、125kb、150kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb或更大。在大多数情况下,第一叠连群和第二叠连群各自包含单个杂合位置,该杂合位置的相位未在支架中确定。在优选的实例中,第一叠连群的杂合位置被长读取的第一区段跨越,并且第二叠连群的杂合位置被长读取的第二区段跨越。在这样的情况下,这些读取各自跨越它们的叠连群各自的杂合区域,并且读取区段的序列指示第一叠连群的第一等位基因和第二叠连群的第一等位基因是同相的。如果在单个长序列读取中检测到来自第一核酸区段和第二核酸区段的序列,则确定第一核酸区段和第二核酸区段被包含在输入DNA样品中的相同DNA分子上。在这些实施方案中,通过本文公开的方法和组合物生成的核酸序列文库提供了在基因组支架上彼此远离的叠连群的相位信息。
或者,如本文所述生成多个配对末端分子,随后使用长读取测序技术进行测序。在一些情况下,文库的平均读取长度被确定为约1kb。在其他情况下,文库的平均读取长度为约100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb或更长。在大多数情况下,配对末端分子包含第一DNA区段和第二DNA区段,该第一DNA区段和第二DNA区段在输入DNA样品内是同相的,并且相隔大于10kb的距离。在一些实例中,两个这样的DNA区段之间的分隔距离大于约5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、20kb、23kb、25kb、30kb、32kb、35kb、40kb、50kb、60kb、75kb、100kb、200kb、300kb、400kb、500kb、750kb、1Mb或更大。在大多数情况下,序列读取由配对末端分子生成,其中一些包含来自第一核酸区段的至少300个碱基的序列和来自第二核酸区段的至少300个碱基的序列。在其他实例中,序列读取包含第一DNA区段的至少约50个碱基、100个碱基、150个碱基、200个碱基、250个碱基、300个碱基、350个碱基、400个碱基、450个碱基、500个碱基、550个碱基、600个碱基、650个碱基、700个碱基、750个碱基、800个碱基或更多个碱基和第二DNA区段的至少约50个碱基、100个碱基、150个碱基、200个碱基、250个碱基、300个碱基、350个碱基、400个碱基、450个碱基、500个碱基、550个碱基、600个碱基、650个碱基、700个碱基、750个碱基、800个碱基或更多个碱基。如果在单个序列读取或读取对中检测到来自第一核酸区段和第二核酸区段的序列,则确定第一核酸区段和第二核酸区段在输入DNA样品中的同一DNA分子上是同相的。在这样的情况下,生成的序列文库产生DNA区段的相位信息,这些DNA区段在核酸样品中相隔大于用于对它们进行测序的测序技术的读取长度。
在各个实施方案中,使用本文描述的或本领域中已知的合适的测序方法从样品内的核酸分子获得序列信息。可通过本领域公知的经典Sanger测序法来实现测序。也可以使用高通量系统实现测序,其中一些高通量系统允许在经测序的核苷酸掺入增长的链中之后立即或在掺入之时检测经测序的核苷酸,如实时或基本实时地检测序列。在一些情况下,高通量测序每小时生成至少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少100,000或至少500,000个序列读取;其中所述测序读取可以是每个读取至少约50、约60、约70、约80、约90、约100、约120、约150、约180、约210、约240、约270、约300、约350、约400、约450、约500、约600、约700、约800、约900或约1000个碱基。
在一些实施方案中,高通量测序包括使用可通过Illumina的基因组分析仪IIX、MiSeq个人测序仪或HiSeq系统,如使用HiSeq 2500、HiSeq 1500、HiSeq 2000或HiSeq 1000机器的那些HiSeq系统获得的技术。这些机器使用基于可逆终止子的合成测序化学方法。这些机器可在八天内进行2000亿个或更多的DNA读取。较小的系统可用于在3、2、1天或更短的时间内的运行。
在一些实施方案中,高通量测序包括使用可通过ABI Solid System获得的技术。该遗传分析平台实现了与珠子连接的克隆扩增的DNA片段的大规模平行测序。该测序方法基于与染料标记的寡核苷酸的顺序连接。
下一代测序可包括离子半导体测序(例如,使用来自Life Technologies(IonTorrent)的技术)。离子半导体测序可以利用以下事实:当核苷酸掺入DNA链中时,离子可被释放。为了进行离子半导体测序,可形成微型机械化孔的高密度阵列。每个孔可容纳单个DNA模板。孔的下面可以是离子敏感层,而离子敏感层下面可以是离子传感器。当向DNA添加核苷酸时,H+可被释放,其可以被测量为pH的变化。H+离子可以被转换成电压并由半导体传感器记录。一个接一个的核苷酸可顺序地涌入阵列芯片。可以不需要扫描、光或相机。在一些情况下,使用IONPROTONTM测序仪对核酸进行测序。在一些情况下,使用IONPGMTM测序仪。Ion Torrent PersonalGenome Machine(PGM)。PGM可在两小时内进行1000万个读取。
在一些实施方案中,高通量测序包括使用可通过Helicos BioSciencesCorporation(Cambridge,Massachusetts)获得的技术,如单分子合成测序(SMSS)方法。SMSS是独特的,因为它允许在最多24小时内对整个人类基因组进行测序。最终,SMSS部分地描述于美国公开申请号20060024711、20060024678、20060012793、20060012784和20050100932中。
在一些实施方案中,高通量测序包括使用可通过454Lifesciences,Inc.(Branford,Connecticut)获得的技术,如包括光纤板的PicoTiterPlate装置,该光纤板传输将通过仪器中的CCD相机记录的由测序反应生成的化学发光信号。光纤的这种使用允许在4.5小时内检测最少2000万个碱基对。
使用珠子扩增并随后进行光纤检测的方法描述于Marguiles,M.等人.“Genomesequencing in microfabricated high-density picolitre reactors”,Nature,doi:10.1038/nature03959以及美国公开申请号20020012930、20030068629、20030100102、20030148344、20040248161、20050079510、20050124022和20060078909中。
在一些实施方案中,使用克隆单分子阵列(Solexa,Inc.)进行高通量测序,或利用可逆终止子化学进行合成测序(SBS)。这些技术部分地描述于美国专利号6,969,488、6,897,023、6,833,246、6,787,308和美国公开申请号20040106110、20030064398、20030022207以及Constans,A.,The Scientist 2003,17(13):36中。
下一代测序技术可包括Pacific Biosciences的实时(SMRTTM)技术。在SMRT中,四种DNA碱基中的每一种均可附接至四种不同荧光染料中的一种。这些染料可以被磷酸连接。可以用单分子的模板单链DNA将单个DNA聚合酶固定在零模式波导(ZMW)的底部。ZMW可以是约束结构,该约束结构使得能够相对于荧光核苷酸的背景观察单个核苷酸被DNA聚合酶的掺入,所述核苷酸可快速扩散进出ZMW(在数微秒内)。将核苷酸掺入增长的链中可能需要数毫秒。在这个时间内,荧光标记物可被激发并产生荧光信号,并且荧光标签可被切下。可从下方照明ZMW。来自激发光束的衰减光可以穿透每个ZMW的下部20-30nm。可以创建检测限为20仄升(10"升)的显微镜。微小的检测体积可以在降低背景噪声方面提供1000倍的改善。染料的相应荧光的检测可以指示掺入了哪个碱基。该过程可以重复进行。
在一些情况下,下一代测序为纳米孔测序(参见,例如,Soni GV和Meller A.(2007)Clin Chem 53:1996-2001)。纳米孔可以是直径为约一纳米量级的小孔。将纳米孔浸入导电流体中并跨导电流体施加电势可导致由于通过纳米孔的离子传导而产生轻微电流。流动的电流量可对纳米孔的大小敏感。当DNA分子穿过纳米孔时,DNA分子上的每个核苷酸可能不同程度地堵塞纳米孔。因此,当DNA分子穿过纳米孔时,穿过纳米孔的电流的变化可以代表DNA序列的读数。纳米孔测序技术可以来自Oxford Nanopore Technologies,例如GridlON系统。单个纳米孔可跨过微孔的顶部插入聚合物膜中。每个微孔可具有用于单独感测的电极。微孔可被制成阵列芯片,其中每个芯片具有100,000个或更多个微孔(例如,多于200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000或1,000,000个)。可使用仪器(或节点)分析该芯片。可实时分析数据。可同时操作一个或多个仪器。该纳米孔可以是蛋白质纳米孔,例如,蛋白质α-溶血素——一种七聚体蛋白质孔。该纳米孔可以是制备的固态纳米孔,例如,在合成膜(例如,SiNx或SiO2)中形成的纳米大小的孔。该纳米孔可以是混合孔(例如,蛋白质孔集成到固态膜中)。该纳米孔可以是具有集成传感器(例如,隧道电极检测器、电容检测器或基于石墨烯的纳米间隙或边缘状态检测器(参见例如,Garaj等人(2010)Nature vol.67,doi:10.1038/nature09379))的纳米孔。纳米孔可被功能化以用于分析特定类型的分子(例如,DNA、RNA或蛋白质)。纳米孔测序可包括“链测序”,其中完整的DNA聚合物可穿过蛋白质纳米孔,随着DNA在孔中移位进行实时测序。酶可以分离双链DNA的链,并使链通过纳米孔。该DNA可在一端具有发夹,并且该系统可读取两条链。在一些情况下,纳米孔测序为“外切核酸酶测序”,其中可以用持续作用的外切核酸酶从DNA链上切下单独的核苷酸,并且这些核苷酸可穿过蛋白质纳米孔。这些核苷酸可与孔中的分子(例如,环糊精)瞬时结合。电流的特征性中断可用于鉴定碱基。
可以使用来自GENIA的纳米孔测序技术。可将工程化蛋白质孔嵌入脂双层膜中。“主动控制”技术可用于实现有效的纳米孔-膜组装以及对DNA通过通道的移动的控制。在一些情况下,纳米孔测序技术来自NABsys。基因组DNA可以片段化成平均长度约100kb的链。100kb片段可制成单链,随后与6-聚体探针杂交。具有探针的基因组片段可被驱动通过纳米孔,这可产生电流-时间描记图。电流描记图可提供每个基因组片段上探针的位置。基因组片段可排成一行以产生基因组的探针图谱。该过程可针对探针的文库平行进行。可以生成针对每个探针的基因组长度的探针图谱。可采用被称为“移动窗口杂交测序(movingwindow Sequencing By Hybridization,mwSBH)”的方法校正误差。在一些情况下,纳米孔测序技术来自IBM/Roche。可使用电子束在微芯片中形成纳米孔大小的开口。可利用电场将DNA拉动或穿过纳米孔。纳米孔中的DNA晶体管器件可包含交替的纳米大小的金属层和电介质层。DNA骨架中的离散电荷可以被DNA纳米孔内的电场捕获。关闭和打开栅压可以允许读取DNA序列。
下一代测序在一些情况下可包括DNA纳米球测序(例如由Complete Genomics进行的;参见例如,Drmanac等人(2010)Science 327:78-81)。可对DNA进行分离、片段化和大小选择。例如,可将DNA片段化(例如,通过声处理)成约500bp的平均长度。衔接子(Adl)可附接至片段的末端。衔接子可用于与锚形体杂交以用于测序反应。可PCR扩增在每一端结合有衔接子的DNA。可对衔接子序列进行修饰,使得互补的单链末端彼此结合,从而形成环状DNA。可对DNA进行甲基化,以保护其免受后续步骤中使用的IIS型限制酶的切割。衔接子(例如,右侧衔接子)可具有限制识别位点,并且该限制识别位点可以保持非甲基化。衔接子中的非甲基化限制识别位点可以被限制酶(例如,Acul)识别,并且该DNA可以在右侧衔接子的右侧13bp被Acul切割,以形成线性双链DNA。第二轮右侧和左侧衔接子(Ad2)可连接至该线性DNA的任一末端上,并且可以PCR扩增(例如,通过PCR)结合有两个衔接子的全部DNA。可以修饰Ad2序列以使它们彼此结合并形成环状DNA。可对DNA进行甲基化,但限制酶识别位点可以在左侧Adl衔接子上保持非甲基化。可以应用限制酶(例如,Acul),并且可以在Adl左侧13bp切割该DNA,以形成线性DNA片段。第三轮右侧和左侧衔接子(Ad3)可连接至该线性DNA的右侧和左侧,并且可以PCR扩增所得到的片段。可以修饰衔接子,使得它们可以彼此结合并形成环状DNA。可添加III型限制酶(例如,EcoP15);EcoP15可以在Ad3的左侧26bp以及Ad2的右侧26bp切割该DNA。该切割可去除DNA的大区段,并使DNA再次线性化。可以将第四轮右侧和左侧衔接子(Ad4)连接至该DNA,可以对该DNA进行扩增(例如,通过PCR),并进行修饰,以使它们彼此结合并形成完整的环状DNA模板。
可使用滚环复制(例如,使用Phi 29DNA聚合酶)来扩增DNA的小片段。四个衔接子序列可以包含可杂交的回文序列,并且单链可以折叠到其自身上以形成DNA纳米球(DNBTM),该DNA纳米球的平均直径可为约200-300纳米。DNA纳米球可附接(例如,通过吸附)至微阵列(测序流动池)。该流动池可以是包被有二氧化硅、钛和六甲基二硅氮烷(HMDS)以及光阻材料的硅片。测序可以通过将荧光探针连接至DNA的非链式测序进行。探询位置的荧光的颜色可以通过高分辨率相机来可视化。可以确定衔接子序列之间的核苷酸序列的同一性。
在一些实施方案中,可利用AnyDot.chips(Genovoxx,Germany)进行高通量测序。特别地,AnyDot.chips允许核苷酸荧光信号检测增强10x–50x。AnyDot.chips及其使用方法部分地描述于国际公布申请号WO 02088382、WO 03020968、WO 03031947、WO 2005044836、PCT/EP 05/05657、PCT/EP 05/05655以及德国专利申请号DE 101 49 786、DE 10214 395、DE 103 56 837、DE 10 2004 009 704、DE 10 2004 025 696、DE 102004 025 746、DE 102004 025 694、DE 10 2004 025 695、DE 10 2004 025744、DE 10 2004 025 745和DE 102005 012 301中。
其他高通量测序系统包括以下文献中公开的那些高通量测序系统:Venter,J.等人.Science 2001年2月16日;Adams,M.等人.Science 2000年3月24日;和M.J.Levene等人.Science 299:682-686,2003年1月;以及美国公开号20030044781和2006/0078937。总的来说,这样的系统涉及通过经由在核酸分子上测量的聚合反应暂时添加碱基而对具有多个碱基的靶核酸分子进行测序,诸如实时地追踪核酸聚合酶在待测序的模板核酸分子上的活性。然后,可通过在碱基添加顺序的每一步中确定哪个碱基正在通过核酸聚合酶的催化活性而掺入靶核酸的增长的互补链中,来推导序列。靶核酸分子复合物上的聚合酶在适合于沿着靶核酸分子移动的位置处提供,并且使寡核苷酸引物在活性位点处延伸。在活性位点附近提供多个标记类型的核苷酸类似物,其中每个可区别类型的核苷酸类似物与靶核酸序列中的不同的核苷酸互补。增长的核酸链通过使用聚合酶进行延伸,以在活性位点处将核苷酸类似物添加至核酸链,其中被添加的核苷酸类似物与活性位点处的靶核酸的核苷酸互补。鉴定出作为聚合步骤的结果而被添加至寡核苷酸引物的核苷酸类似物。重复提供标记的核苷酸类似物、使增长的核酸链聚合以及鉴定添加的核苷酸类似物的步骤,使得核酸链进一步延伸并确定靶核酸的序列。
在测序之前,核酸分子可以被条形码化或以其他方式标记。条形码化可以允许更容易地对序列读取进行分组。例如,条形码可用于鉴定源自相同核酸分子或DNA蛋白质复合物的序列。条形码还可用于独特地标识各个接头。例如,每个接头可以用独特的(例如,随机生成的)条形码标记,该条形码可以独特地标识该接头。多个条形码可以一起使用,如用来标识源自相同核酸分子或DNA蛋白质复合物的序列的第一条形码以及独特地标识各个接头的第二条形码。
条形码化可以通过许多技术来实现。在一些情况下,条形码可作为序列包含在标点寡核苷酸内。在其他情况下,核酸分子可以与包含至少两个区段的寡核苷酸接触:一个区段含有条形码,第二区段含有与标点序列互补的序列。在与标点序列退火后,条形码化的寡核苷酸可以用聚合酶延伸,以产生来自相同的标点核酸分子的条形码化分子。由于标点核酸分子是输入核酸分子的重排形式,其中相位信息得以保留,因此所生成的条形码化分子也来自相同的输入核酸分子。这些条形码化分子包含条形码序列、标点互补序列和基因组序列。
对于具有或不具有标点的核酸分子(例如,DNA蛋白质复合物的核酸部分或从DNA蛋白质复合物中回收的核酸),可以通过其他方式对分子进行条形码化。例如,可以使核酸分子与条形码化的寡核苷酸接触,所述条形码化的寡核苷酸可以延伸以掺入来自核酸分子的序列。条形码可以与标点序列、与限制酶识别位点、与感兴趣的位点(例如,感兴趣的基因组区域)或与随机位点(例如,通过条形码寡核苷酸上的随机n-聚体序列)杂交。可以使用适当的浓度和/或与样品中的其他核酸分子的间隔(例如,空间或时间间隔)使核酸分子与条形码接触,使得多个核酸分子不被给予相同的条形码序列。例如,可以将包含核酸分子的溶液稀释至这样的浓度,使得只有一个核酸分子或仅一个DNA蛋白质复合物与具有给定条形码序列的条形码或条形码组接触。条形码可以在自由溶液中、在流体分区(例如小液滴或孔)中或在阵列上(例如在特定阵列斑点处)与核酸分子接触。
条形码化的核酸分子(例如延伸产物)可以例如在短读取测序仪上测序,并且通过将具有相同条形码的序列读取分组成共同的比对、骨架、相位或其他组来确定序列信息。通过这种方式,可以经由短读取测序实现合成的长读取。或者,在测序之前,条形码化产物可以连接在一起,例如通过批量连接,以生成长分子,例如使用长读取测序技术对其进行测序。在这些情况下,嵌入的读取对可以经由扩增衔接子及标点序列来鉴定。从读取对的条形码序列获得进一步的信息。
或者,在一些情况下,如本文所述生成的文库分子在没有标点寡核苷酸插入的情况下多联化。尽管如此,这些分子仍适于使用市售的长读取化学方法进行测序,以生成长达5kb、10kb、20kb或更长的读取。在这些情况下,通过序列分析容易地鉴定多联化接头。
长读取(例如,合成的或实际的长读取)可用于获得信息,如可能难以或不可能从短读取确定的定相信息。定相信息包括母体/父体定相以及肿瘤/非肿瘤定相信息。可以使用肿瘤/非肿瘤定相将癌症基因组信息与体细胞基因组信息区分开。
在一个实例中,对来自如上所述的文库(如从FFPE样品建立的文库)的片段进行末端测序。观察指示每个末端定位的叠连群在样品中的共同核酸分子上物理连锁的读取对。通过测序进一步分析所得的文库,以通过比较分离的序列与基因组装配体的位置来确定回收的片段的配对末端之间的距离。将FFPE样品中的长距离读取对频率与非FFPE样品的长距离读取对频率进行比较。在示例性文库如上述文库中,测序显示FFPE-Chicago方法导致长距离读取对频率相当于(>200kbp插入片段)或大于(100kbp-200kbp插入片段)对非FFPE样品进行的Chicago方法。还确定了FFPE-Chicago文库的复杂性和原始测序覆盖度。文库的复杂性是指文库中不同分子的多样性。
基因组信息
定相信息、染色体构象、序列装配和遗传特征,包括但不限于结构变异(SV)、拷贝数变异(CNV)、杂合性丢失(LOH)、单核苷酸变体(SNV)、单核苷酸多态性(SNP)、染色体易位、基因融合以及插入和缺失(INDEL),可以通过分析由本文公开的方法产生的序列读取数据来确定。用于分析遗传特征的其他输入可以包括参考基因组(例如,具有注释)、基因组掩蔽信息,以及候选基因、基因对和/或感兴趣的坐标的列表。可以定制构型参数和基因组掩蔽信息,或者可以使用默认参数和基因组掩蔽。在一个实例中,读取对被映射到基因组,然后每对被表示为平面中的点,其中x和y坐标分别等于读取对的读取1和读取2的多联化参考染色体上的映射位置。可以将x-y平面划分为非重叠的正方形箱元,并且可以将映射到每个箱元的读取对的数目制成表格。箱元计数可以被显示为与像素对应的箱元的图像(例如,热图)。多种分析技术,如图像处理技术,可用于鉴定遗传特征的特征标记(signature),如不同的重排。例如,可以使用内核卷积过滤在图像中找到对应于融合的基因组基因座对的点。图2A和图2B示出了可用于寻找相互易位(如图3中示出的那些)的示例性简单内核。图3示出了具有在ETV6与NTRK3之间的相互易位的信号的图像。右上和左下象限中的“蝴蝶结”形特征指示具有相互易位特征的基因组的这两个区域之间的相互作用。
输入,如序列读取数据,可以以适当的文件格式进行格式化。例如,序列读取数据可以包含在FASTA文件、FASTQ文件、BAM文件、SAM文件或其他文件格式中。输入序列读取数据可以是未比对的。输入序列读取数据可以是比对的。
可以准备序列读取数据以供分析。例如,可以为了质量而修剪读取。如有必要,还可以修剪读取以去除测序衔接子。
序列读取数据可以是比对的。例如,读取对可以与指定的参考基因组比对。在一些情况下,参考基因组是CRCh38。可以使用多种算法或工具来执行比对,包括但不限于SNAP、Burrows-Wheeler比对器(例如,bwa-sw、bwa-mem、bwa-aln)、Bowtie2、Novoalign及其修改或变化形式。
还可以生成所述分析的质量控制(QC)报告。在进行更深入的测序之前,QC报告可用于鉴定失败的文库。此类质量控制报告可包括多种指标。QC指标可包括但不限于总读取对、重复(例如,PCR重复)百分比、未映射读取的百分比、具有低映射质量的读取的百分比(例如,Q<20)、映射到不同染色体的读取对的百分比、(诸如映射位置之间的距离)介于0和1kbp之间的读取对插入的百分比、介于1kbp和100kbp之间的读取对插入的百分比、介于100kbp和1Mbp之间的读取对插入的百分比、高于1Mbp的读取对插入的百分比、含有连接接头的读取对的百分比、与限制性片段末端的接近性、读取对间隔图以及文库复杂性的估计值。QC指标可用于优化所述分析,并鉴定试剂、样品和用户的质量问题。可以基于一个或多个QC指标来过滤序列比对。也可以过滤重复读取,例如基于对紧密相应位置处的读取的比较。
序列读取分析结果可包括连接密度结果。连接密度结果可以包括全基因组、一个基因座以及连接密度结果的两个基因座视图。连接密度结果可以作为数据集输出。连接密度结果可以呈现为连接密度图(LDP),如染色体或基因组区域之间的相互作用(例如,接触)的热图。连接密度结果可以与评分如质量评分相关联。在一些情况下,为超过评分阈值的结果输出连接密度可视化。在一个实例中,对于全基因组、对于超过评分阈值的从头判定、对于超过评分阈值的单侧候选判定和对于包括被归类为阴性的所有双侧候选者,均包括它们的可视化。连接密度可视化可包括标度(例如,色标)、长度标度条、基因名称标签、基因的外显子/内含子结构标志符号以及检测到的重排的突出显示。
可以对连锁信息进行归一化以控制效果和偏差,如覆盖度、片段可映射性、片段GC含量和片段长度。归一化可以通过矩阵平衡或其他因素不可知的方法进行。矩阵平衡可以采用诸如Sinkhorn-Knopp算法或Knight-Ruiz归一化之类的算法。还可以进行归一化以校正可能导致假阳性的背景信号。例如,图4A、图4B和图4C示出了在三个不同样品中比较的相同染色体对的基于图像分析的结果。在多个样品的相同位置发现了几个“命中(hit)”(在图中圈出),这使人怀疑这些是假阳性。归一化,如利用样品池(例如,10个样品)的归一化读取密度中值进行的归一化,可以用于校正单个样品数据,例如通过将样品像素除以中值像素。图5A、图5B和图5C示出了染色体1对染色体7(图5A)、染色体2对染色体5(图5B)以及染色体1对染色体1(图5C)的归一化读取密度中值(在10个样品上)。可以利用各种箱元处理方法进行归一化,包括相等的箱元大小,如图6A所示,以及箱元插值,如图6B所示。在一些情况下,与相等的箱元大小相比,箱元插值可以产生减少的背景噪声,并且导致更高的分辨率的特征。
可以分析比对的序列数据的重排,包括通过全基因组的重排和特定双基因座(或双侧)候选基因处的重排。分析还可以包括鉴定接触、融合和接合。序列读取数据的比对(例如,以BAM文件或其他合适的格式)可以输入到该分析中。也可以输入基因组掩蔽信息,或者可以在分析中使用默认的基因组掩蔽信息。可以在整个基因组中进行分析。另外或替代地,可以对双侧候选融合的列表进行分析。在一些情况下,对候选融合列表进行的分析比对全基因组进行的分析更灵敏。对双侧候选融合的分析可以检测到涉及可能被全基因组扫描遗漏的相对较短的DNA区段的易位的融合。
可以使用多种技术进行分析以鉴定诸如接触和重排等特征(包括但不限于缺失、重复、插入、倒位或逆转、易位、接合、融合和分裂)以及其他相互作用。分析技术可以包括统计和概率分析、包括傅立叶分析的信号处理、计算机视觉和其他图像处理、语言处理(例如,自然语言处理)和机器学习。例如,可以分析诸如接触矩阵等相互作用图中的指示特征的特征。在一些情况下,可以对图或其他数据应用过滤器。过滤器可以是卷积过滤器,包括但不限于平滑过滤器(例如,内核平滑或Savitzky-Golay过滤器,高斯模糊)。
一些实施方案涉及机器学习作为基因组结构确定的组件,因此一些计算机系统被配置为包括具有机器学习能力的模块。机器学习模块包括以下列出的模态(modality)中的至少一种,以便构成机器学习功能。
构成机器学习的模态以各种方式展示出数据过滤能力,以便能够执行自动化质谱数据点检测和判定。在一些情况下,通过存在指示各种基因组结构变化(诸如倒位、插入、缺失或易位)的预测模式来促进这种模态。
构成机器学习的模态以各种方式展示出数据处理或数据加工能力,以使读取对频率处于有利于下游分析的形式。数据处理的实例包括但不一定限于对数变换、分配缩放比或将数据映射到精心设计的特征,以使数据处于有利于下游分析的形式。
如本文所公开的机器学习数据分析组件定期处理读取对数据集中的众多特征,如1至10,000个特征或2到300,000个特征,或者数目在这些范围中的任一个范围内或者高于这些范围中的任一个范围的特征。在一些情况下,数据分析涉及至少1k、2k、3k、4k、5k、6k、7k、8k、9k、10k、20k、30k、40k、50k、60k、70k、80k、90k、100k、120k、140k、160k、180k、200k、220k、2240k、260k、280k、300k或多于300k个特征。
使用与本文公开内容一致的任何数量的方法来确定读取对分布模式。在一些情况下,读取对分布模式选择包括弹性网、信息增益、随机森林输入或与本文公开内容一致并且本领域技术人员熟悉的其他特征选择方法。
再次使用与本文公开内容一致的任何数量的方法,将选择的读取对分布模式与指示基因组结构变化的预测模式进行匹配。在一些情况下,读取对模式检测包括逻辑回归、SVM、随机森林、KNN或与本文公开内容一致并且本领域技术人员熟悉的其他分类器方法。
在被配置用于本文公开的分析的计算机上应用机器学习或提供机器学习模块允许检测对于无症状疾病检测或早期检测有意义的基因组结构变化,作为持续监测程序的一部分,以便在症状出现之前或在干预更容易实现或者更有可能带来成功结果时鉴定疾病或病症。
在被配置用于本文公开的分析的计算机上应用机器学习或提供机器学习模块还允许鉴定经受药物治疗的个体中的结构重排,例如作为药物试验的一部分,以便个体或群体的试验结果可以同时或回顾性地相关联系,以便鉴定与药物功效正相关或负相关的特定基因组结构事件。
在配置用于本文公开的分析的计算机上应用机器学习或提供机器学习模块还允许鉴定与遗传异质样品(如收集而没有均质化的肿瘤组织样品)的特定区域相对应的结构重排,以便保留该样品中的位置信息。由于已知一些肿瘤区域对应于特别易于转移或肿瘤扩散的细胞群体,因此鉴定与这类细胞群体相关的基因组重排或其他相位信息有助于选择针对这些特别危险的细胞群体的治疗方案。
监测通常但不一定与遗传评估结合进行或支持遗传评估,该遗传评估指示对于监测其发作或进展特征的病症的遗传易感性。类似地,在一些情况下,机器学习用于促进对治疗方案的治疗功效的监测或评估,以使得该治疗方案可以随着时间的推移进行修改、继续或解决,如正在进行的蛋白质组学介导的监测所示。
机器学习方法和具有被配置用于执行机器学习算法的模块的计算机系统有助于鉴定不同复杂度的数据集中的相位信息或基因组重排。在一些情况下,从非目标数据库中鉴定相位信息或基因组重排,该数据库包含大量质谱数据,如在多个时间点从单个个体获得的数据,从多个个体(诸如对于感兴趣的病况或已知的最终治疗结果或反应具有已知状态的多个个体)采集的样品,或来自多个时间点和多个个体的数据。
或者,在一些情况下,通过例如在多个时间点(当个体的健康状况对于该时间点已知时)从单个个体收集基因组重排或相位信息,或者从对于感兴趣的病况具有已知状态的多个个体收集序列信息,或者在多个时间点从多个个体收集序列信息,机器学习通过分析针对基因组重排或相位信息的数据库来促进基因组重排或相位信息的细化。显而易见的是,在一些情况下,通过使用保存的样品,如根据手术收集的交联的样品或根据药物试验收集的FFPE样品,来促进序列信息的收集。
因此,单独地或与药物试验结果或外科手术干预结果信息相组合地收集序列信息。序列数据经受机器学习,例如在如本文所公开的配置的计算机系统上,以便鉴定指示对应于基因组重排的模式的读取对子集,所述读取对子集单独地或与一种或多种另外的标记物相组合地说明健康状况信号。因此,在一些情况下,机器学习有助于鉴定序列——DNA或RNA序列,或鉴定单独地提供个体健康状况的信息的基因组重排。
可检测的重排的断裂点之间的最小距离可以小于、约为或为由核酸长度列表中选择的两个数字定义的范围中的数字,该核酸长度列表包括2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb、10Mb、20Mb、30Mb、40Mb、50Mb、60Mb、70Mb、80Mb、90Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb或1Gb。
重排分析可以产生被认为在主题基因组中连接的断裂点对的列表。断裂点坐标对的列表还可以包括断裂点坐标对的统计显著性或置信度度量(例如,p值)。这些断裂点对可以以适当的格式输出,如浏览器可扩展数据(BED)或BED-PE。
还可以使用本文公开的技术进行染色体构象的分析。例如,可以确定拓扑学关联的结构域(TAD)和TAD边界。还可以确定其他拓扑学结构域和边界,包括但不限于与层相关的结构域(LAD)、复制时区和大的有组织的染色质K9-修饰(LOCK)结构域。
图7示出了通过全基因组扫描分析管线的分析。通过分析管线进行的样品判定以白色圆圈显示。图7示出了染色体3对染色体6的图,具有250k箱元。
在一个示例性实施方案中,使用测序数据来确定已知在起始FFPE样品中的多态性的定相信息。例如,使用测序数据来确定某些多态性如SNP是否存在于相同或不同的DNA分子上。通过与已知序列如GIAB样品的序列进行比较来测量使用该方法确定的定相的准确度。例如,在一些情况下,发现在0-10,000之间,发现了132,796个SNP,并且99.059%处于正确的相位。可以看到高度一致性(>95%),直到大约1.5MB(除了70-80kb箱元(其错失了13个中的1个)和1.1-1.3MB箱元(其错失了15个中的2个))。在1.7-1.9MB范围内,7个SNP对相位中的7个被正确判定。从这些数据可以得出以下结论:尽管伪连接水平低,但使用FFPE-Chicago方法确定适当的长范围信息,甚至达到兆碱基范围。重要的是,这些“一致性”预测率为95%或更高,显著高于从随机机会预期的95%成功率。
结构定相信息
目前,结构和定相分析(例如,用于医学目的)仍然具有挑战性。例如,在癌症、具有相同类型癌症的个体之间或甚至在相同肿瘤内存在惊人的异质性。从导致的影响中梳理出原因可能需要在每个样品的低成本下有非常高的精度和通量。在个体化医疗领域,基因组操作的黄金标准之一是经测序的基因组,其中所有变体都被彻底表征并定相,包括大的和小的结构重排和新突变。为了用以前的技术实现这一目标,需要类似于从头装配所需的努力,这在目前过于昂贵且繁琐,而无法成为常规医疗程序。
定相信息包括母体/父体定相以及肿瘤/非肿瘤定相信息。可以使用肿瘤/非肿瘤定相将癌症基因组信息与体细胞基因组信息区分开。
在本公开内容的一些实施方案中,可以提供来自受试者的保存的组织(例如,FFPE组织),并且该方法可以返回装配的基因组、与被判定的变体(包括大结构变体和拷贝数变体)的比对、定相的变体判定或任何其他分析。在其他实施方案中,本文公开的方法可以直接为个体提供长距离读取对文库。
在本公开内容的各个实施方案中,本文公开的方法可以生成相隔大距离的长范围读取对。收集大尺寸DNA样品的能力可以改善该距离的上限。在一些情况下,读取对能够跨越高达50、60、70、80、90、100、125、150、175、200、225、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000kbp或更远的基因组距离。在一些实例中,读取对可以跨越高达500kbp的基因组距离。在其他实例中,读取对可以跨越高达2000kbp的基因组距离。本文公开的方法可以整合并建立在分子生物学的标准技术上,并且进一步非常适合于提高效率、特异性和基因组覆盖度。
在其他实施方案中,本文公开的方法可以与当前采用的测序技术一起使用。例如,该方法可以与经过充分测试和/或广泛部署的测序仪器组合使用。在进一步的实施方案中,本文公开的方法可以与从当前采用的测序技术衍生的技术和方法一起使用。
在各个实施方案中,本公开内容提供了一种或多种本文公开的方法,该方法包括探测保存的(例如,FFPE)样品或细胞内染色体的物理布局的步骤。通过测序探测染色体物理布局的技术实例包括“C”类技术,如染色体构象捕获(“3C”)、环化染色体构象捕获(“4C”)、碳拷贝染色体捕获(“5C”)和基于Hi-C的方法;以及基于ChIP的方法,如ChIP-loop、ChIP-PET。这些技术利用活细胞中染色质的固定来巩固细胞核中的空间关系。产物的后续处理和测序允许研究人员回收基因组区域之间邻近关联的矩阵。通过进一步分析,这些关联可用于产生染色体的三维几何图,因为它们物理地排列在保存的(例如,FFPE)样品中。这样的技术描述了染色体的离散空间组织,并提供了染色体位点之间功能相互作用的准确视图。
在一些实施方案中,染色体内相互作用与染色体连接性有关。在一些情况下,染色体内数据可帮助基因组装配。在一些情况下,在体外重构染色质。这可能是有利的,因为染色质——特别是组蛋白(染色质的主要蛋白质成分)——对于在通过测序检测染色质构象和结构的最常见“C”类技术3C、4C、5C和Hi-C下的固定是重要的。染色质就序列而言是高度非特异性的,并且通常将在整个基因组中均匀地装配。在一些情况下,不使用染色质的物种的基因组可以在重构的染色质上进行装配,从而将本公开内容的范围扩展至所有生命领域。
可以从染色质构象捕获技术获得读取对数据。在一些实例中,完成连接或其他标记,以标记物理上紧密接近的基因组区域。可以根据本文其他地方进一步详细描述的或本领域已知的合适方法完成复合物的交联,以使得蛋白质(诸如组蛋白)与染色质内的DNA分子,例如基因组DNA在复合物中稳定结合。在一些情况下,通过在使得这类复合物不降解的条件下提取DNA-蛋白质复合物,例如通过排除蛋白酶K处理,来利用由样品保存(例如由固定)引起的交联。例如,当是诸如染色质等结构的一部分时,沿基因组序列不紧密接近的核苷酸区段可以在物理上紧密接近。可以将这样的核苷酸区段连接在一起,然后根据本公开内容的方法进行分析。例如,可以对连接的核苷酸区段进行测序,并且可以分析两个连接的区段的测序末端之间的距离(插入距离)。图8A示出了对于通过本公开内容的技术分析的保存的样品(例如,FFPE样品),在特定范围内的插入片段的概率相对于以碱基对(bp)为单位的插入距离的图。图8B示出了使用Chicago方法分析的样品的类似图。在这两个图中,x轴显示插入距离(bp),从0至300,000,而y轴显示该距离的插入片段的概率,从该轴顶部的100至该轴底部的10-8(对数)。
在一些情况下,两个或更多个核苷酸序列可以经由与一个或多个核苷酸序列结合的蛋白质交联。一种方法是将染色质暴露于紫外线照射(Gilmour等人,Proc.Nat’l.Acad.Sci.USA 81:4275-4279,1984)。还可以利用其他方法,如化学或物理(例如,光)交联,进行多核苷酸区段的交联。合适的化学交联剂包括但不限于甲醛和补骨脂素(Solomon等人,Proc.Natl.Acad.Sci.USA 82:6470-6474,1985;Solomon等人,Cell53:937-947,1988)。例如,可通过将2%甲醛添加至包含DNA分子和染色质蛋白质的混合物中进行交联。可用来交联DNA的试剂的其他实例包括但不限于紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)和环磷酰胺。适当地,所述交联剂将形成桥接相对较短距离如约
Figure BDA0001945071990000601
的交联,从而选择可以逆转的密切相互作用。
通常,用于探测染色体物理布局的程序,如基于Hi-C的技术,利用在细胞/生物体内形成的染色质,如从培养的细胞或原代组织中分离的染色质。基于Chicago的方法不仅提供了采用从细胞/生物体中分离的染色质的这类技术的使用,而且还提供了采用重构的染色质的这类技术的使用。重构的染色质在多种特征方面与细胞/生物体内形成的染色质不同。第一,对于许多样品,可通过使用多种非侵入性至侵入性方法,如通过收集体液、擦拭口腔或直肠区域、采集上皮样品等,实现裸DNA样品的收集。第二,重构染色质基本上防止了对于基因组装配和单元型定相产生伪迹的染色体间和其他长范围相互作用的形成。在一些情况下,根据本公开内容的方法和组合物,样品可具有少于约20%、15%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、0.4%、0.3%、0.2%、0.1%或更少的染色体间或分子间交联。在一些实例中,样品可具有少于约5%的染色体间或分子间交联。在一些实例中,样品可具有少于约3%的染色体间或分子间交联。在另外的实例中,样品可具有少于约1%的染色体间或分子间交联。第三,可以调节能够交联的位点的频率,从而调节多核苷酸内的分子内交联的频率。例如,可以改变DNA与组蛋白之比,以使得可以将核小体密度调节至所需的值。在一些情况下,核小体密度降低至生理水平以下。因此,可以改变交联的分布以有利于较长范围的相互作用。在一些实施方案中,可制备具有不同交联密度的子样品以涵盖短范围和长范围缔合。例如,可以调节交联条件,使得至少约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约25%、约30%、约40%、约45%、约50%、约60%、约70%、约80%、约90%、约95%或约100%的交联发生在样品DNA分子上相隔至少约50kb、约60kb、约70kb、约80kb、约90kb、约100kb、约110kb、约120kb、约130kb、约140kb、约150kb、约160kb、约180kb、约200kb、约250kb、约300kb、约350kb、约400kb、约450kb或约500kb的DNA区段之间。
使用本文所述的方法和系统可以实现癌症基因组测序所需的高准确度。当对癌症基因组进行测序时,不准确的参考基因组可能带来碱基判定挑战。异质样品和小的起始材料,例如通过活检获得的样品,引入了附加的挑战。此外,大规模结构变体和/或杂合性丢失的检测通常对癌症基因组测序以及区分体细胞变体和碱基判定错误的能力至关重要。
本文描述的系统和方法可以由含有2、3、4、5、6、7、8、9、10、12、15、20个或更多个不同基因组的复杂样品生成准确的长序列。可对正常、良性和/或肿瘤来源的混合样品进行分析,任选地不需要正常对照。在一些实施方案中,利用小至100ng或甚至仅数百个基因组当量的起始样品生成准确的长序列。本文描述的系统和方法可允许检测拷贝数变体、大规模结构变体和重排,可以在跨越约1kbp、约2kbp、约5kbp、约10kbp、20kbp、约50kbp、约100kbp、约200kbp、约500kbp、约1Mbp、约2Mbp、约5Mbp、约10Mbp、约20Mbp、约50Mbp或约100Mbp或更多的核苷酸的长序列上获得定相的变体判定。例如,可以在跨越约1Mbp或约2Mbp的长序列上获得相位变体判定。
样品可包括不同体积和表面积的组织切片。在一些情况下,样品包括厚度在约5μm与10μm之间的组织切片。在一些情况下,样品包括厚度为约1μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、11μm、12μm、13μm、14μm、15μm、16μm、17μm、18μm、19μm、20μm、25μm、30μm、35μm、40μm、45μm、50μm、55μm、60μm、65μm、70μm、75μm、80μm、85μm、90μm、95μm、100μm、150μm、200μm、250μm、300μm、350μm、400μm、450μm、500μm、550μm、600μm、650μm、700μm、750μm、800μm、850μm、900μm、950μm、1000μm或更厚的组织切片。在一些情况下,样品包括厚度为至少约1μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、11μm、12μm、13μm、14μm、15μm、16μm、17μm、18μm、19μm、20μm、25μm、30μm、35μm、40μm、45μm、50μm、55μm、60μm、65μm、70μm、75μm、80μm、85μm、90μm、95μm、100μm、150μm、200μm、250μm、300μm、350μm、400μm、450μm、500μm、550μm、600μm、650μm、700μm、750μm、800μm、850μm、900μm、950μm、1000μm或更厚的组织切片。在一些情况下,样品包括厚度为至多约1μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、11μm、12μm、13μm、14μm、15μm、16μm、17μm、18μm、19μm、20μm、25μm、30μm、35μm、40μm、45μm、50μm、55μm、60μm、65μm、70μm、75μm、80μm、85μm、90μm、95μm、100μm、150μm、200μm、250μm、300μm、350μm、400μm、450μm、500μm、550μm、600μm、650μm、700μm、750μm、800μm、850μm、900μm、950μm、1000μm或更厚的组织切片。在一些情况下,样品包括表面积在约100mm2与300mm2之间的组织切片。在一些情况下,样品包括表面积为约10mm2、20mm2、30mm2、40mm2、50mm2,60mm2、70mm2、80mm2、90mm2、100mm2、200mm2、300mm2、400mm2、500mm2、600mm2、700mm2、800mm2、900mm2、1000mm2或更大的组织切片。在一些情况下,样品包括表面积为至少约10mm2、20mm2、30mm2、40mm2、50mm2,60mm2、70mm2、80mm2、90mm2、100mm2、200mm2、300mm2、400mm2、500mm2、600mm2、700mm2、800mm2、900mm2、1000mm2或更大的组织切片。在一些情况下,样品包括表面积为至多约10mm2、20mm2、30mm2、40mm2、50mm2,60mm2、70mm2、80mm2、90mm2、100mm2、200mm2、300mm2、400mm2、500mm2、600mm2、700mm2、800mm2、900mm2、1000mm2或更大的组织切片。
使用本文所述的方法和系统确定的单元型可以被分配给计算资源,例如网络上的计算资源,如云系统。若需要,可以使用存储在计算资源中的相关信息来校正短变体判定。可以基于来自短变体判定的复合信息和储存在计算资源中的信息来检测结构变体。基因组的有问题部分,如区段重复、有结构变异倾向的区域、高度变异的医学上有关的MHC区域、着丝粒和端粒区域以及其他异染色质区域,包括但不限于具有重复区域、低序列准确度、高变异率、ALU重复、区段重复或本领域已知的任何其他有关的有问题部分的那些异染色质区域,可进行重新装配以提高准确度。
可将样品类型分配给本地或网络化的计算资源(诸如云)中的序列信息。在信息的来源已知的情况下,例如,当信息的来源来自癌症或正常组织时,可将来源作为样品类型的一部分的形式分配给样品。其他样品类型实例通常包括但不限于组织类型、样品收集方法、感染的存在、感染的类型、处理方法、样品的大小等。在可获得完全或部分比较基因组序列,如正常基因组与癌症基因组相比较的情况下,可以确定样品数据与比较基因组序列之间的差异并任选地输出该差异。
单元型定相方法
由于通过本文公开的方法生成的读取对一般来源于染色体内接触,所以含有杂合性位点的任何读取对也将携带关于其定相的信息。利用该信息,可以快速且准确地进行短距离、中距离、甚至长距离(兆碱基)的可靠定相。设计用于对来自1000个基因组三元组(母亲/父亲/后代基因组的集合)之一的数据进行定相的实验已可靠地推断定相。此外,使用类似于Selvaraj等人(Nature Biotechnology 31:1111-1118(2013))的邻近连接的单元型重构也可与本文公开的单元型定相方法一起使用。
例如,使用基于邻近连接的方法的单元型重构也可以在本文公开的方法中用于基因组定相。使用基于邻近连接的方法的单元型重构将邻近连接和DNA测序与单元型装配的概率算法相结合。首先,使用染色体捕获方案如Hi-C方案进行邻近连接测序。这些方法可以从在三维空间中成环的两个远离的基因组基因座捕获DNA片段。对所得DNA文库进行鸟枪法DNA测序后,配对末端测序读取具有在几百个碱基对到数千万个碱基对范围内的“插入片段大小”。因此,在Hi-C实验中生成的短DNA片段可以产生小的单元型区块,长片段最终可以将这些小区块连接在一起。在足够的测序覆盖度的情况下,这种方法能够连接不连续区块中的变体,并且将每一个这样的区块装配成单个单元型。然后将该数据与概率算法相结合以用于单元型装配。概率算法利用节点对应于杂合变体且边缘对应于可连接这些变体的重叠序列片段的图。该图可能含有由测序错误或反式相互作用造成的伪边缘。随后使用最大切割算法来预测与由输入测序读取集合提供的单元型信息具有最大一致性的简约解决方案。由于邻近连接生成比常规基因组测序或配对测序更大的图,因此修改计算时间和迭代次数,使得可以以合理的速度和高精确度预测单元型。所得数据随后可用于使用Beagle软件和来自基因组计划的测序数据来指导局部定相,以生成具有高分辨率和准确度的跨越染色体的单元型。
使用配对末端确定相位信息
本文进一步提供了用于从来源于FFPE样品的配对末端确定相位信息的方法和组合物。配对末端可以通过公开的任何方法或在所提供的实施例中进一步说明的方法生成。例如,在DNA分子与固体表面结合并随后被切割的情况下,在重新连接游离末端后,重新连接的DNA区段从固相附接的DNA分子上释放,例如通过限制性消化。该释放产生多个配对末端片段。在一些情况下,配对末端连接至扩增衔接子,扩增,并且用短读取技术进行测序。在这些情况下,来自多个不同固相结合的DNA分子的配对末端在测序的样品内。然而,确信地得出以下结论:对于配对末端接头的任一侧,接头相邻序列源自共同分子的共同相位。在配对末端与标点寡核苷酸连接的情况下,通过标点寡核苷酸序列鉴定测序读取中的配对末端接头。在其他情况下,通过修饰的核苷酸连接配对末端,该修饰的核苷酸可以基于所用修饰的核苷酸的序列进行鉴定。
或者,在释放配对末端后,将游离的配对末端连接至扩增衔接子上并进行扩增。在这些情况下,然后将多个配对末端批量连接在一起以生成使用长读取测序技术读取的长分子。在其他实例中,释放的配对末端彼此批量连接而没有中间的扩增步骤。在任一情况下,嵌入的读取对可经由与连接序列(如标点序列或修饰的核苷酸)相邻的天然DNA序列来鉴别。在长序列装置上读取多联化的配对末端,并获得多个接头的序列信息。由于配对末端衍生自多种不同的固相结合的DNA分子,因此发现跨越两个单独配对末端的序列,如那些位于扩增衔接子序列侧翼的序列,映射到多种不同的DNA分子。然而,确信地得出以下结论:对于配对末端接头的任一侧,接头相邻序列源自共同分子的共同相位。例如,在来自标点分子的配对末端的情况下,位于标点序列侧翼的序列被确信地分配给共同的DNA分子。在优选的情况下,因为使用本文公开的方法和组合物使各个配对末端多联化,所以能够在单次读取中对多个配对末端进行测序。
在优选的实施方案中,使用本文所述的方法和组合物生成的测序数据用于生成定相的从头序列装配体、确定相位信息和/或鉴定结构变异。确定结构变异和其他遗传特征
参见图9A和图9B,提供了读取对在参考序列如GRCh38上的映射位置的示例,这些读取对由来自重新装配的染色质的DNA经邻近连接生成,并绘制在GM12878与参考之间的结构差异附近。生成的每个读取对在对角线上方和下方表示。在对角线上方,阴影按照所示标度指示图谱质量评分;在对角线下方,阴影基于与定相SNP的重叠,指示所生成的读取对的推断单元型相位。在一些实施方案中,生成的图描绘了具有侧翼重复区域的倒位,如图9B中所示。在一些实施方案中,生成的图描绘了定相的杂合缺失的数据,如图9B中所示。
将来自一个个体的配对序列读取针对参考进行映射是用于鉴别连续核酸或基因组结构中的差异如倒位、缺失和重复的最常用的基于序列的方法(Tuzun等人,2005)。图9A和图9B示出了通过将来自GM12878的重新装配的染色质的DNA通过邻近连接而生成的读取对映射到人参考基因组GRCh38如何揭示两种这样的结构差异。为了估计用于鉴别结构差异的读取对数据的灵敏度和特异性,在为了模拟杂合倒位的影响而构建的模拟数据集上对最大似然鉴别器进行测试。通过从所生成的NA12878读取到GRCh38参考序列的映射中随机选择界定长度L的间隔,并将每个生成的读取对随机地独立分配给倒位或参考单元型,并相应地编辑映射的坐标,来构建测试数据。非等位基因同源重组是在人类基因组中观察到的许多结构变异的原因,导致在重复序列的长区块中发生许多变异断裂点(Kidd等人,2008)。通过去除映射到距离W内的所有读取来模拟围绕倒位断裂点的不同长度的重复序列的影响。在倒位断裂点处没有重复序列的情况下,分别对于1Kbp、2Kbp和5Kbp倒位,灵敏度(特异性)分别为0.76(0.88)、0.89(0.89)和0.97(0.94)。当在模拟中使用倒位断裂点处的重复(不可映射)序列的1Kbp区域时,5Kbp倒位的灵敏度(特异性)为0.81(0.76)。
性能
用本文公开的技术进行的分析可以以高准确度进行。可以以至少约50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%或更高的准确度进行分析。可以以至少70%的准确度进行分析。可以以至少80%的准确度进行分析。可以以至少90%的准确度进行分析。
用本文公开的技术进行的分析可以以高特异性进行。可以以至少约50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%或更高的特异性进行分析。可以以至少70%的特异性进行分析。可以以至少80%的特异性进行分析。可以以至少90%的特异性进行分析。
用本文公开的技术进行的分析可以以高灵敏度进行。可以以至少约50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%或更高的灵敏度进行分析。可以以至少70%的灵敏度进行分析。可以以至少80%的灵敏度进行分析。可以以至少90%的灵敏度进行分析。
使用本公开的技术可以改善用来实现该技术的计算机系统的功能。例如,该技术可以将给定分析的处理时间缩短至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或更多。该技术可以将给定分析的存储器需求降低至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或更多。
使用本公开的技术可以进行先前无法进行的分析。例如,可以从序列信息中检测某些遗传特征,如果不使用本公开的方法,这些遗传特征将无法从这样的信息中检测到。
计算机系统
图10示出了被编程或以其他方式配置以实现本文提供的方法的计算机系统1001。计算机系统1001可以是用户的电子设备或者是相对于该电子设备远程定位的计算机系统。该电子设备可以是移动电子设备。
计算机系统1001包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)1005,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统1001还包括存储器或存储位置1010(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元1015(例如,硬盘)、用于与一个或多个其他系统通信的通信接口1020(例如,网络适配器)以及外围设备1025,诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器1010、存储单元1015、接口1020和外围设备1025通过诸如主板的通信总线(实线)与CPU 1005通信。存储单元1015可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统1001可以借助于通信接口1020可操作地耦合至计算机网络(“网络”)1030。网络1030可以是互联网、因特网和/或外联网,和/或与因特网通信的内联网和/或外联网。在一些情况下,网络1030是远程通信和/或数据网络。网络1030可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些情况下借助于计算机系统1001,网络1030可以实现对等网络,这可以使耦合至计算机系统1001的设备能够充当客户端或服务器。
CPU 1005可以执行一系列机器可读指令,该指令可以体现在程序或软件中。该指令可以存储在存储位置,诸如存储器1010中。可以将指令引导至CPU 1005,该指令随后可以编程或以其他方式配置CPU 1005以实现本公开内容的方法。由CPU 1005执行的操作示例可以包括提取、解码、执行和回写。
CPU 1005可以是电路如集成电路的一部分。系统1001的一个或多个其他组件可以包括在电路中。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元1015可以存储文件,诸如驱动程序、文库和保存的程序。存储单元1015可以存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统1001可以包括一个或多个附加数据存储单元,该附加数据存储单元在计算机系统1001外部,诸如位于通过内联网或因特网与计算机系统1001通信的远程服务器上。
计算机系统1001可以通过网络1030与一个或多个远程计算机系统通信。例如,计算机系统1001可以与用户(例如,服务提供商)的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式PC)、平板或平板型PC(例如,
Figure BDA0001945071990000681
iPad、
Figure BDA0001945071990000682
Galaxy Tab)、电话、智能电话(例如,
Figure BDA0001945071990000683
iPhone、支持Android的设备、
Figure BDA0001945071990000684
)或个人数字助理。用户可以经由网络1030访问计算机系统1001。
可以通过存储在计算机系统1001的电子存储位置上(例如在存储器1010或电子存储单元1015上)的机器(例如计算机处理器)可执行代码来实现如本文所述的方法。该机器可执行代码或机器可读代码可以以软件的形式提供。
在使用期间,所述代码可以由处理器1005执行。在一些情况下,可以从存储单元1015检索该代码并将其存储在存储器1010上以备处理器1005访问。在一些情况下,可以排除电子存储单元1015,并且机器可执行指令存储在存储器1010上。
所述代码可以被预编译并配置以供与具有适合执行该代码的处理器的机器一起使用,或者可以在运行期间被编译。该代码可以以编程语言提供,可以选择该编程语言以使该代码能够以预编译或即时编译(as-compiled)的方式执行。
本文提供的系统和方法的各方面,如计算机系统1001,可体现在编程中。本技术的多个方面可以被认为是“产品”或“制品”,其通常为某种类型的机器可读介质上携带或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可存储在电子存储单元如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可包括计算机的任何或全部有形存储器、处理器等,或其相关模块,如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可在任何时候为软件编程提供非暂时性存储。该软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。这样的通信,例如,可使软件能够从一个计算机或处理器加载到另一个计算机或处理器中,例如,从管理服务器或主机加载到应用服务器的计算机平台中。因此,可承载软件元素的另一类型的介质包括光波、电波和电磁波,如跨本地设备之间的物理接口、通过有线和光学陆线网络以及通过各种空中链路而使用的。携带这类波的物理元件,如有线或无线链路、光学链路等,也可以被认为是承载软件的介质。如本文所用的,除非受限于非暂时性有形“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质如计算机可执行代码可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,如任何计算机中的任何存储设备等,例如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,如这样的计算机平台的主存储器。有形传输介质包括:同轴电缆、铜线和光纤,包括导线,该导线包括计算机系统内的总线。载波传输介质可采取电信号或电磁信号或者声波或光波的形式,如在射频(RF)和红外(IR)数据通信过程中生成的那些电信号或电磁信号或者声波或光波。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、任何其他具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或匣盒、传送数据或指令的载波、传送这样的载波的电缆或链路,或者计算机可从中读取编程代码和/或数据的任何其他介质。这些计算机可读介质形式中的许多形式可以参与将一个或多个指令的一个或多个序列载送至处理器以供执行。
计算机系统1001可以包括电子显示器1035或与电子显示器1035通信,电子显示器1035包括用于提供例如经过训练的算法的输出和读出的用户界面(UI)1040。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
可以通过一种或多种算法来实现本公开内容的方法和系统。算法可以在由中央处理单元1005执行时通过软件实现。
在一些情况下,本文的计算机系统被配置用于执行机器学习操作,如本文说明书中公开的或本领域技术人员已知的那些操作。
非基于测序的测定
非基于测序的测定,如杂交(例如,标记、阵列杂交、荧光探针杂交如FISH、抗体杂交)或扩增(例如,PCR),可用于检测DNA-蛋白质复合物(例如,染色质)或其他结合的DNA复合物(例如,与珠子或其他基底复合的DNA)上的遗传特征(例如,遗传重排)。
可以使用本文讨论的技术收集DNA复合物(例如,DNA-蛋白质复合物,如染色质或其他结合的DNA复合物)。例如,可以从保存的样品(例如,FFPE样品)中回收DNA复合物或者由分离的DNA重构DNA复合物。在一个实例中,可以通过热处理和蛋白水解从保存的样品(例如,FFPE样品)中释放出染色质。
可以捕获或纯化DNA复合物。例如,可以在固相上捕获DNA复合物(例如染色质)。在一些情况下,固相包括羧化的基底,如羧化的顺磁珠。
DNA复合物可以通过本文公开的方法片段化并且连接,包括但不限于酶促(例如,限制酶、片段化酶、转座酶)、热和物理片段化。连接之前可以进行平端化。
可以对DNA复合物进行分区以供进一步分析。例如,DNA复合物(例如,染色质)可以分配到小液滴(例如,微流体小液滴)、孔、阵列斑点或其他分区中。
可以通过多种手段分析DNA复合物。可以进行扩增(例如,PCR)(例如,在诸如小液滴PCR的分区中),以靶向变体断裂点(例如,用引物对靶向)。杂交测定,如使用荧光寡核苷酸探针的杂交测定,可用于靶向变体断裂点。可以通过由于附近基因座的邻近连接概率的变化而导致的信号变化来检测重排。在一些情况下,可以使用Taq-Man探针。在一些情况下,可以使用SYBR探针。这样的分析可以多路进行,例如在小液滴、孔、阵列斑点或其他分区中。
在一个实例中,通过温和热处理和蛋白水解从保存的样品(例如FFPE)中释放染色质。释放的染色质被捕获在包含顺磁羧化聚苯乙烯珠子的固相上。与捕获的染色质结合的DNA被片段化(例如,酶促),并且使片段化的末端成为平端。与染色质缔合的平端DNA与附近的其他DNA连接。例如通过基于小液滴的PCR或荧光寡核苷酸探针杂交,对染色体间变体的存在进行定量。由于附近基因座的邻近连接概率的变化(例如,增加),缺失和倒位改变(例如,增加)信号。
重排测定可以与基于测序的测定,如本文所述的测定相组合,包括基于测序的重排测定。例如,在PCR或杂交测定后,可以如本文所公开的对染色质进行测序和分析。
试剂盒
本文公开了用于进行本文公开的技术的试剂盒。试剂盒可以被包含在诸如盒子等包装中,每个包装单元中都有用于一定数量的反应的材料。在一些情况下,试剂盒包含用于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多反应的试剂。
如本文所公开的试剂盒包含实施所述方法和生成或分析本文公开的组合物所必需的一些或所有试剂。在一些情况下,该试剂盒包含实施所述方法和生成或分析本文公开的组合物所必需的一部分试剂,并且任选地包含与试剂盒中未包括但通常可从试剂供应商处容易获得的试剂相关的说明书。
本文公开的一些试剂盒包含缓冲液、DNA结合剂、亲和标签结合剂、脱氧核苷酸、标记的脱氧核苷酸、DNA片段化试剂、末端修复酶、连接酶、蛋白质去除剂以及用于从保存的样品获得基因组结构信息的说明书。试剂盒任选地包含用于PCR的试剂,如缓冲液、核苷酸、正向引物、反向引物和热稳定DNA聚合酶。
在一些试剂盒中的缓冲液包括限制性消化缓冲液、末端修复缓冲液、连接缓冲液、TE缓冲液、洗涤缓冲液、TWB溶液、NTB溶液、LWB溶液、NWB溶液和交联逆转缓冲液中的至少一种。代表性消化缓冲液是DpnII缓冲液或诸如或在功能上类似于NEB缓冲液2的商购缓冲液。示例性连接缓冲液包含T4DNA连接酶缓冲液、BSA和Triton X-100。
包含在试剂盒中或在说明书中提到与试剂盒试剂组合使用的其他示例性试剂包括包含tris和EDTA的TE缓冲液,包含tris和氯化钠的洗涤缓冲液,包含tris、EDTA和吐温20中的一种或多种的TWB溶液,包含tris、EDTA和氯化钠中的一种或多种的NTB溶液,包含tris、氯化锂、EDTA和吐温20中的一种或多种的LWB溶液,包含tris、氯化钠,EDTA和吐温20中的至少一种的NWB溶液,以及包含tris、SDS和氯化钙中的一种或多种的交联逆转缓冲液。
一些试剂盒被配置成包含亲和标签结合剂,如链霉亲和素珠子,例如dynabead,或与之兼容。
试剂盒包含核苷酸,如dATP、dCTP、dGTP和dTTP,并且在一些情况下,包含核苷酸的生物素化形式,或与之兼容。
包含在本文的试剂盒中或与之兼容的DNA片段化试剂包括限制酶如DpnI、转座酶、核酸酶、声处理装置、流体动力学剪切装置和二价金属阳离子中的至少一种。
包含在本文的试剂盒中或与之兼容的末端修复酶包括T4DNA聚合酶、klenow DNA聚合酶和T4多核苷酸激酶中的至少一种。
包含在本文的试剂盒中或与之兼容的示例性连接酶包括T4连接酶。
包含在本文的试剂盒中或与之组合使用的蛋白质去除试剂包括苯酚和蛋白酶,如蛋白酶K、灰色链霉菌蛋白酶、丝氨酸蛋白酶、半胱氨酸蛋白酶、苏氨酸蛋白酶、天冬氨酸蛋白酶、谷氨酸蛋白酶、金属蛋白酶以及天冬酰胺肽裂合酶。
试剂盒任选地包含溶剂,如用于除去包埋材料如石蜡的溶剂,或与之兼容。
定义
如在本文和所附权利要求书中所使用的,除非上下文另外明确指出,否则单数形式“一个”、“一种”和“该”包括复数形式。因此,例如,提及“叠连群”包括多个这样的叠连群,并且提及“探测染色体的物理布局”包括提及一种或多种用于探测染色体的物理布局的方法以及本领域技术人员已知的其等同项,等等。
此外,除非另有说明,否则使用“和”意指“和/或”。类似地,“包括”、“包含”和“含有”是可互换的,并非意在限制。
应进一步理解,在各个实施方案的描述中使用术语“包含”时,本领域技术人员将会理解,在一些特定的情况下,实施方案可使用语言“基本上由...组成”或“由...组成”替代性地描述。
如本文所用的术语“测序读取”是指其中已确定序列的DNA片段。
如本文所用的术语“叠连群”是指DNA序列的连续区域。“叠连群”可通过本领域已知的任何数字方法来确定,例如通过比较重叠序列的测序读取,和/或通过将测序读取与已知序列的数据库进行比较来识别哪些测序读取具有较高的连续概率。
如本文所用的术语“受试者”可以指任何真核或原核生物体。
如本文所用的术语“裸DNA”可以指基本上不含复合蛋白质的DNA。例如,它可指与细胞核中发现的少于约50%、约40%、约30%、约20%、约10%、约5%或约1%的内源蛋白质复合的DNA。
如本文所用的术语“重构的染色质”可以指通过将核酸结合部分与核酸如裸DNA复合而形成的染色质。在一些情况下,这些部分是核酸蛋白质,如细胞核蛋白质或组蛋白,但也可以考虑其他部分,如纳米颗粒。
如本文所用的术语“读取对”或“读取-对”可指被连接以提供序列信息的两个或更多个元件。在一些情况下,读取对的数目可指可映射读取对的数目。在其他情况下,读取对的数目可指生成的读取对的总数。
如本文所用的“组织样品”是指来自个体或可能包含核酸的环境的生物样品。例如,肿瘤被认为是组织,从肿瘤采集的样品构成组织样品,但在一些情况下,该术语是指从异质环境中采集的样品,如胃或肠切片,或来自相对于彼此在空间上分布的多个来源的包含核酸的环境样品。
如本文中对于数字所使用的“约”,是指该数字+/-该数字的10%。如对于范围所使用的“约”是指下限比该范围的指示下限小10%并且上限比该范围的指示上限大10%的范围。
如本文所用的“探针”是指通过与靶标结合来传递信息的分子。示例性探针包括寡核苷酸分子和抗体。寡核苷酸分子可以通过与靶标退火并通过改变荧光特征来传递信息,或者通过与靶标退火并促进产物(诸如指示靶标存在的扩增子)的合成来充当探针。也就是说,本文所用的术语探针不同地涉及抗体探针和其他小分子探针,以及寡核酸分子,它们或者通过直接与靶标杂交导致例如荧光状态的变化以产生信号而起作用,或者通过促进合成指示靶标存在的扩增子而起作用。
如本文所用,当蛋白质和核酸不再装配以形成复合物时,DNA蛋白质复合物被破坏或破裂。在一些情况下,复合物完全变性或分解,因此不会保留蛋白质DNA结合。或者,在一些情况下,当第一核酸区段和第二核酸区段不再不依赖于任何磷酸二酯键而被保持在一起时,DNA蛋白质复合物基本上被破坏。
除非另有定义,否则本文使用的所有技术和科学术语均具有与本公开内容所属领域的普通技术人员通常所理解的含义相同的含义。现在描述示例性方法和材料,但是与本文描述的那些类似或等同的任何方法和试剂也可用于实施所公开的方法和组合物。
下面参考编号的实施方案的部分列表进一步阐明本文的公开内容。1.一种从保存的组织样品获得基因组结构信息的方法,其包括:从该保存的组织样品中分离核酸,以使得蛋白质DNA复合物不被破坏;标记蛋白质DNA复合物,以使得第一DNA区段和第二DNA区段被标识为来自共同的蛋白质DNA复合物;将第一DNA区段和第二DNA区段与该共同的DNA复合物分开;从第一DNA区段和第二DNA区段产生序列信息;并将共有指示共同蛋白质DNA复合物的标签序列的序列信息分配给共同的基因组结构。2.根据上述实施方案中任一项如实施方案1的方法,其中保存的组织样品是交联的石蜡包埋的组织样品。3.根据上述实施方案中任一项如实施方案1的方法,其中所述标签序列包括标识复合物的寡核苷酸标签。4.根据上述实施方案中任一项如实施方案1的方法,其中所述标签序列来源于将第一区段连接至第二区段。5.根据上述实施方案中任一项如实施方案1的方法,其中从保存的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏包括使交联的石蜡包埋的组织样品与二甲苯接触。6.根据上述实施方案中任一项如实施方案1的方法,其中从保存的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏包括使保存的组织样品与乙醇接触。7.根据上述实施方案中任一项如实施方案1的方法,其中从保存的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏包括保护该样品免受煮沸条件的影响。8.根据上述实施方案中任一项如实施方案1的方法,其中将第一DNA区段和第二DNA区段与共同的DNA复合物分开包括蛋白酶K处理。9.根据上述实施方案中任一项如实施方案1的方法,其中所述保存的组织样品保留反映其在组织中的构型的位置信息。10.根据上述实施方案中任一项如实施方案1的方法,其中在分离核酸之前,所述保存的组织样品未被均质化。11.根据上述实施方案中任一项如实施方案1的方法,其中在分离核酸之前,将所述保存的组织样品储存至少一周。12.根据上述实施方案中任一项如实施方案1的方法,其中在分离核酸之前,将所述保存的组织样品储存至少6个月。13.根据上述实施方案中任一项如实施方案1的方法,其中在分离核酸之前,从收集点运送所述保存的组织样品。14.根据上述实施方案中任一项如实施方案1的方法,其中所述保存的组织样品在无菌环境中收集。15.根据上述实施方案中任一项如实施方案1的方法,其中在分离核酸之前,将所述保存的组织样品置于非无菌环境中。16.一种从保存的组织样品获得基因组结构信息的方法,其包括:从该保存的组织样品中分离核酸,以便回收大于50kb的核酸片段;使该核酸与多个核酸结合部分接触以形成至少一个复合物,以使得核酸分子的第一DNA区段和第二DNA区段不依赖于其共同的磷酸二酯骨架而保持在一起;裂解所述至少一个复合物的至少一个磷酸二酯骨架;标记所述至少一个复合物,以使得第一DNA区段和第二DNA区段被标识为来自共同的复合物;将第一DNA区段和第二DNA区段与该共同的复合物分开;从第一DNA区段和第二DNA区段生成序列信息;并将共有指示共同蛋白质DNA复合物的标签序列的序列信息分配给共同的基因组结构。17.根据上述实施方案中任一项如实施方案16的方法,其中所述保存的组织样品是交联的石蜡包埋的组织样品。18.根据上述实施方案中任一项如实施方案16的方法,其中所述标签序列包括标识复合物的寡核苷酸标签。19.根据上述实施方案中任一项如实施方案16的方法,其中所述标签序列来源于将第一DNA区段连接至第二DNA区段。20.根据上述实施方案中任一项如实施方案16的方法,其中从保存的组织样品中分离核酸以便回收大于50kb的核酸片段包括使保存的组织样品与邻氨基苯甲酸盐和对氨基苯膦酸盐中的至少一种接触。21.根据上述实施方案中任一项如实施方案20的方法,其中所述分离在不高于40℃的温度下进行。22.根据上述实施方案中任一项如实施方案16的方法,其中所述分离在不高于40℃的温度下进行。23.根据上述实施方案中任一项如实施方案16的方法,其中将第一DNA区段和第二DNA区段与共同的DNA复合物分开包括蛋白酶K处理。24.根据上述实施方案中任一项如实施方案16的方法,其中所述多个核酸结合部分包含核蛋白质。25.根据上述实施方案中任一项如实施方案16的方法,其中所述多个核酸结合部分包含转座酶。26.根据上述实施方案中任一项如实施方案16的方法,其中所述多个核酸结合部分包含转组蛋白。27.根据上述实施方案中任一项如实施方案16的方法,其中所述多个核酸结合部分包含核酸结合蛋白质。28.根据上述实施方案中任一项如实施方案16的方法,其中所述多个核酸结合部分包含纳米颗粒。29.根据上述实施方案中任一项如实施方案16的方法,其中裂解所述至少一个复合物的至少一个磷酸二酯骨架包括与限制性内切核酸酶接触。30.根据上述实施方案中任一项如实施方案16的方法,其中裂解所述至少一个复合物的至少一个磷酸二酯骨架包括与非特异性内切核酸酶接触。31.根据上述实施方案中任一项如实施方案16的方法,其中裂解所述至少一个复合物的至少一个磷酸二酯骨架包括剪切所述DNA。32.根据上述实施方案中任一项如实施方案16的方法,其中裂解所述至少一个复合物的至少一个磷酸二酯骨架包括与转座酶接触。33.根据上述实施方案中任一项如实施方案16的方法,其中裂解所述至少一个复合物的至少一个磷酸二酯骨架包括与拓扑异构酶接触。34.根据上述实施方案中任一项如实施方案16的方法,其中所述保存的组织样品保留反映其在组织中的构型的位置信息。35.根据上述实施方案中任一项如实施方案16的方法,其中在分离核酸之前,所述保存的组织样品未被均质化。36.根据上述实施方案中任一项如实施方案16的方法,其中在分离核酸之前,将所述保存的组织样品储存至少一周。37.根据上述实施方案中任一项如实施方案16的方法,其中在分离核酸之前,将所述保存的组织样品储存至少6个月。38.根据上述实施方案中任一项如实施方案16的方法,其中在分离核酸之前,从收集点运送所述保存的组织样品。39.根据上述实施方案中任一项如实施方案16的方法,其中所述保存的组织样品在无菌环境中收集。40.根据上述实施方案中任一项如实施方案16的方法,其中在分离核酸之前,将所述保存的组织样品置于非无菌环境中。41.一种从组织样品中回收空间分布的基因组结构信息的方法,其包括获得组织样品;从固定的三维石蜡包埋的组织样品的第一位置提取一部分;从来自第一位置的该部分分离核酸,以使得蛋白质DNA复合物不被破坏;标记蛋白质DNA复合物,以使得第一DNA区段和第二DNA区段被标识为来自共同的蛋白质DNA复合物;将第一DNA区段和第二DNA区段与共同的DNA复合物分开;从第一DNA区段和第二DNA区段产生序列信息;将共有指示共同蛋白质DNA复合物的标签序列的序列信息分配给共同的基因组结构;并将该共同的基因组结构分配给该组织样品的第一位置。42.根据上述实施方案中任一项如实施方案41的方法,其中所述组织样品包括固定的三维石蜡包埋的组织样品。43.根据上述实施方案中任一项如实施方案41的方法,其中交联的石蜡包埋的组织样品保留反映其在组织中的构型的位置信息。44.根据上述实施方案中任一项如实施方案41的方法,其中在分离核酸之前,所述交联的石蜡包埋的组织样品未被均质化。45.根据上述实施方案中任一项如实施方案41的方法,其中在分离核酸之前,将所述交联的石蜡包埋的组织样品储存至少一周。46.根据上述实施方案中任一项如实施方案41的方法,其中在分离核酸之前,将所述交联的石蜡包埋的组织样品储存至少6个月。47.根据上述实施方案中任一项如实施方案41的方法,其中在分离核酸之前,从收集点运送所述交联的石蜡包埋的组织样品。48.根据上述实施方案中任一项如实施方案41的方法,其中所述交联的石蜡包埋的组织样品在无菌环境中收集。49.根据上述实施方案中任一项如实施方案41的方法,其中在分离核酸之前,将所述交联的石蜡包埋的组织样品置于非无菌环境中。50.根据上述实施方案中任一项如实施方案41的方法,其中所述标签序列包括标识复合物的寡核苷酸标签。51.根据上述实施方案中任一项如实施方案41的方法,其中所述标签序列来源于将第一区段连接至第二区段。52.根据上述实施方案中任一项如实施方案41的方法,其中从交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏包括使交联的石蜡包埋的组织样品与二甲苯接触。53.根据上述实施方案中任一项如实施方案41的方法,其中从交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏包括使交联的石蜡包埋的组织样品与乙醇接触。54.根据上述实施方案中任一项如实施方案41的方法,其中从交联的石蜡包埋的组织样品中分离核酸以使得蛋白质DNA复合物不被破坏包括保护该样品免受煮沸条件的影响。55.根据上述实施方案中任一项如实施方案41的方法,其中将第一DNA区段和第二DNA区段与共同的DNA复合物分开包括蛋白酶K处理。56.根据上述实施方案中任一项如实施方案41的方法,其中所述组织样品包括固定的三维石蜡包埋的组织样品。57.一种重新评价治疗方案试验结果的方法,其包括获得患者群体中关于治疗方案结果的数据;从所述患者群体的多个患者获得固定的组织样品;从所述固定的组织样品中提取核酸复合物;使用所述核酸复合物确定多个所述固定的组织样品的基因组结构信息;并将所述关于治疗方案结果的数据与基因组结构信息相关联,以便鉴定与治疗方案结果相关的基因组结构信息。58.根据上述实施方案中任一项如实施方案57的方法,其中从所述固定的组织样品中提取核酸复合物以及使用所述核酸复合物确定多个所述固定的组织样品的基因组结构信息包括根据上述实施方案中任一项如实施方案1的方法。59.根据上述实施方案中任一项如实施方案57的方法,其中从所述固定的组织样品中提取核酸复合物以及使用所述核酸复合物确定多个所述固定的组织样品的基因组结构信息包括根据上述实施方案中任一项如实施方案16的方法。60.根据上述实施方案中任一项如实施方案57的方法,其中从所述固定的组织样品中提取核酸复合物以及使用所述核酸复合物确定多个所述固定的组织样品的基因组结构信息包括根据上述实施方案中任一项如实施方案41的方法。61.一种核苷酸序列装配方法,其包括:(a)提供固定的组织样品;(b)从所述固定的组织样品中回收交联的DNA:蛋白质复合物;(c)将来自所述交联的DNA:蛋白质复合物的DNA的第一部分连接至来自所述交联的DNA:蛋白质复合物的DNA的第二部分,从而形成连接的DNA;(d)从所述交联的DNA:蛋白质复合物中提取所述连接的DNA;(e)对所述连接的DNA的连接接头任一侧的至少一部分进行测序;以及(f)使用来自所述测序的信息来装配核苷酸序列。62.根据上述实施方案中任一项如实施方案61的方法,其中所述固定的组织样品是福尔马林固定的。63.根据上述实施方案中任一项如实施方案62的方法,其中所述固定的组织样品是福尔马林固定、石蜡包埋的(FFPE)。64.根据上述实施方案中任一项如实施方案61的方法,其中所述交联的DNA:蛋白质复合物包括染色质。65.根据上述实施方案中任一项如实施方案61的方法,其中所述连接包括平端连接。66.根据上述实施方案中任一项如实施方案61的方法,其进一步包括在所述连接之前,消化来自所述交联的DNA:蛋白质复合物的DNA。67.根据上述实施方案中任一项如实施方案66的方法,其中所述消化包括限制酶消化。68.根据上述实施方案中任一项如实施方案66的方法,其进一步包括在所述消化之后,补平所述消化产生的粘端,以产生平端。69.根据上述实施方案中任一项如实施方案68的方法,其中所述补平使用生物素化的核苷酸进行。70.根据上述实施方案中任一项如实施方案61的方法,其中所述回收包括将来自所述交联的DNA:蛋白质复合物的DNA与固体支持物结合。71.根据上述实施方案中任一项如实施方案61的方法,其中所述提取包括消化来自所述交联的DNA:蛋白质复合物的蛋白质。72.根据上述实施方案中任一项如实施方案61的方法,其中所述信息包括超过2000个碱基对(bp)的距离上的长范围信息。73.根据上述实施方案中任一项如实施方案72的方法,其中所述距离大于10,000bp。74.根据上述实施方案中任一项如实施方案73的方法,其中所述距离大于100,000bp。75.根据上述实施方案中任一项如实施方案74的方法,其中所述距离大于200,000bp。76.根据上述实施方案中任一项如实施方案61的方法,其进一步包括在所述回收之前,溶解所述固定的组织样品的包埋材料。77.根据上述实施方案中任一项如实施方案76的方法,其中所述包埋材料包括石蜡。78.根据上述实施方案中任一项如实施方案61的方法,其中所述交联的石蜡包埋的组织样品保留反映其在组织中的构型的位置信息。79.根据上述实施方案中任一项如实施方案61的方法,其中在分离核酸之前,所述交联的石蜡包埋的组织样品未被均质化。80.根据上述实施方案中任一项如实施方案61的方法,其中在分离核酸之前,将所述交联的石蜡包埋的组织样品储存至少一周。81.根据上述实施方案中任一项如实施方案61的方法,其中在分离核酸之前,将所述交联的石蜡包埋的组织样品储存至少6个月。82.根据上述实施方案中任一项如实施方案61的方法,其中在分离核酸之前,从收集点运送所述交联的石蜡包埋的组织样品。83.根据上述实施方案中任一项如实施方案61的方法,其中所述交联的石蜡包埋的组织样品在无菌环境中收集。84.根据上述实施方案中任一项如实施方案61的方法,其中在分离核酸之前,将所述交联的石蜡包埋的组织样品置于非无菌环境中。85.一种组织样品分析方法,其包括:(a)提供固定的组织样品;(b)收集所述固定的组织样品的第一部分和所述固定的组织样品的第二部分,其中所述第一部分和所述第二部分来自所述固定的组织样品的不同区域;(c)从所述第一部分回收第一交联的DNA:蛋白质复合物并从所述第二部分回收第二交联的DNA:蛋白质复合物;(d)(i)将来自所述第一交联的DNA:蛋白质复合物的DNA的第一部分连接至来自所述第一交联的DNA:蛋白质复合物的DNA的第二部分,从而形成第一连接的DNA,以及(ii)将来自所述第二交联的DNA:蛋白质复合物的DNA的第二部分连接至来自所述第二交联DNA:蛋白质复合物的DNA的第二部分,从而形成第二连接的DNA;(e)从所述第一交联的DNA:蛋白质复合物中提取所述第一连接的DNA并从所述第二交联的DNA:蛋白质复合物中提取所述第二连接的DNA;(f)对所述第一连接的DNA和所述第二连接的DNA进行测序;以及(g)使用来自所述测序的信息来装配第一核苷酸序列和第二核苷酸序列。86.根据上述实施方案中任一项如实施方案85的方法,其中所述固定的组织样品是福尔马林固定的。87.根据上述实施方案中任一项如实施方案86的方法,其中所述固定的组织样品是福尔马林固定、石蜡包埋的(FFPE)。88.根据上述实施方案中任一项如实施方案85的方法,其中所述第一交联的DNA:蛋白质复合物和所述第二交联的DNA:蛋白质复合物各自包括染色质。89.根据上述实施方案中任一项如实施方案85的方法,其中在(d)(i)和(d)(ii)中的所述连接包括平端连接。90.根据上述实施方案中任一项如实施方案85的方法,其包括,在(d)(i)和(d)(ii)中的所述连接之前,消化来自所述第一交联的DNA:蛋白质复合物和来自所述第二交联的DNA:蛋白质复合物中的DNA。91.根据上述实施方案中任一项如实施方案90的方法,其中所述消化包括限制酶消化。92.根据上述实施方案中任一项如实施方案90的方法,其进一步包括,在所述消化之后,补平所述消化产生的粘端,以产生平端。93.根据上述实施方案中任一项如实施方案92的方法,其中所述补平使用生物素化的核苷酸进行。94.根据上述实施方案中任一项如实施方案85的方法,其中所述回收包括将来自所述第一交联的DNA:蛋白质复合物和来自所述第二交联的DNA:蛋白质复合物的DNA与固体支持物结合。95.根据上述实施方案中任一项如实施方案85的方法,其中所述提取包括消化来自所述第一交联的DNA:蛋白质复合物和来自所述第二交联的DNA:蛋白质复合物的蛋白质。96.根据上述实施方案中任一项如实施方案85的方法,所述信息包括超过2000个碱基对(bp)的距离上的长范围信息。97.根据上述实施方案中任一项如实施方案96的方法,其中所述距离大于10,000bp。98.根据上述实施方案中任一项如实施方案97的方法,其中所述距离大于100,000bp。99.根据上述实施方案中任一项如实施方案98的方法,其中所述距离大于200,000bp。100.根据上述实施方案中任一项如实施方案85的方法,其进一步包括,在所述回收之前,溶解所述固定的组织样品的包埋材料。101.根据上述实施方案中任一项如实施方案100的方法,其中所述包埋材料包括石蜡。102.根据上述实施方案中任一项如实施方案85的方法,其中所述固定的组织样品保留反映其在组织中的构型的位置信息。103.根据上述实施方案中任一项如实施方案85的方法,其中在分离核酸之前,所述固定的组织样品未被均质化。104.根据上述实施方案中任一项如实施方案85的方法,其中在分离核酸之前,将所述固定的组织样品储存至少一周。105.根据上述实施方案中任一项如实施方案85的方法,其中在分离核酸之前,将所述固定的组织样品储存至少6个月。106.根据上述实施方案中任一项如实施方案85的方法,其中在分离核酸之前,从收集点运送所述固定的组织样品。107.根据上述实施方案中任一项如实施方案85的方法,其中所述固定的组织样品在无菌环境中收集。108.根据上述实施方案中任一项如实施方案85的方法,其中在分离核酸之前,将所述固定的组织样品置于非无菌环境中。109.一种从保存的组织样品检测基因组重排的方法,其包括从保存的组织样品中分离蛋白质DNA复合物,以使得蛋白质DNA复合物不被破坏;连接该复合物的暴露的DNA末端以形成至少一个配对末端连接产物;使所述至少一个配对末端连接产物与一对探针接触,其中这对探针与在细胞类型中重排的第一区域和第二区域结合。110.根据上述实施方案中任一项如实施方案109的方法,其中分离所述蛋白质DNA复合物,以使得第一区段和第二区段不依赖于磷酸二酯骨架而保持在一起。111.根据上述实施方案中任一项如实施方案109的方法,其中所述保存的组织样品是交联的。112.根据上述实施方案中任一项如实施方案109的方法,其中所述一对探针是标记的。113.根据上述实施方案中任一项如实施方案109的方法,其中所述一对探针包含荧光团。114.根据上述实施方案中任一项如实施方案109的方法,其中所述一对探针包括寡核苷酸探针。115.根据上述实施方案中任一项如实施方案110的方法,其还包括测定一对寡核酸向共同的配对末端连接产物上的退火。116.根据上述实施方案中任一项如实施方案115的方法,其进一步包括对至少一些分离的核酸进行测序。117.根据上述实施方案中任一项如实施方案109的方法,其中所述一对探针包括正向引物和反向引物,其中该正向引物和反向引物中的至少一个与参与重排的DNA区段退火。118.根据上述实施方案中任一项如实施方案117的方法,其进一步包括使用所述正向引物和反向引物进行核酸扩增。119.根据上述实施方案中任一项如实施方案118的方法,其包括对至少一些分离的核酸进行测序。120.根据上述实施方案中任一项如实施方案109的方法,其中所述基因组重排选自倒位、插入、缺失和易位。121.根据上述实施方案中任一项如实施方案109的方法,其中所述保存的组织样品是福尔马林固定的。122.根据上述实施方案中任一项如实施方案109的方法,其中所述保存的组织是福尔马林固定、石蜡包埋的(FFPE)。123.根据上述实施方案中任一项如实施方案109的方法,其进一步包括,在分离之前,去除所述固定的组织样品的包埋材料。124.根据上述实施方案中任一项如实施方案123的方法,其中所述包埋材料包括石蜡。125.根据上述实施方案中任一项如实施方案109的方法,其中所述分离包括使所述保存的组织样品与二甲苯接触。126.根据上述实施方案中任一项如实施方案109的方法,其中所述分离包括使所述保存的组织样品与乙醇接触。127.根据上述实施方案中任一项如实施方案109的方法,其中所述分离包括保护所述样品免受煮沸条件的影响。128.根据上述实施方案中任一项如实施方案109的方法,其中所述分离包括使所述交联的组织样品与邻氨基苯甲酸盐和对氨基苯膦酸盐中的至少一种接触。129.根据上述实施方案中任一项如实施方案109的方法,其中所述分离在不高于40℃的温度下进行。130.根据上述实施方案中任一项如实施方案109的方法,其中所述交联的DNA:蛋白质复合物包括染色质。131.根据上述实施方案中任一项如实施方案109的方法,其中所述分离包括将来自所述交联的DNA:蛋白质复合物的DNA与固体支持物结合。132.一种检测DNA区段中的基因组重排的方法,其包括获得DNA区段的基因组基因座相互作用信息;并且将观察到的基因组基因座相互作用信息的分布与基因组基因座相互作用信息的预期分布进行比较。133.根据上述实施方案中任一项如实施方案132的方法,其中观察到的分布与预期分布之间的差异指示所述DNA区段的重排。134.根据上述实施方案中任一项如实施方案132的方法,其中所述基因组基因座相互作用信息包括所述DNA区段的连接子集的配对末端读取对信息。135.根据上述实施方案中任一项如实施方案132的方法,其中所述基因组重排选自倒位、插入、缺失和易位。136.根据上述实施方案中任一项如实施方案132的方法,其中观察到的分布的相互作用频率大于预期分布的相互作用频率,并且所述基因组重排包括倒位。137.据上述实施方案中任一项如实施方案132的方法,其中观察到的分布的相互作用频率小于预期分布的相互作用频率,并且所述基因组重排包括缺失。138.根据上述实施方案中任一项如实施方案132的方法,其中所述DNA区段从交联的组织样品中获得。139.根据上述实施方案中任一项如实施方案138的方法,其中所述交联的组织样品是福尔马林固定的。140.根据上述实施方案中任一项如实施方案138的方法,其中所述交联的组织样品是福尔马林固定、石蜡包埋的(FFPE)。141.根据上述实施方案中任一项如实施方案138的方法,其中对所述交联的组织样品进行处理以从交联的组织样品中分离核酸,以使得蛋白质DNA复合物不被破坏。142.根据上述实施方案中任一项如实施方案141的方法,其中分离所述蛋白质DNA复合物,以使得第一区段和第二区段不依赖于磷酸二酯骨架而保持在一起。143.根据上述实施方案中任一项如实施方案141的方法,其中在处理之前,溶解所述固定的组织样品的包埋材料。144.根据上述实施方案中任一项如实施方案142的方法,其中所述包埋材料包括石蜡。145.根据上述实施方案中任一项如实施方案141的方法,其中所述处理包括使所述交联的石蜡包埋的组织样品与二甲苯接触。146.根据上述实施方案中任一项如实施方案141的方法,其中所述处理包括使所述交联的石蜡包埋的组织样品与乙醇接触。147.根据上述实施方案中任一项如实施方案141的方法,其中所述处理包括保护所述样品免受煮沸条件的影响。148.根据上述实施方案中任一项如实施方案141的方法,其中所述处理包括使所述交联的组织样品与邻氨基苯甲酸盐和对氨基苯膦酸盐中的至少一种接触。149.根据上述实施方案中任一项如实施方案141的方法,其中所述处理在不高于40℃的温度下进行。150.根据上述实施方案中任一项如实施方案141的方法,其中所述DNA蛋白质复合物包括染色质。151.一种组合物,其包含第一DNA蛋白质复合物和衍生自共同的保存样品的第二DNA蛋白质复合物,其中第一DNA蛋白质复合物包含标记的DNA区段,以使得该区段被标识为来自共同的复合物,并且其中第一DNA蛋白质复合物可分配给共同的保存样品的第一位置且第二DNA蛋白质复合物可分配给共同的保存样品的第二位置。152.根据上述实施方案中任一项如实施方案151的组合物,其中使用具有指示共同复合物的序列的寡核苷酸标记所述标记的DNA区段。153.根据上述实施方案中任一项如实施方案151的组合物,其中通过连接以形成配对末端,以使得连接接头的任一侧上的独特序列被分配给共同的复合物来标记所述标记的DNA区段。154.根据上述实施方案中任一项如实施方案151的组合物,其中所述共同的保存样品与交联剂接触。155.根据上述实施方案中任一项如实施方案151的组合物,其中所述交联剂包括甲醛或福尔马林中的至少一种。156.根据上述实施方案中任一项如实施方案151的组合物,其中所述交联剂包括紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)和环磷酰胺中的至少一种。157.根据上述实施方案中任一项如实施方案151的组合物,其中所述保存的样品是福尔马林固定、石蜡包埋的(FFPE)。158.根据上述实施方案中任一项如实施方案151的组合物,其中对所述保存的组织样品进行处理以从所述保存的组织样品中分离核酸,以使得蛋白质DNA复合物不被破坏。159.根据上述实施方案中任一项如实施方案158的方法,其中分离所述蛋白质DNA复合物,以使得第一区段和第二区段不依赖于磷酸二酯骨架而保持在一起。160.根据上述实施方案中任一项如实施方案158的组合物,其进一步包括,在分离之前,溶解所述保存的组织样品的包埋材料。161.根据上述实施方案中任一项如实施方案159的组合物,其中所述包埋材料包括石蜡。162.根据上述实施方案中任一项如实施方案151的组合物,其中所述处理包括使所述交联的石蜡包埋的组织样品与二甲苯接触。163.根据上述实施方案中任一项如实施方案151的组合物,其中所述处理包括使所述交联的石蜡包埋的组织样品与乙醇接触。164.根据上述实施方案中任一项如实施方案151的组合物,其中所述处理包括保护所述样品免受煮沸条件的影响。165.根据上述实施方案中任一项如实施方案151的组合物,其中所述处理包括使所述交联的组织样品与邻氨基苯甲酸盐和对氨基苯膦酸盐中的至少一种接触。166.根据上述实施方案中任一项如实施方案151的组合物,其中所述处理在不高于40℃的温度下进行。167.根据上述实施方案中任一项如实施方案151的组合物,其中第一DNA蛋白质复合物或第二DNA蛋白质复合物包括染色质。168.一种方法,其包括:从受试者获得保存的样品,该样品包含核酸;并通过分析该样品中的该核酸来得出基因组结构信息。169.根据上述实施方案中任一项如实施方案168的方法,其中所述保存的样品是交联的。170.根据上述实施方案中任一项如实施方案169的方法,其中使用甲醛、福尔马林、紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)以及环磷酰胺中的至少一种交联所述保存的样品。171.根据上述实施方案中任一项如实施方案169的方法,其中使用福尔马林交联所述保存的样品。172.根据上述实施方案中任一项如实施方案168的方法,其中所述保存的样品保持有关其内部核酸的位置信息。173.根据上述实施方案中任一项如实施方案168的方法,其中所述保存的样品是包埋的样品。174.根据上述实施方案中任一项如实施方案168的方法,其中所述保存的样品是福尔马林固定、石蜡包埋的(FFPE)样品。175.根据上述实施方案中任一项如实施方案168的方法,其中所述基因组结构信息指示相对于参考基因组的倒位、插入、缺失和易位中的至少一种。176.根据上述实施方案中任一项如实施方案175的方法,其中所述参考基因组是与所述受试者共同的物种的野生型基因组。177.根据上述实施方案中任一项如实施方案175的方法,其中所述参考基因组从所述受试者的参考组织中获得。178.根据上述实施方案中任一项如实施方案168的方法,其包括得出指示所述核酸的第一区段和第二区段的相位状态的信息。179.根据上述实施方案中任一项如实施方案168的方法,其包括标记所述样品的暴露的核酸末端以便传递物理连锁信息。180.根据上述实施方案中任一项如实施方案179的方法,其中所述标记包括将寡核苷酸连接至从所述保存的样品释放的DNA蛋白质复合物,以使得该寡核苷酸传递指示共同复合物的信息。181.根据上述实施方案中任一项如实施方案180的方法,其中所述寡核苷酸包含对复合物具有特异性的碱基序列。182.根据上述实施方案中任一项如实施方案180的方法,其中所述寡核苷酸包含对复合物独特的碱基序列。183.根据上述实施方案中任一项如实施方案179的方法,其中所述标记包括将所述复合物的第一核酸区段连接至所述复合物的第二区段以形成配对末端分子。184.根据上述实施方案中任一项如实施方案183的方法,其包括对第一核酸区段的一部分和第二核酸区段的一部分进行测序。185.根据上述实施方案中任一项如实施方案184的方法,其包括将具有与所述第一核酸区段的所述部分共同的独特序列的叠连群和具有与所述第二核酸区段的所述部分共同的独特序列的叠连群分配至核酸装配体中的共同支架。186.根据上述实施方案中任一项如实施方案183的方法,其包括使所述配对末端核酸分子与一组核酸探针接触。187.根据上述实施方案中任一项如实施方案186的方法,其中所述一组核酸探针是荧光探针。188.根据上述实施方案中任一项如实施方案186的方法,其中所述一组核酸探针与参与基因组结构重排的第一基因座和第二基因座退火。189.根据上述实施方案中任一项如实施方案188的方法,其中第一基因座和第二基因座在不受基因组结构重排影响的基因组中不相邻。190.根据上述实施方案中任一项如实施方案188的方法,其中第一基因座和第二基因座在不受基因组结构重排影响的基因组中相邻。191.根据上述实施方案中任一项如实施方案186-190的方法,其包括当接触所述一组核酸探针指示重排时,对所述样品的核酸进行测序。192.根据上述实施方案中任一项如实施方案183的方法,其包括使所述配对末端核酸分子与一组核酸引物接触。193.根据上述实施方案中任一项如实施方案192的方法,其中所述一组核酸引物与参与基因组结构重排的第一基因座和第二基因座退火。194.根据上述实施方案中任一项如实施方案193的方法,其中当第一基因座和第二基因座形成连接的配对末端分子时,所述一组核酸引物在核酸扩增反应中产生扩增子。195.根据上述实施方案中任一项如实施方案193的方法,其中当第一基因座和第二基因座不形成连接的配对末端分子时,所述一组核酸引物在核酸扩增反应中不产生扩增子。196.根据上述实施方案中任一项如实施方案188的方法,其中第一基因座和第二基因座在不受基因组结构重排影响的基因组中不相邻。197.根据上述实施方案中任一项如实施方案188的方法,其中第一基因座和第二基因座在不受基因组结构重排影响的基因组中相邻。198.根据上述实施方案如实施方案192-197中任一项的方法,其包括当从与所述配对末端核酸分子接触的所述一组核酸引物生成扩增子时对所述样品的核酸进行测序。199.根据上述实施方案中任一项如实施方案169的方法,其中对所述保存的组织样品进行处理以分离核酸,以使得蛋白质DNA复合物不被破坏。200.根据上述实施方案中任一项如实施方案199的方法,其中分离所述蛋白质DNA复合物,以使得第一区段和第二区段不依赖于磷酸二酯骨架而保持在一起。201.根据上述实施方案中任一项如实施方案199的方法,其中通过使所述保存的组织样品与二甲苯接触来处理所述保存的组织样品。202.根据上述实施方案中任一项如实施方案199的方法,其中通过使所述保存的组织样品与乙醇接触来处理所述保存的组织样品。203.根据上述实施方案中任一项如实施方案199的方法,其中通过保护所述样品免受煮沸条件的影响来处理所述保存的组织样品。204.根据上述实施方案中任一项如实施方案199的方法,其中通过使所述保存的组织样品与邻氨基苯甲酸盐和对氨基苯膦酸盐中的至少一种接触来处理所述保存的组织样品。205.根据上述实施方案中任一项如实施方案199的方法,其中所述保存的组织样品在不高于40℃的温度下处理。206.根据上述实施方案中任一项如实施方案199的方法,其中所述DNA蛋白质复合物包括染色质。207.根据上述实施方案中任一项如实施方案168的方法,其中所述保存的组织样品保留反映其在组织中的构型的位置信息。208.根据上述实施方案中任一项如实施方案168的方法,其中在分离核酸之前,所述保存的组织样品未被均质化。209.根据上述实施方案中任一项如实施方案168的方法,其中在分离核酸之前,将所述保存的组织样品储存至少一周。210.根据上述实施方案中任一项如实施方案168的方法,其中在分离核酸之前,将所述保存的组织样品储存至少6个月。211.根据上述实施方案中任一项如实施方案168的方法,其中在分离核酸之前,从收集点运送所述保存的组织样品。212.根据上述实施方案中任一项如实施方案168的方法,其中所述保存的组织样品在无菌环境中收集。213.根据上述实施方案中任一项如实施方案168的方法,其中在分离核酸之前,将所述保存的组织样品置于非无菌环境中。214.一种用于从保存的样品获得基因组结构信息的试剂盒,其包含:缓冲液、DNA结合剂、亲和标签结合剂、脱氧核苷酸、标记的脱氧核苷酸、DNA片段化试剂、末端修复酶、连接酶、蛋白质去除剂以及用于从所述保存的样品获得基因组结构信息的说明书。215.根据上述实施方案中任一项如实施方案214的试剂盒,其还包含用于PCR的试剂。216.根据上述实施方案中任一项如实施方案215的试剂盒,其中用于PCR的试剂包括缓冲液、核苷酸、正向引物、反向引物和热稳定DNA聚合酶。217.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述缓冲液包括限制性消化缓冲液、末端修复缓冲液、连接缓冲液、TE缓冲液、洗涤缓冲液、TWB溶液、NTB溶液、LWB溶液、NWB溶液和交联逆转缓冲液中的至少一种。218.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述限制性消化缓冲液包括DpnII缓冲液。219.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述末端修复缓冲液包括NEB缓冲液2。220.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述连接缓冲液包含T4DNA连接酶缓冲液、BSA和Triton X-100。221.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述TE缓冲液包含tris和EDTA。222.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述洗涤缓冲液包含tris和氯化钠。223.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述TWB溶液包含tris、EDTA和吐温20。224.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述TWB溶液包含tris、EDTA和氯化钠。225.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述LWB溶液包含tris、氯化锂、EDTA和吐温20。226.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述NWB溶液包含tris、氯化钠、EDTA和吐温20。227.根据上述实施方案中任一项如实施方案217的试剂盒,其中所述交联逆转缓冲液包含tris、SDS和氯化钙。228.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述DNA结合剂包括染色质捕获珠子。229.根据上述实施方案中任一项如实施方案228的试剂盒,其中所述染色质捕获珠子包括PEG-800粉末、Tris缓冲液、氯化钠、EDTA、表面活性剂、TE缓冲液和sera-mag珠子。230.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述亲和标签结合剂包括链霉亲和素珠子。231.根据上述实施方案中任一项如实施方案230的试剂盒,其中所述链霉亲和素珠子包括dynabead。232.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述脱氧核苷酸包括dATP、dTTP、dGTP和dCTP中的至少三种。233.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述生物素化的脱氧核苷酸包括生物素化的dCTP、生物素化的dATP、生物素化的dTTP和生物素化的dGTP中的至少一种。234.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述DNA片段化试剂是限制酶、转座酶、核酸酶、声处理装置、流体动力学剪切装置和二价金属阳离子中的至少一种。235.根据上述实施方案中任一项如实施方案234的试剂盒,其中所述限制酶包括DpnII。236.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述末端修复酶包括T4DNA聚合酶、klenow DNA聚合酶和T4多核苷酸激酶中的至少一种。237.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述连接酶包括T4DNA连接酶。238.根据上述实施方案中任一项如实施方案214的试剂盒,其中所述蛋白质去除剂包括蛋白酶和苯酚中的至少一种。239.根据上述实施方案中任一项如实施方案238的试剂盒,其中所述蛋白酶包括蛋白酶K、灰色链霉菌蛋白酶、丝氨酸蛋白酶、半胱氨酸蛋白酶、苏氨酸蛋白酶、天冬氨酸蛋白酶、谷氨酸蛋白酶、金属蛋白酶和天冬酰胺肽裂合酶中的至少一种。240.根据上述实施方案中任一项如实施方案214的试剂盒,其进一步包含用于去除包埋材料的溶剂。241.根据上述实施方案中任一项如实施方案240的试剂盒,其中所述溶剂包括二甲苯、苯和甲苯中的至少一种。
以下实施例旨在说明而非限制本公开内容。虽然它们是可能使用的那些中的典型,但是可以替代地使用本领域技术人员已知的其他程序。
实施例
实施例1.从FFPE样品生成读取对文库
AJ GIAB(‘瓶中的基因组’)样品GM24149(父亲)和GM24385(儿子)是从HorizonDiscovery采购的。细胞系先前已在FFPE中包埋。在该实验中使用约15-20微米厚的切片,每个切片含有约3x105个细胞。用二甲苯洗涤切片以除去石蜡。通过用乙醇洗涤切片除去二甲苯。随后将释放的组织样品重新悬浮在去污剂缓冲液中。随后对含有核酸的样品进行末端连接,其包括用限制酶(在该实施例中为MboI)消化DNA,然后用生物素化的核苷酸补平所得的突出端。将平端连接在一起,然后释放连接的末端。获得生物素化的片段并进行末端测序,并且获取读取对以指示每个定位的叠连群在该样品中的共同核酸分子上物理连锁。
进行测序以通过比较分离的序列与基因组装配体的位置来确定回收的片段的配对末端之间的距离。结果显示,FFPE-Chicago方法(表1-GIAB列)导致长距离读取对频率相当于(>200kbp插入片段)或大于(100kbp–200kbp插入片段)对非FFPE样品进行的Chicago方法(表1–Chicago列)。还分析了这些数据以确定FFPE-Chicago文库的复杂性和原始测序覆盖度(表2)。文库的复杂性是指文库中不同分子的多样性。
表1.插入片段长度频率
GIAB CHICAGO CHICAGO
0<插入片段<=2kbp 48.078% 20.731% 9.92%
2kbp<插入片段<=10kbp 0.458% 6.045% 1.811%
10kbp<插入片段<=100kbp 0.553% 5.356% 1.884%
100kbp<插入片段<=200kbp 0.171% 0.022% 0.044%
200kbp<插入片段 1.49% 1.828% 1.499%
表2.复杂性和原始物理覆盖度
FFPE CHICAGO
文库复杂性(泊松分布) 229,196,982 1,013,303,912
放大到150M读取对的原始物理覆盖度 5.622X 66.343X
实施例2.从FFPE-Chicago文库确定相位
使用实施例1中生成的测序数据来确定已知在起始GIAB样品中的多组SNP的定相信息。换句话说,使用测序数据来确定相同或不同DNA分子上是否存在多组SNP。然后将这些数据与GIAB样品的已知序列进行比较,以确定相位判定的准确性。
表3中的每个箱元示出了找到的SNP的数目,并且它们是一致的,直到下一个箱元的大小为止。例如,第一行显示在0-10,000之间,发现了132796个SNP,并且99.059%处于正确的相位。可以看到高一致性(>95%),直到大约1.5MB(除了70-80kb箱元(其错失了13个中的1个)和1.1-1.3MB箱元(其错失了15个中的2个))。在1.7-1.9MB范围内,7个SNP对相位中的7个被正确判定。
从这些数据可以得出以下结论:尽管伪连接水平低,但使用FFPE-Chicago方法确定适当的长范围信息,甚至达到兆碱基范围。重要的是,这些“一致性”预测率为95%或更高,显著高于随机机会预期的95%成功率。
表3.每个箱元中的SNP
Figure BDA0001945071990000931
Figure BDA0001945071990000941
实施例3.改善DNA提取
将去污剂缓冲液从含有SDS的缓冲液改变为含有triton X的缓冲液,并且实施例1中描述的沉淀物的可视化导致DNA提取增加。随后的文库分析显示,与实施例1和2中描述的文库相比,该文库具有增加的复杂性,同时保持高水平的长读取。结果如表4所示。
从如实施例1中所述处理的GIAB样品收集人样品1数据(在FFPE样品上进行平端连接)。来自该样品的所有DNA用于文库制备。
从如实施例1中所述处理的第二GIAB样品收集人样品2数据(在FFPE样品上进行平端连接)。来自该样品的所有DNA用于文库制备。
从如实施例1中所述处理的第三GIAB样品收集人样品3数据(在FFPE样品上进行平端连接)。来自该样品的大约500ng DNA用于文库制备。
从如实施例1中所述处理的第三GIAB样品(与人样品3相同的样品)收集人样品4数据(在FFPE样品上进行平端连接)。来自该样品的大约50ng DNA用于文库制备。
从如实施例1中所述处理的第三GIAB样品(与人样品3和4相同的样品)收集人样品5数据(在FFPE样品上进行平端连接)。来自该样品的大约10ng DNA用于文库制备。
表4.改善的DNA提取的结果
Figure BDA0001945071990000942
Figure BDA0001945071990000951
Figure BDA0001945071990000961
实施例4.从FFPE样品提取DNA失败
对癌症患者的BA肿瘤样品进行活检,并在石蜡包埋之前用福尔马林固定。随后储存FFPE样品。六个月后,患者进入临床研究,目的是在用新化合物治疗的同时追踪肿瘤进展。在治疗期间,每隔几周制备FFPE肿瘤活检样品并储存。患者对治疗反应极好,临床团队对了解患者特定癌症亚型的更多信息感兴趣。为了确定研究的每个阶段肿瘤中存在的结构变异,临床团队试图从FFPE肿瘤样品中提取DNA。不幸的是,回收的DNA是高度片段化的,并且仅回收了短片段读取。这些短片段读取不足以确定结构变异,因此丢失了关键的临床信息。
实施例5.来自FFPE样品中的天然染色质的成功的长距离数据
以温和的方式处理来自实施例4的FFPE肿瘤样品以保持天然DNA-蛋白质复合物。DNA提取通过以下步骤进行:用二甲苯洗涤FFPE样品以除去石蜡。通过用乙醇洗涤除去二甲苯。随后将样品重新悬浮在去污剂缓冲液中,然后进行Hi-C处理。消化从FFPR样品中分离的固定的DNA蛋白质复合物以产生粘性突出端,用生物素标记的核苷酸补平该粘性突出端。将得到的平端连接在一起以生成源自相同DNA蛋白质复合物的DNA序列的配对末端。通过DNA剪切从DNA蛋白质复合物中释放配对末端并使用链霉亲和素珠子分离。将回收的配对末端连接至测序衔接子并进行测序以生成读取对文库。
临床团队能够分析所述读取对文库以确定患者肿瘤(包括在研究前六个月采集的样品)随时间的结构变化。这些数据用于确定癌症的亚型,并且用于告知具有相同癌症亚型的其他患者的治疗预后。
实施例6.来自FFPE样品的重构染色质的成功的长距离数据
如实施例5中所述从FFPE样品中提取DNA。分离裸DNA并大小选择长度超过50kb的片段。重构的染色质通过以下步骤生成:将大小选择的DNA与纯化的染色质蛋白质结合,使得每个DNA蛋白质复合物包含单个DNA分子。然后使用甲醛交联这些DNA蛋白质。然后将交联的复合物消化并对其进行处理,以从源自相同DNA分子的DNA序列生成配对末端。对配对末端进行测序以生成读取对文库。来自该读取对文库的数据揭示了用来确定可用于表征上述患者的肿瘤样品的定相和结构变异信息的长距离序列信息。
实施例7.从FFPE样品确定基因组异质性
在研究中使用来自实施例4的FFPE样品以确定肿瘤的不同区域中的基因组异质性。从FFPE肿瘤样品的不同区段采集钻取活检物,然后如实施例5中所述进行处理。所生成的数据用于确定肿瘤的生长边缘,并且了解由于用实施例5中所述的新化合物处理,突变和结构变异如何在肿瘤生长或消退期间进展和累积或消失。
实施例8.FFPE的溶解和样品裂解
将1毫升二甲苯添加至FFPE样品中并涡旋直至石蜡溶解。将样品以14,000转/分钟离心2分钟。轻轻除去二甲苯。添加1毫升100%乙醇,涡旋该样品以使细胞沉淀物从管内壁脱离。将样品以最大速度再次离心2分钟,然后除去乙醇。使沉淀物风干。一旦沉淀物完全干燥,将50微升的裂解缓冲液(50mM Tris pH 8、50mM NaCl、1%SDS、0.15%Triton、1mMEDTA)添加到样品中。在轻轻摇动的同时,将样品在37℃下温育15分钟。随后将整个样品转移到1.5mL管中。重复移取样品以破碎细胞沉淀物。然后以2:1的SPRI珠子:可溶性染色质比率将100μL SPRI(固相可逆固定化)珠子添加至样品中,随后在室温下温育10分钟。随后将SPRI珠子洗涤两次。然后将SPRI-珠子分离的样品用于下游技术,如Chicago或Hi-C。
实施例9:FFPE样品保留长范围基因组连锁信息
根据本公开的方法获得并处理FFPE样品以提取基因组连锁数据。图11A示出了三个样品的分析结果。获得人细胞培养物(红色,1103)和脾组织(绿色,1102)FFPE样品,并根据本公开内容的方法处理以提取基因组连锁数据。将配对末端映射到hg19参考,并计算每个读取对的读取之间的物理距离。将这些数据与采用Hi-C方法使用细胞培养物样品(蓝色,1101)制备的数据进行比较。x轴显示根据读取之间的物理距离(Mb)分箱的读取对(轴上的数字从左到右为0.01、0.1、1、10和100)。y轴显示读取对的分数(轴上的数字从上到下为0.01、0001、10-4、10-5、10-6、10-7、10-8、10-9、10-10、10-11和10-12)。
实施例10:为了提取长范围基因组连锁信息而处理的FFPE样品中的SNP一致性
图11B显示了Ashkenazi父亲(GM24149)细胞培养物的分析结果。根据本公开内容的方法处理FFPE样品以生成长范围基因组连锁数据。过滤这些数据以获得两个配对末端读取中存在的高置信度SNP。基于两个读取之间的物理距离(x轴)将该过滤的数据集组织成箱元,并且针对每个箱元(y轴)计算一致的SNP对的百分比。上面的红线(1111)显示一致的SNP,下面的蓝线(1112)显示随机的一致性以供参考。
实施例11:FFPE样品保留了允许结构变异(SV)鉴定的长范围基因组连锁信息
还从Ashkenazi父亲(GM24149)细胞培养物FFPE样品中提取数据,并通过相对于hg19参考映射读取对来分析结构变体的存在。将配对读取的中点绘制在x轴上,并且在图11C和图11D的y轴上绘制相应的物理间隔。映射质量评分由每个数据点的灰度显示,如图例中所示。
图11C显示基于具有与缺失的基因组区段相对应的中点的读取对的低密度,~100Kb1号染色体明显缺失。
图11D显示基于星号下方的高于预期的读取密度,~4Mb 8号染色体倒位是明显的。倒位的侧翼通常是重复区域,通常产生低映射质量评分。
实施例12.样品采集、后续分析和治疗选择
患者接受手术以移取组织。在无菌环境中切下组织并放置在福尔马林中。根据收集,不进行组织的均质化。
保存组织并监测患者。观察到患者在切除部位再次生长。在实验室环境中对组织进行分析,包括从包括保存的组织的内部和周界在内的位置切除核酸蛋白质复合物。
从获自保存的组织的核酸蛋白质复合物获得基因组信息。从周界组织鉴定基因组重排,该周界组织指示与肿瘤转移有关的特定基因组构型。
基于相对于与肿瘤转移有关的基因组构型的已知功效选择化学治疗。对患者进行化疗,观察到肿瘤停止再生长。
实施例13.药物试验重新评估
对具有共同肿瘤类型的个体进行药物试验。与药物试验同时采集肿瘤样品。一部分受治疗的个体对治疗有积极的反应,但是没有观察到该治疗在总体上具有足以确保药物开发的功效。
对处理过的群体的样品进行鸟枪法基因组测序。获得了短读取序列信息,但没有获得实质的基因组结构信息。未观察到单个序列信息如单核苷酸多态性信息与治疗功效相关。
经过相当长的一段时间后,重新评估样品。对样品进行核酸蛋白质复合物切除,以保持复杂的完整性,并进行如本文所公开的分析。
分离复合物,并连接暴露的核酸末端以形成配对末端片段。使用在连接位点引入的生物素化碱基分离配对末端片段。
对读取对进行测序以获得连接接头任一侧的序列信息。分析读取对信息,并观察到样品的子集包含从鸟枪法测序分析中无法明显看出的基因组重排。
根据基因组结构信息重新评估药物反应,并且观察到特定的重排与治疗功效相关。与治疗功效相关的基因组重排被开发为用来鉴定应答者的标志物,并且该药物与对于该标志物的检测相组合使用以治疗该病症。
实施例14.无序列重排检测
从多个保存的样品生成配对末端文库。使用引物探测该文库,所述引物与已知在与癌症有关的基因组易位期间进入相位的基因组区域退火。
观察到该文库产生扩增子,这指示对于样品子集具有更高频率的易位区段之间的物理连锁。对产生扩增子的文库进行测序和配对末端分析,发现它们独立地带有疑似与癌症有关的易位。易位是不相同的,并且在易位区段的方向和接近位置上不同,使得基因组的直接PCR分析不可能检测到大部分易位。然而,通过生成连接的配对末端文库,寡核苷酸引物可有效地探测样品中是否存在易位。该方法允许人们从样品子集中选择文库以进行下游序列分析,从而保存资源。

Claims (37)

1.一种从保存的样品获得基因组结构信息的方法,其包括:
从受试者获得保存的样品,所述样品包含蛋白质DNA复合物;
用蛋白酶在不高于40℃的温度下处理所述保存的样品以分离核酸,以使得蛋白质DNA复合物不被破坏,使得第一区段和第二区段不依赖于磷酸二酯骨架而保持在一起,并且使得所述第一区段和所述第二区段均具有至少一个暴露的核酸末端;以及
通过分析所述样品中的所述蛋白质DNA复合物的核酸来得出基因组结构信息,
其中所述保存的样品是福尔马林固定、石蜡包埋的(FFPE)样品。
2.根据权利要求1所述的方法,其中所述保存的样品是交联的。
3.根据权利要求2所述的方法,其中使用甲醛、福尔马林、紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)和环磷酰胺中的至少一种交联所述保存的样品。
4.根据权利要求2所述的方法,其中使用福尔马林交联所述保存的样品。
5.根据权利要求1所述的方法,其中所述保存的样品保持有关其内部核酸的位置信息。
6.根据权利要求1所述的方法,其中所述基因组结构信息指示相对于参考基因组的倒位、插入、缺失和易位中的至少一种。
7.根据权利要求6所述的方法,其中所述参考基因组是所述受试者共同物种的野生型基因组。
8.根据权利要求1所述的方法,其包括得出指示所述核酸的所述第一区段和所述第二区段的相位状态的信息。
9.根据权利要求1所述的方法,其包括标记所述第一区段的所述暴露的核酸末端以及所述第二区段的所述暴露的核酸末端以便传递物理连锁信息。
10.根据权利要求9所述的方法,其中所述标记包括将寡核苷酸连接至所述保存的样品的所述第一区段的所述暴露的末端,以使得所述寡核苷酸传递指示结构信息的信息。
11.根据权利要求10所述的方法,其中所述寡核苷酸包含对复合物具有特异性的碱基序列。
12.根据权利要求9所述的方法,其中所述标记包括将所述第一区段的暴露的末端连接至所述第二区段的暴露的末端以形成配对末端分子。
13.根据权利要求12所述的方法,其包括对所述第一区段的一部分和所述第二区段的一部分进行测序。
14.根据权利要求12所述的方法,其包括使所述配对末端核酸分子与一组核酸探针接触。
15.根据权利要求14所述的方法,其中所述一组核酸探针是荧光探针。
16.根据权利要求14所述的方法,其中所述一组核酸探针与参与基因组结构重排的第一基因座和第二基因座退火。
17.根据权利要求16所述的方法,其中所述第一基因座和所述第二基因座在不受基因组结构重排影响的基因组中不相邻。
18.根据权利要求16所述的方法,其中所述第一基因座和所述第二基因座在不受基因组结构重排影响的基因组中相邻。
19.根据权利要求14-18中任一项所述的方法,其包括当接触所述一组核酸探针指示重排时对所述样品的核酸进行测序。
20.根据权利要求12所述的方法,其包括使所述配对末端核酸分子与一组核酸引物接触。
21.根据权利要求20所述的方法,其中所述一组核酸引物与参与基因组结构重排的第一基因座和第二基因座退火。
22.根据权利要求21所述的方法,其中当所述第一基因座和所述第二基因座形成连接的配对末端分子时,所述一组核酸引物在核酸扩增反应中产生扩增子。
23.根据权利要求21所述的方法,其中当所述第一基因座和所述第二基因座不形成连接的配对末端分子时,所述一组核酸引物在核酸扩增反应中不产生扩增子。
24.根据权利要求20所述的方法,其包括当从与所述配对末端核酸分子接触的所述一组核酸引物生成扩增子时对所述样品的核酸进行测序。
25.根据权利要求1所述的方法,其中通过使所述保存的样品与二甲苯接触来处理所述保存的样品。
26.根据权利要求1所述的方法,其中通过使所述保存的样品与乙醇接触来处理所述保存的样品。
27.根据权利要求1所述的方法,其中通过使所述保存的样品与邻氨基苯甲酸盐和对氨基苯膦酸盐中的至少一种接触来处理所述保存的样品。
28.根据权利要求1所述的方法,其中所述蛋白质DNA复合物包括染色质。
29.根据权利要求1所述的方法,其中所述保存的样品保留反映其在组织中的构型的位置信息。
30.根据权利要求1所述的方法,其中在分离核酸之前,所述保存的样品未被均质化。
31.根据权利要求1所述的方法,其中在分离核酸之前,将所述保存的样品储存至少一周。
32.根据权利要求1所述的方法,其中在分离核酸之前,将所述保存的样品储存至少6个月。
33.根据权利要求1所述的方法,其中在分离核酸之前,从收集点运送所述保存的样品。
34.根据权利要求1所述的方法,其中在无菌环境中收集所述保存的样品。
35.根据权利要求1所述的方法,其中在分离核酸之前,将所述保存的样品置于非无菌环境中。
36.根据权利要求1所述的方法,其中所述蛋白酶包括蛋白酶K。
37.根据权利要求1所述的方法,其中用所述蛋白酶处理所述保存的样品不超过1小时。
CN201780043800.3A 2016-05-13 2017-05-12 从保存的样品中回收长范围连锁信息 Active CN109477101B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662336252P 2016-05-13 2016-05-13
US62/336,252 2016-05-13
US201662410599P 2016-10-20 2016-10-20
US62/410,599 2016-10-20
PCT/US2017/032466 WO2017197300A1 (en) 2016-05-13 2017-05-12 Recovering long-range linkage information from preserved samples

Publications (2)

Publication Number Publication Date
CN109477101A CN109477101A (zh) 2019-03-15
CN109477101B true CN109477101B (zh) 2022-11-18

Family

ID=60266720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780043800.3A Active CN109477101B (zh) 2016-05-13 2017-05-12 从保存的样品中回收长范围连锁信息

Country Status (11)

Country Link
US (2) US10947579B2 (zh)
EP (2) EP3455356B1 (zh)
JP (2) JP2019522487A (zh)
KR (1) KR102412442B1 (zh)
CN (1) CN109477101B (zh)
AU (1) AU2017263810B2 (zh)
CA (1) CA3023990A1 (zh)
DK (1) DK3455356T3 (zh)
IL (1) IL262946B2 (zh)
SG (1) SG11201810088SA (zh)
WO (1) WO2017197300A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10526641B2 (en) * 2014-08-01 2020-01-07 Dovetail Genomics, Llc Tagging nucleic acids for sequence assembly
WO2016154540A1 (en) 2015-03-26 2016-09-29 Dovetail Genomics Llc Physical linkage preservation in dna storage
US10975417B2 (en) * 2016-02-23 2021-04-13 Dovetail Genomics, Llc Generation of phased read-sets for genome assembly and haplotype phasing
JP2019522487A (ja) * 2016-05-13 2019-08-15 ダブテイル ゲノミクス エルエルシー 保存されたサンプルからの長距離連鎖情報の回復
CN111655848A (zh) 2017-11-21 2020-09-11 阿瑞玛基因组学公司 在核酸模板中保留空间邻位邻接性和分子邻接性
CN113272441A (zh) * 2018-11-20 2021-08-17 阿瑞玛基因组学公司 保留空间邻近连续性信息的制备核酸的方法和组合物
JP2022541387A (ja) * 2019-06-27 2022-09-26 ダブテイル ゲノミクス エルエルシー 近接ライゲーションのための方法および組成物
EP4058573A4 (en) * 2019-11-15 2023-12-27 Phase Genomics Inc. CAPTURING CHROMOSOME CONFORMATION FROM TISSUE SAMPLES
IL294909A (en) 2020-02-13 2022-09-01 Zymergen Inc A metagenomic library and natural product discovery platform

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104232616A (zh) * 2013-06-06 2014-12-24 芮宝生医股份有限公司 福尔马林固定石蜡包埋样本核酸萃取方法
CN105121661A (zh) * 2013-02-01 2015-12-02 加利福尼亚大学董事会 用于基因组组装及单体型定相的方法

Family Cites Families (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL154598B (nl) 1970-11-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking.
US3817837A (en) 1971-05-14 1974-06-18 Syva Corp Enzyme amplification assay
US3939350A (en) 1974-04-29 1976-02-17 Board Of Trustees Of The Leland Stanford Junior University Fluorescent immunoassay employing total reflection for activation
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4275149A (en) 1978-11-24 1981-06-23 Syva Company Macromolecular environment control in specific receptor assays
US4277437A (en) 1978-04-05 1981-07-07 Syva Company Kit for carrying out chemically induced fluorescence immunoassay
US4366241A (en) 1980-08-07 1982-12-28 Syva Company Concentrating zone method in heterogeneous immunoassays
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5234809A (en) 1989-03-23 1993-08-10 Akzo N.V. Process for isolating nucleic acid
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
CA2097708A1 (en) 1990-12-06 1992-06-07 Stephen P. A. Fodor Very large scale immobilized polymer synthesis
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
ATE241426T1 (de) 1991-11-22 2003-06-15 Affymetrix Inc A Delaware Corp Verfahren zur herstellung von polymerarrays
US6033854A (en) 1991-12-16 2000-03-07 Biotronics Corporation Quantitative PCR using blocking oligonucleotides
US5348853A (en) 1991-12-16 1994-09-20 Biotronics Corporation Method for reducing non-specific priming in DNA amplification
US5567583A (en) 1991-12-16 1996-10-22 Biotronics Corporation Methods for reducing non-specific priming in DNA detection
ATE246702T1 (de) 1993-04-12 2003-08-15 Univ Northwestern Verfahren zur darstellung von oligonukleotiden
WO1995011995A1 (en) 1993-10-26 1995-05-04 Affymax Technologies N.V. Arrays of nucleic acid probes on biological chips
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
US6632598B1 (en) * 1994-03-11 2003-10-14 Biogenex Laboratories Deparaffinization compositions and methods for their use
US6110709A (en) 1994-03-18 2000-08-29 The General Hospital Corporation Cleaved amplified modified polymorphic sequence detection methods
US5571639A (en) 1994-05-24 1996-11-05 Affymax Technologies N.V. Computer-aided engineering system for design of sequence arrays and lithographic masks
US5705628A (en) 1994-09-20 1998-01-06 Whitehead Institute For Biomedical Research DNA purification and isolation using magnetic particles
US5795716A (en) 1994-10-21 1998-08-18 Chee; Mark S. Computer-aided visualization and analysis system for sequence evaluation
US5599695A (en) 1995-02-27 1997-02-04 Affymetrix, Inc. Printing molecular library arrays using deprotection agents solely in the vapor phase
US5780613A (en) 1995-08-01 1998-07-14 Northwestern University Covalent lock for self-assembled oligonucleotide constructs
WO1997029212A1 (en) 1996-02-08 1997-08-14 Affymetrix, Inc. Chip-based speciation and phenotypic characterization of microorganisms
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
CA2257109C (en) 1996-06-04 2009-10-06 University Of Utah Research Foundation Monitoring hybridization during pcr
US6117635A (en) 1996-07-16 2000-09-12 Intergen Company Nucleic acid amplification oligonucleotides with molecular energy transfer labels and methods based thereon
US6449562B1 (en) 1996-10-10 2002-09-10 Luminex Corporation Multiplexed analysis of clinical specimens apparatus and method
WO1998041651A1 (en) 1997-03-18 1998-09-24 Hsc Research & Development Limited Partnership Method for preparing chromatin
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
EP2034031A1 (en) 1997-10-28 2009-03-11 Los Alamos National Security, LLC DNA polymorphism identity determination using flow cytometry
US5989823A (en) 1998-09-18 1999-11-23 Nexstar Pharmaceuticals, Inc. Homogeneous detection of a target through nucleic acid ligand-ligand beacon interaction
GB9812768D0 (en) 1998-06-13 1998-08-12 Zeneca Ltd Methods
US20040106110A1 (en) 1998-07-30 2004-06-03 Solexa, Ltd. Preparation of polynucleotide arrays
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
CA2340361A1 (en) 1998-08-21 2000-03-16 Peter C. Cheng Assays using crosslinkable immobilized nucleic acids
DK1137812T3 (da) 1998-12-02 2007-05-21 Adnexus Therapeutics Inc DNA-proteinfusioner og anvendelser deraf
US8367322B2 (en) 1999-01-06 2013-02-05 Cornell Research Foundation, Inc. Accelerating identification of single nucleotide polymorphisms and alignment of clones in genomic sequencing
US6994969B1 (en) 1999-04-30 2006-02-07 Methexis Genomics, N.V. Diagnostic sequencing by a combination of specific cleavage and mass spectrometry
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US6225109B1 (en) 1999-05-27 2001-05-01 Orchid Biosciences, Inc. Genetic analysis device
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
WO2001023610A2 (en) 1999-09-29 2001-04-05 Solexa Ltd. Polynucleotide sequencing
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
US6448717B1 (en) 2000-07-17 2002-09-10 Micron Technology, Inc. Method and apparatuses for providing uniform electron beams from field emission displays
WO2002027029A2 (en) 2000-09-27 2002-04-04 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
US7001724B1 (en) 2000-11-28 2006-02-21 Applera Corporation Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases
DE10120797B4 (de) 2001-04-27 2005-12-22 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäureketten
CA2460679A1 (en) 2001-05-11 2003-11-20 Michael Mcarthur Dna microarrays comprising active chromatin elements and comprehensive profiling therewith
GB0114853D0 (en) 2001-06-18 2001-08-08 Medical Res Council Happier Mapping
WO2003020968A2 (de) 2001-08-29 2003-03-13 Genovoxx Gmbh Verfahren zur analyse von nukleinsäurekettensequenzen und der genexpression
DE10246005A1 (de) 2001-10-04 2003-04-30 Genovoxx Gmbh Gerät zur Sequenzierung von Nukleinsäuremolekülen
DE10149786B4 (de) 2001-10-09 2013-04-25 Dmitry Cherkasov Oberfläche für Untersuchungen aus Populationen von Einzelmolekülen
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
EP1497455A4 (en) 2001-11-09 2005-12-28 Aclara Biosciences Inc DETECTION OF NUCLEIC ACID SEQUENCES BY CLEAVAGE AND SEPARATION OF MARKED STRUCTURES
US20050130161A1 (en) 2002-03-08 2005-06-16 Peter Fraser Tagging and recovery of elements associated with target molecules
US20030228627A1 (en) 2002-03-22 2003-12-11 Emerson Beverly M. Assay for p53 function in cells
DE10214395A1 (de) 2002-03-30 2003-10-23 Dmitri Tcherkassov Verfahren zur Analyse von Einzelnukleotidpolymorphismen
KR101038137B1 (ko) 2002-06-28 2011-05-31 프리메라디엑스, 인크. 서열 차이를 감지하는 방법
US7563600B2 (en) 2002-09-12 2009-07-21 Combimatrix Corporation Microarray synthesis and assembly of gene-length polynucleotides
US7414117B2 (en) 2002-12-26 2008-08-19 Ngk Insulators, Ltd. Nucleotide derivative and DNA microarray
JP4480715B2 (ja) 2003-01-29 2010-06-16 454 コーポレーション 二重末端シーケンシング
US20040197779A1 (en) 2003-04-03 2004-10-07 Apffel James Alexander Methods for analyzing mixtures of proteins
US8741577B2 (en) 2003-04-07 2014-06-03 Bio-Rad Laboratories Inc. Surface immobilised multilayer structure of vesicles
FI20030778A0 (fi) 2003-05-22 2003-05-22 Licentia Oy Taudin määrittäminen tai ennustaminen
WO2005001113A2 (en) 2003-06-27 2005-01-06 Thomas Jefferson University Methods for detecting nucleic acid variations
PT1639122E (pt) 2003-07-02 2009-04-09 Dsm Ip Assets Bv Sistema de teste aperfeiçoado para determinar a presença de um antibiótico num fluido
GB0316075D0 (en) 2003-07-09 2003-08-13 Molecular Sensing Plc Protease detection assay
US8637650B2 (en) 2003-11-05 2014-01-28 Genovoxx Gmbh Macromolecular nucleotide compounds and methods for using the same
DE10356837A1 (de) 2003-12-05 2005-06-30 Dmitry Cherkasov Modifizierte Nukleotide und Nukleoside
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
DE102004009704A1 (de) 2004-02-27 2005-09-15 Dmitry Cherkasov Makromolekulare Nukleotidverbindungen und Methoden zu deren Anwendung
US20050260624A1 (en) 2004-02-28 2005-11-24 Wang Chang N J Novel nucleic acid complexes and detection thereof
DE102004025745A1 (de) 2004-05-26 2005-12-15 Cherkasov, Dmitry Oberfläche für die Analysen an einzelnen Molekülen
DE102004025696A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zu hochparallelen Analysen von Nukleinsäureketten
DE102004025744A1 (de) 2004-05-26 2005-12-29 Dmitry Cherkasov Oberfläche für die Analysen an einzelnen Nukleinsäuremolekülen
DE102004025694A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zu hochparallelen Analysen von Nukleinsäureketten
DE102004025695A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zur parallelen Sequenzierung von Nukleinsäureketten
DE102004025746A1 (de) 2004-05-26 2005-12-15 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zur hochparallelen Sequenzierung von Nukleinsäureketten
US20060024711A1 (en) 2004-07-02 2006-02-02 Helicos Biosciences Corporation Methods for nucleic acid amplification and sequence determination
US7361468B2 (en) 2004-07-02 2008-04-22 Affymetrix, Inc. Methods for genotyping polymorphisms in humans
US20060012793A1 (en) 2004-07-19 2006-01-19 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060024678A1 (en) 2004-07-28 2006-02-02 Helicos Biosciences Corporation Use of single-stranded nucleic acid binding proteins in sequencing
GB0422730D0 (en) 2004-10-13 2004-11-17 Lingvitae As Method
JP2008527330A (ja) * 2004-12-30 2008-07-24 ベンタナ・メデイカル・システムズ・インコーポレーテツド 低温の脱パラフィン処理
EP1885876A2 (de) 2005-03-17 2008-02-13 Genovoxx GmbH Makromolekulare nukleotidverbindungen und methoden zu deren anwendung
US7425415B2 (en) 2005-04-06 2008-09-16 City Of Hope Method for detecting methylated CpG islands
JP2006301289A (ja) 2005-04-20 2006-11-02 Tokyo Ohka Kogyo Co Ltd ネガ型レジスト組成物およびレジストパターン形成方法
US20090233291A1 (en) * 2005-06-06 2009-09-17 454 Life Sciences Corporation Paired end sequencing
WO2006138257A2 (en) 2005-06-15 2006-12-28 Callida Genomics, Inc. Single molecule arrays for genetic and chemical analysis
US20090264299A1 (en) * 2006-02-24 2009-10-22 Complete Genomics, Inc. High throughput genome sequencing on DNA arrays
KR101383593B1 (ko) 2005-07-04 2014-04-09 에라스무스 유니버시티 메디칼 센터 염색체 입체형태 칩-상-포착(4c) 에세이
DE102005060738A1 (de) * 2005-12-16 2007-06-21 Qiagen Gmbh Verfahren zur Extraktion von Biomolekülen aus fixierten Geweben
US20110027890A1 (en) 2005-12-26 2011-02-03 Kuraray Co., Ltd. Material for cell culture
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
GB0603251D0 (en) 2006-02-17 2006-03-29 Isis Innovation DNA conformation
US8071296B2 (en) 2006-03-13 2011-12-06 Agency For Science, Technology And Research Nucleic acid interaction analysis
WO2007136874A2 (en) 2006-05-18 2007-11-29 President And Fellows Of Harvard College Genomic library construction
CA2661640A1 (en) 2006-08-24 2008-02-28 University Of Massachusetts Medical School Mapping of genomic interactions
MX2009003687A (es) 2006-10-04 2009-08-25 Brookhaven Science Ass Llc Conjuntos de nanoparticulas guiados por adn.
US8278112B2 (en) 2006-12-21 2012-10-02 The Regents Of The University Of California Site-specific installation of methyl-lysine analogues into recombinant histones
CN101688237A (zh) 2007-01-11 2010-03-31 伊拉兹马斯大学医疗中心 环状染色体构象捕获(4c)
WO2008097887A2 (en) 2007-02-02 2008-08-14 Emory University Methods of direct genomic selection using high density oligonucleotide microarrays
US9096906B2 (en) * 2007-03-27 2015-08-04 Rosetta Genomics Ltd. Gene expression signature for classification of tissue of origin of tumor samples
AU2008254986A1 (en) 2007-05-14 2008-11-27 Insight Genetics, Inc. Methods of screening nucleic acids for single nucleotide variations
US8951731B2 (en) 2007-10-15 2015-02-10 Complete Genomics, Inc. Sequence analysis using decorated nucleic acids
EP2053132A1 (en) 2007-10-23 2009-04-29 Roche Diagnostics GmbH Enrichment and sequence analysis of geomic regions
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
WO2009078386A1 (ja) * 2007-12-14 2009-06-25 Chugai Seiyaku Kabushiki Kaisha 組織形態保持および核酸品質保持に優れた新規標本作製法
US8263367B2 (en) 2008-01-25 2012-09-11 Agency For Science, Technology And Research Nucleic acid interaction analysis
US20090269771A1 (en) 2008-04-24 2009-10-29 Life Technologies Corporation Method of sequencing and mapping target nucleic acids
US20090298064A1 (en) 2008-05-29 2009-12-03 Serafim Batzoglou Genomic Sequencing
GB0810051D0 (en) 2008-06-02 2008-07-09 Oxford Biodynamics Ltd Method of diagnosis
US8076070B2 (en) 2008-08-06 2011-12-13 University Of Southern California Genome-wide chromosome conformation capture
US9434985B2 (en) 2008-09-25 2016-09-06 University Of Massachusetts Methods of identifying interactions between genomic loci
EP2370594B1 (en) 2008-11-18 2014-01-08 BioNano Genomics, Inc. Polynucleotide mapping and sequencing
WO2010091060A1 (en) 2009-02-03 2010-08-12 New England Biolabs, Inc. Generation of random double strand breaks in dna using enzymes
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
CN102858995B (zh) 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
WO2011056872A2 (en) 2009-11-03 2011-05-12 Gen9, Inc. Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly
CA2790941C (en) * 2010-02-26 2018-10-23 Qiagen Gmbh Method for isolating rna from a rna and dna containing sample
US20110287947A1 (en) 2010-05-18 2011-11-24 University Of Southern California Tethered Conformation Capture
RS57295B1 (sr) 2010-07-09 2018-08-31 Cergentis B V 3-d strategije sekvenciranja genomskog regiona od interesa
WO2012047726A1 (en) 2010-09-29 2012-04-12 The Broad Institute, Inc. Methods for chromatin immuno-precipitations
US9562897B2 (en) 2010-09-30 2017-02-07 Raindance Technologies, Inc. Sandwich assays in droplets
US20120197533A1 (en) 2010-10-11 2012-08-02 Complete Genomics, Inc. Identifying rearrangements in a sequenced genome
ES2688458T5 (es) 2010-10-22 2022-04-13 Cold Spring Harbor Laboratory Recuento varietal de ácidos nucleicos para obtener información del número de copias genómicas
WO2012083225A2 (en) 2010-12-16 2012-06-21 Gigagen, Inc. System and methods for massively parallel analysis of nycleic acids in single cells
WO2012103442A2 (en) * 2011-01-28 2012-08-02 The Broad Institute, Inc. Paired end bead amplification and high throughput sequencing
EP2670894B1 (en) 2011-02-02 2017-11-29 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
US20140141442A1 (en) 2011-04-05 2014-05-22 Institut National De La Sante Et De La Recherche Medicale (Inserm) Linear dna amplification
WO2012142531A2 (en) 2011-04-14 2012-10-18 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
EP2710146A2 (en) 2011-05-18 2014-03-26 Life Technologies Corporation Chromosome conformation analysis
SG194745A1 (en) 2011-05-20 2013-12-30 Fluidigm Corp Nucleic acid encoding reactions
US20120330559A1 (en) 2011-06-21 2012-12-27 Life Technologies Corporation Systems and methods for hybrid assembly of nucleic acid sequences
WO2013078470A2 (en) 2011-11-22 2013-05-30 MOTIF, Active Multiplex isolation of protein-associated nucleic acids
EP2841601B1 (en) 2012-04-24 2019-03-06 Gen9, Inc. Methods for sorting nucleic acids and multiplexed preparative in vitro cloning
KR101974577B1 (ko) 2012-05-21 2019-05-02 삼성전자주식회사 나노입자 제작용 주형 및 이를 이용한 나노입자의 제조 방법
ES2675167T3 (es) 2012-07-13 2018-07-09 X-Chem, Inc. Bibliotecas codificadas por ADN que tienen enlaces oligonucleotídicos codificantes no legibles por polimerasas
WO2014047561A1 (en) 2012-09-21 2014-03-27 The Broad Institute Inc. Compositions and methods for labeling of agents
WO2014087137A1 (en) * 2012-12-07 2014-06-12 Sarissa Biomedical Limited Device including biosensor and holder
US9411930B2 (en) * 2013-02-01 2016-08-09 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
US10385401B2 (en) * 2013-11-21 2019-08-20 Assistance Publique Hopitaux De Paris Method for detecting chromosomal rearrangements
WO2015089243A1 (en) 2013-12-11 2015-06-18 The Regents For Of The University Of California Methods for labeling dna fragments to recontruct physical linkage and phase
US9822396B2 (en) 2014-02-13 2017-11-21 Bio-Rad Laboratories, Inc. Chromosome conformation capture in partitions
US10526641B2 (en) 2014-08-01 2020-01-07 Dovetail Genomics, Llc Tagging nucleic acids for sequence assembly
WO2016044313A1 (en) * 2014-09-16 2016-03-24 The Board Of Trustees Of The Leland Stanford Junior University Methods and compositions for the removal of aldehyde adducts and crosslinks from biomolecules
JP6443450B2 (ja) * 2014-09-19 2018-12-26 コニカミノルタ株式会社 画像処理装置、画像処理方法、及びプログラム
BR122021026779B1 (pt) * 2014-10-17 2023-12-19 Illumina Cambridge Limited Transposon de preservação de contiguidade
SG10202000731WA (en) 2015-02-17 2020-03-30 Dovetail Genomics Llc Nucleic acid sequence assembly
WO2016154540A1 (en) 2015-03-26 2016-09-29 Dovetail Genomics Llc Physical linkage preservation in dna storage
US11326159B2 (en) 2015-04-06 2022-05-10 The Regents Of The University Of California Methods and compositions for long-range haplotype phasing
US9658142B2 (en) * 2015-04-14 2017-05-23 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for extracting and collecting single cells from formalin-fixed paraffin embedded tissues
US11795496B2 (en) 2015-06-24 2023-10-24 Oxford BioDynamics PLC Epigenetic chromosome interactions
WO2017070123A1 (en) 2015-10-19 2017-04-27 Dovetail Genomics, Llc Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection
SG10202108763UA (en) * 2015-12-04 2021-09-29 10X Genomics Inc Methods and compositions for nucleic acid analysis
JP6965272B2 (ja) * 2016-04-22 2021-11-10 パーデュー・リサーチ・ファウンデーションPurdue Research Foundation 高スループット粒子捕捉および分析
JP2019522487A (ja) * 2016-05-13 2019-08-15 ダブテイル ゲノミクス エルエルシー 保存されたサンプルからの長距離連鎖情報の回復

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105121661A (zh) * 2013-02-01 2015-12-02 加利福尼亚大学董事会 用于基因组组装及单体型定相的方法
CN104232616A (zh) * 2013-06-06 2014-12-24 芮宝生医股份有限公司 福尔马林固定石蜡包埋样本核酸萃取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome;Erez Lieberman-Aiden等;《SCIENCE》;20091009;第326卷;摘要,图1 *
Erez Lieberman-Aiden等.Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome.《SCIENCE》.2009,第326卷摘要,图1. *

Also Published As

Publication number Publication date
JP2022095676A (ja) 2022-06-28
KR102412442B1 (ko) 2022-06-22
IL262946A (en) 2018-12-31
CA3023990A1 (en) 2017-11-16
JP2019522487A (ja) 2019-08-15
US20210371904A1 (en) 2021-12-02
AU2017263810A1 (en) 2018-12-20
KR20190037201A (ko) 2019-04-05
EP3954771A1 (en) 2022-02-16
IL262946B2 (en) 2023-03-01
SG11201810088SA (en) 2018-12-28
US10947579B2 (en) 2021-03-16
EP3455356A4 (en) 2019-11-27
WO2017197300A1 (en) 2017-11-16
AU2017263810B2 (en) 2023-08-17
DK3455356T3 (da) 2021-11-01
IL262946B (en) 2022-11-01
US20190032113A1 (en) 2019-01-31
EP3455356A1 (en) 2019-03-20
CN109477101A (zh) 2019-03-15
EP3455356B1 (en) 2021-08-04

Similar Documents

Publication Publication Date Title
CN109477101B (zh) 从保存的样品中回收长范围连锁信息
AU2020202992B2 (en) Methods for genome assembly and haplotype phasing
CN108368542B (zh) 用于基因组组装、单元型定相以及独立于靶标的核酸检测的方法
US20220112487A1 (en) Methods for labeling dna fragments to reconstruct physical linkage and phase
AU2015296029B2 (en) Tagging nucleic acids for sequence assembly
US20220267826A1 (en) Methods and compositions for proximity ligation
JP2018509928A (ja) 環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法
US20240084291A1 (en) Methods and compositions for sequencing library preparation
WO2023220142A1 (en) Methods and compositions for sequencing library preparation
CN117222737A (zh) 用于测序文库制备的方法和组合物

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant