CN107889508A - 使用环化的配对文库和鸟枪测序检测基因组变异的方法 - Google Patents

使用环化的配对文库和鸟枪测序检测基因组变异的方法 Download PDF

Info

Publication number
CN107889508A
CN107889508A CN201680027492.0A CN201680027492A CN107889508A CN 107889508 A CN107889508 A CN 107889508A CN 201680027492 A CN201680027492 A CN 201680027492A CN 107889508 A CN107889508 A CN 107889508A
Authority
CN
China
Prior art keywords
sequence
fragments
fragment
dna
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680027492.0A
Other languages
English (en)
Inventor
阮骏
阮一骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jackson Laboratory
Original Assignee
Jackson Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jackson Laboratory filed Critical Jackson Laboratory
Publication of CN107889508A publication Critical patent/CN107889508A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/30Characterised by physical treatment
    • C12Q2523/301Sonication
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/30Characterised by physical treatment
    • C12Q2523/303Applying a physical force on a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文描述的发明提供用于综合基因组分析的方法和系统,该综合基因组分析能够在单一测定中检测广范的基因组变异,包括单核苷酸多态性(SNP)、小插入缺失(indels)、串联碱基突变(TBM)、拷贝数变异(CNV)、结构变异(SV)及它们的组合。该方法采用具有连接的标签序列的环化基因组DNA片段,任选地通过用转座酶的标签化,通过鸟枪片段化的片段化和对配对片段和鸟枪片段两者的测序,及基于鸟枪和配对片段两者测定基因组变异。本发明可用于例如分析疾病和病症中的复杂的基础基因组缺陷,该疾病和病症例如自闭症谱系障碍(ASD)、癌症、阿尔茨海默病和其他神经障碍。

Description

使用环化的配对文库和鸟枪测序检测基因组变异的方法
相关申请的参考
该国际专利申请要求2015年4月2日提交的美国临时专利 申请第62/142,088号的申请日的权益,其全部内容通过引用并入本文。
背景技术
已知遗传变异发生在人群中从单核苷酸置换到大规模结构 变异的所有水平上。许多基因组变异代表了多样的人类性状的正常表 型变化,而一些变异与疾病有关。然而,疾病相关遗传变异的检测和 表征在技术上是具有挑战性的,特别是在包括自闭症在内的复杂疾病 中。
自闭症谱系障碍(ASD)是神经发育疾病,其特征是交流和社 会互动中的困难或缺陷。根据CDC,ASD诊断率自2000年以来急剧 上升,从大约150名儿童中1名增加到2014年的68名儿童中1名。 诊断标准涵盖广泛的症状,包括行为和损伤的严重程度,且患者常常 被诊断为患有其他神经精神障碍,如癫痫。直到最近,几乎所有ASD 病例的基础疾病途径是未知的。
最近的研究表明,ASD和相关疾病可能与以大的染色体改 变或单核苷酸变体(SNV)形式的新生的或罕见的遗传变异相关(Carter 和Scherer,Clin.Gen.,83:399-407,2013;Jiang et al.,Am.J.Hum.Gen., 93:249-263,2013;Pinto et al.,Am.J.Hum.Gen.94:677-694,2014; Rosti et al.,Dev.Med.and Child Neurol.,56:12-18,2014)。目前的诊断 工具包括阵列比较基因组杂交(aCGH),其鉴定患者DNA中的拷贝数变异(CNV)-染色体缺失和重复。最近,已经开发了鉴定与ASD相关 的约50种不同基因中的特定单核苷酸变异(SNV)和小插入缺失(indels) 的测定法(基因小组测试)。
然而,aCGH和基因小组测试必须使用不同的且不相容的 技术单独地运行(例如,DNA杂交对DNA测序)。此外,现有的基因 小组测试受到某些基因与感兴趣的疾病或病症(例如ASD)之间的已知 或潜在的联系的限制,并且不一定代表能够鉴定具有与感兴趣的疾病或病症的已知或仍未知的联系的所有相关基因中的这些小突变的全 面且无偏的方法。
例如,最近发现患有ASD和巨头畸形的儿童可能带有 PTEN基因中的突变。PTEN中的突变也导致许多类型的癌症(包括甲 状腺、乳腺和皮肤)的风险急剧增加。因此,鉴定为携带PTEN中的 突变的儿童需要在儿童早期开始进行癌症筛查,因为肿瘤的迅速鉴定 对于改善预后至关重要。其他自闭症风险基因(如POLG)中的突变会 影响来自药物治疗(如丙戊酸)的毒性的风险。事实上,鉴定处于危 险中的那些人对于尽量减少这个群体中的不良反应至关重要。
此外,更多的基因最近已经成为与ASD相关,但尚未并入 当前提供的基因测序组中。例如,刚刚显示,KCNQ2中的突变(Jiang et al.,2013)与自闭症相关,且可能最终成为未来个性化治疗的一个 靶点,这表明Kv7通道开放剂最终可能成为自闭症的未来个性化治疗 的一个靶点(Rundfeldt和Netzer,2000)。然而,该基因尚未在目前可 得的任何基因小组测试中。
高通量DNA测序技术的最新进展可适用于ASD和其他患 者的全基因组分析。可能的策略是进行整个基因组鸟枪或外显子组测 序以鉴定所有SNP,以及进行长片段配对末端标签测序以鉴定患者的 基因组的所有SV。这些方法的组合将能够识别所有的遗传变异。然而,它将涉及多个实验和分析流程,这将是消耗时间和资源的。
一种理想的策略将是从一个患者样品构建单一DNA文库, 并进行单次测序操作以在一个数据分析流程中生成基因SNP识别 (call)(目前由基因小组测序完成)、CNV(目前通过aCGH完成)和SV(目 前通过大片段PET测序完成)鉴定的必要数据。
因此,将通过aCGH或测序鉴定CNV的能力与有限的、靶向的 测序平台的能力结合成更有效(时间方面和成本方面)和全面的单一 分析的新技术可能成为用于ASD分子诊断的新标准。
发明内容
本文所述的本发明的方法和试剂提供了一种全基因组分析 技术,其使得能够在单次分析中检测宿主基因组(包括但不限于人 ASD患者)中的广泛的基因组变异。
本发明的方法鉴定小的和大的基因组变异,包括SNV、微型插入 缺失(micro-indel)、CNV和其他大规模的基因组结构变异(SV)如倒位、 串联重复、颠换和易位,全部在一个统一的分析中鉴定。这些大规模 的基因组结构变异中的许多不能通过aCGH或靶向测序组鉴定,尽管 它们可以通过人工密集的其它经典细胞遗传学显带技术检测。
本文描述的本发明的临床应用具有取代传统的aCGH和基 因小组测试的潜力,并且促进用于诸如ASD、癌症和许多遗传性遗传 障碍中任何一种的遗传疾病的分子诊断的新标准的出现。此外,本发 明的方法产生丰富得多的数据集,其将对患者和转化研究具有实用 性。
例如,使用本发明的方法获得的临床和遗传数据可用于鉴 定处于风险中的婴儿,预测临床结果,并开发用于诸如ASD和癌症 的疾病和病症的新型治疗方案。临床患者数据以及从本发明的方法产 生的数据也可以存储在可用作相关临床和遗传信息的合并的、综合 的、可搜索的储存库的电子和/或在线数据库中。这样的数据库还可以 包括患者基线信息,包括但不限于人口统计学、患者和家族史、共病 的存在以及包括畸形特征的相关身体发现等。微阵列和任何其他遗传 或代谢测试数据的结果也可以添加到数据库中,连同功能和行为评估 以及MRI和EEG的结果(如果可得/适用)。独特的患者标识符可以用 作匹配标准,以使得外部分析的结果能够包含在研究数据库中。
数据库的数据管理可以通过HIPAA兼容的登录数据库和 跟踪样品和相关质量控制(QC)数据的Clarity LIMS(Genologics,Vancouver,BC)以及启动自动化生物信息学工作流程的能力来促进。
因此,在一个方面,本发明提供了一种用于检测生物体基 因组中的基因组变异的方法,所述方法包括:(1)将生物体的基因组 DNA片段化以产生多个基因组DNA片段;(2)用标签序列标记基因组 DNA片段的末端;(3)在促进平端分子内连接的条件下连接基因组DNA片段的被标记末端,以产生具有连接的标签序列的多个环化基 因组DNA片段;(4)通过鸟枪片段化将多个环化基因组DNA片段片 段化,以产生:(a)多个配对(MP)片段,每个配对(MP)片段包含侧邻 侧翼基因组DNA的连接的标签序列;和(b)多个鸟枪(SG)片段;(5)测 定MP片段和SG片段的序列;和(6)基于SG片段的序列和MP片段 的序列两者鉴定生物体基因组中的所述基因组变异。
在某些实施方案中,基因组变异包括以下的一种或多种: 单核苷酸多态性(SNP)、小插入或缺失(indel)、串联碱基突变(TBM)、 拷贝数变异(CNV)、结构变异(SV)、及其组合。
在某些实施方案中,步骤(1)和(2)同时进行。
在某些实施方案中,步骤(1)和(2)通过转座子介导的标签化 (tagmentation)实现。例如,转座子介导的标签化通过Tn5转座酶进行。
在某些实施方案中,多个基因组DNA片段在步骤(3)之前 进行大小选择。在某些实施方案中,大小选择约4-10kb或约6-8kb 的基因组DNA片段。
在某些实施方案中,在步骤(4)-(6)之前通过DNA外切核酸 酶消化除去未环化的或线性的基因组DNA片段。
在某些实施方案中,分别或同时测定MP片段和SG片段 的序列。
在某些实施方案中,SG片段具有约400bp、450bp或500bp 的平均大小。在某些实施方案中,MP片段具有约400bp、450bp或 500bp的平均大小。
在某些实施方案中,MP片段和SG片段在步骤(5)之前彼此 分离。
在某些其他实施方案中,MP片段和SG片段在步骤(5)之前 不彼此分离。
在某些实施方案中,在步骤(3)之前修复基因组DNA片段 的被标记末端以促进平端连接。
在某些实施方案中,步骤(6)包括将侧翼基因组DNA的序 列和鸟枪片段的序列定位到生物体的基因组序列。
在某些实施方案中,通过高通量测序测定基因组DNA的序 列。例如,高通量测序可以选自下组:单分子实时测序、离子半导体 (Ion Torrent)测序、焦磷酸测序(454)、合成法测序(Illumina)、连接法 测序(SOLiD测序)、聚合酶克隆(polony)测序、大规模平行签名测序(MPSS)、DNA纳米球测序、单分子纳米孔测序仪和Heliscope单分 子测序。
在某些实施方案中,高通量测序对于侧翼基因组DNA和/ 或鸟枪片段产生30、40、50、60、70、80、90、100或更多倍的覆盖 度。
在某些实施方案中,生物体是人、非人灵长类动物、哺乳动物、 啮齿动物(大鼠、小鼠、仓鼠、兔)、家畜(牛、猪、马、绵羊、山羊)、 鸟(鸡)、爬行动物、两栖动物(爪蟾属)、鱼类(斑马鱼(Danio rerio)、河 豚鱼)、昆虫(果蝇、蚊子)、线虫、寄生虫、真菌(酵母,如酿酒酵母 或粟酒裂殖酵母)、植物、细菌或病毒。
在某些实施方案中,生物体是患有选自以下的疾病或病症 的人:自闭症(自闭症谱系障碍(ASD))、癌症或遗传性疾病。
应当理解,本文描述的任何实施方案,包括仅在实施例部 分中或仅在本发明的一个方面中描述的那些,可以与任何一个或多个 其它实施方案组合,除非明确地被排除或另外地不适合的。
附图说明
图1A和1B示出了使用本发明的方法检测SNP和小插入 缺失的代表性结果。
图2示出了使用本发明的方法检测患者样品P46107中的纯 合缺失(CNV)的代表性结果。
图3示出了使用本发明的方法检测患者样品P46107中的杂 合缺失(CNV)的代表性结果。
图4示出了使用本发明的方法说明检测倒位和染色体内直 接正向插入(两者均为SV)的示意图。
图5示出了使用本发明的方法仅通过MP序列数据检测倒 位(SV)的代表性结果。
图6示出了使用本发明的方法检测染色体内易位(SV)的代 表性结果。
图7示出了使用本发明的方法检测染色体间易位(SV)的代 表性结果。
图8示出了Ch.17的复杂区域中的SV的检测。
具体实施方式
1.概述
本文描述的本发明提供了一种通过对独特生成的基因组 DNA文库测序来鉴定来自患者的一个DNA样品的所有类型的遗传变 异的快速和有效的方法。
因此,在一个方面,本发明提供了一种用于检测生物体基 因组中的基因组变异的方法,所述方法包括:(1)将生物体的基因组 DNA片段化以产生多个基因组DNA片段;(2)用标签序列标记基因组 DNA片段的末端;(3)在促进平端分子内连接的条件下连接基因组DNA片段的被标记末端,以产生具有连接的标签序列的多个环化基 因组DNA片段;(4)通过鸟枪片段化将多个环化基因组DNA片段片 段化,以产生:(a)多个配对(MP)片段,每个配对(MP)片段包含侧邻 侧翼基因组DNA的连接的标签序列;和(b)多个鸟枪(SG)片段;(5)测 定MP片段和SG片段的序列;和(6)基于SG片段的序列和MP片段 的序列鉴定生物体基因组中的所述基因组变异。
注意,上述步骤不需要按照上面列出的确切顺序进行。相 反,例如,步骤(1)和(2)可以在单个步骤中同时进行。
本发明的方法可用于检测任何生物体中的遗传变异,优选具有完 整或基本完整的基因组序列的生物体,包括许多古细菌或真细菌、原 生生物、真菌(例如酿酒酵母或粟酒裂殖酵母)、植物、动物基因组。 例如,人、小鼠和许多其他哺乳动物和非哺乳动物物种的基因组序列 现可以在公共领域中获得。参见例如Venter et al.,“The Sequence of theHuman Genome,”Science,291(5507):1304-1351,2001。其它非限制 性的已知基因组包括许多非人灵长类动物、哺乳动物、啮齿动物(大 鼠、小鼠、仓鼠、兔子等)、牲畜(牛、猪、马、绵羊、山羊)、鸟(鸡)、 爬行动物、两栖动物(爪蟾属)、鱼(斑马鱼(Danio rerio)、河豚鱼)、昆虫(果蝇、蚊子)、线虫、寄生虫、真菌(例如酵母,如酿酒酵母或粟酒 裂殖酵母)、各种植物、病毒(如整合到宿主基因组中的那些)等的那些。
在某些实施方案中,生物体是患有选自以下组的疾病或病 症的人:自闭症(自闭症谱系障碍(ASD))、癌症、阿尔茨海默氏病、 其他神经障碍或遗传性疾病或病症。
本发明的方法可用于检测多种类型的遗传变异,包括但不 限于:单核苷酸多态性(SNP)、小插入或缺失(indel)、串联碱基突变 (TBM)、拷贝数变异(CNV)、结构变异(SV)、或其组合。这些遗传变 异传统上必须使用不止一种类型的不同技术来鉴定,几乎总是需要来自患者的多个样品,或者足以支持进行几轮不同检测方法的大样品。
如本文所用,单核苷酸多态性(SNP)是指通常在群体内发生 的DNA序列变异,其中基因组(或其他共有序列)中的单个核苷酸-A、 T、C或G在生物物种或配对染色体的成员之间不同。
在某些实施方案中,SNP位于基因的非编码区(例如,转录增强 子、抑制子、启动子)中。在另一个实施方案中,SNP位于基因的编 码区(例如,开放阅读框)中。在再另一个实施方案中,SNP位于两个 相邻基因之间的基因间区域中。在某些实施方案中,SNP在外显子中。 在某些实施方案中,SNP在内含子中。在某些实施方案中,SNP在编 码区中并且代表不改变被编码的氨基酸的沉默突变(同义SNP)。在相 关实施方案中,SNP在编码区中并且与错义或无义突变相关(非同义 SNP)。在某些实施方案中,SNP发生在物种的选定群体中(例如,特 定种族、族群、人类的宗教或信仰群体或限于特定地理位置的群体)。 在某些实施方案中,SNP与特定疾病或病症(例如,镰状细胞性贫血、 β地中海贫血、阿尔茨海默氏病、癌症、下颌骨末端发育不良 (mandibuloacral dysplasia)、早老综合征或囊性纤维化)相关,或指示疾 病或病症的高风险因子。在某些实施方案中,SNP与不同药物的代谢 相关。在某些实施方案中,SNP不在蛋白质编码区中并且影响基因剪 接、转录因子结合、信使RNA降解或非编码RNA(ncRNA)的序列。 SNP可能在受影响基因的上游或下游。在某些实施方案中,SNP是双 等位基因的。在某些实施方案中,SNP是多等位基因的-具有3个或 更多个等位基因变异。在某些实施方案中,SNP是NCBI的dbSNP(截 至2014年10月超过1.12亿个人类SNP)中列出的SNP中的任一个。 在某些实施方案中,SNP发生在小于50%、40%、30%、20%、10%、5%、2%、1%、0.5%、0.2%、0.1%、0.05%、0.01%的给定人群(例 如,整个人群,国家或地理位置内的人群,或人类种族、族群等)中。
如本文所用,插入缺失(indel)是指在生物体的DNA中的碱 基的插入和/或缺失,特别是仅仅几个碱基(例如,1、2、3、4、5、6、 7、8、9、10、20、25、30、35、40、45、50个等)的插入和/或缺失。 在某些实施方案中,插入缺失不在编码区中产生移码突变。在某些实 施方案中,插入缺失确实产生移码突变或提前终止密码子,或消除了 天然终止密码子。
如本文所用,串联碱基突变(TBM)是指在相邻核苷酸处的 替换,例如两个相邻核苷酸处的替换,或三个相邻核苷酸处的替换等。
如本文所用,拷贝数变异(CNV)是指基因组的DNA中的结 构变异形式,其导致细胞具有一个或多个DNA片段的异常的,或对 于某些基因而言,正常的拷贝数变异。CNV通常对应于在某些染色 体上已被删除(少于正常数)或重复/倍增(例如,大于2的正常拷贝数) 的相对大的基因组区域。在某些实施方案中,CNV增加基因的拷贝 数。在另一个实施方案中,CNV降低基因的拷贝数。在某些实施方 案中,CNV中涉及的基因组区域为至少约1kb、2kb、5kb、10kb、20kb、 50kb、100kb、200kb、500kb、750kb、1mb、2mb、5mb或更多。在 某些实施方案中,CNV是遗传的遗传性缺陷。在另一个实施方案中, CNV在个体中新生产生。在某些实施方案中,CNV可以通过细胞遗 传学技术例如荧光原位杂交(FISH)、比较基因组杂交、阵列比较基因 组杂交(aCGH)以及通过具有SNP阵列的虚拟核型分析来检测。在某 些实施方案中,CNV影响单个基因。在另一个实施方案中,CNV影 响两个或更多个基因。在某些实施方案中,CNV与对疾病或病症(例 如癌症,诸如NSCL癌症、SLE、类风湿性关节炎、炎性自身免疫性 疾病、自闭症、精神分裂症或特发性学习障碍)的易感性或抗性有关。
如本文所使用的,结构变异(SV或基因组结构变异)是指生 物体的染色体结构的变异。在广义上,SV由一种物种的基因组中的 多种变异组成,且通常包括微观和亚显微类型,如缺失、重复(如串 联重复)、拷贝数变体、插入(如新序列插入和可移动元件插入(MEI))、 倒位、不成对的倒位、和易位(例如,孤立的相对平衡的易位)。在某 些实施方案中,SV不包括CNV,或为拷贝数中性的。在某些实施方 案中,SV包括倒位、插入(例如染色体间直接插入;染色体间反转插 入;染色体内直接正向插入;染色体内直接反向插入;染色体内反转 正向插入;染色体内反转反向插入)、易位、染色体重排、环染色体 等、或其组合(例如,缺失加染色体内直接正向插入;缺失加染色体 内反转正向插入)。
在某些实施方案中,SV影响约1kb至3Mb的序列长度,其大于 SNP且小于染色体异常。请注意,结构变异的定义并不暗示有关频率 或表型效应的任何内容。在某些实施方案中,结构变体与遗传疾病或 病症相关。在其它实施方案中,结构变异与任何已知的遗传疾病或病 症无关。在某些实施方案中,SV是可以用光学显微镜检测的微观SV, 例如非整倍性、标记染色体、整体重排(Gross rearrangement)和染 色体大小的变异。在某些实施方案中,SV是倒位、隐性易位或节段 性单亲二倍体(UPD)。在某些实施方案中,SV在基因组或生物信息学 数据库中列出。
在某些实施方案中,基因组变异在富含重复序列的区域内、 附近或包含该区域。
在某些实施方案中,靶DNA包含细胞或生物体的整个基因 组或由细胞或生物体的整个基因组组成。在一些实施方案中,靶DNA 包含来自存在于环境样品中的多个生物体(例如,相同物种的多个生 物体,或生物体的代表性集合)的基因组和/或双链cDNA或由其组成。 在一些实施方案中,靶DNA包含来自生物体的特定组织或器官(例如, 罹患疾病或病症的组织或器官)的基因组和/或双链cDNA或由其组 成。
在某些实施方案中,该方法的步骤(1)和(2)可以分开进行。 例如,使用许多传统技术中的任何一种,可以在步骤(1)中将基因组 DNA片段化。在一个实施方案中,DNA片段化可以通过物理手段实 现,例如声剪切、超声处理或流体动力学剪切。然后可以将任何所需的标签序列连接到片段的末端。任选地,可以首先使用DNA聚合酶 和/或外切核酸酶修复片段的末端以产生适用于平端连接的平端。
如本文所用,“标签”或“标签序列”是指非靶核酸,通 常为DNA,其提供对与其连接的核酸片段编址的手段。例如,在一 些实施方案中,标签包含允许鉴定、识别和/或分子或生物化学操作标 签所连接的DNA(例如,通过提供用于寡核苷酸退火的位点,例如用 于通过DNA聚合酶的延伸的引物,或用于捕获或连接反应的寡核苷 酸)的核苷酸序列。将标签连接到DNA分子的过程有时在本文中被称 为“标记”,并且经历标记或包含标签的DNA被称为“被标记的”(例 如,“被标记的DNA”)。
声剪切和超声处理是用于剪切DNA的主要物理方法,且可 以使用市售仪器进行。例如,仪器(Woburn,MA)是一种 声学装置,其可将DNA断裂成100bp-5kb大小的范围。Covaris还生 产管(gTubes),其可用于处理6-20kb的样品用于所述配对(Mate-Pair) 文库。(Denville,NJ)是适用于剪切染色质和DNA以产 生长达1kb的基因组片段的超声处理装置。来自Digilab(Marlborough, MA)的Hydroshear使用流体动力来剪切DNA。喷雾器(Life Tech, Grand Island,NY)也可用于使用压缩空气雾化液体,从而将DNA在几 秒钟内剪切成100bp-3kb的片段。
在某些实施方案中,基因组DNA片段化通过酶学方法实 现,例如DNase I或其他限制性内切核酸酶或非特异性核酸酶,或通 过转座酶完成。将DNA剪切成小片段的酶学方法包括DNAse I,麦 芽糖结合蛋白(MBP)-T7Endo I和非特异性核酸酶创伤弧菌(Vvn)的组合、NEB's(Ipswich,MA)Fragmentase和Nextera标签化技术(Illumina, San Diego,CA)。非特异性核酸酶和T7Endo的组合协同地作用以产 生非特异性切口和相反切口,从而产生从切口位点解离8个核苷酸或 更少的片段。
另一方面,标签化使用转座酶同时将转座子末端或包含转 移链(例如,标签序列或衔接子)的转座子末端组合物片段化和插入到 dsDNA(例如基因组DNA)上,从而在一个步骤中同时进行方法的步骤 (1)和步骤(2)。参见例如WO2010-048605A1(其全部内容通过引用并入 本文)。
如本文所用,“转座酶”是能够与含转座子末端的组合物 (例如转座子、转座子末端、转座子末端组合物)形成功能性复合物并 催化含转座子末端的组合物的插入或转座到与其在体外转座反应中 温育的双链靶DNA中的酶。
“转座子末端”是指仅显示与在体外转座反应中起作用的 转座酶或整合酶形成复合物所必需的核苷酸序列(“转座子末端序列”) 的双链DNA。转座子末端与转座酶或整合酶形成“复合物”或“突 触复合物”或“转座体复合物”或“转座体组合物”,该转座酶或整 合酶识别并结合转座子末端,以及该复合物能够将转座子末端插入或 转座于与其在体外转座反应中温育的靶DNA中。转座子末端显示由 “转移的转座子末端序列”或“转移链”和“非转移的转座子末端序 列”或“非转移链”组成的两个互补序列。例如,与在体外转座反应 中具有活性的高度活性Tn5转座酶(例如,EZ-Tn5TM转座酶, EPICENTER Biotechnologies,Madison,WI,USA)形成复合物的一个 转座子末端包含转移链和非转移链,转移链显示“转移的转座子末端 序列”(参见WO2010048605的SEQ ID NO:1,其通过引用并入本文), 非转移链显示“非转移的转座子末端序列”(参见WO2010048605的 SEQ ID NO:2,其通过引用并入本文)。
转移链的3'末端在体外转座反应中被连接或转移到靶 DNA。显示与转移的转座子末端序列互补的转座子末端序列的非转移 链在体外转座反应中不连接或转移到靶DNA。
在一些实施方案中,转移链和非转移链共价连接。例如, 在一些实施方案中,将转移链和非转移链序列提供在单个寡核苷酸 上,例如发夹构型中。因此,尽管非转移链的游离末端不通过转座反 应直接与靶DNA连接,但是非转移链变成间接连接到DNA片段,因 为非转移链与转移链通过发夹结构的环连接。
“转座子末端组合物”是指包含转座子末端(即能够与转座 酶一起发挥作用以进行转座反应的最小双链DNA节段),任选地加上 另外的一个或多个序列的组合物。转移的转座子末端序列的5'-末端和 /或非转移的转座子末端序列的3'-末端。例如,连接到标签的转座子 末端是“转座子末端组合物”。在一些实施方案中,转座子末端组合 物包含两个转座子末端寡核苷酸或由其组成,该转座子末端寡核苷酸 由“转移的转座子末端寡核苷酸”或“转移链”和“非转移链末端寡 核苷酸”或“非转移链”组成,其组合地显示转座子末端的序列,并 且其中一条或两条链包含另外的序列。
术语“转移的转座子末端寡核苷酸”和“转移链”可互换 使用,且是指“转座子末端”和“转座子末端组合物”两者的转移的 部分,即不管转座子末端是否连接到标签或其他部分。类似地,术语 “非转移的转座子末端寡核苷酸”和“非转移链”可互换使用,并且 是指“转座子末端”和“转座子末端组合物”两者的非转移的部分。
在一些实施方案中,转座体是选自Tn5转座酶、MuA转座 酶、睡美人转座酶、Mariner转座酶、Tn7转座酶、Tn10转座酶、Ty1 转座酶和Tn552转座酶的转座酶的野生型或高度活性突变体形式与 转座子末端的复合物,其中转座酶与该转座子末端形成在转座反应中 有活性的复合物。
在一些实施方案中,转座酶是使用包含Mu转座子末端的 转座子末端的Mu转座酶(例如HYPERMUTM MuA转座酶, EPICENTER Biotechnologies,Madison,WI)。在一些实施方案中,转 移链的3'部分包含来自Mu转座子末端的序列,并且其中转移链的5' 部分不是来自Mu转座子。
在一些实施方案中,转座酶是使用包含Tn5转座子末端的 转座子末端的Tn5转座酶(例如野生型或突变型Tn5转座酶,例如 EZ-Tn5TM转座酶,EPICENTER Biotechnologies,Madison,WI)。在 一些实施方案中,转移链的3'部分包含来自Tn5转座子末端的序列, 并且其中转移链的5'部分不是来自Tn5转座子。
标签化是修饰的转座反应,其利用以下事实:转座体随机 地将小的游离的DNA末端(转座子末端或包含在5'部分中具有标签结 构域的转移链的转座子末端组合物)插入靶dsDNA(例如基因组DNA) 中,使得靶dsDNA被片段化以产生多个靶dsDNA片段和与多个靶dsDNA片段中每个的5'末端连接的转座子末端或转座子末端组合物 的转移链,并产生多个5'标记的靶DNA片段。在某些实施方案中, 所述方法可以进一步包括在其中3'标签连接到5'标记的靶DNA片段 的3'端的条件下,将5'标记的靶DNA片段与核酸修饰酶一起温育, 以产生双标记的靶DNA片段。所述方法不限于使用任何特定的核酸 修饰酶。例如,核酸修饰酶可以包含聚合酶、核酸酶、连接酶等。在 一些实施方案中,核酸修饰酶包含DNA聚合酶,并且3'标签通过延 伸5'标记的靶DNA片段的3'末端而形成。
换句话说,标签化有效地将靶dsDNA片段化,同时添加在 可以包含例如PCR引物位点、测序引物位点和/或可有助于分离或纯 化标记的基因组DNA的其他部分的标签/衔接子/接头序列上。
在一些实施方案中,标签序列包含限制性位点结构域、捕 获标签结构域、测序标签结构域、扩增标签结构域、检测标签结构域、 地址标签结构域和/或转录启动子结构域中的一种或多种。
如本文所用,“捕获标签结构域”或“捕获标签”是指表 现出用于促进该捕获标签结构域所连接的DNA片段的捕获的目的的 序列的标签结构域(例如,提供用于捕获标记的DNA片段在珠粒或其 他表面上的退火位点或亲和标签,例如,其中标签结构域序列的退火位点允许通过退火到表面上的特定序列(例如珠粒上或微芯片或微阵 列上或测序珠上的探针)来捕获)。在一些实施方案中,捕获标签结 构域包含转移链的5'-部分,其连接到包含亲和结合分子或由亲和结合 分子组成的化学基团或部分(例如,其中转移链的5'-部分连接到第一 亲和结合分子,例如生物素、链霉亲和素、抗原或结合抗原的抗体, 其允许捕获标记的DNA片段在第二亲和结合分子附着的表面上,第 二亲和结合分子与第一亲和结合分子形成特异性结合对)。
例如,转座体使用的标签序列可以包含生物素化的结合衔 接子,使得可以使用链霉亲和素珠分离标记的基因组片段。
如本文所用,“测序标签结构域”或“测序标签”是指显 示出用于促进标签所连接的DNA片段的测序的目的的序列的标签结 构域(例如,提供用于合成法测序的引发位点或提供用于连接法测序 的退火位点,或提供用于杂交测序的退火位点)。
在一些实施方案中,测序标签结构域包含选自Roche 454A 和454B测序标签、ILLUMINATM SOLEXATM测序标签、Applied Biosystems的SOLIDTM测序标签、PacificBiosciences的SMRTTM测 序标签、Pollonator Polony测序标签或Complete Genomics测序标签的 测序标签或由其组成。
如本文所用,“扩增标签结构域”是指显示用于促进所述 标签所附加的核酸的扩增的目的的序列的标签结构域。例如,在一些 实施方案中,扩增标签结构域提供用于使用DNA聚合酶进行核酸扩 增反应(例如PCR扩增反应或链置换扩增反应或滚环扩增反应)的引发位点,或用于在核酸扩增反应(例如,连接链反应)中使用模板依赖 性连接酶的探针连接的连接模板。
在一些实施方案中,所述方法还包括扩增一个或多个标记 的靶DNA片段和/或双标记的靶DNA片段。在一些实施方案中,扩 增包括使用PCR扩增反应、链置换扩增反应、滚环扩增反应、连接 酶链反应、转录介导的扩增反应或环介导的扩增反应中的一种或多 种。在某些实施方案中,扩增包括非选择性扩增DNA片段文库的标 记的靶DNA片段或DNA片段文库的双标记的靶DNA片段。
如本文所使用的,“地址标签结构域”或“地址标签”是 指表现出允许识别特定样品的序列的标签结构域(例如,其中转移链 具有不同的地址标签结构域,其对于每个样品显示不同的序列)。
两个转座体可以以等摩尔比混合,每个携带涵盖PCR/测序 位点的两个小的游离DNA末端之一。也就是说,在一些实施方案中, 该方法包括在相同的反应混合物中同时将靶DNA与第一转座酶和第 一转座子末端寡核苷酸以及第二转座酶和第二转座子末端寡核苷酸 一起温育。在一些其它实施方案中,通过首先将靶DNA与第一转座 酶和第一转座子末端寡核苷酸温育,然后将来自该反应的产物与第二 转座酶和第二转座子末端寡核苷酸一起温育来顺序进行该方法。在其 中顺序进行该方法的一些实施方案中,将来自靶DNA与第一转座酶 和第一转座子末端寡核苷酸的反应的产物在用第二转座酶和第二转 座子末端寡核苷酸温育那些产物之前进行纯化。
在一些实施方案中,用于标记片段或文库的转座子末端组 合物包含在核酸序列中相差至少一个核苷酸的多个转移链,并且扩增 包括基于5'末端标签或标签结构域的核酸序列选择性扩增双标记的 DNA片段。在其他实施方案中,扩增包括使用与双标记的靶DNA片 段的3'标签互补的单一寡核苷酸引物的PCR。
在一些实施方案中,扩增包括使用单一寡核苷酸引物的链 置换扩增反应,其中寡核苷酸引物仅由核糖核苷酸组成,或仅由嘌呤 核糖核苷酸和仅嘧啶2'-F-2'-脱氧核糖核苷酸组成,且链置换扩增反应 包括链置换DNA聚合酶和核糖核酸酶H。
在一些实施方案中,扩增包括使用第一和第二寡核苷酸引 物的聚合酶链反应,寡核苷酸引物各自包含3'末端部分,其中第一 PCR引物的至少3'末端部分与双标记的靶DNA片段的3'标签互补, 并且其中第二PCR引物的至少3'末端部分显示双标记的靶DNA片段 的5'标签或标签结构域的至少一部分的序列。在某些实施方案中,第 一寡核苷酸引物或第二寡核苷酸引物包含5'末端部分,其中第一引物 的至少5'末端部分不与双标记的靶DNA片段的3'标签互补,或其中 第二引物的5'部分不显示双标记的靶DNA片段的5'标签或标签结构域的至少一部分的序列。在某些实施方案中,第一寡核苷酸引物和第 二寡核苷酸引物各自包含5'末端部分,其中第一PCR引物的至少5' 末端部分不与双标记的靶DNA片段的3'标签互补,和/或其中第二 PCR引物的5'末端部分不显示双标记的靶DNA片段的5'标签结构域的至少一部分的序列。
在一些实施方案中,扩增本发明的片段和文库是有用的。 因此,在一些实施方案中,扩增包括使用第一寡核苷酸引物和第二寡 核苷酸引物的聚合酶链反应,每个寡核苷酸引物包含与标记的DNA 片段中或者双标记的DNA片段中转移链的一个序列的至少一部分互补的3'末端部分。
由于每个转座体可以只标签化一次,所以片段的平均大小 主要由输入的基因组DNA与转座体的比率决定。
因此,在某些实施方案中,输入的基因组DNA的量例如通 过使用特异性定量样品中的dsDNA量的方法或避免检测到样品中的 污染性RNA、ssDNA或降解的DNA的方法来准确地测定。商业产品 如测定(Life Technologies,Thermo Fisher Scientific,Inc.)可 以用于此目的,且结果可以在荧光计中读取。
在某些实施方案中,标签化基因组DNA的平均大小为约4、5、6、7、8、9、10、11、12、13、14或15kb。在某些实施方案中, 标签化基因组DNA的平均大小为约4-10kb,或约6-8kb。
在某些实施方案中,片段化和标记的DNA片段的末端具有 优选在下一步骤之前填充或修复的单链区域。也就是说,在某些实施 方案中,在步骤(3)之前修复基因组DNA片段的被标记末端以促进平 端连接。这对于使用转座体介导的标签化产生的片段可能是必要的, 因为标签化步骤在被标签化的DNA中留下短的单链序列缺口。在这 样的实施方案中,可以使用聚合酶介导的链置换反应来填补由标签化 步骤产生的缺口,以确保所有片段是齐平的。
在一些实施方案中,填充和连接步骤包括将被标记的DNA 片段与一种或多种大小的随机序列寡核苷酸和模板依赖性连接酶在 一定条件下温育,其中随机序列寡核苷酸退火和填充单链缺口并彼此 连接或连接至被标记的DNA片段的相邻末端。
在某些实施方案中,片段化或标签化的DNA在步骤(3)之 前进行大小选择。在某些实施方案中,一个预定大小的片段化或标签 化的DNA进行大小选择用于随后的步骤中,例如大小选择的DNA 的环化。在某些实施方案中,对两种或更多种不同预定大小的片段化 或标签化的DNA进行大小选择,所选择的每种大小的DNA被环化并 在另外的鸟枪片段化步骤中一起使用。如果选择多于一个大小,则可 以将每个大小与另一大小区分开,例如,通过用于产生末端标记的基 因组DNA片段的不同标签序列。
许多本领域公认的方法中的任何一种可用于DNA大小选 择。在一个实施方案中,大小选择通过PEG(聚乙二醇)介导的DNA 沉淀进行。参见,例如Lis和Schleif,“SizeFractionation of Double-Stranded DNA by Precipitation with PolyethyleneGlycol,”Nuc. Acid Res.,2(3):383-389(1975)。其全部内容通过引用并入本文。特别 地,在较低的PEG浓度下,大的dsDNA相比较小的dsDNA(例如, <1500bp的那些)更好地沉淀。使用这种方法,据报道,对于约 150bp-50kb的大小范围的DNA,可以实现大小分级。在某些实施方 案中,PEG介导的大小选择通过改变PEG浓度、DNA浓度、NaCl 浓度、pH、二价离子、沉淀时间和/或离心力来调节。
商业产品可以容易地获得以用于促进基于PEG沉淀的大小 选择,例如AgencourtAMPure XP珠(BD,参见例如商品编号A63880) 或SPRIselect珠(BD,参见例如商品编号B23317)。更大的DNA片段 被那些珠粒结合,而较小的片段(例如<1500bp的那些)保留在溶液中 并容易地除去。
在另一个实施方案中,大小选择通过琼脂糖凝胶电泳进行。 例如,Pippin DNA大小选择系统(Sage Science)是一种自动化的制备型 琼脂糖凝胶电泳系统,其可以选择指定大小范围的DNA样品。根据 制造商,BLUEPIPPINTM系统可用于收集窄大小分布的DNA,范围在 90bp至50kb之间。类似地,PIPPINPREPTM系统可用于收集90bp-8kb 的DNA片段。在某些实施方案中,在BLUEPIPPINTM型系统中使用 约0.75%的琼脂糖来选择平均大小在1-50kb之间(例如6-8kb或 4-10kb)的DNA片段。在某些实施方案中,平均大小在2-8kb之间的 DNA片段在PIPPINPREPTM型系统中使用约0.75%的琼脂糖进行大小 选择。在某些实施方案中,所收集的DNA具有±3kb、2kb、1kb或0.5kb 的窄大小分布。
在某些实施方案中,也可以使用标准琼脂糖凝胶电泳而没 有Pippin DNA大小选择系统,特别是当从一次运行中选择几个大小 范围时。可以使用本领域公认的任何方法从凝胶中回收或纯化大小选 择的DNA片段。在一个实施方案中,通过基于旋转柱的DNA回收试剂(例如市售的ZYMOCLEANTM大片段DNA回收试剂盒(Zymo Research))回收DNA。
在某些实施方案中,一种或多种上述大小选择方法可以组 合使用,例如基于PEG沉淀的大小选择,然后进行基于琼脂糖凝胶 电泳的大小选择。
一旦获得被标记的DNA片段,优选在预定的大小范围内,在促 进或有利于平端分子内连接的条件下连接片段的末端以产生多个环 化的基因组DNA片段。
在某些实施方案中,条件包括在相对大的体积和低的浓度(例如 0.05-0.2ng/μL(例如约0.1ng/μL)或1.5-3ng/μL(例如约2ng/μL))中连接 6-8kb大小选择的DNA的DNA片段。连接可以在DNA连接酶的最 适温度(例如30℃)下进行过夜(例如12-16小时)。
在一些实施方案中,该方法还包括从线性DNA、未连接的随机 序列寡核苷酸和/或未连接到靶DNA的转座子末端组合物分离被标记 的环状DNA片段。
在某些实施方案中,通过DNA外切核酸酶除去未连接的线性 DNA。例如,在一些实施方案中,含有被标记的环状DNA片段的反 应混合物用T5外切核酸酶处理以除去线性DNA,例如未连接的片段 和随机序列寡核苷酸。
在某些实施方案中,环化的基因组DNA片段再次通过鸟枪片段 化来断裂以产生多个较小的片段,其通常在适于测序的大小范围内。 例如,可以对于本领域公认的任何测序方法(例如许多下一代测序 (NGS)方法之一)产生约300-1000bp(例如,400、450或500bp)的片段。
相同的声剪切和超声处理方法可用于鸟枪片段化。例如,可以使 用仪器(Woburn,MA)产生约300-1000bp(例如,400、450 或500bp)的DNA片段。或者,在另一个实施方案中,使用喷雾器进 行鸟枪片段化以产生约300-1000bp的片段。
在某些实施方案中,基因组DNA被片段化并使用转座体介导的 标签化进行标记,并且标签化中使用的标签序列包含可促进标签序列 的分离或纯化的部分。例如,标签序列可以是生物素化的结合衔接子, 其可以通过SA珠分离。连接到SA珠的片段形成配对(MP)片段文库, 其中短基因组DNA片段含有标签序列中的至少一个(通常两个)。也 就是说,大多数短基因组DNA片段是两个连接的结合衔接子(标签序 列),其侧邻基因组中由许多kb(取决于配对文库的平均大小)分隔的两 个基因组DNA片段。MP片段文库中的单个片段的序列可以使用本 领域公认的测序方法中的任何一种来确定,例如以下描述的许多NGS 方法之一,以产生MP片段测序数据。
通过鸟枪片段化产生并且不被SA珠结合但不被丢弃的片段也可 以类似地例如通过NGS收集和测序,以产生鸟枪片段测序数据。没 有标签序列的这些片段也称为鸟枪(SG)片段。在某些实施方案中,SG 片段还包括具有部分标签序列(通常在这种片段的一个末端)的片段。
在某些实施方案中,MP片段和SG片段在进一步处理之前被分 离。可以使用标签序列中的任何亲和标签来实现分离,标签序列现在 仅存在于MP片段而不存在于SG片段中。
在其它实施方案中,将MP片段和SG片段一起处理,包括一起 测序。通过MP片段中标签序列的存在(相对于不存在),可以将来自 MP片段的序列数据与SG片段的序列数据区分开。在本实施方案中, 不是必需使用促进MP片段和SG片段分离的标签序列。
MP和SG片段两者可以任选地通过填充或去除由于鸟枪片段化 产生的5'或3'突出端来修复,以便产生平端。例如,3'至5'外切核酸 酶活性可用于去除3'突出端,并且聚合酶活性可以填充5'突出端。
在某些实施方案中,将单个腺嘌呤核苷酸添加到钝性片段的3'末 端以防止它们在将来的衔接子连接反应期间彼此连接。衔接子3'端上 的相应的单个胸腺嘧啶核苷酸提供了用于将衔接子连接到该片段的 互补突出端。这种策略确保低的嵌合体(串连模板)形成率。
在某些实施方案中,进行衔接子连接以将任何所需的衔接子连接 到DNA片段的平端,从而制备它们用于例如将来的PCR扩增。
SG和MP DNA片段可以在DNA测序方法(例如,NGS)或测序前 的扩增反应中用作模板。在一些实施方案中,本发明的方法包括扩增 MP/SG DNA片段,例如通过使用PCR扩增反应、链置换扩增反应、 滚环扩增反应、连接酶链反应、转录介导的扩增反应或环介导的扩增反应中的一种或多种。在一些实施方案中,扩增包括使用第一寡核苷 酸引物和第二寡核苷酸引物的聚合酶链反应,每个寡核苷酸引物包含 3'末端部分,其中第一PCR引物的至少3'末端部分与标签结构域的至 少一部分互补,并且其中第二PCR引物的至少3'末端部分显示标签 结构域的至少一部分的序列。在一些实施方案中,第一寡核苷酸引物 和第二寡核苷酸引物各自包含5'末端部分,其中第一PCR引物的5' 末端部分与标签序列不互补,并且其中第二PCR引物的5'末端部分 不显示标签结构域的序列。
上述任何PCR扩增的优选实施方案包括扩增,其中第一PCR引 物和/或第二PCR引物的5'末端部分显示标签结构域。在更多实施方 案中,标签结构域包含限制性位点结构域、捕获标签结构域、测序标 签结构域、扩增标签结构域、检测标签结构域、地址标签结构域和转 录启动子结构域中的一个或多个。
在一些实施方案中,标签结构域是包含选自Roche 454A和454B 测序标签、ILLUMINATM SOLEXATM测序标签、Applied Biosystems 的SOLIDTM测序标签、PacificBiosciences的SMRTTM测序标签、 Pollonator Polony测序标签或Complete Genomics测序标签的测序标 签或由其组成。
PCR条件可根据具体需要进行调整。热循环仪中典型的PCR条 件可以包括:98℃30秒;10-15个循环的98℃10秒,60℃30秒和72℃ 30秒的PCR;72℃5分钟,保持在4℃。
在某些实施方案中,通过高通量测序确定基因组DNA的序列。 “测序”是指用于确定生物聚合物(在这种情况中,是核酸)中组分 的顺序的各种方法。
可以与本发明一起使用的合适的测序技术包括传统的链终止 Sanger方法以及可从许多商业来源获得的所谓下一代(高通量)测序 (NGS),例如大规模平行签名测序(或MPSS,Lynx Therapeutics/Solexa/Illumina)、聚合酶克隆(Polony)测序(LifeTechnologies)、焦磷酸测序或“454测序”(454Life Sciences/Roche Diagnostics)、连接法测序(Applied Biosystems/Life Technologies的 SOLiD测序)、合成法测序(Solexa/Illumina)、DNA纳米球测序、 heliscope测序(Helicos Biosciences)、离子半导体或IonTorrent测序(Ion Torrent Systems Inc./Life Technologies)和单分子实时(SMRT)测序(Pacific Bio)等。许多其他高通量测序方法仍在开发或完善中,也可用 于对本发明的MP或SG片段进行测序,包括纳米孔DNA测序、杂 交测序、具有质谱的测序、微流体Sanger测序、透射电子显微镜DNA 测序、RNAP测序和体外病毒高通量测序等。
在某些实施方案中,高通量测序可以选自:单分子实时测序、离 子半导体(IonTorrent)测序、焦磷酸测序(454)、合成法测序(Illumina)、 连接法测序(SOLiD测序)、聚合酶克隆测序、大规模平行签名测序 (MPSS)、DNA纳米球测序、单分子纳米孔测序仪和Heliscope单分子 测序。
在某些实施方案中,高通量测序对于侧翼基因组DNA和/或鸟枪 片段产生10-、15-、20-、25-、30-、40-、50-、60-、70-、80-、90-、 100-或更多倍的覆盖度。
在某些实施方案中,测序方法能够对来自所述标记的基因组DNA 片段的两端的标签序列进行测序,从而提供配对的末端标签信息。在 某些实施方案中,测序方法能够对长度可变的长DNA片段进行读取。
MP片段测序数据和SG片段测序数据然后都可用于本发明的方 法中,以确定所有的遗传变异,如下文所详述的。在某些实施方案中, 所有序列数据被定位到匹配参考基因组。如本文所用,“定位(序列 到基因组)”包括基因组中序列的基因组位置的鉴定。
也就是说,本发明的方法依赖于来自MP片段(代表每个长基因组 DNA片段的两个末端处的序列)和没有标签序列的SG片段(代表两个 末端之间的序列)的序列数据,其中MP片段和鸟枪片段来自多个环化 基因组DNA片段的相同文库。
例如,对于大小为约10kb的环化基因组DNA,如果鸟枪片段化 产生大小约500bp的片段,500bp片段之一预期是包含侧邻两个约 200bp序列的标签序列的配对片段,该两个约200bp序列中一个来自 10kb片段的各个末端。同时,预期500bp片段中的19个是没有标签序列的鸟枪片段,其代表两个末端之间的9.5kb序列。因此,平均来 说,来自MP片段的一个测序阅读片段对应于来自鸟枪片段阅读片段 的大约19个测序阅读片段。这个1-19的预期比率部分地取决于环化 基因组DNA片段的平均大小(例如10kb),并且部分地取决于通过鸟枪片段化产生的MP和SG片段的平均大小(例如,500bp)。
类似地,对于CNV型基因组变异,如果在基因组中存在纯合缺 失,则当所有序列阅读片段定位到生物体的基因组时,MP片段测序 数据和SG片段测序数据都揭示序列覆盖图谱上的缺口。
另一方面,对于基因组中的杂合缺失,MP片段测序数据和SG 片段测序数据都显示与没有缺失的基因组的其他区域相比缺失区域 的量的大约一半。
利用以上概述的发明,下面进一步描述本发明的某些具体方面。
预期本发明的任何一个实施方案可以与本发明的任何一个或多 个其他实施方案组合,除非不适合、不适用或明确地排除。
2.下一代测序(NGS)
MP片段和/或SG片段的测序可以使用任何本领域公认的方法进 行。在某些实施方案中,使用所谓的下一代测序(NGS)高通量测序进 行测序。
可以与本发明方法一起使用的下一代测序平台包括(但不限 于)454FLXTM或454TITANIUMTM(Roche)、SOLEXATM基因组分析 仪(Illumina)、HELISCOPETM单分子测序仪(Helicos Biosciences)和 SOLIDTMDNA测序仪(Life Technologies/Applied Biosystems)仪器)以 及正由诸如Intelligent Biosystems和Pacific Biosystems的公司开发的 其他平台。
虽然通过其产生序列信息的化学作用因不同的下一代测序平台 而异,但它们都共有从大量测序模板(在其上同时进行测序反应)产 生序列数据的共同特征。一般来说,使用扫描仪收集来自所有这些测 序反应的数据,且然后使用计算机和强大的生物信息学程序进行组装 和分析。测序反应以“大规模平行”或“多路复用”方式进行、读取、 组装和分析。这些仪器的大规模平行性质导致了需要什么种类的测序 模板以及如何生成它们的变化,以便从这些强大的仪器获得最大可能 量的测序数据。
特别地,NGS测序方法利用在体外产生且包含由在样品中的靶 DNA产生的DNA片段的集合或群体的DNA片段文库,其中该集合 或群体中的所有DNA片段的组合显示定性地和/或定量地作为由其产 生DNA片段的靶DNA的序列的代表的序列。事实上,DNA片段文 库由多个基因组DNA片段文库组成,例如MP片段文库和SG片段 文库,其各自用不同的地址标签或条形码标记(例如,有或没有标签 序列或结合衔接子),以允许鉴定测序的每个片段的来源。
通常,这些NGS方法需要将基因组DNA断裂成较小的ssDNA 片段,并将标签序列(或简称为“标签”)添加到ssDNA片段的至少一 条链或优选两条链上。在某些方法中,标签提供使用DNA聚合酶进 行DNA测序的引发位点。在一些方法中,标签还提供用于将片段捕 获到表面例如珠上的位点(例如,在这些方法中的一些中在乳液PCR 扩增之前;例如使用美国专利第7,323,305号中所述的方法)。在大多 数情况中,用作NGS的模板的DNA片段文库包含5'-和3'-标记的DNA 片段或“双标记的DNA片段”。通常,用于产生NGS的DNA片段 文库的现有方法包括使用超声波仪、喷雾器或核酸酶将人们希望对其 进行测序的靶DNA(例如,包含基因组DNA的靶DNA)片段化,以及 将由衔接子或标签组成的寡核苷酸接合(例如通过连接)到片段的5'末 端和3'末端。
一些NGS方法在其测序过程中使用环状ssDNA底物。例如,美 国专利申请No.2009-0011943、2009-0005252、2008-0318796、 2008-0234136、2008-0213771、2007-0099208和Drmanac等人的 2007-0072208,每个通过引用并入本文,公开了用于大规模平行DNA 测序的环状ssDNA模板的产生。Gunderson和Steemers的美国专利申 请No.2008-0242560公开的方法包括:制备数字DNA球(参见例如美 国专利申请No.2008-0242560中的图8);和/或基因座特异性切割和 DNA如基因组DNA的扩增,包括用于通过多重置换扩增或全基因组 扩增(如其中的图17)或通过超支化RCA(如其中的图18)进行扩增,用 于产生扩增的核酸阵列(例如,ILLUMINA BeadArraysTM;ILLUMINA, San Diego CA,USA)。
具有扩增(例如全基因组扩增)的其他NGS方法也需要基因组 DNA的片段化和标记。这些方法中的一些在以下中进行了综述: Whole Genome Amplification(全基因组扩增),S.Hughs和R.Lasken 编,2005年,Scion Publishing Ltd.(在scionpublishing.com的万维网络 上),其通过引用并入本文。这些NGS方法也可用于本发明的方法中。
3.测序数据分析和基因组变异的检测
一旦通过例如使用许多适用的NGS方法中的任何一种的高通量 测序从SG片段和MP片段获得序列信息,本发明的方法则提供序列 数据分析以确定受试者的基因组中的各种基因组变异。
在一个实施方案中,基于鸟枪片段化的产物的NGS同时获得SG 片段和MP片段的序列。基于侧邻基因组DNA序列的连接的标签序 列(例如,用于标签化中的19碱基对标签序列的2个连接的串联重复 序列)的存在,通常可以将属于MP片段的序列与SG片段的那些区分开。可以从原始序列数据中除去标签序列以仅保留MP片段中的基因 组序列。此外,来自MP片段的基因组序列可以单独地在与用于SG 片段的数据文件的数据库分开的单独数据库中存储、保存或操作。
然后可以将SG片段和MP片段的序列定位到匹配的参考基因组。 例如,良好表征的人类基因组序列可以用作来自人类受试者的任何人 类样品的参考基因组。其他模型生物体参考基因组在本领域中是容易 获得的。
在一个实施方案中,将SG片段序列定位到匹配的参考基因组以 产生第一定位文件,并且将MP片段序列定位到相同的匹配参考基因 组以产生用于本发明方法的第二定位文件。这些定位文件可以使用许 多本领域公认和公开可得的定位软件中的任何一种来生成,例如 Broad Institute的Heng li开发的Burrows-Wheeler Aligner(BWA)。参 见,Henry Li,Aligning New-sequencing Reads by BWA(2010),其全部 内容通过引用并入本文中。
通常,这些序列比对软件将测序阅读片段(例如来自NGS方法的 阅读片段)与用于变异发现的已知参考序列进行比对,同时克服诸如 由测序重复和测序误差引起的效率和不确定性的困难。用于长序列阅 读片段(例如,超过约200bp的阅读片段)的许多序列比对器是可用的, 包括BLAT、SSAHA2和BWA-SW。许多短阅读片段(用于约或小于 100bp的序列)比对器也是可用的,包括但不限于:Bfast、BioScope、 Bowtie、BWA、CLC bio、CloudBurst、Eland/Eland2、GenomeMapper、 GnuMap、Karma、MAQ、MOM、Mosaik、MrFAST/MrsFAST、NovoAlign、PASS、PerM、RazerS、RMAP、SSAHA2、Segemehl、 SeqMap、SHRiMP、Slider/SliderII、SOAP/SOAP2、Srprism、Stampy、 vmatch和ZOOM等。这些方法可能在性能方面如比对速度、内存要 求和总体精度中存在极大不同,且BWA设计用于实现性能和精度之 间的良好平衡。
BWA比对算法是基于FM索引(Burrows-Wheeler转换加辅助数 据结构),其可以实现快速精确的序列匹配。其短阅读片段算法被设 计来改变阅读片段序列,使得其与参考序列精准匹配。其长阅读片段 算法(BWA-SW)获取样品参考子序列,并在子序列和阅读片段之间执 行Smith-Waterman比对。BWA适用于Illumina和SOLiD单端(SE) 和配对(PE)阅读片段;BWA-SW适用于454/Sanger SE阅读片段。
因此,BWA是快速的,但仍只需要适度的内存占用(通常小于4 GB);默认使用SAM输出;对SE和PE阅读片段都有空位比对;使 用有效配对(在配对中也考虑次优命中)实现高比对精度。它通过以0 的定位质量随机放置来处理非独特的阅读片段,并且所有命中可以以简明的格式输出。尽管大多数短阅读片段(甚至长度为30个核苷酸) 可以独特地放置在人类基因组上(参见Rozowsky等人,Biotechnol., 27:66-75,2009),阅读片段放置对于源自重复区域或分段重复区域的 阅读片段可能是具有挑战性的。这些阅读片段可以以相等(或几乎相 等)的得分与基因组中的多个位置比对。并非简单地将这些不能定位 的基因组区域排除在考虑之外,BWA将这样的阅读片段放置在阅读 片段以类似得分比对-定位质量为0的许多位置中的随机位置。
BWA还保证发现在种子区域(默认前32bp)中的k差。BWA的默 认配置适用于大多数典型的序列输入。另外,它根据阅读片段长度和 错误率自动地调整参数,并且即时估计插入片段大小分布。
BWA比对器的运行可以简要总结如下。首先,将格式为ref.fa、 read1.fq.gz、read2.fq.gz或long-read.fq.gz的输入供给到该程序。然后 在步骤1中:对参考基因组进行索引(例如,花费大约3个CPU小时 来索引人类基因组)。然后,步骤2a在后缀排列坐标中产生比对。如 果质量在阅读片段的3'末端处差,则可以应用“-q15”选项进行改进。 步骤3a然后生成SAM格式的比对。最后,步骤4a获得多个命中。 或者,步骤2b对于长阅读片段使用BWA-SW。
BWA定位文件的输出是通常已知的bam文件,其可以与下面描 述的其他测序分析软件一起使用以鉴定各种基因组变体。
一旦SG片段序列和MP片段序列的bam文件被单独地生成,本 发明的方法即结合各种软件包利用这些bam文件(例如,SG bam文件 和MP bam文件)来鉴定遗传变异。
例如,可以在本发明的方法中用于优先鉴定小遗传变异例如SNP 和插入缺失的一个软件包是由Broad Institute开发的公开可得的“基 因组分析工具套装”(或GATK)包。参见McKenna et al.,“The Genome Analysis Toolkit:a MapReduce framework foranalyzing next-generation DNA sequencing data,”Genome Res.,20:1297-1303,2010;DePristo et al.,“A framework for variation discovery and genotyping usingnext-generation DNA sequencing data,”Nat.Gen.,43:491-498,2011;和 Van derAuwera et al.,“From FastQ Data to High-Confidence Variant Calls:The GenomeAnalysis Toolkit Best Practices Pipeline,”Curr.Prot. Bioinfo.,43:11.10.1-11.10.33,2013(均通过引用并入本文)。
GATK提供了多种可用于分析高通量测序数据的工具。利用共同 架构和强大的引擎,这些工具可以链接到脚本化工作流中以执行简单 到复杂的“阅读片段到结果”的分析。
GATK的主要焦点在于变体发现和基因分型,同时特别强调数据 质量保证。自2010年以来,发表在高影响力科学期刊上的150多篇 研究论文成功地利用了GATK来解决各种研究问题。GATK已成为用 于确定亚群体特异性突变的工业标准。软件包可以使用通过各种不同 的测序技术生成的数据,包括阅读片段、质量评分、比对和元数据(例 如测序道、原点中心、样品名称等)的BWA的bam文件。GATK还 可以处理来自任何生物体(包括人)以及具有任何水平的倍性的基因组 数据(例如具有多倍性的植物基因组)。
在一个实施方案中,本发明的方法使用GATK的变体发现工具之 一(HaplotypeCaller)来鉴定诸如SG片段bam文件或MP片段bam文 件的输入bam文件的SNP和插入缺失。在一个实施方案中,输入bam 文件是具有至少20-30倍的序列覆盖度的SG片段bam文件,例如至 少约20倍、25倍、30倍、35倍、40倍、45倍或约50倍的覆盖度。 在某些实施方案中,仅使用SG bam文件来鉴定SNP和插入缺失。在 某些实施方案中,仅使用MP bam文件来鉴定SNP和插入缺失。在某 些实施方案中,SG和MP bam文件两者均用于鉴定SNP和插入缺失。
HaplotypeCaller工具通过在活性区域中单倍型的局部重新组装同 时识别SNP和插入缺失。它利用从中进行识别的输入bam文件,并 生成具有原始的、未过滤的SNP和插入缺失识别的输出VCF文件。 然后在下游分析中使用之前,这些可以通过变体重新校准(最佳)或硬 过滤来进行过滤。HaplotypeCaller的基本操作如下进行:
1.定义活性区域
该程序基于存在变异的显著证据来确定其需要在基因组的哪些 区域上操作。
2.通过活性区域的重新组装来确定单倍型
对于每个活性区域(ActiveRegion),该程序构建De Bruijn样图 以重新组装活性区域,并确定数据中存在的可能的单倍型是什么。然 后,该程序使用Smith-Waterman算法重新将每个单倍型与参考单倍 型比对,以便鉴定潜在的变体位点。
3.确定单倍型给出阅读片段数据的可能性
对于每个活性区域,该程序使用PairHMM算法执行每个阅读片 段对每个单倍型的成对比对。这产生单倍型给出阅读片段数据的可能 性的矩阵。然后这些可能性边缘化以获得每个潜在变体位点的等位基 因给出阅读片段数据的可能性。
4.对样品分配基因型
对于每个潜在的变体位点,该程序应用贝叶斯(Bayes)规则, 使用等位基因给出阅读片段数据的可能性来计算个样品的每个基因 型给出对于该样品观察到的阅读片段数据的可能性。最有可能将基因 型然后分配给样品。
在相关实施方案中,本发明的方法使用GATK的另一种变体发现 工具-UnifiedGenotyper-来鉴定输入bam文件(例如SG片段bam文件 或MP片段bam文件)的SNP和插入缺失。在一个实施方案中,输入 bam文件是具有至少20-30倍的序列覆盖度的SG片段bam文件,例 如至少约20倍、25倍、30倍、35倍、40倍、45倍或约50倍的覆盖 度。在某些实施方案中,仅使用SG bam文件来鉴定SNP和插入缺失。 在某些实施方案中,仅使用MP bam文件来鉴定SNP和插入缺失。在 某些实施方案中,SG和MP bam文件两者均用于鉴定SNP和插入缺失。
UnifiedGenotyper是一个变体识别器(caller),它联合了几种相异 识别器的途径,且它适用于单样品和多样品数据。数据输入可以尤其 是bam文件。输出是VCF格式的原始的、未过滤的、高度灵敏的识 别集(callset)。在某些实施方案中,使用识别后过滤器(例如变体质量 得分重新校准(Variant Quality Score Recalibration))来消除某些假阳性识别。在某些实施方案中,广义倍性模型用于处理非二倍体或合并的 样品。
在某些实施方案中,UnifiedGenotyper用于鉴定SNP。在某些实 施方案中,使用HaplotypeCaller来鉴定插入缺失。
与较小的基因组变异如SNP相比,由于与SV/CNV检测和分析 相关的大得多的分析挑战,SV/CNV的准确检测、基因分型和理解是 滞后的。可以使用高通量测序数据和不同的分析方法(如耶鲁大学开 发的那些方法)来分析和检测SV和CNV。例如,vcf2diploid是个人基因组构造器,其可以通过将个人变体包含到参照基因组中来构建个 人二倍体基因组序列。参见Rozowsky et al.,“AlleleSeq:analysis of allele-specific expression andbinding in a network framework,”Mol. Syst.Biol.,7:522.doi:10.1038/msb.2011.54(2011,通过引用并入)。 CNVnator是用于从阅读片段定位的深度发现和基因分型CNV的工具。参见Mills et al.,“Mapping copy number variation by population-scale genomesequencing,”Nature,470(7332):59-65.doi: 10.1038/nature09708(2011);和Abyzov etal.,“CNVnator:an approach to discover,genotype,and characterize typical andatypical CNVs from family and population genome sequencing,”Genome Res.,21(6):974-84. doi:10.1101/gr.114876.110(2011)(两者均通过引用并入)。AGE是一种 实现用于具有SV的序列的最佳比对的算法的工具。参见Abyzov和 Gerstein,“AGE:definingbreakpoints of genomic structural variants at single-nucleotide resolution,through optimal alignments with gap excision,”Bioinformatics,27(5):595-603.doi:10.1093/bioinformatics/ btq713(2011)(通过引用并入)。BreakSeq是用于在单核苷酸分辨率下对 SV进行注释、分类和分析的流程。参见Lam et al, “Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpointlibrary,”Nat.Biotechnol.,28(1):47-55.doi: 10.1038/nbt.1600(2010)(以引用方式并入)。PEMer是用于通过配对阅 读片段定位发现SV的计算和模拟框架。参见Korbel et al.,“PEMer:a computational framework with simulation-based error models forinferring genomic structural variants from massive paired-end sequencingdata,”Genome Biol.,10(2):R23.doi:10.1186/gb-2009-10-2-r23(2009); 和Korbel etal.,“Paired-end mapping reveals extensive structural variation in the humangenome,”Science,318(5849):420-6(2007)(均通 过引用并入)。
在某些实施方案中,使用SG和/或MP bam文件,使用公开可得 的CNVnator包(可以在http://sv.gersteinlab.org/cnvnator/自由获得,并 且可以应用于各种人类和非人类基因组)来鉴定CNV,其从来自下一 代测序平台的短阅读片段的定位密度的统计分析(即,阅读深度分析 (RD))来检测CNV。与先前的基于RD的途径(其被限制在仅用于以差 断点分辨率发现大型CNV的基因组的独特区域)相反,CNVnator能 够在整个基因组中发现从几百个碱基到百万碱基的长度的巨大大小 范围的CNV。更具体地说,为了计算RD信号,CNVnator将整个基 因组划分成相等大小的非重叠单元(bin),并且使用每个单元内的定位 的阅读片段的计数作为RD信号。然后,它将生成的信号分配到具有 假定不同的基础拷贝数的区段中。通过对区段应用统计显著性检验来 预测推定的CNV。分配是基于最初在计算机科学中开发的用于图像 处理的均值漂移技术。
具体地,可以使用任何合适的测序方法(例如任何NGS,包括但 不限于Illumina/Solexa,Roche/454和Life Technologies/SOLiD测序技 术平台)获得SG和/或MP片段的测序数据。然后使用这种测序数据 来生成SG/MP bam文件。CNVnator软件包然后用于根据SGbam文 件、MP bam文件或两者来识别/鉴定CNV。
可以使用本发明的方法,通过使用与Yao et al.,“Long Span DNA Paired-End-Tag(DNA-PET)Sequencing Strategy for the Interrogation of Genomic StructuralMutations and Fusion-Point-Guided Reconstruction of Amplicons,”PLOS One,7(9):e46152(2012)(通过引用并入)中描述 的方法基本相同的方法利用SG和/或MP bam文件识别这种基因组变 异来鉴定SV(包括拷贝数中性(非CNV)的SV)。该方法可以以与 DNA片段的紧密大小选择相关的小插入片段大小文库(例如亚千碱基 范围)且对于小染色体内重排的更高灵敏度来鉴定SV。该方法还可以 鉴定与基因组的较高物理覆盖度相关的较大插入片段大小文库(例 如,千碱基到数万碱基的范围),其具有断点区域的较不精确定位的 可能缺陷。也就是说,较大的插入片段大小具有较高的物理覆盖度并 允许跨越重复区域,因此倾向于最大化克隆覆盖度并且在减少测序工 作的同时检测尽可能多的重排断点。另一方面,较小的插入片段大小 提供更好的定位信息,有利于鉴定跨度小于5kb的缺失,并且倾向于 鉴定更大数量的缺失,这是由于更精确的插入片段大小选择以及因此 更小的插入片段大小分布的标准偏差。此外,当作为几种插入片段大 小的组合文库一起使用时,使用该组合文库检测断点的概率高于仅使 用在文库中的一种类型的插入片段大小。
虽然大和小插入片段大小文库在定位断点方面具有相当的精度, 但是大的插入片段大小还使得能够基于融合点指导级联算法在重复 序列内更好地鉴定SV。
因此,在一个实施方案中,大小选择可用于构建相对较小尺寸(例 如,1、2、3、4、5kb等)的环状基因组片段。在其他实施方案中,大 小选择可用于构建相对较大尺寸(例如,5、6、7、8、9、10、15、20、 25、30、35、40、45、50或更多kb等)的环状基因组片段。在某些实 施方案中,在本发明的方法中使用不同/多个大小范围的环状基因组片 段。
使用上述方法,SV和MP片段的测序数据被编译在SG和MP bam 文件中,用于下面描述的SV检测方法中。
在某些实施方案中,在本发明的方法中使用MP bam文件来检测 SV。侧邻基因组DNA序列的标签序列也称为PET(配对末端标签)。 基于序列阅读片段的定位模式,PET可以被区分为一致的PET(cPET) 和相异的PET(dPET)。cPET定义为其中两个标签被定位到相同的染 色体,相同的链(以正确的5'至3'定序)和在预期的跨度范围内(例如, 1kb文库的3kb,10kb文库的20kb,和20kb文库的40kb等)的PET。 被cPET标准排除的PET被归类为dPET。嵌合dPET可由于文库构建 过程中的连接错误而产生。为了过滤掉这些,需要跨越相同融合点的 dPET来形成簇。在融合点周围簇集在一起的dPET的数量由簇大小或 簇计数表示。由簇的5'标签覆盖的基因组区域被定义为5'锚,并且由 簇的3'标签覆盖的基因组区域被定义为3'锚。
为了鉴定SV,具有一个重排点的SV可以由单个dPET簇鉴定, 例如在5'定位锚定区域远离3'定位锚定区域的情况中的缺失,在定位 顺序为3'到5'而不是正常的5'到3'的情况中的串联重复,在定位方向 颠倒(在不同的链上)的情况中的未配对倒位,以及在5'和3'锚定定位 到不同染色体的情况中的孤立易位。倒位、插入和平衡易位由两个紧 密定位的dPET簇鉴定。
为了将复杂区域中的断点与孤立的且不太复杂的SV进行分离, 可以建立基于断点的互连网络。将每个dPET簇锚区域的从起点和终 点按照文库的最大插入片段大小的延伸创建为搜索窗口以确定断点 的邻近。当相邻簇的窗口彼此重叠时,dPET簇被分组为超级簇。可 以结合在一起形成超级簇的dPET簇的数量由超级簇大小或超级簇计 数表示。
在某些实施方案中,使用不同大小选择的插入片段尺寸。在这些 实施方案中,可以基于延伸单个文库插入片段大小的5'和3'锚区域的 重叠来执行跨不同插入片段大小文库的dPET簇。例如,为了比较跨 10kb和20kb插入片段大小文库的dPET簇,簇的5'和3'锚区域将朝 向断点延伸文库的最大长度以创建搜索窗口。如果来自属于相同SV 类型的其他插入片段大小文库的dPET簇的5'和3'锚区域落入搜索窗 口中,则簇将被分组为共同SV。如果在搜索窗口中没有找到其他簇, 则簇将被分类为对于该插入片段大小文库特异性的SV。
在某些实施方案中,本发明的方法还包括使用荧光原位杂交 (FISH)来验证所鉴定的SV,或将SV置于细胞遗传学背景中。
在某些实施方案中,本发明的方法还包括通过例如基因组PCR 和Sanger测序验证所鉴定的SV的断点。
在某些实施方案中,本发明的方法还包括通过使用融合点指导级 联算法重建全基因组重排或鉴定的SV。特别地,基于由dPET簇鉴定 的断点并通过鉴定没有物理cPET覆盖的附加断点来组装参考基因组 到重叠群的分段。然后在连接的cPET存在下,在参考基因组上连续 的重叠群通过参考边缘连接。相应地,由dPET簇连接的重叠群由 dPET边缘表示,其中边缘通过簇的大小衡量。然后以如下方式鉴定 局部放大的区域:首先,选择具有最高权重的dPET边缘,并将与该 边缘相邻的重叠群添加到扩增子图中。然后,对于图中的每个重叠群, 只要其邻居被认为是放大的(cPET估计拷贝数大于2),则该邻居也使 用参考和dPET链接添加。扩增子图增长,直到以这种方式没有更多 的重叠群添加。然后在未使用的dPET边缘上重复该过程,直到没有 剩余的,导致一组局部扩增子图,并且仅进一步考虑具有多于两个重 叠群的图。
4.疾病和病症中基因组变异的检测
本发明的方法可用于检测来自任何生物体的单一测定中的所有 类型的基因组变异。本发明的方法特别可用于鉴定已知具有复杂的基 础基因组缺陷的某些人类疾病或病症中的这类基因组变异。
在某些实施方案中,本发明的方法可以用于检测自闭症谱 系障碍(ASD)患者或疑似患有ASD或处于发展ASD的高风险中的患 者的基因组变异。
ASD越来越多地被诊断为关联的发育障碍的集合,其特征在于社 会互动和交流中的异常、兴趣限制和重复行为。除了典型的自闭症或 自闭症障碍之外,美国精神病学协会(APA)精神障碍诊断与统计手册 (DSM-5)的第五版还确认了阿斯伯格综合症、儿童崩解障碍和作为 ASD的未分类的广泛性发育障碍(PDD-NOS)。
像精神分裂症一样,在ASD中已经发现了超过100个不同基因 座的突变,使得本发明的方法特别适用于阐明任何个体ASD患者的 复杂的基础遗传缺陷。
ASD是一种神经发育障碍(NDD),后者还包括脆性X综合征 (FXS)、安格曼综合征、结节性硬化复合征、佩伦麦克德尔综合征、 Rett综合征、CDKL5突变(其也与Rett综合征和X连锁的婴儿痉挛症 障碍相关)等。许多但不是全部NDD都是由遗传突变引起的。一些 NDD患者表现自闭症的行为和症状。因此,本发明的方法也可以用 在这些NDD中。
在某些实施方案中,本发明的方法可用于检测由多个基因或基因 与环境之间的相互作用产生的其他复杂疾病中的基因组变异。这样的 复杂疾病可以包括但不限于:阿尔茨海默病,哮喘,帕金森病,糖尿 病,肥胖症,心脏疾病,癌症,高血压,其他熟悉的心脏和循环系统 的疾病,精神疾病如精神分裂症和抑郁症,炎性自身免疫性疾病如关 节炎和克罗恩病,多发性硬化症等。
实施例
实施例1
使用本发明的方法,鉴定了自闭症患者P46107中的各种基因组 变异,并且基于下表中的大小列出了表征的基因组变异。“DNA-PET” 代表MP测序数据。
具体来说,患者样品是从医院获得的,并且在测序和分析前将样 品匿名化。使用AllPrep DNA/RNA Mini Kit(Qiagen)根据制造商的说 明书从样品中提取基因组DNA。使用如上所述的本发明的方法制备 DNA测序文库。简言之,基因组DNA样品被同时片段化并用结合衔 接子使用Illumina配置的配对转座体进行标记。标签化后,使用聚合 酶通过链置换反应来填充标签化的DNA中的短单链序列缺口。6-8kb 的基因组DNA片段通过Sage PippinPrep选择。然后将大小选择的片 段在平端化分子内连接中进行环化,其中过夜温育进行优化以最大化 将形成环状分子的片段数。然后将环化的DNA片段物理剪切成平均 约400-500bp大小的片段。在将Illumina TruSeq衔接子连接到片段化 的DNA之前,对剪切的片段进行末端修复和A-加尾反应。根据制造 商的建议,片段化的DNA通过Illumina Hi-Seq2500以2×150bp测 序。
在序列中使用结合衔接子,基于序列分析分别分选出MP和SG 片段序列。然后将MP和SG序列分别定位到参考人类基因组,以产 生两个bam文件。然后将定位的SG和/或MP bam文件用于如上所述 的所有遗传变异检测。将从样品检测到的基因组变异分类和总结在下表中。
明显地,MP测序数据最适合于检测较大大小的缺失(例如5kb及 以上),而SG测序数据更适用于鉴定较小大小的缺失(5kb或更小)。 一些变异也可以通过SG和MP测序数据两者检测到。这表明通过本 发明的方法使用来自一个患者样品的单次测序运行可以有效地检测 所有类型的基因组变异(尺度大和小的)。
实施例2
使用本发明的方法,鉴定了五个自闭症患者中的各种基因组变 异,并且将结果与使用基于阵列CGH和外显子测序的当前标准测定 法从相同患者鉴定的那些进行比较。
比较表明,对于通过传统aCGH测定法鉴定的每个CNV结构变 异,存在通过本发明方法鉴定的完美匹配。然而,本发明的方法鉴定 出未由CGH鉴定的多得多的基因组变异,因此代表使用本发明的方 法鉴定更多新变体的机会。
例如,对于患者DBS0005(自闭症谱系障碍),产 后高密度SNP阵列测试显示在5q23.3的染色体区域具有383.4kb的 缺失,包括LYRM7和HINT1基因。使用本发明的方法鉴定了相同染 色体区域(Chr5:130140673-130520365)中的383.591bp的缺失。
在另一个实施例中,对于患者DBS0010(自闭症,具有言语迟缓), 全基因组阵列CGH+SNP分析的GeneDX GenomeDx报告揭示,患 者在细胞遗传学带12q24.33内携带至少302kb的区域的重复,该重复 的间隔区包含7个已知基因。使用本发明的方法,鉴定了相同chr.12 区域(133091631-133393167)中的312,717bp串联重复。
本发明的方法还鉴定了未被传统方法aCGH鉴定的以下患者特异 性缺失。本发明的方法能够鉴定多得多的基因组变异的部分原因是因 为aCGH具有显著的分辨率限制,使得它只可能可靠地检测大于 200kb的缺失,而本发明的方法可以高得多的分辨率检测缺失,从几 百个碱基对到数百kb。
#染色体 开始 结束 PET 文库数据 长度 患者
chr5 130135661 130519252 3 05MP 383591 1
chr19 22247416 22354747 5 05MP 107331 1
chr6 32627700 32728875 3 11MP 101175 1
chr3 46792449 46855433 2 10MP 62984 1
chr14 41608541 41670629 5 07MP 62088 1
chr5 180372247 180432857 5 07MP 60610 1
chr18 65845338 65898923 5 11MP 53585 1
chr17 36350127 36401848 4 08MP 51721 1
chr13 57748565 57793423 13 10MP|05MP|11MP|08MP 43354 4
chr3 165260606 165301500 4 10MP 40476 1
chr14 106881396 106921067 11 10MP|11MP|08MP 39671 3
chr9 26273861 26307251 3 08MP 33390 1
chr11 5781499 5809819 9 08MP|07MP 28320 2
chr11 7808451 7836017 3 05MP 27566 1
chr7 98327136 98354556 5 07MP 27420 1
chr8 75306918 75332958 2 10MP 26040 1
chr6 77436241 77462270 10 07MP|11MP 25830 2
chr4 64691440 64715803 5 07MP 24363 1
chr7 120711692 120737159 4 10MP 23690 1
chr9 5384921 5408601 4 05MP 23680 1
chr8 2246798 2270107 5 10MP 23309 1
*患者1-5分别是DBS0005、0007、0008、0010和0011。
共有>10kb的273个缺失和>20kb的29个缺失。
类似地,对于SNP来说,通过传统的外显子测序报道的51个SNP 中49个也通过本发明的方法鉴定,96%的匹配。事实上,对于2个 SNP的差异,不确定是否是由于外显子测序方法的假阳性鉴定或者是 由于本发明的方法的假阴性鉴定所导致。
具体来说,将Courtagen基因小组SNP数据与通过本发明的方法 鉴定的SNP进行比较,并将5名患者的结果总结如下。
Courtagen 申请人 匹配(%)
DBS0005 7 7 100
DBS0007 6 6 100
DBS0008 3 3 100
DBS0010 4 3 75
DBS0011 4 3 75
更具体地,在患者DBS0005中,以下基因中的以下SNP通过 Courtagen和本发明的方法鉴定:
基因 Courtagen 申请人 匹配
CREBBP G/A G/A
HOXA1 T/C T/C
MAP2K2 G/A G/A
MET T/C T/C
NHS C/T C/T
RELN C/T C/T
TSC1 G/A G/A
在患者DBS0007中,以下基因中的以下SNP通过Courtagen和 本发明的方法鉴定:
在患者DBS0008中,以下基因中的以下SNP通过Courtagen和 本发明的方法鉴定:
基因 Courtagen 申请人 匹配
MED12 G/A G/A
MED23 TTC/T TTC/T
RAF1 C/T C/T
在患者DBS0010中,以下基因中的以下SNP通过Courtagen和 本发明的方法鉴定:
基因 Courtagen 申请人 匹配
NRXN1 G/A G/A
SGSH G/C G/C
TRAPPC9 C/T C/T
TSC2 T/C
在患者DBS0011中,以下基因中的以下SNP通过Courtagen和 本发明的方法鉴定:
简而言之,基于这5个患者的数据集,本发明的方法性能非常好, 并且表现出作为鉴定所有基因组变异的新标准来替代多个现有标准 测定法的巨大潜力。

Claims (20)

1.一种用于检测生物体基因组中的基因组变异的方法,所述方法包括:
(1)将生物体的基因组DNA片段化以产生多个基因组DNA片段;
(2)用标签序列标记所述基因组DNA片段的末端;
(3)在促进平端分子内连接的条件下连接所述基因组DNA片段的被标记的末端,以产生具有连接的标签序列的多个环化基因组DNA片段;
(4)通过鸟枪片段化将所述多个环化基因组DNA片段片段化,以产生:
(a)多个配对(MP)片段,每个配对(MP)片段包含侧邻侧翼基因组DNA的所述连接的标签序列;和,
(b)多个鸟枪(SG)片段;
(5)测定所述MP片段和所述SG片段的序列;和,
(6)基于所述SG片段的序列和所述MP片段的序列,鉴定所述生物体基因组中的所述基因组变异。
2.根据权利要求1所述的方法,其中所述基因组变异包括以下的一种或多种:单核苷酸多态性(SNP)、小插入缺失(indel)、串联碱基突变(TBM)、拷贝数变异(CNV)、结构变异(SV)及其组合。
3.根据权利要求1所述的方法,其中步骤(1)和(2)同时进行。
4.根据权利要求3所述的方法,其中步骤(1)和(2)通过转座子介导的标签化实现。
5.根据权利要求4所述的方法,其中转座子介导的标签化通过Tn5转座酶进行。
6.根据权利要求1所述的方法,其中所述多个基因组DNA片段在步骤(3)之前进行大小选择。
7.根据权利要求6所述的方法,其中大小选择约4-10kb或约6-8kb的基因组DNA片段。
8.根据权利要求1所述的方法,其中在步骤(4)-(6)之前通过DNA外切核酸酶消化除去未环化的或线性的基因组DNA片段。
9.根据权利要求1所述的方法,其中分别或同时测定所述MP片段和所述SG片段的序列。
10.根据权利要求1所述的方法,其中所述SG片段具有约400bp、450bp或500bp的平均大小。
11.根据权利要求1所述的方法,其中所述MP片段具有约400bp、450bp或500bp的平均大小。
12.根据权利要求1所述的方法,其中所述MP片段和所述SG片段在步骤(5)之前彼此分离。
13.根据权利要求1所述的方法,其中所述MP片段和所述SG片段在步骤(5)之前不彼此分离。
14.根据权利要求1所述的方法,其中所述基因组DNA片段的被标记末端在步骤(3)之前被修复以促进平端连接。
15.根据权利要求1所述的方法,其中步骤(6)包括将所述侧翼基因组DNA的序列和所述鸟枪片段的序列定位到所述生物体的基因组序列。
16.根据权利要求1所述的方法,其中通过高通量测序测定所述基因组DNA的序列。
17.根据权利要求16所述的方法,其中所述高通量测序选自下组:单分子实时测序、离子半导体(Ion Torrent)测序、焦磷酸测序(454)、合成法测序(Illumina)、连接法测序(SOLiD测序)、聚合酶克隆测序、大规模平行签名测序(MPSS)、DNA纳米球测序、单分子纳米孔测序仪和Heliscope单分子测序。
18.根据权利要求16所述的方法,其中所述高通量测序对于所述侧翼基因组DNA和/或鸟枪片段产生30、40、50、60,70、80、90、100或更多倍的覆盖度。
19.根据权利要求1所述的方法,其中所述生物体是人、非人灵长类、哺乳动物、啮齿动物(大鼠、小鼠、仓鼠、兔)、牲畜(牛、猪、马、绵羊、山羊)、鸟(鸡)、爬行动物、两栖动物(爪蟾属)、鱼(斑马鱼(Danio rerio)、河豚鱼)、昆虫(果蝇、蚊子)、线虫、寄生虫、真菌(酵母,例如酿酒酵母或粟酒裂殖酵母)、植物、细菌或病毒。
20.根据权利要求1所述的方法,其中所述生物体是患有选自以下的疾病或病症的人:自闭症(自闭症谱系障碍(ASD))、癌症或遗传性疾病。
CN201680027492.0A 2015-04-02 2016-04-01 使用环化的配对文库和鸟枪测序检测基因组变异的方法 Pending CN107889508A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562142088P 2015-04-02 2015-04-02
US62/142,088 2015-04-02
PCT/US2016/025475 WO2016161236A1 (en) 2015-04-02 2016-04-01 Method for detecting genomic variations using circularised mate-pair library and shotgun sequencing

Publications (1)

Publication Number Publication Date
CN107889508A true CN107889508A (zh) 2018-04-06

Family

ID=55795182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680027492.0A Pending CN107889508A (zh) 2015-04-02 2016-04-01 使用环化的配对文库和鸟枪测序检测基因组变异的方法

Country Status (11)

Country Link
US (1) US20180135120A1 (zh)
EP (1) EP3277840A1 (zh)
JP (1) JP2018509928A (zh)
KR (1) KR20170133420A (zh)
CN (1) CN107889508A (zh)
AU (1) AU2016242953A1 (zh)
CA (1) CA2980769A1 (zh)
HK (1) HK1250171A1 (zh)
IL (1) IL254713A0 (zh)
SG (2) SG10201909182WA (zh)
WO (1) WO2016161236A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114438182A (zh) * 2022-02-18 2022-05-06 杭州柏熠科技有限公司 基于纳米孔测序的进境植物检疫性病毒鉴定方法及应用
WO2023240947A1 (zh) * 2022-06-14 2023-12-21 湖南大学 一种基于信息论检测新冠病毒谱系间重组的方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110964795B (zh) * 2018-12-13 2020-09-18 北京先声医学检验实验室有限公司 基于纳米孔测序平台的肺泡灌洗液样本建库方法、鉴定方法及试剂盒
JP6883600B2 (ja) * 2019-03-07 2021-06-09 シスメックス株式会社 医療関係者による遺伝子情報の解釈を支援する方法、情報管理システム、統合データ管理装置
CN110349635B (zh) * 2019-06-11 2021-06-11 华南理工大学 一种基因测序数据质量分数的并行压缩方法
CN113724788B (zh) * 2021-07-29 2023-09-12 哈尔滨医科大学 一种鉴定肿瘤细胞的染色体外环状dna组成基因的方法
US20230121442A1 (en) 2021-10-06 2023-04-20 Johnson & Johnson Consumer Inc. Method of Quantifying Product Impact on Human Microbiome

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012061832A1 (en) * 2010-11-05 2012-05-10 Illumina, Inc. Linking sequence reads using paired code tags
WO2012106546A2 (en) * 2011-02-02 2012-08-09 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
WO2014142850A1 (en) * 2013-03-13 2014-09-18 Illumina, Inc. Methods and compositions for nucleic acid sequencing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE437945T1 (de) 2003-01-29 2009-08-15 454 Corp Verfahren zur amplifikation und sequenzierung von nukleinsäuren
JP2011510669A (ja) * 2008-02-05 2011-04-07 エフ.ホフマン−ラ ロシュ アーゲー ペアエンド配列決定の方法
US8383345B2 (en) * 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012061832A1 (en) * 2010-11-05 2012-05-10 Illumina, Inc. Linking sequence reads using paired code tags
WO2012106546A2 (en) * 2011-02-02 2012-08-09 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
WO2014142850A1 (en) * 2013-03-13 2014-09-18 Illumina, Inc. Methods and compositions for nucleic acid sequencing

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HONGSHAN JIANG等: "Skewer: a fast and accurate adapter trimmer for next-generation sequencing paired-end reads", 《BMC BIOINFORMATICS》 *
ILLUMINA: "Mate Pair Library v2 Sample Preparation Guide for 2-5 kb Libraries", 《ILLUMINA》 *
JARROD A. CHAPMAN等: "Meraculous: De Novo Genome Assembly with Short Paired-End Reads", 《PLOS ONE》 *
KAORI TATSUMI等: "Optimization and cost-saving in taqmentation-basedmate-pair iibrary preparation and sequencing", 《BIOTECHNIQUES》 *
RACHEL MARINE等: "Evaluation of a transposase protocol for rapid generation of shotgun high-throughput sequencinglibraries from nanogram quantities of DNA", 《APPLIED AND ENVIRONMENTAL MICROB10LOGY》 *
STEVEN R HEAD等: "Library construction for next-generation sequencing: Overviews and challenges", 《BIOTECHNIQUES》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114438182A (zh) * 2022-02-18 2022-05-06 杭州柏熠科技有限公司 基于纳米孔测序的进境植物检疫性病毒鉴定方法及应用
CN114438182B (zh) * 2022-02-18 2024-04-05 杭州柏熠科技有限公司 基于纳米孔测序的进境植物检疫性病毒鉴定方法及应用
WO2023240947A1 (zh) * 2022-06-14 2023-12-21 湖南大学 一种基于信息论检测新冠病毒谱系间重组的方法

Also Published As

Publication number Publication date
KR20170133420A (ko) 2017-12-05
AU2016242953A1 (en) 2017-10-12
HK1250171A1 (zh) 2018-11-30
SG10201909182WA (en) 2019-11-28
EP3277840A1 (en) 2018-02-07
SG11201707909YA (en) 2017-10-30
IL254713A0 (en) 2017-11-30
US20180135120A1 (en) 2018-05-17
CA2980769A1 (en) 2016-10-06
JP2018509928A (ja) 2018-04-12
WO2016161236A1 (en) 2016-10-06

Similar Documents

Publication Publication Date Title
US20200056232A1 (en) Dna sequencing and epigenome analysis
Quinodoz et al. Higher-order inter-chromosomal hubs shape 3D genome organization in the nucleus
CN107889508A (zh) 使用环化的配对文库和鸟枪测序检测基因组变异的方法
Su et al. Next-generation sequencing and its applications in molecular diagnostics
Berglund et al. Next-generation sequencing technologies and applications for human genetic history and forensics
Wadapurkar et al. Computational analysis of next generation sequencing data and its applications in clinical oncology
Medvedev et al. Computational methods for discovering structural variation with next-generation sequencing
JP6054303B2 (ja) 腫瘍試料の多重遺伝子分析の最適化
EP2970958B1 (en) Methods of sequencing the immune repertoire
CN103582887B (zh) 提供核苷酸序列数据的方法和测序装置
Bocklandt et al. Bionano genome mapping: high-throughput, ultra-long molecule genome analysis system for precision genome assembly and haploid-resolved structural variation discovery
CN108885648A (zh) 用于分析核酸的系统和方法
CN109477101B (zh) 从保存的样品中回收长范围连锁信息
CN110800063A (zh) 使用无细胞dna片段大小检测肿瘤相关变体
Jun et al. Single-cell analysis of a mutant library generated using CRISPR-guided deaminase in human melanoma cells
US20220267826A1 (en) Methods and compositions for proximity ligation
Miga The promises and challenges of genomic studies of human centromeres
Kim et al. Barcoded multiple displacement amplification for high coverage sequencing in spatial genomics
Chaitanya et al. Genome sequencing, assembly, and annotation
Zhegalova et al. Convergent gene pairs restrict chromatin looping in Dictyostelium discoideum, acting as directional barriers for extrusion
Richard Statistical methods for analysing high throughput sequencing data
Spacek Development and Application of High-Throughput Sequencing Based Methods to Explore Human Variation and Disease
Smith Genetic and Epigenetic Identity of Centromeres
Frio High-Throughput Technologies: DNA and RNA sequencing strategies and potential
Mikičić Experimental methods in functional genomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180406