CN105874081A - 遗传分析方法 - Google Patents
遗传分析方法 Download PDFInfo
- Publication number
- CN105874081A CN105874081A CN201480066775.7A CN201480066775A CN105874081A CN 105874081 A CN105874081 A CN 105874081A CN 201480066775 A CN201480066775 A CN 201480066775A CN 105874081 A CN105874081 A CN 105874081A
- Authority
- CN
- China
- Prior art keywords
- section
- dna
- primary section
- fragment
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了靶DNA基因组的分析方法。该方法包括以下步骤:‑获得一段靶DNA序列的非重叠区段,其具有通过特定限制性酶识别位点的存在界定的区段边界,借此组装所述非重叠区段构成所述靶DNA基因组的简化代表文库;‑获得所述区段的来自应用于所述简化代表文库的测序方法的原始度量;‑将具有相似原始度量的非重叠附近区段聚类以提供主区段;‑提供描述主区段的度量,‑基于主区段和其度量产生最终离散DNA检出。
Description
发明领域
本发明总的来说涉及DNA分析的领域。更具体地,其应用于用于DNA分型的数据分析领域。本发明描述了允许核酸信息的快速可靠解释的方法和系统。
引言
下一代测序(NGS)已使得能够产生大规模基因组序列数据。理论上,有可能从NGS数据检测单核苷酸多态性(SNP)、分子或拷贝数变异(CNV)。然而,来自NGS的全基因组数据处理和变异检出(variant calling)由于现有技术中的许多缺点而面临统计推断问题。
许多问题产生于这样的事实,即大部分NGS平台产生大量以短的读取长度的形式存在的数据。大量短的读取长度使得基因组的组装困难且费时。由于产生大量数据的事实,因此NGS还遭遇数据存储和数据传输的挑战。由于读取长度的短小,NGS也面临着重复DNA的区域中产生的比对的模棱两可。
用于进一步处理的NGS数据类型输入产生了其它问题。大多数统计方法将NGS数据总结成离散碱基检出、离散多态性检出和离散亲本信息检出中及将这用作输入信息以用于它们的进一步分析。将离散检出用作输入可滤除适用于较后期(诸如在需要假像校正的下游数据分析过程中)的信息。
在具体设置中,不足量的样品材料的可得性可能需要使用多重置换扩增(MDA)或基于PCR的方法来进行额外的样品处理诸如全基因组扩增(WGA)和部分基因组扩增(PGA),这将导致具有不完全基因座或不正确覆盖的NGS数据(例如等位基因脱扣(allele dropout)或某些基因组区域优先于其它区域的扩增)。
从上可见,似乎存在对序列数据管理的改进的结构化方式、数据可访问性和序列数据的可靠计算机分析的持续需要。
EP1951897(Handyside)公开了对靶细胞进行核型分析以检测其中的染色体不平衡的方法。该方法聚焦在靶细胞的整个染色体上的紧密相邻的双等位基因SNP的探询,和将结果与父本和母本染色体的SNP单体型相比较以组装父本起源和母本起源的靶细胞染色体的概念单体型。在随后的步骤中,评估父本起源和母本起源的靶细胞染色体的概念SNP单体型以检测靶细胞中的染色体的非整倍性或检测可能与可遗传病症相连锁的靶等位基因的遗传。该方法只将信息或半信息SNP用作输入度量以用于分析。
WO2013/052557(Natera等)描述了用于测定胚胎在来自胚胎的DNA样品的染色体上的倍性状态的方法。通过靶向扩增在多个基因座上扩增来自一个或多个来自胚胎的活检细胞的DNA,对所述DNA进行测序,并计数与目标染色体上的多个基因座的每一个相关的序列数据中的序列读取的数目。随后将特定基因座上所观察读取数与基于参照数据的该特定基因座上的预测读取数相比较以得出关于胚胎的倍性状态的结论。该方法从而比较针对靶样品获得的各基因座上的序列读取计数与针对参照样品中的同一基因座获得的序列读取计数。该方法不允许与可遗传病症相关的风险等位基因的诊断。
两篇参考文献(Elshire等2011;De Donato等2013)描述了使用限制性酶分割靶DNA的通过测序进行基因分型(genotyping-by-sequencing)。两种方法均使用读取数和SNP检出作为输入度量。Elshire等描述了这样的通过测序进行基因分型,其使用甲基化敏感性限制性酶消化来片段化靶DNA,随后进行测序,和鉴定可在高度多样性的大基因组植物中用作标志物的序列标签。De Donato等描述了使用这样的通过测序进行基因分型法,该方法使用限制性酶消化来片段化靶DNA,随后进行测序,和鉴定可用作用于牛中的基因组选择和全基因组关联研究的可接受标志物的SNP标志物。两种方法的目的在于鉴定标志物,并且两种方法均不允许在(亚)染色体CNV筛查、与可遗传病症连锁的风险等位基因的存在的诊断或平衡易位或倒位的存在的诊断方面进行分析。
Peterson等(2012)提供了用于产生用于在模式种和非模式种中进行SNP发现和基因分型的简化代表文库的方法。简化代表文库的产生包括用两种限制性酶消化基因组DNA、条形码衔接子连接、连接的片段的严格尺寸选择,随后以平均10倍的覆盖进行的测序。然而,该方法需要相对大量的基因组DNA(至少100ng)。此外,随后的测序数据分析要求关注倍性的过滤。对于二倍体个体只保留对于其大于90%的读取为两个频率最高的独特序列之一的推定的种间同源序列集(ortholog set)。这样,该方法不允许在不关注整倍性的情况(诸如对于测定非整倍性)下进行基因组DNA分析。此外,因为该方法仅保留含有两个频率最高的等位基因的读取,因此它丢弃了有价值的信息,诸如关于三等位基因多态性和具有等位基因混入(allele drop-in)错误的测序信息。由于所述方法被设计用于从头SNP发现,因此其不依赖于将观察到读取作图至参照基因组。所述方法因此也与将源于简化代表文库的非重叠附近区段聚类不兼容,因为所述区段在参照基因组中的相对和绝对位置是未知的。事实上,所述方法不进行任何类型的基于相似性的聚类来除去基因分型数据中的噪声。
最近,Zheng等(Zheng等2013)描述了使用靶向测序技术进行的拷贝数变异(CNV)的检测,所述靶向测序技术包括用单个限制性酶的限制性消化、第一衔接子的连接、超声处理(以进行DNA的随机物理剪切)、大小选择以及第二衔接子至随机剪切诱导的断裂点的连接。剪切在整个基因组中的随机位置上发生,从而不能用计算机预测。从肿瘤材料提取DNA,并将大量(2ug)用于酶消化步骤。将读取作图至完整基因组的小亚组,所述小亚组由与限制性位点相邻的侧翼区域组成。所述方法需要固定数目的连续限制性位点(不少于10个)的分组来允许读取深度谱的分散度的测量。在分析过程中固定分组的连续限制性位点的数目。所述方法要求通过与相邻非肿瘤样品的比较进行的杂合位点的鉴定,其中杂合位点
(1)需要被包含在SNP数据库dbSNP130中
(2)该SNP的序列读取的数目应当不少于20
(3)相邻非肿瘤样品中的SNP的较小等位频率应当不低于0.3
(4)两个SNP之间的间距应当为至少10bp
所述方法需要大量的从肿瘤样品和从相邻的健康组织样品提取的靶DNA(2ug),从而不适用于非肿瘤样品,诸如在胚胎植入前遗传学检查或胚胎筛查中。所述方法对于基因组CNV的鉴定是特异的并且不允许与可遗传病症连锁的风险等位基因的存在的诊断,或平衡易位和倒位的存在的诊断。
因此,仍然需要用于靶DNA基因组分析的具有增强的计算和存储效率的改进的方法。特别是对于其中少量基因组DNA是可获得的(例如仅100ng或更少)样品,诸如只含有少数细胞的样品。此外,例如在植入前检查领域中,需要用于全基因组非整倍性检测和家族遗传测定的改进的方法。
发明简述
本发明的目的是修补上述的所有或部分不利方面。本发明通过提供允许容易且快速解释基因组序列的方法和系统来实现这些目的。具体地,本发明的方法允许具有增强的计算和存储效率的全基因组分析并且特别适合于具有少量的基因组DNA的样品。
在一个实施方案中,本发明提供了靶DNA基因组的分析方法,所述方法包括以下步骤:
-使用应用于所述靶DNA基因组的简化代表文库的测序方法获得非重叠区段的原始度量,
其中已富集了所述简化代表文库的具有由预定的DNA序列界定的两个边界的靶DNA基因组片段;
-将具有相似原始度量的非重叠附近区段聚类以提供主区段(master segments);
-提供描述主区段的度量,其中所述度量包括一个或多个主区段的推断的边界、一个或多个主区段中观察到的读取数、所述一个或多个主区段中观察到的4-碱基频率、或所述主区段中的一个或多个主区段的祖先概率。
在另一个实施方案中,本发明提供了靶DNA基因组的分析方法,所述方法包括以下步骤:
-获得具有通过特定限制性酶识别位点的存在界定的区段边界的靶DNA片段的非重叠区段,其中所述非重叠区段的组装构成所述靶DNA基因组的简化代表文库;
-从应用于所述简化代表文库的测序方法获得所述区段、原始度量;
-将具有相似原始度量的非重叠附近区段聚类以提供主区段;
-提供描述所述主区段的度量,其中所述度量包括一个或多个主区段的推断的边界;一个或多个主区段中观察到的读取数、所述一个或多个主区段中观察到的碱基频率,或所述主区段中的一个或多个主区段的祖先概率。
在一个实施方案中,如本发明的方法中使用的原始度量包括碱基频率、读取计数、祖先信息中的任一个或其任意组合。在另一个实施方案中,如本发明的方法中使用的原始度量包括碱基频率、读取计数中的任一个或其组合。在又一个实施方案中,如本发明的方法中使用的原始度量包括包含祖先信息。在一个实施方案中,如本发明的方法中使用的原始度量包括碱基频率、读取计数和祖先信息。
在特定的实施方案中,聚类步骤至少基于碱基频率和读取计数。在另一实施方案中,聚类步骤还包括祖先信息。在本发明的方法,聚类为主区段优选地使用计算机模拟的基因组。在一个实施方案中,聚类为主区段使用系谱信息;特别是基于祖先概率和来源于系谱的信息。
本发明的方法使用来自基因组的良好界定的简化代表文库(reducedrepresentation library,RRL)的测序结果。这些测序结果给出了足够的杠杆作用来就概率产生关于分型或祖先起源的预测。
在一个实施方案中,本发明的方法还可包括产生靶DNA基因组的RRL和对靶基因组的RRL进行测序的步骤。
在一个实施方案中,本发明的方法可进一步包括对基于主区段或主区段相关度量的分析做一个声明的步骤。在一个实施方案中,本发明的方法还包括基于区段的聚类产生最终的离散DNA检出的步骤。该产生最终的离散DNA检出的步骤可以例如包括以下方面的一个或多个方面的基于概率的鉴定:染色体重组位点、(亚)染色体拷贝数目变异、缺失、不平衡或平衡易位、倒位、扩增、遗传性病症的风险等位基因的存在、第一次减数分裂或第二次减数分裂中的错误、平衡结构染色体异常;细胞的表观遗传学特征谱、镶嵌现象、人白细胞抗原(HLA)配型、噪声分型、拷贝数或祖先起源;特别是涉及以下方面的一个或多个方面的基于概率的鉴定:染色体重组位点、(亚)染色体拷贝数变异、缺失、不平衡或平衡易位、倒位、扩增、遗传性病症的风险等位基因的存在、第一次减数分裂或第二次减数分裂中的错误、平衡结构染色体畸变;细胞的表观遗传学特征谱、镶嵌现象、人白细胞抗原(HLA)配型、或噪声分型。在一个实施方案中,最终的离散DNA检出包括测定主区段的拷贝数或祖先起源。
在一个实施方案中,所述分析涉及染色体重组位点、拷贝数变异诸如(亚)染色体CNV、缺失、不平衡易位、扩增、遗传性病症的风险等位基因的存在、第一次减数分裂或第二次减数分裂中的不分离错误、平衡结构染色体异常(诸如平衡易位和倒位)、细胞的表观遗传学谱表征、镶嵌现象、人类白细胞抗原(HLA)配型、噪声分型或或更多的基于概率的鉴定。
许多技术有利方面与本发明的方法相关。通过应用RRL,需要对较少的DNA/样品进行测序,NGS运行时间得到减少,并且可在单个运行中合并更多样品,从而减少相关成本。
本发明的方法依赖于预定序列在靶DNA基因组中的存在来产生所述DNA基因组的简化代表文库。优选地,预定序列包含约4-8个预定碱基。在一个实施方案中,靶DNA基因组片段的两个边界由(特别是具有)不同的预定序列来界定。在特定的实施方案中,所述预定序列为限制性酶识别位点。所述实施方案依赖于限制性酶识别位点的存在来产生靶基因组的RRL。组装具有通过特定预定序列例如限制性酶识别位点的存在界定的区段边界的靶DNA片段的非重叠区段,以组成靶DNA的RRL。如将在发明详述中所解释的,许多有利方面与预定序列的使用相关,例如限制性酶识别位点的使用,诸如用于读取比对的稀疏参照基因组、改善的读取比对和定向扩增的使用。这导致用于数据分析的时间需要减少。
与现有分型方法相反,本发明的方法基于来源于区段聚类的度量作出关于分型或祖先起源的预测。区段聚类基于获自测序方法的原始度量的使用。更具体地,本发明的方法使用跨具有相似原始度量的非重叠附近区段的模式识别来提供由度量界定的主区段。这些度量可用于靶基因组的增强解释以及下游染色体分析,诸如可遗传病症的风险等位基因的存在、平衡和不平衡易位或倒位、缺失、扩增或(亚)染色体拷贝数变异的鉴定,或基因组的表观遗传学变化的评估,或断裂点或重组位点的鉴定等……
上述特征的组合使得分析结果更扎实、更高效和更可靠。所述方法在具有有限的靶DNA可用性的应用中是特别有利的。
具体地,本发明提供了用于全基因组靶DNA的分析方法,其包括获得如本文所述的全基因组简化代表文库,进行如本文所述的全基因组区段的聚类和任选地产生全基因组DNA检出。在特定的实施方案中,用于本发明的靶DNA基因组分析方法的靶DNA来源于少量的细胞,例如1-1000个细胞;特别是1-10个细胞。因此在另一实施方案中,本发明的方法用于来源于少量细胞的靶DNA(诸如例如来源于一个或多个卵裂球、来自滋养外胚层活检的细胞、一个或两个极体、在母体外周血循环中发现的胎儿细胞或无细胞胎儿DNA或循环肿瘤细胞或无细胞肿瘤DNA的靶DNA)的靶DNA基因组分析。
本发明克服了现有技术的缺点,并且可实现常规方法和系统未预见的其它优点。
附图简述
现具体地参考附图,要强调的是,显示的细节通过举例来说明,并且仅为了说明性论述本发明的不同实施方案的目的。显示它们是为了提供被认为是本发明的原理和概念方面的最有用和容易的描述的内容。在这方面,没有试图去显示比基本上理解本发明所必须的结构细节更详细的本发明的结构细节。采用附图的说明使本领域技术人员明了本发明的几种形式可如何在实践中体现。
图1:根据本发明的靶DNA基因组分析的优选实施方案的概述。
图2:从样品制备至测序的本发明的方法的优选实施方案的概述。
图3:关于测序数据处理的优选实施方案的概述。图3A:含有两种不同样品特异性条形码的NGS读取的解复用和读取作图。图3B:区段(二倍性)的聚类。图3C:区段(三倍性)的聚类。
发明详述
本发明可通过多种方式来实现,包括如过程或方法;装置;系统;物质组合物;在计算机可读存储介质和/或处理上具体化的计算机程序产品,诸如被配置来执行存储在耦合至处理器的内存上和/或由所述内存提供的指令的处理器。在本说明书中,这些实现方式或本发明可采用的任何其它形式可被称为方法。一般地,可在本发明的范围内改变所公开方法的步骤顺序。
如本文中所用,除非上下文明确地另有所指,否则术语“或”包含性“或”算符,并且等同于术语“和/或”。“一个(a)”、“一种(an)”和“该(the)”的含义包括复数引用。
本发明的一个方面是提供改进的靶DNA基因组分析方法。所述方法可以是完整的服务和产品的部分,包括受试者基因组的测序部分;序列数据变换;数据处理;数据存储;和报告。数据处理可包括解复用、作图、读取的计数、变体检出、降低噪声和定相(phasing)(当适用时)。
术语“受试者”或“靶”是指生物体诸如个体、人或其它动物(例如,猪、牛、小鼠等)等,或植物、细菌、古细菌或病毒。在特定的实施方案中,所述受试者或靶是指哺乳动物,诸如人、马、猪、牛等。在一些实施方案中,具有基因型的任何实体是受试者,包括胚胎(或其部分)、胎儿、植入前胚胎、精子、卵子…...在优选实施方案中,靶DNA基因组来源于人受试者,诸如胚胎、胎儿、精子、卵子或人个体。
靶DNA基因组分析方法使用通过测序方法获得的原始度量。与本发明相关的DNA测序技术包括第二、第三或第四代测序技术,包括、但不限于焦磷酸测序(例如Roche 454)、基于荧光的测序(例如Illumina HiSeq,Illumina MiSeq,Pacific Biosciences RS,PacificBiosciences RSII)、基于质子的测序(Ion Torrent PGM,Ion Torrent Proton)、基于纳米孔的测序(Oxford Nanpore Technologies MinION,Oxford Nanopore TechnologiesGridION)、基于纳米线的测序(QuantuMDx Q-SEQ,QuantuMDx Q-POC)。
将测序方法应用于将DNA分割成亚区以用于测序的简化代表文库。简化代表文库(RRL)具有能够以数量级减少基因组的复杂度的优点,其减少的程度可受到良好控制。采用该方法,只需对样品基因组的一部分进行测序,运行时间得到缩短,并且需要较少的数据存储和转移能力。本发明的方法中使用的RRL基于预定序列(诸如限制性酶识别位点(RERS))的存在。预定序列(诸如RERS)使用提供了相较于其它方法的一些益处。预定序列(诸如RERS)的使用使得能够产生将确定良好界定的基因组片段,其将定义用于测序读取作图的分子进入点。以这种方式,可有利于作图,并且相较于全基因组测序需要较少的存储和分析能力。另外,预定序列(诸如RERS)的使用使得能够进行定向扩增,从而增加末端不同的片段的分数(fraction)和减少末端相同的片段的分数。末端相同的片段通常是不想要的,如通过例如Illumina测序法举例说明的,其中末端相同的片段可结合流动槽(flowcell),但不能产生DNA序列读取。因此,在特定的实施方案中,已富集了简化代表文库的具有由不同预定DNA序列界定的两个边界的靶DNA基因组片段。
本发明人已意外地发现预定序列的使用产生了高效的NGS文库。事实上,基于1个或多个预定序列的富集通常会产生其的至少一部分在两个末端含有相同预定序列的片段(即所谓的末端相同的片段)。因此,可预期的是,将衔接子附接于这些末端相同的片段可产生在两个末端含有相同衔接子的片段。在两个末端具有相同衔接子的此类片段通常可结合例如Illumina NGS装置(或例如在用于IonTorrent的乳液PCR过程中使用的珠)的流动槽,但不能在某些NGS平台(例如在Illumina NGS装置上产生簇的过程中或)上被高效扩增,从而将减少可在NGS运行过程中产生的可用序列数据的量。为了克服该问题,本发明可至少部分依赖于这样的事实,即含有相同衔接子的片段在随后的PCR步骤(在具有由预定序列界定的边界的基因组片段富集和衔接子连接后,但在合并样品和随后的NGS分析之前进行所述步骤)不会被高效地扩增,因为来自相同片段的相同衔接子在PCR过程中会形成分子内环,从而降低PCR引物结合衔接子并指数扩增该末端相同的片段的效率。
在优选实施方案中,通过定向扩增进行具有由两个不同的预定DNA序列界定的边界的靶DNA基因组片段的富集。如本文中所用,“定向扩增”旨在优先扩增和富集末端不同的片段,同时使末端相同的片段的扩增最小化。要注意的是,末端相同是指在两侧具有相同预定序列(诸如RERS)的片段(例如由同一限制性酶在两侧消化的片段,或在两侧含有相同衔接子的片段,或通过结合相同预定序列(诸如RERS)的引物扩增的片段)。同样,末端不同是指在两侧具有2个不同的预定序列(诸如RERS)的片段(例如由不同限制性酶在两侧消化的片段,在两侧含有2个不同衔接子的片段,或通过结合两个不同预定序列(诸如RERS)的引物扩增的片段)。
当使用限制性酶消化和衔接子的连接时,可通过几种方式实现定向扩增,如下文中所解释的:
(1)为了有利于末端相同的片段(即由特定的限制性酶在两侧消化的片段)的分子内退火,可降低衔接子浓度。连接时,环化的构建体(由分子内退火的末端相同的片段的连接产生)将不含有任何衔接子,从而对于使用PCR的随后扩增没有引物结合位点。应当指出的是,衔接子优先具有3'双脱氧核苷酸,以阻止衔接子-衔接子连接。
(2)侧接相同片段的相同衔接子在PCR过程中可相互杂交,从而形成发夹结构,其中茎由杂交的衔接子组成并且环由存在于衔接子之间的片段形成。
发夹结构的存在使得这样的片段不太可能在下一轮PCR中被扩增。末端不同的片段(即含有2个不同衔接子的片段)在扩增时不会形成强发夹结构,从而将被优先扩增和富集。
(3)两种方法的组合。
当使用基于PCR的扩增方法(如通过其中每一个引物含有被设计来能够形成强发夹结构的特定序列的方法举例说明的)时,当片段在两侧含有相同序列时(即当使用在两侧退火的相同引物扩增片段时),可通过几种方式实现定向扩增。发夹结构的存在使得这样的片段不太可能在下一轮PCR中被扩增。当两个不同的引物被用于扩增片段时,将不会形成强发夹结构,从而此类片段会被优先扩增。
在某些实施方案中,在RERS处消化靶DNA。优选地,将两个限制性酶的组合用于产生良好界定的DNA片段。基因组的双限制性酶消化将产生2类片段:在片段的每一侧上具有限制性酶识别位点的相同回文部分的片段,和在片段的每一侧上具有限制性酶识别位点的不同回文部分的片段。除其它以外,酶的选择将取决于它们的切割频率;切割位点在整个基因组上的分布;和所得到的经预测的片段长度。限制性酶切割可产生平末端或单链突出末端,以及可产生由一种或另一种限制性酶或其组合切割的片段。在某些实施方案中,将T尾衔接子添加至DNA片段。或者,将具有相容性末端的适当的衔接子添加至被切割的DNA片段。几种类型的衔接子已被描述,包括具有单链突出末端的单一环化衔接子,两个具有一个单链突出末端的寡聚物的杂交体,两个具有两个单链突出末端的寡聚物的杂交体,Y形衔接子,单链衔接子等……所有这些类型的衔接子适用于本发明的方法。将RE特异性衔接子连接至RE消化的片段以产生在每侧具有相同和不同衔接子的片段。一旦衔接子被连接至片段,则可任选地添加第三限制性酶或更多种限制性酶以进行片段的额外切割。在特定的实施方案中,将单链衔接子(即不与至少部分互补的寡核苷酸杂交的单个寡核苷酸)用于减少衔接子与在随后PCR步骤中使用的引物之间的潜在干扰。当将5’(5-端(five prime))至3’(3-端)单链衔接子连接至片段时,其互补链可使用PCR酶的5’至3’末端填充能力来合成。如果随后用于PCR步骤的引物被设计来与这些新产生的互补链互补,则所述引物将不能与原始单链衔接子退火。这减少了不想要的衔接子-衔接子二聚体的扩增并避免了在PCR步骤之前除去未连接的衔接子的需要。另外,其允许在单链衔接子的3’区中添加随机区域,随后使用PCR酶的末端填充能力产生所述随机区域的完全互补的序列。在片段的边界上的不变的预定序列的上游(即更加5’侧)引入这些随机区域避免了低多样性文库的产生。此种低多样性文库在某些NGS平台上更难以测序,对于所述NGS平台,聚类识别算法要求读取的前几个碱基的显著多样性(例如来自Illumina的HiSeq2000和HiSeq2500平台)。
如本文中所用,“回文序列”是无论在一条链上按5'(5-端)至3'(3端)读还是在与其形成双螺旋的互补链上按5'至3'读都相同的核酸序列(DNA或RNA)。许多限制性核酸内切酶(限制性酶)识别特定的回文序列并切割它们。例如,限制性酶EcoR1识别(完全)回文识别序列
5'-GAATTC-3'
3’-CTTAAG-5’
上方链读为5'-GAATTC-3',下方链读为3'-CTTAAG-5'。在EcoR1RE切割后,限制性酶识别位点的回文部分为
5'-GAATTC-3'
3’-CTTAA和G-5’
要注意的是,“回文序列”也指这样的RERS的回文部分,从其可推断出(完全)回文RERS。
如本文中所用,遗传工程中的“衔接子(Adaptor或Adapter)”是短的化学合成的至少部分双链的寡核苷酸(DNA或RNA)分子,其可被连接至另一个DNA分子或片段的末端。RE或RERS-特异性衔接子是具有可被连接至具有RERS的互补回文部分的另一个DNA分子或片段的RERS的回文部分的衔接子(其可以是部分单链的)。衔接子可掺入不止一个RERS。因此,可将连接至DNA片段的衔接子经历在另一个RERS上切割衔接子的进一步RE消化。
如本文中所用,“良好界定的片段”是具有可被作图至靶基因的特作图点的良好界定的边界(即预定序列,例如限制性酶识别位点)的片段。在特定的实施方案中,良好界定的片段通过限制性酶消化靶基因组,随后通过限制性酶识别位点-特异性衔接子的连接,通过PCR的扩增和任选可结合纯化步骤来完成的大小选择步骤来产生。所述片段将在来自片段的边界的固作图置含有完全RERS。在其它实施方案中,不需要RE消化,并且在该情况下,使用含有除其它序列以外预定序列(例如RERS)的引物,通过靶向扩增来产生所述片段。
如本文中所用,“富集”是指添加或增加所需成分的比例的方法。例如,富集特定靶DNA片段是指这样的过程,所述过程通过例如使用那些特定片段的优先扩增;通过分离或纯化那些特定片段;或通过破坏或除去其它DNA片段来使所述特定片段相对于可能存在的其它DNA片段的比例增加。
不同的方法可能用于减小基因组的复杂度。本发明的方法可以例如应用PCR来优先扩增(并从而富集)在每一侧具有不同衔接子的片段。PCR将需要2个引物,每一个引物结合一个衔接子。优选地,一个或两个引物将含有使得能够将不同样品合并至单个NGS运行中的样品特异性条形码。在某些实施方案中,引入靶富集步骤。除其它以外,用于富集的适当方法为珠捕获(例如SPRI珠、AMPure XP珠、SPRIselect珠)、基于凝胶的大小选择(例如E-GelTM SizeSelectTM凝胶)或根据它们的长度的扩增引物的其它方法(例如BluePippin)。以这种方式,产生了用于测序的一个易处理的亚组的基因组片段。因此,在特定的实施方案中,简化代表文库的构建还包括根据它们的片段长度选择一个亚组的片段。在特定的实施方案中,选择约20至约5000bp的长度,特别地50-1000bp,更特别地50-500bp的片段。在另一个实施方案中,选择约150-500bp、200-450bp、200-400bp、250-400bp、250-350bp的片段。在备选实施方案中,选择其中对应于基因组DNA序列的插入物为具有上述长度范围的片段。
或者,将不切割靶DNA,并且差异地获得基因组复杂度的减小。在该特定的实施方案中,使用在它们的3’末端上具有匹配位点序列的PCR引物。由于3’末端上的匹配位点序列,这些引物将只与包含与所述匹配位点序列互补的预定序列的区域杂交。在另一优选实施方案中,这些PCR引物在它们的5’侧包含杂交信号或条形码,在中央部分包含简并序列以及在它们的3’末端包含匹配位点序列。这些引物用于扩增过程。在优选实施方案中,所述匹配位点序列在正向和反向引物中是不同的。在扩增(PCR)方法中使用所述引物将只产生含有位于2个匹配位点序列之间(即2个预定序列之间)的靶序列的区段,并减少了基因组的代表性。简并的水平将在很大程度上决定扩增的选择性。另外,预定序列的长度极大地影响扩增序列的量,从而影响代表性减小的量。在优选实施方案中,预定序列长度为约2至约10个碱基,特别是约4至8个碱基。任选地,所述方法包含巢式PCR来负责杂交信号或条形码在扩增片段中的完整存在。所述方法要求较少的输入试剂、较少的手工步骤,其对于单管反应更便宜且是有益的。
匹配位点序列由具有出现在靶DNA中的多个位置上的互补序列的一段序列(即预定序列)组成。在优选实施方案中,匹配位点序列将为RERS序列。因此用于扩增方法的优选引物将在它们的5’侧含有杂交信号或条形码,在中央部分含有简并序列,以及在它们的3’末端含有预定序列(诸如RERS序列)。
用于所述DNA片段(全部通过限制性酶切割产生的或不是通过限制性酶切割产生的)的NGS将产生具有至少一个区段边界(其在来自该区段边界的固作图置上含有预定序列(诸如RERS))的一段靶DNA序列的非重叠区段。所述非重叠区段的组装构成所述靶DNA基因组的简化代表文库。
通过预定序列(诸如RERS)的靶向减少(任选地补充以大小选择)是可计算机预测的,并且允许使用稀疏参照基因组来进行比对和作图。由于所有获得的读取应当作图至稀疏参照基因组,因此数据分析所需的时间相较于至非减少参照基因组的作图得以减少。因此,在特定的实施方案中,本发明包括(非减少的)参照基因组的使用。在优选实施方案中,本发明包括稀疏参照基因组的使用(其中所述稀疏参照基因组是如本文所述的计算机预测的减少基因组)。另外,预定序列(诸如RERS)的使用有利于读取的比对,因为每一个读取的确定区域(即预定序列,诸如RERS)应当作图至稀疏参照基因组的预定序列,诸如RERS。因此,通过使用预定序列(诸如RERS),可通过更高效的方式进行作图和总体数据分析。预定序列的使用允许计算机可预测的特定量的代表性减少。减少的量可通过选择特定的预定序列、改变预定序列的长度、选择预定序列的特定组合和选择片段的特定长度来增加或减少。
在特定的实施方案中,已富集了本发明的方法中使用的简化代表文库的具有由预定DNA序列界定的两个边界的靶DNA基因组片段。具体地,所述片段在靶DNA基因组中位于预定DNA序列之间。RRL中的片段可包含或可以不包含预定DNA序列。例如,当使用IIS型限制性酶(其切割它们的RERS的外侧),将产生不包含RERS本身的片段,但片段的边界由预定序列界定(即它们在靶基因组中位于预定序列的特定距离上)。此外,当使用切割RERS内部的限制性酶时,在衔接子连接后,RERS不一定被恢复。
在另一特定的实施方案中,RRL中的片段包含基因组靶序列,所述基因组靶序列的5’末端上的第一侧翼序列,以及所述基因组靶序列的3’末端上的第二侧翼序列;
其中所述基因组靶序列对应于具有由预定DNA序列界定的两个边界的靶DNA基因组中的序列。在特定的实施方案中,每一个边界由不同的预定DNA序列界定。
在另一实施方案中,第一和第二侧翼序列中的至少一个包含测序区域。测序区域被改造来适合允许基因组靶序列的至少一部分的测序,特别是被改造来适合于允许进行下一代测序(例如被改造与测序引物或捕获探针进行杂交)。
在优选实施方案中,侧翼序列中的至少一个还包含条形码。所述条形码可以是允许在测序前合并样品的样品特异性条形码。在特定的实施方案中,将侧翼序列中的条形码作为衔接子的一部分引入。在另一个特定实施方案中,通过使用含有所述条形码的扩增引物(并因此所获得的扩增子含有所述条形码)来引入侧翼序列中的条形码。
在特别优选实施方案中,第一和第二侧翼序列包含测序区域和条形码。
在某些临床情况中(诸如在植入前胚胎遗传学诊断(PGD)、植入前遗传学筛查(PGS)或转移癌中),主要挑战由获得始于来源于少数细胞,具体地1个、2个、3个、4个、5个、6个、7个、9个、10个、1-50个、1-100个、1-1000个或1-10000个细胞的微量靶DNA的DNA分型结果组成。此外,除非对胚胎实施玻璃化和在下一周期植入胚胎,否则可能必须在体外受精(IVF)周期的时间限制内进行基因分型分析。在对于靶DNA有限可用的情况(诸如胚胎活检材料、母体外周血循环中的胎儿细胞或无细胞胎儿DNA或癌症中的循环肿瘤细胞(CTC)或无细胞循环肿瘤DNA)下,首先扩增靶DNA以产生足够的拷贝用于下游基因分型分析(Coskun等2007)。有利地,并且与大多数现有技术方法不同,本发明的方法允许甚至当只有少靶DNA可获得时分析靶DNA基因组。
因此,在一个实施方案中,本发明的方法包括通过全基因组扩增或部分基因组扩增来扩增靶基因组的步骤。分析扩增的基因组的基因组修饰。通常地,将扩增来自1、2、3-10个细胞、1-50个细胞、1-100个细胞、1-1000个细胞的DNA。优选细胞为一个或多个极体、一个或多个卵裂球、来自滋养外胚层活检材料的细胞、在母本外周血循环中发现的胎儿细胞或无细胞胎儿DNA、循环肿瘤细胞或无细胞循环肿瘤DNA。已描述了全基因组扩增(WGA)的不同方法,包括WGA(Zheng等2011)的PCR和非PCR法,并且所述方法在本领域中是众所周知的。用于全基因组扩增的优选方法包括多重置换扩增(MDA)。部分基因组扩增优选包括扩增具有由本文所述的预定DNA序列界定的边界的片段的PCR法。在扩增后,可将扩增的片段提交给本发明的方法的进一步特殊需要。
在特定的实施方案中,本发明提供了用于靶DNA基因组分析的方法,其中只有少量的靶DNA基因组材料是可获得的。具体地,仅使用少量的靶DNA基因组材料来构建RRL。在另一实施方案中,所述靶DNA基因组材料存在于一个或少数靶细胞内,或作为游离循环材料存在于样品中。因此,在特定的实施方案中,所述样品含有一个或少数靶细胞。在另一实施方案中,所述样品含有一个靶细胞。在另一个实施方案中,所述样品含有少数靶细胞,具体地1-30个,更具体地1-20个靶细胞。例如,1-15、1-10、1-8、1-7、1-6、1-5、1-4、1-3、1个或2个靶细胞。在另一个特定的实施方案中,靶核酸以2ng或更少的量,具体地1ng或更少的量,更具体地0.5ng或更少的量存在于所述样品中。在另一个特定的实施方案中,靶核酸以250pg或更少的量,具体地200pg或更少的量,更具体地150pg或更少的量存在于所述样品中。在另一个特定的实施方案中,所述靶核酸以100pg或更少的量,具体地以50pg或更少的量,更具体地以30pg或更少的量存在。在另一个特定的实施方案中,所述靶核酸是无细胞的循环核酸。例如,来自母本样品的循环无细胞胎儿DNA或来自患者样品的循环肿瘤DNA。虽然遗传物质(例如母本DNA)在此类样品中可能是丰富的,但靶DNA(例如胎儿DNA)只有极有限的量存在。在特定的实施方案中,靶核酸作为无细胞核酸存在于流体样品中。具体地,所述无细胞核酸存在于包含另外的(非靶)核酸的流体样品中。在特定的实施方案中,所述样品包含靶与非靶核酸的混合物。优选地,所述靶核酸以所述非靶核酸的0.1-80%或更优选0.1-20%的量存在。在另一个特定的实施方案中,所述样品包含靶与非靶核酸的混合物,其中所述靶核酸以700ng或更少,具体地500ng或更少,更具体地300ng或更少的量存在。在另一实施方案中,以200ng或更少,具体地100ng或更少,更具体地50ng或更少的量存在。在又一个实施方案中,所述样品包含无细胞核酸,其中所述无细胞核酸以本文上文中定义的量存在。
在特定的实施方案中,本发明提供了用于靶DNA基因组分析的方法,所述方法包括:
-获得包含少量靶DNA基因组材料的样品;和
-构建所述靶DNA基因组材料的简化代表文库。
在另一实施方案中,所述方法包括:
-获得包含少量靶DNA基因组材料的样品;
-进行靶DNA基因组材料的全基因组扩增;和
-构建所述靶DNA基因组材料的简化代表文库。
随后将简化代表文库用于本文所述的方法。
如以上论述显见,本发明提供了也适用于无创性产前诊断的方法。在所述方法中,根据本发明分析存在于母本血液中的游离漂浮的胎儿DNA。可如本文所述构建简化代表文库。
在特定的实施方案中,所述方法还包括用于富集胎儿DNA(即靶DNA基因组材料)的步骤。
在另一个特定的实施方案中,所述方法可包括大小选择步骤。更具体地,所述大小选择步骤选择具有小于约250bp,具体地小于约200bp,更具体地小于约150bp的基因组序列插入物的片段。从本申请的其余部分所述显见,所述片段将对应于其中预定序列彼此相距约250bp(或200bp或150bp)或更短距离的靶基因组区域。
优选地,由于靶DNA在母本样品中的总DNA的分数为约1-20%,因此将高覆盖测序用于充分覆盖靶DNA。
因此,在优选实施方案中,本发明提供了用于靶DNA基因组分析的方法,所述方法包括以下步骤:
-从怀孕女性获得流体样品,其中所述流体样品包含少量靶DNA基因组材料;
-使用应用于所述靶DNA基因组的简化代表文库的测序方法获得非重叠区段的原始度量,
其中已富集了所述简化代表文库的具有由预定DNA序列界定的两个边界的靶DNA基因组片段;
-将具有相似原始度量的非重叠的附近区段聚类以提供主区段;
-提供描述主区段的度量,其中所述度量包括推断一个或多个主区段的推断的边界、一个或多个主区段中观察到的读取数、所述一个或多个主区段中观察到的4-碱基频率、或所述主区段中的一个或多个主区段的祖先概率。
对简化代表文库应用测序方法。此类NGS运行产生可使用标准方法来将其转换成碱基检出的FASTQ文件的图像文件。在牵涉多个样品的情况下,可能需要对此类FASTQ文件解复用,并且按照读取中的样品特异性条形码将每一个读取分配给样品。对于每一个样品,将所分配的读取作图至参照基因组上,从而具有读取的良好界定的位置(例如含有限制性酶识别位点的位置)应当作图至参照基因组中的特作图置(例如限制性酶识别位点)的事实的优点。在优选实施方案中,参照基因组是简化文库代表性的计算机模拟。这导致一组被分配了读取的区段,并且以BAM文件存储这些作图数据。可进一步分析BAM文件中的作图数据,所述测序方法将从而产生每一个区段的原始度量。此类原始度量包括碱基频率、4-碱基频率、读取计数、标准化的读取计数、祖先概率、作图的质量评分、碱基检出的质量评分或其衍生的任何度量。
在本发明中,原始度量还包括ADO。如果将靶DNA中的某些片段或主区段与来自相关个体(例如父母、祖父母、同胞……)的DNA中的对应片段或主区段比较,则可推断出ADO。如果例如一个亲本对于某一位置是纯合的AA并且另一个亲本对于同一位置是纯合的CC,则可预期来自来源于一个亲本的卵母细胞与来自另一个亲本的精细胞的胚胎的细胞对于该位置应当是杂合的AC。如果测序可表明大部分覆盖该位置的读取携带A等位基因,则该位置可被标记为具有针对另一个亲本的ADO的位置。此类原始度量可支持利用靶样品获得的结果的解释:如果胚胎细胞中具有ADO的位置的数目少,并且随机分散在整个染色体中,则这可能是例如由随机WGA假象引起的。然而如果胚胎细胞中具有ADO的位置数目在局部非常高(例如,对于某些染色体),则这可以例如表示其中只有一个亲本的染色体存在的单体性。
在本发明中,术语原始度量还包括ADI。如果将靶DNA中的某些片段或主区段与来自相关个体(例如父母、祖父母、同胞……)的DNA中的对应片段或主区段比较,则可推断出ADI。如果例如一个亲本对于某一位置是纯合的AA并且另一个亲本对于同一位置是纯合的AA,则可预期来自来源于一个亲本的卵母细胞与来自另一个亲本的精细胞的胚胎的细胞对于该位置应当是纯合的AA。如果测序可表明显著比例的覆盖该位置的读取携带例如C等位基因,则该位置可被标记为具有ADI的位置。此类原始度量可支持利用靶样品获得的结果的解释:如果胚胎细胞中具有ADI的位置的数目多,则这可以例如由DNA污染引起或表示样品转换(sample switch)。
在本发明中,术语原始度量还包括描述片段纯合性的参数。描述片段纯合性的参数可通过查看该片段内观察到的碱基频率来从测序数据推断出来。具有表明纯合位置的碱基频率的位置的数目越多,描述片段纯合性的参数越大。此类原始度量可支持从靶样品获得的结果的解释:如果具有高纯合性评分的主区段内片段的分数超过某一阈值,则这可表示主区段表现出所谓的“杂合性丢失”(这也将从将表现出具有为0和1以及不为例如0.33、0.5或0.66的频率的碱基频率模式的碱基频率模式明显看出)。具有杂合性丢失的此类区域可表示单体性(具有对应地减少的总体读取计数)或单亲同二倍体(如果总体读取计数相较于其它二倍体主区段不受影响的话)。
除非另有所指,否则如本文中所用的碱基频率包括1、2或3个碱基的碱基频率以及4-碱基频率。此外,除非另有所指,否则如本文中所用的读取计数是指读取计数以及标准化的读取计数。很明显还可将本发明应用于其中将每位置初始4-碱基频率(如在将读取作图至参照基因组后获得的)转换成2-碱基频率(其包括在现有技术水平上被称为的所谓的B等位基因频率)的NGS数据。所述转换可由例如每位置保留2个最高碱基频率,或例如仅保留先前已观察过的碱基(这可以是例如已在数据库诸如dbSNP中已报告过的碱基)的碱基频率组成。这样,在本发明中,术语原始度量还可包括B等位基因频率、2-碱基频率或类似地3-碱基频率。
具体地,对于每一个区段,计数被分配的读取数,给出未校正的每区段的读取数(读取计数)。可应用校正方法以修正位置影响。可使用片段的位置信息(例如GC含量)校正读取,或就着丝粒或端粒区域校正读取。另一个校正因子可基于该特定区段在历史数据集中的平均计数。此类校正将产生标准化的读取计数/区段。对于区段中的每一个位置,计数A、C、G、T的数目;计数检出的数目(A、C、G、T的数目总和);计算碱基频率(例如每位置的%A、%C、%G或%T)或4-碱基频率(即观察到的每位置的任何碱基%而不指定确切的碱基,例如1%、2%、7%和90%)。对于每一个区段,收集各位置上的获得的碱基频率。对于每一个具有某些阈值之间(例如10-90%)的碱基频率的碱基,可计算祖先概率。所述的任何数据被认为是原始度量。
如本文中所用,祖先概率涵盖父本概率、母本概率和祖父母概率。如本文中所用,“父本概率”是碱基遗传自父亲的概率,“母本概率”是碱基遗传自母亲的概率,已知父亲和母亲在它们的基因组中的对应位置上的获得的靶的“原始序列读取数据”。并且类似定义对于祖父母概率是适用的。
本发明的方法将应用聚类。将具有相似原始度量或其衍生的度量的非重叠附近区段聚类以提供主区段。
使用区段化模型将区段组装成主区段。只有在参照基因组中是连续的或相对紧密接近的并且在同一染色体上的区段才可被组装成1个主区段。在该情形中,接近基于计算机模拟的减少的参照基因组中的预期位置和“完全”参照基因组中的位置。后者还提供关于区段之间的物理距离(根据碱基)和预期的两个区段之间的染色体重组事件(通常以厘摩表示)的发生的信息,所述两者可在区段化模型中用作输入度量。具有相似原始序列读取数据的连续区段有可能被组装成1个主区段。例如,将有可能把具有99个读取、接近0、50和100%聚类的碱基频率和高于母本概率的父本概率的区段A与具有100个读取和接近0、50和100%聚类的碱基频率的区段B组装在一起。要注意的是,这不排除连续片段可具有矛盾的原始序列读取数据(例如具有极高父本概率的片段C和具有极低父本概率的片段D),但仍然被聚类为1个主区段的可能性,只要它们的聚类得到足够数量的周围区段支持,所述周围区段具有相似的原始度量,从而也被分配给同一主区段(例如,参见表1及其描述)。矛盾的原始序列读取数据可由WGA、PGA或NGS过程中的假象引起,但多个片段组装成主区段的事实过滤掉此类假象对主区段的最终的离散检出的影响。
在优选实施方案中,将基于包含读取计数和碱基频率的原始度量聚类。在对其的另一实施方案中,所述方法优选还包括产生关于非整倍性的存在与否的DNA检出。
在另一个优选实施方案中,将基于包含读取计数、碱基频率和祖先概率的原始数据度量聚类。在对其的另一实施方案中,所述方法优选还包括产生关于基因组区域的祖先起源的DNA检出。
当对多个原始度量进行聚类时,应当理解的是,所述聚类可包含单个聚类步骤,其中使用所述多个原始度量,或备选地,所述聚类可包含其中在每一个步骤中使用原始度量的选择的多个聚类步骤。在特定的实施方案中,本发明的方法包括基于读取计数和碱基频率的第一聚类步骤和基于祖先概率的第二聚类步骤。所述方法优选进一步包含产生关于基因组区域中非整倍性的存在与否以及所述基因组区域的祖先起源的步骤。
本发明还可被应用于检测样品中的多倍性,例如,人细胞中的三倍性或四倍性。多倍性可从原始度量(例如观察到的碱基频率)的整合分析明显看出。事实上,例如,如果大多数(如果不是全部的话)主区段展示具有0、0.33、0.66和1的频率的碱基频率模式,则三倍性将是很显然的。应当指出的是,当利用例如阵列-CGH工作时,通常不能检测到多倍性。本发明还可用于检测三倍性、四倍性、多倍性、单倍性、具有杂合性丢失(LOH)的区域、单亲二倍体、单亲同二倍体、单亲异二倍体。
“聚类”或“组装”意指以使同一组(称为簇)中的对象在彼此之间比与另一组(簇)中的那些对象之间更相似(在某种意义或另一种意义上)的方式将一组对象分组。它是用于许多领域(包括生物信息学)的探索性数据挖掘的主要任务和用于统计数据分析的常用技术。
术语“片段”是指核酸的部分。同样,术语“区段”是指核酸序列的部分。
区段化模型或聚类模型被作为计算机模型进行定义,其目的在于鉴定基因组的主区段,其内在区段对于其表现出相似的对于特定度量的特征谱。在这些模型中,这些主区段的边界通常被称为变化点。区段化模型可被应用于靶基因组的重建。
已在DNA分型领域中描述了许多不同类型的区段化模型。特别地对于NGS数据的分析,区段化模型最常被应用于CNV的鉴定。
如本文中所用的“分型”是指表征靶DNA基因组。
表征可涉及靶DNA基因组的全局性基因组结构(参见染色体和亚染色体结构)以及靶基因组的详细分子结构(参见基因或基因间区域或非编码区中的小的多态性)。
表征可涉及遗传的(参见遗传性基因或染色体畸变)或从头方面(参见配子或胚胎中的减数分裂的CNV,或牵涉肿瘤发生的从头(亚)染色体畸变)。表征可涉及(亚)染色体区域的拷贝数变异(CNV)或特作图置上的多态性(诸如插入、缺失或单核苷酸多态性)的描述。在一些情况下,分型可称为基因分型、单体型分型或非整性检测。
用于这些NGS区段化模型的策略可被分类为基于覆盖深度(Depth Of Coverage)(DOC)的方法、基于双末端作图(Paired-End Mapping)(PEM)的方法、基于分割读取(Split-Read)(SR)的方法、基于组装(ASsembly(AS))的方法或前述方法的组合。
存在大量不同的可用于这些区段化模型的统计算法,包括(但不限于)循环二元区段化(CBS)、Event-Wise测试(EWT)、Mean Shift-Based(MSB)、最大似然估计或期望最大化(EM)、Lowess、基于小波的方法(Wavelet based method)诸如离散小波变换(DWT)、隐马尔可夫模型(HMM)、排名区段化(Rank segmentation)、移动窗口、递归区段化、贝叶斯方法、Walking Markov、变化点方法、回归、转移转换模型(Shifting Level model)、混合模型、分段式恒定拟合及成对高斯合并(Piece-Wise Constant Fitting and Pairwise GaussianMerging)。
开发用于NGS数据中的CNV检测的软件工具根据策略(参见,同上)、统计算法(参见,同上)、窗口大小(固定的或可变的或不适用的)、参照(在样品内参考的,使用外部对照参考的,或不适用的)和聚类输出(硬件或软件/模糊的)而变化。此类软件工具的具体实例包括(但不限于)CNV-seq、Seqseg、RDXplorer、cn.MOPS、BIC-seq、CNAseg、seqCBS、JointSLM、rSW-seq、CNVnorm、CMDS、mrCaNaVar、CNVeM、cnvHMM、CNVnator、FREEC、ReadDepth、Varscan、CNV-TV、PEMer、Variation Hunter、HyDRa、SVM2、MoGUL、BreakDancer、CLEVER、Spanner、commonLAW、GASV、Mosaik、AGE、SLOPE、SRiC、Pindel、ClipCrop、Cortexassembler、Magnolya、TIGRA-SV、SOAPdenovo、Velvet、ABySS、CNVer、cnvHiTSeq、GenomeSTRIP、SVDetect、NovelSeq、GASVPro、inGAP-SV、SVseq、Zinfandel、CoNIFER、ExonCNV、MoDIL、MrFast。
在聚类后,靶DNA(或每一条染色体)将由许多主区段代表,并且每一个主区段将通过度量来表征,所述度量包括推断的边界、观察到的读取数、观察到的碱基频率或祖先概率。该主区段信息及其相关度量将用于在分析中产生最终的离散DNA检出。在本发明中,描述主区段的度量还可包括例如一个或多个主区段的推断的拷贝数估计、代表总体纯合性的值或描述一个或多个主区段的其它总结统计。
与基于区段的聚类产生关于分型或祖先起源的预测的本发明的方法相反,大多数现有方法将序列数据总结至各位置(例如基因座,多态性)的离散碱基-检出、离散多态性检出和/或离散亲本信息检出中。然而,假像的影响可以是其导致错误的离散检出。
相反,所述方法不在各位置上产生离散检出,从而维持正确和假像信息,以及使用模式识别来鉴定用于连续区段的组装(即主区段)的共有检出。
这通过使用离散等位基因检出(例如在某一位置上,在第一等位基因中存在某一核苷酸以及在第二等位基因中存在某一核苷酸)来举例说明,所述方法通常假定所述位置为二倍体的。具体地,本发明的方法不决定性地依赖于离散等位基因检出,而是依赖于碱基频率(即在某一位置上,X%的观察为核苷酸A,X%的观察为核苷酸C等)。另外,在特定的实施方案中,所述方法在聚类之前不产生离散倍性检出,而是保留观察到的读取(经校正的)数。也根据祖先起源,典型方法将祖先起源(即父亲、母亲或祖父母)分配给观察到的多态性,而所述方法只将祖先概率分配给观察到的碱基。通过基于对于单个位置获得的数据将测量总结成离散检出,以及基于从周围区域(被分配给同一主区段的)中的多个位置获得的信息不产生针对该位置的离散检出,存在更多的假象对该离散检出的影响。通过不将测量总结成离散检出,保留了每一个区段的更多实验信息,所述实验信息之后可用于区段化模型,以产生所有被分配给主区段的区段的更可靠的最终离散DNA检出。要注意的是,一些方法通过假定噪声信号不如真实信号明显来过滤噪声。该假定并不总是对的,如通过在依赖于离散检出和此类型的噪声过滤的方法中ADI的发生举例说明的。通过不基于针对单个位置获得的数据产生离散等位基因检出,而是相反地保留原始度量(诸如观察到的碱基频率),可在整个主区段上过滤掉此类型的假象。有利地,本发明只分析靶DNA基因组的一部分(通过使用RRL),但使用可通过测序获得的高信息内容分析该部分(即在聚类之前不产生离散基因型和/或倍性检出)。这样,本发明的方法提供了具有更可靠的检出同时仍然具有成本效益的高质量聚类。测序的高信息内容的保留对于含有少量靶DNA基因组材料的样品尤其重要。由于少量的遗传物质,测序结果将含有大量的噪声(例如由基因组扩增和测序错误引起的等位基因脱扣和等位基因混入)。现有技术方法一般丢弃包含此类高水平的噪声的序列读取,从而丢失潜在有价值的信息和降低可靠性。
利用本发明的方法产生的针对主区段的离散DNA检出将在很大程度上取决于所请求的分析。许多案例在实施例部分被举例说明。如实施例部分中显示的,本发明的方法中的离散DNA检出可以例如涉及例如祖先检出(例如为针对特定亲本的父亲或母亲、祖父或祖母的主区段)或CNV检出(例如为以1或2个拷贝存在于靶基因中的主区段,参见(亚)染色体非整倍性检出)。对于这些参数中的每一个参数,基于被分配给主区段的每一个区段内在的原始度量产生总结(即最终的离散检出)。针对CNV检出的总结可依赖于计算被分配给主区段的所有区段的平均读取计数和计算这对应于以例如0、1、2或3个拷贝存在的主区段的概率。亲本检出的总结可依赖于基于区段内在的亲本概率计算某一主区段具有某一亲本起源的可能性。祖父母检出的总结可依赖于基于区段内在的祖父母概率计算某一亲本主区段具有某一祖父母起源的可能性。
至区段内的组装导致横跨整个区段的碱基频率的带型(即碱基频率一起聚类在特定的条带中)。这允许鉴定
-单体性(具有0和100%的碱基频率带型的区域,以及比对于二倍体区域所预期的低约50%的平均读取计数)。
-单亲二倍体(具有0和100%的碱基频率的区域,和与对于二倍体区域所预期的大致相同的平均读取计数)
-“二倍性”(即二倍体,正常的)(具有0、50%和100%的碱基频率带型的区域,和与对于二倍体区域所预期的大致相同的平均读取计数)
-三倍性(具有0、33、66和100%的碱基频率带型的区域,和比对于二倍体区域所预期的高约50%的平均读取计数)
-四倍性(具有0、25、50、75、100%的碱基频率带型的区域,和比对于二倍体区域所预期的高约100%的平均读取计数)
-要注意的是,如果祖先信息是可获得的,则这可允许进一步细化DNA分型分析,例如通过指定某一主区段展示母本单体性(如果对应于主区段的母本概率高),或单亲二倍体(如果主区段以2个拷贝存在并且主区段的父本概率高)。
-CNV的第一次减数分裂起源或第二次减数分裂起源。
因此,通常可将最终离散DNA检出与所需分析相联系。
在一个实施方案中,用于主区段的分析和最终离散检出牵涉对于遗传性病症诸如常染色体显性或隐性病症、X或Y连锁显性或隐性病症的风险等位基因的存在的基于概率的鉴定。
在一个实施方案中,用于主区段的分析和最终离散检出鉴定基于其他系谱成员(父母的同胞、同胞…….)的病症或使用同胞或胚胎或配子鉴定染色体重组位点。
在一个实施方案中,用于主区段的分析和最终离散检出鉴定染色体畸变的起源(诸如第一次减数分裂或第二次减数分裂中的不分离错误),或鉴定平衡结构染色体异常(诸如倒位和平衡异位)。
在其它实施方案中,用于主区段的分析和最终分离检出覆盖体液(诸如,尿、血液、唾液、脑脊液)中的循环肿瘤细胞(CTC)、分离的CTC、外切体、循环肿瘤DNA、血液中的循环胎儿细胞或游离胎儿DNA、来自植入前胚胎的活检材料、存在于活检组织样品中或从组织切片分离的肿瘤细胞(新鲜冷冻组织或福尔马林固定的石蜡包埋组织)、来自胎儿、新生儿或来自任何受试者(参见,儿童、父母、祖父母、马、牛、猪……)的活检材料。
在其它实施方案中,用于主区段的分析和最终离散检出涉及镶嵌现象诸如卵裂球对于胚胎的其他细胞的代表性、含有少数细胞的滋养外胚层活检材料中的亚染色体CNV镶嵌现象、染色体鉴定以及亚染色镶嵌型CNV的鉴定、含有至少2个细胞的任何细胞混合物(例如滋养外胚层活检、CTC、癌细胞、肿瘤组织细胞、健康和患病细胞的混合物......)中的镶嵌型CNV的鉴定、存在于母体血液中的胎儿细胞或无细胞胎儿DNA中的CNV的鉴定、循环胎儿细胞或其中存在双胞胎妊娠的胎儿DNA和母体DNA的混合物中的胎儿CNV镶嵌现象的鉴定、与胎儿中的可遗传病症相关的风险等位基因的存在的鉴定、倒位、平衡易位、不平衡易位、亚染色体CNV、染色体CNV的存在的鉴定、存在于血液中的循环肿瘤DNA中的CNV镶嵌现象的鉴定、存在于血液中的外切体和从血液分离的外切体的分析、其它体液(唾液、脑脊液、尿液、血清)中的无细胞肿瘤DNA的分析。用于主区段的进一步分析和最终离散检出包括人白细胞抗原(HLA)配型、支持靶基因组的分析的噪声分型或鉴定样品转换的噪声分型。
对获自NGS的基因组DNA序列数据应用区段化模型是不常见的:
-对于个体样品,其仅被应用于通过对未校正的读取计数应用区段化模型来鉴定相较于参照基因组具有CNV的区段,但这些模型不使用4碱基频率,与碱基检出或作图相关的质量度量也不使用祖先概率作为用于所述区段化模型的数据输入(Rigaill等2010)。
-对于群体研究,将区段化模型应用于每一个研究个体的离散SNP检出,但这些模型不使用4碱基频率,与碱基检出或作图相关的质量度量也不使用祖先概率作为用于所述区段化模型的数据输入(Zhang等2013)
-使用观察到的(经校正的)读取计数、碱基频率、与碱基检出或作图相关的质量度量和任选地还有通过NGS获得的祖先概率的组合的区段化模型的应用还未曾被描述过。
-在植入前的情形中对获自NGS的基因组DNA序列数据应用区段化模型还未曾被描述过。
-在植入前的情形中使用观察的(经校正的)读取计数、碱基频率、与碱基检出或作图相关的质量度量和任选地还有通过NGS获得的祖先概率的组合的区段模型的应用还未曾被描述过。
在特定的实施方案中,本发明从而提供了靶DNA基因组分析的方法,所述方法包括植入前遗传筛查、植入前遗传诊断、癌症筛查、癌症诊断、细胞分型或祖先起源鉴定,并且所述方法包括以下步骤的任何或全部步骤:
-获得母体外周血循环中的无细胞胎儿靶DNA或外周血循环中发现的无细胞肿瘤DNA
-对所述靶DNA应用全基因组或部分基因组靶DNA基因组扩增;
-对所述DNA基因组的简化代表文库应用下一代测序,所述简化代表文库由具有通过特定限制性酶识别位点的存在界定的片段边界的靶DNA片段组成;
-获得具有通过特定限制性酶识别位点的存在界定的片段边界的靶DNA片段的非重叠区段,其中所述非重叠区段的组装构成所述靶DNA基因组的简化代表文库;
-获得所述区段,来自应用于所述简化代表文库的测序方法的原始度量,所述原始度量包括碱基频率、4-碱基频率、读取计数、标准化的读取计数、祖先概率、用于作图的质量评分、用于碱基检出的质量评分或其衍生的任何度量;
-将具有相似的原始度量的非重叠附近区段聚类以提供主区段,其中所述聚类使用参照基因组、系谱信息或为基于祖先概率和来源于系谱的信息;
-提供描述其中所述度量包括一个或多个主区段的推断的边界的主区段的度量;一个或多个主区段中观察到的读取数、所述一个或多个主区段中观察到的4-碱基频率或所述主区段中一个或多个主区段的祖先概率。
-基于区段至主区段中的聚类产生最终离散DNA检出,其中所述检出包括以下方面的基于概率的鉴定:染色体重组位点、(亚)染色体拷贝数变异、缺失、不平衡易位、扩增、遗传性病症的风险等位基因的存在、第一次减数分裂或第二次减数分裂中的不分离错误、平衡结构染色体异常;细胞的表观遗传学特征谱、镶嵌现象、倒位、平衡易位、人白细胞抗原(HLA)配型或噪声的发生。
在特定的实施方案中,本发明从而提供了靶DNA基因组分析的方法,所述方法包括植入前遗传筛查、植入前遗传诊断、癌症筛查、细胞分型或祖先起源鉴定,并且所述方法包括以下步骤的任何或全部步骤:
-获得被释放的靶DNA或从细胞释放DNA,所述细胞选自一个或两个卵裂球、1-10个来自滋养外胚层活检的细胞、一个或两个极体、在外周血循环中发现的胎儿细胞或外切体、或循环肿瘤细胞;
-对所述靶DNA应用全基因组或部分基因组靶DNA基因组扩增;
-对所述靶DNA基因组的简化代表文库应用下一代测序,所述简化代表文库由具有通过特定限制性酶识别位点的存在界定的片段边界的靶DNA片段组成;
-获得具有通过特定限制性酶识别位点的存在界定的边界的区段的片段的靶DNA的非重叠区段,其中所述非重叠区段的组装构成所述靶DNA基因组的简化代表文库;
-获得所述区段、来自应用于所述简化代表文库的测序方法的原始度量,所述原始度量包括碱基频率、4-碱基频率、读取计数、标准化的读取计数、祖先概率、用于作图的质量评分、用于碱基检出的质量评分或其衍生的任何度量;
-将具有相似的原始度量的非重叠附近区段聚类以提供主区段,其中所述聚类使用参照基因组、系谱信息或为基于祖先概率和来源于系谱的信息;
-提供描述其中所述度量包括一个或多个主区段的推断的边界的主区段的度量;一个或多个主区段中观察到的读取数、所述一个或多个主区段中观察到的4-碱基频率或所述主区段中一个或多个主区段的祖先概率。
-基于区段至主区段中的聚类产生最终离散DNA检出,其中所述检出包括以下方面的基于概率的鉴定:染色体重组位点、(亚)染色体拷贝数变异、缺失、不平衡易位、扩增、遗传性病症的风险等位基因的存在、第一次减数分裂或第二次减数分裂中的不分离错误、平衡结构染色体异常;细胞的表观遗传学特征谱、镶嵌现象、倒位、平衡易位、人白细胞抗原(HLA)配型或噪声的发生。
在整个本申请中,描述了关于简化代表文库、简化代表文库的测序和区段的聚类的各种实施方案。要指出的是,本发明还设想了这些特定实施方案的任何实施方案的组合。例如,如果特定实施方案描述简化代表文库的制备或使用,则本发明还提供了针对包括根据本文所述的任何其它特定实施方案的简化代表文库的制备或使用的此类方法的实施方案。
具体参考附图,图1提供了其中使用在不同RERS(即不同预定序列)上切割的两种限制性酶消化基因组DNA的优选实施方案的概述。在该实例中,将两种不同的衔接子(第一衔接子以点表示,而第二衔接子以菱形表示)用于连接消化的DNA的两个不同末端。将PCR用于富集含有两个不同衔接子的那些片段(即末端不同的片段)。此外,进行大小选择步骤(可将该步骤整合入PCR步骤或在PCR之前或之后分开进行)。已富集了所得的简化代表文库的具有通过预定序列(RERS)界定的两个边界和特定长度的片段。测序产生被作图至参照基因组的特定区段的读取。相较于靶基因组,所述区段位于相对于预定序列(RERS)的特定位置。在该实例中,将双末端测序用于产生位于片段的每一个末端上的两个非重叠区段的读取。
图2提供了用于RRL构建和测序的优选实施方案的概述。对来源于胚胎活检材料的基因组DNA进行全基因组扩增。使用例如来源于父母的组织活检的第二样品而无需进一步基因组扩增。两种样品经历利用识别不同RERS的两种限制性酶的限制性消化。在每一个样品中,将两种不同的衔接子连接于限制性消化物:第一衔接子以点表示,第二衔接子以大的菱形表示。通过使用具有样品特异性条形码的引物,在PCR步骤中修饰衔接子的至少一个(在该实例中为第二衔接子)以包括样品特异性条形码。这被描述为以大的方形表示的胚胎相关样品的第二衔接子,并且以小的方形表示第二样品。该PCR步骤依赖于定向扩增,并且在每一侧具有不同衔接子的片段被优先富集。可进行任选的大小选择步骤,从而产生两个简化代表文库。将文库合并,使用NGS对其进行测序。
图3A提供了NGS读取的处理的概述。在该情况下,NGS数据含有来自两个不同样品的结果。样品特异性条形码允许对应于两个不同样品的读取的解复用。将每一个样品的读取作图至参照基因组,此处使用两个染色体(Chr i和Chr j)来表示。
图3B和3C显示根据本发明的聚类方法。在图中,读取已被作图至参照基因组上的不同区段。被分配给每一个区段的读取数是“数字的”(即绝对数,例如,在这些实例中的6-12个读取)。已在读取中鉴定了SNP,并且对于每一个SNP,测定最高亲本概率(例如“与P1共有的SNP”表示该SNP最可能来源于P1)。将具有相似读取计数和祖先起源的区段聚类为主区段。对于针对其的最高祖先概率不高的区段,祖先起源在聚类模型中可被给予较小权重,然而该区段的读取计数在聚类模型中应该不一定被给予较小权重。同样要注意的是,不含SNP的区段也可被聚类为主区段,从而也被分配至某一祖先起源。含有矛盾的读取计数或祖先起源的区段也可被聚类为主区段。P1和P2是指第一和第二父本染色体;M1和M2是指第一和第二母本染色体。
在本说明书中,祖先概率还可从利用由与从其分离出靶细胞的胚胎相同的亲本所孕育的参照儿童的工作推断而来。事实上,如果参照儿童对于某一位置是纯合的AA,并且父亲是杂合的AC以及母亲是纯合的AA,则在逻辑上可预期该参照儿童遗传了来自父亲的一个A和来自母亲的一个A。我们可任意定义该来自父亲的A来自一个特定的父本染色体。如果来自靶细胞的对应主区段中的对应位置可以是杂合的AC,则可预期该靶细胞遗传来自父亲的C。如果对于显著多的相邻位置情况亦如此,则可得出靶细胞遗传了来自其他父本染色体的DNA区段的结论。由于第一父本染色体遗传自父亲的第一亲本,并且另一父本染色体遗传自父亲的另一亲本,因此从该描述应当很清楚的是,靶细胞中的主区段的这样的祖先概率也可甚至在来自亲本的亲本的DNA基因分型信息不存在的情况下,通过利用参照儿童的工作推断而来。
类似地,表1提供了本发明方法的总结概述。每区段(Seg.),显示了靶(胚胎)样品的一个特定的位置的原始测序度量,以及该位置的对应亲本数据。原始度量为读取计数、4-碱基频率和最高亲本概率。除区段4外,读取计数对于所有显示的区段(约50个)是相似的。所有显示的区段的4-碱基频率围绕0%、50%和100%聚类。基于读取计数和4-碱基频率,该基因组区域经测定最可能为二倍体。测定对应于区段2至区段12的基因组区域的父本贡献,所述父本贡献最可能完全来源于P2。测定对应于区段1至区段11的基因组区域的母本贡献,所述母本贡献最可能由区段6与区段7之间的重组事件产生。以下划线粗体表示的值(区段4的读取计数和区段9的亲本概率)与它们的对应主区段是矛盾的并且最可能由假象引起。
表1
基于所述方法的其它具体应用详细描述于实施例部分中。
参考文献
Coskun U,et al.(2007)Whole genome amplification from a single cell:anew era for preimplantation genetic diagnosis.PrenatDiagn.2007Apr;27(4):297-302.
Dedonato M.et al.(2013)Genotyping-by-sequencing(GBS):a novel,efficient and cost-effective genotyping method forcattle using next-generation sequencing.PLoS One.May Vol.8(5):e62137.
Elshire RJ,et al.(2011)A robust,simple genotyping-by-sequencing(GBS)approach for high diversity species.PLoS One May Vol.6(5):e19379
Gore MA,et al.(2009)A first-generation haplotype map of maize.Science326:1115–1117.
Peterson BK,et al.(2012)Double digest RADseq:An inexpensive methodfor de novo SNP discovery and genotyping in model and non-model species.
Rigaill G An Exact Algorithm for the Segmentation of NGS Profilesusing Compression
http://www.cs.umb.edu/~rvetro/vetroBioComp/compression/abstract-
016.pdf
Zhang Y et al.(2013)De novo inference of stratification and localadmixture in sequencing studies.Bioinformatics Vol.14(Suppl5);S17.
Zengh C et al.(2013)Determination of genomic copy number alterationemphasizing a restriction site-based strategy of genome re-sequencing.Bioinformatics Vol.29No.22:2813-2821.
实施例
实施例1:RRL制备、NGS和序列作图
使用MDA将WGA应用于胚胎活检材料的DNA。MDA酶具有校正活性,但因仅存在少数拷贝(即对于单个卵裂球为1或2个拷贝)的基因组的事实,在基因组上随机存在例如等位基因脱扣(Allele Drop Out)(ADO)的很大可能性。同样地,在基因组上存在例如等位基因混入(Allele Drop In)(ADI)的可能性。
将双限制性酶消化应用于扩增的基因组以产生在每一侧上具有相同和不同的限制性酶识别位点的回文部分的片段。将RE特异性衔接子连接至片段,以产生在每一侧具有相同和不同的衔接子的片段。应用PCR优先扩增每一侧上具有不同衔接子的片段,因为这对于NGS能力的最佳使用是优选的。PCR只需要2个引物。由于引物的数量非常少,因此这在寡核苷酸的产生过程中极大地提高了质量控制(QC)(由于存在较少的引物,与例如阵列CGH、SNP阵列或通过外显子组捕获的简化代表文库的产生相反),并且使引物间相互作用(这可导致PCR效率受到干扰,如可在多重PCR反应(如在通过外显子组扩增的简化代表文库的产生中)过程中发生的)的机会降至最低。至少1个引物含有样品特异性条形码,其将使得能够将不同样品混合至1个NGS运行中。由于引物含有条形码(与其中条形码位于衔接子中的方法相反),这允许所有预PCR步骤对于每一个样品和每一个NGS平台是通用的,因为可在引物的5'尾中容易地修饰平台特异性条形码(和平台特异性杂交/测序信号)。将SPRI珠用于纯化所得的DNA,并选择性纯化具有特定大小的片段。与用于大小选择的凝胶提取相反,SPRI珠的使用允许进行批处理(自动化)并且具有较短的周转时间。与柱提取相反,SPRI珠的使用允许精确地选择具有特定大小的片段(这对于使用柱提取法是不可能的)。按照制造商的说明书进行NGS运行。
按照标准方法将NGS图像文件转换成FASTQ文件。将FASTQ文件中的数据进行解复用:根据读取(read)中的样品特异性条形码将每一个读取分配给某一个样品。这使用标准方法来完成。对于每一个样品,将分配的读取作图至参照基因组上。参照基因组是简化文库代表的计算机模拟,并且具有比“原始”靶基因组序列小至少1个数量级的大小,从而作图作图比其它方法快几个数量组。另外,计算机参照基因组是这样的区段的组装,所述区段在它们的边界上具有特定RERS并且对于其的相邻RERS在“全尺寸”参照基因组(即非简化基因组)中的前一RERS的特定距离内。作图通过高效的方式进行,如例如应当将每一个读取的位置40-45(即RERS)作图至区段的边界中的RERS,从而减小作图的自由度,增加了作图过程的速度。这导致一组将读取分配至其的区段,并将这些作图数据存储在BAM文件中。
实施例2:表征区段的原始度量
对于简化代表文库的每一个区段,将NGS数据整合至总结数据集中。该数据集含有区段的位置信息、碱基频率、4-碱基频率、读取计数、标准化的读取计数、祖先概率、用于作图的质量评分、用于碱基检出的质量评分和/或源自其的任何度量。这些度量用于聚类具有相似原始度量的非重叠附近区段以提供主区段。这些主区段通过来源于原始度量的度量来表征。
实施例3:在不到24小时的植入前胚胎中的亚染色体CNV的筛查
在某些情况下,筛查不到24小时的植入前胚胎的DNA的亚染色体CNV和具有可获得的诊断结果是重要的,以使得能够在同一周期内转移胚胎。在此情况下,下面列出随后的步骤。
对于每一个区段,计数读取的数目。根据该区段的位置信息校正读取的数目:通过使用关于“正常”样品的历史数据集,可鉴定和校正就每一个区段的读取计数通过WGA、PGA和/或NGS引入的系统性假象。校正的读取计数提供重要信息来鉴定具有CNV的区域(所述区域将具有相较于“正常”区域背离的读取计数)。然而,CNV的最终检出不应当基于单独的1个区段产生,因为在该1个区段中的结果可被假象干扰。读取计数不依赖于该区段是否含有变体,从而任何区段提供可用的读取计数信息。对于SNP阵列,情况并非如此,其中只可使用含有SNP的基因组中的位置。
对于该区段中的每一个位置,计算每一个4碱基的频率,并且对于每一个区段,组装4碱基的观察到的碱基频率。这些4-碱基频率提供重要的信息来鉴定具有CNV的区域(例如三倍体区域可具有接近33和66%的碱基频率,四倍体区域可具有接近25、50和/或75%的碱基频率,以及单倍体区域将只具有接近0或100%的碱基频率)。然而,CNV的最终检出不能并且不应当基于1个单一区段中的碱基频率来产生,因为其基本上依赖于该单一区段中变体的存在,并且只有不同区段的连续组装才可含有导致接近例如33和66%的可靠CNV检出而不受假象影响的足够碱基频率。另外,可将4-碱基频率与读取计数组合以进一步提高报告结果的可靠性和减小通过WGA、PGA和/或NGS引入的假象的影响。依赖于阵列CGH的方法通常不提供碱基频率信息。依赖于SNP阵列的方法通常不提供4碱基的碱基频率(但只提供2碱基的碱基频率,参见B等位基因频率)。
因此,每一个区段通过读取计数(针对位置信息校正的)和所观察到的4-碱基频率来表征。
在下一步中,按照相似模式的存在将附近区段(根据它们在染色体上的位置连续相邻或紧密相邻的)分组至1个主区段中。作为实例,将100个连续区段分组至1个主区段,因为每一个区段含有相似的读取计数,并且在100个区段的每一个中观察到的碱基频率以特定的带型聚类在一起。如果碱基频率的该带型为例如0、33%、66%和100%并且100个区段上的平均读取计数比基因组的其余部分高约50%,则这表明经鉴定的主区段表现出CNV(即三倍体主区段)。在解释中组合读取计数与4-碱基频率的事实增加了报告结果是正确的可能性。组合来自多个连续区段的数据的事实使通过WGA、PGA或NGS在单个区段中引入的假象对报告结果的影响降至最低。由于阵列CGH不提供碱基频率信息,因此诊断结果将不太可靠,因为其不是来自2个不同信息源的结果。由于SNP阵列不提供4-碱基频率,因此报告结果将不太可靠,因为可获得的信息较少。
相同的方法可被扩展用于:
-筛查染色体CNV
-缺失或扩增的诊断
-平衡易位或倒位的诊断
-不平衡易位的诊断
-不同领域,参见,无创性产前测试、癌症、使用甲基化敏感性酶的表观遗传学谱表征,......
实施例4:在不到24小时的植入前胚胎的显性单基因障碍的风险等位基因的诊断
一般地,任何常染色体的单倍性是不可行的,并且此类胚胎的转移不可能导致妊娠。一些常染色体的单亲二倍体可以是可行的,并且此类胚胎的转移可导致妊娠。然而,胎儿或儿童更可能是异常的,从而不会被推荐来转移此类胚胎。高度的血缘可能被检测为基因组显著部分的单亲二倍体。
在某些情况下,测试不到24小时的植入前胚胎的DNA的风险等位基因的存在是重要的,以使得能够在同一周期内转移不含某一风险等位基因的胚胎。
在本发明的情况下,2个亲本之一(亲本1)携带一个显性单基因病症的风险等位基因并且是患病的。另一个亲本(亲本2)携带0个显性单基因病症的风险等位基因并且是健康的。来自样本1的2个亲本之一(祖父母1)携带2个显性单基因遗传病症的风险等位基因并且是患病的。来自亲本1的另一个亲本(祖父母2)携带0个显性单基因病症的风险等位基因并且是健康的。在该情况下,确定植入前胚胎中来自亲本1的风险等位基因(其遗传自祖父母1)在胚胎中是否被遗传是重要的。
对于简化代表文库的每一个区段,将NGS数据整合进总结数据集中。如实施例2中所述,对于每一个区段,计数读取的数目。如实施例2中所述,对于区段中的每一个位置,计算每一个4碱基的频率,以及对于每一个区段,计数对于4碱基的观察碱基频率。
另外,对于具有高于下限噪声水平(例如>10%)和任选地低于上限噪声水平(例如<90%)的碱基频率的胚胎中的每一个变体,可测定变体具有父本或母本起源(即亲本概率)和祖父或祖母起源(即祖父母概率)的概率。然而,不产生关于祖先起源的最终检出,因为该变体位置在胚胎中的读取可受到WGA、PGA或NGS相关的假象干扰。同样地,该变体位置在亲本和祖父母中的读取可受到与PGA或NGS相关的假象干扰。相反地,计算祖先概率,并将基于连续区段至在读取数目、4碱基频率和祖先概率方面具有总体相似的特征谱的主区段中的组装产生最终检出。有可能在一个位置上,所有4碱基具有高于下限噪声水平的频率,从而鉴定4个可能的变体。在该情况下,假设至少1个变体通过与WGA、PGA和/或NGS相关的假象引入是实际可行的。传统方法只考虑具有最高碱基频率的1或2个变体。然而,不保证最高频率的变体不是通过假象引入的。因此,将基于连续区段至在读取数目、4碱基频率和祖先概率方面具有总体相似的特征谱的主区段中的组装来产生最终检出。这与依赖于SNP阵列的方法(其中只计算有A或B等位基因的频率(因为只能检测2个碱基))不同。此外,其还与依赖于离散SNP检出的方法(其中将碱基频率人为设置至0、50或100%,从而消除可不再用于随后模式识别的有价值的信息)不同。要注意的是,变体还可以是一个或多个连续碱基的缺失或插入,以及为了使其能够用于我们的方法,该缺失或插入不应当具有足够高至已被包括在SNP阵列中的特定群体频率。
因此,每一个区段通过读取计数(任选地针对位置信息进行了校正的)和观察碱基频率来表征。此外,每一个变体通过祖先概率来表征。
在下一步中,根据相似模式的存在将附近区段(根据参照基因组)分组至1个主区段中。作为实例,将100个连续区段分组至1个主区段中,因为每一个区段含有相似的读取计数,因此在100个区段的每一个中观察到的4碱基频率以特定的带型聚类在一起,并且祖父母1的总概率在主区段中跨变体是高的。在解释中组合读取计数、4碱基频率和祖先概率的事实增加了报告结果是正确的可能性。组合来自多个连续区段的数据的事实使通过WGA、PGA或NGS在单个区段中引入的假象对报告结果的影响降至最低。由于SNP阵列不提供4碱基的碱基频率信息,因此诊断结果将不太可靠,因为可获得的信息较少。由于传统单体型分型方法在区段组装之前依赖于离散SNP检出和离散亲本起源,因此基于此种方法的诊断结果将不太可靠,因为关于模式识别的可获得的信息较少并且离散SNP检出可被与WGA、PGA和/或NGS相关的假象干扰。
要注意的是,亲本和祖父母样品中的假象的概率较小,因为亲本和祖父母样品均不要求WGA,从而不存在WGA诱导的假象。
使用该方法,可确定胚胎中是否存在最可能具有祖父母1的起源并且覆盖风险等位基因的基因组位置的主区段。如果是这样,则不会被推荐来选择用于转移的胚胎。
可将相同的方法扩展至:
-常染色体显性或隐性病症的诊断
-X或Y-连锁显性或隐性病症的诊断
-当其它系谱成员是可获得的(例如亲本的同胞、同胞,……)时的病症的诊断
-使用不同同胞和/或胚胎和/或配子的染色体重组位点的诊断
实施例5:染色体畸变的起源的鉴定
在某些情况下,鉴定着丝粒周围区域(含有着丝粒的染色体的区域)中区段的最可能的亲本起源以及每一条染色体的着丝粒周围区域的最可能的倍性状态是重要的。关于亲本起源和着丝粒周围区域的倍性状态的信息允许鉴定染色体畸变的起源。这可与推断是否存在发现染色体畸变遍及整个胚胎的风险相关。
1.第一次减数分裂中的不分离错误
这通过对于其在某一染色体的着丝粒周围区域中存在3个鉴定的主区段的胚胎来举例说明:
-第一主区段最可能是父本的并且最可能具有为1的倍性状态
-第二主区段最可能是母本的并且最可能具有为1的倍性状态
-第三主区段最可能是母本的并且最可能具有为1的倍性状态
要注意的是,这反映了其中第二和第三主区段最可能来源于母亲中的该染色体的2个不同拷贝的情形。着丝粒周围区域中的2个不同的母本主区段的存在表明畸变最可能源自卵母细胞中的第一次减数分裂中的不分离错误。因此,畸变最可能存在于整个胚胎中,并且不建议选择该胚胎用于胚胎移植。
这与可能源自染色体分离中(即在有丝分裂过程中)的合子后错误的畸变(在该情况下胚胎活检材料不代表胚胎的其他细胞)相反。
2.第二次减数分裂中的错误
另一个实例通过对于其在某一染色体的着丝粒周围区域中存在2个鉴定的主区段,并且在同一染色体的远侧区存在3个鉴定的主区段的胚胎给出:
对于着丝粒周围区域中的区段:
-第一主区段最可能是父本的并且最可能具有为1的倍性状态
-第二主区段最可能是母本的并且最可能具有为2的倍性状态
要注意的是,这反映了其中着丝粒周围区域中的第二二倍体主区段最可能来源于母亲中的该染色体的单个拷贝的情形。
对于远侧区中的主区段:
-第一主区段最可能是父本的并且最可能具有为1的倍性状态
-第二主区段最可能是母本的并且最可能具有为1的倍性状态
-第三主区段最可能是母本的并且最可能具有为1的倍性状态
要注意的是,这反映了其中远侧区中的第二和第三区段最可能来源于母亲中的该染色体的2个不同拷贝的情形。
仅1个在着丝粒周围区域中具有为2的倍性状态的母本主区段连同2个在远侧区具有为1的倍性状态的不同母本主区段的存在,表明畸变可能源自卵母细胞中的第二次减数分裂中的错误。因此,畸变最可能存在于整个胚胎中,并且不建议选择该胚胎用于胚胎转移。
这与可能源自染色体分离中(即在有丝分裂过程中)的合子后错误的畸变(在该情况下胚胎活检材料不代表该胚胎的其他细胞)相反。
以“最可能具有为x的倍性状态”和“最可能具有母本起源”提供分析结果。
除了鉴定染色体畸变的起源(参见先前的实施例)以外,还可将着丝粒周围区域的祖先起源的信息用于鉴定平衡结构染色体畸变。
实施例6:平衡结构染色体异常的鉴定
在某些情况下,鉴定平衡染色体异常(诸如平衡易位或倒位)是重要的,因为此类异常可引起反复流产。
在本发明的情况下,为在某一染色体的两个拷贝之一中具有平衡染色体倒位的亲本(例如父亲),所述平衡染色体倒位遗传自祖父母(例如,祖父)。
通过对父亲和2个父本祖父母(2paternal grandparents)应用所述方法,可鉴定父亲中的哪个着丝粒周围的主区段最可能遗传自祖父。因此,可推断哪个着丝粒周围的主区段最可能存在于具有倒位的父本染色体上。
通过与胚胎中的该染色体的最可能是父本的着丝粒周围的主区段相比较,可推断该胚胎是否最可能已遗传具有倒位的染色体以及是否建议拒绝该胚胎用于胚胎移植。
类似地,所述方法可用于鉴定平衡染色体易位的存在。
可基于(亚)染色体CNV的存在鉴定不平衡结构染色体异常,如之前所举例说明的。
实施例7:循环肿瘤细胞(CTC)的表观遗传学谱表征
在某些情况下,筛选表观遗传学改变是重要的,因为表观遗传学改变(特别是超甲基化和低甲基化)可在细胞和癌症的转化中起着重要作用。关于癌症的表观遗传学谱(及其评估)的知识可被开发为例如诊断癌症的存在、测定特定癌症的分期、作出治疗决定、评估特定疗法的效率和对患者的存活时间作出分子预后的工具。
甲基化敏感性和甲基化依赖性限制性酶可用于产生在特定时间点分离的CTC的简化代表文库。取决于RERS的甲基化,一些片段将不存在于该简化代表文库中。在应用NGS后,可将区段聚类为主区段,并且可建立表观遗传学谱,其中所述表观遗传学谱通过例如被分配至每一个主区段的读取的数目来描述。
还可确定例如哪个预期的区段在序列读取数据中未被检测到,从而不能被聚类为主区段。这可单独地对每一个区段或在全基因组范围内进行测定。后者可被描述为遗失区段的总数。这些区段的不存在可以是假象的作用或可以例如由甲基化敏感性RE的RERS的甲基化引起。可预期假象的数目跨不同CTC是相似的,从而遗失区段的总数的变化代表相较于参照的CTC的总体甲基化谱的变化。因此,这反映了描述CTC的表观遗传学谱的另一个度量。
可将同一方法用于进行如下方面的表观遗传学谱表征:
-分离的CTC,
-外切体,
-体液中的循环肿瘤DNA,诸如尿、血液、唾液、脑脊液
-血液中的循环胎儿细胞或游离胎儿DNA
-来自植入前胚胎的活检材料
-来自胎儿、新生儿或个人(参见,儿童、父母、祖父母,……)或马、牛、猪,……的活检材料
-存在于活检组织样品中,或从组织切片(新鲜冷冻组织或福尔马林固定的石蜡包埋的组织)分离的肿瘤细胞
-……
实施例8:CTC的基因组CNV谱
针对胚胎活检材料中的(亚)染色体CNV的测定所描述的方法还可用于测定CTC的基因组CNV谱。关于癌症细胞的基因组CNV谱(及其评估)的知识可被开发为例如诊断癌症的存在、确定特定癌症的分期、作出治疗决定、评估特定疗法的效率和对患者的存活时间作出分子预后的工具。
实施例9:镶嵌现象
在一些情况下,评估对单个卵裂球细胞的分析是否代表胚胎的其他细胞可以是有益的。在此类情况下,其与鉴定畸变是否最可能源自第一次减数分裂或第二次减数分裂中的错误相关。如果畸变最可能具有此种减数分裂起源,则在胚胎中很可能不存在该特定畸变的镶嵌现象。在该情况下,最可能的是所述畸变遍及整个胚胎。相反,如果畸变最可能具有有丝分裂起源,则在胚胎中很可能存在该特定畸变的镶嵌现象。
在一些情况下,可能需要分析含有少数细胞(例如5个细胞)的滋养外胚层活检材料中的亚染色体CNV镶嵌现象。给出了以下实例,其中所述细胞之一含有因有丝分裂事件(即所述事件没有减数分裂起源,从而不存在于所有细胞中)而导致的亚染色体三倍性,并且假定该亚染色体三倍性由2个父本拷贝和1个母本拷贝组成。
当将所述方法应用于这样的样品时,其将导致覆盖该亚染色体区域的主区段(或一组主区段)的鉴定,其中具有最可能的父本起源的主区段具有为约1.2的倍性状态(即5个细胞中存在6个父本拷贝)。基于参照数据,可推断为1.2的倍性状态是否与1显著不同。在该情况下,可以例如鉴定细胞中的至少一个对于该区段具有至少2的父本倍性状态的概率。
同一方法可用于:
-染色体以及亚染色体嵌合CNV的鉴定
-含有至少2个细胞的任何细胞混合物(例如滋养外胚层活检、CTC、癌细胞、肿瘤组织细胞、健康与患病细胞的混合物、……)中的镶嵌型CNV的鉴定。
其它情况可能需要鉴定存在于母体血液中的胎儿细胞或无细胞胎儿DNA中的CNV。如果胎儿DNA分数足够高,则胎儿DNA中的CNV将被鉴定为具有与2显著不同的倍性状态的主区段。要注意的是,该应用不要求关于亲本DNA的信息。
当父本DNA是可获得的时,所述方法可应用于孕妇的血液和胎儿父亲的血液。这将使得能够鉴定具有最可能是父本起源的主区段。无细胞胎儿DNA仅为样品中的总DNA(其中大部分为母本DNA)的一部分,从而具有最可能是父本起源的主区段将具有相较于具有最可能是母本起源的主区段的总体上低的读取计数。跨最可能是父本的主区段,可评估任何最可能是父本的区段是否显示染色体或亚染色体CNV。要注意的是,与最可能是父本的区段对最可能是母本的区段相关的读取计数的比较表示母体血液中的胎儿DNA分数。
同一方法可应用于:
-其中存在双胞胎妊娠的循环胎儿细胞或无细胞胎儿DNA和母体DNA的混合物中的胎儿CNV镶嵌现象的鉴定
-胎儿中与可遗传病症相关的风险等位基因的存在的鉴定
-倒位、平衡易位、不平衡易位、亚染色体CNV、染色体CNV的存在的鉴定。
其它情况可能要求存在于血液中的CTC或无细胞循环肿瘤DNA中的CNV镶嵌现象的鉴定。如果肿瘤DNA分数足够高,则肿瘤DNA中的CNV将被鉴定为具有与2显著不同的倍性状态的主区段。
同一方法可应用于:
-存在于血液中的外切体和从血液分离的外切体的分析。
-其它体液(唾液、脑脊液、尿、血清)中的CTC或无细胞肿瘤DNA的分析。
实施例10:HLA配型
如先前实施例中解释的方法还可用于人白细胞抗原(HLA)配型,其目的是分离出生时的脐带血干细胞以用于移植至具有严重血液相关疾病的当前儿童。传统方法要求开发覆盖HLA区中足够数量的连锁标志物的患者特异性测试。所述方法是通用的并且不要求开发患者特异性测试。此外,由于片段的基因组范围内的分布,连锁标志物的数目远高于通常用于传统方法的4-10个标志物。
实施例11:支持分析靶基因组的噪声分型
这在其中鉴定某一主区段,测定主区段的总体亲本概率,并且发现主区段最可能是父本的情形下进行了举例说明。对于对应的基因组区域,未鉴定最可能是母本的区段,这表明对于该基因组区域只存在父本的贡献。
对于每一个组成区段,可分析区段的亲本概率是否与主区段的总体父本概率一致。如果假设原本存在对该基因组区域的母本贡献,则这会对比在该整个基因组区域上的此种母本贡献的观察到的系统性高频ADO。这会表明所述假设是不对的,并且不存在对于该主区段的母本贡献。这举例说明了如何将ADO比率用于确认亲本(母本)区段的不存在。
如果主区段具有约为1的倍性状态并且没有在25%、33、50%、66%和75%区域中聚类的4-碱基频率,则这可表示单亲单倍性,而如果所述区段具有为2的倍性状态并且没有在25%、33、50%、66%和75%区域中聚类的4-碱基频率,则可预期单亲二倍性。因此,噪声的分型可进一步支持靶基因组的分析。
同一方法可应用于:
-具有最可能是母本起源的主区段
-支持靶基因组的其它分析
实施例12:鉴定样品转换的噪声分型
这在其中鉴定一组主区段,以及测定每一个主区段的总体亲本概率的情形下进行了举例说明。预期随机发生ADI,从而在组成区段和它们的对应主区段之间在亲本概率上存在随机的低频不一致性。同样,可预期对于每一个主区段存在高的亲本概率。然而,如果已存在样品转换(例如错误的父亲,或来自不同家族的胚胎),则这将导致ADI的系统性发生,从而导致在组成区段和它们的对应主区段之间在亲本概率上存在系统性高频不一致性。同样,这可导致每一个主区段的低亲本概率。因此,噪声的分型可鉴定样品转换的存在。
实施例13:简化代表文库的构建
采用参照基因组GRCh38build 38。当用EcoRI和PstI消化时,这产生约2,169K DNA片段,其中约897K片段是双端的(即在一侧含有EcoRI并且在另一侧含有PstI)。在衔接子连接和抑制PCR后,衔接子连接的双端片段将在DNA片段的库中被指数富集。当应用额外的大小选择步骤选择在250至450bp的范围内(给定的大小不包括衔接子)的DNA片段时,库可被进一步缩减至约100K片段并横跨约34.7Mb的基因组。这样,原始3Gb基因组已被减小至约1/89。
在另一个实例中,再次采用参照基因组GRCh38build 38。当用EcoRI和XhoI消化时,这产生约969K DNA片段,其中约192K片段是双端的(即在一侧含有EcoRI并且在另一侧含有XhoI)。在衔接子连接和抑制PCR后,衔接子连接的双端片段将在DNA片段的库中被指数富集。当应用额外的大小选择步骤选择在250至450bp的范围内(给定的大小不包括衔接子)的DNA片段时,库可被进一步缩减至约10K片段并横跨约3.6Mb的基因组。这样,原始3Gb基因组已被减小至约1/860。
实施例14:植入前基因测试
在第一步中,制备用于测序的样品,并对其进行测序,如图1中示意性描绘的。
1.样品可由胚胎活检材料(例如从卵裂期胚胎分离的1个卵裂球或例如从胚泡期胚胎分离的2-10个滋养外胚层细胞)和从家族成员分离的基因组DNA组成,所述家族成员是例如正在经历体外授精治疗的女性患者、将来自其的精子用于来自女性患者的卵母细胞受精的男性患者,或定相参照物(其可以是例如来自女性和男性患者的患病孩子,或例如具有某一风险等位基因的患者的父母)。每一个胚胎活检材料是使用MDA(或基于PCR的扩增法诸如PicoPlex、SurePlex、MALBAC)扩增的全基因组,并使用2种限制性酶消化全基因组扩增的材料。还使用(优选地相同的)2种限制性酶消化从家族成员分离的基因组DNA。
2.在该双消化后,添加2种衔接子(1种衔接子用于每一种限制性酶),使用DNA连接酶将衔接子连接至DNA片段。在该点上,混合物由双端和相同端衔接子连接的片段组成。
3.在随后的PCR步骤中,相同端衔接子连接的片段将优先形成分子内发夹环,从而不被高效扩增,与双端衔接子连接的片段相反。在许多轮PCR后(通常5-50轮),双端衔接子连接的片段相对于相同端片段已被大量富集。另外,至少一个引物具有样品特异性条形码,并且将把该条形码引入双端衔接子连接的片段。使用该条形码,在单个NGS运行中进行测序的样品库中独特地鉴定每一个样品将是可能的。或者,样品特异性条形码也可早已存在于1个或两个衔接子中,从而不需要经由PCR引物引入。
4.在PCR循环后,可纯化PCR产物,并且任选地这可伴随大小选择以优先纯化具有某一长度的PCR产物。
5.最后,将纯化的PCR产物合并,按照制造商的说明书进行测序。
在第二步中,如图2中所描绘的,处理NGS平台的输出数据。
1.将NGS平台的输出数据进行转换和解复用成含有被分配给某一样品(根据样品特异性条形码)的每一个读取的每样品FASTQ文件。随后将分配的读取作图至参照基因组上。这导致一组读取被分配给其的区段,并且将这些作图数据存储在一个或多个BAM文件中。或者,可直接转换NGS平台的输出数据,将其解复用,并作图入BAM文件中(即无需产生FASTQ文件的中间步骤),这可在进行所述处理所需的总时间方面提供益处。
2.对于每一个区段,将相关读取的测序数据整合至含有度量的总结数据集中。这些原始测序度量可以是:
a.区段的位置信息,
b.片段中或片段中的一个或多个特作图置上的1、2或3个特定碱基所观察到的频率(其也被称为碱基频率),
c.片段中或片段中的一个或多个特作图置中的4碱基所观察到的频率(其也被称为4-碱基频率),
d.被作图至该区段的读取的数目(其也被称为读取计数),
e.标准化的读取数目(其也被称为标准化的读取计数),其中标准化可基于作图至某一样品的读取的总数和/或区段的GC含量和/或参照基因组中围绕所述区段的DNA序列的GC含量和/或历史数据集中的该特定区段所观察到的读取计数和/或任何其它标准化方法
f.区段的祖先起源或区段中的特作图置,其中可使用离散基因分型算法和教科书知识来推断祖先起源(例如如果标准基因分型算法表明父亲对于某一位置是纯合的AA,母亲对于同一位置是杂合的AC,并且胚胎活检材料对于同一位置是杂合AC,则可推断含有C的胚胎中的读取源自从母亲遗传的DNA,从而推断该特定的位置具有母本起源)。
g.区段的祖先概率或区段中的特作图置,其中从碱基频率或4-碱基频率而非离散基因分型算法推断祖先概率,例如,如果父亲对于某一位置为约90-100%的A,母亲对于同一位置为约45-55%的A和45-55%的C,并且胚胎活检对于同一位置为约45-55%的A和45-55%的C,则可推断含有C的胚胎中的读取最可能源自从母亲遗传的DNA。然而,如果由于单细胞测序数据中的噪声,胚胎活检材料对于同一位置为约80-90%的A和仅约10-20%的C,则含有C的胚胎中的读取可能已源自从母亲遗传的DNA,但也可能由与先前的全基因组扩增步骤相关的假象引起。这样,区段的母本概率在该第二情况下相较于第一情况较低。
h.作图和/或碱基检出的质量评分,
i.和/或源自其的任何度量。
3.这些度量用于将具有相似原始度量的非重叠附近区段聚类为主区段的区段化模型(segmentation model)。
a.只有在参照基因组中是连续的或相对紧密靠近的并且在同一染色体上的区段才可被组装至1个主区段中。这样,通常按染色体进行聚类。
b.具有相似的原始测序度量的连续区段可能被组装至1个主区段中。例如,可将具有99个读取、接近0、50和100%聚类的碱基频率以及高父本概率的区段A与具有100个读取和接近0、50和100%聚类的碱基频率并且还有高父本概率的区段B组装在一起。
c.要注意的是,这不排除连续区段可具有矛盾的原始测序度量(例如片段C具有极高的父本概率,而片段D具有低父本概率),但仍然被聚类为1个主区段的可能性,只要它们的聚类得到足够数量的具有相似原始测序度量,从而也被分配给同一主区段的周围区段支持。矛盾的原始测序度量可由WGA、PGA或NGS期间的假象引起,但多个片段被组装至主区段中的事实过滤掉了此类假象对主区段的最终的离散检出的影响。
d.聚类可由单个度量(例如读取计数,或碱基频率,或4-碱基频率,或祖先起源,或祖先概率或任何其它度量)或多个度量的组合(例如读取计数与碱基频率和/或4-碱基频率、祖先起源与祖先概率或2个或更多个度量的任何其它组合)驱动
e.主区段通过从原始度量衍生的度量来表征。对于连续度量(如例如读取计数),这可以是例如在指定的区段之间的平均或中位原始度量,然而对于离散度量(如例如祖先起源),这可以是在指定的区段之间的频率最高的观察值。存在计算主区段的总体度量的备选方法。
f.区段化模型的目的在于鉴定生物学相关的主区段。例如,最可能的是,重组位点(其可被鉴定为例如其中源自男性患者的父亲的主区段与源自男性患者的母亲的主区段相邻的位置)的数目少(通常每染色体0-10个)并且与染色体的大小相关。也不可能的是,例如单个染色体由许多来自其的总体标准化的读取计数在主区段之间交替出现的主区段组成(例如主区段1具有表示二倍体的总体标准化的读取计数,相邻主区段2具有表示三倍体的总体标准化的读取计数,相邻的主区段3具有表示二倍体的总体标准化的读取计数,相邻主区段4具有表示三倍体的总体标准化的读取计数,并且相邻主区段5具有表示二倍体的总体标准化的读取计数)。存在于分割区段化模型中包括生物学相关性的替代标准。
4.可基于鉴定的主区段及它们的总结度量进行最终离散DNA检出。最终离散DNA检出可牵涉染色体重组位点的基于概率的鉴定、(亚)染色体拷贝数变异、缺失、不平衡或平衡易位、倒位、扩增、遗传性病症的风险等位基因的存在、第一次减数分裂或第二次减数分裂中的错误、平衡结构染色体异常、细胞的表观遗传学谱、镶嵌现象、人白血病抗原(HLA)配型和/或噪声分型。
Claims (19)
1.一种靶DNA基因组的分析方法,所述方法包括以下步骤:
-使用应用于所述靶DNA基因组的简化代表文库的测序方法获得非重叠区段的原始度量,
其中已富集了所述简化代表文库的具有由预定DNA序列界定的两个边界的靶DNA基因组片段;
-将具有相似原始度量的非重叠附近区段聚类以提供主区段;
-提供描述主区段的度量,其中所述度量包括一个或多个主区段的推断的边界,一个或多个主区段中观察到的读取数,所述一个或多个主区段中观察到的4-碱基频率,或所述主区段中的一个或多个主区段的祖先概率。
2.权利要求1的方法,其包括基于区段的聚类进一步产生最终离散DNA检出的步骤。
3.权利要求1至2的方法,其中所述原始度量包括碱基频率、读取计数或祖先信息。
4.权利要求3的方法,其中所述原始度量包括碱基频率和读取计数。
5.权利要求4的方法,其中所述原始度量还包括祖先信息。
6.前述权利要求的任一项的方法,其中已富集了所述简化代表文库的具有由两个不同预定DNA序列界定的边界的靶DNA基因组片段。
7.前述权利要求的任一项的方法,其中所述预定DNA序列包含限制性酶识别位点。
8.权利要求7的方法,其中已使用限制性酶进行靶DNA基因组片段的富集。
9.前述权利要求的任一项的方法,其中所述靶DNA基因组来源于1至10个细胞或1至1000个细胞。
10.权利要求9的方法,其中所述靶DNA基因组来源于一个或两个卵裂球,来自滋养外胚层活检的细胞,一个或两个极体,在母体外周血循环中发现的胎儿细胞或无细胞胎儿DNA,或循环肿瘤细胞或无细胞肿瘤DNA。
11.前述权利要求的任一项的方法,其中所述方法包括植入前遗传筛查、植入前遗传诊断、癌症筛查、癌症诊断、细胞分型或祖先起源鉴定。
12.前述权利要求的任一项的方法,其中已使用完全或部分扩增的靶DNA基因组产生所述简化代表文库。
13.权利要求2的方法,其中所述最终的离散DNA检出包括如下方面的基于概率的鉴定:染色体重组位点、(亚)染色体拷贝数变异、缺失、不平衡或平衡易位、倒位、扩增、遗传性病症的风险等位基因的存在、第一次减数分裂或第二次减数分裂中的错误、平衡结构染色体异常;细胞的表观遗传学谱、镶嵌现象、人白细胞抗原(HLA)配型或噪声分型。
14.权利要求2的方法,其中所述最终的离散DNA检出包括测定所述主区段的拷贝数和祖先起源。
15.前述权利要求的任一项的方法,其中所述聚类使用计算机模拟的参照基因组。
16.前述权利要求的任一项的方法,其中聚类为主区段使用系谱信息。
17.前述权利要求的任一项的方法,其中聚类为主区段是基于祖先概率并且来源于系谱的信息。
18.前述权利要求的任一项的方法,其中所述靶DNA基因组为胎儿DNA基因组,并且其中所述胎儿DNA基因组来源于获自拥有具有所述胎儿DNA基因组的胎儿的孕妇的流体样品。
19.权利要求18的方法,其还包括在进行测序方法之前进行大小选择步骤,其中所述大小选择步骤富集具有小于250个碱基对的大小的片段。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1319779.3 | 2013-11-08 | ||
GBGB1319779.3A GB201319779D0 (en) | 2013-11-08 | 2013-11-08 | Genetic analysis method |
PCT/EP2014/074155 WO2015067796A1 (en) | 2013-11-08 | 2014-11-10 | Genetic analysis method |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105874081A true CN105874081A (zh) | 2016-08-17 |
Family
ID=49818363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480066775.7A Pending CN105874081A (zh) | 2013-11-08 | 2014-11-10 | 遗传分析方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US20160275239A1 (zh) |
EP (1) | EP3066213B1 (zh) |
CN (1) | CN105874081A (zh) |
AU (2) | AU2014345516A1 (zh) |
CA (1) | CA2928013A1 (zh) |
GB (1) | GB201319779D0 (zh) |
WO (1) | WO2015067796A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114171117A (zh) * | 2021-09-06 | 2022-03-11 | 百图生科(北京)智能技术有限公司 | 用于单细胞测序的方法、装置、设备、介质和程序产品 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9892230B2 (en) | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
WO2014190286A2 (en) | 2013-05-24 | 2014-11-27 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
EP3169813B1 (en) | 2014-07-18 | 2019-06-12 | The Chinese University Of Hong Kong | Methylation pattern analysis of tissues in dna mixture |
WO2016019042A1 (en) | 2014-07-30 | 2016-02-04 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
US10364467B2 (en) | 2015-01-13 | 2019-07-30 | The Chinese University Of Hong Kong | Using size and number aberrations in plasma DNA for detecting cancer |
US10733476B1 (en) | 2015-04-20 | 2020-08-04 | Color Genomics, Inc. | Communication generation using sparse indicators and sensor data |
US9811552B1 (en) * | 2015-04-20 | 2017-11-07 | Color Genomics, Inc. | Detecting and bucketing sparse indicators for communication generation |
CN105368936B (zh) * | 2015-11-05 | 2021-07-30 | 序康医疗科技(苏州)有限公司 | 一种利用囊胚培养液检测胚胎染色体异常的方法 |
US11200963B2 (en) | 2016-07-27 | 2021-12-14 | Sequenom, Inc. | Genetic copy number alteration classifications |
KR102529113B1 (ko) | 2016-11-30 | 2023-05-08 | 더 차이니즈 유니버시티 오브 홍콩 | 소변 및 기타 샘플에서의 무세포 dna의 분석 |
US20180225413A1 (en) * | 2016-12-22 | 2018-08-09 | Grail, Inc. | Base Coverage Normalization and Use Thereof in Detecting Copy Number Variation |
CA3207879A1 (en) | 2017-01-24 | 2018-08-02 | Sequenom, Inc. | Methods and processes for assessment of genetic variations |
CA3066775A1 (en) | 2017-10-16 | 2019-04-25 | Illumina, Inc. | Deep learning-based techniques for training deep convolutional neural networks |
US11861491B2 (en) * | 2017-10-16 | 2024-01-02 | Illumina, Inc. | Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs) |
CN109628277B (zh) * | 2019-01-23 | 2022-02-01 | 东南大学 | 一种外泌体内肿瘤标志miRNA的分离和检测系统及方法 |
CN109920479B (zh) * | 2019-03-13 | 2023-08-15 | 复旦大学附属妇产科医院 | 一种鉴别胚胎染色体倒位携带状态的方法 |
US11475981B2 (en) | 2020-02-18 | 2022-10-18 | Tempus Labs, Inc. | Methods and systems for dynamic variant thresholding in a liquid biopsy assay |
US11211147B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing |
US11211144B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Methods and systems for refining copy number variation in a liquid biopsy assay |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101641449A (zh) * | 2005-06-23 | 2010-02-03 | 科因股份有限公司 | 用于多态性的高通量鉴定和检测的策略 |
WO2011095501A1 (en) * | 2010-02-03 | 2011-08-11 | Lexogen Gmbh | Complexitiy reduction method |
WO2012134602A2 (en) * | 2011-04-01 | 2012-10-04 | Centrillion Technology Holding Corporation | Methods and systems for sequencing long nucleic acids |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6958225B2 (en) * | 1999-10-27 | 2005-10-25 | Affymetrix, Inc. | Complexity management of genomic DNA |
US20040259100A1 (en) * | 2003-06-20 | 2004-12-23 | Illumina, Inc. | Methods and compositions for whole genome amplification and genotyping |
GB201217888D0 (en) * | 2012-10-05 | 2012-11-21 | Univ Leuven Kath | High-throughput genotyping by sequencing of single cell |
-
2013
- 2013-11-08 GB GBGB1319779.3A patent/GB201319779D0/en not_active Ceased
-
2014
- 2014-11-10 US US15/034,064 patent/US20160275239A1/en not_active Abandoned
- 2014-11-10 CN CN201480066775.7A patent/CN105874081A/zh active Pending
- 2014-11-10 WO PCT/EP2014/074155 patent/WO2015067796A1/en active Application Filing
- 2014-11-10 EP EP14802610.7A patent/EP3066213B1/en active Active
- 2014-11-10 CA CA2928013A patent/CA2928013A1/en not_active Abandoned
- 2014-11-10 AU AU2014345516A patent/AU2014345516A1/en not_active Abandoned
-
2020
- 2020-09-10 US US17/017,441 patent/US20210134390A1/en active Pending
-
2021
- 2021-02-12 AU AU2021200915A patent/AU2021200915B2/en not_active Ceased
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101641449A (zh) * | 2005-06-23 | 2010-02-03 | 科因股份有限公司 | 用于多态性的高通量鉴定和检测的策略 |
WO2011095501A1 (en) * | 2010-02-03 | 2011-08-11 | Lexogen Gmbh | Complexitiy reduction method |
WO2012134602A2 (en) * | 2011-04-01 | 2012-10-04 | Centrillion Technology Holding Corporation | Methods and systems for sequencing long nucleic acids |
Non-Patent Citations (1)
Title |
---|
REGINALDO: "Nonoverlapping Clone Pooling for High-Throughput Sequencing", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114171117A (zh) * | 2021-09-06 | 2022-03-11 | 百图生科(北京)智能技术有限公司 | 用于单细胞测序的方法、装置、设备、介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
US20160275239A1 (en) | 2016-09-22 |
AU2021200915A1 (en) | 2021-03-04 |
WO2015067796A1 (en) | 2015-05-14 |
EP3066213B1 (en) | 2019-11-06 |
AU2021200915B2 (en) | 2022-12-08 |
AU2014345516A1 (en) | 2016-06-09 |
CA2928013A1 (en) | 2015-05-14 |
EP3066213A1 (en) | 2016-09-14 |
GB201319779D0 (en) | 2013-12-25 |
US20210134390A1 (en) | 2021-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105874081A (zh) | 遗传分析方法 | |
US20210222230A1 (en) | Methods for simultaneous amplification of target loci | |
JP6328934B2 (ja) | 非侵襲性出生前親子鑑定法 | |
AU2012385961B2 (en) | Highly multiplex PCR methods and compositions | |
AU2011358564B9 (en) | Methods for non-invasive prenatal ploidy calling | |
CN106834474B (zh) | 利用基因组测序诊断胎儿染色体非整倍性 | |
EP2902500B1 (en) | Methods for non-invasive prenatal ploidy calling | |
US20170051355A1 (en) | Highly multiplex pcr methods and compositions | |
JP2022514879A (ja) | 無細胞dna末端特性 | |
CN110168108A (zh) | 血浆中稀少dna的去卷积和检测 | |
WO2012027483A2 (en) | Defining diagnostic and therapeutic targets of conserved free floating fetal dna in maternal circulating blood | |
EP2847347B1 (en) | Highly multiplex pcr methods and compositions | |
KR20200064891A (ko) | 조혈모세포 이식 후 혈액암 예후 예측을 위한 정보 제공 방법 | |
WO2023244735A2 (en) | Methods for determination and monitoring of transplant rejection by measuring rna |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Belgium Machelen Applicant after: Agilent Technologies Belgium Address before: Leuven Applicant before: Cartagenia N.V. |
|
CB02 | Change of applicant information | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230302 Address after: California, USA Applicant after: AGILENT TECHNOLOGIES, Inc. Address before: Belgium Machelen Applicant before: Agilent Technologies Belgium |
|
TA01 | Transfer of patent application right |