CN111566227A - 结构变体分析 - Google Patents
结构变体分析 Download PDFInfo
- Publication number
- CN111566227A CN111566227A CN201880086046.6A CN201880086046A CN111566227A CN 111566227 A CN111566227 A CN 111566227A CN 201880086046 A CN201880086046 A CN 201880086046A CN 111566227 A CN111566227 A CN 111566227A
- Authority
- CN
- China
- Prior art keywords
- density
- read
- sequence
- scaffold
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本公开内容提供了鉴定和报告基因组或染色体水平结构信息如结构变异的存在的方法、系统和算法。在一些情况下,结构变异包括拷贝数变异、倒位、缺失、串联重复或反向重复。本文进一步提供了用于装配配对读取基因组数据,包括创建和优化支架模型的方法、系统和算法。
Description
交叉引用
本申请要求于2017年11月9日提交的美国临时申请号62/583,974的权益,其在此通过引用以其全文明确并入。
背景技术
在理论上和实践中仍然难以产生高质量、高度连续的基因组序列。当试图从诸如福尔马林固定、石蜡包埋的(FFPE)样品等保存的样品中回收基因组序列、定相信息或其他所需遗传信息时,该问题变得复杂。尽管测序成本和时间的减少增加了可用的原始基因组数据的量,但是缺乏合适的方法来以有效和准确的方式分析和装配数据是当前测序技术的主要限制。
援引并入
本说明书中所提到的所有出版物、专利和专利申请均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。本说明书中提及的所有出版物、专利和专利申请均通过引用以其全文以及其中引用的任何参考文献并入本文。
发明内容
本文提供了核酸结构变体检测的方法。一些这样的方法包括:a)将读取对信息映射到参考核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;以及c)基于第一箱元的可映射性值估计拷贝数变异。在一些情况下,该方法进一步包括使拷贝数变异归一化。另外,该方法进一步包括通过绘制两个样品针对彼此的映射读取密度来显示可映射性。
本文提供了核酸结构变体检测的方法。一些这样的方法包括:a)将读取对信息映射到参考核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;c)生成读取对信息的二维图像;其中每个像素代表箱元;d)为图像中至少一组共享公共角落的四个像素计算z评分;其中z评分由相邻像素之间的对比表示;以及e)当z评分超过阈值时鉴定候选命中。在一些情况下,参考核酸支架是基因组。通常,每个数据集从不同的配对末端读取方向获得。考虑到候选命中选自易位、倒位、缺失、重复和染色体间结构变异中的一种或多种。
本文提供了用于对样品中等位基因变异的混合物进行建模的系统。一些这样的系统包含:加权基因组支架模型的集合,其中每个基因组支架模型包括加权染色体的集合,其中每个染色体是基因组支架中箱元的线性图;以及用于计算至少两个基因组支架模型的对数似然比的模块,以预测由文库采样的读取对是否将落入箱元中。在一些情况下,本文的系统进一步包含至少一个特征检测器模块,其中所述至少一个特征检测器模块提出对基因组支架模型的候选修饰。通常,至少一个特征检测器模块确定序列变体的箱元边界。考虑到序列变体选自易位、倒位、缺失和重复中的一种或多种。通常,该系统进一步包含基于来自至少一个特征检测器模块的输入生成替代模型的模块。
本文提供了用于对样品中的等位基因变异进行建模的方法。一些这样的方法包括:a)生成加权基因组支架模型的集合,其中每个基因组支架模型包括加权染色体的集合,其中每个染色体是基因组支架中箱元的线性图;b)基于模型描述映射到参考序列上的读取对测序信息的能力来计算评分,其中较高的评分值指示更具预测性的模型;以及c)迭代地添加附加模型以使评分值最大化。考虑到读取对测序信息包括倒位、易位、重复和缺失中的一种或多种。在一些情况下,该方法进一步包括检测特征,其中检测特征包括在模型中接合或分离箱元以增加评分值。通常,样品是癌细胞。
本文提供了核酸结构变体检测的方法。一些这样的方法包括:a)将读取对信息映射到预测的核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;c)生成读取对信息的二维图像;其中每个像素代表箱元;以及d)鉴定二维图像中对应于通过共同的连接序列片段连接的两个序列片段的至少一个特征。通常,该方法包括以正确的顺序装配通过共同的连接序列片段连接的两个序列片段。有时,该方法包括丢弃对应于假阳性的特征。
本文提供的方法包括:将读取对序列信息映射到序列支架上;以及鉴定如此映射的多个读取对符号的密度的局部变异。在一些情况下,该方法包括将密度的局部变异分配给相应的结构布置特征。通常,该方法包括重构序列支架,从而减小密度的局部变异。有时,将读取对序列信息映射到序列支架上包括定位指示读取对的符号,使得符号与代表序列支架的轴的距离指示从序列支架上的读取对的第一读取的映射位置到序列支架上的读取对的第二读取的映射位置的距离,并且使得符号相对于代表序列支架的轴的位置指示该读取对的第一读取的映射位置和该读取对的第二读取的映射位置的平均值。有时,重构序列支架包括重新排序序列支架的至少一些叠连群。替代地或组合地,重构序列支架包括重新定向序列支架的至少一个叠连群。通常,重构序列支架包括将断裂引入序列支架的至少一个叠连群中。有时,该方法进一步包括将存在于断裂的一个边缘处的序列引入到断裂的第二边缘上。在一些情况下,重构序列支架包括将第一叠连群的区段易位到第二叠连群的内部区域中。有时,将读取对序列信息映射到序列支架上包括将读取对信息分配给多个箱元。通常,鉴定密度的局部变异包括鉴定具有符号的局部低密度的区域。替代地,鉴定密度的局部变异包括鉴定具有符号的局部高密度的区域。有时,鉴定密度的局部变异包括鉴定第一位置处的密度和第二位置处的密度,其中第一位置处的密度和第二位置处的密度显著不同。在一些情况下,第一位置和第二位置是相邻的。通常,第一位置和第二位置与序列支架等距。有时,鉴定密度的局部变异包括获得第一位置处的预期密度和第一位置处的观察密度。通常,第一位置处的预期密度是由密度梯度预测的密度,该密度梯度随着与代表序列支架的轴的距离增加而单调降低。任选地,等于样品的倍性的整数值的一部分的局部密度变异指示该比例中样品倍性补充(ploidy complement)的事件。在一些情况下,支架代表癌细胞基因组。替代地或组合地,支架代表转基因细胞基因组。任选地,支架代表基因编辑的基因组。通常,重构后,支架具有增加至少20%的N50。
本文提供了包括获得包含序列支架信息的支架的方法。一些这样的方法包括:获得配对读取信息;部署配对读取信息,使得描绘至少一些读取对信息,以指示读取对中每个读取相对于支架的位置,并指示映射在支架上的一个读取到另一个读取的距离;以及鉴定所部署的配对读取信息的密度的局部变异。在一些情况下,该方法包括将密度的局部变异分配给相应的结构布置特征。有时,该方法包括重新配置支架以减小局部变异。通常,获得包含序列支架信息的支架包括对核酸样品进行测序。替代地或组合地,获得包含序列支架信息的支架包括接收代表核酸样品的数字信息。有时,该方法包括对于部署的读取对信息获得预测密度分布。通常,鉴定包括鉴定预测密度分布与所描绘的读取对信息密度之间的显著差异。替代地或组合地,鉴定局部变异包括鉴定在直角的顶点处具有密度峰值的密度扰动。在一些情况下,直角的顶点指向代表支架的轴。通常,获得配对末端读取信息包括交联未提取的核酸。有时,获得配对末端读取信息包括交联染色质中结合的核酸。通常,染色质是天然染色质。替代地或组合地,获得配对末端读取信息包括将核酸结合至核酸结合部分。在一些情况下,获得配对末端读取信息包括生成重构染色质。通常,部署配对读取信息包括将读取对信息分配给多个箱元。有时,重构序列支架包括重新排序序列支架的至少一些叠连群。替代地或组合地,重构序列支架包括重新定向序列支架的至少一个叠连群。有时,重构序列支架包括将断裂引入序列支架的至少一个叠连群中。通常,该方法包括将断裂的一个边缘处的序列引入到断裂的第二边缘上。有时,重构序列支架包括将第一叠连群的区段易位到第二叠连群的内部区域中。在一些情况下,支架代表癌细胞基因组。有时,支架代表转基因细胞基因组。替代地或组合地,支架代表基因编辑的基因组。通常,重构后,支架具有增加至少20%的N50。有时,等于样品的倍性的整数值的一部分的局部密度变异指示该比例中样品倍性补充的事件。
本文提供了鉴定样品中相对于序列支架的结构重排的方法。一些这样的方法包括:将读取对序列信息映射到序列支架上;鉴定局部密度变异,该局部密度变异具有指向对应于序列支架的轴的直角边并且沿着平分直角边的线具有双侧对称性;以及将样品归类为相对于序列支架具有简单易位,所述序列支架包含距离易位点至少与局部密度变异的最长最远映射读取一样长的区段长度。
本文提供了鉴定样品中的结构重排的方法。一些这样的方法包括:将读取对序列信息映射到序列支架上;鉴定局部密度变异,该局部密度变异具有指向对应于序列支架的轴的直角边;鉴定局部密度变异的子区域,该子区域沿着平分直角边的线破坏双侧对称性;以及将样品归类为相对于序列支架具有易位,所述序列支架包含缺乏对称性恢复性读取对群体将映射到的序列的区段。
本文提供了鉴定样品中相对于序列支架的结构重排的方法。一些这样的方法包括:将读取对序列信息映射到序列支架上;鉴定局部密度变异,该局部密度变异具有指向对应于序列支架的轴的直角边;获得预期的读取对密度分布曲线;以及鉴定包含局部密度变异的读取对映射到的支架区段;重新定位支架区段,使得包含局部密度变异的读取对映射到由预期读取对密度分布曲线指示的区域,以得到局部密度变异的密度。
本文提供了被配置为显示本文描述的任何方法的结果的计算机监视器。
本文提供了被配置为执行本文描述的任何方法的计算步骤的计算机系统。
本文提供了本文描述或使用本文描述的方法生成的映射读取对数据的视觉表示。
本文提供了核酸结构变体检测的方法。一些这样的方法包括:将读取对信息映射到预测的核酸支架上;获得结构变体假设;计算结构变体假设与读取对信息符合的似然参数;以及如果假设的似然参数大于第二假设的第二似然参数,则将核酸样品归类为具有结构变体假设,其中将读取对信息映射到预测的核酸支架上包括向读取对分配读取对位置,使得读取对在一个轴上被分配给其在预测的核酸支架上的中点;并使得为读取对分配对应于其在第二轴上的读取对间隔的值。有时,所述读取对包括映射到核酸分子的第一区域的第一区段和映射到核酸分子的第二区域的第二区段,所述第一区段和所述第二区段不相邻并且共享共同的相位。通常,如果读取对中点落入第一箱元核酸位置范围内并且读取对间隔落入第一箱元间隔范围内,则将读取对位置分配给第一箱元。在一些情况下,第一箱元核酸位置范围是预测的核酸支架的规则间距。替代地或组合地,第一箱元间隔范围是读取对信息的完整间隔范围的对数间距。有时,第一箱元核酸范围是核酸支架的规则间距,并且其中第一箱元间隔范围是读取对信息的完整间隔范围的对数间距。在一些情况下,如果读取对中点落入第二箱元核酸位置范围内并且读取对间隔落入第二箱元间隔范围内,则将读取对位置分配给第二箱元。通常,基本上所有读取信息都被分箱。有时,计算似然参数包括确定第一箱元的似然贡献。通常,第一箱元的似然贡献包括与映射到第一箱元的读取对的计数成比例的第一似然因子。替代地或组合地,第一箱元的似然贡献包括与第一箱元的面积成比例的第二似然因子。有时,第一箱元的似然贡献包括与映射到第一箱元的读取对的计数成比例的第一似然因子,并且其中第一箱元的似然贡献包括与第一箱元的面积成比例的第二似然因子。通常,该方法包括确定在面积上不与第一箱元重叠的第二箱元的似然贡献。有时,似然参数包括第一箱元的似然贡献和第二箱元的似然贡献。偶尔,似然参数包括第三箱元的似然贡献。替代地或组合地,似然参数包括对于基本上所有分箱的读取对信息的似然贡献。有时,假设包括具有左边缘和长度的结构变异。通常,结构变异具有缺失、倒位、同向重复、向外反向重复和向内反向重复中的至少一种的取向。偶尔,第二假设包括左边缘、长度和结构取向中的至少一种有所不同的结构变体。有时,所述核酸结构变体在所述核酸样品中是纯合的。替代地,所述核酸结构变体在所述核酸样品中是杂合的。
本文提供了显示核酸样品中的推定结构变异的方法。一些这样的方法包括以下步骤:将序列读取的群体分配给编号箱元的群体,以及分配包含落入所述箱元群体的第一箱元内的结构变异边缘的读取的似然参数,其中所述第一箱元的所述似然参数包括第一似然组分和第二组分,所述第一似然组分包括映射到第一箱元的读取数目,第二组分包括第一箱元的面积。有时,该方法包括根据箱元数目绘制结构变异的似然。通常,所述第一箱元的所述似然参数包括第一似然组分和第二组分的卷积,所述第一似然组分包括映射到第一箱元的读取数目,所述第二组分包括第一箱元的面积。替代地或组合地,所述似然参数包括将结构变体预测与映射到第一箱元的读取的数目相关联的似然组分和包括第一箱元的面积的似然组分。偶尔,所述箱元群体共享跨越固定核酸距离的共同箱元宽度。有时,所述箱元群体的成员之间在箱元高度方面有所变化。通常,当在对数轴上绘制时,箱元高度似乎恒定。经常,似然参数涉及包含具有左边缘和长度的结构变异的接头的序列读取映射到所述第一箱元的概率。有时,结构变异具有缺失、倒位、同向重复、向外反向重复和向内反向重复中的至少一种的取向。通常,所述序列读取包括读取对。偶尔,读取对包括映射到核酸分子的第一区域的第一区段和映射到核酸分子的第二区域的第二区段,所述第一区段和所述第二区段不相邻并且共享共同的相位。
本文提供了鉴定核酸样品中的结构变体的方法。一些这样的方法包括以下步骤:获得核酸样品的映射的读取对数据;获得核酸支架序列;对于将读取对数据与核酸支架序列进行比较的多个结构变体假设中的每一个获得似然概率信息;以及鉴定结构变体假设中最可能的假设;其中所述方法每分钟评价至少10Mb的核酸支架序列。经常,该方法包括将读取对信息映射到核酸支架序列上;获得结构变体假设;计算结构变体假设与读取对信息符合的似然参数;以及如果假设的似然参数大于第二假设的第二似然参数,则将核酸样品归类为具有结构变体假设。偶尔,将读取对信息映射到核酸支架序列上包括:向读取对分配读取对位置,使得读取对在一个轴上被分配给其在预测核酸支架上的中点;并且读取对被分配对应于其在第二轴上的读取对间隔的值。通常,所述读取对包括映射到核酸分子的第一区域的第一区段和映射到核酸分子的第二区域的第二区段,所述第一区段和所述第二区段不相邻并且共享共同的相位。有时,如果读取对中点落入第一箱元核酸位置范围内并且读取对间隔落入第一箱元间隔范围内,则将读取对位置分配给第一箱元。偶尔,第一箱元核酸位置范围是核酸支架的规则间距。通常,第一箱元间隔范围是读取对信息的完整间隔范围的对数间距。替代地或组合地,第一箱元核酸位置范围是核酸支架的规则间距,并且其中第一箱元间隔范围是读取对信息的完整间隔范围的对数间距。在一些情况下,如果读取对中点落入第二箱元核酸位置范围内并且读取对间隔落入第二箱元间隔范围内,则将读取对位置分配给第二箱元。经常,基本上所有读取信息都被分箱。通常,计算似然参数包括确定第一箱元的似然贡献。偶尔,第一箱元的似然贡献包括与映射到第一箱元的读取对的计数成比例的第一似然因子。有时,第一箱元的似然贡献包括与第一箱元的面积成比例的第二似然因子。替代地或组合地,第一箱元的似然贡献包括与映射到第一箱元的读取对的计数成比例的第一似然因子,并且其中第一箱元的似然贡献包括与第一箱元的面积成比例的第二似然因子。经常,该方法进一步包括确定在面积上不与第一箱元重叠的第二箱元的似然贡献。通常,似然参数包括第一箱元的似然贡献和第二箱元的似然贡献。有时,似然参数包括第三箱元的似然贡献。偶尔,似然参数包括对于基本上所有分箱的读取对信息的似然贡献。通常,假设包括具有左边缘和长度的结构变异。经常,结构变异具有缺失、倒位、同向重复、向外反向重复和向内反向重复中的至少一种的取向。有时,第二假设包括左边缘、长度和结构取向中的至少一种有所不同的结构变体。偶尔,所述核酸结构变体在所述核酸样品中是纯合的。替代地,其中所述核酸结构变体在所述核酸样品中是杂合的。
本文提供了选择治疗方案的方法。一些这样的方法包括:执行前述实施方案中任一项的方法,鉴定重排,以及鉴定与重排符合的治疗方案。经常,治疗方案包括药物施用。替代地或组合地,治疗方案包括组织切除。
本文提供了评价治疗方案的方法。一些这样的方法包括:执行前述实施方案中任一项所述的方法第一时间,施用治疗方案,以及执行治疗方案第二时间。偶尔,该方法包括中止治疗方案。替代地,该方法包括增加治疗方案的剂量。有时,该方法包括减少治疗方案的剂量。替代地,该方法包括继续治疗方案。经常,治疗方案包括药物。通常,治疗方案包括外科手术干预。
附图说明
专利或申请文件包含至少一张彩色附图。带有彩色附图的本专利或专利申请出版物的副本将由专利局根据要求提供,并支付必要的费用。
图1描绘了用于分析读取对文库数据的方案的示例性示意图。
图2A、图2B和图2C描绘了用于拷贝数变体估计的读取对文库数据的视觉表示。
图2D描绘了两个样品之间的拷贝数变异的视觉表示。
图3A描绘了对于与支架相匹配的样品作为读取对间隔相对于映射的读取对的中点位置的绘图的映射的读取对数据的视觉表示。
图3B描绘了对于具有倒位的样品作为读取对间隔相对于映射的读取对的中点位置的绘图的映射的读取对数据的视觉表示。
图3C描绘了对于具有倒位的样品作为读取对间隔相对于映射的读取对的中点位置的绘图的映射的读取对数据的扩大标度的视觉表示。
图3D描绘了对于点a和b之间的杂合倒位的映射的读取对末端数据的图示。
图4A描绘了各种类型的结构变异以及所产生的映射的读取对密度模式的类型的图示。
图4B描绘了对于结构变异观察到的映射的读取对数据的一般性图示。
图4C描绘了对于缺失观察到的映射的读取对数据的一般性图示。
图4D描绘了对于倒位观察到的映射的读取对数据的一般性图示。
图4E描绘了对于同向串联重复观察到的映射的读取对数据的一般性图示。
图4F描绘了对于反向串联重复R观察到的映射的读取对数据的一般性图示。
图4G描绘了对于反向串联重复L观察到的映射的读取对数据的一般性图示。
图5A描绘了对于包含倒位的数据集作为对数似然比相对于箱元数目的绘图的映射的读取对数据的视觉表示。
图5B描绘了对于具有LLR约为0的区域的数据集作为对数似然比相对于箱元数目的绘图的映射的读取对数据的视觉表示。
图5C描绘了对于具有没有结构变异的区域的数据集作为对数似然比相对于箱元数目的绘图的映射的读取对数据的视觉表示。
图6A和图6B描绘了可用于寻找相互易位的示例性简单内核(kernel)。
图6C描绘了用于使用前景(fg)和背景(bg)区域的比率来分析特征的方法。
图6D描绘了具有使用z评分方法鉴定的特征的图像。
图7描绘了映射到支架上的读取对数据的图像,其图示了染色体内重排。
图8A描绘了“二级连接(2nd degree link)”装配情况的图示,其中仅通过分析一级读取对,可能有两种不同的装配结果。
图8B、图8C和图8D描绘了使用特征检测的“二级连接”装配情况的图示。
图8E描绘了两个绘图,其示出了混合物中读取对的丰度(γ)和间隙大小/距离(g)在预测映射的读取对密度(轮廓线)变化中的贡献。
图9描绘了具有与ETV6和NTRK3之间的相互易位相对应的特征的图像。
图10A、图10B和图10C描绘了在三个不同样品中比较的相同染色体对的基于图像分析的结果。
图11A、图11B和图11C描绘了染色体1对染色体7(图11A)、染色体2对染色体5(图11B)以及染色体1对染色体1(图11C)的归一化读取密度中值(在10个样品上)。
图12A和图12B描绘了各种箱元处理方法。图12A示出了相等的箱元大小,而图12B示出了箱元插值。
图13描绘了通过全基因组扫描分析管线的分析。
图14A和图14B描绘了来源于基于FFPE的‘Chicago’读取对文库(图14A)和基于经典‘Chicago’的读取对文库(图14B)的读取对距离频率数据。
图15A和图15B图示了被绘制在GM12878与参考之间的结构差异附近的读取对在GRCh38参考序列上的映射位置。图15A描绘了具有侧翼20kb重复区域的80kb倒位的数据。图15B描绘了定相的杂合缺失的数据。
图16A描绘了与参考支架相比,映射的读取对数据中的位移区段偏差。在这种情况下,数据的垂直区段(垂直线)已位移到图的替代“孔”部分(箭头)。
图16B描绘了与参考支架相比,映射的读取对数据中的折叠区段偏差。在这种情况下,区段B和B’都在支架上映射到相同的相邻区段A。
图16C描绘了与参考支架相比,映射的读取对数据中的折叠重复和错接偏差。在这种情况下,高度相似的序列B/X被折叠到支架中的单个装配中。
图17A描绘了用于迭代地改善基因组支架模型以改善支架上映射的读取对数据的质量的示例性工作流程。
图17B描绘了在对马铃薯染色体进行模型优化之前映射到支架上的读取对数据的图像。
图17C描绘了在对马铃薯染色体进行模型优化之后映射到支架上的读取对数据的图像。
图18A示出了被编程或以其他方式配置以实现本文提供的方法的示例性计算机系统。
图18B示出了可结合本发明的示例性实施方案使用的计算机系统的实例。
图18C是示出可结合本发明的示例性实施方案使用的计算机系统700的第一示例性架构的框图。
图18D是示出了可结合本发明的示例性实施方案使用的被配置为合并多个计算机系统、多个蜂窝电话和个人数据助理以及网络附加存储(NAS)的网络2100的示意图。
图18E是使用可结合本发明的示例性实施方案使用的共享虚拟地址存储器空间的多处理器计算机系统900的框图。
具体实施方式
本文公开了与相对于序列支架检测、可视化和校正重排有关的方法和系统,如通过核酸样品的分析所指示的。在一些情况下,重排指示在与人类参考基因组相比进行评估时,在一些或全部样品中发生的分子事件,诸如在人类或其他癌细胞中经常发生的基因组重排。与本公开内容相关的替代“重排”包括草图或甚至先前公布的基因组装配,对于这些重排可获得大量叠连群信息,但是对于这些重排,一个或多个叠连群可能被错误定位,例如被无序放置、相对于实验确定的样品被错误定向、具有高度相似的折叠区域或者使用不正确连接的叠连群成分构建。
在这两种情况下,本文的方法和系统的实践允许鉴定预先或同时生成的序列信息支架与通过生成读取对而实验生成的指示短范围和长范围物理连锁信息的数据之间的差异(如果存在)。本文所述的差异通常被称为内核、特征或符号。
定相信息、染色体构象、序列装配和遗传特征,包括但不限于结构变异(SV)、拷贝数变异(CNV)、杂合性丢失(LOH)、单核苷酸变体(SNV)、单核苷酸多态性(SNP)、染色体易位、基因融合以及插入和缺失(INDEL),可以通过分析由本文公开的方法产生的序列读取数据来确定。用于分析遗传特征的其他输入可以包括参考基因组(例如,具有注释)、基因组掩蔽信息,以及候选基因、基因对和/或感兴趣的坐标的列表。可以定制构型参数和基因组掩蔽信息,或者可以使用默认参数和基因组掩蔽。
本文所述的方法采用与测序数据的处理有关的各种步骤。任选地,每个步骤利用来自前一步骤的结果或考虑,并产生结果或输出。在一些情况下,方法工作流程中的步骤被省略或替换为其他步骤。在一些情况下,通过对样品进行处理和测序来获得测序数据(诸如根据Hi-C或其他配对读取方案生成的数据)。用于分析测序数据的示例性步骤通常包括读取映射(将来自一个个体的配对序列读取与参考进行映射)、读取分箱(通过一种或多种性质对读取进行分组)、拷贝数估计(拷贝数变异、CNV)、归一化、从头特征检测、断裂点细化、候选者评分和报告(图1)。这些步骤仅作为示例提出,因为用于鉴定和报告特征的其他步骤也与本文所述的方法和系统一起使用。
读取对生成
多种读取对生成方法与本文的公开内容一致。在示例性实施方案中,使用“Hi-C”或者使用天然或重构染色质的相关方法生成读取对,以保留内部切割的核酸分子之间的连接信息,使得分子的第一区域和第二区域与它们的共同磷酸二酯骨架无关而保持在一起。然而,本文的方法和系统与来自广泛来源的读取对数据一致,并且并非所有实施方案都限于一个或另一读取对生成来源。
映射读取对数据
本文中许多系统和方法的共同点是分箱读取对阵列的生成,该阵列任选地呈现为相对于支架序列轴线的二维图谱。鉴定这样的图谱上的局部密度变异,并且将导致局部密度变异的读取对的叠连群重排、重新定向、断裂成片段或以其他方式进行操作,以重构它们所贡献的支架,从而减少读取对分箱阵列或读取对分布图谱中的总体或局部密度变异。
如本文所用,当将读取对数据相对于支架序列进行分箱或定位时,读取对数据集被“映射”至序列支架。在一些情况下,映射的数据在空间上描绘,诸如在计算机监视器上描绘,或者打印出来。替代地,将映射到序列支架的读取对数据集作为数据阵列存储在计算机的数据存储介质上。读取对数据优选地“分箱”或分配给二维空间或数据阵列内的特定位置。任选地,在映射的读取对数据集的计算机生成图像中,箱元由像素表示。
优选地呈现空间描绘的数据,使得在代表图谱中的读取对或占据的箱元的符号的定位中捕获读取对间隔和读取对的单个读取的图谱位置。
例如,读取对数据映射的一些方法包括将读取对分配给箱元,该箱元被定位成使得垂直于代表支架序列的轴测量的距箱元的距离对应于或指示读取对的第一读取和第二读取在支架序列上最强映射或最强比对的位置之间的间隔。也就是说,具有在支架上彼此紧密比对的读取的读取对被分配给靠近轴的箱元,而具有彼此间隔更大距离的读取的读取对被分配给更加远离代表序列支架的轴的箱元。
任选地进行组合,读取对沿着代表支架序列的轴定位,使得它们被分配具有沿着轴的最近点的位置或箱元,该最近点近似或精确地代表第一读取映射到的支架位置和第二读取映射到的支架位置之间的中点。根据数据的表示,轴可以称为中心轴或对角线(轴)。在一些情况下,该轴将会水平地、垂直地、对角线地或以任何其他配置显示。
在可视化的实例中,读取对被映射到基因组支架,并且每个对被表示为平面中的点,其x和y坐标等于匹配的读取对之间的距离。可以将x-y平面划分为非重叠的正方形箱元,并且可以将映射到每个箱元的读取对的数目制成表格。箱元计数可以被显示为与像素对应的箱元的图像(例如,热图)。在一些情况下,来自本文描述的读取对映射的数据被显示为具有水平轴的图或具有与读取密度相对应的强度的2D图。在一些情况下,在没有可视化步骤的情况下处理数据和/或鉴定特征。
在分箱或读取对映射中经常观察到低程度的“背景”。这样的背景本身表现为数据阵列或图谱可视化的空白部分中的单个“夜空”箱元点。定量地,该背景本身表现为在预期或以其他方式指示为缺乏读取对的图谱或数据阵列区域中的极低的局部箱元密度。
与本文公开内容分离的许多技术因素解释了这样的“夜空”背景。因素包括读取对序列质量、样品或支架的“GC百分比”或碱基对的偏差、基因组的整体或局部重复性、读取-支架比对的严格性或其他技术参数。
读取序列碱基判定中的错误可能导致读取与潜在分子实际衍生自的区域以外的支架区域比对。偏斜的GC百分比或重复性导致读取将会与多个位置比对或者测序中的单个碱基错误可能使读数与支架的错误区域比对的几率增加。通过调整测序中的碱基判定严格性或增加将读取分配给基因组区域的严格性,可以减少这些几率。
然而,在这些步骤或者序列生成和比对过程中其他地方,严格性的增加还可能从分析中排除大量准确的信息性数据。因此,在本文公开的方法或系统使用的给定实现方案中,单个样品、测序方案、生物体或实验目标可以决定“夜空”背景的容许程度。
局部密度变异确定
根据本文公开的方法,评估读取对数据阵列或映射的读取对数据集中的局部密度变异通常是有益的。许多方法可用于评估局部密度变异以鉴定特征,诸如数据集阵列或映射数据集中的内核。
使用本领域技术人员已知的许多方法进行局部密度变异的评估。例如,确定局部密度并将其与映射的读取对数据集或读取对阵列的紧邻区域的密度进行比较。替代地,将局部密度与垂直于由支架序列限定或对应于支架序列的轴定位在相当或相似距离的区域的密度进行比较。
代替单个比较区域或者除了单个比较区域之外,局部密度变异任选地通过将局部密度与沿着穿过局部区域并平行于代表支架序列的轴的线或带的平均密度进行比较来检测。即,将局部密度与共享共同或相当的读取对间隔但分布在整个支架的其他位置处的读取对的密度进行比较。
替代地或组合地,确定整个图谱或数据集中各个位置的密度值,使得将密度与图谱或数据集的至少一个其他位置(诸如1个、2个、3个、4个、5个或超过5个位置)的局部密度进行比较。相对于图谱或数据集的至少一个其他位置的局部密度来确定和评估局部密度,使得可以将局部密度变异与具有共同密度的图谱或数据集上的位置相匹配,而与距轴的距离或其成员的平均读取对距离无关。
类似地,在一些情况下,确定密度梯度,诸如随着距轴(诸如代表序列支架的轴)的距离而减小的密度梯度。然后将局部密度与梯度的密度进行比较,并且如果局部密度在与局部密度区域到轴的距离相当的距轴的距离处的密度梯度值显著不同,则该局部密度被归类为“变体”。可以通过本领域已知的或与本文的公开内容一致的任何数目的统计、计算或其他方法来评价“显著”不同。
在这样的确定之后,在一些情况下,确定负责该局部密度的读取对的“密度预测”位置,使得支架成分(诸如叠连群)在轴上的重新定位导致读取对被定位成使得局部密度匹配或更接近在支架或支架叠连群重新定位后的读取对的局部密度。
进行叠连群或其他支架成分的重新定位,以减小如上文所评估的局部密度变异,或减小相对于总体预期密度梯度的密度变异的整体量度。重新定位不同地包括将支架成分诸如叠连群相对于彼此重新排序、将至少一个叠连群相对于第二个叠连群重新定向、将叠连群断裂成至少两个成分、将序列诸如与断裂相邻的序列引入断裂点边界、或从叠连群序列切除区段(或片段)并将该区段引入支架叠连群中的其他位置。
在一些方面,使用各种用于预测密度的建模方法来计算预期的密度变异。任选地,使用关于γ(混合物丰度)和g(间隙大小)的模型,其中轮廓线指示密度的预期变化率(或梯度)。在该模型中,经常发现密度变化(轮廓线)最陡的区域具有低丰度/低间隙大小(图8E,左)和高丰度/高间隙大小(图8E,右)。附加模型,包括基于从本文描述的方法和系统获得的根据经验获取的数据的模型,也可以预测密度的变化,并且任选地在全文并入。
在某些情形下,局部密度被定义为与映射的读取对图上的定义区域“接近”或“偏离”。在一些情况下,被定义为“接近”中心轴的区域对应于具有在恰好位于中心轴上的平均预期密度的至少0.5X、0.75X、1X、1.25X、1.5X、2X或2.5X内的预期读取密度的区域。在一些情况下,被定义为“偏离”中心轴的区域对应于具有不超过位于中心轴上的平均密度的0.1X、0.2X、0.3X、0.4X、0.5X、0.75X或不超过0.9X的预期读取密度的区域。替代地,被定义为“接近”轴的区域是根据距中心轴的读取对间隔距离(在碱基对中)来描述的。任选地,距中心轴至少1、2、5、10、20、50、100、200、500、1000、2000、5000、10,000、20,000、50,000、100,000、200,000、500,000、100万、200万、500万、1000万或至少2000万个碱基对的读取对距离被定义为“偏离”轴。在一些情况下,距中心轴约1、2、5、10、20、50、100、200、500、1000、2000、5000、10,000、20,000、50,000、100,000、200,000、500,000、100万、200万、500万、1000万或约2000万个碱基对的读取对距离被定义为“偏离”轴。类似地,距中心轴不超过1、2、5、10、20、50、100、200、500、1000、2000、5000、10,000或不超过20,000个碱基对的读取对距离被定义为“接近”轴。类似地,距中心轴约1、2、5、10、20、50、100、200、500、1000、2000、5000、10,000或约20,000个碱基对的读取对距离被定义为“接近”轴。替代地,读取对距离由箱元表示,其中每个箱元代表碱基对中的读取对距离的范围。
在本文描述的方法的各种表现中,比较两个限定区域之间的读取密度以建立内核的边界或存在。在一些情况下,该差异为至少10%、20%、50%、80%、100%、200%、500%、800%、1000%、2000%、5000%或至少5000%。在其他情况下,该差异为约10%、20%、50%、80%、100%、200%、500%、800%、1000%、2000%、5000%或至少5000%。
在本文描述的方法的各种表现中,比较观察密度与预期密度之间的读取密度差异(“更高”或“更低”)以鉴定模型支架与映射的读取对数据之间的偏差。在一些情况下,该差异为至少10%、20%、50%、80%、100%、200%、500%、800%、1000%、2000%、5000%或至少5000%。在其他情况下,该差异为约10%、20%、50%、80%、100%、200%、500%、800%、1000%、2000%、5000%或至少5000%。
复杂重排评估
在一些情况下,读取对箱元阵列或图谱分析指示箱元分布与相对于序列支架的特定重排一致。通常,特定重排对箱元阵列或图谱具有多个影响或特征,这取决于分子(诸如染色体)上或预测序列(诸如支架序列)中重排的多个事件的程度或相关性。
在鉴定指示重排的数据阵列或图谱中的局部密度变异后,通过本文的一些方法和系统教导了调查次要局部密度变异或指示重排中多个事件的程度或共现的局部密度变异的细节。例如,简单的易位事件导致特征性的局部密度分布,如果出现涉及的片段长度大于图谱或分箱数据阵列的密度分辨率,则将产生对称的局部密度分布。然而,如果易位或支架重排是内部区段而不是分子或支架的完整臂,那么假设该区段在图谱或分箱数据阵列的密度分辨率内,则可能会看到一个或多个扰动。指示该事件的局部密度分布可能缺乏沿线的双侧对称性,该线在距轴最近的点处平分局部密度变异。替代地或组合地,检测第二局部密度分布,该第二局部密度分布涉及具有一个映射到期望读取的区域的读取的读取对,该区域如果映射到第一局部密度变异则将恢复与先前局部密度变异的对称性。这样的密度分布通常指示样品分子或支架中的复杂重排,使得两个断裂点接合相对于起始或预期支架的三个不同区段。
在图8A中示出了示例性的复杂重排“二级连接”情况。序列a-g(图8A,顶部)在所示的位点处分开以形成片段(标记为a-g),并重排以形成产物(图8A,底部)。片段a和g与片段d的共同连接使分析变得复杂,这将产生与a-d-e/c-d-g和a-d-g重组片段一致的信号。然而,在一些情况下,通过鉴定在图8B中存在而在图8A(a-d-e/c-d-g)中不存在的a-d-g的另外的长范围信号a-g来区分这两种情况。在一些情况下,使用其他方法来减少将由于观察这些长范围信号而导致的假阳性融合判定的可能性(图8D)。在减少假阳性的一种方法中,所有融合判定都按共享的断裂点分组,并且如果融合判定与评分较高的判定共享两个断裂点则拒绝。在减少假阳性的另一种方法中,应用基于模型的判别方法来根据γ(混合物丰度)和g(间隙尺寸)来检查似然(图8E),其中轮廓线预测密度的预期变化率。
局部密度变异几何形状
局部密度变异通常在映射输出中自身表现为至少有一条直角边“指向”轴,因此局部平分该角度的线表示从局部密度变异到轴的最短距离。
一些局部密度变异是正方形的,沿着垂直于轴并平分指向轴的直角边画的线表现出双侧对称。
或者,一些局部密度变异表现出如上所述的双侧对称性,但是具有难以限定的远侧边缘或边界,这是因为相对于局部密度变异中的其他地方,在指向轴的直角边处局部密度变异显著更大。
或者,一些局部密度变异是矩形而不是正方形,沿着垂直于轴并平分指向轴的直角边画的线缺少双侧对称。在极端情况下,这样的局部密度变异在较低水平的分辨率下似乎是线性的。另外,观察到具有不同于上述配置的局部密度变异。
或者,一些局部密度变异是“蝴蝶结”形的,其中中心点被限定在区段长度之间的大致中间并且与轴相距的距离相同。在一些情况下,观察到在中心点处以直角相交的四个密度区域,这些区域的边界线以45度角与轴相交,并穿过轴上的区段边界。密度的一个区域任选地以轴为边界,在一些情况下,与以轴为边界的区域相邻的区域具有高于预期的密度。
来自局部密度的信息
本文公开的方法和系统允许在本文的各种方法中朝多个末端使用局部密度确定。
诸如在最接近代表支架序列的轴的直角边处看到的局部密度变异的峰值变化,在一些情况下作为与其相关的基因组事件的拷贝数的量度而提供信息。也就是说,关于峰值密度对单独或与其他图谱或箱元阵列信息组合的指示相邻区段的局部密度变异进行分析。将该密度与图谱或数据集紧邻轴外的峰值密度进行比较。所使用的度量不同地包括均值、中值、众数或轴上密度的其他量度。
在一些情况下,指示一个整数与另一个整数的比值的比较指示与局部密度变异相关的事件的倍性。即,局部轴密度的一半的密度指示在二倍体样品中为单倍的事件。局部轴密度的八分之一的密度指示在八倍体样品的一个染色体上发生的事件。局部轴密度的八分之五的密度指示在八倍体样品的五个染色体上发生的事件。其他组合对于本领域技术人员而言是显而易见的,诸如四倍体基因组中的1/4、2/4或3/4,八倍体基因组中的1/8、2/8、3/8、4/8、5/8、6/8、7/8或8/8,六倍体基因组中的1/6、2/6、3/6、4/6、5/6或6/6,或在与样品基因组倍性一致的范围内涉及或近似整数比率的其他比例。类似地,在一些情况下,基因集合的异质性也会引起局部密度的整数变化。例如,出现在单倍体样品的预期密度的1/10处的密度指示1/10的基因组包括该事件。这些事件通常表现在异质细胞群中,诸如肿瘤或其他多样化细胞群中。
替代地或组合地,在一些情况下,诸如在最接近代表支架序列的轴的直角边处看到的局部密度变异的峰值密度作为其相对于支架序列所涉及的基因组事件的边缘之间距离的量度而提供信息。也就是说,关于峰值密度对单独或与其他图谱或箱元阵列信息组合的指示物理连接区段的局部密度变异进行分析。将该密度与从图谱或数据集的紧邻轴外开始减小到离轴更远的背景密度范围内的密度梯度进行比较。所使用的度量包括均值、中值、众数或其他轴上密度的量度以确定密度梯度上的点。
确定局部密度变异的密度,并将其与读取对箱元密度梯度进行比较,以在具有可比的密度的梯度上找到离轴距离。然后重新配置支架序列,以将局部密度变异的收获对(reap pair)定位成使得它们的密度与梯度的密度匹配。因此,支架成分被重新配置以减少数据阵列或图谱中相对于梯度的整体密度变异。
对于映射到理想支架上的一组理想的读取对数据,几乎所有密度均匀分布在中心轴上。替代地,使用数据模型来预测密度的分布,从而生成从轴减小的预期的密度或密度梯度。在一些情况下,相对于对角线轴上的预期密度的高密度或低密度区域指示读取对数据与支架模型之间的差异。例如,在一些情况下,具有高于预期的轴上密度的区域指示支架模型中的折叠片段。在另一实例中,在一些情况下,具有低于预期的轴上密度的区域指示支架模型中两个片段之间的错接。一方面,错接将两个染色体错误地连接在一起。在一些方面,轴上的密度变异描述了观察到的读取对数据与支架模型之间的任何数目的偏差。
密度的数学模型
在密度数据处理的一个方面,相对于读取对间隔绘制基因组位置图(例如,由映射的读取对的中点位置表示)。在没有结构变异(SV,差异、特征等)的基因组中,大多数点分布在基线附近(图3A)。然而,诸如倒位等变异的存在产生诸如图3B和图3C所描绘的图。基线附近缺少点的区域表示倒位区段的边缘。在一些情况下,结构变异被建模为特征或内核,如图3D所示,其中位点a和b是事件的边缘,浅色点表示当前反映在a和b的中点(虚线的交点)上方的那些点,通常用于鉴定特征。任选地,通过比较以下假设来计算似然比:1)基因组中存在SV,2)基因组与参考匹配。在一些情况下,假设h被公式化为线性运算,包括将感兴趣区域中的数据表示为箱元中的一组读取对计数Cij并将Aij设置为每个箱元的面积,从而计算i,j箱元的每个读取对的对数似然比(LLR)贡献(Sh ij),并计算i,j箱元的每单位面积的对数似然贡献(Th ij)。在一个示例性方程中,LLR评分表示为:
Sh=∑ijSh ijCij+∑ijTh ijAij
在一些情况下,针对多个SV计算似然比是有益的。例如,使用对(Sh ij,Th ij)在基因组的每个偏移k处搜索SV:
Sh k=∑i,jSh i,jCi-k,j+∑i,jTh j,jAi-k,j
其中任选地重复该过程以计算基因组中所有SV的似然比。
在另一实例中,分析图4A中的每个变异。仅作为实例,包括倒位、缺失、串联重复和反向重复的每个变异具有带有明显间隔d0的读取对映射和基因组中可能的真实间隔di。在一些情况下,在图4B-图4G所描绘的变异中,针对四个区域(0、1、2、3)中的每一个确定di。
读取对间隔变化通常使用例如由以下方程表示的Chicago似然模型将其改变为内核元素:
其中n代表N次尝试中“罕见”结果的命中,p是罕见结果的总概率:
m是重复情况下备选情况的多重性。
或者任选地,对于杂合情况:
偶尔,箱元将与特征或内核的区域边界重叠。一个可能的解决方案包括计算每个重叠区域的面积和形心,使用Sh i,j的max()和Th i,j的min()。如本领域技术人员所理解的,替代特征分析方程和算法也与本文的方法和系统一起使用。
另外的分析技术,如图像处理技术,不同地用于鉴定遗传特征的标记(signature),如不同的重排。例如,通过分析配对读取的二维图,可以使用内核卷积过滤在图像中找到对应于融合的基因组基因座对的点。图6A和图6B示出了可用于寻找相互易位的示例性简单内核。在各种情况下,通过计算z评分对比值来计算内核的局部z评分,z评分对比值被定义为内核的前景与背景区域的比率,对于每个像素进行重复(图6C)。图6D示出了具有从z评分鉴定的特征(圈出)的示例性图像。在一些情况下,鉴定出ETV6和NTRK3之间的相互易位(图7)。右上和左下象限中的“蝴蝶结”形特征指示具有相互易位特征的基因组的这两个区域之间的相互作用。在一些方面,用局部z评分检测的方法鉴定染色体间重排。任选地,对图像中的每个像素重复该过程。在一些情况下,所有超过阈值的局部最大值都被视为特征的候选命中。
支架建模
在一些情况下,核酸片段(叠连群、群集等)之间的关系由数学图模型表示,其中每个序列都是一个节点,而装配体中任何两个片段之间的界面都表示为连接两个或更多个节点的边缘。在一些情况下,通过边缘连接所有节点(并且仅与每个节点交叉一次)的路径代表测序片段的装配体的解决方案。通常,在测序数据片段时缺少独特的重叠区域导致对于装配体的多个解决方案(或路径)。例如,在片段A、B和C的理想单倍体系列中,设想6种不同的选项(或路径)以线性方式连接所有三个片段。然而,如果节点A/B和B/C之间的边缘在中心轴上或其附近的映射读取对密度图上表现为内核,并且支架模型对应于布置A-B-C,则该模型精确地匹配单个路径A-B-C。在某些情况下,对应于边缘(例如,边缘A/B)的区域不存在与特征对应的密度,该布置当前包含告知支架模型的“阻断边缘”,并减少可能的路径数目。在一些情况下,阻断边缘阻止在图模型的两个节点之间定义路径,从而告知装配体这两个片段不相邻。任选地,向每个边缘给予加权因子,该加权因子规定了将该边缘用作解决路径的一部分的可能性。在一些情况下,加权因子表示两个节点连接的可能性。对于A-B-C的支架模型,在一些情况下,在预期A-B特征的对角线上将观察到比预期更低的密度,这会减小边缘A-B的加权因子。在实际意义上,这在一些情况下允许简化序列图模型的通过节点的路径的数目。在另一个实例中,在平分片段A在轴上的位置的水平线和平分片段C在轴上的位置的垂直线的相交处观察到与边缘A-C相对应的特征。对于A-B-C的支架模型,这在一些情况下指示节点(或片段)B被错误地放置在应当相邻的片段A和C之间的支架模型中。
通常,通过添加阻断边缘来辅助更复杂的易位事件。例如,图8A描绘了两个不同的重排/路径(左和右),每个重排/路径具有连接片段a/d和d/g的边缘。通常通过应用图解理论模型来处理这种装配体情况和其他各种情况。通过对应于缺少映射的读取密度在a/g之间添加阻断边缘(顶部同心圆,图8B),最有可能只有一条连接a-d-e和c-d-g的路径。或者,通过在a/e和c/g之间添加阻断边缘(两组同心圆,图8C),考虑到在由同心圆表示的两个区域中缺乏密度,只可能有对应于a-d-g的单个路径。任选地,还使用该一般策略分析更复杂的易位事件。
模型评价
在一些方面,可以使用该方法描述由许多片段(节点)组成的整个支架、染色体或基因组,对于这种方法,评价由通过节点的路径表示的许多装配解决方案。通常,变体作为染色体内变体而存在,并使用各种数据分析方法(诸如由多个潜在方程定义的建模)进行处理。在数据分析的一种示例性方法中,从测序数据集(诸如Hi-C数据集)构建基因组模型“支架”。任选地,数据从肿瘤获得,并且包括基因组的混合物或等位基因杂合的任何其他样品。在一些方面,将包含高度遗传异质性(诸如肿瘤)的一组基因组建模为加权的基因组模型集,由以下方程定义:
其中每个基因组(G1、G2等)被定义为一组染色体的加权(加权因子α)模型。在一些情况下,每个染色体(C)被定义为基因组上箱元的线性图:
在一些实施方案中,映射连接一对基因组箱元(i,j)的读取对的数目定义为泊松分布:
分别预测λ1和λ2读取的两个模型的对数似然比的示例方程为:
在一些方面,该模型提供了由文库从基因组采样的读取对落入箱元i,j的概率。对于各向同性模型(无反式激活域(TAD)),概率任选地表示为:
其中dg i,j是基因组g中箱元i和j之间的最短路径距离,而p(d)是经验读取路径间隔分布。替代地或组合地,用箱元i和j的拷贝数和可映射性项来详细说明读取对概率。在一些情况下,使用包含位置特异性TAD的非各向同性模型:
或更一般的形式:
对模型的修改和改进通常会提高数据的质量和准确性。通常,将新组分添加到模型以增强模型描述数据的能力。例如,生成一系列模型Mk以改善从参考支架或比较基因组支架生成的初始模型。通常假定将一个新的基因组添加到权重为γ,并将权重αi(1<i<k)分别更新为(1-γ)αi。考虑到Mk+1的多个候选者,在一些情况下,选择导致评分ΔS最大增加的候选者:
例如,在一些情况下,通过选择使ΔS最大化的γ找到最佳模型。替代地或组合地,调整所有权重αi以获得增加的ΔS。
在一些方面,获得新的混合物组分候选者,当对所有(i,j)求和时,其导致较大的ΔS值。然而,这些潜在模型组分对ΔS的贡献通常集中在融合接头附近的ij平面中。在一些情况下,局部图像过滤鉴定候选者编辑。当这样的局部搜索鉴定出箱元r和s之间的高评分(因此不能用当前模型解释)接触时,该接触任选地被添加到新的“基因组”中,或者作为对混合物中已经存在的一个基因组的编辑。在一些情况下,特征检测方法对模型提出候选修改,以解释所发现的特征。例如,基本集的特征检测方法包括以下一种或多种:“相互易位+”、“相互易位-”、“易位++”、“易位+-”、“易位-+”、“易位--”或“断裂”方法。特征检测器方法通常输出特征,例如:在箱元i之后断裂、在箱元j之前断裂或将箱元i与箱元j连接。在一些情况下,方法获得特征和模型的列表,并生成用于评分的替代模型。例如,如果模型已经由n个替代基因组组成,则该方法任选地将特征的编辑应用于这n个替代基因组中的每一个,并且对于总共2n个替代模型制作每个替代模型的新拷贝以应用编辑。在实施该方法期间还可利用其他评分模型。
在另一种特征鉴定技术中,使用建模来鉴定染色体内重排。例如,重排发生的似然通常通过计算对数似然比(LLR)即两个假设之间的比率来确定:
其中是假设i下2D接触平面区域中读取的预期数目,是考虑到插入片段大小分布模型,对具有假设i对于读取对j表明的间隔的读取对进行采样的概率。在一些情况下,假设是背景和背景加以频率λ混合的信号。在一些方面,假设是:a)变异存在于被分析的基因组区域,以及b)基因组与参考相匹配。例如,要为两个假设计算LLR评分S:(1)读取是从基因组混合物中生成的,其中部分相对于参考在基因座i和j之间包含融合,以及(0)在i,j附近不存在这样的接触。
由涉及基因组上两个间隔间隙d0的小箱元的n个读取所贡献的评分通常表示如下(进行小箱元近似),其中读取相对于被测试的接触(i,j)定位成使得读取在重排的基因型(2D接触平面的小区域)中间隔d1:
评分S是在每个方向i、j上w个箱元内贡献dS的平面上的总和。
在一些情况下,关于γ的评分“S”估计变体丰度。在γ→1的极限中,这变得可分离,并且可以使用内核卷积进行计算:
其中M是观察到的读取计数的矩阵,KS1是具有元素ln P(dk,l)的特征检测内核,K0是元素等于1并覆盖内核足迹的平凡内核,Q是零假设读取似然贡献,其元素等于M和P(d)的元素乘积(与对角线距离轮廓线类似),NK 1是表示从内核范围内重排的基因型预期的读取数目的常数,N0是矩阵,其元素指示在假设0(对角线轮廓线)下预期的读取数目。对于1→γ的一阶,
在一些情况下,将该方程(例如,γ<1)近似为
在一些方面,似然函数确定叠连群的排序和取向。在一些情况下,似然函数衍生自观察N个球投入编号为0、1、...、k的k+1个箱元中的特定配置的多项式概率,其中xi是落入第i个箱元的球(或配对端读取)的数目,Pi是球将落在第i个箱元中的概率:
在一个实例中,箱元0具有比剩余的“罕见”箱元更高的概率。如果n<<N个球落入m个“罕见”箱元中,而其余N-n个球最终出现在箱元0中,则通常将概率描述为
其中j索引接收球的罕见箱元。不失一般性,在一些情况下,将箱元重新编号为1…k,使得它们的前m个是被球击中的箱元。Pi xi的其余因子(对于i>m且xi=0的箱元)均等于1。任选地,进一步假设罕见箱元罕见到以至于其均未被超过一个球击中,并且m=n,将方程简化为:
通过Pi上的归一化条件,为方便起见将p定义为所有罕见箱元的组合概率:
根据泊松极限定理,如果N非常大而p非常小:
其中λ=Np。在一些方面,这简化了概率表达式中的组合因子。在一些情况下,进行替换n=k,并将近似重写为:
在一些情况下,对数概率用以下方式表示:
在一些情况下,支架模型的优化导致评分S降低,指示更好地描述数据的模型。任选地重复该优化过程,直到消除模型与映射读取对数据之间的所有偏差。在图17A中,观察到用于改善支架模型的示例性的工作流程,包括以下步骤:获得原始连接密度数据,生成接触可能性评分,进行侧图(side graph)编辑,生成距离场,以及相对于当前侧图更新接触可能性。在一些情况下,该过程导致交互式更新的基于图的基因组模型。在一些情况下,迭代该过程以提高用于特征鉴定的映射读取对数据的质量。在一些情况下,针对图中的每个潜在特征(或偏差)生成接触可能性评分。在一些情况下,侧图编辑是指更改装配体的图模型中给予边缘的权重,这影响最可能的装配解决方案。在一些方面,这些侧图编辑对应于对支架中的片段进行重新排序、去除片段、重复片段或破坏片段以在支架模型和读取对数据之间建立更好的一致性。一旦进行了编辑,通常鉴定通过图模型的最短路径,并且将读取对数据映射到新的支架模型上。在另一步骤中,重新评价支架模型与读取对数据之间的所有潜在偏差,并生成新评分。任选地,重复这些步骤以最小化总体评分,指示更准确的支架装配体。在一些情况下,整体效果是视觉观察到的,例如,在优化模型之前获得的图17B与之后获得的图17C之间的差异。
用于基因组建模和表达概率的其他方程和方法也与本文所述的方法和系统一起使用。
拷贝数估计
拷贝数变异的计算对于评估疾病状态通常是有益的,例如,在评估具有与癌症相关的突变的基因拷贝目中。使用多种方法确定突变的拷贝数估计,诸如与相对于映射的其他区域或位置或相对于密度梯度区域的局部密度变异的密度评估有关的方法。在一些情况下,使用以下方程计算拷贝数变异:
其中Ni是箱元i中映射读取的数目,N是映射读取的总数目,w是箱元宽度,G是基因组大小,ci是箱元i的拷贝数,mi是箱元i的可映射性。在一些方面,可映射性是指重新装配基因组部分的能力,在一些情况下,高度重复的序列会阻碍该能力。在一些情况下,如果Ni和mi都较小,则ci偏向1。在一些情况下,染色体被划分为箱元,并且映射的读取对基于该对的中点被分类到多个箱元中。在一些情况下,连接基因组箱元i和j的读取对的数目遵循以下方程:
Nij~P(cicjmimjN pij)
在一些情况下,生成2D直方图以可视地显示不同样品的拷贝数数据(图2A-图2C)。在另一方面,将2D直方图归一化以将长范围接触的信号与以下拷贝数差异分离:
通常将两个或更多个样品进行比较以显示可映射性的影响。例如,在图2D中的每个轴上相对于彼此绘制样品CT407(图2A,左)和CT410(图2A,右)。在一些方面,落在对角线之外的点表示所比较的两个样品之间的拷贝数差异。替代地或组合地,上述步骤在没有可视化帮助的情况下执行,并且替代地将其存储在非暂时性计算机介质上。本领域技术人员将理解,替代方程也用于估计拷贝数差异。
测序
输入,如序列读取数据,可以以适当的文件格式进行格式化。例如,序列读取数据可以包含在FASTA文件、FASTQ文件、BAM文件、SAM文件或其他文件格式中。输入序列读取数据可以是未比对的。输入序列读取数据可以是比对的。
可以准备序列读取数据以供分析。例如,可以为了质量而修剪读取。如有必要,还可以修剪读取以去除测序衔接子。
序列读取数据可以是比对的。例如,读取对可以与指定的参考基因组比对。在一些情况下,参考基因组是GRCh38。可以使用多种算法或工具来执行比对,包括但不限于SNAP、Burrows-Wheeler比对器(例如,bwa-sw、bwa-mem、bwa-aln)、Bowtie2、Novoalign及其修改或变化形式。
还可以生成所述分析的质量控制(QC)报告。在进行更深入的测序之前,QC报告可用于鉴定失败的文库。此类质量控制报告可包括多种指标。QC指标可包括但不限于总读取对、重复(例如,PCR重复)百分比、未映射读取的百分比、具有低映射质量(例如,Q<20)的读取的百分比、映射到不同染色体的读取对的百分比、(诸如映射位置之间的距离)介于0和1kbp之间的读取对插入的百分比、介于1kbp和100kbp之间的读取对插入的百分比、介于100kbp和1Mbp之间的读取对插入的百分比、高于1Mbp的读取对插入的百分比、含有连接接头的读取对的百分比、与限制性片段末端的接近性、读取对间隔图以及文库复杂性的估计值。QC指标可用于优化所述分析,并鉴定试剂、样品和用户的质量问题。可以基于一个或多个QC指标来过滤序列比对。也可以过滤重复读取,例如基于对紧密相应位置处的读取的比较。
序列读取分析结果可包括连接密度结果。连接密度结果可以包括全基因组、一个基因座以及连接密度结果的两个基因座视图。连接密度结果可以作为数据集输出。连接密度结果可以呈现为连接密度图(LDP),如染色体或基因组区域之间的相互作用(例如,接触)的热图。连接密度结果可以与评分如质量评分相关联。在一些情况下,为超过评分阈值的结果输出连接密度可视化。在一个实例中,对于全基因组、对于超过评分阈值的从头判定、对于超过评分阈值的单侧候选判定和对于包括被归类为阴性的所有双侧候选者,均包括它们的可视化。连接密度可视化可包括标度(例如,色标)、长度标度条、基因名称标签、基因的外显子/内含子结构标志符号以及检测到的重排的突出显示。
可以对连锁信息进行归一化以控制效果和偏差,如覆盖度、片段可映射性、片段GC含量和片段长度。归一化可以通过矩阵平衡或其他因素不可知的方法进行。矩阵平衡可以采用诸如Sinkhorn-Knopp算法或Knight-Ruiz归一化之类的算法。还可以进行归一化以校正可能导致假阳性的背景信号。例如,图10A、图10B和图10C示出了在三个不同样品中比较的相同染色体对的基于图像分析的结果。在多个样品的相同位置发现了几个“命中”(在图中圈出),这使人怀疑这些是假阳性。归一化,如利用样品池(例如,10个样品)的归一化读取密度中值进行的归一化,可以用于校正单个样品数据,例如通过将样品像素除以中值像素。图11A、图11B和图11C示出了染色体1对染色体7(图11A)、染色体2对染色体5(图11B)以及染色体1对染色体1(图11C)的归一化读取密度中值(在10个样品上)。可以利用各种箱元处理方法进行归一化,包括相等的箱元大小,如图12A所示,以及箱元插值,如图12B所示。在一些情况下,与相等的箱元大小相比,箱元插值可以产生减少的背景噪声,并且导致更高的分辨率的特征。
可以分析比对的序列数据的重排,包括通过全基因组的重排和特定双基因座(或双侧)候选基因处的重排。分析还可以包括鉴定接触、融合和接合。序列读取数据的比对(例如,以BAM文件或其他合适的格式)可以输入到该分析中。也可以输入基因组掩蔽信息,或者可以在分析中使用默认的基因组掩蔽信息。可以在整个基因组中进行分析。另外或替代地,可以对双侧候选融合的列表进行分析。在一些情况下,对候选融合列表进行的分析比对全基因组进行的分析更灵敏。对双侧候选融合的分析可以检测到涉及可能被全基因组扫描遗漏的相对较短的DNA区段的易位的融合。
在一些情况下,距离测量作为碱基和碱基对的组合进行。可检测的重排的断裂点之间的最小距离可以小于、约为或为由核酸长度列表中选择的两个数字定义的范围中的数字,该核酸长度列表包括2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb、10Mb、20Mb、30Mb、40Mb、50Mb、60Mb、70Mb、80Mb、90Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb或1Gb。
重排分析可以产生被认为在主题基因组中连接的断裂点对的列表。断裂点坐标对的列表还可以包括断裂点坐标对的统计显著性或置信度度量(例如,p值)。这些断裂点对可以以适当的格式输出,如浏览器可扩展数据(BED)或BED-PE。
还可以使用本文公开的技术进行染色体构象的分析。例如,可以确定拓扑学关联的结构域(TAD)和TAD边界。还可以确定其他拓扑学结构域和边界,包括但不限于与层相关的结构域(LAD)、复制时区和大的有组织的染色质K9-修饰(LOCK)结构域。
图13示出了通过全基因组扫描分析管线的分析。通过分析管线进行的样品判定以白色圆圈显示。图13示出了染色体3对染色体6的图,具有250k箱元。
在示例性实施方案中,使用测序数据来确定已知在起始FFPE样品中的多态性的定相信息。例如,使用测序数据来确定某些多态性如SNP是否存在于相同或不同的DNA分子上。通过与已知序列如GIAB样品的序列进行比较来测量使用该方法确定的定相的准确度。例如,在一些情况下,发现在0-10,000之间,发现了132,796个SNP,并且99.059%处于正确的相位。看到了高一致性(>95%),直到约1.5MB(除了70-80kb箱元(其错失了13个中的1个)和1.1-1.3MB箱元(其错失了15个中的2个))。在1.7-1.9MB范围内,7个SNP对相位中的7个被正确判定。从这些数据可以得出以下结论:尽管伪连接水平低,但使用FFPE-Chicago方法确定了适当的长范围信息,甚至达到兆碱基范围。重要的是,这些“一致性”预测率在很多情况下为95%或更高,显著高于根据随机几率预期的50%成功率。
结构定相信息
目前,结构和定相分析(例如,用于医学目的)仍然具有挑战性。例如,在癌症、具有相同类型癌症的个体之间或甚至在相同肿瘤内存在惊人的异质性。从结果影响中梳理原因影响可能需要在每个样品的低成本下有非常高的精度和通量。在个性化医学的领域中,基因组治疗的金标准之一是具有完全表征和定相的全部变体的经测序的基因组,包括大的和小的结构重排以及新型突变。为了实现该标准,先前的技术需要与从头装配所需的努力类似的努力,所述从头装配目前太过昂贵和费力而不能成为常规医疗程序。
定相信息包括母体/父体定相以及肿瘤/非肿瘤定相信息。可以使用肿瘤/非肿瘤定相将癌症基因组信息与体细胞基因组信息区分开。
在本公开内容的一些实施方案中,可以提供来自受试者的保存的组织(例如,FFPE组织),并且该方法可以返回装配的基因组、与被判定的变体(包括大结构变体和拷贝数变体)的比对、定相的变体判定或任何其他分析。在其他实施方案中,本文公开的方法可以直接为个体提供长距离读取对文库。
在本公开内容的各个实施方案中,本文公开的方法可以生成相隔大距离的长范围读取对。该距离的上限可通过收集大尺寸DNA样品的能力来改善。在一些情况下,读取对可跨越多达50、60、70、80、90、100、125、150、175、200、225、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000kbp或更远的基因组距离。在一些实例中,读取对可跨越多达500kbp的基因组距离。在其他实例中,读取对可跨越多达2000kbp的基因组距离。本文公开的方法可整合并基于分子生物学方面的标准技术进行构建,并且进一步地非常适合于提高效率、特异性和基因组覆盖率。
在其他实施方案中,本文公开的方法可与目前采用的测序技术一起使用。例如,所述方法可与经过良好测试的和/或广泛部署的测序仪器组合使用。在进一步的实施方案中,本文公开的方法可以与从当前采用的测序技术衍生的技术和方法一起使用。
在各个实施方案中,本公开内容提供了一种或多种本文公开的方法,该方法包括探测保存的(例如,FFPE)样品或细胞内染色体的物理布局的步骤。通过测序探测染色体物理布局的技术实例包括“C”类技术,如染色体构象捕获(“3C”)、环化染色体构象捕获(“4C”)、碳拷贝染色体捕获(“5C”)和基于Hi-C的方法;以及基于ChIP的方法,如ChIP-loop、ChIP-PET。这些技术利用活细胞中染色质的固定来巩固细胞核中的空间关系。产物的后续处理和测序允许研究人员恢复基因组区域之间邻近关联的矩阵。通过进一步分析,这些关联可用于产生染色体的三维几何图,因为它们物理地排列在保存的(例如,FFPE)样品中。这样的技术描述了染色体的离散空间组织,并提供了染色体位点之间功能相互作用的准确视图。
在一些实施方案中,染色体内相互作用与染色体连接性有关。在一些情况下,染色体内数据可帮助基因组装配。在一些情况下,在体外重构染色质。这可能是有利的,因为染色质——特别是组蛋白(染色质的主要蛋白质成分)——对于在通过测序检测染色质构象和结构的最常见“C”类技术3C、4C、5C和Hi-C下的固定是重要的。染色质关于序列是高度非特异性的,并且通常将在整个基因组上均匀地装配。在一些情况下,不使用染色质的物种的基因组可以在重构的染色质上进行装配,从而将本公开内容的范围扩大至所有生命领域。
可以从染色质构象捕获技术获得读取对数据。在一些实例中,完成连接或其他标记,以标记物理上紧密接近的基因组区域。可以根据本文其他地方进一步详细描述的或本领域已知的合适方法完成复合物的交联,以使得蛋白质(诸如组蛋白)与染色质内的DNA分子,例如基因组DNA在复合物中稳定结合。在一些情况下,通过在使得这类复合物不降解的条件下提取DNA-蛋白质复合物,例如通过排除蛋白酶K处理,来利用由样品保存(例如由固定)引起的交联。例如,当是诸如染色质等结构的一部分时,沿基因组序列不紧密接近的核苷酸区段可以在物理上紧密接近。可以将这样的核苷酸区段连接在一起,然后根据本公开内容的方法进行分析。例如,可以对连接的核苷酸区段进行测序,并且可以分析两个连接的区段的测序末端之间的距离(插入距离)。图14A示出了对于通过本公开内容的技术分析的保存的样品(例如,FFPE样品),在特定范围内的插入片段的概率相对于以碱基对(bp)为单位的插入距离的图。图14B示出了使用Chicago方法分析的样品的类似图。在这两个图中,x轴显示插入距离(bp),从0至300,000,而y轴显示该距离的插入片段的概率,从该轴顶部的100至该轴底部的10-8(对数)。
在一些情况下,两个或更多个核苷酸序列可以经由与一个或多个核苷酸序列结合的蛋白质交联。一种方法是将染色质暴露于紫外线照射(Gilmour等人,Proc.Nat’l.Acad.Sci.USA 81:4275-4279,1984)。还可以利用其他方法,如化学或物理(例如,光)交联,进行多核苷酸区段的交联。合适的化学交联剂包括但不限于甲醛和补骨脂素(Solomon等人,Proc.Natl.Acad.Sci.USA 82:6470-6474,1985;Solomon等人,Cell53:937-947,1988)。例如,可通过将2%甲醛添加至包含DNA分子和染色质蛋白质的混合物中进行交联。可用来交联DNA的试剂的其他实例包括但不限于紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)和环磷酰胺。适当地,所述交联剂将形成桥接相对较短距离如约的交联,从而选择可以逆转的密切相互作用。
通常,用于探测染色体物理布局的程序,如基于Hi-C的技术,利用在细胞/生物体内形成的染色质,如从培养的细胞或原代组织中分离的染色质。基于Chicago的方法不仅提供了采用从细胞/生物体中分离的染色质的这类技术的使用,而且还提供了采用重构的染色质的这类技术的使用。重构的染色质在多种特征方面与细胞/生物体内形成的染色质不同。首先,对于许多样品,可通过使用多种非侵入性至侵入性的方法,如通过收集体液、擦拭口腔或直肠区域、采集上皮样品等,实现裸DNA样品的收集。第二,重构染色质基本上防止了染色体间和其他长范围相互作用的形成,所述相互作用生成用于基因组装配和单元型定相的人工制品。在一些情况下,根据本公开内容的方法和组合物,样品可具有少于约20%、15%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、0.4%、0.3%、0.2%、0.1%或更少的染色体间或分子间交联。在一些实例中,所述样品可具有少于约5%的染色体间或分子间交联。在一些实例中,所述样品可具有少于约3%的染色体间或分子间交联。在另外的实例中,可具有少于约1%的染色体间或分子间交联。第三,可以调节能够交联的位点的频率,并因此可以调节多核苷酸内的分子内交联的频率。例如,DNA与组蛋白的比可以变化,使得核小体密度可以调节至所需的值。在一些情况下,核小体密度减小至生理学水平以下。因此,可以改变交联的分布以有利于较长范围相互作用。在一些实施方案中,可制备具有不同交联密度的子样品以涵盖短范围和长范围缔合。例如,可以调节交联条件,使得至少约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约25%、约30%、约40%、约45%、约50%、约60%、约70%、约80%、约90%、约95%或约100%的交联发生在样品DNA分子上相隔至少约50kb、约60kb、约70kb、约80kb、约90kb、约100kb、约110kb、约120kb、约130kb、约140kb、约150kb、约160kb、约180kb、约200kb、约250kb、约300kb、约350kb、约400kb、约450kb或约500kb的DNA区段之间。
可以使用本文所述的方法和系统实现癌症基因组测序所需的高准确度。当对癌症基因组进行测序时,不准确的参考基因组可能带来碱基判定挑战。异质样品和小的起始材料,例如通过活检获得的样品引入了附加的挑战。此外,大规模的结构变体和/或杂合性丢失的检测对于癌症基因组测序,以及区分体细胞变体和碱基判定错误的能力来说往往至关重要。
本文所述的系统和方法可由含有2、3、4、5、6、7、8、9、10、12、15、20个或更多个不同基因组的复杂样品生成准确的长序列。可以对正常、良性和/或肿瘤来源的混合样品进行分析(任选地不需要正常对照)。在一些实施方案中,利用仅100ng或甚至仅数百个基因组当量的起始样品生成准确的长序列。本文描述的系统和方法可允许检测拷贝数变体、大规模结构变体和重排,可以在跨越约1kbp、约2kbp、约5kbp、约10kbp、20kbp、约50kbp、约100kbp、约200kbp、约500kbp、约1Mbp、约2Mbp、约5Mbp、约10Mbp、约20Mbp、约50Mbp或约100Mbp或更多的核苷酸的长序列上获得定相的变体判定。例如,可以在跨越约1Mbp或约2Mbp的长序列上获得相位变体判定。
可将使用本文所述的方法和系统确定的单元型分配给计算资源,例如经由网络的计算资源,如云系统。如果需要的话,可以使用储存在计算资源中的有关信息来校正短变体判定。可以基于来自短变体判定的复合信息和储存在计算资源中的信息来检测结构变体。基因组的有问题部分,如区段重复、有结构变异倾向的区域、高度变异的医学上有关的MHC区域、着丝粒和端粒区域以及其他异染色质区域(包括但不限于具有重复区域、低序列准确度、高变异率、ALU重复、区段重复或本领域已知的任何其他有关的有问题部分的那些异染色质区域),可进行重新装配以提高准确度。
可将样品类型分配给本地或网络化的计算资源(诸如云)中的序列信息。在信息的来源已知的情况下,例如,当信息的来源来自癌症或正常组织时,可将来源以样品类型的一部分的形式分配给样品。其他样品类型实例通常包括但不限于组织类型、样品收集方法、感染的存在、感染的类型、处理方法、样品的大小等。在可获得完全或部分比较基因组序列,如正常基因组与癌症基因组的比较的情况下,可以确定样品数据与比较基因组序列之间的差异并任选地输出该差异。
单元型定相方法
由于通过本文公开的方法生成的读取对一般来源于染色体内接触,所以含有杂合性位点的任何读取对也将携带关于其定相的信息。利用该信息,可以快速且准确地进行短距离、中距离以及甚至长距离(兆碱基)的可靠定相。设计用于定相来自1000个基因组三元组(母亲/父亲/后代基因组的集合)之一的数据的实验已可靠地推断定相。此外,使用类似于Selvaraj等人(Nature Biotechnology 31:1111-1118(2013))的邻近连接的单元型重构也可与本文公开的单元型定相方法一起使用。
例如,使用基于邻近连接的方法的单元型重构也可以在本文公开的方法中用于基因组定相。使用基于邻近连接的方法的单元型重构将邻近连接和DNA测序与单元型装配的概率算法相结合。首先,使用染色体捕获方案如Hi-C方案进行邻近连接测序。这些方法可以捕获来自在三维空间中成环的两个远离的基因组基因座的DNA片段。对所得DNA文库进行鸟枪法DNA测序后,成对末端测序读取具有在几百个碱基对到数千万个碱基对范围内的“插入片段大小”。因此,在Hi-C实验中生成的短DNA片段可以产生小的单元型区块,长片段最终可以将这些小区块连接在一起。在足够的测序覆盖度的情况下,这种方法能够连接不连续区块中的变体,并且将每一个这样的区块装配成单个单元型。然后将该数据与概率算法相结合以用于单元型装配。概率算法利用节点对应于杂合变体且边缘对应于可连接变体的重叠序列片段的图。该图可能含有由测序错误或反式相互作用造成的假边缘。随后使用最大切割算法来预测与由输入测序读取集合提供的单元型信息具有最大一致性的简约解决方案。由于邻近连接生成比常规基因组测序或配对测序更大的图,因此修改计算时间和迭代次数,使得可以以合理的速度和高精确度预测单元型。所得数据随后可用于使用Beagle软件和来自基因组计划的测序数据来指导局部定相,以生成具有高分辨率和准确度的跨越染色体的单元型。
使用配对末端确定相位信息
本文进一步提供了用于从来源于FFPE样品的配对末端确定相位信息的方法和组合物。配对末端可以通过公开的任何方法或在所提供的实施例中进一步说明的方法生成。例如,在DNA分子与固体表面结合并随后被切割的情况下,在重新连接游离末端后,重新连接的DNA区段从固相附接的DNA分子上释放,例如通过限制性消化。该释放产生多个配对末端片段。在一些情况下,配对末端连接至扩增衔接子,扩增,并且用短读取技术进行测序。在这些情况下,来自多个不同固相结合的DNA分子的配对末端在测序的样品内。然而,确信地得出以下结论:对于配对末端接头的任一侧,接头相邻序列源自共同分子的共同相位。在配对末端与点断寡核苷酸连接的情况下,通过点断寡核苷酸序列鉴定测序读取中的配对末端接头。在其他情况下,通过修饰的核苷酸连接配对末端,该末端可以基于所用修饰核苷酸的序列进行鉴定。
或者,在释放配对末端后,将游离的配对末端连接至扩增衔接子并进行扩增。在这些情况下,然后将多个配对末端批量连接在一起以生成使用长读取测序技术读取的长分子。在其他实例中,释放的配对末端彼此批量连接而没有中间的扩增步骤。在任一情况下,嵌入的读取对可经由与连接序列(如点断序列或修饰的核苷酸)相邻的天然DNA序列来鉴别。在长序列装置上读取多联化的配对末端,并获得多个接头的序列信息。由于配对末端衍生自多种不同的固相结合的DNA分子,因此发现跨越两个单独配对末端的序列,如那些位于扩增衔接子序列侧翼的序列,映射到多种不同的DNA分子。然而,确信地得出以下结论:对于配对末端接头的任一侧,接头相邻序列源自共同分子的共同相位。例如,在来自点断分子的配对末端的情况下,位于点断序列侧翼的序列被确信地分配给共同的DNA分子。在优选的情况下,因为使用本文公开的方法和组合物使各个配对末端多联化,所以能够在单次读取中对多个配对末端进行测序。
在优选的实施方案中,使用本文所述的方法和组合物生成的测序数据用于生成定相的从头序列装配体、确定相位信息和/或鉴定结构变异。
确定结构变异和其他遗传特征
参见图15A和图15B,提供了读取对在参考序列如GRCh38上的映射位置的示例,这些读取对由来自重新装配的染色质的DNA经邻近连接生成,并在GM12878与参考之间的结构差异附近绘制。生成的每个读取对均在对角线上方和下方表示。在对角线上方,阴影表示在示出标度上的图谱质量评分;在对角线下方,阴影表示基于与分相SNP的重叠所生成的读取对的推断单元型相位。在一些实施方案中,生成的图描绘了具有侧翼重复区域的倒位,如图15B中所示。在一些实施方案中,生成的图描绘了定相的杂合缺失的数据,如图15B中所示。
将来自一个个体的配对序列读取映射到参考是用于鉴定连续核酸或基因组结构中的差异如倒位、缺失和重复的最常用的基于序列的方法(Tuzun等人,2005)。图15A和图15B示出了如何将来自GM12878的重新装配的染色质的DNA通过邻近连接而生成的读取对映射到人参考基因组GRCh38,来揭示两种这样的结构差异。为了估计用于鉴定结构差异的读取对数据的灵敏度和特异性,对关于被构建用于模拟杂合倒位的影响的模拟数据集的最大似然鉴别器进行测试。通过从生成的NA12878读取映射到GRCh38参考序列而随机选择界定长度L的间隔,并将每个生成的读取对随机地独立分配给倒位或参考单元型,并相应地编辑映射的坐标来构建测试数据。非等位基因同源重组是在人类基因组中观察到的许多结构变异的原因,导致发生在重复序列的长区块中的许多变异断裂点(Kidd等人,2008)。通过去除映射到距离W内的所有读取来模拟围绕倒位断裂点的不同长度的重复序列的影响。在倒位断裂点处没有重复序列的情况下,分别对于1Kbp、2Kbp和5Kbp倒位,灵敏度(特异性)分别为0.76(0.88)、0.89(0.89)和0.97(0.94)。当在模拟中使用倒位断裂点处的1Kbp区域的重复(不可映射)序列时,5Kbp倒位的灵敏度(特异性)为0.81(0.76)。
性能
用本文公开的技术进行的分析可以以高准确度进行。可以以至少约50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%或更高的准确度进行分析。可以以至少70%的准确度进行分析。可以以至少80%的准确度进行分析。可以以至少90%的准确度进行分析。
用本文公开的技术进行的分析可以以高特异性进行。可以以至少约50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%或更高的特异性进行分析。可以以至少70%的特异性进行分析。可以以至少80%的特异性进行分析。可以以至少90%的特异性进行分析。
用本文公开的技术进行的分析可以以高灵敏度进行。可以以至少约50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%或更高的灵敏度进行分析。可以以至少70%的灵敏度进行分析。可以以至少80%的灵敏度进行分析。可以以至少90%的灵敏度进行分析。
使用本公开内容的技术可以改善用来实现该技术的计算机系统的功能。例如,该技术可以将给定分析的处理时间缩短至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或更多。该技术可以将给定分析的存储器需求降低至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或更多。
使用本公开内容的技术可以实现先前无法进行的分析。例如,可以从序列信息中检测某些遗传特征,如果不使用本公开内容的方法,这些遗传特征将无法从这样的信息中检测到。
机器学习
可以使用多种技术进行分析以鉴定诸如接触和重排等特征(包括但不限于缺失、重复、插入、倒位或逆转、易位、接合、融合和分裂)以及其他相互作用。分析技术可以包括统计和概率分析、包括傅立叶分析的信号处理、计算机视觉和其他图像处理、语言处理(例如,自然语言处理)和机器学习。例如,可以分析诸如接触矩阵等相互作用图中的指示诸如上述特征等特征的数据配置。在一些情况下,可以对图或其他数据应用过滤器。过滤器可以是卷积过滤器,包括但不限于平滑过滤器(例如,内核平滑或Savitzky-Golay过滤器,高斯模糊等)。
一些实施方案涉及机器学习作为基因组结构确定的组件,因此一些计算机系统被配置为包括具有机器学习能力的模块。机器学习模块包括以下列出的模态(modality)中的至少一种,以便构成机器学习功能。
构成机器学习的模态以各种方式展示出数据过滤能力,以便能够执行自动化质谱数据点检测和判定。在一些情况下,通过存在指示各种基因组结构变化(诸如倒位、插入、缺失或易位)的预测模式来促进这种模态。
构成机器学习的模态以各种方式展示出数据处理或数据加工能力,以使读取对频率处于有利于下游分析的形式。数据处理的实例包括但不一定限于对数变换、分配缩放比或将数据映射到精心设计的特征,以使数据处于有利于下游分析的形式。
如本文所公开的机器学习数据分析组件定期处理读取对数据集中的众多特征,如1至10,000个特征或2至300,000个特征,或者数目在这些范围中的任一个范围内或者高于这些范围中的任一个范围的特征。在一些情况下,数据分析涉及至少1k、2k、3k、4k、5k、6k、7k、8k、9k、10k、20k、30k、40k、50k、60k、70k、80k、90k、100k、120k、140k、160k、180k、200k、220k、2240k、260k、280k、300k或多于300k个特征。
使用与本文公开内容一致的任何数量的方法来确定读取对分布模式。在一些情况下,读取对分布模式选择包括弹性网、信息增益、随机森林输入或与本文公开内容一致并且本领域技术人员熟悉的其他特征选择方法。
再次使用与本文公开内容一致的任何数量的方法,将选择的读取对分布模式与指示基因组结构变化的预测模式进行匹配。在一些情况下,读取对模式检测包括逻辑回归、SVM、随机森林、KNN或与本文公开内容一致并且本领域技术人员熟悉的其他分类器方法。
在被配置用于本文公开的分析的计算机上应用机器学习或提供机器学习模块允许检测对于无症状疾病检测或早期检测有意义的基因组结构变化,作为持续监测程序的一部分,以便在症状出现之前或在干预更容易实现或者更有可能带来成功结果时鉴定疾病或病症。
在被配置用于本文公开的分析的计算机上应用机器学习或提供机器学习模块还允许鉴定经受药物治疗的个体中的结构重排,例如作为药物试验的一部分,使得个体或群体的试验结果可以同时或回顾性地相关联,以便鉴定与药物功效正相关或负相关的特定基因组结构事件。
在被配置用于本文公开的分析的计算机上应用机器学习或提供机器学习模块还允许鉴定与遗传异质样品(如收集而没有均质化的肿瘤组织样品)的特定区域相对应的结构重排,以便保留该样品中的位置信息。由于已知一些肿瘤区域对应于特别易于转移或肿瘤扩散的细胞群体,因此鉴定与这类细胞群体相关的基因组重排或其他相位信息有助于选择针对这些特别危险的细胞群体的治疗方案。
监测通常但不一定与遗传评估结合进行或支持遗传评估,该遗传评估指示对于监测其发作或进展特征的病症的遗传易感性。类似地,在一些情况下,机器学习用于促进对治疗方案的治疗功效的监测或评估,以使得该治疗方案可以随着时间的推移进行修改、继续或解决,如正在进行的蛋白质组学介导的监测所示。
机器学习方法和具有被配置用于执行机器学习算法的模块的计算机系统有助于鉴定不同复杂度的数据集中的相位信息或基因组重排。在一些情况下,从非目标数据库中鉴定相位信息或基因组重排,该数据库包含大量质谱数据,如在多个时间点从单个个体获得的数据,从多个个体(诸如对于感兴趣的病况具有已知状态或已知最终治疗结果或反应的多个个体)采集的样品,或来自多个时间点和多个个体的数据。
或者,在一些情况下,通过例如在多个时间点(当个体的健康状况对于该时间点已知时)从单个个体收集基因组重排或相位信息,或者从对于感兴趣的病况具有已知状态的多个个体收集序列信息,或者在多个时间点从多个个体收集序列信息,机器学习通过分析基因组重排或相位信息所针对的数据库来促进基因组重排或相位信息的细化。显而易见的是,在一些情况下,通过使用保存的样品,如根据手术收集的交联的样品或根据药物试验收集的FFPE样品,来促进序列信息的收集。
因此,单独地或与药物试验结果或外科手术干预结果信息相组合地收集序列信息。序列数据经受机器学习,例如在如本文所公开进行配置的计算机系统上,以便鉴定指示对应于基因组重排的模式的读取对的子集,所述读取对单独地或与一种或多种另外的标记物相组合地说明健康状况信号。因此,在一些情况下,机器学习有助于鉴定序列——DNA或RNA序列,或鉴定单独地提供个体健康状况的信息的基因组重排。
与以上公开内容一致的示例性机器学习方法是卷积神经网络(CNN)。CNN可用于例如对阳性样品和阴性样品进行分类。示例性CNN架构包含2个完全连接的卷积隐藏层,每个隐藏层之后是一定数目的神经元的最大池化层和最终输出层,诸如只能被2或2的因子整除的神经元数目,诸如128、256、512、1024其他数目的或具有分对数激活功能的神经元。在替代实施方案中,大范围的神经元数目与本文的公开内容相容,这样的数目在由小于50、50、60、64、70、80、90、100、120、140、160、180、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2048、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000或大于3000的端点限定的范围内。
从诸如CNN等机器学习的一些实现方式中,训练数据使用读取对计数信息,并且使用例如对角线到读取对映射点的距离的倒数对染色体内矩阵进行归一化。替代地或组合地,其他参数(诸如参考可映射性、限制位点分布或其他参数)用作附加通道来创建多通道神经网络(诸如CNN网络)。
使用特征定位通过许多现有技术的网络(诸如YOLO、Mask R-CNN、Fast R-CNN以及其他方法)来实现图像分类。替代地,为特定应用设计专门定制的域架构。
计算机系统
图18A示出了被编程或以其他方式配置以实现本文提供的方法的计算机系统401。计算机系统401可以是用户的电子设备或者是相对于该电子设备远程定位的计算机系统。该电子设备可以是移动电子设备。
计算机系统401包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)405,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统401还包括存储器或存储位置410(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元415(例如,硬盘)、用于与一个或多个其他系统通信的通信接口420(例如,网络适配器)以及外围设备425,诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器410、存储单元415、接口420和外围设备425通过诸如主板的通信总线(实线)与CPU 405通信。存储单元415可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统401可以借助于通信接口420可操作地耦合至计算机网络(“网络”)430。网络430可以是互联网、因特网和/或外联网,和/或与因特网通信的内联网和/或外联网。在一些情况下,网络430是远程通信和/或数据网络。网络430可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些情况下借助于计算机系统401,网络430可以实现对等网络,这可以使耦合至计算机系统401的设备能够充当客户端或服务器。
CPU 405可以执行一系列机器可读指令,该指令可以体现在程序或软件中。该指令可以存储在存储位置,诸如存储器410中。可以将指令引导至CPU 405,该指令随后可以编程或以其他方式配置CPU 405以实现本公开内容的方法。由CPU 405执行的操作示例可以包括提取、解码、执行和回写。
CPU 405可以是电路如集成电路的一部分。系统401的一个或多个其他组件可以包括在电路中。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元415可以存储文件,诸如驱动程序、文库和保存的程序。存储单元415可以存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统401可以包括一个或多个附加数据存储单元,该附加数据存储单元在计算机系统401外部,诸如位于通过内联网或因特网与计算机系统401通信的远程服务器上。
计算机系统401可以通过网络430与一个或多个远程计算机系统通信。例如,计算机系统401可以与用户(例如,服务提供商)的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式PC)、平板或平板型PC(例如,iPad、Galaxy Tab)、电话、智能电话(例如,iPhone、支持Android的设备、)或个人数字助理。用户可以经由网络430访问计算机系统401。
可以通过存储在计算机系统401的电子存储位置上(例如在存储器410或电子存储单元415上)的机器(例如计算机处理器)可执行代码来实现如本文所述的方法。该机器可执行代码或机器可读代码可以以软件的形式提供。
在使用期间,所述代码可以由处理器405执行。在一些情况下,可以从存储单元415检索该代码并将其存储在存储器410上以备处理器1005访问。在一些情况下,可以排除电子存储单元415,并且机器可执行指令存储在存储器410上。
所述代码可以被预编译并配置以供与具有适合执行该代码的处理器的机器一起使用,或者可以在运行期间被编译。该代码可以以编程语言提供,可以选择该编程语言以使该代码能够以预编译或即时编译(as-compiled)的方式执行。
本文提供的系统和方法的各方面,如计算机系统1001,可体现在编程中。本技术的多个方面可以被认为是“产品”或“制品”,其通常为某种类型的机器可读介质上携带或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可存储在电子存储单元如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可包括计算机的任何或全部有形存储器、处理器等,或其相关模块,如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可在任何时候为软件编程提供非暂时性存储。该软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。这样的通信,例如,可使软件能够从一个计算机或处理器加载到另一个计算机或处理器中,例如,从管理服务器或主机加载到应用服务器的计算机平台中。因此,可承载软件元素的另一类型的介质包括光波、电波和电磁波,如跨本地设备之间的物理接口、通过有线和光学陆线网络以及通过各种空中链路而使用的。携带这类波的物理元件,如有线或无线链路、光学链路等,也可以被认为是承载软件的介质。如本文所用的,除非受限于非暂时性有形“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质如计算机可执行代码可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,如任何计算机中的任何存储设备等,例如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,如这样的计算机平台的主存储器。有形传输介质包括:同轴电缆、铜线和光纤,包括导线,该导线包括计算机系统内的总线。载波传输介质可采取电信号或电磁信号或者声波或光波的形式,如在射频(RF)和红外(IR)数据通信过程中生成的那些电信号或电磁信号或者声波或光波。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、任何其他具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或匣盒、传送数据或指令的载波、传送这样的载波的电缆或链路,或者计算机可从中读取编程代码和/或数据的任何其他介质。这些计算机可读介质形式中的许多形式可以参与将一个或多个指令的一个或多个序列载送至处理器以供执行。
计算机系统401可以包括电子显示器435或与电子显示器435通信,电子显示器435包括用于提供例如经过训练的算法的输出和读出的用户界面(UI)440。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
可以通过一种或多种算法来实现本公开内容的方法和系统。算法可以在由中央处理单元405执行时通过软件实现。
在一些情况下,本文的计算机系统被配置用于执行机器学习操作,如本文说明书中公开的或本领域技术人员已知的那些操作。
图18B中所示的计算机系统600可被理解为可从介质611和/或网络端口605读取指令的逻辑装置,该装置可任选地连接到具有固定介质612的服务器609。该系统(诸如图18B中所示)可包含CPU 601、磁盘驱动器603、可选的输入设备如键盘615和/或鼠标616以及可选的监视器607。通过指示的通信介质可实现与本地或远程位置处的服务器的数据通信。通信介质可包括传送和/或接收数据的任何手段。例如,通信介质可以是网络连接、无线连接或因特网连接。这样的连接可提供通过万维网的通信。可以设想,与本公开内容相关的数据可通过这样的网络或如图18B所示的由一方622接收和/或检查的连接进行传送。
图18C是示出可结合本文所述的示例性实施方案使用的计算机系统700的第一示例性架构的框图。如图18C中所示,示例性计算机系统包含用于处理指令的处理器702。处理器的非限制性实例包括:Intel XeonTM处理器、AMD OpteronTM处理器、Samsung 32-bitRISC ARM1176JZ(F)-S v1.0TM处理器、ARM Cortex-A8 Samsung S5PC100TM处理器、ARMCortex-A8 Apple A4TM处理器、Marvell PXA 930TM处理器或功能相当的处理器。多个执行线程可用于并行处理。在一些实施方案中,无论是在单个计算机系统中、集群中,还是通过包括多个计算机、蜂窝电话和/或个人数据助理设备的网络的跨系统分布,均使用多个处理器或具有多个核的处理器。
如图18C中所示,高速缓冲存储器704可连接或并入到处理器702中,以向处理器702最近或频繁使用的指令或数据提供高速存储器。处理器702通过处理器总线708与北桥706连接。北桥706通过存储器总线712与随机存取存储器(RAM)710连接,并且管理通过处理器702对RAM 710的访问。北桥706还通过芯片组总线716与南桥714连接。南桥714进而与外围总线718连接。外围总线可为例如PCI、PCI-X、PCI Express或其他外围总线。北桥和南桥通常被称为处理器芯片组,并且管理处理器、RAM和外围总线718上的外围组件之间的数据传送。在一些替代的架构中,北桥的功能可被并入处理器中而不使用单独的北桥芯片。
在一些实施方案中,系统700包含附接到外围总线718的加速器卡722。加速器可包括现场可编程门阵列(FPGA)或用于加速某些处理的其他硬件。例如,可使用加速器用于自适应数据重构或评价在扩展集处理中使用的代数表达式。
软件和数据存储在外部存储724中,并且可被加载到RAM 710和/或缓存704中以供处理器使用。系统2000包括用于管理系统资源的操作系统;操作系统的非限制性实例包括:Linux、WindowsTM、MACOSTM、BlackBerry OSTM、iOSTM和其他功能相当的操作系统,以及用于根据本发明的示例性实施方案管理数据存储和优化的运行在操作系统之上的应用软件。
在该实例中,系统700还包括与外围总线连接的网络接口卡(NIC)720和721,用于向外部存储如网络附加存储(NAS)和可用于分布式并行处理的其他计算机系统提供网络接口。
图18D为示出具有多个计算机系统2102a和2102b、多个蜂窝电话和个人数据助理2102c以及网络附加存储(NAS)2104a和2104b的网络2100的示意图。在示例性实施方案中,系统2102a、2102b和2102c可管理数据存储并优化对网络附加存储(NAS)2104a和2104b中存储的数据的数据访问。可以将数学模型用于数据,并且使用在计算机系统2102a和2102b以及蜂窝电话和个人数据助理系统2102c的分布式并行处理评价该数学模型。计算机系统2102a和2102b以及蜂窝电话和个人数据助理系统2102c还可提供并行处理,用于存储在网络附加存储(NAS)2104a和2104a中的数据的自适应数据重构。图18D仅示出了示例,并且可结合本发明的多种实施方案使用多种其他计算机架构和系统。例如,可使用刀片服务器提供并行处理。处理器刀片可通过背板进行连接以提供并行处理。存储还可通过单独的网络接口与背板或作为网络附加存储(NAS)连接。
在一些示例性实施方案中,处理器可维持单独的存储器空间,并通过网络接口、背板或其他连接器传送数据用于通过其他处理器进行并行处理。在其他实施方案中,一些或全部处理器可使用共享虚拟地址存储器空间。
图18E为根据示例性实施方案使用共享虚拟地址存储器空间的多处理器计算机系统900的框图。该系统包含可访问共享存储器子系统904的多个处理器902a-f。该系统在存储器子系统904中包含多个可编程硬件存储器算法处理器(MAP)906a-f。每个MAP 906a-f可包含存储器908a-f和一个或多个现场可编程门阵列(FPGA)910a-f。MAP提供可配置的功能单元,并且可向FPGA 910a-f提供特定算法或算法部分用于与相应处理器紧密配合进行处理。例如,在示例性实施方案中,MAP可用于评价关于数据模型的代数表达式并执行自适应数据重组。在该实例中,为达到这些目的,每个MAP均可被所有处理器全局访问。在一种配置中,每个MAP可使用直接存储器访问(DMA)来访问相关联的存储器908a-f,从而使其独立于相应的微处理器902a-f且与该微处理器异步地执行任务。在这种配置中,MAP可将结果直接提供给另一个MAP用于流水操作和算法的并行执行。
上述计算机架构和系统仅是示例性的,并且可结合示例性实施方案使用多种其他计算机、蜂窝电话和个人数据助理架构和系统,包括使用通用处理器、协同处理器、FPGA和其他可编程逻辑设备、片上系统(SOC)、专用集成电路(ASIC)以及其他处理和逻辑元件的任意组合的系统。在一些实施方案中,计算机系统的全部或部分以软件或硬件可实现。任何种类的数据存储介质均可与示例性实施方案结合使用,包括随机存取存储器、硬盘驱动器、闪速存储器、磁带驱动器、磁盘阵列、网络附加存储(NAS)以及其他局部或分布式数据存储设备和系统。
在示例性实施方案中,可使用在上述任一种或其他计算机架构和系统上执行的软件模块来实现计算机系统。在其他实施方案中,该系统的功能可部分地或完全地在固件、可编程逻辑设备如图18E所示的现场可编程门阵列(FPGA)、片上系统(SOC)、专用集成电路(ASIC)或者其他处理和逻辑元件中实现。
相对于在提交本申请时在使用中的方法,本文公开的方法和系统提供了许多优势。
本文公开的一些方法和计算系统以不依赖于生物体的染色体数目的方式将叠连群群集。应用关于单连接群集的叠连群-叠连群连接的更保守的阈值,以将所得的较小的叠连群集群装配成支架,并且通过本文公开的多种方法可进行后续的拼接连接。
在一些实施方案中,本文公开的方法基本不涉及群集,而是直接进行生成树步骤,随后进行拓扑树修剪。在一些实施方案中,可使用多于一种群集方法,例如Markov聚类算法(MCL算法)。不受理论限制,可通过特别小心地处理这些边缘和避免装配错接进行拓扑修剪来防止错误装配。
在固定支架中的叠连群顺序后,可通过使用动态规划算法优化叠连群方向。这样的仅读取映射到排序中相邻的叠连群对的方法有助于优化评分,而不考虑短于外部和未装配的较好片段对的最大间隔的任何叠连群。为了改善定向步骤,除了最邻近的叠连群评分相互作用之外,还可通过使用将来自映射到最多w-2个中间叠连群以内的叠连群对的所有对的数据合并的算法来考虑不是最邻近叠连群评分相互作用的叠连群,例如使用排序中的两个或更多个叠连群,诸如2、3、4、5、6、7、8、9、10个或多于10个叠连群的值。
在一些实施方案中,可改善插入步骤的精确度。不受任何理论的束缚,在创建主干之后,在具有短于较好的读取对之间的最大间隔的叠连群的装配中,在从主干排除叠连群并将其重新插入使相邻叠连群之间的连接量最大化的位点时,纳入来自沿着排序的w个叠连群的邻域内的叠连群的数据。
在一些其他实施方案中,可通过考虑超过最邻近的叠连群评分相互作用来改善定向步骤。在固定支架中的叠连群顺序后,通过使用动态规划算法优化叠连群方向。只有映射到排序中相邻的叠连群对的读取对有助于评分的优化。在一些情况下,可使用合并来自映射到排序中最多w-2个中间叠连群以内的叠连群对的所有对的数据的算法来装配具有短于较好片段对的最大间隔的任何叠连群。例如,使用排序中的两个或更多个叠连群,诸如2、3、4、5、6、7、8、9、10个或多于10个的值。
在一些实施方案中,可通过更紧密地整合排序和定向步骤而改善排序和定向精确度。可构建初始图,使得在该图中节点为叠连群末端,并且每个叠连群的两个末端节点通过边缘连接。计算在特定短间隙大小假设下叠连群之间边缘的对数似然比值评分,随后进行分选。随着列表的边缘评分的降序操作,新边缘根据其是否会增加或减少装配的总评分而被接受或拒绝。值得注意的是,即使具有正评分的边缘也可降低装配中的叠连群的评分之和,因为接受边缘(意味着将一个或多个叠连群插入现有支架的间隙中)将会增加间隙的任一侧上的连接叠连群对之间的间隙大小,这可能给予它们较低的评分。
此外,可有效地计算最大似然间隙大小。通过估计连续叠连群之间未知序列的长度可增加报告的装配的总精确度。假定包含文库读取对之间的间隔d的模型概率密度函数(PDF)的文库创建过程的模型,通过将跨越间隙的对的间隔di的结合似然最大化可找到最大似然间隙长度。对于可微分模型PDF,可使用有效的迭代优化方法(例如,Newton-Raphson)。
本文公开的方法和组合物的要素是将叠连群装配成在例如在2、3、4、5、6个或多于6个叠连群的叠连群窗口中对于叠连群顺序、取向或顺序和取向局部最佳,同时在相对较短的时间量(诸如8、7、6、5、4、3、2小时或小于2小时)内可执行或可获得的配置。因此,在一些情况下,本文的方法允许在不使用大量计算时间并且不需要探索非常大的全局计算空间的情况下将高度的计算能力带入计算密集的问题。相反,在大多数情况下,局部排序实现了叠连群的适当准确的排序,随后耗费计算强度来优化叠连群的局部窗口,而不是一次总体优化所有叠连群。在一些情况下,通过使用在3、4、5或6范围内的窗口大小,在8、7、6、5、4、3、2小时或小于2小时内完成配置优化。对于更大的窗口大小,配置优化在几天直至一周内完成。
数字处理设备
在一些实施方案中,本文所述的叠连群装配方法包括数字处理设备或其使用。在另外的实施方案中,数字处理设备包含执行设备的功能的一个或多个硬件中央处理单元(CPU)。在另外的实施方案中,数字处理设备进一步包含被配置用于执行可执行指令的操作系统。在一些实施方案中,数字处理设备任选地与计算机网络连接。在另外的实施方案中,数字处理设备任选地与因特网连接,使得其访问万维网。在另外的实施方案中,数字处理设备任选地与云计算基础设施连接。在其他实施方案中,数字处理设备任选地与内联网连接。在其他实施方案中,数字处理设备任选地与数据存储设备连接。
根据本文的描述,举非限制性实例而言,合适的数字处理设备包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、小型笔记本计算机、上网本计算机(netbookcomputer)、上网平板计算机(netpad computer)、机顶计算机、流媒体设备、手持计算机、因特网应用器具、移动智能电话、平板计算机、个人数字助理、视频游戏控制台和载具。本领域技术人员将认识到,许多智能电话适用于在本文所述的系统中使用。本领域技术人员还将认识到,选择具有任选的计算机网络连接性的电视机、视频播放器和数字音乐播放器适用于在本文所述的系统中使用。合适的平板计算机包括本领域技术人员已知的具有手册、平板和可转换配置的平板计算机。
在一些实施方案中,数字处理设备包含被配置用于执行可执行指令的操作系统。操作系统为例如包括程序和数据的软件,其管理设备的硬件并提供用于执行应用的服务。本领域技术人员将认识到,合适的服务器操作系统举非限制性实例而言包括FreeBSD、OpenBSD、Linux、Mac OS XWindows和本领域技术人员将认识到,合适的个人计算机操作系统举非限制性实例而言包括Mac OS和类似于UNIX的操作系统如在一些实施方案中,操作系统由云计算提供。本领域技术人员还将认识到,合适的移动智能电话操作系统举非限制性实例而言包括OS、Research InBlackBerry WindowsOS、WindowsOS、和
在一些实施方案中,所述设备包括存储和/或存储器设备。所述存储和/或存储器设备是用于临时或永久存储数据或程序的一个或多个物理装置。在一些实施方案中,所述设备是易失性存储器,并且需要电力来维持存储的信息。在一些实施方案中,所述设备是非易失性存储器,并且当数字处理设备未供电时保留存储的信息。在另外的实施方案中,非易失性存储器包括闪速存储器。在一些实施方案中,非易失性存储器包括动态随机存取存储器(DRAM)。在一些实施方案中,非易失性存储器包括铁电随机存取存储器(FRAM)。在一些实施方案中,非易失性存储器包括相变随机存取存储器(PRAM)。任选地,该设备是存储设备,举非限制性实例而言包括CD-ROM、DVD、闪速存储器设备、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储。在另外的实施方案中,所述存储和/或存储器设备是诸如本文所公开的设备的组合。
一些数字处理设备包括向用户发送视觉信息的显示器,诸如阴极射线管(CRT)、液晶显示器(LCD)、薄膜晶体管液晶显示器(TFT-LCD)、有机发光二极管(OLED)显示器如无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器、等离子体显示器、视频投影仪或诸如本文公开的设备的组合。
通常,数字处理设备包括从用户接收信息的输入设备诸如键盘,定点设备,举非限制性实例而言包括鼠标、轨迹球、轨迹板、操纵杆、游戏控制器或触针。在一些实施方案中,输入设备是触摸屏或多点触摸屏、捕捉语音或其他声音输入的麦克风、或者捕捉运动或视觉输入的摄像机或其他传感器。在另外的实施方案中,输入设备为Kinect、Leap Motion等。通常,输入设备是设备诸如本文所公开的设备的组合。
非暂时性计算机可读存储介质
在一些实施方案中,本文公开的叠连群装配方法涉及一个或多个非暂时性计算机可读存储介质,其编码有包含可由任选联网的数字处理设备的操作系统执行的指令的程序。在另外的实施方案中,计算机可读存储介质是数字处理设备的有形组件。在另外的实施方案中,计算机可读存储介质任选地可从数字处理设备中移除。在一些实施方案中,计算机可读存储介质举非限制性实例而言包括CD-ROM、DVD、闪速存储器设备、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在一些情况下,程序和指令被永久、基本永久、半永久或非暂时地编码在介质上。
计算机程序
在一些实施方案中,本文公开的叠连群装配方法包括至少一种计算机程序或其使用。计算机程序包括被编写以执行指定任务的可在数字处理设备的CPU中执行的指令序列。计算机可读指令可作为执行特定任务或实现特定抽象数据类型的程序模块,诸如函数、对象、应用编程接口(API)、数据结构等而实现。根据本文提供的公开内容,本领域技术人员将认识到可用多种语言的多个版本来编写计算机程序。
计算机可读指令的功能可根据需要在多种环境中进行组合或分布。在一些实施方案中,计算机程序包含一个指令序列。在一些实施方案中,计算机程序包含多个指令序列。在一些实施方案中,从一个位置提供计算机程序。在其他实施方案中,从多个位置提供计算机程序。在多种实施方案中,计算机程序包含一个或多个软件模块。在多种实施方案中,计算机程序部分或全部地包括一个或多个网络应用、一个或多个移动应用、一个或多个独立应用、一个或多个网络浏览器插件、扩展、加载项(add-in)或附加组件(add-on)或其组合。
网络应用
在一些实施方案中,实现叠连群装配方法的计算机程序包括网络应用。根据本文提供的公开内容,本领域技术人员将认识到,在多种实施方案中,网络应用利用一个或多个软件框架和一个或多个数据库系统。在一些实施方案中,在软件框架(诸如.NET或Ruby on Rails(RoR))上创建网络应用。在一些实施方案中,网络应用利用一个或多个数据库系统,举非限制性实例而言包括关系型、非关系型、面向对象的、关联的和XML数据库系统。在另外的实施方案中,合适的关系型数据库系统举非限制性实例而言包括SQL Server、mySQLTM和本领域技术人员还将认识到,在多种实施方案中,网络应用采用一种或多种语言的一个或多个版本进行编写。网络应用可用一种或多种标记语言、呈现定义语言、客户端脚本语言、服务器端编码语言、数据库查询语言或其组合来编写。在一些实施方案中,网络应用在一定程度上以标记语言,诸如超文本标记语言(HTML)、可扩展超文本标记语言(XHTML)或可扩展标记语言(XML)进行编写。在一些实施方案中,网络应用在一定程度上以呈现定义语言诸如级联样式表(CSS)进行编写。在一些实施方案中,网络应用在一定程度上以客户端脚本语言,诸如异步Javascript和XML(AJAX)、Actionscript、Javascript或进行编写。在一些实施方案中,网络应用在一定程度上以服务器端编码语言,诸如动态服务器页面(Active Server Pages,ASP)、Perl、JavaTM、JavaServer Pages(JSP)、超文本预处理器(PHP)、PythonTM、Ruby、Tcl、Smalltalk、或Groovy进行编写。在一些实施方案中,网络应用在一定程度上以数据库查询语言,诸如结构化查询语言(SQL)进行编写。在一些实施方案中,网络应用集成了企业服务器产品,诸如Lotus在一些实施方案中,网络应用包括媒体播放器元素。在多种另外的实施方案中,媒体播放器元素利用许多合适的多媒体技术(举非限制性实例而言包括HTML 5、 JavaTM和)中的一种或多种。
移动应用
在一些实施方案中,实现本文公开的叠连群装配方法的计算机程序包括提供给移动数字处理设备的移动应用。在一些实施方案中,移动应用在制造时提供给移动数字处理设备。在其他实施方案中,移动应用经由本文所述的计算机网络提供给移动数字处理设备。
鉴于本文提供的公开内容,通过本领域技术人员已知的技术,使用本领域已知的硬件、语言和开发环境来创建移动应用。本领域技术人员将认识到移动应用采用多种语言进行编写。合适的编程语言举非限制性实例而言包括C、C++、C#、Objective-C、JavaTM、Javascript、Pascal、Object Pascal、PythonTM、Ruby、VB.NET、WML以及具有或不具有CSS的XHTML/HTML或其组合。
合适的移动应用开发环境可从多种来源获得。可商购获得的开发环境举非限制性实例而言包括AirplaySDK、alcheMo、Celsius、Bedrock、Flash Lite、.NET Compact Framework、Rhomobile和WorkLight Mobile Platform。其他开发环境可以免费获取,举非限制性实例而言包括Lazarus、MobiFlex、MoSync和Phonegap。此外,移动设备制造商发布软件开发工具包,举非限制性实例而言,包括iPhone和iPad(iOS)SDK、AndroidTMSDK、SDK、BREW SDK、OS SDK、Symbian SDK、webOS SDK和Mobile SDK。
本领域技术人员将认识到,多个商业论坛可用于移动应用的发布,举非限制性实例而言包括App Store、AndroidTMMarket、App World、用于Palm设备的App Store、用于webOS的App Catalog、用于移动设备的Marketplace、用于设备的Ovi Store、Apps和DSi Shop。
独立应用
在一些实施方案中,实现本文公开的叠连群装配方法的计算机程序包括独立应用,该应用是作为独立计算机进程运行的程序,而不是现有进程的附加(例如,不是插件)。本领域技术人员将认识到,独立应用经常被编译。编译器是将用编程语言编写的源代码转换为二进制目标代码(如汇编语言或机器代码)的计算机程序。合适的编译编程语言举非限制性实例而言包括C、C++、Objective-C、COBOL、Delphi、Eiffel、JavaTM、Lisp、PythonTM、Visual Basic和VB.NET或其组合。编译通常至少部分地被执行以创建可执行程序。在一些实施方案中,计算机程序包含一个或多个可执行编译应用。
网络浏览器插件
在一些实施方案中,叠连群装配方法包括网络浏览器插件。在计算中,插件是为较大软件应用添加特定功能的一个或多个软件组件。软件应用的制造商支持插件,以使第三方开发人员能够产生扩展应用的能力,以支持轻松添加新特征,并减小应用的大小。当支持时,插件能够实现自定义软件应用的功能。例如,插件通常用于网络浏览器中以播放视频、产生交互、扫描病毒和显示特定的文件类型。本领域技术人员将熟悉多种网络浏览器插件,包括Player、 和在一些实施方案中,工具栏包含一个或多个网络浏览器扩展、加载项或附加组件。在一些实施方案中,工具栏包含一个或多个浏览器栏、工具带或桌面带。
鉴于本文提供的公开内容,本领域技术人员将认识到,可获得多种插件框架来实现采用多种编程语言的插件开发,该编程语言举非限制性实例而言包括C++、Delphi、JavaTM、PHP、PythonTM和VB.NET或其组合。
网络浏览器(也称为因特网浏览器)是被设计用于与联网的数字处理设备一起使用的软件应用,用于在万维网上检索、呈现和遍历信息资源。合适的网络浏览器举非限制性实例而言包括InternetChrome、Opera和KDE Konqueror。在一些实施方案中,网络浏览器是移动网络浏览器。移动网络浏览器(也称为微型浏览器、迷你浏览器和无线浏览器)被设计用于在移动数字处理设备上使用,该移动数字处理设备举非限制性实例而言包括手持计算机、平板计算机、上网本计算机、小型笔记本计算机、智能电话、音乐播放器、个人数字助理(PDA)和手持视频游戏系统。合适的移动网络浏览器举非限制性实例而言包括浏览器、RIM浏览器、 Blazer、浏览器、用于移动设备的 InternetMobile、Basic Web、浏览器、OperaMobile和PSPTM浏览器。
软件模块
在一些实施方案中,本文公开的叠连群装配方法包括软件、服务器和/或数据库模块或其使用。鉴于本文提供的公开内容,通过本领域技术人员已知的技术,使用本领域已知的机器、软件和语言来创建软件模块。本文公开的软件模块以多种方式实现。在多种实施方案中,软件模块包括文件、代码段、编程对象、编程结构或其组合。在另外的多种实施方案中,软件模块包括多个文件、多个代码段、多个编程对象、多个编程结构或其组合。在多种实施方案中,一个或多个软件模块举非限制性实例而言包括网络应用、移动应用和独立应用。在一些实施方案中,软件模块在一个计算机程序或应用中。在其他实施方案中,软件模块在多于一个计算机程序或应用中。在一些实施方案中,软件模块被托管在一个机器上。在其他实施方案中,软件模块被托管在多于一个机器上。在另外的实施方案中,软件模块被托管在云计算平台上。在一些实施方案中,软件模块被托管在位于一个位置的一个或多个机器上。在其他实施方案中,软件模块被托管在位于多于一个位置的一个或多个机器上。
数据库
在一些实施方案中,本文公开的叠连群装配方法包括一个或多个数据库或其使用。鉴于本文提供的公开内容,本领域技术人员将认识到许多数据库适用于叠连群信息的存储和检索。在多种实施方案中,合适的数据库举非限制性实例而言包括关系型数据库、非关系型数据库、面向对象的数据库、对象数据库、实体关系模型数据库、关联数据库和XML数据库。在一些实施方案中,数据库是基于互联网的。在另外的实施方案中,数据库是基于网络的。在另外的实施方案中,数据库是基于云计算的。在其他实施方案中,数据库基于一个或多个本地计算机存储设备。
诊断应用
本文的系统和方法适用于药物或其他治疗方案的选择或评估。通过本文公开内容的实践,对诸如癌症组织等组织进行评估,以确定指示候选药物的结构重排。例如,局部密度变异或局部密度变异模式在一些情况下指示特定的一个或多个基因的变化。例如,分析中牵涉的重排可能涉及基因截短、缺失或融合,从而形成已知或怀疑对特定疗法有反应的基因组背景。进行指示治疗策略的分析,并对药物进行指示。通常,将药物或其他治疗方案推荐给医疗专业人员或患者,或将其应用于患者,以解决与所分析样品有关的医疗状况。
替代地或组合地,本文公开的系统和方法用于监测应用于个体的药物或其他治疗方案的成功性,所述个体诸如进行治疗的疾病牵涉基因组重排的个体。如本文公开获得并分析样品,以鉴定局部密度模式。通常但一定地,局部密度变异牵涉与疾病相关的特定基因组重排,提示治疗方法,或指示疾病进展(诸如通过样品中重排的丰度)。进行诸如药物治疗等治疗方案(单独地或者与其他治疗步骤或不涉及药物的其他步骤相结合),以治疗或减轻病况的症状。如本文公开获得并分析第二样品,以鉴定局部密度模式。将该模式或所得分析与治疗方案之前或早期观察到的模式或分析进行比较,以评估方案的功效,诸如药物在减少肿瘤中特定重排的丰度方面的功效,或者外科干预或其他治疗方案在切除或减少怀疑是特定组织疾病(诸如癌症肿瘤)的病因或与特定组织疾病相关的组织方面的功效。评估不同地包括停止治疗方案、减少治疗方案、启动第二治疗方案、保持治疗方案不变、增加治疗方案、用监测代替治疗方案或其他方案输入。
与本公开内容有关的编号实施方案
通过参考以下编号实施方案进一步阐明本公开内容,这些编号实施方案以数字顺序给出,但是除了由以下数字指示的相互关系之外,还应当理解为易于相互关联并且与说明书的其余部分相互关联。给出编号实施方案以进一步阐明本文的公开内容并支持引用实施方案的主题的权利要求。1.一种核酸结构变体检测的方法,包括:a)将读取对信息映射到参考核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;以及c)基于第一箱元的可映射性值估计拷贝数变异。2.根据实施方案1所述的方法,进一步包括使拷贝数变异归一化。3.根据实施方案1所述的方法,进一步包括通过绘制两个样品针对彼此的映射读取密度来显示可映射性。4.一种核酸结构变体检测的方法,包括:a)将读取对信息映射到参考核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;c)生成读取对信息的二维图像;其中每个像素代表箱元;d)为图像中至少一组共享公共角落的四个像素计算z评分;其中所述z评分由相邻像素之间的对比表示;以及e)当z评分超过阈值时鉴定候选命中。5.根据实施方案1-4中任一项所述的方法,其中所述参考核酸支架是基因组。6.根据实施方案1-4中任一项所述的方法,其中每个数据集从不同的配对末端读取方向获得。7.根据实施方案1-4中任一项所述的方法,其中所述候选命中是易位。8.根据实施方案1-4中任一项所述的方法,其中所述候选命中是倒位。9.根据实施方案1-4中任一项所述的方法,其中所述候选命中是缺失。10.根据实施方案1-4中任一项所述的方法,其中所述候选命中是重复。11.根据实施方案1-4中任一项所述的方法,其中所述候选命中是染色体间结构变异。12.一种用于对样品中等位基因变异的混合物进行建模的系统,包含:加权基因组支架模型的集合,其中每个基因组支架模型包括加权染色体的集合,其中每个染色体是所述基因组支架中箱元的线性图;以及用于计算至少两个基因组支架模型的对数似然比的模块,以预测由文库采样的读取对是否将落入箱元中。13.根据实施方案1-12中任一项所述的系统,进一步包含至少一个特征检测器模块,其中所述至少一个特征检测器模块提出对所述基因组支架模型的候选修饰。14.根据实施方案1-13中任一项所述的系统,其中所述至少一个特征检测器模块确定序列变体的箱元边界。15.根据实施方案1-14中任一项所述的系统,其中所述序列变体是易位。16.根据实施方案1-14中任一项所述的系统,其中所述序列变体是倒位。17.根据实施方案1-14中任一项所述的系统,其中所述序列变体是缺失。18.根据实施方案1-14中任一项所述的系统,其中所述序列变体是重复。19.根据实施方案1-12中任一项所述的系统,进一步包含基于来自所述至少一个特征检测器模块的输入生成替代模型的模块。20.一种用于对样品中的等位基因变异进行建模的方法,包括:a)生成加权基因组支架模型的集合,其中每个基因组支架模型包括加权染色体的集合,其中每个染色体是所述基因组支架中箱元的线性图;b)基于模型描述映射到参考序列上的读取对测序信息的能力来计算评分,其中较高的评分值指示更具预测性的模型;以及c)迭代地添加附加模型以使所述评分值最大化。21.根据实施方案1-20中任一项所述的方法,其中所述读取对测序信息包括倒位。22.根据实施方案1-20中任一项所述的方法,其中所述读取对测序信息包括易位。23.根据实施方案1-20中任一项所述的方法,其中所述读取对测序信息包括重复。24.根据实施方案1-20中任一项所述的方法,其中所述读取对测序信息包括缺失。25.根据实施方案1-21中任一项所述的方法,进一步包括检测特征,其中检测特征包括在所述模型中接合或分离箱元以增加所述评分值。26.根据实施方案1-20中任一项所述的方法,其中所述样品是癌细胞。27.一种核酸结构变体检测的方法,包括:a)将读取对信息映射到预测的核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;c)生成读取对信息的二维图像;其中每个像素代表箱元;以及d)鉴定二维图像中对应于通过共同的连接序列片段连接的两个序列片段的至少一个特征。28.根据实施方案1-27中任一项所述的方法,包括以正确的顺序装配所述通过共同的连接序列片段连接的两个序列片段。29.根据实施方案1-27中任一项所述的方法,其中所述方法包括丢弃对应于假阳性的特征。30.一种方法,包括:将读取对序列信息映射到序列支架上;以及鉴定如此映射的多个读取对符号的密度的局部变异。31.根据实施方案1-30中任一项所述的方法,包括将所述密度的局部变异分配给相应的结构布置特征。32.根据实施方案1-30中任一项所述的方法,包括重构所述序列支架,从而减小所述密度的局部变异。33.根据实施方案1-30中任一项所述的方法,其中将读取对序列信息映射到序列支架上包括定位指示读取对的符号,使得所述符号与代表所述序列支架的轴的距离指示从所述序列支架上的读取对的第一读取的映射位置到所述序列支架上的所述读取对的第二读取的映射位置的距离,并且使得所述符号相对于代表所述序列支架的轴的位置指示所述读取对的所述第一读取的所述映射位置和所述读取对的所述第二读取的所述映射位置的平均值。34.根据实施方案1-31中任一项所述的方法,其中重构所述序列支架包括重新排序所述序列支架的至少一些叠连群。35.根据实施方案1-31中任一项所述的方法,其中重构所述序列支架包括重新定向所述序列支架的至少一个叠连群。36.根据实施方案1-31中任一项所述的方法,其中重构所述序列支架包括将断裂引入所述序列支架的至少一个叠连群中。37.根据实施方案1-36中任一项所述的方法,进一步包括将存在于所述断裂的一个边缘处的序列引入到所述断裂的第二边缘上。38.根据实施方案1-30中任一项所述的方法,其中重构所述序列支架包括将第一叠连群的区段易位到第二叠连群的内部区域中。39.根据实施方案1-30中任一项所述的方法,其中将读取对序列信息映射到序列支架上包括将读取对信息分配给多个箱元。40.根据实施方案1-30中任一项所述的方法,其中鉴定密度的局部变异包括鉴定具有符号的局部低密度的区域。41.根据实施方案1-30中任一项所述的方法,其中鉴定密度的局部变异包括鉴定具有符号的局部高密度的区域。42.根据实施方案1-30中任一项所述的方法,其中鉴定密度的局部变异包括鉴定第一位置处的密度和第二位置处的密度,其中所述第一位置处的密度和所述第二位置处的密度显著不同。43.根据实施方案1-42中任一项所述的方法,其中所述第一位置和所述第二位置是相邻的。44.根据实施方案1-42中任一项所述的方法,其中所述第一位置和所述第二位置与所述序列支架等距。45.根据实施方案1-30中任一项所述的方法,其中鉴定密度的局部变异包括获得第一位置处的预期密度和所述第一位置处的观察密度。46.根据实施方案1-45中任一项所述的方法,其中所述第一位置处预期密度是由密度梯度预测的密度,所述密度梯度随着与代表所述序列支架的所述轴的距离增加而单调降低。47.根据实施方案1-30中任一项所述的方法,其中等于样品的倍性的整数值的一部分的局部密度变异指示该比例中样品倍性补充的事件。48.根据实施方案1-30中任一项所述的方法,其中所述支架代表癌细胞基因组。49.根据实施方案1-30中任一项所述的方法,其中所述支架代表转基因细胞基因组。50.根据实施方案1-30中任一项所述的方法,其中所述支架代表基因编辑的基因组。51.根据实施方案1-32中任一项所述的方法,其中所述支架在所述重构后具有增加至少20%的N50。52.一种方法,包括:获得包含序列支架信息的支架;获得配对读取信息;部署所述配对读取信息,使得描绘至少一些读取对信息,以指示读取对中每个读取相对于所述支架的位置,并指示映射在所述支架上的一个读取到另一个读取的距离;以及鉴定所部署的所述配对读取信息的密度的局部变异。53.根据实施方案1-52中任一项所述的方法,包括将所述密度的局部变异分配给相应的结构布置特征。54.根据实施方案1-52中任一项所述的方法,包括重新配置所述支架以减小所述局部变异。55.根据实施方案1-52中任一项所述的方法,其中获得包含序列支架信息的支架包括对核酸样品进行测序。56.根据实施方案1-52中任一项所述的方法,其中获得包含序列支架信息的支架包括接收代表核酸样品的数字信息。57.根据实施方案1-52中任一项所述的方法,包括对于部署的读取对信息获得预测密度分布。58.根据实施方案1-57中任一项所述的方法,其中所述鉴定包括鉴定所述预测密度分布与所述描绘的读取对信息密度之间的显著差异。59.根据实施方案1-52中任一项所述的方法,其中鉴定局部变异包括鉴定在直角的顶点处具有密度峰值的密度扰动。60.根据实施方案1-59中任一项所述的方法,其中所述直角的所述顶点指向代表所述支架的轴。61.根据实施方案1-52中任一项所述的方法,其中获得配对末端读取信息包括交联未提取的核酸。62.根据实施方案1-52中任一项所述的方法,其中获得配对末端读取信息包括交联染色质中结合的核酸。63.根据实施方案1-62中任一项所述的方法,其中所述染色质是天然染色质。64.根据实施方案1-52中任一项所述的方法,其中获得配对末端读取信息包括将核酸结合至核酸结合部分。65.根据实施方案1-52中任一项所述的方法,其中获得配对末端读取信息包括生成重构染色质。66.根据实施方案1-52中任一项所述的方法,其中部署所述配对读取信息包括将读取对信息分配给多个箱元。67.根据实施方案1-52中任一项所述的方法,其中重构所述序列支架包括重新排序所述序列支架的至少一些叠连群。68.根据实施方案1-54中任一项所述的方法,其中重构所述序列支架包括重新定向所述序列支架的至少一个叠连群。69.根据实施方案1-54中任一项所述的方法,其中重构所述序列支架包括将断裂引入所述序列支架的至少一个叠连群中。70.根据实施方案1-69中任一项所述的方法,进一步包括将所述断裂的一个边缘处的序列引入到所述断裂的第二边缘上。71.根据实施方案1-54中任一项所述的方法,其中重构所述序列支架包括将第一叠连群的区段易位到第二叠连群的内部区域中。72.根据实施方案1-52中任一项所述的方法,其中所述支架代表癌细胞基因组。73.根据实施方案1-52中任一项所述的方法,其中所述支架代表转基因细胞基因组。74.根据实施方案1-52中任一项所述的方法,其中所述支架代表基因编辑的基因组。75.根据实施方案1-52中任一项所述的方法,其中所述支架在所述重构后具有增加至少20%的N50。76.根据实施方案1-52中任一项所述的方法,其中等于样品的倍性的整数值的一部分的局部密度变异指示该比例中样品倍性补充的事件。77.一种鉴定样品中相对于序列支架的结构重排的方法,包括:将读取对序列信息映射到序列支架上;鉴定局部密度变异,所述局部密度变异具有指向对应于所述序列支架的轴的直角边并且沿着平分所述直角边的线具有双侧对称性;以及将所述样品分类为相对于所述序列支架具有简单易位,所述序列支架包含距离易位点至少与所述局部密度变异的最长最远映射读取一样长的区段长度。78.一种鉴定样品中的结构重排的方法,包括:将读取对序列信息映射到序列支架上;鉴定局部密度变异,所述局部密度变异具有指向对应于所述序列支架的轴的直角边;鉴定所述局部密度变异的子区域,所述子区域沿着平分所述直角边的线破坏双侧对称性;以及将所述样品归类为相对于所述序列支架具有易位,所述序列支架包含缺乏对称性恢复性读取对群体将映射到的序列的区段。79.一种鉴定样品中相对于序列支架的结构重排的方法,包括:将读取对序列信息映射到序列支架上;鉴定局部密度变异,所述局部密度变异具有指向对应于所述序列支架的轴的直角边;获得预期读取对密度分布曲线;以及鉴定包含所述局部密度变异的读取对映射到的支架区段;重新定位所述支架区段,使得包含所述局部密度变异的所述读取对映射到由所述预期读取对密度分布曲线指示的区域,以得到所述局部密度变异的密度。80.一种计算机监视器,其被配置为显示根据实施方案1-79中任一项所述的方法的结果。81.一种计算机系统,其被配置为执行根据实施方案1-79中任一项所述的方法的计算步骤。82.一种根据实施方案1-79中任一项所述的映射的读取对数据的视觉表示。83.一种核酸结构变体检测的方法,包括:将读取对信息映射到预测的核酸支架上;获得结构变体假设;计算所述结构变体假设与所述读取对信息符合的似然参数;以及如果所述假设的所述似然参数大于第二假设的第二似然参数,则将所述核酸样品归类为具有所述结构变体假设,其中将读取对信息映射到预测的核酸支架上包括向读取对分配读取对位置,使得所述读取对在一个轴上被分配给其在所述预测的核酸支架上的中点;并使得为所述读取对分配对应于其在第二轴上的读取对间隔的值。84.根据实施方案1-83中任一项所述的方法,其中所述读取对包括映射到核酸分子的第一区域的第一区段和映射到所述核酸分子的第二区域的第二区段,所述第一区段和所述第二区段不相邻并且共享共同的相位。85.根据实施方案1-83中任一项所述的方法,其中如果读取对中点落入第一箱元核酸位置范围内并且读取对间隔落入第一箱元间隔范围内,则将所述读取对位置分配给第一箱元。86.根据实施方案1-85中任一项所述的方法,其中所述第一箱元核酸位置范围是所述预测的核酸支架的规则间距。87.根据实施方案1-85中任一项所述的方法,其中所述第一箱元间隔范围是所述读取对信息的完整间隔范围的对数间距。88.根据实施方案1-85中任一项所述的方法,其中所述第一箱元核酸范围是核酸支架的规则间距,并且其中第一箱元间隔范围是所述读取对信息的完整间隔范围的对数间距。89.根据实施方案85-88中任一项所述的方法,其中如果读取对中点落入第二箱元核酸位置范围内并且读取对间隔落入第二箱元间隔范围内,则将所述读取对位置分配给第二箱元。90.根据实施方案1-89中任一项所述的方法,其中基本上所有读取信息都被分箱。91.根据实施方案85-90中任一项所述的方法,其中计算所述似然参数包括确定所述第一箱元的似然贡献。92.根据实施方案1-91中任一项所述的方法,其中所述第一箱元的似然贡献包括与映射到所述第一箱元的所述读取对的计数成比例的第一似然因子。93.根据实施方案1-91中任一项所述的方法,其中所述第一箱元的似然贡献包括与所述第一箱元的面积成比例的第二似然因子。94.根据实施方案1-91中任一项所述的方法,其中所述第一箱元的似然贡献包括与映射到所述第一箱元的所述读取对的计数成比例的第一似然因子,并且其中所述第一箱元的似然贡献包括与所述第一箱元的面积成比例的第二似然因子。95.根据实施方案1-94中任一项所述的方法,包括确定在面积上不与所述第一箱元重叠的第二箱元的似然贡献。96.根据实施方案1-95中任一项所述的方法,其中所述似然参数包括所述第一箱元的似然贡献和所述第二箱元的似然贡献。97.根据实施方案1-96中任一项所述的方法,其中所述似然参数包括第三箱元的似然贡献。98.根据实施方案1-97中任一项所述的方法,其中所述似然参数包括对于基本上所有分箱的读取对信息的似然贡献。99.根据实施方案78-98中任一项所述的方法,其中所述假设包括具有左边缘和长度的结构变异。100.根据实施方案1-99中任一项所述的方法,其中所述结构变异具有缺失、倒位、同向重复、向外反向重复和向内反向重复中的至少一种的取向。101.根据实施方案99-100中任一项所述的方法,其中所述第二假设包括左边缘、长度和结构取向中的至少一种有所不同的结构变体。102.根据实施方案1-101中任一项所述的方法,其中所述核酸结构变体在所述核酸样品中是纯合的。103.根据实施方案78-101中任一项所述的方法,其中所述核酸结构变体在所述核酸样品中是杂合的。104.一种显示核酸样品中的推定结构变异的方法,包括以下步骤:将序列读取的群体分配给编号箱元的群体,以及分配包含落入所述箱元群体的第一箱元内的结构变异边缘的读取的似然参数,其中所述第一箱元的所述似然参数包括第一似然组分和第二组分,所述第一似然组分包括映射到所述第一箱元的读取数目,所述第二组分包括所述第一箱元的面积。105.根据实施方案1-104中任一项所述的方法,包括根据箱元数目绘制结构变异的似然。106.根据实施方案1-104中任一项所述的方法,其中所述第一箱元的所述似然参数包括第一似然组分和第二组分的卷积,所述第一似然组分包括映射到所述第一箱元的读取数目,所述第二组分包括所述第一箱元的面积。107.根据实施方案1-106中任一项所述的方法,其中所述似然参数包括将结构变体预测与映射到所述第一箱元的读取数目相关联的似然组分和包括所述第一箱元的面积的似然组分。108.根据实施方案1-104中任一项所述的方法,其中所述箱元群体共享跨越固定核酸距离的共同箱元宽度。109.根据实施方案1-104中任一项所述的方法,其中所述箱元群体的成员之间在箱元高度方面有所变化。110.根据实施方案1-109中任一项所述的方法,其中当在对数轴上绘制时,箱元高度似乎恒定。111.根据实施方案1-104中任一项所述的方法,其中似然参数涉及包含具有左边缘和长度的结构变异的接头的序列读取映射到所述第一箱元的概率。112.根据实施方案1-111中任一项所述的方法,其中所述结构变异具有缺失、倒位、同向重复、向外反向重复和向内反向重复中的至少一种的取向。113.根据实施方案1-104中任一项所述的方法,其中所述序列读取包括读取对。114.根据实施方案1-113中任一项所述的方法,其中读取对包括映射到核酸分子的第一区域的第一区段和映射到所述核酸分子的第二区域的第二区段,所述第一区段和所述第二区段不相邻并且共享共同的相位。115.一种鉴定核酸样品中的结构变体的方法,包括以下步骤:获得所述核酸样品的映射读取对数据;获得核酸支架序列;对于将所述读取对数据与所述核酸支架序列进行比较的多个结构变体假设中的每一个获得似然概率信息;以及鉴定所述结构变体假设中最可能的假设;其中所述方法每分钟评价至少10Mb的核酸支架序列。116.根据实施方案1-115中任一项所述的方法,包括将读取对信息映射到所述核酸支架序列上;获得结构变体假设;计算所述结构变体假设与所述读取对信息符合的似然参数;以及如果所述假设的似然参数大于第二假设的第二似然参数,则将所述核酸样品归类为具有所述结构变体假设。117.根据实施方案1-116中任一项所述的方法,其中将读取对信息映射到所述核酸支架序列上包括:向读取对分配读取对位置,使得所述读取对在一个轴上被分配给其在所述预测核酸支架上的中点;并且所述读取对被分配对应于其在第二轴上的读取对间隔的值。118.根据实施方案116-112中任一项所述的方法,其中所述读取对包括映射到核酸分子的第一区域的第一区段和映射到所述核酸分子的第二区域的第二区段,所述第一区段和所述第二区段不相邻并且共享共同的相位。119.根据实施方案1-117中任一项所述的方法,其中如果读取对中点落入第一箱元核酸位置范围内并且读取对间隔落入第一箱元间隔范围内,则将所述读取对位置分配给第一箱元。120.根据实施方案1-119中任一项所述的方法,其中所述第一箱元核酸位置范围是核酸支架的规则间距。121.根据实施方案1-119中任一项所述的方法,其中第一箱元间隔范围是所述读取对信息的完整间隔范围的对数间距。122.根据实施方案1-119中任一项所述的方法,其中所述第一箱元核酸位置范围是核酸支架的规则间距,并且其中第一箱元间隔范围是所述读取对信息的完整间隔范围的对数间距。123.根据实施方案119-122中任一项所述的方法,其中如果读取对中点落入第二箱元核酸位置范围内并且读取对间隔落入第二箱元间隔范围内,则将所述读取对位置分配给第二箱元。124.根据实施方案1-123中任一项所述的方法,其中基本上所有读取信息都被分箱。125.根据实施方案119-119中任一项所述的方法,其中计算所述似然参数包括确定所述第一箱元的似然贡献。126.根据实施方案1-125中任一项所述的方法,其中所述第一箱元的似然贡献包括与映射到所述第一箱元的所述读取对的计数成比例的第一似然因子。127.根据实施方案1-120中任一项所述的方法,其中所述第一箱元的似然贡献包括与所述第一箱元的面积成比例的第二似然因子。128.根据实施方案1-120中任一项所述的方法,其中所述第一箱元的似然贡献包括与映射到所述第一箱元的所述读取对的计数成比例的第一似然因子,并且其中所述第一箱元的似然贡献包括与所述第一箱元的面积成比例的第二似然因子。129.根据实施方案1-123中任一项所述的方法,包括确定在面积上不与所述第一箱元重叠的第二箱元的似然贡献。130.根据实施方案1-124中任一项所述的方法,其中所述似然参数包括所述第一箱元的似然贡献和所述第二箱元的似然贡献。131.根据实施方案1-130中任一项所述的方法,其中所述似然参数包括第三箱元的似然贡献。132.根据实施方案1-126中任一项所述的方法,其中所述似然参数包括对于基本上所有分箱的读取对信息的似然贡献。133.根据实施方案115-127中任一项所述的方法,其中所述假设包括具有左边缘和长度的结构变异。134.根据实施方案1-128中任一项所述的方法,其中所述结构变异具有缺失、倒位、同向重复、向外反向重复和向内反向重复中的至少一种的取向。135.根据实施方案134-129中任一项所述的方法,其中所述第二假设包括左边缘、长度和结构取向中的至少一种有所不同的结构变体。136.根据实施方案111-130中任一项所述的方法,其中所述核酸结构变体在所述核酸样品中是纯合的。137.根据实施方案111-130中任一项所述的方法,其中所述核酸结构变体在所述核酸样品中是杂合的。138.一种选择治疗方案的方法,包括:执行前述实施方案中任一项所述的方法,鉴定重排,以及鉴定与所述重排符合的治疗方案。139.根据实施方案1-133中任一项所述的方法,其中所述治疗方案包括药物施用。140.根据实施方案1-133中任一项所述的方法,其中所述治疗方案包括组织切除。141.一种评价治疗方案的方法,包括:执行前述实施方案中任一项所述的方法第一时间,施用所述治疗方案,以及执行所述治疗方案第二时间。142.根据实施方案1-136中任一项所述的方法,包括中止所述治疗方案。143.根据实施方案1-136中任一项所述的方法,包括增加所述治疗方案的剂量。144.根据实施方案1-136中任一项所述的方法,包括减少所述治疗方案的剂量。145.根据实施方案1-136中任一项所述的方法,包括继续所述治疗方案。146.根据实施方案136-140中任一项所述的方法,其中所述治疗方案包括药物。147.根据实施方案136-140中任一项所述的方法,其中所述治疗方案包括外科手术干预。
附图的讨论
在图1中观察到用于处理配对末端读取数据的方法的8个步骤的示例性工作流程。示例性步骤包括读取映射(将来自一个个体的配对序列读取针对参考进行映射)、读取分箱(通过一个或多个性质对读取分组)、拷贝数估计(拷贝数变异,CNV)、归一化、从头特征检测、断裂点细化、候选者评分和报告。在一些情况下,步骤在分析配对末端读取数据时被重复或完全跳过。
在图2A-图2C中观察到对的绘图,每个图具有箱元,在x轴上对应于映射的读取对的中点位置范围,其标度为0到12000个碱基,增量为20,000bp,并且在Y轴上对应于估计拷贝数,具有0.1到10之间的对数标度。对于图2A中的参考样品CT407(顶部)、图2B中的CT418(顶部)和图2C中的CT416,大多数碱基以单拷贝的形式存在,由垂直轴中心的高标绘密度区域表示。由图2A中的底部图CT410和图2B中的CT417表示的样品显示出距离1的显著偏差,其中箱元具有多于或少于一个拷贝数。例如,样品CT410对于约10,000至10,500碱基处的箱元具有拷贝数增加。图2D示出了二维散点图,其在x轴上具有样品CT410的拷贝数,并且在y轴上具有CT407的拷贝数,每个点代表每个样品中对应箱元的拷贝数。大多数点集中在y=x对角线上的坐标(1,1)处,这对应于两个样品中该箱元处的单个拷贝。不落在对角线附近的点表示两个样品之间的拷贝数有显著差异。例如,与CT407相比,对应于(100,10)的点表示的箱元在CT410中的拷贝数具有10倍的增加。
在图3A中观察到对于样品NA12878的染色体7的图,在x轴上为映射的读取对的中点位置,其标度为5.31×107至5.36×107个碱基对,增量为0.01×107,并且在y轴上绘制读取对间隔,标度为0到200,000个碱基(增量为20,000个碱基)。该图未显示任何明显的结构变异,这由大多数点在y轴上落在0附近来证明。这表明大多数读取对对应于支架上的相邻区段。在图3B和图3C中,示出了5.41×107至5.46×107的x轴标度以及0至200,000(增量为20,000个碱基)和100至100,000(对数标度)的y轴标度。在这些图中,观察到在约5.42×107和5.44×107个碱基之间存在倒位,其中数据中存在空位。在图3D中,观察到位于位置a和b之间的倒位的示例性描绘,其中大约一半的点(灰色)保持在轴附近,而另一半反映在位置a和b之间的中点上方。在该实例中,保持在轴附近的浅色点指示杂合倒位,其中一对中仅一个染色体倒位。在一些情况下,图旋转45度,其中x轴位于y=-x对角线上。
在图4A中观察到各种结构变异的实施例,其表现为将映射的读取对重新分配给由与x轴成45度角的线形成的区域中。图4B描绘了用于定义由与轴成45度角的线形成的密度区域的数字系统。图4C-图4G描绘了对于各种结构变异定义密度区域的示例性方法。在一些情况下,密度区域创建内核模式。所定义的模式不同地用于预测密度变异,该密度变异指示映射的读取对数据与支架之间的偏差。例如,在一些情况下,图4C、图4D、图4E、图4F和图4G分别定义了预期的缺失、倒位、同向串联重复、反向串联重复(右)或反向串联重复(左)的局部密度变化区域。在各个图的左侧示出了用于定义区域0-3中的每个区域的密度的预测变化的示例性方程。
在图5A中观察到预测的结构变异的图,该图包括200碱基对箱元的数目的x轴,标度为0至80,000,间隔为10,000,y轴表示对数似然比(LLR),标度为-250至150,间隔为50。在一些情况下,对数似然比表示发生结构变异的可能性与未发生结构变异的可能性的比。较高的值表示更有可能变异,例如,在约箱元36000处观察到的尖峰对应于已知的倒位。在图5B中观察到预测的结构变异的图,该图包括200碱基对箱元的数目的x轴,标度为0至80,000,间隔为10,000,y轴表示对数似然比(LLR),标度为-120至40,间隔为20。在该实例中,在约55000至68000的箱元之间的相对负值指示存在10Kb的杂合缺失。在图5C中观察到预测的结构变异的图,该图包括200碱基对箱元的数目的x轴,标度为0至80,000,间隔为10,000,y轴表示对数似然比(LLR),标度为-100至60,间隔为20。在该实例中,在约55000至68000的箱元之间的相对负值指示存在26Kb的杂合重复(L)。
在图6A和图6B中,观察到示例性的读取分布模式,其在一些情况下描绘了相互易位,在这种情况下为正方形,被分成四个区域。在一些情况下,该模式是内核或特征。在这种情况下,读取密度分布在由两条线的交叉形成的对角线区域中。在图6C中,观察到描绘为前景(fg)和背景(bg)区域的区域,将它们作为fg与bg的比率进行比较以在一些情况下建立z评分。z评分通常用于从噪声鉴定特征。在图6D中,观察到映射在支架上的读取对数据的图,其中特征被鉴定(圈出)。在一些情况下,读取密度较高或较低的区域不反映在正方形的中心(右上的圆),相比之下,左下的特征显示反映在正方形的中心的密度。在该实例中,读取对密度以45度角的梯度远离正方形中心(在该处发现最高密度)降低。在一些情况下,左下由两个圈出的特征表示的“蝴蝶结”结构对应于易位。
在图7中,观察到映射到支架上的读取对的图像,图示了染色体内重排,如偏离对角线y=-x轴的读取密度异常高或低的区域所显示。这些位于偏离对角线轴的区域对应于由比读取长的距离间隔开的映射的读取对,表明支架装配体中存在潜在的偏差。
在图8A中,观察到“二级连接”装配情况的图示,其中仅通过分析一级读取对,可能有两种不同的装配结果。每组中箭头上方的三个序列对应于天然序列布置(支架):序列a-b、c-d-e和f-g。然而,序列中片段的重排(用箭头表示)导致两种潜在的排列:a-d-e和c-d-g,或者a-d-g,它们通过一级读取对分析无法区分,因为这两种潜在的重排都会导致重排序列的读取对将片段a映射到d,并将d映射到g。在图8B中,观察到描绘了映射到支架的读取对数据的图示,其中在轴上的数据未示出。鉴定出两个特征(带有阴影的框表示读取对密度,在框中,强度沿远离对角线轴延伸的梯度成直角递减,用彼此接触的较小和较大圆的符号标记)。片段a-g按字母顺序的线性布置用作支架。来自两个“离轴”特征的读取对数据指示片段a-d和d-g之间的连接。此外,缺少同心圆标记的信号指示片段a和g未通过间插序列d连接。在图8C处,观察到相似的图,描绘了a-d-g连接的预期模式。a-d和d-g的连接性由在小圆圈符号和大圆圈符号处鉴定的特征来图示。尽管片段a和g没有直接连接,但观察到对应于桥接间插序列d的读取对的阴影区域,并且不存在对应于a-f和c-g的特征(同心圆),这进一步支持了a-d-g连接性的假设。在图8D中,观察到类似的图,描绘了a-d-g连接的预期模式,其中关键特征在阴影框中可见。在一些情况下,对应于a-g的“桥接”特征指示片段a和g之间的假阳性融合判定。在其他情况下,d-g处的特征指示假阳性融合判定,其中d-g中片段d的左侧没有其他片段。在图8E处,观察到示出了混合物中的读取对的丰度(g)和间隙大小/距离(γ)如何预测密度(轮廓线)的预期变化的图。例如,左图描绘了当读取对(g)之间的距离较小且丰度较低时读取密度(从轮廓线的中间)快速降低。右图描绘了当读取对(g)之间的距离较大且丰度较高时读取密度(从轮廓线的中间)快速降低。在一些情况下,读取密度降低的速率用于预测序列片段之间的阻断边缘。例如,与一个内核相邻的读取密度的急剧而快速的降低指示缺少相邻内核。在一些情况下,区域的预期读取密度的比较用于最大程度地减少假阳性内核判定。通常,推定的内核将具有高于末端片段(仅连接到一个附加片段)的预期的读取密度,并且因此将不鉴定为末端片段。替代地,推定的内核将具有小于融合事件的预期的读取密度,并且因此将不鉴定为融合事件。在一些情况下,密度的快速降低被称为“阶梯”,与密度的逐渐变化形成对比。预期密度也可以通过几何考虑因素(诸如对称性)来定义或描述。例如,读取密度的对称变化指示与支架模型孤立的偏差,其中读取密度的不对称变化任选地指示存在另外的邻近偏差。
在图9中,观察到来自映射到支架上的两个基因的读取对的图像,图示了结构变异,如偏离对角线y=-x轴的读取密度异常高或低的区域所显示。右上和左下框区域中的蝴蝶结状密度分布指示基因ETV6和NTRK3之间的相互易位。
在图10A-图10C中,观察到在三个不同样品中比较的相同染色体对的基于图像分析的结果。圈出的区域对应于代表结构变异的鉴定特征。
在图11A-图11C中,观察到描绘了染色体1对染色体7(图11A)、染色体2对染色体5(图11B)以及染色体1对染色体1(图11C)的归一化读取密度中值(在10个样品上)的图像。
在图12A和图12B中,观察到描绘了用于映射的读取对数据的各种箱元处理方法的图像,该方法将读取对放入组中。图12A示出了相等的箱元大小,而图12B示出了箱元插值。
在图13中,观察到描绘了全基因组扫描分析管线的图像,其中已鉴定的特征对应于结构变异。通过分析管线进行的样品判定以白色圆圈显示。图13示出了染色体3对染色体6的图,具有250k箱元。
在图14A中,观察到对于通过本公开内容的技术分析的保存的样品(例如,FFPE样品),在特定范围内的插入片段的概率相对于以碱基对(bp)为单位的插入距离的图。在图14B中,观察到使用Chicago方法分析的样品的类似图。在这两个图中,x轴显示插入距离(bp),从0至300,000(增量为50,000bp),而y轴显示该距离的插入片段的概率,从该轴顶部的100至该轴底部的10-8(对数)。
在图15A和图15B中,观察到读取对在参考序列如GRCh38上的映射位置的图,这些读取对由来自重新装配的染色质的DNA经邻近连接生成,并在GM12878与参考之间的结构差异附近绘制。在图15A中,x轴是读取位置1(以Mb为单位),标度为54.2至54.55,增量为0.05Mb。y轴是读取位置2(以Mb为单位),标度为54.15至54.55,增量为0.05Mb。在图15B中,x轴是读取位置1(以Mb为单位),标度为78.85至79.15,增量为0.05Mb。y轴是读取位置2(以Mb为单位),标度为78.8至79.2,增量为0.05Mb。生成的每个读取对均在对角线上方和下方表示。在对角线上方,阴影表示在示出标度上的图谱质量评分;在对角线下方,阴影表示基于与分相SNP的重叠所生成的读取对的推断单元型相位。在一些实施方案中,生成的图描绘了具有侧翼重复区域的倒位,如图15B中所示。在一些实施方案中,生成的图描绘了定相的杂合缺失的数据,如图15B中所示。将来自一个个体的配对序列读取映射到参考是用于鉴定连续核酸或基因组结构中的差异如倒位、缺失和重复的最常用的基于序列的方法(Tuzun等人,2005)。图15A和图15B示出了如何将来自GM12878的重新装配的染色质的DNA通过邻近连接而生成的读取对映射到人参考基因组GRCh38,来揭示两种这样的结构差异。
在图16A-图16C中,观察到映射的读取对数据与参考支架之间的示例性测序差异的图示(右)和描绘这些事件的图像(左)。例如,在图16A中,观察到移位的区段差异,其中支架位置映射到单个轴上的大量位置(作为细水平线或垂直线)。图上方的垂直线指示位移区段的位置,然后箭头指示该垂直带在支架中的正确放置。任选地,通过将与位移区段相对应的片段重新定位到其在支架中的正确位置来更新模型。在图16B中,观察到折叠片段情况,其中片段A和A'非常相似并映射在一起,但是片段B和B'非常不相似(右上),导致产生了错误地将片段排序为A-B-B’(右下)的支架。这种偏差由映射的读取对生成的图像中非预期的低读取密度的偏离对角线区域(左,B'上方的区域)所鉴定,替代地或附加地,通过高于片段A的轴附近的预期读取密度(指示与B/B'相关的两个拷贝)所鉴定。如果片段B和B’按照支架建议的顺序排列(相邻),那么将预期在对角线轴附近对应于这种相邻性的读取密度,正如在A-B片段之间观察到的那样。此外,在对应于A-B’的区域中观察到高于预期的密度,这进一步表明B和B’独立地与A相邻,但彼此不相邻。任选地,通过将B’移至不同的染色体,在该染色体上复制A并更新拷贝数来校正模型。在图16C中,观察到折叠重复和错接的情况,其中两个片段A和Y各自与高度相似的序列B/X相邻,但是A和Y存在于不同的染色体上。生成的支架错误地将片段布置为A-(B/X)-Y,其中B/X已折叠,并且A-Y错误连接。从图像中的映射读取对数据可以鉴定出这种偏差(左图),其中在对角线轴的任一侧都观察到读取密度异常低的区域,但是其他低密度线从对角线轴成45度角从特征向外延伸。替代地或组合地,该差异也通过轴附近高于预期读取密度的区域来鉴定,对应于相对于A或Y的B/X的两个拷贝。任选地,通过断开B/X和Y的连接来校正模型,然后复制B/X并将其附接到Y。
在图17A中,观察到用于改善映射的读取对数据的质量(模型优化)的示例性工作流程,包括以下步骤:获得原始连接密度数据,生成接触可能性评分,进行侧图编辑,生成距离场,以及相对于当前侧图更新接触可能性。在一些情况下,该过程导致交互式更新的基于图的基因组模型。在一些情况下,迭代该过程以提高用于特征鉴定的映射读取对数据的质量。在图17B中,观察到在对马铃薯染色体进行模型优化之前映射到支架上的原始连接密度读取对数据的图像。在图17C中,观察到在对马铃薯染色体进行模型优化之后映射到支架上的读取对数据的相同图像。在一些情况下,所得图像具有较少的局部高密度和低密度的离轴区域,指示支架模型与读取对数据的拟合更好。
在图18A-图18D中,观察到用于本文所述的实现方法的计算机系统或网络的实施例。例如,图18A示出了被编程或以其他方式配置以实现本文提供的方法的示例性计算机系统。例如,在图18B中,观察到可结合本发明的示例性实施方案使用的计算机系统的实例。在图18C中,观察到示出可结合本发明的示例性实施方案使用的计算机系统700的第一示例性架构的框图。在图18D中,观察到示出了可结合本发明的示例性实施方案使用的被配置为合并多个计算机系统、多个蜂窝电话和个人数据助理以及网络附加存储(NAS)的网络2100的示意图。在图18E中,观察到使用可结合本发明的示例性实施方案使用的共享虚拟地址存储器空间的多处理器计算机系统900的框图。在一些情况下,计算机系统和网络在无用户监督的情况下执行本文所述的方法。
定义
除非上下文另有明确说明,否则如本文和随附权利要求中所用的,单数形式“一个”、“一种”和“该”包括复数指代物。因此,例如,提及“叠连群”包括多个这样的叠连群,并且提及“探测染色体的物理布局”包括提及用于探测染色体的物理布局的一种或多种方法以及本领域技术人员已知的其等同项,等等。
同样,使用“和”意指“和/或”,除非另有规定。类似地,“包含”、“包括”和“含有”可互换,并且并非意在限制。
应进一步理解的是,在各个实施方案的描述中使用术语“包含”时,本领域技术人员将会理解在一些特定的情况下,实施方案可使用语言“基本上由...组成”或“由...组成”替代性地描述。
如本文所用的术语“测序读取”是指其中已确定序列的DNA片段。
如本文所用的术语“叠连群”是指DNA序列的连续区域。“叠连群”可通过本领域已知的任何数目的方法来确定,诸如通过比较重叠序列的测序读取,和/或通过将测序读取与已知序列的数据库进行比较来鉴定哪些测序读取具有较高的连续概率。
如本文所用的术语“受试者”可指任何真核或原核生物体。
如本文所用的术语“裸DNA”可以指基本上不含复合蛋白质的DNA。例如,它可指与少于约50%、约40%、约30%、约20%、约10%、约5%或约1%的细胞核中发现的内源蛋白质复合的DNA。
如本文所用的术语“重构的染色质”可以指通过将核酸结合部分与核酸如裸DNA复合而形成的染色质。在一些情况下,这些部分是核酸蛋白质,如细胞核蛋白质或组蛋白,但也可以考虑其他部分,如纳米颗粒。
如本文所用的术语“读取对”或“读取-对”可指被连接以提供序列信息的两个或更多个元件。在一些情况下,读取对的数目可指可映射读取对的数目。在其他情况下,读取对的数目可指生成的总数目。
如本文所用的“组织样品”是指来自个体或可能包含核酸的环境的生物样品。例如,肿瘤被认为是组织,从肿瘤采集的样品构成组织样品,但在一些情况下,该术语是指从异质环境中采集的样品,如胃或肠切片,或来自相对于彼此在空间上分布的多个来源的包含核酸的环境样品。
如本文中对于数字所使用的“约”,是指该数字+/-该数字的10%。如对于范围所使用的“约”是指下限比该范围的指示下限小10%并且上限比该范围的指示上限大10%的范围。
如本文所用的“探针”是指通过与靶标结合来传递信息的分子。示例性探针包括寡核苷酸分子和抗体。寡核苷酸分子可以通过与靶标退火来充当探针,并通过改变荧光特征或者通过与靶标退火并促进产物(诸如指示靶标存在的扩增子)的合成来传递信息。也就是说,本文所用的术语探针不同地涉及抗体探针和其他小分子探针,以及寡核酸分子,它们或者通过直接与靶标杂交导致例如荧光状态的变化以产生信号而起作用,或者通过促进合成指示靶标存在的扩增子而起作用。
如本文所用,短语“至少一个”当后接诸如“A、B、C、D”等系列时,是指该系列的单个成员(A或B或C或D)、该系列的两个成员、该系列的三个成员、直到并包括该系列的所有成员(A、B、C和D),并且在一些情况下还包括其他未列出的成员。系列中的“至少一个”并不一定意味着该系列中的每个成员都有一个代表。
如本文所用,当蛋白质和核酸不再装配以形成复合物时,DNA蛋白质复合物被破坏或破裂。在一些情况下,复合物完全变性或分解,因此不会保留蛋白质DNA结合。或者,在一些情况下,当第一核酸区段和第二核酸区段不再不依赖于任何磷酸二酯键而被保持在一起时,DNA蛋白质复合物基本上被破坏。
除非另有定义,否则本文使用的所有技术和科学术语具有如本公开内容所属领域的普通技术人员通常所理解的相同的含义。现在描述示例性的方法和材料,但与本文描述的任何方法和试剂类似或等效的方法和试剂也可在所公开的方法和组合物的实践中使用。
以下实施例旨在说明而非限制本公开内容。虽然它们是可能使用的那些中的典型,但是可以替代地使用本领域技术人员已知的其他程序。
实施例
实施例1.
包含三个染色体的样品被怀疑具有至少一些相对于参考支架经历了至少一次基因组重排的基因组材料。该样品包含具有区段a和b的第一染色体,包含区段c、d和e的第二染色体以及包含区段f和g的第三染色体。
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。
观察到局部密度变异,该密度变异代表映射到区段a和d的读取对的大量过度表达。结论是,发生了使a和d相互物理连接的重排。
进一步详细分析局部密度变异。观察到,在该局部密度变异的峰值密度处,作为密度测量的读取对箱元占用率与紧邻轴外的读取对密度相匹配。结论是,区段a和d在至少一个重排事件中是相邻的。
观察到局部密度变异具有对称性。观察到在映射的分辨率水平下,局部密度变异沿着平分最靠近支架轴的直角边的线基本上双侧对称。观察到易位包括至少与测定的分辨率水平一样长的a和d的区段。结论是,该事件是简单的易位,导致a与d相邻。
实施例2.
包含三个染色体的样品被怀疑具有至少一些相对于参考支架经历了至少一次基因组重排的基因组材料。该样品包含具有区段a和b的第一染色体,包含区段c、d和e的第二染色体以及包含区段f和g的第三染色体。
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。
观察到局部密度变异,该密度变异代表映射到区段a和d的读取对的大量过度表达。结论是,发生了使a和d相互物理连接的重排。
进一步详细检查该映射。观察到,a和d不涉及任何其他实质性的离轴局部密度变异。结论是,区段a和d在一个重排事件中相邻。
实施例3.
包含三个染色体的样品被怀疑具有至少一些相对于参考支架经历了至少一次基因组重排的基因组材料。该样品包含具有区段a和b的第一染色体,包含区段c、d和e的第二染色体以及包含区段f和g的第三染色体。
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。
观察到局部密度变异,该密度变异代表映射到区段a和d的读取对的大量过度表达。结论是,发生了使a和d相互物理连接的重排。
进一步详细检查该映射。观察到,d涉及其他实质性的离轴局部密度变异。观察到区段d涉及具有映射到g的读取对补充的局部密度变异。结论是,区段d和g涉及使它们物理连接的重排事件。
进一步详细分析局部密度变异。观察到,在该d到g的局部密度变异的峰值密度处,作为密度测量的读取对箱元占用率与紧邻轴外的读取对密度相匹配。结论是,区段d和g在至少一个重排事件中是相邻的。
进一步详细检查该映射。观察到,a涉及其他实质性的离轴局部密度变异。观察到区段a涉及具有映射到g的读取对补充的局部密度变异。结论是,区段d和g涉及使它们物理连接的重排事件。
进一步详细分析局部密度变异。观察到,在该a到g的局部密度变异的峰值密度处,作为密度测量的读取对箱元占用率显著低于紧邻轴外的读取对密度。结论是,区段a和g在至少一个重排事件中是不相邻的。
对a-d和d-g局部密度变异进行更详细的检查。观察到,沿着从最接近轴的直角边绘制的线,每个都缺乏双侧对称性。结论是,发生了在图谱的分辨率水平内的区段d的易位。
实施例4.
包含三个染色体的样品被怀疑具有至少一些相对于参考支架经历了至少一次基因组重排的基因组材料。该样品包含具有区段a和b的第一染色体,包含区段c、d和e的第二染色体以及包含区段f和g的第三染色体。
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。
观察到局部密度变异,该密度变异代表映射到区段a和d的读取对的大量过度表达。结论是,发生了使a和d相互物理连接的重排。
进一步详细分析局部密度变异。观察到,在该a到d局部密度变异的峰值密度处,作为密度测量的读取对箱元占用率是紧邻轴外的读取对密度的大致一半。结论是,区段a和d在至少一个重排事件中是相邻的。
进一步详细检查该映射。观察到,d涉及其他实质性的离轴局部密度变异。观察到区段d涉及具有映射到g的读取对补充的局部密度变异。结论是,区段d和g涉及使它们物理连接的重排事件。
进一步详细分析局部密度变异。观察到,在该d到g局部密度变异的峰值密度处,作为密度测量的读取对箱元占用率是紧邻轴外的读取对密度的大致一半。结论是,区段d和g在至少一个重排事件中是相邻的。
进一步详细检查该映射。观察到不涉及任何具有映射到g的读取对补充的局部密度变异。结论是,区段a和g不涉及使它们物理连接的重排事件。
对a-d和d-g局部密度变异进行更详细的检查。观察到,沿着从最接近轴的直角边绘制的线,每个都显示双侧对称性。结论是,发生了大于图谱的分辨率水平的区段d的易位。
结论是,将a与d连接的易位事件发生在一个染色体上,并且将d与g连接的单独的易位发生在第二染色体上。结论是,样品对于每个易位事件都是杂合的。
实施例5.读取对间隔向内核的转换
获得来自人类染色体7的读取对数据(15Mb),将读取对组织化为200bp的箱元,并对于每个箱元计算LLR值。获得了对应于已知的杂合倒位的高LLR值(图5A)。在同一分析区域中,鉴定出10Kb杂合缺失内核和26Kb杂合重复(L)内核(分别为图5B和图5C)。
实施例6.位移区段的鉴定
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。观察到代表映射到支架的区段的读取对的潜在错位区段的局部密度变异,其为具有异常高的读取密度的垂直或水平带(图16A)。确鉴定了具有异常低的读取密度“孔”的相应的水平或垂直带,并将该带的预期读取对密度与错位区段的读取对密度进行比较。孔的预期读取对密度与带的观察密度匹配,并且结论是错位区段与孔相对应。通过将错位区段与孔交换来调整支架模型从而生成改进的模型。
实施例7.二倍体基因组中折叠区段的鉴定
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。对于支架A-B-B’的一部分,相对于靠近中心轴的至少一个其他区域,在区段A的中心轴附近观察到高于预期密度的第一区域。还观察到具有异常低的读取密度的第二区域,在一些情况下表现为划分两个区段的正方形或矩形形状的低密度(图16A),第二区域的一个角接触B和B’之间的中心轴。第一区域中的“过量”密度约与对应于第二区域中观察的密度缺少的组合密度成比例。结论是,第一区域对应于A的二倍体序列,该序列由于高度相似性而被折叠,并且在B和B’之间的轴上或附近缺少密度指示发生了不正确的接合。任选地,通过复制A(增加拷贝数)并破坏B-B'以产生包含A-B或A-B’的两条独立染色体来调整支架。
实施例8.二倍体基因组中折叠重复序列和再接合的鉴定
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。对于支架A-B/X-Y的一部分,相对于靠近中心轴的至少一个其他区域(例如区段A或Y),在区段B/X的中心轴附近观察到高于预期密度的第一区域。此外,还观察到具有异常低的读取密度的第二区域,在一些情况下表现为划分两个区段的正方形或矩形形状的低密度(图16B),第二区域的一个角未完全接触A和Y之间的中心轴。结论是,对应于B/X的第二个区域包含折叠区段,并且A和Y通过共有区段B/X不正确地接合。任选地,通过复制B/X并破坏B-Y以产生包含A-B或X-Y的两条独立染色体来调整支架。
实施例9.染色体断裂的鉴定
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。对于支架的一部分,对于与两个区段之间的连接相对应的区域,观察到中心轴上和中心轴外低于预期的读取密度。结论是存在染色体断裂,并相应地更新支架。
实施例10.单倍体折叠区段的鉴定
获得单倍体基因组样品的读取对信息,并且将读取对相对于参考支架进行映射。对于支架的一部分,对于与两个区段之间的连接相对应的区域,观察到中心轴上高于预期的读取密度(例如,高于支架上靠近轴的其他区域的平均读取密度)。未发现其他重要的离轴特征。结论是,高密度区域代表在支架装配过程中折叠的重复区段。重复区段被复制并放置在支架中的原始区段附近。任选地,迭代地调整模型,直到重复区段处轴附近的读取密度接近沿支架的位置的平均读取密度,指示支架模型中存在正确数目的重复区段。
实施例11.基因组建模
获得肿瘤样品的读取对信息,并且将读取对相对于人类基因组参考支架进行映射。观察到支架和读取对数据之间存在大量偏差,表现为多个区域的预期密度和观察密度之间的变化,这使分析变得复杂。根据偏差的大小向每个偏差给予评分。将支架重新建模为加权基因组的集合,每个基因组包含加权染色体,并且重新映射读取对数据。这导致偏差数目的显著减少,以及由此的评分降低。结果是,数据分析正常进行,并且获得关于肿瘤细胞群体异质性的信息。任选地,迭代地调整模型以进一步降低评分,并获得与支架的读取对数据的更好拟合,如图17A所例示的。
实施例12.支架的图表示
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。支架的区段在数学上表示为节点,并且映射读取密度的区域表示为连接节点的边缘。任选地,基于观察到的区域和读取密度的位置,根据区段之间的连接正确的可能性对每个边缘进行加权(例如,阻断边缘)。采用计算算法来迭代地评价沿着边缘通过节点的路径,直到鉴定最短路径。任选地,采用机器学习算法来寻找通过图的最短路径。结论是,最短路径代表针对读取对数据的最佳拟合支架模型。以这种方式将装配体支架表示为图导致生成最佳拟合支架模型所需的计算时间和能量的总体减少。
实施例13.二倍体倒位
包含二倍体基因组的样品被怀疑具有至少一些相对于参考支架经历了至少一次基因组重排的基因组材料。样品包含具有区段a、b和c的第一染色体,以及包含区段d、e和f的第二染色体。
获得样品的读取对信息,并且将读取对相对于参考支架进行映射。
观察到局部密度变异,该密度变异代表映射到区段a-b和b-c的读取对的大量不足表达。结论是,发生了使a和b右端以及使b左端和c连接的重排(倒位)。
进一步详细分析局部密度变异。观察到,在该局部密度变异的峰值密度处,作为密度测量的读取对箱元占用率仅是紧邻轴外的读取对密度的一半。此外,位移密度呈现为位于离轴的“蝴蝶结”模式,在区段b之间的中点处。结论是,倒位仅发生在一个染色体上。
观察到局部密度变异给予对称性。观察到在映射的分辨率水平下,局部密度变异沿着平分最靠近支架轴的直角边的线基本上双侧对称。结论是,该事件是简单的倒位,颠倒了区段b的取向。
实施例14.诊断方法
从患者收集肿瘤样品,测序以获得读取对数据,并将所得数据映射到人类参考基因组支架上。使用本文的方法和系统鉴定离轴“蝴蝶结”密度特征,并将这些特征鉴定为一个或两个染色体的基因ETV6和NTRK3之间的易位以形成融合,如图7所示。特征的预期密度和观察密度之间的差异指示具有突变的肿瘤细胞基因组中染色体的百分比。根据该结果以及任选地读取对数据中存在或不存在的附加特征,诊断出该患者患有癌症,诸如乳腺类似物分泌性癌,并随后用已知靶向具有该突变的癌症的药物(诸如NTRK3激酶抑制剂)进行治疗。从完成治疗方案后的肿瘤移取的样品的测序指示对应于ETV6-NTRK3易位的特征的密度降低或消除。临床医生得出结论认为,药物治疗已成功杀死了在基因组中具有易位的肿瘤细胞。
实施例15.诊断方法
从患者收集肿瘤样品,测序以获得读取对数据,并将所得数据映射到人类参考基因组支架上。使用本文的方法和系统,对于一个或两个染色体,未观察到对应于基因ETV6和NTRK3之间的易位的离轴“蝴蝶结”密度特征。根据该结果以及任选地读取对数据中存在或不存在的附加特征,临床医生得出结论认为,患者不需要使用药物(诸如NTRK3激酶抑制剂)进行治疗。
Claims (53)
1.一种方法,包括:
将读取对序列信息映射到序列支架上;以及
鉴定如此映射的多个读取对符号的密度的局部变异。
2.根据权利要求1所述的方法,包括将所述密度的局部变异分配给相应的结构布置特征。
3.根据权利要求1所述的方法,包括重构所述序列支架,从而减小所述密度的局部变异。
4.根据权利要求1所述的方法,其中将读取对序列信息映射到序列支架上包括定位指示读取对的符号,使得所述符号与代表所述序列支架的轴的距离指示从所述序列支架上的读取对的第一读取的映射位置到所述序列支架上的所述读取对的第二读取的映射位置的距离,并且使得所述符号相对于代表所述序列支架的所述轴的位置指示所述读取对的所述第一读取的所述映射位置和所述读取对的所述第二读取的所述映射位置的平均值。
5.根据权利要求2所述的方法,其中重构所述序列支架包括重新排序所述序列支架的至少一些叠连群。
6.根据权利要求2所述的方法,其中重构所述序列支架包括重新定向所述序列支架的至少一个叠连群。
7.根据权利要求2所述的方法,其中重构所述序列支架包括将断裂引入所述序列支架的至少一个叠连群中。
8.根据权利要求7所述的方法,进一步包括将存在于所述断裂的一个边缘处的序列引入到所述断裂的第二边缘上。
9.根据权利要求1所述的方法,其中重构所述序列支架包括将第一叠连群的区段易位到第二叠连群的内部区域中。
10.根据权利要求1所述的方法,其中将读取对序列信息映射到序列支架上包括将读取对信息分配给多个箱元。
11.根据权利要求1所述的方法,其中鉴定密度的局部变异包括鉴定具有符号的局部低密度的区域。
12.根据权利要求1所述的方法,其中鉴定密度的局部变异包括鉴定具有符号的局部高密度的区域。
13.根据权利要求1所述的方法,其中鉴定密度的局部变异包括鉴定第一位置处的密度和第二位置处的密度,其中所述第一位置处的密度和所述第二位置处的密度显著不同。
14.根据权利要求13所述的方法,其中所述第一位置和所述第二位置是相邻的。
15.根据权利要求13所述的方法,其中所述第一位置和所述第二位置与所述序列支架等距。
16.根据权利要求1所述的方法,其中鉴定密度的局部变异包括获得第一位置处的预期密度和所述第一位置处的观察密度。
17.根据权利要求16所述的方法,其中所述第一位置处的所述预期密度是由密度梯度预测的密度,所述密度梯度随着与代表所述序列支架的所述轴的距离增加而单调降低。
18.根据权利要求1所述的方法,其中等于样品的倍性的整数值的一部分的局部密度变异指示该比例中样品倍性补充的事件。
19.根据权利要求1所述的方法,其中所述支架代表癌细胞基因组。
20.根据权利要求1所述的方法,其中所述支架代表转基因细胞基因组。
21.根据权利要求1所述的方法,其中所述支架代表基因编辑的基因组。
22.根据权利要求3所述的方法,其中所述支架在所述重构后具有增加至少20%的N50。
23.一种方法,包括:
获得包含序列支架信息的支架;
获得配对读取信息;
部署所述配对读取信息,使得描绘至少一些读取对信息,以指示读取对中每个读取相对于所述支架的位置,并指示映射在所述支架上的一个读取到另一个读取的距离;以及
鉴定所部署的所述配对读取信息的密度的局部变异。
24.根据权利要求23所述的方法,包括将所述密度的局部变异分配给相应的结构布置特征。
25.根据权利要求23所述的方法,包括重新配置所述支架以减小所述局部变异。
26.根据权利要求23所述的方法,其中获得包含序列支架信息的支架包括对核酸样品进行测序。
27.根据权利要求23所述的方法,其中获得包含序列支架信息的支架包括接收代表核酸样品的数字信息。
28.根据权利要求23所述的方法,包括对于部署的读取对信息获得预测密度分布。
29.根据权利要求28所述的方法,其中所述鉴定包括鉴定所述预测密度分布与所述描绘的读取对信息密度之间的显著差异。
30.根据权利要求23所述的方法,其中鉴定局部变异包括鉴定在直角的顶点处具有密度峰值的密度扰动。
31.根据权利要求30所述的方法,其中所述直角的所述顶点指向代表所述支架的轴。
32.根据权利要求23所述的方法,其中获得配对末端读取信息包括交联未提取的核酸。
33.根据权利要求23所述的方法,其中获得配对末端读取信息包括交联染色质中结合的核酸。
34.根据权利要求33所述的方法,其中所述染色质是天然染色质。
35.根据权利要求23所述的方法,其中获得配对末端读取信息包括将核酸结合至核酸结合部分。
36.根据权利要求23所述的方法,其中获得配对末端读取信息包括生成重构染色质。
37.根据权利要求23所述的方法,其中部署所述配对读取信息包括将读取对信息分配给多个箱元。
38.根据权利要求23所述的方法,其中重构所述序列支架包括重新排序所述序列支架的至少一些叠连群。
39.根据权利要求25所述的方法,其中重构所述序列支架包括重新定向所述序列支架的至少一个叠连群。
40.根据权利要求25所述的方法,其中重构所述序列支架包括将断裂引入所述序列支架的至少一个叠连群中。
41.根据权利要求40所述的方法,进一步包括将所述断裂的一个边缘处的序列引入到所述断裂的第二边缘上。
42.根据权利要求25所述的方法,其中重构所述序列支架包括将第一叠连群的区段易位到第二叠连群的内部区域中。
43.根据权利要求23所述的方法,其中所述支架代表癌细胞基因组。
44.根据权利要求23所述的方法,其中所述支架代表转基因细胞基因组。
45.根据权利要求23所述的方法,其中所述支架代表基因编辑的基因组。
46.根据权利要求23所述的方法,其中所述支架在所述重构后具有增加至少20%的N50。
47.根据权利要求23所述的方法,其中等于样品的倍性的整数值的一部分的局部密度变异指示该比例中样品倍性补充的事件。
48.一种鉴定样品中相对于序列支架的结构重排的方法,包括:
将读取对序列信息映射到序列支架上;
鉴定局部密度变异,所述局部密度变异具有指向对应于所述序列支架的轴的直角边并且沿着平分所述直角边的线具有双侧对称性;以及
将所述样品归类为相对于所述序列支架具有简单易位,所述序列支架包含距离易位点至少与所述局部密度变异的最长最远映射读取一样长的区段长度。
49.一种鉴定样品中的结构重排的方法,包括:
将读取对序列信息映射到序列支架上;
鉴定局部密度变异,所述局部密度变异具有指向对应于所述序列支架的轴的直角边;
鉴定局部密度变异的子区域,所述子区域沿着平分所述直角边的线破坏双侧对称性;以及
将所述样品归类为相对于所述序列支架具有易位,所述序列支架包含缺乏对称性恢复性读取对群体将映射到的序列的区段。
50.一种鉴定样品中相对于序列支架的结构重排的方法,包括:
将读取对序列信息映射到序列支架上;
鉴定局部密度变异,所述局部密度变异具有指向对应于所述序列支架的轴的直角边;
获得预期读取对密度分布曲线;以及
鉴定包含所述局部密度变异的读取对映射到的支架区段;
重新定位所述支架区段,使得包含所述局部密度变异的所述读取对映射到由所述预期读取对密度分布曲线指示的区域,以得到所述局部密度变异的密度。
51.一种计算机监视器,其被配置为显示根据权利要求1-50中任一项所述的方法的结果。
52.一种计算机系统,其被配置为执行根据权利要求1-50中任一项所述的方法的计算步骤。
53.一种根据权利要求1-50中任一项所述的映射的读取对数据的视觉表示。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762583974P | 2017-11-09 | 2017-11-09 | |
US62/583,974 | 2017-11-09 | ||
PCT/US2018/059885 WO2019094636A1 (en) | 2017-11-09 | 2018-11-08 | Structural variant analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111566227A true CN111566227A (zh) | 2020-08-21 |
Family
ID=64572504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880086046.6A Pending CN111566227A (zh) | 2017-11-09 | 2018-11-08 | 结构变体分析 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20200321076A1 (zh) |
EP (1) | EP3707277A1 (zh) |
JP (1) | JP7297774B2 (zh) |
CN (1) | CN111566227A (zh) |
AU (1) | AU2018366198A1 (zh) |
CA (1) | CA3082050A1 (zh) |
WO (1) | WO2019094636A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK3455356T3 (da) | 2016-05-13 | 2021-11-01 | Dovetail Genomics Llc | Genfinding af langtrækkende bindingsinformation fra konserverede prøver |
EP3779733A1 (en) * | 2019-08-12 | 2021-02-17 | Universität Bern | Information retrieval method |
CN115349128A (zh) | 2020-02-13 | 2022-11-15 | 齐默尔根公司 | 宏基因组文库和天然产物发现平台 |
CN115552001A (zh) * | 2020-05-15 | 2022-12-30 | 孟山都技术公司 | 用于检测基因组编辑的系统和方法 |
CN111627492B (zh) * | 2020-05-25 | 2023-04-28 | 中国人民解放军军事科学院军事医学研究院 | 癌症基因组Hi-C数据仿真方法、装置和电子设备 |
US11468999B2 (en) * | 2020-07-31 | 2022-10-11 | Accenture Global Solutions Limited | Systems and methods for implementing density variation (DENSVAR) clustering algorithms |
CN114743594B (zh) * | 2022-03-28 | 2023-04-18 | 深圳吉因加医学检验实验室 | 一种用于结构变异检测的方法、装置和存储介质 |
CN114944190B (zh) * | 2022-05-12 | 2024-04-19 | 南开大学 | 基于Hi-C测序数据的TAD识别方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170300615A1 (en) * | 2015-02-17 | 2017-10-19 | Dovetail Genomics, Llc | Nucleic acid sequence assembly |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9411930B2 (en) * | 2013-02-01 | 2016-08-09 | The Regents Of The University Of California | Methods for genome assembly and haplotype phasing |
-
2018
- 2018-11-08 JP JP2020544593A patent/JP7297774B2/ja active Active
- 2018-11-08 WO PCT/US2018/059885 patent/WO2019094636A1/en unknown
- 2018-11-08 US US16/762,619 patent/US20200321076A1/en active Pending
- 2018-11-08 EP EP18812472.1A patent/EP3707277A1/en active Pending
- 2018-11-08 AU AU2018366198A patent/AU2018366198A1/en active Pending
- 2018-11-08 CA CA3082050A patent/CA3082050A1/en active Pending
- 2018-11-08 CN CN201880086046.6A patent/CN111566227A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170300615A1 (en) * | 2015-02-17 | 2017-10-19 | Dovetail Genomics, Llc | Nucleic acid sequence assembly |
Non-Patent Citations (4)
Title |
---|
ABHIJIT CHAKRABORTY等: "Identification of copy number variations and translocations in cancer cells from Hi-C data" * |
BRYAN R. LAJOIE等: "The Hitchhiker\'s guide to Hi-C analysis: Practical guidelines" * |
NICOLAS SERVANT等: "HiC-Pro: an optimized and flexible pipeline for Hi-C data processing" * |
SUHAS S.P. RAO等: "A 3D Map of the Human Genome at Kilobase Resolution Reveals Principles of Chromatin Looping" * |
Also Published As
Publication number | Publication date |
---|---|
US20200321076A1 (en) | 2020-10-08 |
EP3707277A1 (en) | 2020-09-16 |
CA3082050A1 (en) | 2019-05-16 |
JP7297774B2 (ja) | 2023-06-26 |
JP2021502126A (ja) | 2021-01-28 |
WO2019094636A1 (en) | 2019-05-16 |
AU2018366198A1 (en) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111566227A (zh) | 结构变体分析 | |
US11600361B2 (en) | Nucleic acid sequence assembly | |
De Coster et al. | Towards population-scale long-read sequencing | |
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
Cheema et al. | Computational approaches and software tools for genetic linkage map estimation in plants | |
AU2021257920A1 (en) | Variant classifier based on deep neural networks | |
Hsieh et al. | Effect of de novo transcriptome assembly on transcript quantification | |
US20140249764A1 (en) | Method for Assembly of Nucleic Acid Sequence Data | |
CN106795568A (zh) | 测序读段的de novo组装的方法、系统和过程 | |
EP3369022A1 (en) | Methods, systems and processes of determining transmission paths of infectious agents | |
WO2021258026A1 (en) | Molecular response and progression detection from circulating cell free dna | |
US12094574B2 (en) | Difference-based genomic identity scores | |
WO2019242445A1 (zh) | 病原体操作组的检测方法、装置、计算机设备和存储介质 | |
US20220293214A1 (en) | Methods of analyzing genetic variants based on genetic material | |
US11821031B2 (en) | Systems and methods for graph based mapping of nucleic acid fragments | |
Gonzalez et al. | Essentials in Metagenomics (Part II) | |
KR102721363B1 (ko) | 핵산 서열 어셈블리 | |
Toh | Chromosomal scale length variations as a genetic risk score for predicting complex human diseases in large scale genomic datasets | |
Sinha et al. | ENLIGHTENMENT: A Scalable Annotated Database of Genomics and NGS-Based Nucleotide Level Profiles | |
Bhutia et al. | 14 Advancement in | |
NASCIMENTO JÚNIOR | ScreenVar-a biclustering-based methodology for evaluating structural variants | |
Scheinin | Bioinformatic solutions for chromosomal copy number analysis in cancer | |
Lehn et al. | ECCB'14 Awards Keynote speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |