CN104937598A - 靶向的测序读取值的准确且快速的定位 - Google Patents

靶向的测序读取值的准确且快速的定位 Download PDF

Info

Publication number
CN104937598A
CN104937598A CN201380062074.1A CN201380062074A CN104937598A CN 104937598 A CN104937598 A CN 104937598A CN 201380062074 A CN201380062074 A CN 201380062074A CN 104937598 A CN104937598 A CN 104937598A
Authority
CN
China
Prior art keywords
read value
target area
sequence read
area
genomic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380062074.1A
Other languages
English (en)
Other versions
CN104937598B (zh
Inventor
X.陈
Y.李
W-m.刘
X.(M.).马
S-J.张
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Roche Diagnostics GmbH
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of CN104937598A publication Critical patent/CN104937598A/zh
Application granted granted Critical
Publication of CN104937598B publication Critical patent/CN104937598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

可以提供从靶向的测序程序获得的测序读取值的准确且快速的定位。一旦选择目标区域,则可以鉴定与目标区域足够类似的基因组的替代区域。如果测序读取值比替代区域更类似于目标区域,则可以确定读取值与目标区域序列匹配。然后可以分析与目标区域比对的读取值以确定目标区域中是否存在突变。因此,可以将测序读取值与目标区域和相应的替代区域(而不是与整个基因组)比较,由此提供计算效率。

Description

靶向的测序读取值的准确且快速的定位
发明领域
本公开总体涉及使用基因组测序分析生物样品,并且更具体地涉及准确且快速定位从靶向测序方法获得的测序读取值。
背景
对于特定患者,医生可想要分析患者基因组的一个或多个特定(目标)区域(例如,每个区域100-500个碱基)。例如,患者的基因的特定部分可用于测试突变。因为只有某些区域待分析,所以已经开发了技术用于增加样品中来自目标区域的基因组区段(例如,DNA片段)的百分比。此类技术包括目标区域的扩增和富集。
在扩增中,杂交至目标区域的引物用于扩增具有对应于目标区域的序列的基因组区段。期望的结果是,样品将含有目标区域的许多基因组区段,并且因此当测序该基因组区段时,高百分比的读取值将对应于目标区域。因此,在从基因组的非目标区域测序基因组区段中没有浪费显著的测序努力。在富集中,杂交至目标区域的探针可用于捕获对应于目标区域的基因组区段,从而增加对应于目标区域的读取值的百分比。
然而,在扩增和富集两者中,仍然读取来自基因组的其他部分的基因组区段。因此,目前的技术将读取值比对(定位)至整个基因组以确保准确性,尤其当分析目标区域相对于参考基因组的突变时。即,一旦获得序列读取值,将该序列与参考基因组比较以发现与该读取值最佳匹配的基因组位置。已经比对读取值之后,然后分析与目标区域比对的读取值。这种与整个基因组的比对在计算上是昂贵的。
因此,期望提供在计算上更有效的改进的方法、系统和装置。
概述
实施方案可提供从靶向测序获得的测序读取值的准确且快速的定位。例如,一旦选择目标区域,则可以鉴定与目标区域足够类似的基因组的替代区域。如果测序读取值相比于替代区域更类似于目标区域,则可以确定读取值与目标区域序列匹配。然后可以分析与目标区域序列匹配的读取值以确定目标区域中是否存在突变。因此,然后可以将测序读取值与目标区域和相应的替代区域(而不是与整个基因组)比较,由此提供计算效率。
根据一个实施方案,一种方法检测生物的样品基因组的目标区域中的变体。接收多个序列读取值。序列读取值获得自测序从生物获得的样品中的基因组区段,其中所述测序包括靶向来自目标区域的基因组区段。鉴定了与参考基因组的目标区域相比具有各自第一数目的变化的一个或多个替代区域。每个各自第一数目大于一,并且小于第一阈值数目。计算机系统进行多个序列读取值与参考基因组的目标区域的比对,以鉴定与参考基因组的目标区域序列匹配且具有小于第二阈值数目的变化的序列读取值的组。可以从该组中去除与替代区域之一序列匹配且具有小于第三阈值数目的第二数目的变化的序列读取值。分析该组的剩余序列读取值以确定样品基因组的目标区域中的变体。
其他实施方案涉及与本文描述的方法相关的系统、装置和计算机可读介质。
可以参考以下详述和附图获得本发明的性质和优点的更好理解。
定义
如本文所使用,“生物学样品”包括来自获得样品的生物的基因组的核酸分子。例如,所述样品可包括含有染色体中编码的基因组的细胞。“基因组区段”是全部或部分测序的核酸分子,其中所述分子来自生物的基因组。该区段可以通过将基因组的较大段片段化来生成,例如,通过使细胞经受声波。可以测序基因组区段以提供“测序读取值”(也称为“序列读取值”或者仅“读取值”)。测序读取值可以是整个基因组区段或仅区段的部分。
“目标区域”是基因组的区域,其中片段已经使用引物和扩增方法扩增或已经使用探针富集。“替代区域”是类似于目标区域的区域,例如,通过具有少于指定数目的变化,其可以被指定为序列的总碱基的百分比。“参考基因组”(也简称“参考”)是与之比对序列读取值的任何已知序列。参考基因组可以对应于生物的基因组的所有或仅部分。参考基因组还可以包括多于一种生物的基因组。例如,也可以将序列读取值针对病毒的数据库进行比较,因为此类病毒可以在生物样品中。
变化(也称为变体或突变)是指两个序列之间的差异。例如,序列读取值和参考基因组的目标区域之间的差异可以得到计数,并且可鉴定突变(例如,如果足够的序列读取值显示突变)。变化可以,例如,是一个碱基改变至一个或多个其他碱基,一个或多个碱基的插入,或一个或多个碱基的缺失。变化可以发生在一个或两个染色体中。实施方案可用于确定序列读取值是否是突变或实际上来自基因组的相似部分的基因组区段的证据。
附图简述
图1是说明检测生物的样品基因组的目标区域中的变体的方法100的流程图。
图2A显示基因组的目标区域的参考序列(SEQ ID NO:1)。图2B显示根据本发明的实施方案通过MCF过滤掉的序列读取值(SEQ ID NO:2)。
图3显示根据本发明的实施方案的序列读取值310 (SEQ ID NO:3)相对于目标序列(即目标区域)320 (SEQ ID NO:4)的比较。
图4显示根据本发明的实施方案的序列读取值410 (SEQ ID NO:6)相对于目标序列(即目标区域)420 (SEQ ID NO:5)的比较的另一个实例。
图5显示根据本发明的实施方案的序列读取值510 (SEQ ID NO:8)相对于目标序列(即目标区域)520 (SEQ ID NO:7)的比较的另一个实例。
图6是说明根据本发明的实施方案检测生物的样品基因组的目标区域中的变体的方法的流程图。
图7是用于根据本发明的实施方案鉴定对应于目标区域的替代区域的方法700的流程图。
图8显示可与根据本发明的实施方案的系统和方法使用的实例计算机系统800的方框图。
图9是显示根据本发明的实施方案在多个样品和多次运行中出现的复杂突变的表格。
详述
可以使用靶向测序有效地分析基因组的特定区域。例如,生物样品的基因组区段的百分比可以通过以下来增加:克隆对应于目标区域的区段(例如,在扩增过程、诸如聚合酶链式反应(PCR)中使用引物)和/或使用优先捕获对应于目标区域的区段的探针。可以测序和分析目标-增加样品中的基因组区段(生物样品的一个实例),以研究目标区域中的可能突变。
由于仅对目标区域感兴趣,所以可以仅将序列读取值与目标区域比对。这相对于将读取值与整个参考基因组比对将减少计算工作量。然而,此类过程可导致误差。例如,在使用具有扩增或富集的先前步骤的高通量下一代测序的变体检测中,可能扩增子/富集的文库(目标-增加的样品)含有假阳性读取值,即,对应于基因组区段(所述基因组区段不对应于预定目标区域)的读取值。这些读取值可导致不正确的突变报道,并且可以提供产品开发的误导性信息,或者甚至错误的诊断结论。假阳性可以通过各种方法来降低,诸如适当设计引物和开发高保真酶。然而,假阳性仍然存在。
实施方案可以提供解决方案以便以有效的方式排除假阳性读取值。作为实例,对于显著不同于目标的读取值,用于鉴定和排除显著不同于目标的读取值的突变计数过滤器(MCF)。另一个实例是鉴定对应于类似于目标区域的替代区域的假阳性读取值。
在一个实施方案中,具体鉴定基因组的替代(非目标)区域。可以特别指出替代区域和目标区域之间的变化。当序列读取值与目标区域匹配(除了特定数目的鉴定的替代区域特有的变化特征)时,该序列读取值可以从目标区域的分析中丢弃。以这种方式,该序列读取值仅需要与目标区域比对,并且丢弃假阳性。
替代区域可以提前鉴定,并且存储在数据库中。一旦选择目标区域,则可以读出替代区域。在确定鉴定区域的一个实施中,复杂突变的报道(例如,相对于目标区域的多于一个变化)可用于发现出现在多次运行和/或多个样品中的变体组合。如果复杂突变的序列是共有的(即,检测到足够量的次数),则可以将复杂突变序列与参考基因组比对,以鉴定它是否对应于替代区域。因此,对应于特定变体组合的读取值(即,由相对于目标区域的替代区域给出的变体组合)可以从针对目标区域的突变的分析中丢弃。
在一些实施方案中,多个目标区域可以同时进行分析。在此类实施方案中,可以将测序读取值与所有目标区域和对应的替代区域比较。但是,由于区域的数目与整个参考基因组相比相对小,所以比对仍然是有效的。例如,已经在癌症基因小组项目(Cancer Gene Panel project)的数据上用与癌症相关的12种基因的多达60个扩增子成功地使用了实施方案。
I. 靶向测序
测序运行可生成数百万的读取值。在计算时间和存储器资源方面将所有读取值定位至整个基因组是非常有挑战性的。对于目标-增加的运行(例如,用扩增或富集),主要兴趣是定位至目标区域(例如,基因的特定区域或整个基因)的读取值。然而,如果计算机系统仅定位至这些目标区域的参考,则它可以通过错过一些读取值可以更好地定位至基因组的其他部分而高估在目标区域的读取值的覆盖范围。但是,定位至整个基因组是昂贵的。因此,实施方案可以定位至基因组的仅某些部分,同时提供准确的结果。
图1是说明检测生物的样品基因组的目标区域中的变体的方法100的流程图。正如其他方法,实施方案可以包括所述步骤的所有或部分,并且一些步骤可以用计算机系统进行。方法100的结果可以由医生用于确定生物的诊断中。
在方框110中,接收生物样品。所述生物样品包括DNA,其可以是在染色体的基因组区段中或作为完整染色体。例如,一些细胞可以获得自正在测试基因组的特定区域中的突变的患者。所述细胞可以获得自正在测试癌症的肿瘤的活检样品。
样品的DNA可以进行片段化,例如,通过超声处理或其他合适的方法,以获得较小的基因组区段。例如,可以获得200-500个碱基长的基因组区段。对于某些测序程序,约该长度的基因组区段是优选的。然而,实施方案可以使用任何长度的基因组区段。
所述基因组区段可以用条形码或多重标识符(MID)标记。例如,可以将10个碱基的序列添加(例如,使用连接酶)至基因组区段的末端。以这种方式,来自各种样品的区段可以在相同的测序运行过程中使用ID来平行测序以多重化。所述ID可以阅读为序列读取值的部分,并且具有相同ID的读取值可以归因于相同样品,并且作为组进行分析。不同样品可以来自不同人或相同人(例如,不同的活检样品),并且可以使用不同的实验条件。
在方框120,来自样品中的目标区域的基因组区段的百分比得到增加。在各个实施方案中,所述百分比可以通过扩增和/或富集样品的来自基因组的一个或多个靶向区域的DNA而增加。所得样品可以被称为目标-增加的样品。通常,目标区域将具有诊断相关性,例如,以查看是否存在任何癌症相关突变。
作为实例,目标区域可以是约几百个碱基,例如,150-250个碱基,150-400个碱基,或200-600个碱基。样品特异性ID的增加可以发生在不同点。例如,ID可以在扩增/富集之后增加,然后将样品混合在一起。以该方式,可以针对不同的目标区域扩增或富集不同的样品。在一个实施中,使用约60个目标区域。
在一个实施方案中,正向和反向引物可用于扩增目标区域。这些正向和反向引物可以是各种长度的,例如,约15-30个碱基长。理想地,所述引物仅扩增基因组的一部分。然而,在约15个碱基的长度下,这不总是可能的。甚至使用30个碱基可能并不总是提供独特的扩增。可以使用较长的引物,但更长的引物不能有效地杂交。
在另一个实施方案中,探针可用于捕获对应于目标区域的基因组区段。例如,经设计与目标区域杂交的探针可以放置在表面上。然后,可以将基因组区段放置在表面上,并且将优先杂交目标区域的区段。例如,可以构建具有探针的微阵列,并且在微阵列上洗涤区段。探针的特异性可遭受与用于扩增的引物相同的问题。对于300个碱基长的目标区域,一些探针可以为70个碱基长。由于探针可以捕获基因组区段的任一末端,所以,对于长达250个碱基的基因组区段,所述区段可以,例如,跨越300个碱基至约550个碱基的区域。在另一个实施方案中,可以进行扩增和富集两者。
尽管也可以扩增基因组的一些其他区域,但如果引物不够特异性并且基因组的一些其他区域可以杂交至富集探针,则来自目标区域的区段的百分比应当增加。由于引物设计中的不完美特异性,实验的生物化学可引起其他区域被扩增。
在方框130,从样品中的基因组区段测定序列读取值。在测序过程中,扩增过程中生成的相同区段的克隆可以具有其分别测定(和后来计数)的序列。在一些实施中,每个样品获得约3,000个读取值。读取值的数目可以取决于样品的大小,随着目标部分增加进行多少扩增,和测序过程的带宽(即,装置被设置用于多少测序,例如,使用多少珠粒)。因此,不是样品中的所有区段都可测序。在一个实施方案中,读取值为约150-250个碱基长。本领域技术人员将理解各种技术可用于进行测序。
测序过程可以通过各种技术来进行。在一个实施方案中,所述区段可以经历作为测序的部分的扩增。当扩增用于生成目标-增加的样品时,该扩增将是第二扩增步骤。第二扩增可以提供比不进行第二扩增的情况更强的信号(例如,对应于具体碱基A、C、G或T的荧光信号)。并且,不同的扩增子不导致单独的序列读取值。
在测序过程的一个实例中,可以将来自步骤120(例如,当扩增在溶液中发生时)的扩增区段各自连接至珠粒。连接区段然后可以在珠粒上扩增,并且可以从每个珠粒获得一个序列读取值。对于使用表面的实施方案,区段可连接至表面,然后扩增以便在表面上生成单一簇。对于每个簇可以获得单一序列读取值。序列读取值可以用于基因组区段的整个长度,一个末端的部分,或两个末端的部分。
序列读取值可包括对应于实际区段的碱基,对应于样品特异性ID的碱基,和可以用作测序的部分的特殊标签(例如,25个碱基长)。特殊标签可以包括适配子的部分,所述适配子的部分连接至用于接收通用引物的片段的末端,并且适配子的部分可以在测序过程中进行读取。
在一个方面,测序可以在富集样品中的任何基因组区段上进行,即使所述区段不是目标。这些基因组区段中的一些可以对应于这样的区段,所述区段初始在样品中,但其不是目标。测序的非目标区段中的一些也可以归因于基因组的非预期部分的扩增或捕获。
在方框140,将多个序列读取值与参考基因组的目标区域比对。通过比对,该过程可以将序列读取值与目标区域比较,以确定序列读取值和目标区域之间的变化的数目。完美匹配会显示没有变化。获得的序列读取值中的部分或所有可用于比对过程中。例如,如果读取值的长度过短或过长,则可以将其在比对之前去除。
可以进行比对,以便尽可能降低序列读取值和目标区域之间的变化的数目。注意,序列读取值可比目标区域更小或更大。如果序列读取值更大,则变化的数目可仅在目标区域中进行计数。
在一个实施方案中,读取值仅与目标区域比对,从而节省计算工作量。由于比对可以对于仅一个或多个目标区域是特异性的,因此比对可以是快的,因为不必搜索整个基因组。此外,由于对应于目标区域的区段的百分比增加,相当数目的读取值应有利地与目标区域匹配(例如,相对少的变化)。
在一个实施方案中,如果使用多个目标区域,则可以将序列读取值与所有目标区域比较,并且可以鉴定提供最佳序列匹配的目标区域。例如,不同的目标区域可以是不同的基因或基因的不同的外显子。因此,可以鉴定具有最佳序列匹配的外显子。
如果使用条形码或ID,可以在比对之前将其去除。ID可用于将特定样品的所有读取值组织为一组。以该方式,来自其他样品的突变将不影响本样品的分析。这分组被称为去多重化(demultiplexing)。每个样品可以与不同的参考基因组或参考基因组的不同部分比对。由于不同的样品可具有不同的目标区域,所以ID可以用于确定参考基因组的哪些目标区域应该被比较用于比对。
在步骤150中,将与目标区域相差多于阈值数目的变化的序列读取值从针对目标区域的分析中丢弃。如果变化的数目大于阈值,则,鉴于所述读取值是如此不同,这指示对应于序列读取值的基因组区段没有来自目标区域。但是,将允许一些变化,因为后来的分析可以尝试鉴定突变,其否则会被错过。
阈值的实例值是5-10个碱基。在一个实施方案中,阈值取决于目标区域的大小。例如,如果目标区域是200个碱基,则变化的数目可以在20、或10%封顶(capped)。如果目标区域是150个碱基,则所述阈值可以是15个碱基。
对于每一目标区域,可以鉴定具有小于(和可能等于)阈值的读取值,例如,作为一组。然后可以关于目标区域进一步分析该组读取值。在一些实施方案中,如果读取值满足多于一个目标区域的阈值,则可以将其添加至两个组。可以追踪此类读取值,使得其最终不被计数为多于一个目标区域的突变。
在方框160,确定剩余序列读取值是否来自基因组的目标区域或来自基因组的先前鉴定的替代区域。例如,读取值和目标区域之间的变化的数目,和读取值和替代区域之间的变化的数目,可用于确定何者是更好的匹配。读取值和替代区域之间的变化的数目可以通过将读取值直接与替代区域比对或通过使用目标区域和替代区域之间的已知变化来确定。在任一情况下,由于已经鉴定替代区域,所以额外工作的量相比于与整个基因组比对相对小。
可以将替代区域鉴定为类似于目标区域的区域,例如,变化的数目在阈值内。此类阈值可以小于方框150中使用的阈值。下面更详细地描述用于鉴定替代区域的实例技术。
除了确定剩余序列读取值是否来自基因组的目标区域或来自基因组的替代区域,还可以通过与常见突变的已知数据库比较来确定突变是否是常见突变。这些突变可以用于相同的目标区域。对于某些人的群体或亚群,此类常见突变可能存在,这与使用的参考基因组不同。此外,替代区域可以来自不同的基因组,例如,来自可能在生物样品中结束的病毒的基因组数据库。
在方框170,来自目标区域的序列读取值用于鉴定目标区域中的突变。作为该步骤的部分,可以确定每种变化的频率。例如,对于目标区域中的具体位置,可以计数G突变出现替代通常A的次数。看到G突变的次数的百分比可以从与该位置比对的总读取值来确定。在一个实施方案中,可以要求具体突变的百分比大于被认为是实际突变的阈值(丰度过滤器)。可以鉴定一起发生的变化,并且可以分类为相同突变的部分。
医生可以查看鉴定的突变,并且使用其来诊断对癌症的易患性或将肿瘤鉴定为具有癌症。例如,所述突变可以类似于已经被鉴定为与癌症相关的不同区域的突变。如果去除已知突变,则鉴定的突变将是新的突变。如果肿瘤已知是癌性的,则这些新的突变可以被注释为与癌症相关。
II. 突变计数过滤器(MCF)
当序列读取值与具体目标区域比对时,一些读取值可以与目标区域广泛地不同。这可能是因为几个目标区域同时分析,因为杂散基因组区段在富集中通过探针捕获,因为未克隆的基因组区段碰巧被测序,或其他原因。如上所提到,一种过滤器是突变计数过滤器(MCF)。该过滤器去除与目标显著不同的序列读取值。
当读取值与目标显著不同时,其将显示许多变体。MCF过滤器可用于此类情况。可以使用变化的总数目的阈值,或者可以使用变化的特定类型的数目的阈值。可以一起使用两种类型的阈值。
一些实施方案可以用公认的引物对每一读取值使用该过滤器,其具有以下参数:取代的数目> 6,或均聚物插入缺失的数目> 5,或其他简单突变的数目> 5,或简单突变的总数目> 10。其它实施方案使用以下参数:取代的数目> 12,均聚物插入缺失的数目> 10,或其他简单突变的数目> 12,或简单突变的总数目> 2。
图2A显示基因组的目标区域的参考序列200。小写字母是指基因特异性引物,并且大写字母是指目标的基因组目标区域。在显示的实例中,正向引物具有15个碱基,并且反向引物具有15个碱基。具体地,该序列来自CDKN2A_外显子_l。
图2B显示根据本发明的实施方案通过MCF过滤掉的序列读取值250。在一次实验中,存在325个正向读取值和252个反向读取值,其具有序列读取值250的相同模式。符号“/”表示正向引物中的匹配碱基,符号“\”表示反向引物中的匹配碱基,点表示目标中的匹配碱基,破折号表示缺失,小写字母表示插入碱基,大写字母表示取代碱基。
如可以看到的,存在许多变化,即使引物完美匹配。因为存在许多突变,这些读取值通过MCF过滤,并且不用于突变计数器。在一个实施方案中,突变计数器是突变的计数,所述突变是在经确定对应于目标区域的序列读取值中出现的目标区域的每个位置。计数器可以包括哪些突变趋向于在相同的序列读取值上发生。
研究后,发现序列读取值250与20号染色体上的钙粘蛋白-4前蛋白原几乎完美序列匹配(注意,基因CDKN2A在9号染色体上)。因此,这些错误的读取值可以归因于基因组的不同区域(即,除了目标区域以外)的不预期的扩增。序列匹配是几乎完美的,除了在查询序列的5'末端(在引物区域中)存在一个额外碱基,并且在查询序列的3'末端存在四个额外碱基。该研究表明,MCF可以过滤掉显著不同于目标的基因组区段。它也表明,开发可以独特地扩增目标区域的高保真酶可以是重要的。
III. 替代区域
鉴于用于扩增的引物有时不是非常特异性的鉴定,当其他区域部分或完全相似于目标区域(例如,其他区域在五个位置可以不同)时,基因组的其他区域可以进行扩增。因此,可以在测序之前发生的靶向程序过程中扩增基因组的非预期部分,如上对于图2A和2B所显示。类似地,用于捕获目标的富集探针可以不是非常特异性的。
此类相似的序列可以被鉴定为目标区域的突变体读取值,但实际上,它们是简单地来自基因组的不同部分的野生型序列。因此,来自基因组的替代部分的这些序列可以导致假阳性(即,错误地被鉴定为突变)。所得的非目标序列读取值可以与目标区域非常不同,因此可以使用突变计数过滤器(MCF)。然而,可以存在数次其中差异不大,但读取值仍然是被扩增和/或捕获的基因组的其他部分的结果。这些读取值可以与目标是相当类似的,例如,仅具有3-7个变化。类似于目标区域、但不是目标的这些读取值应当从目标基因的突变的计数器排除。
图3显示根据本发明的实施方案的序列读取值310相对于目标序列(即目标区域)320的比较。序列读取值310显示在五行中每行的顶部,并且目标序列320显示在五行中每行的底部。序列读取值310的位置用标签311显示。使用基于0的扩增子坐标系统,最上面一行显示位置1-60,第二行显示位置61-120,第三行显示位置121-180,第四行显示位置181-239,且第五行显示位置240-248。位置1-24对应于正向引物,且最后26个位置对应于反向引物,并且目标区域在之间。
序列读取值310是BLAST(基本局部比对搜索工具)中与22号染色体上的假基因完美匹配者,且目标序列320对应于3号染色体上的PIK3CA_外显子_10。使用BLAST将序列读取值310与目标序列320比对显示在图3的比较中。序列读取值310和目标序列320上的相应位置之间的每个垂直线显示匹配,且垂直线的不存在表明错配。序列读取值310是目标区域320的替代区域的实例。
比对显示存在三种变体,一种变体331是在引物区域的位置6(C>T的转换),另外两种变体332和333在目标区域中。变体332在位置174,且显示A>C的转换。变体333由在位置198-199的两个差异构成,其具有GT>C的转换,其中T缺失。在另一个实施方案中,变体333可以被计数为两个分别的变化。引物区域中的位置6的变体331显示,当存在错配时,引物仍可杂交,或者引物可以在生物化学上变化,因此杂交至基因组的不同部分。相对长的序列中只具有两个变化显示,MCF没有去除所有假阳性,因为真阳性可以具有两个变化,并且可能具有更多,多达MCF的截止值。
这两种变体332和333(突变组合的实例)的存在会实际上对应于22号染色体上的假基因,而不是被分类为3号染色体上的PIK3CA_外显子_10的突变。因此,如果计算机系统在序列读取值中看到匹配假基因的两种变体332和33,则序列读取值不应被计数在最后的计数器中。这种相同的方法可以应用于类似于目标区域320的其他替代区域,并且应用于其他目标区域,如本文中详细说明。
图4显示根据本发明的实施方案的序列读取值410相对于目标序列(即目标区域)420的比较的另一个实例。目标序列420显示在三行中每行的顶部,并且序列读取值410中的变体显示在三行中每行的底部。目标序列420和序列读取值410之间的匹配用点“.”显示,并且变化显示为不同的碱基。
序列读取值410对应于CDKN2B基因,并且目标序列420对应于CDKN2A_外显子_2.1。如可以看到,CDKN2B和CDKN2A_外显子_2.1是相似的。三种变体431、432和439在引物区域中,其中变体431和432在正向引物中,并且变体439在反向引物中。
目标区域中存在六种突变(变体)。变体433在位置54,显示A>C的转换。变体434在位置99,显示C>A的转换。变体435在位置105,显示C>T的转换。变体436在位置123,显示C>G的转换。变体437在位置129,显示C>T的转换。变体438在位置123,显示C>T的转换。这种变体的组合可用于从CDKN2A_外显子_2.1的突变计数器排除CDKN2B读取值。鉴于CDKN2B中的突变的可能性,如果序列读取值具有超过一半数目的变体(在该实例中,四种或更多种变体) ,则一个实施方案可以排除该序列读取值以便从CDKN2A_外显子_2.1的计数器排除该序列读取值。
图5显示根据本发明的实施方案的序列读取值510相对于目标序列(即目标区域)520的比较的另一个实例。目标序列520显示在三行中每行的顶部,并且序列读取值510中的变体显示在三行中每行的底部。目标序列520和序列读取值510之间的匹配用点“.”显示,并且变化显示为不同的碱基。
目标序列520对应于PTEN_外显子_5.1.2,并且序列读取值410对应于类似的基因组区段(即替代区域)。一种变体531在引物区域中,并且三种变体532-534在目标区域中。变体532显示G>A的转换。变体533显示A>T的转换。变体534显示G>A的转换。再次,目标区域中的这种变体的组合可用于从PTEN_外显子_5.1.2的突变计数器排除那些读取值。各种方法可用于鉴定替代区域,例如,使用本文描述的实施方案。
IV. 区分目标和替代区域
如上显示,基因组(例如,人基因组)的一些部分可以类似于基因组的其他部分。作为结果,获得自靶向测序方法 (例如,扩增或富集,随后使用通用适配子测序)的序列读取值可类似于目标区域,但实际上来自基因组的另一个部分。例如,扩增引物对可以扩增基因组的多于一个部分。良好的引物设计可以减少或有时避免此类不期望的扩增,但是这并不总是可能的。
为了鉴定基因组区段实际上来自非目标区域,算法可以将序列读取值与整个基因组比对,以找到最佳匹配。然而,将序列与整个基因组比对在计算时间方面可能是相当昂贵的。具体而言,将大量读取值定位至整个人基因组在计算时间和资源方面是有挑战性的。
为了加速定位过程而几乎不损失或不损失关于替代区域的信息,一些实施方案可以: (1) 鉴定类似于目标参考基因的替代序列区段,(2) 将读取值定位至目标参考基因,(3) 将读取值定位至替代区段,和(4)发现获得自(1)和(3)的最佳定位。读取值可以与几个测试区域比对。在这种情况下,比对的质量(例如,错配的数目)可用于确定最佳匹配。
实施方案可以增加计算速度和降低计算机内存要求。实施方案还可以利用平行计算以使计算甚至更快。实施方案不限于测序。例如,由于PCR和富集结果也可以用测序分析,实施方案可用于鉴定PCR检测和基于富集的测试中的假阳性的潜在原因。
图6是说明根据本发明的实施方案检测生物的样品基因组的目标区域中的变体的方法的流程图。方法600可用作用于检测可能与癌症相关的变体的过程的部分。替代区域可以在先前进行的过程中鉴定或者被鉴定为用于检测变体的相同过程的部分(例如,使用相同的测序结果)。
在方框610,接收多个序列读取值。序列读取值获得自测序获得自生物(例如,人或动物)的样品中的多个基因组区段。测序包括靶向来自目标区域的基因组区段。例如,可以进行扩增或富集步骤,以增加来自样品中的一个或多个目标区域的基因组区段的百分比。然后,当进行测序时,测序(例如,使用通用适配子)来自目标区域的基因组区段的可能性得到增加。在一个实施方案中,每个样品接收约3,000个序列读取值。其他实施方案可以接收更多或更少。
在方框620,鉴定与参考基因组的目标区域相比具有各自第一数目的变化的一个或多个替代区域。每个各自第一数目大于一,并且小于第一阈值数目。例如,第一区域可能具有来自参考基因组中的目标区域的5个变化。如果第一阈值数目大于5,则第一区域可以被鉴定为第一替代区域。
如果存在多于一个替代区域,则不同的替代区域可以具有相对于目标区域的不同数目的变化,并且因此各自第一数目可以是不同的。第一阈值数目的实例是6和10之间的值,包括实数(即不仅是整数)。替代区域可以包括已知的突变,甚至还有来自其他基因组的区域。例如,替代区域可以对应于病毒基因组或其他嵌入序列。
在一个实施方案中,替代区域可以通过访问存储先前鉴定的相应目标区域的替代区域的数据库来鉴定。例如,目标区域可以具有相应的标识符,并且该标识符可用于交叉参考对应于目标区域的一个或多个替代区域。因此,用户将特定目标区域输入软件之后,该软件可以从存储器检索替代区域用于分析当前测序运行的结果。在另一个实施方案中,替代区域可以使用来自本测序运行的数据来鉴定。
在方框630,鉴定一组序列读取值,所述序列读取值与参考基因组的目标区域比对,且具有小于第二阈值数目的变化。多个序列读取值可以经由任何合适的方法(例如,使用BLAST)与参考基因组的目标区域比对。变化的数目可以被计数为其中碱基不同的位置的数目。在其他实施方案中,其中存在差别的相邻位置(邻近的是简单地与特定数目的位置)可以作为单一变化处理。
第二阈值数目可以具有任何值。在一个实施方案中,第二阈值数目是一半第一阈值数目加上一。例如,如果第一阈值数目是10,则第二阈值数目可以选择为六。下面解释此类选择的原因。第二阈值数目可以等于或大于第一阈值数目,但是出于本文所述的原因,较小值可以提供更有效的结果。
样品可以一次测试多于一个目标区域。因此,可以针对每个目标区域进行比对。但是,如果目标已经被鉴定且从存储器中检索,则仅需要针对所研究的目标区域进行比对。因此,如果针对第一目标区域和第二目标区域研究样品,则序列读取值可以仅与第一目标区域和第二目标区域比对。
在方框640,可以从该组中去除与替代区域之一序列匹配且具有小于第三阈值数目的第二数目的变化的的序列读取值。在一个实施方案中,第三阈值数目是从该组去除的变化的相应的第一数目的一半。例如,假设第一替代区域具有相对于目标区域的六个变化。然后,变化的相应的第一数目为六。如果第一序列读取值相对于第一替代区域具有两个变化 (和可能来自目标区域的四个变化),则第一序列读取值将去除。由于第一序列读取值更类似于第一替代区域,所以可以估计,第一序列读取值是替代区域的突变的结果,而不是目标区域的突变的结果。通常将去除更好地与替代区域序列匹配的所有此类序列读取值,但是某些标准可以用作例外,以保持此类序列读取值中的一些。
在其他实施方案中,可以使用更严格或不那么严格的第三阈值数目,即,小于或大于变化的相应的第一数目的一半。例如,第三阈值数目可以等于一(没有变化)。然而,如果替代区域从不同患者确定且从存储器中检索,则可能本样品中的替代区域的突变可将读取值贡献至所述组。为了解决此类问题,可以标记序列读取值以指示序列读取值与替代区域序列匹配的水平。例如,可以保持与替代阈值具有一个或两个变化的序列读取值,但被标记为类似于替代区域。如果替代区域的第一数目的变化足够大(例如,10),则序列读取值的差异水平的其他分类可以是较大数目(诸如3或4)。
可以使用和与目标区域比对相同或类似的过程进行序列读取值至替代区域的比对。例如,可以使用BLAST。在另一个实施方案中,可以使用目标区域和替代区域之间的变化和与目标区域比对的知识来完成序列读取值至替代区域的比对。例如,如果已知目标区域和替代区域具有五个特定变化(例如,在特定位置的碱基差异),则显示五个特定变化中的四个的序列读取值至替代区域的比对会提供具有第五个特定变化的至替代区域的比对。这可以提供更快的比对,其直接使用原始比对程序,所述原始比对程序不使用目标区域和替代区域之间的变化的知识。
在方框650,可以分析所述组的剩余序列读取值以确定样品基因组的目标区域中的变体。例如,可以计数剩余序列的变化。在一个实施方案中,计数在特定位置的每个变化。如果发生变化足够次数(例如,如与绝对数目相比或与所述组中总读取值的百分比相比),则变化可以被归类为突变。实施方案的覆盖的效率和灵敏度可以通过与计算密集型技术(其定位至整个基因组以鉴定最佳匹配)相比较来评价。
V. 鉴定替代区域
可以以各种方式进行一个或多个替代区域的鉴定,所述替代区域相对于目标区域具有小于第一阈值数目的变化。一种方法是搜索整个数据库来找到相似的序列。但是,这种方法是费时的,并且可以缺乏关于在实验将如何扩增相似序列的信息。
另一种方法是利用在相同序列读取值上发生的复杂突变(例如,突变组合)。可以生成报道以显示两个或更多个简单突变的组合的联合频率。发生足够量(例如,至少1%)的突变组合表明所述突变事实上是替代区域的存在。此类替代基因组区段也可以来自目标区域的常见突变。例如,常见突变可以在不同群体之间发生,其中一个群体的区段可以被看作不同群体的区段的替代(例如,欧洲相对于亚洲祖先)。
在一个实施中,对于组合简单突变以成为对突变计数器具有显著影响的替代基因组区段,可以使用某些条件。实例条件如下。组合突变应该出现在多个样品和训练数据集的多个运行中。第二,样品内的组合突变的频率不应该是可忽略的(例如,大于1%)。第三,相应序列应当与不同于目标的基因组区段具有近乎完美的匹配(例如,仅一个或两个错配)。
图7是用于根据本发明的实施方案鉴定对应于目标区域的替代区域的方法700的流程图。可以对一个或多个研究样品进行作为初始过程的方法700,并且对应于特定目标区域的鉴定的替代区域可以存储在软件中或在软件中提供给最终用户(例如,实验室)。以这种方式,最终用户不必鉴定替代区域本身。因此,用户将特定目标区域输入软件之后,该软件可以从存储器检索这些先前鉴定的替代区域以用于分析当前测序运行的结果。
在方框710,获得多个测序读取值。测序方法涉及靶向一个或多个目标区域,如本文所述。在一个实施方案中,方法700可以使用来自初始测序运行的测序结果来进行,所述初始测序运行在用于鉴定突变的测试测序运行之前进行。该初始测序运行可以使用与被测试突变的样品不同的研究样品。研究样品可以来自相同的生物或来自不同的生物。该初始测序运行可以获得类似量的读取值(例如,2,000至3,000)。此类初始测序运行可以用于鉴定替代区域,所述替代区域可用于其他患者的将来测试运行(futures test runs)。在另一个实施方案中,用于鉴定突变的相同的序列读取值的至少一部分可用于鉴定替代区域。因此,可以使用相同的测序运行。
在方框720,计数序列读取值的数目,所述序列读取值各自在相同的多个位置与参考基因组的目标区域不同。可以将相对于目标区域具有相同变化的序列读取值置于相同的替代组,因为它们可以与相同的替代区域相关。由于变化是相同的,所以这些读取值可以提示基因组中的替代区域。例如,100个序列读取值与目标区域的差异可以为完全相同的6个变化。可以标识这些100个序列读取值,并且存储和追踪100的计数。
序列读取值可以与邻近区域(例如,与目标区域相比的区域)是相同的。但是,在一些实施方案中,序列读取值不必在此类邻近区域内是相同的。例如,所述序列读取值在一些中间区域可以不同。可以要求替代的序列中的此类差异低于特定数目,所述特定数目是绝对值,或者被设定为百分比。例如,可以要求替代组的序列读取值共享这些变化的至少X%(例如,70%、80%或90%)。替代组内的此类差异可以由杂合突变导致,其中两个基因组区段来自相同的替代区域,但来自不同的染色体。
在一个实施中,当允许替代组的序列读取值间的差异时,序列读取值可以成簇。坐标可以是在每个位置的碱基值。可以鉴定(例如,最常见测序)簇类的图心(centroid),并且可以包括相差特定数目的碱基的序列。
在一个实施方案中,替代组的共享变化的数目可以在指定值封顶。例如,与目标区域相差超过阈值数目(例如,来自方法600的第一阈值)的变化的读取值可以从考虑添加至替代组中去除。该阈值可以与用于MCF程序的阈值是相同的。由于此类读取值将在正常运行中去除,所以在确定不会计数其读取值的替代区域中不可存在许多目的。
在一个实施中,用于考虑序列读取值用于添加至替代组的阈值可以是多于一个MCF阈值。例如,此类替代区域(即,比MCF更多的变化)可能是有用的,因为一些序列读取值可以低于MCF,但是更类似于替代区域(例如,对于替代区域具有14的第一阈值的10的MCF可以具有序列读取值(其中8更类似于替代区域))。因此,该阈值可以是MCF的阈值的两倍。在另一个实施中,用于考虑序列读取值用于添加至替代组的阈值可以比替代区域中的变化的数目的最终阈值要求更大。例如,如果替代区域的序列读取值不必是相同的,则一些序列读取值可以大于允许的共享变化的数目的阈值。
在方框730,确定具有大于指定量(截止值)的计数的序列读取值(例如,替代组的序列读取值)。该特定量也可以被认为是丰度过滤器。例如,指定量可以是绝对数目(诸如200或300),或总读取值的百分比(例如,1%)。在一个方面,一个假设是,如果突变组合来自基因组的实际部分,则此类小计数不会存在。
输出是被确定为一起发生的多个替代组的变化。以这种方式,如果只有几个此类读取值具有该突变,则所述变化可能是人为结果,并且与基因组的实际部分不相关。而且,此类读取值无法在丰度过滤器中幸存以鉴定突变,因此不可获得任何益处。
在方框740,可以去除对应于目标区域的已知突变的替代组。该步骤是任选的,其可以是其他方法的其他步骤。数据库可以搜索医疗有意义的突变,或者已知发生、但与疾病不相关的突变。对于后者,此类已知突变可以在群体的显著部分中发生。参考可以选自与样品相同的群体,或者已知突变可以简单地包括该群体的已知突变。如果测序数据用于实际的测试样品,这种与已知突变的对应性可以导致判定样品的突变。
在方框750,剩余替代组的序列读取值(即,其数目超过指定量)可以与参考基因组比对。可以独立地比对替代组的读取值间的变化的任何点(例如,用于SNP的每个等位基因的两个比对)。例如,对于相似序列的簇,可以鉴定两个亚簇(例如,相差SNP或其他多态性),并且可以比对两个亚簇。
在方框760,如果组的读取值与第一区域比对具有比与目标区域比对更少的变化,则第一区域可以被鉴定为替代区域。因此,所述比对可以提供最佳的匹配区域。如果存在提供与目标区域的最佳匹配(或可能相同)的另一个区域,则该区域可以被鉴定为替代区域。这些替代区域然后可以存储在存储器中,然后当目标区域用于将来运行中时访问用于使用。例如,用户可将目标区域输入计算机,其然后可以搜索数据库以鉴定替代区域。
在一个实施方案中,如果没有发现任何替代区域(即,没有其他区域是最佳匹配),则所述变化可以被鉴定为目标区域的突变。此类突变可以被存储在已知突变的数据库,并且用于上述方法中。
作为实例,来自测序运行的读取值的比对显示EGFR外显子19在位置2237-2248的新的突变。该突变是AATTAAGAGAAG>CCC (SEQ ID NO:9和10)。注意到,在位置2250的取代(A> G)以相似频率出现,这表明突变是组合突变且共同发生。确认突变发生在相同的读取值上。因此,对于位置2237-2250,突变应当被描述为AATTAAGAGAAGCA >CCCCG (SEQ ID NO:11和12),这是两个简单突变的组合。复杂的突变报道比简单地鉴定两个或更多个简单的突变具有相似的频率更好,因为它们可能不会出现在相同读取值中,并且联合频率可以是低的。而且,可能组合的子集可以以更高的联合频率出现,并且使得整个组合的频率不均匀。
因此,使用关于复杂突变的报道的实施方案可以有效地找到具有来自目标的两个或更多个简单变体的替代基因组区段。也可能替代基因组区段含有来自目标的0或1个变体。在一个实施方案中,在引物的设计中,努力消除来自不同的基因组位置的相同区段。如果差异只是一个简单的变体,则可以用上述实施方案使用关于单一简单变体的报道,以鉴定和去除与目标具有一个简单变体差异的假阳性读取值。
图9中的表格显示在多个样品和多个运行中出现的复杂突变(简单突变的组合)。复杂突变对应于图3-5的实例。数据库搜索证明它们对应于替代的人基因组区段。如前面提到,可以将该搜索延伸至其他生物诸如病毒。
对于富集,类似于目标区域的替代序列区段的鉴定可以如下进行。取决于不同的目的,对于感兴趣的目标基因,一些实施方案可以包括具有相邻的剪接位点的目标外显子,或包括启动子、5'-UTR、3'-UTR、内含子和外显子。目标序列可以分为小重叠区段,例如,区段可以是150个碱基长,并且两个重叠的区段可以具有75个碱基重叠)。这些区段可以作为读取值处理,并且定位至整个基因组,以找到具有高相似性的替代区段。在一个或多个文件中可以包括这些替代区段。可以进行新的注释,并且新的参考序列坐标可以与原始的基因组坐标相关,例如,作为鉴定用于目标区域的替代区域的部分。
VI. 计算机系统
本文提到的任何计算机系统可以利用任何合适数目的子系统。此类子系统的实例在图8中显示在计算机设备800中。在一些实施方案中,计算机系统包括单一计算机设备,其中所述子系统可以是计算机设备的组件。在其他实施方案中,计算机系统可以包括多个计算机设备,每个都是具有内部组件的子系统。
图8中显示的子系统经由系统总线875互连。显示额外子系统,诸如打印机874、键盘878、一个(或多个)存储设备879、监视器876,其耦合至显示适配器882和其他。耦合至I/O控制器871的外围设备和输入/输出(I/O)设备可以通过本领域中已知的任何数目的方式(诸如串行端口877)连接至计算机系统。例如,串行端口877或外部接口881(例如,以太网、Wi-Fi等)可用于将计算机系统800连接至广域网,诸如因特网、鼠标输入设备或扫描仪。经由系统总线875的互连允许中央处理器873与每个子系统通信,并且控制来自系统存储器872或存储设备879(例如,硬盘)的指令的执行,以及子系统之间的信息的交换。系统存储器872和/或存储设备879可以具体化为计算机可读介质。本文提到的任何值都可以是从一个组件至另一个组件的输出,并且可以是给用户的输出。
计算机系统可以包括多个相同的组件或子系统,例如,通过外部接口881或通过内部接口连接在一起。在一些实施方案中,计算机系统、子系统或设备可以经网络通信。在此类情况下,一台计算机可以被认为是客户端且另一台计算机被认为是服务器,其中每个可以是相同的计算机系统的部分。客户端和服务器可以各自包括多个系统、子系统或组件。
应当理解的是,本发明的任何实施方案可以以控制逻辑的形式使用硬件(例如,应用专用集成电路或现场可编程门阵列)和/或使用具有通常可编程处理器的计算机软件以模块化或集成的方式来实施。如本文所使用,处理器包括相同集成芯片上的多核处理器,或单个电路板上的或联网的多个处理单元。基于本文提供的公开和教导,本领域普通技术人员将知道且理解使用硬件和硬件与软件的组合实施本发明的实施方案的其他方式和/或方法。
本申请中描述的任何软件组件或函数可以作为软件代码实施,所述软件代码通过使用任何合适的计算机语言,诸如,例如Java、C++或Perl使用,例如,常规或面向对象的技术由处理器来执行。软件代码可以被存储为用于存储和/或传输的计算机可读介质上的一系列指令或命令,合适的介质包括随机存取存储器(RAM),只读存储器(ROM),磁性介质,诸如硬盘-驱动器或软盘,或光学介质,诸如光盘(CD)或DVD(数字多功能盘),闪存,等。计算机可读介质可以是此类存储或传输设备的任何组合。
此类程序还可以编码和使用适配于经由符合各种方案的有线、光学和/或无线网络(包括因特网)传输的载波信号来传输。因此,根据本发明的实施方案的计算机可读介质可以使用用此类程序编码的数据信号来生成。用程序代码编码的计算机可读介质可以用兼容设备包装或由其他设备(例如,经由因特网下载)分开提供。任何此类计算机可读介质可以驻留在单个计算机程序产品(例如,硬盘驱动器、CD或整个计算机系统)上或其中,并且可以存在于系统或网络内的不同的计算机程序产品上或其中。计算机系统可以包括监示器、打印机或用于将任何本文提到的结果提供给用户的其他合适的显示器。
任何本文描述的方法可以用包括一个或多个处理器(其可以被配置以执行步骤)的计算机系统完全或部分地进行。因此,实施方案可以涉及经配置以进行本文描述的任何方法的步骤的计算机系统,其可能具有进行各步骤或各组步骤的不同的组件。尽管呈现为编号的步骤,但本文方法的步骤可以同时或以不同顺序来进行。此外,这些步骤的部分可以用来自其他方法的其他步骤的部分来使用。而且,所有或部分步骤可以是任选的。此外,任何方法的任何步骤可以用模块、电路或用于进行这些步骤的其他方式来进行。
具体实施方案的具体细节可以任何合适的方式组合,而不脱离本发明的实施方案的精神和范围。然而,本发明的其他实施方案可以涉及与每个个别方面或这些个别方面的特定组合相关的特定实施方案。
本发明的示例性实施方案的上述描述已经出于说明和描述的目的来呈现。它不期望是穷尽的或将本发明限定于所述精确形式,并且许多改变和变化鉴于上述教导是可能的。选择且描述实施方案以便最好地解释本发明的原则和其实际应用,进而使本领域技术人员以各种实施方案和适用于考虑的具体应用的各种改变来最好地利用本发明。
“一个/种(a)”、“一个/种(an)”或“该(the)”的记载旨在意指“一个/种或多个/种”,除非明确地相反指示。

Claims (20)

1.检测生物的样品基因组的目标区域中的变体的方法,所述方法包括:
- 接收多个序列读取值,所述序列读取值获得自测序获得自所述生物的样品中的基因组区段,其中所述测序包括靶向来自所述目标区域的基因组区段;
- 鉴定与参考基因组的目标区域相比具有各自第一数目的变化的一个或多个替代区域,每个各自第一数目大于一且小于第一阈值数目;
- 用计算机系统进行多个序列读取值与参考基因组的目标区域的比对,以鉴定与所述参考基因组的目标区域序列匹配且具有小于第二阈值数目的变化的序列读取值的组;
- 从所述组中去除与替代区域之一序列匹配且具有小于第三阈值数目的第二数目的变化的序列读取值;和
- 分析所述组的剩余序列读取值以确定所述样品基因组的目标区域中的变体。
2.权利要求1的方法,其中靶向来自目标区域的基因组区段包括使用经设计以扩增所述目标区域的引物对来扩增基因组区段。
3.权利要求1的方法,其中靶向来自目标区域的基因组区段包括使用锚定至表面的探针以选择来自所述目标区域的基因组区段。
4.权利要求1的方法,其中所述第三阈值数目是所述替代区域的变化的相应的第一数目的一半。
5.权利要求1的方法,其中所述第三阈值数目为一。
6.权利要求1的方法,其中鉴定替代区域包括:
- 计数序列读取值的数目,所述序列读取值各自在相同的多个位置与所述参考基因组的目标区域不同,所述序列读取值形成替代组;
- 如果所述数目超过截止值,则进行来自所述替代组的第一序列读取值与所述参考基因组的比对;和
- 如果所述第一序列读取值与所述参考基因组的第一区域的比对比与所述目标区域的比对具有更少的变化,则将所述第一区域鉴定为替代区域。
7.权利要求6的方法,其中所述替代组的序列读取值在邻近区域内是相同的。
8.权利要求6的方法,其中用于鉴定所述第一区域的序列读取值来自不同样品的测序。
9.权利要求6的方法,进一步包括:
- 将所述第一序列读取值与所述目标区域的已知突变的数据库比较;和
- 如果所述第一序列读取值对应于所述目标区域的已知突变,则由于对应于替代区域而丢弃所述替代组。
10.权利要求1的方法,其中替代区域来自包括除了参考基因组以外的序列的序列数据库。
11.权利要求1的方法,其中分析所述组的剩余序列读取值以确定所述样品基因组的目标区域中的变体包括:
- 在所述目标区域中的每个位置,计数与所述参考基因组不同的序列读取值的数目。
12.权利要求1的方法,进一步包括:
- 针对一个或多个其他目标区域重复所述方法。
13.权利要求12的方法,其中所述测序在测序两个或更多个样品的运行中进行,其中所述基因组区段包括对应于多个样品中的一个样品的ID,并且其中至少两个样品具有不同的目标区域。
14.权利要求12的方法,其中所述样品具有第一目标区域和第二目标区域,并且其中所述序列读取值仅与所述第一目标区域和所述第二目标区域比对。
15.权利要求1的方法,其中所述替代区域来自不同的基因组。
16.权利要求1的方法,进一步包括:
- 通过以下将序列读取值与替代区域比对:
- 鉴定所述替代区域和所述目标区域之间的第一变化;
- 将所述序列读取值与所述目标区域比对,以鉴定所述序列读取值和所述目标区域之间的第二变化;和
- 将所述第一变化与所述第二变化比较。
17.计算机产品,其包括存储多个指令的非临时性计算机可读介质,当执行时,所述指令控制计算机系统以检测生物的样品基因组的目标区域中的变体,所述指令包括:
- 接收多个序列读取值,所述序列读取值获得自测序获得自所述生物的样品中的基因组区段,其中所述测序包括靶向来自所述目标区域的基因组区段;
- 鉴定与参考基因组的目标区域相比具有各自第一数目的变化的一个或多个替代区域,每个各自第一数目大于一且小于第一阈值数目;
- 进行多个序列读取值与参考基因组的目标区域的比对,以鉴定与参考基因组的目标区域序列匹配且具有小于第二阈值数目的变化的序列读取值的组;
- 从所述组中去除与替代区域之一序列匹配且具有小于第三阈值数目的第二数目变化的序列读取值;和
- 分析所述组的剩余序列读取值以确定所述样品基因组的目标区域中的变体。
18.权利要求17的计算机产品,其中鉴定替代区域包括:
- 计数序列读取值的数目,所述序列读取值各自在相同的多个位置与所述参考基因组的目标区域不同,所述序列读取值形成替代组;
- 如果所述数目超过截止值,则进行来自所述替代组的第一序列读取值与所述参考基因组的比对;和
- 如果所述第一序列读取值与所述参考基因组的第一区域的比对比与所述目标区域的比对具有更少的变化,则将所述第一区域鉴定为替代区域。
19.用于检测生物的样品基因组的目标区域中的变体的系统,所述系统包括:
一个或多个处理器,所述处理器经配置以:
- 接收多个序列读取值,所述序列读取值获得自测序获得自所述生物的样品中的基因组区段,其中所述测序包括靶向来自所述目标区域的基因组区段;
- 鉴定与参考基因组的目标区域相比具有各自第一数目的变化的一个或多个替代区域,每个各自第一数目大于一且小于第一阈值数目;
- 进行多个序列读取值与参考基因组的目标区域的比对,以鉴定与参考基因组的目标区域序列匹配且具有小于第二阈值数目的变化的序列读取值的组;
- 从所述组中去除与替代区域之一序列匹配且具有小于第三阈值数目的第二数目的变化的序列读取值;和
- 分析所述组的剩余序列读取值以确定所述样品基因组的目标区域中的变体。
20.权利要求19的系统,进一步包括:
- 存储与所述目标区域相关的一个或多个替代区域的数据库,其中所述一个或多个替代区域的鉴定包括从所述数据库检索所述一个或多个替代区域。
CN201380062074.1A 2012-11-29 2013-11-27 靶向的测序读取值的准确且快速的定位 Active CN104937598B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/689,314 US9218450B2 (en) 2012-11-29 2012-11-29 Accurate and fast mapping of reads to genome
US13/689314 2012-11-29
PCT/EP2013/074799 WO2014083023A1 (en) 2012-11-29 2013-11-27 Accurate and fast mapping of targeted sequencing reads

Publications (2)

Publication Number Publication Date
CN104937598A true CN104937598A (zh) 2015-09-23
CN104937598B CN104937598B (zh) 2017-11-07

Family

ID=49641777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380062074.1A Active CN104937598B (zh) 2012-11-29 2013-11-27 靶向的测序读取值的准确且快速的定位

Country Status (7)

Country Link
US (2) US9218450B2 (zh)
EP (1) EP2926288B1 (zh)
JP (1) JP6240210B2 (zh)
CN (1) CN104937598B (zh)
CA (1) CA2891731C (zh)
ES (1) ES2869292T3 (zh)
WO (1) WO2014083023A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012142213A2 (en) 2011-04-15 2012-10-18 The Johns Hopkins University Safe sequencing system
EP3447495B2 (en) 2012-10-29 2024-03-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
JP6618929B2 (ja) * 2014-05-12 2019-12-11 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft ウルトラディープシークエンシングにおける希少バリアントコール
CA2974182A1 (en) * 2014-09-03 2016-03-10 Otsuka Pharmaceutical Co., Ltd. Pathology determination assistance device, method, program and storage medium
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
EP3235010A4 (en) 2014-12-18 2018-08-29 Agilome, Inc. Chemically-sensitive field effect transistor
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
JP6675164B2 (ja) * 2015-07-28 2020-04-01 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
CA3031094A1 (en) * 2016-07-21 2018-01-25 Walmart Apollo, Llc Vector-based characterizations of products and individuals with respect to selecting items for store locations
MX2020001575A (es) 2017-08-07 2020-11-18 Univ Johns Hopkins Materiales y métodos para evaluar y tratar el cáncer.
JP7054133B2 (ja) * 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
US10854317B2 (en) * 2017-12-29 2020-12-01 Act Genomics Co., Ltd. Method and system for sequence alignment and variant calling
CN111477274B (zh) * 2020-04-02 2020-11-24 上海之江生物科技股份有限公司 微生物目标片段中特异性区域的识别方法、装置及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1207811A (zh) * 1995-12-06 1999-02-10 贝林格尔·英格海姆国际有限公司 诊断及治疗鳞状细胞癌的方法
US20030138778A1 (en) * 2001-11-30 2003-07-24 Garner Harold R. Prediction of disease-causing alleles from sequence context
CN1594564A (zh) * 2004-06-25 2005-03-16 湖南西城杂交水稻基因科技有限公司 利用可转化大片段基因组文库发掘野生稻有利基因的方法
CN101019019A (zh) * 2004-04-23 2007-08-15 奥克尼卡公司 表面强化的光谱学活性复合纳米颗粒

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809509B2 (en) 2001-05-08 2010-10-05 Ip Genesis, Inc. Comparative mapping and assembly of nucleic acid sequences
US20040229269A1 (en) 2003-05-15 2004-11-18 Ghazala Hashmi Hybridization-mediated analysis of polymorphisms
ES2906714T3 (es) * 2012-09-04 2022-04-20 Guardant Health Inc Métodos para detectar mutaciones raras y variación en el número de copias
US20140066317A1 (en) * 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1207811A (zh) * 1995-12-06 1999-02-10 贝林格尔·英格海姆国际有限公司 诊断及治疗鳞状细胞癌的方法
US20030138778A1 (en) * 2001-11-30 2003-07-24 Garner Harold R. Prediction of disease-causing alleles from sequence context
CN101019019A (zh) * 2004-04-23 2007-08-15 奥克尼卡公司 表面强化的光谱学活性复合纳米颗粒
CN1594564A (zh) * 2004-06-25 2005-03-16 湖南西城杂交水稻基因科技有限公司 利用可转化大片段基因组文库发掘野生稻有利基因的方法

Also Published As

Publication number Publication date
US20140149049A1 (en) 2014-05-29
EP2926288A1 (en) 2015-10-07
EP2926288B1 (en) 2021-03-17
CA2891731A1 (en) 2014-06-05
JP2015536661A (ja) 2015-12-24
US20160092630A1 (en) 2016-03-31
CA2891731C (en) 2017-09-12
US9218450B2 (en) 2015-12-22
US10127351B2 (en) 2018-11-13
WO2014083023A1 (en) 2014-06-05
ES2869292T3 (es) 2021-10-25
JP6240210B2 (ja) 2017-11-29
CN104937598B (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN104937598A (zh) 靶向的测序读取值的准确且快速的定位
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
KR102356323B1 (ko) 서열 변이체 콜에 대한 검증방법 및 시스템
Guo et al. Multi-perspective quality control of Illumina exome sequencing data using QC3
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
CN106715711A (zh) 确定探针序列的方法和基因组结构变异的检测方法
EP3143537A1 (en) Rare variant calls in ultra-deep sequencing
CN113160882A (zh) 一种基于三代测序的病原微生物宏基因组检测方法
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
US20230129183A1 (en) Tailored gene chip for genetic test and fabrication method therefor
Lee et al. Large-scale evolutionary surveillance of the 2009 H1N1 influenza A virus using resequencing arrays
Griffing et al. Canonical single nucleotide polymorphisms (SNPs) for high-resolution subtyping of Shiga-toxin producing Escherichia coli (STEC) O157: H7
WO2011040886A1 (en) Methods and arrays for dna sequencing
He et al. Factorial estimating assembly base errors using k-mer abundance difference (KAD) between short reads and genome assembled sequences
US20160171151A1 (en) Method for determining read error in nucleotide sequence
JPWO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
Kaiser et al. Automated structural variant verification in human genomes using single-molecule electronic DNA mapping
Sorrentino et al. CNV analysis in a diagnostic setting using target panel.
US11001880B2 (en) Development of SNP islands and application of SNP islands in genomic analysis
WO2022168195A1 (ja) 遺伝情報解析システム、及び遺伝情報解析方法
Zhang et al. Analysis of Clinical Laboratory Detecting Challenging Variants from Exome Sequencing Using Simulated Patient–Parent Trio Sample: Pilot Study for Neurodevelopmental Disorder de Novo Variants
US20090182512A1 (en) Gene information processing apparatus and gene information display apparatus
CN114974416A (zh) 一种检测相邻多核苷酸变异的方法及装置
Zeller et al. Resequencing data of 20 Arabidopsis ecotypes
Hambuch et al. Whole Genome Sequencing in the Clinical Laboratory

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant