CN103582887A

CN103582887A - 提供核苷酸序列数据

Info

Publication number: CN103582887A
Application number: CN201280027901.9A
Authority: CN
Inventors: P·J·范德扎格; R·安伯格; W·F·J·费尔哈格; P·拜尔莱因; R·伯特歇尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-06-07
Filing date: 2012-04-17
Publication date: 2014-02-12
Anticipated expiration: 2032-04-17
Also published as: CN103582887B; EP2718866A2; US20140329690A1; US10373705B2; JP2014518638A; WO2012168803A3; EP2718866B1; JP6265891B2; WO2012168803A2

Abstract

一种测序装置，产生基础核苷酸序列数据30，其包含所述测序装置10中的捕获探针的探针数据34以及由所述探针捕获的核酸片段的标识符的确定序列32。所述测序装置输出富集的核苷酸序列数据36，其用包含对所述核酸片段预期的序列38的参考的数据富集。

Description

提供核苷酸序列数据

技术领域

本发明涉及核酸测序和生物信息学领域。特别地，本发明涉及提供核苷酸序列数据的方法、确定核酸样品的核苷酸序列的方法、程序元件、计算机可读段介质和测序装置。

背景技术

最近的测序技术使得能同时确定大量核苷酸序列。通常，通过机械或酶促技术使DNA或RNA靶样品片段化，然后使单独的片段经由核苷酸接头分子结合至底物(例如，反应室的壁、微阵列或微载体/珠)，所述接头分子连接至该底物并且能够捕获片段。对于除了单分子测序以外的技术，随后进行基于PCR的扩增步骤。随后，对于结合至底物的每个DNA或RNA片段，逐步并入和鉴定核苷酸。重复这个过程多次并且将所有单独片段的测序读段(read)进行比对以完成所研究的靶样品的序列。

现在，测序领域中已经开发了靶向再测序的标准程序，这使得能集中于测序临床上相关的DNA的那些节段(sections)。在靶向测序中，通过特异性捕获探针捕获靶样品的特定片段(fragments)。虽然这可能是有利的，因为其可以节省测序成本，但是生物信息学分析可能仍然是非常繁重的过程，其对于大部分分析很容易花费一周。

在WO2010/097775A1中，捕获寡核苷酸探针连接至编码的微载体，其中该微载体的代码鉴定寡核苷酸探针的序列。序列确定后，通过确定微载体上的编码来鉴定捕获寡核苷酸探针的核苷酸序列。

发明内容

如果使用探针已经捕获片段的信息，可以加速进行生物信息学分析的速度。而且，这还可以减少比对误差(并因此减少输出的共有序列中的误差)，从而可以有助于满足临床要求。

本发明的目的是提供一种廉价、快速和/或可靠的核酸测序方法。

这个目的通过独立权利要求的主题实现。其他示例性实施方案根据从属权利要求和以下的说明书来说明。

本发明的第一方面涉及一种用于提供核苷酸序列数据的方法。

根据本发明的一实施方案，所述方法包括以下步骤：接收基础核苷酸序列数据，所述序列数据包含核酸片段的核苷酸标识符(identifier)的序列以及已经捕获核酸片段的捕获探针的探针数据；通过用关联探针数据与预期序列的信息将探针数据转换为预期序列，以测定核酸片段的预期序列；输出核苷酸序列数据，所述序列数据包含标识符的确定数据和预期序列的参考。

换言之，核苷酸序列数据可以用包含预期序列的参考或预期序列自身的数据来富集。还应当理解，富集的核苷酸序列数据必然包含探针数据。富集的核苷酸序列数据可以仅包含确定的序列和参考。

例如，核苷酸序列数据可以包含基础核苷酸序列数据以及关联探针数据与预期序列的参考的数据表。

预期序列的参考可以包含预期序列和/或可以是该预期序列的第一部分的参考序列的基因组位置。参考还可以是预期序列自身。特别地，参考可以是或者可以包含基因组标识符(例如，基因或外显子的标识符)以及基因或外显子中的预期序列的起始位置。

还应当注意，基因组位置可以是特定基因组中的位置，例如人参考基因组。由于插入和缺失，两个不同基因组中的位置可以不同。

通常，所述方法不仅适用于人基因组，而且还例如适用于其他真核生物、病原体或细菌的基因组。此外，所述方法可以适用于癌(人)细胞的基因组。

通过富集的核苷酸序列数据，可以明显地加速比对过程，因为在比对器中，大区域(全基因组)中的检索可以被小区域(靶区域)中的检索代替。而且，可以不必检查关于正向或反向读取的序列的起点，因为可以已知使用何种探针因而已知序列从那条链开始。

总之，进行所述方法的测序装置可以适用于在比对过程之前产生核苷酸序列数据，其直接或间接编码基因组位置和/或预期序列。可以在碱基读出(base calling)/测序过程之前、期间或之后在测序装置中加入预期序列的参考。

预期序列的参考还可以是软件标识符(即，代码，例如数值、软件标签或软件代码)，其适用于鉴定预期序列。特别地，基因组位置可以加密在软件标识符中。以这样的方式，对于基因组的部分可以加入额外的安全性层，所述基因组的部分可以对诸如阿尔茨海默病的疾病预测是敏感的。

预期序列的参考还可以预期序列的变体的参考。注意，预期序列的参考不一定是唯一的。例如，参考可以指向预期序列的一组遗传变体。

根据本发明的一实施方案，数据探针包含位置数据，并且预期序列通过关联位置数据与预期序列来确定。例如，位置数据可以是微阵列上捕获探针的x-/y-位置。然而，探针数据还可能包含捕获探针所连接的诸如珠的微载体的标签。在本发明的优选实施方案中，探针数据包含位置数据，所述位置数据包含诸如微阵列的微载体上的捕获探针的x-/y-位置，并且预期序列通过关联位置数据与预期序列来确定。

本发明另一方面涉及一种方法，所述方法包括用于确定连接至靶核酸分子的基因组位置信息的靶核酸分子的序列的方法，其包括以下步骤：

提供捕获寡核苷酸探针，其包含与所述靶核酸的部分在序列上互补的两个部分以及任选存在的固定部分，其中所述捕获寡核苷酸探针的部分被非靶互补序列标签分开；

将所述捕获寡核苷酸探针与包含核酸分子的样品杂交，其中所述核酸分子包含至少部分地与所述捕获寡核苷酸探针互补的序列；

任选地将所述捕获寡核苷酸探针-靶核酸复合物固定在固相上；

任选地从所述固相除去未结合的核酸分子；

通过使用聚合酶活性将所述核酸靶分子环化；

扩增所述环化的核酸靶分子，优选通过滚环扩增；

通过产生至少2个核苷酸的序列读段确定所述扩增的核酸靶分子的序列；

鉴定所述非靶互补序列标签的序列；

鉴定所述非靶互补序列标签相邻的捕获寡核苷酸探针的核苷酸序列，其中任选地单独鉴定3'和5'相邻序列；

鉴定参考基因组上所述捕获寡核苷酸探针的序列的位置；以及

提供(i)所述核酸靶的确定序列与(ii)关于其在参考基因组上的位置的信息的组合。

在优选实施方式中，本发明涉及一种用于提供如上文所定义的核苷酸序列数据的方法，其中所述探针数据包含参考基因组上核酸靶的确定序列的位置的信息，所述参考基因组可通过确定连接至如上文所定义的所述靶核酸分子的基因组位置信息的靶核酸分子的序列的方法获得，并且其中所述预期序列通过关联参考基因组上关于所述位置的信息与参考基因组的相应序列而定义。

本发明的另一方面涉及用于一种提供核苷酸序列数据的程序单元或计算机程序，当通过处理器执行时，其适合于进行上文和下文所所述的方法的步骤。

本发明的另一方面涉及一种计算机可读段介质，其中存储这样的程序单元。计算机可读段介质可以是软盘、硬盘、USB(通用串行总线)存储设备、FLASH存储器、RAM(随机存取存储器)或ROM(只读存储器)。

本发明的另一方面涉及一种测序装置。

根据本发明的实施方案，所述测序装置适合于产生基础核苷酸序列数据，所述序列数据包含核酸片段的核苷酸的标识符的确定序列以及已经捕获该核酸片段的捕获探针的探针数据；以关联探针数据与预期序列；以及产生核苷酸序列数据，所述序列数据包含标识符的确定序列和预期序列的参考。

所述测序装置可以包含处理单元，例如一个或多个处理器，其适合于执行上文所述的程序单元。所述测序装置可以包含或者可以连接至存储所述程序单元的计算机可读段介质。

应当理解，上文和下文所述的方法的特征可以是所述计算机可读段介质、上文和下文所述的程序单元和测序装置的特征，反之亦然。

本发明可以用于诊断DNA和RNA测序或者用于生命科学测序市场。

附图说明

参照下文所述的实施方案会明了和理解本发明的这些和其他方面。

在附图中：

图1示出本发明的一实施方案的测序装置的示意图。

图2示出本发明的一实施方案的用于提供核苷酸序列数据的方法流程图。

图3示出本发明的另一实施方案的用于提供核苷酸序列数据的方法的流程图。

图4A示出不同比对器(aligner)比读段冗余度的比对速度的比较。Bowtie、BWA和MAQ对全基因组进行比对；Needleman-Wunsch工具使用位置信息以与相关的参考序列进行比对。设定：靶大小3Mb，读段长度50个碱基，1%序列误差，10%读段脱靶。两个轴均为对数刻度。

图4B示出不同比对器对不同读段长度、读段脱靶百分比和读段冗余度的比较。MAQ(○)、BWA(●)和Bowtie(□)对全基因组进行比对，NW(+)和NWBem(■)使用位置信息来对相关参考序列进行比对。设定：靶大小30Mb，1%测序误差。

图4C示出不同比对器对不同读段长度、读段脱靶百分比和读段冗余度的比较。MAQ(○)、BWA(●)和Bowtie(□)对全基因组进行比对，NW(+)和NWBem(■)使用位置信息来对相关参考序列进行比对。设定：靶大小3Mb，1%测序误差。

图4D示出不同比对器对不同读段长度、读段脱靶百分比和读段冗余度的比较。MAQ(○)、BWA(●)和Bowtie(□)对全基因组进行比对，NW(+)和NWBem(■)使用位置信息来对相关参考序列进行比对。设定：靶大小30Mb，2%测序误差。

图5A示出显示本发明的一实施方案的比对速度增加的进一步图示。

图5B示出显示比对约5百万读段时不同比对器的RAM要求(MB)的图示。物理内存要求是程序所要求的全部虚拟内存的一部分。设定：靶大小3Mb，20x读段冗余度，读段长度50碱基，1%测序误差，10%读段脱靶。

图6示出核苷酸序列数据的读段的头部(header)。

图7示出本发明的一实施方案的核苷酸序列数据的读段。

图8示出本发明的一实施方案的核苷酸序列数据的读段。

图9示出本发明的一实施方案的表。

图10示出本发明的一实施方案的表。

图11示出本发明的一实施方案的核苷酸序列数据的读段。

图12示出本发明的一实施方案的表。

图13示出本发明的一实施方案的表。

图14示出本发明的一实施方案的表。

图15示出本发明的一实施方案的核苷酸序列数据的读段。

图16示出本发明的一实施方案的核苷酸序列数据的读段。

图17示出本发明的一实施方案的核苷酸序列数据的读段。

图18示出本发明的一实施方案的核苷酸序列数据的读段。

图19示出本发明的一实施方案的核苷酸序列数据的读段。

图20示出核苷酸序列变体的实例。

图21示出本发明的一实施方案的表。

图22示出本发明的一实施方案的核苷酸序列数据的读段。

图23示出捕获探针与靶核酸分子之间的相互作用/结合。捕获探针用部分A、部分B和容易鉴定的序列标签L产生，所述部分A与捕获的靶核酸片段的头H互补，所述部分B与捕获的靶核酸片段的尾T互补。节段M表示靶核酸分子的中间部分，其不与A或B互补。

图24示出本发明的捕获探针与靶核酸分子之间的相互作用过程的另一步骤。在图23所示的相互作用之后，产生节段C，其与容易鉴定的序列标签L互补。

图25示出本发明的捕获探针与靶核酸分子之间的相互作用过程更进一步的步骤。在图24所示的相互作用之后，可以在诸如通过滚环扩增(RCA)的扩增过程期间除去捕获探针。图25示出扩增的模板，其包含捕获的靶核酸的头H，捕获的靶核酸片段的尾T，靶核酸分子的中间部分M以及节段C，其与容易鉴定的序列标签L互补。

图26示出确定靶核酸片段的序列所需的滚环扩增和随后的加工和测序步骤的可能结果。

图26A示出图25中所示的核酸靶片段的滚环扩增的可能结果，其中节段A'与图25的节段H互补，节段L'与节段C互补，节段B'与节段T互补，并且节段R与节段M互补。

图26B示出确定靶核酸RCA产物的序列的一种选择，其中将RCA产物随机片段化产生包含R1的一部分、R2的一部分、A'、L'和B'的片段。该片段可以借助引物P1和P2来测序。测序可以提供重叠的读段，因而完全覆盖节段M或R。

图26C示出确定靶核酸RCA产物的序列的另一选择，其中将RCA产物在节段L'特别地片段化产生包含L'的一部分、B'、R、A'以及L'的另一部分的片段。该片段可以例如从L'和/或A'和/或B'开始测序。

图26D示出确定靶核酸RCA产物的序列进一步的选择，其中RCA产物未被片段化。该核酸分子可以例如从L'和/或B'开始测序。

具体实施方式

图1示出测序装置或系统10的示意图。测序装置10包括测序单元12、预处理单元14和比对单元16。三个单元12、14、16可以是通过通讯连接连接的分离装置，但是也可以是一个装置10的模块。特别地，测序单元12和预处理单元14可以形成一个装置，并且可以位于一个外壳(housing)中，并且比对单元16可以是评价装置12、14的输出的计算机或系统。

图1还示出具有多个位置或点20的微阵列18。每个点20含有多个相同的探针分子或捕获分子或寡核苷酸，其适合于捕获核酸片段的特定序列。特别地，捕获探针可以适合于捕捉(杂交)来自基因组的靶区域的核酸片段。用于靶向基因组的节段的捕获探针应当仅对于靶区域是特有的，否则可能捕获来自靶区域以外的片段。

或者，装置10适合于接受具有多个连接捕获探针的微载体20的底物18。可以为微阵列18或微载体20提供标签(例如条形码)，其可以由单元12读段。例如，微阵列18的点20可以具有编码点20中的探针的标签。

对于确定核酸样品的核苷酸序列，将核酸样品分为核酸片段，然后可以将其通过PCR扩增并与点20接触或置于微载体20附近。捕获探针然后与核酸片段杂交。

然后，将底物18或微阵列18放入测序单元12，其测序核酸片段。例如，具有荧光基团的核苷酸结合至核酸片段，并且核苷酸的序列可以通过检测荧光基团发出的光来确定。这可以通过测序单元12的控制器实现，该测序单元12最后对于每个核酸片段产生核苷酸的序列标识符32(参见图2)。

参照图2和图3进一步描述测序装置10的操作。

图2示出用于提供富集的核苷酸序列数据36的方法的流程图。

在步骤S10中，测序单元12通过联系核酸片段的标识符序列32与适合于捕获核酸片段的捕获探针的探针数据34来对于每个核酸片段产生基础核苷酸序列数据30。探针数据可以包含位置34数据，其可以编码捕获探针位于的点20的x-和y-位置。然而，探针数据还可以包含微载体20的标签。在下文中，提供具有位置数据的实施方案。然而，在以下实施方案中，位置数据可以由标签数据代替。

在本发明特别优选的实施方案中，位置数据包含底物上的捕获探针的x-/y-位置，该底物可以是诸如微阵列的微载体或者探针可以结合或可以被结合的其他底物。

通常，基础核苷酸序列数据30(以及富集的核苷酸序列数据36和中间核苷酸序列数据50，参见下文)可以包含多个读段，其中读段可以是核苷酸序列数据30、36、50中的记录或节段，其与核酸的一个片段相关。换言之，一个读段可以包含探针数据以及核酸的一个片段的确定序列。

每个读段可以包含头部和身体部。头部可以包含探针数据34，并且身体部可以包含标识符32的确定序列。身体部还以包含测序数据的质量信息，即确定的序列。

核苷酸序列数据30、36、50可以为文本格式，并且可以存储在文本文件中。读段可以是文本文件中的节段。例如，标识符32的序列可以是包含DNA核苷酸的A、C、G、T的文本串。应当理解，本申请中标识符的所有序列都是实际序列的模板的实例序列。

在步骤S10的末尾，将基础核苷酸序列数据30输出至预处理单元14。

在步骤S12中，接收基础核苷酸序列数据30的预处理单元14对于每个核酸片段产生富集的核苷酸序列数据36。通过进行这些操作，测序装置10可以使用通过已经捕获核酸片段的捕获/杂交探针得到的先验信息。基础核苷酸序列数据30可以用预期序列38或其参考来富集。预期序列38可以包含核苷酸的标识符的序列，所述核苷酸对于核酸的特定片段的标识符32的序列是预期的。例如，预期序列38可以由上述通过捕获探针捕获的参考序列开始。应当理解，捕获探针的序列至少部分地与核酸片段的序列互补。这意味着对应于参考基因组上的探针区域的序列的探针可以捕获上文所定义的核酸片段。因此，所述捕获探针的序列能够通过杂交捕获核酸片段。因此可以想象，杂交的捕获片段的一部分预期至少部分地与捕获探针的序列互补。捕获片段的剩余部分通过测序确定，并且预期等于或类似于预期序列。

本领域技术人员应当立即理解，可能发生捕获的片段的确定序列与本文所定义的预期序列(38)之间的差异，例如单核苷酸多态性(SNP)。因此，为了确定差异，将捕获的片段的确定序列而不是捕获探针的序列与预期序列通过序列比对进行比较。因此应当理解，捕获探针的序列并不与预期序列(38)相同。为了能够进行这样的序列比对，每个确定的测序数据(读段)可以用预期序列38如下富集。

预处理单元14可以通过用关联捕获探针的位置或标签与预期序列38的信息将位置数据34转换为预期序列38来确定核酸片段的预期序列38。

特别地，预处理单元可以包含数据表42，其关联位置数据34或标签数据34与预期序列38。预期序列38可以从数据表42确定，其包含连接位置数据34或标签数据34与相关预期序列38的记录。在数据表42中，可以编码微阵列20上的捕获探针的位置或与某些微载体20相关的捕获探针。例如，微阵列20可以包含芯片或标签如条形码，其中存储或编码点20与点20中的参考序列或与捕获探针相关的预期序列38之间的关系。预处理单元可以从微阵列20读段这种信息并且可以从这种信息产生数据表42。

然而，数据表42还可能以另一种方式产生。例如，如果总是使用相同类型的微阵列20，数据表42可以预定义并存储在预处理单元14中。

在步骤S12的末尾，将富集的核苷酸序列数据36输出至比对单元16。富集的核苷酸序列数据36包含标识符32和预期序列38或预期序列的参考的确定序列。应当理解，核苷酸序列数据36不必包含位置数据34或标签数据34。

在步骤S14和S16中，对于每个核酸片段，比对单元16比对富集的核苷酸序列数据36与参考核苷酸序列，例如存储在数据库中的基因组序列。比较的结果40可以用于SNP识别(calling)和/或SNV、结构核苷酸变体、确定。

在步骤S14中，比对单元16通过用确定序列32检查参考核苷酸序列中预期序列的确切匹配来比对确定序列32与参考核苷酸序列。

通常，比对可以是确定序列对参考核苷酸序列作图。作图可以是准确作图或近似作图。在步骤S14中，确定准确作图。例如可以通过标识符的确定序列32与标识符38的预期序列的串比较来检查确切匹配。

通过步骤S14，可以利用先验信息来改进比对过程以观察确定序列是否匹配预期序列，如果代替进行唯一的常规比对器，串匹配比较为第一模式。这是由于串匹配比较是比涉及更复杂的近似匹配过程的标准比对器快得多的过程(在软件中)。而且，大部分读段会匹配参考。

在步骤S16中，如果对于预期序列38没有发现确切的匹配，比对单元通过执行常规比对器来比对确定序列32与参考核苷酸序列。在步骤S16中，仅可以发现一个近似匹配。

总之，在比对过程中，可以通过首先检查步骤S14的确切匹配并且如果通过随后执行常规比对器(其可以比比较确切匹配更耗时间)没有发现确切匹配(对于初始测序读段的剩余10%)来使用预期序列38。

图3示出用于提供富集的核苷酸序列数据36的方法的流程图。图3的方法与图2的方法的不同之处在于由预处理单元14进行的步骤S12被两个步骤S18和S20代替。

在图3所示的情况中，预处理单元可以使用两个数据表44，46(或者数据表44和数据库46)以将未知数据34转换为预期序列38。为了实现图2的方案，可以将数据表44，46合并到一个表42，其直接关联x-,y-位置34或标签数据34与预期序列38。

与图2类似，预处理单元16可以使用来自微阵列18或微载体20的信息以从这样的信息产生数据表44。还可以预定义数据表44并存储在预处理单元16中。

在另一方面，本发明涉及一种用于确定靶核酸分子的序列的方法，所述序列关联至所述靶核酸分子的基因组位置信息。所述方法提供序列信息和/或探针数据，其可以用于确定靶核酸的预期序列，其中借助于关联数据探针与预期序列的额外信息将所述探针数据或获得的序列信息转换预期序列。关联探针数据与预期序列的额外信息可以源自序列标签，优选人工序列标签，以及对应于存在于捕获寡核苷酸上的靶核酸序列的相邻序列。

在通常的实施方案中，所述用于确定关联至所述靶核酸分子的基因组位置信息的靶核酸分子的序列的方法包括以下步骤：

提供捕获寡核苷酸探针，其包含两个部分，所述部分在序列上与靶核酸的部分互补，其中所述捕获寡核苷酸探针的部分被非靶互补序列标签分开；

通过使用聚合酶活性将所述核酸靶分子环化；

扩增所述环化的核酸靶分子，优选通过滚环扩增；

通过产生至少2个核苷酸的序列读段确定扩增的核酸靶分子的序列；

鉴定非靶互补序列标签的序列；

在本发明的具体实施方案中，用于确定关联至所述靶核酸分子的基因组位置信息的靶核酸分子的序列的方法包括以下步骤：

提供捕获寡核苷酸探针，其包含与所述靶核酸的部分在序列上互补的两个部分以及固定部分，其中所述捕获寡核苷酸探针的部分被非靶互补序列标签分开；

将所述捕获寡核苷酸探针-靶核酸复合物固定在固相上；

从所述固相除去未结合的核酸分子；

通过使用聚合酶活性将所述核酸靶分子环化；

扩增所述环化的核酸靶分子，优选通过滚环扩增；

鉴定所述非靶互补序列标签的序列；

本文所用的术语“基因组位置信息”指标准化基因组序列图上或标准化基因组序列或序列数据库中的起点和方向(5'或3')。因此，基因组位置可以是特定基因组中的位置，例如人、高等真核生物、低等真核生物、细菌、病毒或植物参考基因组。位置信息可以包含至少足够多的信息，从而使得本领域技术人员能够围绕给定位置或从所述位置开始推断分子序列。在插入、缺失、重排、转座等的情况下，一个基因组中的位置在另一个不同基因组中不必在相同位置，例如属于相同物种或群体或者属于不同物种或群体。这样的差异可以被指明、以信号标识，以及如果可能，通过提供偏离数据或转座数据来覆盖。位置信息可以任何合适的形式或本领域技术人员已知的形式存在。

本文所用的“捕获探针”指特异性地结合互补核苷酸序列的寡核苷酸分子(或其部分)。寡核苷酸分子可以例如固定在底物上，例如微载体如微阵列或者珠或任何其他合适的实体。捕获探针还可以是自由移动的，和/或包含元件，其允许杂交程序期间的固定。在本发明的具体实施方案中，捕获探针可以随机固定在固相支持物上，如流动池。这种支持物可以例如包含聚丙烯酰胺层，优选为高密度的，更优选为非常高密度的。进一步的细节为本领域技术人员已知或者可以得自合适的文献来源，如Bentely et al.,2008,Nature,456,53-59，包括补充信息。在上文所述的确定靶核酸分子的序列的方法的上下文中，所述序列关联至所述靶核酸分子的基因组位置信息，捕获探针优选为自由移动的实体。

在本发明的某些实施方案中，捕获探针可以包含功能上不同的节段。在上文所述的确定关联至所述靶核酸分子的基因组位置信息的靶核酸分子的序列的方法的上下文中，优选地捕获探针包含至少两个在序列上与靶序列核酸的部分互补的部分(参见，例如图23中所示的捕获探针的节段A和B)。这些部分的长度可以变化。它们的长度可以例如为4个核苷酸或多于4个核苷酸。例如，所述部分的长度可以为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75或80个核苷酸，或者指定值之间的任何整数。所述部分的优选长度为约25-30个核苷酸，例如25、26、27、28、29、30个核苷酸。两个部分可以具有相同的长度或者表现出长度差异。例如，一个部分的长度可以为另一部分长度的1000%、700%、500%、300%、200%、100%、80%、70%、60%、50%、40%、30%或20%，并且反之亦然。

在捕获探针的上下文中所用的术语“互补”指整个部分与对应的靶序列的互补性。因此，如果所有核苷酸碱基与同源核苷酸杂交(G–C和A–T)，则部分与靶序列互补。在其他实施方案中，互补性还可以是部分的。这样的部分互补性可以包括结合部分的核苷酸的分数，例如约99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、75%、70%、65%、60%或55%，其与同源核苷酸杂交。互补性还可以是部分互补性，从而仅一段结合部分与靶序列完全杂交，而另一段或节段不杂交或仅部分杂交。在某些实施方案中，两个部分(例如图23中所示的部分A或B)可以具有不同的互补性程度，例如部分A可以具有99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%的部分互补性，而另一部分如部分B则可以具有100%的互补性，或者反之亦然。在某些实施方案中，两个部分可以都具有100%的互补性或者都具有小于100%的互补性。如果两个部分都具有小于100%的互补性，则它们可以具有相同的互补性程度或者可以具有不同的互补性程度。

本发明特别地预计这样的可能性，靶序列在互补性上与捕获探针的结合部分有些不同，因为这样的差异可以反映分子修饰或突变如SNP、插入缺失等，其在诊断上是重要的并且可以优选地通过本文所述的方法来检测。这样的潜在分子修饰或突变如SNP、插入缺失等的检测在诊断上是重要的，并且当然在靶核酸的相邻序列(例如图23中所示的序列M)中也是可能并特别地预期的。

可以选择在序列上与靶核酸的部分互补的捕获寡核苷酸探针部分的序列，从而它们对应于靶序列的节段，其已知为至少在核酸分子相同的链上，例如双链基因组DNA分子。优选地，可以选择所述捕获寡核苷酸探针部分的序列，从而靶序列中互补序列之间的距离可以大于50000核苷酸、约50000核苷酸、约40000核苷酸、约30000核苷酸、约25000核苷酸、约20000核苷酸、约15000核苷酸、约10000核苷酸、约9000核苷酸、约8000核苷酸、约7000核苷酸、约6000核苷酸、约5000核苷酸、约4000核苷酸、约3000核苷酸、约2000核苷酸、约1500核苷酸、约1000核苷酸、约900核苷酸、约800核苷酸、约700核苷酸、约600核苷酸、约500核苷酸、约400核苷酸、约300核苷酸、约200核苷酸或约100核苷酸或者更少，或者指定值之间的任何整数。

可以进一步选择在序列上与靶核酸的部分互补的捕获寡核苷酸探针部分的序列并排列在捕获寡核苷酸探针上，从而靶核酸以扣锁的方式结合，例如图23所示。这可以通过提供合适的顺序排列和方向性的互补探针部分来完成(例如图23所示，标识A和B)。这些特征可以进一步适合于特定的基因组位置，例如重复序列、序列转换等的存在。

在具体的实施方案中个，靶序列中结合部分的假定距离可以由靶样品的组成或其制备来反映。原则上，在上文所述的确定关联至所述靶核酸分子的基因组位置信息的靶核酸分子的序列的方法的上下文中所用的核酸样品可以为任何样品，其包含任何量的的核酸，源自任何来源或者可以是任何起源。样品优选包含双链或单链DNA或RNA或这两者，更优选双链DNA。样品可以包含完整的基因组，或者可以包含其部分或亚部分，例如通过分级分离、裂解或纯化过程后。这样的过程为本领域技术人员已知。样品可以为原核生物、病毒或真核生物样品。样品优选为真核生物样品。样品可以例如为植物组织样品、低等真核生物样品或高等真核生物样品。在具体的实施方案中，其可以为来自哺乳动物来源的样品，更优选来自人来源。适合于本发明的方法的样品获得程序为本领域技术人员已知。

对于用于本文所述的方法的样品，其必须为和/或保持单链。这可以通过本领域技术人员已知的任何合适方法来完成。通常，可以将包含DNA或双链核酸的样品加热至退火温度如60℃、65℃、70℃、80℃、90℃或95℃或高于退火温度。为了保持核酸为单链形式，可以使用盐溶液如SCC和/或SDS或其他合适的缓冲液、离子或化合物。适合于本发明的方法的其他样品制备程序和额外的细节为本领域技术人员已知，并且可以得自合格的文献来源，例如Johansson et al.,Nucleic Acid Research,2011,39(2),e8,1-13。

为了用于本文所述的方法，样品中的靶核酸分子必须被片段化。整个说明书中所用的术语“片段化”意图包括使得核酸分子断裂、切割或变短的任何行为，但是不完全或大量降解核酸分子。片段化可以是位点特异性或随机的。片段化可以例如通过酶促如使用限制性内切酶或核酸内切酶进行，或者通过转座子进行(例如Madison,WI,USA销售的Epicenter，或者基于Illumina销售的Nextera DNA样品制备试剂盒)。或者，片段化可以基于物理力进行，例如通过剪切、超声或物理断裂核酸分子。合适的方法为本领域技术人员已知。片段化优选酶促进行。特别优选使用限制性内切酶或核酸内切酶来进行片段化过程。因此，片段化可以通过选择在靶核酸样品中具有可预定频率识别位点的限制性内切酶来进行，例如平均每50000个核苷酸、每40000个核苷酸、每30000个核苷酸、每25000个核苷酸、每20000个核苷酸、每15000个核苷酸、每10000个核苷酸、每9000个核苷酸、每8000个核苷酸、每7000个核苷酸、每6000个核苷酸、每5000个核苷酸、每4000个核苷酸、每3000个核苷酸、每2000个核苷酸、每1500个核苷酸、每1000个核苷酸、每900个核苷酸、每800个核苷酸、每700个核苷酸、每600个核苷酸、每500个核苷酸、每400个核苷酸、每300个核苷酸、每200个核苷酸或每100个核苷酸或者指定值之间的任何整数结合(并切割)。在某些实施方案中，预想的片段长度可以取决于要分析的遗传信息的性质，即要测序或靶向的基因或基因组部分。因此，预想的片段长度可以根据基因的大小，内含子的存在和数目、外显子的大小和分布、染色体定位、是否分析单基因或基因簇的问题等来调节。因此在某些实施方案中，可以有利地具有较短的片段长度，例如1000个核苷酸-100个核苷酸或3000个核苷酸-500个核苷酸的范围，而在其他实施方案中，可以有利地具有较长的片段，例如50000-30000个核苷酸或30000-3000个核苷酸等范围的片段。对于这样的长片段，有利地使用例如Pacific Biosciences销售的实时单分子技术或者Oxford Nanopore Technologies开发的(生物)纳米孔测序，因为这些方法提供长读段长度。提供大范围的其他测序方法当然也为本发明所预期。

在具体的实施方案中，可以同时使用1、2、3、4、5、6、7、8、9、10或更多种不同的限制性内切酶或核酸内切酶和/或使用一种样品或样品等份。限制性内切酶或核酸内切酶的性质和/或限制性内切酶或核酸内切酶的组合可以根据它们在靶核酸或靶基因组中的结合基序的预定或已知频率进行选择。对应的信息为本领域技术人员已知并且可以来自合适的教科书或生厂商文档。限制性内切酶或核酸内切酶可以联合物理力如剪切DNA使用。

在本发明的具体实施方案中，可以在一个或优选多于一个等份如2、3、4、5、6、7、8、9、10、11、12、15、20或更多个等份中提供片段化的靶核酸分子。这些不同的等份可以优选地用不同的限制性内切酶或核酸内切酶或者限制性内切酶或核酸内切酶的不同组合进行处理，或者在不同条件下用相同限制性内切酶或核酸内切酶进行处理，或者这两者。这样的不同条件可以例如是不同的酶浓度、不同的温育时间、不同的温育温度、不同的缓冲液、离子或额外成分的浓度、存在或不存在抑制剂等。

在本发明特别优选的实施方案中，可以选择指定条件以及限制性内切酶或核酸内切酶的性质和组合，从而产生包含与捕获寡核苷酸探针的两个结合部分(优选在片段的末端)互补的序列的片段。因此，优选地，捕获寡核苷酸探针的结合部分的至少一个互补区域位于片段化的靶核酸的5'或3'端。在捕获寡核苷酸探针的结合部分的互补区域位于片段的内的情况下，预期额外地使用核酸外切酶以产生相反的核酸末端，其允许靶核酸的环化。

本文所用的术语“非靶互补序列标签”指不与靶核酸分子互补的序列。序列标签可以例如包含人工序列，其不存在于分析的实体或生物体的基因组序列中。序列标签的长度可以变化，从约4核苷酸-约500核苷酸。序列标签的长度优选为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、215、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75或80或更多个核苷酸。序列标签优选的长度为约60个核苷酸。序列标签的序列可以是任何任意序列。因此，其随不同参数和/或样品环境而变化。例如，其可以适合于生物体基因组的GC-含量、基因组中某些序列的可获得性、与基因组片段杂交的可能性、核酸的折叠或结构性质、结合蛋白因子或被蛋白因子结合的性质或者任何其他本领域技术人员已知的合适参数。在优选的实例中，序列标签可以包含20个G、随后为1、2、3、4、5或更多个T，随后为20个G。可选地，序列标签可以包含20个A或T，随后为5个C或G，随后为20个A或T。进一步可选地，还预期例如10个G或C，随后为5个T或A，随后为10个G或C等。本发明预期的其他实例包括一侧(例如图23的部分A侧)的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或多于50个核苷酸，其包含A、T、G、C中的任一个，优选仅一种类型，即仅A、T、G、C，任选地随后为1、2、3、4、5、6、7、8、9、10、11,12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个核苷酸的核心节段，其包含A、T、G、C中的任一个，任选地随后在第二侧(例如图23的部分B侧)的5、6、7、8、9、10、11,12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或多于50个核苷酸，其包含A、T、G、C中的任一个，优选仅一种类型，即仅A、T、G、C。还预期序列标签中包含A、T、G和C段、部分或基序的混合物的组合。非靶互补序列标签的结构和序列可以有利地用于区分相邻序列与非靶互补序列标签之间的边界，特别是与靶核酸互补的序列，例如图23的序列A和/或B。通常，本文所述的序列标签不应当天然存在于基因组或分析的序列中，即不应当包含在靶基因组或序列中。

在本发明的其他实施方案中，非靶互补序列标签可以包含限制性内切酶或核酸内切酶的识别位点或基序。优选地，识别位点或基序不存在于靶序列或靶基因组中。这样的识别位点可以例如根据要确定序列的生物体的参考基因组上的信息设计。其他可能性包括提供人工识别位点和同源的修饰的限制性内切酶。在本发明的其他实施方案中，非靶互补序列标签可以包含序列或基序，其在结构上是不稳定的，或者表现出断裂的趋势，从而使得在施用本文所述的剪切力的情况下增加序列标签中的断裂。

在其他实施方案中，非靶互补序列标签可以额外地包含条形码序列。这种条形码序列可以是任意或非天然序列，例如人工序列。条形码序列可以具有任何长度，例如5个核苷酸、6、7、8、9、10或更多个核苷酸。这种序列可以用于例如诊断性鉴定样品来源、患者来源、患者群体来源、器官或组织来源等。

在优选的实施方案中，对于具有超过一组捕获寡核苷酸探针的测序方法，可以使用相同的非靶互补序列标签，从而使得能仅通过定位确定序列信息中的一个特定序列就鉴定标签。在其他实施方案中，可以使用多于一个非靶互补序列标签，例如2、3、4、5、6、7、8、9或10个。

在其他实施方案中，非靶互补序列标签可以与条形码序列组合，所述条形码序列对于分析的每个患者、器官来源、组织来源等应当是不同的。不同标签序列和不同条形码序列的组合也是可能的。

本文所述的“固定部分”指适合于将捕获探针连接至底物的任何部分。这样的部分的实例有生物素、抗生物素蛋白、链霉抗生物素蛋白、胺基团等。优选在捕获探针上具有生物素部分。这可以有效地被位于固相或底物上的抗生物素蛋白、链霉抗生物素蛋白等结合。本文还预期的其他替代性结合可能性对本领域技术人员是已知的。

整个申请中所用的术语“杂交”指捕获探针和靶核酸分子的结合或捕获。这种结合相互作用取决于结合配对物(partner)的环境中的条件和/或可以通过结合配对物的环境中的条件来调节。这样的调节有和/或选自：缓冲液浓度、缓冲液成分、pH、甲酰胺的存在和浓度、一种或多种离子的存在和浓度特别是阳离子、EDTA的存在和浓度、一种或多种盐的存在和浓度特别是NaCl、结合环境的温度、相互作用的时间、液体移动及其程度、互补相互作用的可能性、相互作用配对物之间错配的程度等。在典型的杂交情况下，环境可以包含0%-50%甲酰胺、0.7-1M NaCl、3mM-5mMEDTA、优选3.5mM EDTA以及任选存在的SDS或Tween，例如0.05%–0.1%Tween-20或0%-1%的lawoylsarcoore(皂)。杂交温度可以例如设定为约40℃-75℃，例如约75℃、68℃、62℃、55℃、46℃，或者一定时间间隔的这些温度的任意组合，例如20-40min75℃，随后20-40min68℃，随后20-40min62℃，随后20-40min55℃，随后20-40min46℃等。杂交参数可以取决于固定步骤而变化。

在其他具体实施方案中，杂交可以伴有或随后进行一个或多个洗涤步骤。这些洗涤步骤可以使得除去未结合的核酸分子。剩余的核酸分子优选地仅包含捕获寡核苷酸：靶核酸复合物或主要包含捕获寡核苷酸：靶核酸复合物，例如结合在固相或底物上。在这个实施方案中，优选组合上文定义的固定捕获探针与随后除去未结合，即未直接或间接(例如通过结合固定的实体)固定的核酸分子或其衍生物。

在另外的可选实施方案中，通过提供固定部分和除去步骤实施的选择方法可以通过选择包含非靶互补序列标签(例如，图23中所示的序列标签L)的核酸序列来进行。这种选择可以例如经由计算机或生物信息学方法通过过滤对于存在所述非靶互补序列标签的可用序列信息来进行。在本发明的具体实施方案中，可以获得所有可用核酸分子的序列信息(即可以不存在任何固定和除去步骤)，然后经由软件或生物信息学过滤或检索本文所定义的非靶互补序列标签来进行序列选择。由此可以获得所有可用序列读段的对应亚组，其可以根据本文所述的方法或其部分进行进一步分析。

本文所述的“环化”步骤指闭合间隙，其由存在非靶互补序列标签而产生(还参见图23)。这样的环化步骤可以通过任何合适的活性进行。环化优选地通过聚合酶活性如Taq聚合酶，或者任何保真聚合酶如Pfu聚合酶来进行。其他合适的聚合酶以及合适的条件为本领域技术人员已知，并且可以来自合格的文献来源，例如Hübscher et al.,DNA Polymerases:Discovery,Characterization and Functions in Cellular DNA Transactions,2010,1^st ed,World Scientific Publishing Co。

在本发明的其他实施方案中，环化可以通过连接靶核酸末端来进行。这样的连接可以通过直接连接靶核酸末端，或者通过间接连接靶核酸末端来进行。间接连接可以包括与本文所定义的非靶互补序列标签互补的寡核苷酸和寡核苷酸末端随后的连接与靶核酸末端的结合。连接过程还可以与聚合酶活性组合或者额外地包含聚合酶活性，例如如果使用未完全提交的寡核苷酸。

环化分子的扩增可以用本领域已知的任何扩增方式来进行。在优选的实施方案中，扩增可以借助于引物进行。在具体的实施方案中，扩增可以直接在环化步骤后进行。或者，可以包含洗涤或除去和/或抑制步骤。因此，环化可以基本上为PCR、RCA或MDA扩增。优选通过滚环扩增(RCA)进行扩增。RCA获得线性多联体扩增产物，其包含模板序列的互补物(complement)的多个拷贝。优选地，在RCA期间，将捕获寡核苷酸探针用作起始引物。或者，可以使用一个或多个其他引物寡核苷酸，其可以在不同位置结合。RCA所用的酶为本领域技术人员已知。优选地，RCA可以使用phi29聚合酶。RCA的其他参数和条件为本领域技术人员已知和/或可以得自例如合格的文献来源，例如Johansson et al.,Nucleic Acid Research,2011,39(2),e8,1-13。

在本发明的某些实施方案中，在滚环扩增(RCA)之后，需要使多联体RCA产物切开、崩解或片段化。该过程可以根据合适的方法进行。例如，可以进行多联体RCA产物的片段化，从而发生沿着整个RCA产物的随机片段化。如上文所述，这可以通过使用物理力如剪切力完成。在某些实施方案中，剪切过程可以进行调节，从而获得一定的最小或最大片段长度或一定的平均片段长度。

在另一实施方案中，多联体RCA产物的片段化可以通过在如本文所定义的序列标签部分特异性地切开或断裂RCA产物来进行(参见例如图23中的标识L)。这样的特异性切开可以通过使用在例如本文所定义的非互补序列标签中具有同源识别位点或基序的限制性内切酶或核酸内切酶来完成。或者切开或断裂可以通过在序列标签上使用剪切力来完成，例如本文所定义，所述序列标签包含结构上不稳定的节段，在施用诸如剪切或超声等的物理力时趋向于断裂。

在另一实施方案中，RCA产物可以完全不片段化而使用，或者仅片段化一部分多联体而使用，例如根据上文所述的方法。

在另一步骤中，确定扩增的靶核酸分子的序列。本文所用的术语“确定扩增的靶核酸分子的序列”指通过进行核酸测序反应来确定靶核酸的序列信息的过程。这些方法可以包括额外的步骤，例如核酸分离、转移、纯化或额外的扩增步骤。是否需要这些额外步骤或者需要哪些额外步骤可以取决于实际进行的测序方法。本发明预期基于生厂商的方案对于测序方法的方法步骤的相应修饰。优选地，确定扩增的核酸靶的序列适合于扩增产物的状态。如上文所定义，在存在RCA产物的情况下，序列确定应当调整为RCA产物的片段化状态和/或RCA产物片段化所用的过程。因此，可以使用适合的引物序列或不同的测序方法。可以相应调节读段长度。例如，如果RCA产物未被片段化，则可以要求较长的读段。

此外，序列确定的输出如作图的分析应当根据RCA产物的片段化状态和/或RCA产物加工或片段化所用的过程来调节。

序列确定的方法以及相应的准备程序通常为本领域技术人员已知。优选下一代测序方法或高通量测序方法。例如，序列可以通过使用大规模平行信号测序(MPSS)来确定。预期的测序方法的实例有焦磷酸测序，特别是454焦磷酸测序，例如基于Roche454基因组测序仪。这种方法在油溶液中扩增水滴内部的DNA，每个水滴含有单个DNA模板，所述DNA模版连接至单个引物包覆的珠，其形成克隆群落。焦磷酸测序使用萤光素酶来产生用于检测加入新生DNA的单独核苷酸的光，然后将合并的数据用于产生测序读段结果。其他预期的实例有Illumina或Solexa测序，例如通过使用Illumina基因组分析仪技术，其基于可逆染料终止子。DNA分子通常在一侧连接至引物并被扩增，从而形成局部克隆群落。随后，可以一次加入一种类型的核苷酸，并将未并入的核苷酸洗去。随后，可以取得荧光标记的核苷酸的图像，并从DNA化学除去染料，这使得进行下一循环。另一实例是使用Applied Biosystems'SOLiD技术，其通过连接进行测序。这种方法基于使用固定长度的所有可能寡核苷酸的混合物，其根据测序的位置进行标记。将这样的寡核苷酸退火并连接。然后，DNA连接酶的对于匹配序列的偏好连接通常在该位置产生核苷酸的信号信息。由于DNA通常通过乳液PCR扩增，所以各自仅含有相同DNA分子的拷贝的珠可以沉积在玻片上，从而获得与Illumina测序相当的量和长度。另一种方法基于Helicos'Heliscope技术，其中片段被拴系至阵列的polyT寡聚物捕获片段。在每个测序循环中，加入单荧光标记的核苷酸并且将阵列成像。随后除去荧光标记并重复循环。本发明的方法中涵盖的测序技术的其他实例有通过杂交测序、通过使用纳米孔测序、基于显微术的测序技术、微流体Sanger测序或基于微芯片的测序方法。本发明预期其他测序方法(因为这些方法提供长读段长度)有Pacific Biosciences销售的实时单分子技术或者Oxford NanoporeTechnologies开发的(生物)纳米孔测序。本发明还预期这些技术的进一步发展，例如序列确定的准确度改进、确定生物的基因组序列所需的读段长度或时间等。

可以合适的质量或准确度获得基因组序列或亚基因组序列或其任何部分，例如单核酸片段读段。优选地，获得的基因组序列或亚基因组序列或其部分可以每10,000个碱基、每50,000个碱基、每75,000个碱基、每100,000个碱基中具有不多于一个误差。更优选地，获得的基因组序列或亚基因组序列或其部分可以每150,000个碱基、200,000个碱基或250,000个碱基中具有不多于一个误差。本发明还预期制备或使用由于测序技术进步的改进而具有更高质量的序列。因此，本发明不受任何误差范围或覆盖限制的束缚，而是集中于根据合适的当前测序技术可用、制备和获得的靶序列制备和序列信息的实施。测序结果可以任何合适的格式存储，例如FASTA或FASTQ格式，并且存储在任何本领域技术人员已知的合适介质中，例如硬盘或固态硬盘存储器。

在所述方法的另一步骤中，鉴定非靶互补序列标签相邻的捕获寡核苷酸探针的核苷酸序列。鉴定可以基于前述步骤中获得的测序数据进行，例如以FASTA或FASTQ格式提供。鉴定可以主要包括在序列数据中检索上文所述的非靶互补序列标签。发现所述序列标签后，可以鉴定相邻的序列。本文所用的术语“相邻序列”指获得自扩增产物的序列数据中的非靶互补序列标签3'和/或5'的序列。这些相邻序列的长度可以对应于捕获寡核苷酸探针的互补部分的长度。除了这些相邻序列的序列以外，可以获得关于它们的位置或方向的信息，即对于非靶互补序列是否是5'或3'序列。因此，在本发明的具体、任选的实施方案中，单独地鉴定3'和/或5'序列。术语“单独地鉴定”表示独立于5'序列的信息确定相对于非靶互补序列标签的3'序列的位置，并且独立于3'序列的信息确定相对于非靶互补序列标签的5'序列的位置。在优选的实施方案中，获得3'和5'相邻序列，并且确定它们相对于非靶互补序列标签和互相的位置。

在另一步骤中，包含捕获寡核苷酸探针的互补部分的相邻区域的鉴定序列可以用于鉴定参考基因组中序列的位置。本文所用的“参考基因组”可以是预先存在的基因组序列，其覆盖的段与鉴定的序列数据或核酸片段读段相同或类似。在本发明的某些实施方案中，参考基因组是基本上完整的原核生物基因组序列。在本发明的优选实施方案中，参考序列是基本上完整的真核生物基因组序列。在本发明的另一实施方案中，所述参考序列是基本上完整的病毒基因组序列。原核生物基因组序列的实例有细菌基因组序列，如NCBI微生物基因组计划数据库所提供或来源的。进一步的细节可以来自McNeil LK et al.,The National Microbial Pathogen DatabaseResource(NMPDR):a genomics platform based on subsystem annotation,Nucleic Acids Res.,2007;35(Database issue):D347-53。真核生物基因组序列的实例由NCBI's BioProject或基因组计划数据库提供或者来自NCBI'sBioProject或基因组计划数据库，例如http://www.ncbi.nlm.nih.gov/bioproject提供的数据库，其还可以包括1000基因组计划(http://www.ncbi.nlm.nih.gov/bioproject/61209)或ENCODE计划(http://www.ncbi.nlm.nih.gov/bioproject/30707)的数据。病毒基因组序列的实例由NCBI病毒基因组来源数据库提供或来自NCBI病毒基因组来源数据库，或者来自Belshaw R et al.,The RNA Virus Database,Nucleic Acids Res.,2009;37(Database issue):D431–D435。进一步优选动物基因组序列，例如驯养或农场动物的基因组序列，例如猫、狗、绵羊、牛、猪、鸡、猴、大鼠或小鼠。在其他实施方案中，基因组序列为植物基因组序列，例如农作物或水果，例如玉米、土豆、小麦、高粱、稻米、棉花、大麦、油菜、黄瓜、大豆、桃、番茄、木瓜，或研究模式植物如拟南芥(Arabidopsis thaliana)或短柄草(Brachypodium distachyon)等。进一步细节和参考序列可以来自任何合适的数据库，如PlantGDB数据库。特别优选人基因组序列。实例有群体特定基因组，例如高加索人基因组序列、黑人基因组序列、亚洲人基因组序列等。进一步的实例包括个体特异性基因组序列或其共有序列，例如包含个体基因组序列的联合的主参考序列。进一步细节和参考序列信息可以来自任何合适的数据库，例如UCSC基因组数据库或NCBI人基因组来源数据库。这些基因组序列可以是基本上完整的上文所定义的原核生物、真核生物或病毒基因组或者可以包含基本上完整的上文所定义的原核生物、真核生物或病毒基因组的亚部分。

在本发明的具体实施方案中，参考基因组可以是标准基因组或健康个体的基因组，其表现出未被疾病影响的个体的遗传构成。在使用部分参考基因组的情况下，其可以是标准基因组，所述标准基因组表现出未被疾病影响的个体的遗传构成，所述疾病与包含在部分基因组序列中的基因组区域相关。

在另外的最后步骤中，提供(i)核酸靶的确定序列与(ii)参考基因组上关于其位置的信息的组合。这种组合可以连接至来自参考基因组的基因组序列位置数据表的序列的形式提供。

在优选的实施方案中，本发明涉及一种用于提供如上文所定义的核苷酸序列数据的方法，其中所述探针数据包含关于关于参考基因组上核酸靶的确定序列的位置的信息，所述参考基因组可通过上文所定义的确定靶核酸分子的序列的方法获得，所述序列关联至所述靶核酸分子的基因组位置信息，并且其中预期序列通过关联关于参考基因组上所述位置的信息与参考基因组的相应序列而定义。因此，基于(i)核酸靶的确定序列与(ii)参考基因组上关于其位置的信息的组合，所述参考基因组可通过上文所述的确定靶核酸分子的序列的方法获得，所述序列关联至所述靶核酸分子的基因组位置信息，可以定义预期序列，其源自对应于本文所述的参考基因组的分子上确定的序列的序列。参考基因组可以优选地为标准基因组或健康个体的基因组，其表现出未被疾病影响的个体的遗传构成。可选或额外地，可以定义预期序列，其源自对应于参考数据库的分子上确定的序列，所述确定的序列包含与标准序列或参考基因组序列在已知的SNP(单核苷酸多态性)或SNV(结构核苷酸变体)中有差异的序列。这样的变体序列可以包含或者额外地包含例如对选自包含以下的组的疾病或病症特异性的签名数据：错义突变、无义突变、单核苷酸多态性(SNP)、拷贝数变异(CNV)、剪接变异、调节序列的变异、小缺失、小插入、小插入缺失、大量缺失、大量插入、复合遗传重排、染色体间重排、染色体内重排、杂合性丢失、重复序列的插入和重复序列的缺失。在其他实施方案中，预期序列可以包含多于一种类型的序列，例如标准或健康个体的基因组序列，以及额外地包含包含所述基因组序列的已知变体的序列，其中所述变体优选地关联至疾病、疾病状态、症状等。

在步骤S18中，预处理单元14通过从第一数据表44读取基因组位置将位置数据34或标签数据转换为核酸片段的基因组位置48。第一数据表44包含关联位置数据34或标签数据34与相关基因组位置48的记录。在这一步骤中，预处理单元14可以产生中间核苷酸序列数据50，其包含具有基因组位置48和相关确定序列32的入口。例如，数据表44可以是查找表44，其包含点20的x-和y-位置，并且x-，y-信息通过使用查找表44可以转换为基因组位置48。

基因组位置数据36中的基因组位置48可以视为软件代码，其被加入测序读段30中，指明或编码测序读段30的基因组位置。

在步骤S20中，预处理单元14通过从第二数据表46读取预期序列38将基因组位置48转换为预期序列38。第二数据表46包含关联基因组位置48与相关预期序列38的记录。第二数据表46也可以是简单的查找表46。

或者，预处理单元14可以使用存储在数据库46中的参考核苷酸序列(例如，参考基因组)以确定预期序列。

在步骤S20的末尾，与图2所示的方法类似地形成富集的核苷酸序列数据36。

在一种情况下，预期序列38可以包含核苷酸的标识符序列。

然而，应当注意在步骤S12或步骤S20中，预期序列38不需要编码标识符的一个序列。预期序列38可以编码在已知SNP(单核苷酸多态性)或SNV(结构核苷酸变体)中不同的一组预期序列，从而该组的所有成员可以通过在步骤S14中直接比较来首先检查。总之，预期序列可以包含关于标识符序列的变体的信息。

如上文所述，富集的核苷酸序列数据36包含预期序列38或预期序列38的参考。预期序列38或其参考可以视为加入基础序列数据30中的软件标签或软件代码。预期序列38可以被加入测序装置10中，特别是预处理单元14中。以这样的方式，预处理单元14可以具有指定探针的输出，所述探针已经捕获测序的片段。

编码预期序列或其参考的软件代码不一定必须基于4种核苷酸(A、C、G、T)，但是还可以基于其他字母、数字等。

根据另一实施方案，预处理单元14可以通过组合基础核苷酸序列数据30与数据表42或数据表44产生富集的核苷酸序列数据。例如，预处理单元14可以输出文件或数据流，其包含基础核苷酸序列数据30以及关联位置数据34与预期序列的参考的数据表42、44。

图4A示出由于上文和下文所述的方法而获得的性能增加。为了评价本发明的方法的比对速度，将比对靶向测序实验所需的计算时间与常规比对器(Bowtie,BWA and MAQ)的性能相比较。后几个比对器不使用先验基因组位置信息并比对全基因组。图4A示出每个读段的拷贝数(x-轴)比以秒表示的计算时间(y-轴)。曲线表示Burrows-Wheeler比对器(BWA)52、bowtie比对器54、实施的Needleman-Wunsch算法56和优化的Needleman-Wunsch算法(NWem)58的计算时间。BWA52和bowtie54已经针对人全基因组进行了比对，而Needleman-Wunsch算法56、58则使用位置信息。在未完全匹配的序列的比对之前，优化的变体58经由串比较检查完美匹配。这些计算在1648核心的网格上进行，分布在206台Dell PowerEdge M600刀片服务器上，每台使用两个2.5GHz的Intel Xeon L5420四核CPU，随机存取存储器为16、32或64GB。

图4A示出3Mb靶区域、50个碱基的读段长度、1%测序误差以及10%读段脱靶的此类比较的结果。这些设定对应于总共264,616个参考序列。使用Needleman-Wunsch算法的四种不同实施方式(NW、NWem、NWB和NWBem)。可见，MAQ是这个比较中所用的最慢的比对器，取决于读段冗余度，计算时间为8,713秒至69,768秒。两种基于Burrows-Wheeler转换的比对器进行相同的计算则快得多，分别要求661-9,419秒(BWA，比MAQ快～6.86x)和159-2,791秒(Bowtie，比MAQ快～22.9x)。这些结果证实之前关于基于Burrow-Wheeler转化的比对器的比对速度的观察。然而，使用位置信息的Needleman-Wunsch算法获得明显更短的比对时间。与Bowtie相比，对于NW计算时间减少～1.4倍(106-1,949sec)，而NWem(73-1,244sec.)甚至快～2.2倍。对于NWB(32–491或比Bowtie快5.7x)和NWBem(30-430sec或比Bowtie快～6.6x)，这种增益则进一步增加。总而言之，当采用精简的Needleman-Wunsch算法以使用先验信息和与较快的常规比对器Bowtie比较时，对于约5千330万50个碱基长度的读段，总计算时间可以从46.5分钟降低至约7分钟。

图4B-D示出计算实验更广泛的比较，比较两种Needleman-Wunsch实施方式(NW)：常规的Needleman-Wunsch和Needleman-Wunsch算法的带状版本(banded version)，对于每碱基1%的测序误差的条件，其通过使用直接串比较(NWBem)而进一步改进。图4A是图4B的辅图，并且可以在第三行和第三列中找到。当研究更大范围的条件时，Bowtie(□)表现为测试的普通比对器中最快的，在每个测试的参数组合中胜过MAQ(○)和BWA(●)。虽然使用位置信息仍然获得比对时间的显著减少，但是NW表现出对较长读段长度的限制(由于为O(max(n,m)3)的常规Needleman-Wunsch算法的时间复杂性)，这由NWBem通过比对矩阵的精简而得到克服。

例如，在图4B中，在100个碱基的长度和40%的读段脱靶下，Bowtie(164-2,765sec.)和NW(15-2,750)以相同水平计算，而NWBem则胜过这两者(32-447sec.)。当考虑到25个碱基的较短读段时，NW(42-583sec.)和NWBem(29-396sec.)能够胜过Bowtie(106-1,856sec.)。考虑到读段脱靶的量，Bowtie表现出独特的行为，比对时间与其负相关，而所有其他比对器的计算时间则是正相关的。对于NWBem这特别明显，由于更经常地略过确切比对的预选择，因此必须规律地比对更多的读段。应当理解，NW不进行预选择，因此并不受此影响。因此，Bowtie在193-3,371秒内进行100个碱基和0%读段脱靶的计算，因而更慢，而NWBem与上文所示的40%的读段脱靶的结果相比则要求少些的时间(32-445sec.)。

在图4C中，示出3Mb靶区域的比对器的性能的结果。在3Mb靶区域的情况下，与Bowtie相比，性能增益对于NW在～1.0至～4.3倍之间变化(平均：2.2±1.2)，并且对于NWBem则在～5.0至～7.7倍之间变化(平均：6.8±0.8)。对于300kb靶区域可以观察到类似的结果(NW:2±0.9；NWBem:6.5±1.1)。

在图4D中，对于长度为100碱基的30Mb靶区域和40%读段脱靶，示出每碱基2%测序误差的影响。与1%测序误差(参见图4A-C)，NW(158-2758sec.)和NWBem(33-460sec.)看起来基本上不受影响，而Bowtie(196-3,311sec.)则要求～20%的更多时间。因此，对于2%测序误差和30Mb靶区域，NWBem的平均增益与Bowtie相比增加至7.8±0.8，而对于3Mb靶区域，其甚至达到至8±0.8倍。

还与Bowtie相比，BWA表现出类似的行为，而MAQ的性能则保持稳定。如所预期的，加工的读段的量对所有比对器的计算时间具有最大影响，而本发明的方法表现出与Bowtie和BWA类似的行为。测序误差的百分比(在我们的测试中高达2%)影响普通比对器的计算时间(除了MAQ)，而其对NW和NWBem的计算时间仅有很小的影响。然而，这种速度上的增益还对比对的序列与预期序列的相似性敏感，因为其影响确切匹配序列的数目。因此，使用通过确切匹配进行预选择的实施方式(NWem和NWBem)都会从富集和低测序误差中的高特异性获益。

图5A示出显示比对速度所得增益的图。在图5中，比较了三种不同大小的靶区域(300kb、3Mb和30Mb)以及全基因组(3.1Gb)的比对速度。最后三列表示探针数目。图中第一行示出靶和参考基因组的数目。第二行表示读段的数目。第三行表示比对时间。

从图5A明显可见，仅对靶区域而不是全基因组比对已经可以提供比对速度最大的增益。然而，这一方法在实践中是不可能的，因为所谓的靶或富集方法可能都不够精确。即使最好的方法(使用“选择器方法”)也仅有92%特异性(通常其他富集方法的特异性为约60%)，意味着8%的读段不来自靶区域。将这些读段强制与靶区域比对(如果仅一个区域与靶区域比对，哪个区域进行比对)会引入大量且不可接受的量的误差，即假阳性匹配。

当使用普通富集方法时，产生两类读段，第一类由源自靶区域内部的所有读段(称为ITR)组成，第二类包括源自靶区域外部的所有读段(称为OTR)。当所有这些读段仅与靶区域比对时，可能产生两种影响随后分析的误差(例如，碱基读出)。首先，现在唯一地在靶区域内比对的OTR错误地归类为对靶唯一地匹配的读段(UMR)，因为它们并非在所来源的位置处比对(1型误差)。其次，唯一地在靶区域内比对也会在靶区域外比对一次或多次(称为多重匹配读段-MMR)并且会从分析中排除的所有读段(ITR和OTR)也被错误地归类为UMR(2型误差)。因此，即使在靶向测序方法中的比对实际上也对全基因组进行。

因此，仅基于使用先验信息的方法可以允许仅对靶区域进行比对，从而实现图5A中所示的比对速度的增益，基于所述信息探针捕获已经测序的某些片段。

本发明还预期通过有利地使用本文所述的基于先验信息的用于靶向测序的富集方法获得的计算速度的增益。在图4A-D中，所展现的比对器基于动态编程，并且使用先验知识以将每个读段定位于本文所定义的预期序列，其是基因组的预期部分。当比较最快的Needleman-Wunsch实施方式(NWBEm)与Bowtie时，计算速度的增益预期为总共900个参数变量，并且观察到的范围是30Mb的靶区域的平均6.2±0.8至3Mb的靶区域的平均8±0.8。

图5B示出不同比对器的内存要求，当比对大量读段时，其可以变化，从而有利地产生大量RAM，或者在常规比对器所需的MAQ的情况下。当比对约3Mb靶区域的5百万个读段时，NW和NWBem仅要求其他比对器所需内存的一部分(7.5%-16.6%)以进行计算。本领域技术人员应当立即理解，这样的低硬件要求与计算整体速度组合会使得包括测序装置中的比对，从而测序数据的后处理变得无用了。

在本发明的具体实施方案中，可以交换比对器，从而实现较不复杂硬件。因此，本发明预期使用本文所述的先验信息来最小化靶向测序中的比对尝试。应当理解，比对尝试的此类减少允许临床使用测序信息而无需大量的计算工具。例如，对于约5600个读段的靶向再测序的约7分钟的比对时间会比常规序列比对方法技术上更有优势。这样的方法对于临床使用中的测序会特别有吸引力。

参照以下附图描述富集的核酸数据36、中间核酸数据50以及数据表42、44、46的实施方案。

图6示出FASTQ格式中读段的头部60。FASTQ是Sanger研究所的测序的格式并且为Illumina软件所用，其具有系统性头部(标识符)60。头部包含唯一的仪器名称62、流动池线64、流动池线66中的砖(tile)数、砖中的簇的x-座标68、砖中的簇的y-座标70、多种样品的索引编号(0表示没有索引)以及配对的成员74，其可以是/1或/2(仅配对末端(paired-end)或成对(mate-pair)读段)。

Illumina线的版本，由于1.4版看起来对于多重ID72使用#NNNNNN而不是#0，其中NNNNNN是用于条码化不同样品的多重标记的序列。当在相同测序中使用多个样品时，使用多重标记以避免机器仅在其容量的一部分上运行，因为样品足够大以填充整个流动池。

图7示出FASTQ格式中的读段76，具有头部60和身体部78。身体部78包含标识符32的序列，其可以由测序单元12对特异性探针产生。

在这里，唯一的仪器名称62由基因组位置标识符48代替。使用x-，y-座标68，70以在数据表44中查找(参见，例如图9，13)。位置信息包含x-，y-座标68，70，其中探针被置于微阵列18中。x-，y-座标68，70还可以用于通过序列查找表42(示于图10中)并且选择进行比对的参考序列80。这可以通过将关于基因组上的探针位置/参考位置的信息包含入标识符48来完成。

图7的基因组位置标识符48包含基因的标识符(ENSG00000110756)，外显子(18317546)的起始位置、结束位置位置(18317669)和染色体数(11)。

通常，基因组位置标识符48适合于鉴定基因组中的特定位置或区域。例如，基因组位置标识符可以包含起始位置、结束位置和染色体数以唯一地鉴定基因组中所关注的区域。该区域可以是某些外显子，但是也可以位于基因组上的任何地方，包括染色体外DNA。基因组的特定区域的标识符(例如，对于基因)可以包含在基因组位置标识符中，这是由于容易理解数据来源。当然，也可以使用这些参数的排列。

注意到，代替这里和下文的参考序列80，完整的预期序列80可以编码在分别的读段76或表42、44、46中。

图8示出FASTA格式中的读段76。FASTA格式中的读段76以单线描述开始(头部60)，然后是序列数据的线(身体部78)。描述线60与序列数据78通过">"符号作为首字符区分，">"符号后的串用于鉴定序列自身并任选地提供其他信息。

头部60包括预期序列38的基因组位置标识符48，以及在这种情况下，捕获探针在微阵列18上的x-，y-座标。基因组位置标识符48通过使用x-，y-座标68，70从数据表44读段(参见，例如图9，13)。

图9示出查找表42，44，其关联x-，y-座标68，70与参考序列80或预期序列80以及基因组位置48。查找表42，44体现为多入口FASTA文件，其包含所有所用的参考序列80或预期序列80。所示的序列80全部来自相同的的外显子，但是移动5个碱基以将其完全覆盖。

图10示出查找表42，其直接关联x-，y-座标68，70与参考序列80或预期序列80。

图11示出与图7所示类似的FASTQ格式中的读段76，其中基因组位置标识符48包括参考位置82。参考位置标记起始碱基，从所述碱基开始选择参考序列80以对所关注的鉴定靶序列的部分/亚序列(在这种情况下，是外显子，参见图12)进行比对。

图12示出FASTA中的表46，其关联基因组位置48与参考序列80或预期序列80(从参考位置82开始)。表46包含两个记录或入口。参考序列80或预期序列80可以是表46的读段，通过从整个外显子86取亚序列，从头部60中提供的参考位置82开始(参见图11)并且跨越外显子86的读段的长度84实现。应当注意，图12示出连接至外来的基因组位置的标识符的实例。然而，非外来的基因组位置也可是可能的。

图13示出查找表44的入口，所述查找表44关联x-，y-座标68，70与基因组位置48。

图14示出查找表46的入口，所述查找表46基因组位置48与预期序列80。而且，参考序列的参考位置82与基因组位置48和预期序列80相关。

图15示出FASTQ格式中的读段76，其包含头部60，其中唯一的仪器名称62由参考序列80代替。例如，x-，y-位置68，70可以用于从图10的表42读段参考序列。

图16示出与图11的读段类似的FASTQ格式中的读段76。在读段76中，基因组位置标识符48后面是对应于基因组位置48的外显子86中的预期序列的参考位置82。预期序列从位置82开始，并且在确定序列78的长度后结束。在图16所示的情况下，由于50个碱基的读段长度(第一碱基+读段长度-1)，预期序列是外显子86的碱基171–220的序列。外显子86的序列可以从数据库或如图14所示表的表确定。

图17示出FASTQ格式中的读段76，其中基因组位置标识符48后面是参考序列80。

图18示出与图16的读段类似的FASTA格式中的读段，其中参考位置82编码于头部60中。

图19示出与图17的读段类似的FASTA格式中的读段，其中参考序列82编码于头部60中。

图20示出实例核苷酸序列90，其编码于FASTA格式中，并且包含用“Y”编码的SNP92。基因组位置48涉及染色体13上碱基47471072-碱基47471885的基因ENSG00000102468的节段。

图21示出与图14的表类似的查找表46。图21的表46关联基因组位置48与两个参考序列80。换言之，预期序列的参考不是唯一的。SNP92的两种可能变体94列于单独的列中。

图22示出与图11的读段类似的FASTQ格式中的读段76。基于SNP92，包含基因组位置48和参考位置82的头部中的参考可以通过图21的表46作图于预期序列的两个变体。注意，读段序列的变体94为"T"。

图23示出上文所述的捕获探针与靶核酸分子之间的相互作用/结合。捕获探针用部分A、部分B和容易鉴定的序列标签L产生，所述部分A与捕获的靶核酸片段的头H互补，所述部分B与捕获的靶核酸片段的尾T互补。节段M表示靶核酸分子的中间部分，其不与A或B互补。

图24示出本发明上文所述的捕获探针与靶核酸分子之间的相互作用过程的另一步骤。如上文所述，在图23所示的相互作用之后，产生节段C，其与容易鉴定的序列标签L互补。

图26示出确定靶核酸片段的序列所进行的滚环扩增(RCA)和随后的加工和测序步骤的可能结果。图26A示出图25中所示的核酸靶片段的滚环扩增的可能结果，其中节段A'与图25的节段H互补，节段L'与节段C互补，节段B'与节段T互补，并且节段R与节段M互补。图26B示出确定靶核酸RCA产物的序列的一种可能选择，其中如上文所述可以将RCA产物随机片段化产生包含R1的一部分、R2的一部分、A'、L'和B'的片段。在优选的实施方案中，该片段可以借助引物如标识为P1和P2的引物来测序。在某些实施方案中，测序可以提供重叠的读段，因而完全覆盖节段M或R。在其他实施方案中，读段可以不重叠。因此，读段长度可以适合于预期的片段长度。图26C示出确定靶核酸RCA产物的序列的另一选择，其中如上文所述，将RCA产物在节段L'特别地片段化产生包含L'的一部分、B'、R、A'以及L'的另一部分的片段。在优选的实施方案中，该片段可以例如从L'和/或A'和/或B'开始测序。图26D示出确定靶核酸RCA产物的序列进一步可能的选择，其中如上文所述，RCA产物未被片段化。在优选的实施方案中，该核酸分子可以例如从L'和/或B'开始测序。

总之，预期序列的参考可以是预期序列自身、基因组位置和/或参考序列。参考可以是基因组位置以及与基因组位置相关的预期序列的起始位置。参考可以是基因组位置以及参考序列，例如本文所定义的参考基因组序列。而且，序列不需要是唯一的，即，参考可以连接或指向多于一种预期序列，特别是预期序列的变体。

此外，核苷酸序列数据可以编码在FASTQ或FASTA格式中。存在其他格式如EMBL或GCG，其中也可以编码核苷酸序列数据。

总之，本发明提出方法和系统，通过所述方法和系统来自捕获(杂交)阵列或来自珠的探针信息可以用于测序读段的比对方法。这样的优势在于比对时间可以从约1小时减少至约1min，并且可以减少比对中的误差。

这对于使得测序变为临床的常规应用是重要的。除了准确度上的增益(其对与临床应用是关键的)，这使得可以进行临床上DNA测序的新应用，例如癌症手术期间分析手术切缘以观察是否已经移除了足够的材料。

可以进行医院中的新工作流程，因为完成(癌症)活检的测序运行的分析所需的时间可以被减少至≤5h，这又使得能在患者取活检的同一天提供他或她的活检结果。这可以及其明显地改进临床工作流程。

软件输出中具有预期序列的参考的读段的软件标记可以是重要的，如果希望在最终(软件)分析中使用探针-信息。特别地，标记可以是重要的，如果希望能够在生物信息学中保留探针信息以改进分析速度和准确度，因为软件可能必须知道测序的片段来自哪个探针。

软件标记可以克服将读段定位在基因组中的正确位置的问题，这可以明显减少整体检索时间，因为现在这可以通过快得多的比较算法进行。

软件标记读段向读段添加先验信息，所述读段变为可以包含基因组位置信息、预期序列、位置和质量信息的客体。这种信息可以用于检索过程的查找表中。

虽然在附图和前述说明中示例和描述了本发明，但是这样的示例和描述应当视为例证或示例性的，而不是限制性的；本发明并不限于公开的实施方案。通过研究附图、公开和所附的权利要求书，本领域技术人员在实施本发明时可以理解和进行所公开的实施方案的其他变化。在权利要求书中，词语“包含”并不排除其他元件或步骤，并且不定冠词“一个(a)”或“一个(an)”并不排除复数。在互相不同的从属权利要求中引用的某些量度并不意味着这些量度不能有利地组合使用。权利要求书中任何参考符号不应当理解为对范围的限制。

表1：参考表-图/专利序列表方案

本发明的其他实施方案涉及：

1.一种用于提供核苷酸序列数据(36)的方法，所述方法包括以下步骤：

接收基础核苷酸序列数据(30)，其包含核酸片段的核苷酸的标识符的确定序列(32)，并且包含已经捕获所述核酸片段的捕获探针的探针数据(34)；

通过用关联所述探针数据(34)与所述预期序列(38)的信息将所述探针数据(34)转换为预期序列(38)来确定所述核酸片段的预期序列(38)；

输出所述核苷酸序列数据(36)，其包含所述标识符的确定数据(32)和预期序列(38)的参考。

2.实施方案1的方法，

其中所述探针数据(34)包含位置数据(68，70)，并且所述预期序列(38)通过关联所述位置数据与所述预期序列来确定。

3.实施方案1或2的方法，

其中所述预期序列(38)的参考包含所述预期序列自身、基因组位置和/或参考序列中的预期序列的起始位置；和/或

其中所述预期序列(38)的参考还是所述预期序列(38)的变体的参考。

4.前述实施方案之一的方法，

其中从数据表(42)确定所述预期序列(38)，所述数据表包含连接探针数据与相关预期序列的记录。

5.前述实施方案之一的方法，

其中所述探针数据(34)通过以下步骤转换：

首先通过从第一数据表(44)读取基因组位置来将所述探针数据转换为核酸片段的基因组位置(48)，所述第一数据表包含连接探针数据与相关基因组位置的记录；和

然后通过从第二数据表(46)读取所述预期序列的参考来将所述基因组位置(48)转换为所述参考，所述第二数据表包含连接基因组位置与预期序列的相关参考的记录。

6.前述实施方案之一的方法，

其中所述预期序列(38)包含核苷酸的标识符的序列；

其中所述预期序列包含关于标识符的序列的变体的信息。

7.前述实施方案之一的方法，所述方法还包括以下步骤：

通过检查所述预期序列(38)与所述确定序列的确切匹配来将所述确定序列(32)与参考核苷酸序列比对。

8.实施方案7的方法，

其中通过所述标识符的确定序列(32)与所述标识符的预期序列(38)的串比较来检查所述确切匹配。

9.实施方案7或8的方法，所述方法还包括以下步骤：

如果对于所述预期序列没有发现确切匹配，则通过进行常规比对器来将所述确定序列(32)与参考核苷酸序列比对。

10.前述实施方案之一的方法，

其中所述核苷酸序列数据编码于FASTQ格式、FASTA格式、EMBL格式或GCG格式中。

11.一种用于提供核酸样品的核苷酸序列的方法，所述方法包括以下步骤：

提供多个捕获探针，每个所述捕获探针适合于捕获核酸片段的特定序列；

将所述捕获探针与通过将核酸样品片段化产生的多个核酸片段杂交；

测序所述核酸片段，从而对每个核酸片段产生核苷酸的标识符序列(32)；

通过联系所述核酸片段的标识符的序列(32)与适合于捕获所述核酸片段的捕获探针的探针数据(34)来对每个核酸片段产生基础核苷酸序列数据(30)；

通过在所述基础核苷酸序列数据(30)上进行权利要求1-10之一的方法来对每个核酸片段产生富集的核苷酸序列数据(36)；

对于每个核酸片段，将所述富集的核苷酸序列数据(36)与相关的参考序列比对。

12.一种用于提供核苷酸序列数据的程序单元，其中当通过处理器执行时，其适合于进行实施方案1-11之一的方法的步骤。

13.一种计算机可读段介质，其中存储实施方案11的用于提供核苷酸序列数据的程序单元。

14.一种测序装置(10)，

其中所述测序装置(10)适合于产生基础核苷酸序列数据(30)，其包含核酸片段的核苷酸的标识符的确定序列(32)以及已经捕获所述核酸片段的捕获探针的探针数据(34)；

其中所述测序装置(10)适合于关联所述探针数据(34)与预期序列(38)；

其中所述测序装置(10)适合于产生核苷酸序列数据(36)，其包含所述标识符的确定序列(32)和所述预期序列(38)的参考。

15.实施方案14的测序装置(10)，

其中所述测序装置(10)适合于执行实施方案1-11之一的步骤。

Claims

接收基础核苷酸序列数据(30)，其包含核酸片段的核苷酸的标识符的确定序列(32)，并且包含已经捕获所述核酸片段的捕获探针的探针数据(34)，其中所述捕获探针的序列至少部分地与所述核酸片段的序列互补，其中所述捕获探针的序列能够通过杂交捕获所述核酸片段，并且其中所述捕获探针的序列与预期序列(38)不同；

通过用关联所述探针数据(34)与预期序列(38)的信息将所述探针数据(34)转换为预期序列(38)来确定所述核酸片段的预期序列(38)；

输出所述核苷酸序列数据(36)，其包含所述标识符的确定序列(32)和预期序列(38)的参考。

2.权利要求1的方法，其中所述探针数据(34)包含位置数据(68，70)，并且所述预期序列(38)通过关联所述位置数据与所述预期序列来确定，所述位置数据优选包含诸如微阵列的微载体上的所述捕获探针的x-/y-位置。

3.一种用于确定连接至靶核酸分子的基因组位置信息的所述靶核酸分子的序列的方法，所述方法包括以下步骤：

任选地从所述固相除去未结合的核酸分子；

通过使用聚合酶活性将所述核酸靶分子环化；

扩增所述环化的核酸靶分子，优选通过滚环扩增；

鉴定所述非靶互补序列标签的序列；

4.权利要求1的方法，其中所述探针数据(34)包含通过权利要求3方法获得的参考基因组上核酸靶的确定的序列的位置的信息，并且其中所述预期序列(38)通过关联关于所述参考基因组上的位置的信息与所述参考基因组的对应序列来定义。

5.权利要求1、2或4的方法，

其中所述预期序列(38)的参考包含所述预期序列自身、基因组位置和/或预期序列在参考序列中的起始位置；和/或

6.权利要求1、2、4或5的方法，

7.权利要求1、2或4至6之一的方法，

其中所述探针数据(34)通过以下步骤转换：

8.权利要求1、2或4至7之一的方法，

其中所述预期序列(38)包含核苷酸的标识符的序列；

其中所述预期序列包含关于标识符的序列的变体的信息。

9.权利要求1、2或4至8之一的方法，所述方法还包括以下步骤：

10.权利要求9的方法，

11.权利要求9或10的方法，所述方法还包括以下步骤：

如果对于所述预期序列没有发现确切匹配，则通过进行常规比对算法来将所述确定序列(32)与参考核苷酸序列比对。

12.前述权利要求之一的方法，

其中所述核苷酸序列数据以FASTQ格式、FASTA格式、EMBL格式或GCG格式编码。

13.一种用于确定核酸样品的核苷酸序列的方法，所述方法包括以下步骤：

通过在所述基础核苷酸序列数据(30)上进行权利要求1、2或4至12之一的方法来对每个核酸片段产生富集的核苷酸序列数据(36)；以及

14.一种用于提供核苷酸序列数据的程序单元，其中当通过处理器执行时，其适合于进行权利要求1-11之一的方法的步骤。

15.一种测序装置(10)，

其中所述测序装置(10)适合于产生核苷酸序列数据(36)，其包含所述标识符的确定序列(32)和所述预期序列(38)的参考；

其中所述测序装置优选适合于进行权利要求1、2或4至13之一的方法的步骤。