CN1829805A

CN1829805A - 核苷酸序列的虚拟代表

Info

Publication number: CN1829805A
Application number: CN 200480020682
Authority: CN
Inventors: M·H·威格勒; J·希利; R·卢西托
Original assignee: Cold Spring Harbor Laboratory
Current assignee: Cold Spring Harbor Laboratory
Priority date: 2003-05-23
Filing date: 2004-05-21
Publication date: 2006-09-06
Also published as: ZA200509528B

Abstract

本发明提供了可以用来与核酸序列代表杂交的寡核苷酸探针。还提供了含有诸如微阵列这类探针的组合物。本发明还提供了在治疗、诊断和研究应用中使用这些探针的方法。提供了可以快速和准确地计数特定字符串(即核苷酸)出现在核苷酸序列(例如基因组)中的次数的字计数算法的系统和使用方法。这种算法可以用于鉴定本发明的寡核苷酸探针。该算法使用了基因组变换和辅助数据结构以计数特定字出现在基因组中的次数。

Description

核苷酸序列的虚拟代表

发明领域

本发明一般涉及分子生物学。更具体的说，本发明涉及用于产生作为指定来源DNA(例如基因组)的代表之核苷酸序列的物质和方法。

发明背景

用于基因组分析的通用方法已经用遗传成分对癌症和其它疾病或情况的病理生理学提供了透彻理解。这类方法包括核型分析、倍性测定、比较基因组杂交(CGH)、代表性差异分析法(RDA)(例如，参见美国专利US5,436,142)和基因组代表性分析(1999年5月14日公布的WO99/23256)。一般来说，这些方法包括使用探针探询特定基因的表达或检验基因组自身中的改变。

使用寡核苷酸阵列，这些方法可以用于获得细胞中遗传改变的高分辨通用影像。然而，这些方法需要特定探针的序列知识。这种情况特别限于cDNA阵列，因为这类阵列仅探询有限的一组基因。它们还限于基因组范围内筛选，因为许多为阵列设计的寡核苷酸可能不在探询的群体中出现，导致分析无效或无效率。

发明概述

本发明提供了用于探询核酸分子群体的组合物和方法。这些组合物和方法可以，任选地与微阵列技术结合，用于分析复杂的基因组(例如哺乳动物基因组)。本发明的特征在于：至少100个的多个核酸分子(A)，其中(a)核酸分子各自与至少Z个碱基对的基因组中的序列特异性杂交；和(b)所述的多个核酸分子中至少P％具有：(i)至少K个核苷酸长度；(ii)与存在于或预计存在于来源于所述基因组的代表中的至少一个核酸分子特异性杂交，所述的代表具有不大于所述基因组复杂性的R％；和(iii)不大于X的与所述基因组(或所述代表)的L1核苷酸的完全匹配(exact match)，和不小于Y的与所述基因组(或所述代表)的L1核苷酸的完全匹配；和(B)其中(a)Z≥1×10⁸；(b)300≥K≥30；(c)70≥R≥0.001；(d)P≥90-R；(e)与(log₄(Z)+2)最接近的整数≥L1≥与log₄(Z)最接近的整数；(f)X为与D1x(K-L₁+1)最接近的整数；(g)Y为与D2x(K-L₁+1)最接近的整数；(h)1.5≥D₁≥1；和(i)1＞D₂≥0.5。

在某些其它实施方案中，(1)所述的多个核酸分子包括至少500个、1,000个、2,500个、5,000个、10,000个、25,000个、50,000个、85,000个、190,000个、350,000个或550,000个核酸分子；(2)Z至少为3×10⁸、1×10⁹、1×10¹0或1×10¹¹；(3)R为0.001、1、2、4、10、15、20、30、40、50或70；(4)P与R彼此独立且至少为70、80、90、95、97或99；(5)D1为1；(6)L1为15、16、17、18、19、20、21、22、23或24；(7)P为91、92、93、94、95、96、97、98、99或100；和/或(8)K为40、50、60、70、80、90、100、110、120、140、160、180、200或250。在某些实施方案中，与另一个核酸分子特异性杂交的核酸分子与其它一核酸分子中相同长度的序列具有至少90％的序列同一性。在其它实施方案中，它具有至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性。

在某些其它实施方案中，所述多个核酸分子中的所述P％各自进一步具有不大于A的与所述基因组的L2核苷酸的完全匹配，和不小于B的与所述基因组的L2核苷酸的完全匹配，其中：(a)L₁＞L₂≥最接近log₄(Z)-3的整数；(b)A为与D₃x((K-L₂+1)x(Z/4^L ₂))最接近的整数；(c)B为与D₄x((K-L₂+1)x(Z/4^L ₂))最接近的整数；(d)4≥D₃≥1；和(e)1＞D₄≥0.5。

可以通过所述基因组的序列特异性切割产生DNA群体代表，例如使用限制性内切核酸酶进行。它还可以来源于另一种代表。即，所得代表为化合物的代表。

可通过一种方法鉴定本发明的核酸分子，该方法包括：(a)在计算机上(in silico)用限制酶切割所述基因组而产生多个预计的核酸分子；(b)通过鉴定各自带有所述基因组的200-1,200个(含两端点)碱基对在内长度的预计核酸分子，具有0.001％-70％(含两端点)复杂性的虚拟代表而产生所述基因组的虚拟代表；(c)选择具有30-300个(含两端点)核苷酸在内的长度和与(b)中的预计核酸分子具有至少90％序列同一性的寡核苷酸；(d)计算所述虚拟代表与所述基因组相比的复杂性；(e)鉴定在所述寡核苷酸出现的所有L1核苷酸序列段；和(f)证实所述序列段各自在所述基因组中出现的次数满足不同的预定要求。

本发明的核酸分子可以用作分析样品DNA的探针。可以将这些探针固定在固相表面，包括半固体表面上。固相包括，但不限于尼龙膜、硝酸纤维素膜、载玻片和微球(例如顺磁微珠)。在某些实施方案中，核酸分子在所述固相上的位置是已知的，例如作为微阵列形式使用。本发明的特征还在于分析核酸样品(例如基因组代表)的方法，所述方法包括：(a)使样品与本发明的核酸探针杂交；和(b)确定所述样品与所述多个核酸分子中的哪个杂交。

本发明还构思了分析两个基因组之间基因组序列拷贝数变化的方法，所述方法包括：(a)提供两个可检测标记的代表，它们各自由相应的基因组用至少一种相同的限制酶制备；(b)使这两个代表与本发明的核酸探针接触以便在所述代表与所述探针之间进行杂交；(c)分析两个代表与探针组的杂交水平，其中所述水平与探针组成员之间的差异表示两个基因组之间在所述成员靶向的基因组序列方面拷贝数变化。在某些实施方案中，以可区分方式标记所述代表，和/或两个代表的接触同时进行。

本发明还构思了比较两个基因组之间基因组序列的甲基化状态的方法，所述方法包括由相应的基因组提供两个可检测标记的代表，每一代表通过甲基化敏感性方法制备。例如，使用第一种限制酶制备第一个基因组的第一个代表，使用第二种限制酶制备第二个基因组的第二个代表，其中所述的第一种和第二种限制酶识别相同的限制位点，但一种是甲基化敏感性的，而另一种不是。还可以在使用非甲基化敏感性限制酶制备代表后，可以用化学方式裂解带有甲基-C的序列，使得来源于甲基化基因组的代表不同于来源于非甲基化基因组的代表。然后使两个代表与本发明的探针接触以便所述代表与所述探针之间进行杂交。随后分析两个代表与所述探针的杂交，其中所述代表之间在与特定探针的杂交水平方面的差异表示两个基因组在由所述探针靶向的基因组序列方面的甲基化状态差异。

正如下文进一步解释的，类似方法也可以用于分析复杂基因组的多态性。

本发明的某些实施方案提供了用于准确和有效检测和计数字(word)在基因组中出现的次数的算法。这种算法在本文中有时称作搜索引擎或mer-引擎，它使用基因组变换(例如Burrows-Wheeler变换)和辅助数据结构以便计数特定字出现在基因组中的次数。″字″指的是确定长度的核苷酸序列。

一般来说，所述引擎通过首次找到字的最后字符搜索特定的字。然后它进行寻找紧靠在最后字符之前的字符。如果发现第一个紧跟的在前字符，那么它就寻找紧跟所述字最后一个字符之前的第二个字符，依此类推直到找到该字。如果没有找到进一步的在前字符，那么就可以推断该字在基因组中不存在。如果找到了该字的第一个字符，那么它出现的次数为该特定字的字计数。

这种特定算法是有利的，因为它可以如下所述用于进行包括基因组研究在内的几种实际应用。

本发明的其它特征和优点从下文的附图、详细描述和权利要求中显而易见。

附图简述

附图1A-1D表示使用包括10,000个寡核苷酸的微阵列的阵列测定的信息和准确性的预测性。

附图1A表示杂交样品为BglII代表和缺失了带有HindIII切割位点的片段的BglII代表的结果。Y-轴(平均比值)为来自以对数尺度绘制的缺失代表与正常代表的两次杂交的平均比值。X-轴(指数)是为使来源于定为带有内部HindIII位点的片段的探针位于右侧而构建的假定指数。附图1B表示用于产生附图1A的平均比值的一式两份实验的再现性。Y-轴(实验1的比值)为来自实验1的测定比值，而X-轴(实验2的比值)为实验2的测定比值。均以对数尺度绘制两轴。附图1C绘制了作为并未在X-轴上衰减的样品强度之函数的Y-轴上的校准比值。均以对数尺度绘制所述比值和强度。附图1D表示通过模拟生成的数据。X-轴(指数)为假定指数。在600个的组中的探针从左到右检测了增加的拷贝数。600个侧翼探针检测了正常的拷贝数。Y-轴(平均比值)为以对数尺度绘制的平均比值。

附图2A1-2A3、2B1-2B3和2C1-2C3表示原发乳腺癌样品(CHTN159)的基因组特性，其中使用10K印刷阵列(附图2A1、附图2B1、附图2C1)和85K影印阵列(附图2A2、附图2B2、附图2C2)将来自同一患者的非整倍体核与二倍体核进行了比较(附图2A1-2A3)，将乳腺癌细胞系与正常男性参比物进行了比较(附图2B1-2B3)，并将正常男性与正常男性参比物进行了比较(附图2C1-2C3)。在每种情况(附图2A1、附图2B1、附图2C1和附图2A2、附图2B2、附图2C2)中，Y-轴为平均比值，且X-轴(基因组指数)为指数，该图绘制了按基因组次序排列的探针，将染色体连接成串，且使来自染色体1-Y的完整基因组显现。附图2A 3、附图2B 3和附图2C 3表示从存在于10K和85K微阵列中的″兄弟″探针中测定的比值的相应值。Y-轴为来自10K微阵列的测定比值，且X-轴为来自85K微阵列的测定比值。

附图3A-3D表示来自肿瘤细胞系SK-BR-3，与正常参比物相比的，分析的带有不同拷贝数变动的几种染色体。Y-轴(平均比值)表示对数尺度形式的两次杂交的平均比值。X-轴(基因组指数)为基因组坐标的指数。附图3A表示对染色体5鉴定的拷贝数变动，附图3B表示对染色体8鉴定的拷贝数变动，附图3C表示对染色体17鉴定的拷贝数变动，且附图3D表示对染色体X鉴定的拷贝数变动。

附图4A-4D表示根据SK-BR-3与正常参比物(附图4A和附图4B)和CHTN159(附图4C和附图4D)相比的分析计算的平均分段。在附图4A-4D中，Y-轴为对数尺度形式的各探针的平均分段值。在附图4A和附图4C中，X-轴(平均分段指数)列出了各自指定平均分段的上行值。在附图4B和附图4D中，X-轴(基因组指数)为如上所述以头尾相接方式排列完整基因组的基因组指数。在平均分段数据上标绘的是使用文本中的公式从阵列数据中外推的拷贝方格(水平线)。对各水平线计算的拷贝数位于方格的右侧。

附图5A-5D在Y-轴(SK-BR-3平均比值)上以对数尺度绘制了SK-BR-3与正常参比物相比两次杂交的平均比值的图。X-轴(基因组指数)为基因组指数。附图5A表示来自带有损失区的X染色体的区。在测定的阵列比值上标绘的是计算的分段值。附图5B表示来自SK-BR-3与正常参比物相比的结果的染色体8的区(位于该图中心右侧的c-myc)。在数据上部标绘的是SK-BR-3与阴影斜线中的正常参比物相比的分段值和阴影垂线中的原发肿瘤CHTN159的分段值。附图5C表示染色体5上的损害，显示了85K与10K阵列的分辨本领。结果来自SK-BR-3与正常参比物的比较。空心圈来自10K印刷的微阵列，实心圈来自85K影印阵列。水平线为基于来自平均分段值的建模的拷贝数估计值。附图5D表示SK-BR-3与正常参比物的比较，显示了染色体19上同合型缺失的区。将平均分段值绘制为白线且方格为如上所述的拷贝数估计值。

附图6A-6D表示正常与正常的比较结果，与附图2C2中显示的相同，但单峰探针已经如文本中所述被滤过。附图6B解释了来自染色体4的小区的连续实验比较。Y-轴为对数尺度的平均比值。X-轴为基因组指数。实心(85K)和空心(10K)圈来自SK-BR-3与正常参比物的比较。空心三角形为矮小者与正常参比物的比较。附图6C解释了在染色体6上的正常群体中发现的损害。将实心圈绘制为对矮小者与正常参比物的分析的平均比值。垂直阴影线为矮小者与正常参比物比较的平均分段值。阴影斜线为SK-3-BR-3与正常参比物比较的平均分段值。交叉阴影线为来自原发肿瘤(CHTN159非整倍体到二倍体)比较的分段值。附图6D表示染色体2的区。圆圈中所示的数据来自SK-BR-3与正常参比物的比较。用于这种比较的平均分段线如垂直阴影所示。用于矮小者与正常参比物比较的平均分段线如斜线阴影所示且用于初级肿瘤CHTN159的平均分段线如交叉阴影所示。就附图6C和附图6D而言，发现计算的水平线的拷贝数位于该组的明亮部分。

附图7表示本发明某些实施方案的解释性系统的方框图。

附图8表示进行本发明某些实施方案的正确字计数的解释性预处理步骤的流程图。

附图9A和9B表示本发明某些实施方案的解释性字计数算法的流程图。

附图10A和10B表示根据本发明某些实施方案的附图9A和9B的解释性正确字计数算法的示例。

附图11表示根据本发明某些实施方案具有相当于基因组坐标的坐标位置的解释性字尾阵列。

附图12A表示用于本发明某些实施方案的算法之变量和数据结构的图解表示。

附图12B表示本发明某些实施方案的算法的伪码表示。

发明详述

本发明的特征在于用于分析DNA群体代表(例如基因组、染色体或DNA混合物)的寡核苷酸探针。这些寡核苷酸探针可以在溶液中使用或可以将它们固定在固体(包括半固体)表面，诸如阵列或微珠上(例如Lechner等，《最新化学与生物学观点》(Curr.Opin.Chem.Biol.)6：31-38(2001)；Kwok，《人类遗传基因组综述年鉴》(Annu.Rev.Genomics Human Genet.)2：235-58(2001)；Aebersold等，《自然》(Nature)422：198-207(2003)；和美国专利US6,355,431和6,429,027)。代表为DNA群体的可再现取样，其中所得DNA一般具有新的形式或降低的复杂性，或二者皆有(Lisitsyn等，《科学》(Science)258：946-51(1993)；Lucito等，《美国国家科学院学报》(Proc.Natl.Acad.Sci.USA)92：151-5(1998))。例如，基因组的代表可以由仅来自基因组的小部分且基本上不含重复序列的DNA序列组成。对基因组代表的分析可以揭示出基因组中的改变，包括突变，诸如缺失、扩增、染色体重排和多态性。当在临床环境中进行时，该分析可以提供对疾病的分子基础的透彻理解以及对其诊断和治疗的有用指导。

本发明的寡核苷酸组合物可以用于与DNA源的代表杂交，其中将杂交数据进行处理以提供该DNA源的遗传特性(例如与疾病相关的遗传损害和多态性)。优选的，组合物中的代表(或下文中的″测试代表″)和至少寡核苷酸探针的部分来源于同一种类。可以使用来自任意种类的DNA，包括哺乳动物种类(例如猪、小鼠、大鼠、灵长类(例如人)、狗和猫)、鱼类、爬行动物种类、植物种类和微生物的种。

I.寡核苷酸探针

优选地，用DNA源的虚拟代表(诸如参比个体的基因组DNA)设计本发明的寡核苷酸探针。基因组的代表一般使其复杂性简化，但并非一成不变。代表的复杂性相应于其所代表的基因组级分。计算复杂性的一种方式是用所述代表中的核苷酸数除以基因组中的核苷酸数。代表的基因组复杂性可以在低于总基因组的1％到高至其95％的范围。如果使用带有来自相对简单基因组的生物体的DNA，那么所述代表可以具有100％的总基因组的复杂性，例如，可以在不进行扩增的情况下，通过对总DNA进行限制酶切消化产生所述的代表。

与本发明相关的代表一般具有0.001％-70％的复杂性。复杂性降低产生了期望的杂交动力学特性。

DNA的″实际″代表包括通过实验室步骤(″湿法作业″)选择的有代表性的DNA。另一方面，虚拟代表利用已经测序了完整基因组，例如人类基因组的事实。通过对可获得的基因组序列进行计算性分析，易于设计大量寡核苷酸探针，它们可与基因组的作图区杂交，且与该基因组的剩余部分具有最低程度的序列重叠。

作为实例，为了设计用于人类遗传分析的一组寡核苷酸探针，在计算机芯片上(in silico)(即虚拟的)，通过定位在测序的基因组上所选限制性内切核酸酶的所有切割位点对人类基因组进行消化。然后可以分析所得片段以便鉴定在所需范围内(例如200-1,200bp、100-400bp和400-600bp)例如可以通过PCR扩增的那些片段。将这类片段在本文中定义为″预计存在″于代表中。可以基于所需代表的复杂性选择限制性内切核酸酶。例如，不频繁切割的限制性内切核酸酶，诸如那些识别6bp或8bp靶序列的限制性内切核酸酶产生较低复杂性的代表，而频繁切割的限制性内切核酸酶，诸如那些识别4bp靶序列的限制性内切核酸酶产生较高复杂性的代表。此外，所分析的基因组G/C含量这类因子影响特定限制性内切核酸酶的切割频率且由此影响限制性内切核酸酶的选择。一般来说，使用不表现出星号活性的强限制性内切核酸酶。另一方面，例如，还可以通过使用识别DNA中甲基化胞嘧啶的甲基化-敏感性限制酶或其它酶，诸如McrBC，来进行基于靶位点甲基化状态的切割。

用计算机分析所有所需范围的消化片段的序列(例如200-1,200bp、100-400bp和400-600bp)，其中可以将这些长度至少约30bp且与基因组剩余部分具有最低同源性的片段中的区选作用于人类基因组的有代表性的寡核苷酸探针。下文的实施例1和部分VI进一步解释了鉴定本发明寡核苷酸的方法。

本发明的寡核苷酸的长度在约30个核苷酸-约1,200个核苷酸的范围。选择的寡核苷酸确切长度取决于预计的应用，例如制备所述代表的DNA源的大小和是否可以将它们用作阵列中的成分。寡核苷酸一般具有至少35个核苷酸，例如至少40、45、50、55、60、65、70、75、80、85、90、95或100个核苷酸的长度，但它们也可以具有例如20、21、22、23、24、25、26、27、28、29或30个核苷酸的较短长度。寡核苷酸一般具有不超过600个核苷酸的长度，例如不超过550、500、450、400、350、300、250、200或150个核苷酸。正如本领域技术人员可以认识到的，寡核苷酸的长度取决于所分析的基因组特征，例如重复序列的复杂性和量。

II.寡核苷酸阵列

可以以阵列形式使用本发明的寡核苷酸探针。阵列包含固相支持体，其带有以确定坐标或位置与之连接的核酸探针。每一位置含有许多单一DNA探针的拷贝或不同DNA探针的混合物。本领域中已经一般性地描述了核酸阵列，也称作″微阵列″或″芯片″。例如，参见美国专利US 6,361,947及其中引述的参考文献。我们已经命名了使用新阵列的遗传分析：″代表性寡核苷酸微阵列分析″(″ROMA″)，或″甲基化检测寡核苷酸微阵列分析″(″MOMA″)，其中切割取决于靶位点上的甲基化。

为了制备本发明的微阵列，使预合成的寡核苷酸与可以由玻璃、塑料(例如聚丙烯或尼龙)、聚丙烯酰胺、硝酸纤维素或其它材料制成且可以为多孔或无孔的固相支持体连接。正如一般由下列文献中所述的，使核酸与表面结合的方法通过印刷在玻璃板上来进行：Schena等《科学》(Science)270：467-70(1995)；DeRisi等《天然遗传》(NatureGen.)14：457-60(1996)；Shalon等《基因组研究》(Genome Res.)6：639-45(1996)；和Schena等《美国国家科学院学报》(Proc.Natl.Acad.Sci.USA)93：10539-1286(1995)。就低密度阵列而言，也可以使用在尼龙杂交膜上的点斑点迹。例如，参见Sambrook等，《分子克隆实验指南》(Molecular Cloning-A Laboratory Manual)(第2版)，1-3卷，Cold Spring Harbor Laboratory，Cold Spring Harbor，New York，1989。

另一种制备微阵列的方法通过使用光刻法(或″影印″)技术进行以便直接在阵列底物上，即原位合成寡核苷酸。例如，参见Fodor等，《科学》(Science)251：767-73(1991)；Pease等，《美国国家科学院学报》(Proc.Natl.Acad.Sci.USA)91：5022-6(1994)；Lipschutz等，《天然遗传》(Nat.Genet.)21(增刊1)：20-46(1999)；Nuwaysir等，《基因组研究》(Genome Res.)12(11)：1749-55(2002)；Albert等，《核酸研究》(Nucl.Acids Res.)31(7)：e35(2003)；和美国专利US5,578,832、US5,556,752US5,510,270。还可以使用用于快速合成和沉积确定的寡核苷酸的其它方法。例如，参见Blanchard等，《生物传感器和生物电子学》(Biosensors & Bioelectronics)11：687-90(1996)；和Maskos和Southern，《核酸研究》(Nucl.AcidsRes.)20：1679-1684(1992)。

本发明的阵列一般包括至少100个(例如至少500、1,000、5,000或10,000个)寡核苷酸探针且可以包括更多的探针，例如达25,000、50,000、75,000、85,000、100,000、200,000、250,000、500,000或700,000个探针。本发明的阵列一般不包括700,000个以上的探针。不过，它们可以包括更多，例如达800,000、900,000或1,000,000个探针。在某些实施方案中，所述的阵列为具有大于约60个不同探针/1cm²密度的高密度阵列。阵列中的寡核苷酸可以为单链或双链的。为了有利于制备和使用这些阵列，例如，可以通过将肽基结构和类似核苷酸引入探针来修饰本发明的寡核苷酸探针。

III.测试代表

本发明的寡核苷酸阵列可以用于探查任意选择的核酸样品。例如，样品可以为cDNA文库、基因组DNA文库或RNA制品。在其它实施方案中，本发明的阵列用于探测作为复杂DNA群体的代表(或″测试代表″)，诸如高级生物体基因组的DNA样品。

代表及其制备方法描述在下列文献中：例如，Lisitsyn等，《美国国家科学院学报》(Proc.Natl.Acad.Sci.USA)92：151(1995)；Lucito等，《美国国家科学院学报》(Proc.Natl.Acad.Sci.USA)95：4487-4492(1998)；和WO 99/23256。制备代表的一种途径包括可再现地将DNA群体切割成片段。一般通过用一种或多种限制性内切核酸酶(例如DpnI或BglII)或在特定甲基化位点上切割的酶(例如McrBC)进行可再现切割，不过，可以使用可再现切割DNA的任意方法。使所得DNA片段与适配子(adaptor)寡核苷酸连接。然后通过例如聚合酶链反应(″PCR″)或连接酶链反应，使用与所述适配子互补的引物扩增这些片段。扩增的片段代表起子DNA群的亚群。由于扩增步骤，所以可以由极少量起始物质(例如由5ng DNA)制成代表。可以将如Lisitsyn等在《科学》(Science)258：946-51(1993)和美国专利US5,436,142和US5,501,964中所述的代表性差异分析法(″RDA″)用于从所述代表中除去任何已知的不需要的序列，包括重复序列。

起始DNA群体可以为大DNA分子，诸如生物体的基因组或其部分(例如染色体或其区)。我们分别涉及了诸如染色体或基因组代表这类DNA群体的代表。例如，起始DNA群体可以获自患病的组织样品，诸如肿瘤活检样品、正常组织样品、肿瘤细胞系、正常细胞系、作为固定样本贮存的相比、尸检样品、法医用样品、古-DNA样品、显微解剖的组织样品、分离核、分离的染色体或染色体区和分级分离的细胞或组织样品。还可以制备代表的代表(或″化合物代表″)。化合物代表用于筛选多态性。例如，参见WO 99/23256。

为了对来自两种DNA来源的代表进行比较分析，诸如将来自正常相比的基因组代表与来自癌性否则就是患病细胞的基因组代表进行比较，优选平行制备两个代表，例如同时和以相同方式从两种相比中分离起始DNA，由相同量的起始DNA制备所述代表并在同时和相同条件下在循环变温加热器中扩增DNA片段。还可以优选正常细胞和患病细胞取自相同个体，不过，通过合并例如来自该个体双亲的DNA能够获得″正常″基因组DNA。

代表的复杂性一般低于起始DNA群体的复杂性，因为有的起始群体中的序列不存在于所述代表中。代表的复杂性与特定起始群体中限制性内切核酸酶的切割频率有关。更为频繁的切割产生更为复杂的代表。因为在典型条件下通过PCR优势扩增200-1,200个碱基对的片段，所以可以通过切割起始DNA以使大部分片段为200-1,200个碱基对而获得高复杂性代表。相反，可以通过切割DNA分子以使较少片段为200-1,200个碱基对而获得低复杂性代表。例如，人类基因组DNA的DpnII消化可以产生具有约70％的完整人类基因组的复杂性的代表。另一方面，用诸如BamHI或BgIII这类频繁度较低的切割物进行消化可以产生仅具有约2％的人类基因组复杂性的代表。高复杂性代表例如用于测定基因拷贝数、缺失作图、测定杂合性丢失、比较基因组杂交和DNA归档。一般来说，低复杂性代表用于相同目的，但可以获得必高复杂性代表更好的杂交动力学特性。

可以通过在连接适配子前使用一种以上限制酶产生片段和/或通过在连接适配子后使用一种或多种其它限制酶切割片段亚群，由此使所得代表中缺失那些片段来进一步调整代表的复杂性。任何限制酶，包括甲基化敏感性酶均可以用于如本文所述产生用于分析代表。

还可以通过选择用于扩增的适配子形成所述代表的复杂性。例如，使用适配子可以影响代表成员的大小。如果将相同适配子与切割片段的两端连接，那么在单链中适配子之间的狭长部分的形成与引物退火竞争，由此抑制了通过PCR的扩增。参见Lukyanov等，《生物化学分析》(Anal.Biochem.)229：198-202(1995)。扩增较短的片段更能够受到抑制，因为适配子在较短片段中彼此更为接近，导致连接的适配子的有效局部浓度较高且由此相互作用更大。形成约29个碱基对的狭长部分的适配子允许扩增200-1,200个碱基对大小范围的片段。形成较短狭长部分的适配子，例如24个碱基使对较小片段的抑制达到一定程度的释放，导致对较PCR扩增产物有利且由此产生改变复杂性的代表。

IV.核酸样品与阵列的杂交

本发明的微阵列一般与在溶液中的单链核酸的样品杂交。因为可能的杂交信号可因杂交室内位置的不同而改变，所以可以优选将探针阵列用作比较器，从而测定充分混合且由此共有相同杂交条件的两种不同标记样本(样品)之间的杂交比值。一般来说，两种样本分别为测试(例如患病)和对照(例如无病)细胞。

可以通过本领域技术人员公知的任何方式可检测地标记与微阵列杂交的样品，例如上述测试代表。在某些实施方案中，例如，通过随机引物标记或切口移位用荧光部分标记样品。当样品为代表时，可以在扩增步骤中在反应中包含标记的核苷酸来标记它。荧光标记可以为，例如丽丝胺缀合的核苷酸或荧光素缀合的核苷酸类似物。在某些实施方案中，使用两种不同标记的样品(例如一种用丽丝胺标记，而另一种用荧光素标记)。在某些实施方案中，样品未被标记。

选择杂交和洗涤条件，使得样品中的核酸分子与阵列上的互补寡核苷酸特异性结合。一般使含有双链寡核苷酸的阵列经历变性条件以便在与样品接触前使寡核苷酸为单链。最佳杂交条件取决于寡核苷酸探针和样品核酸的长度和类型(例如RNA或DNA)。

可以通过本领域技术人员公知的任意方法检测与本发明阵列的杂交。在某些实施方案中，通过激光扫描器检测荧光标记的样品核苷酸的杂交。在某些实施方案中，通过测定质量检测标记或未标记样品核苷酸的杂交。当使用两种不同的荧光标记时，扫描器可以未能够一般同时或几乎可以同时检测一种以上波长荧光的扫描器，所述波长相对于每一荧光标记的波长。

V.寡核苷酸探针的示例性应用

本发明的寡核苷酸探针可以用于检测基因组中特异性序列的拷贝数或甲基化状态的改变并对其定量。如果使来源于多个DNA样品的代表与相同寡核苷酸探针杂交，那么两种样品与特定探针之间杂交的相对强度表明了两种样品中相当于该探针的序列的相对拷贝数或甲基化状态。例如，基因组因扩增而一般含有额外拷贝或因特异性区缺失而含有较少或不含某些序列。例如，如果特异性序列的扩增、缺失或甲基化状态涉及例如具体疾病，包括例如癌症、神经性疾病(例如孤独症)、糖尿病、心脏病和炎性疾病(例如自身免疫病)的诱因、进展或疾病分期，那么这些方法可以用于分析参比样品与患者样品之间的序列拷贝数或甲基化状态的改变。

此外，可以获得有关基因组拷贝数或甲基化状态改变的位置信息，因为与本发明寡核苷酸探针互补的基因组中的序列是已知的。如果设计在基因组序列中频繁杂交的寡核苷酸探针且样品为高复杂性代表，那么能够对基因组扩增、缺失或甲基化状态的精确区作图。因此，本发明可以用于鉴定可能与具体疾病诱因、进展或疾病分期相关的个体基因。这些基因可以为癌基因和肿瘤抑制基因，这取决于癌基因组与参比基因组相比，其中的序列是否分别被扩增、缺失或甲基化/未甲基化。

本发明的寡核苷酸探针还可以用于鉴定个体内和个体之间的多态位点，包括单核苷酸多态性(SNP)。这些多态性是常见的且多达2-3％的寡核苷酸探针即使在″正常″个体之间也显示出多态性。可检测的多态性可能因限制性内切核酸酶片段丢失或获得所致，例如因点突变、缺失、基因组重排或超过杂合多态性的基因转变所致，其中它们的存在或不存在在代表中均得到反映。例如，用限制酶消化核苷酸序列可以产生一个大的(即切割的)或两个小的片段，这取决于是否存在限制位点。如果寡核苷酸探针检测到了测试代表中的小片段之一或两者，那么就得知这种多态限制位点存在于测试基因组。

类似地，基因组重排，包括易位、插入、倒位可以导致跨越至少重排部分的新限制性内切核酸酶片段生成。这些新片段中的某些可以为可扩增的且由此存在于重排基因组的代表中，但不存在于参比代表中。相反，基因组重排可以导致片段从代表中丢失。在任一情况中，测试与参比代表在与某些探针杂交中的差别提示与参比基因组相比，基因组重排可能已经在测试基因组中出现。通过分析这些探针的序列和这些探针在参比基因组中的位置，可以获得有关遗传重排的信息，包括重排类型和重排的连接点。

分析个体内和个体间特异性序列的拷贝数和其它多态性的能力具有许多应用，这对本领域技术人员而言显而易见。它们可以为，但不限于：鉴定个体，例如用于法医测试和亲子测试；植物或动物繁殖；在遗传上与遗传性状关连的多态性发现，包括对数量性状的分析；测定患者的药物反应，包括预测对因为的有益或不良反应；诊断；和用于临床试验中的患者鉴别和层次。

VI.示例搜索引擎

下文描述了可以用于获得上述寡核苷酸探针的算法。应理解下列描述并非用于表明该算法是获得这类探针的唯一手段。还应理解该算法具有除产生本发明的寡核苷酸探针外的应用。本文描述了其它应用中的某些。

这种算法在本文中有时称作搜索引擎或mer-引擎，它使用基因组变换(例如Burrows-Wheeler变换)和辅助数据结构以便计数特定字出现在基因组中的次数。″字″指的是任意长度的核苷酸序列。

一般来说，该引擎通过首次找到字的最后字符来搜索特定的字。然后它进行寻找紧跟在最后字符之前的字符。如果发现第一个紧跟的字符，那么它就寻找紧跟所述字最后一个字符之前的第二个字符，依此类推，直到找到该字。如果没有找到其它在前的字符，那么就可以推断该字在基因组中不存在。

这种特定算法是有利的，因为它可以用于进行几种实际应用，包括基因组研究，如上所述。该搜索引擎的一种应用在于它可以用于注解核苷酸序列，诸如基因组。特别地，可以使用存在于基因组中的特定长度的子串注解基因组。搜索引擎随后可以计数特定长度的子串在基因组中出现的次数。这些计数提供了特定子串的唯一性的标记，其中较低计数代表唯一性的程度高于较高计数的唯一性的程度。

探针设计是另一种通过使用所述搜索引擎有利增强的实际应用。快速计数特定字出现在基因组中的次数的引擎能力在设计探针中特别有用，这些探针是唯一的且与DNA的特异性区杂交，其中交叉杂交程度最低。通过使用该搜索引擎，可以通过要求探针由构成片段组成将潜在的交叉杂交减少倒最低限度，所述的构成片段是唯一的且满足确定的严格条件，诸如在完整基因组内具有低的字计数或无字计数。

搜索引擎的另一个应用在于检测两个基因组之间的差别。例如，因为人类基因组计划得到发展，所以对该基因组的新片段作图并对公众发表。使用所述的搜索引擎和基于相同基因组的另一种形式设计的探针，可以确定那些探针中有多少可以应用于该基因组的新形式。

可以使用所述搜索引擎的另一种应用在于验证特定字是否存在于基因组中。理想的情况是找到基因组中未出现的字，使得该字几乎没有与基因组部分杂交的机会。可以按照预定的一组标准随机生成这些字。当找到一个字时，其补码被提交给搜索引擎以确定它是否出现在基因组中。如果该字及其补码未出现在基因组中，那么得知这些字彼此杂交且不与基因组杂交。

A.系统描述

可以使用附图7中所示的解释性系统700，按照本发明执行搜索引擎及其应用。系统700可以包括计算机710、用户接口设备730、因特网740和任选的实验室设备(未显示)。系统700可以包括多个计算机710和用户接口设备730，但在附图7中仅解释了它们各自中的一个以避免使附图复杂化。图中显示计算机710通过通信路径790与用户接口设备730和因特网740连接。

计算机710可以包括诸如处理器712、数据库714(例如硬盘驱动器)、存储器716(例如随机存取存储器)和可移动媒体驱动器718(例如软盘驱动器、CD-ROM驱动器或DVD驱动器)的电路。这种电路可以用于将数据传输至用户接口设备730和因特网740、从用户接口设备730和因特网740传输数据和/或在用户接口设备730与因特网740之间传输数据。计算机710可以通过对来自用户接口设备730的用户输入信号做出响应来启动本发明的技术。计算机710还可以在用户接口设备730上将有关获自搜索引擎的结果的信息提供给用户。

数据库714储存了向搜索引擎提供数据的信息。更具体的说，数据库714可以包括基因组序列或基因组的特定部分。本发明可以使用储存在数据库714上的基因组信息以构建字尾阵列，它也可以储存在数据库714上。字尾阵列为在用于构建基因组转变或其部分的制备中产生的数据结构。例如，基因组的数据代表可以获自可以通过可移动媒体驱动器718存取的可读媒体(例如软盘、CD-Rom或DVD)。另一方面，可以通过因特网740获得基因组数据，其中从例如位于研究机构(例如国立卫生研究院(National Institutes of Health)或大学)上的服务器传输数据。如果需要，可以用新的基因组数据(当可得到时)更新数据库714。

一般来说，代表字尾阵列的数据量远大于代表基因组的数据量。因此，数据库714可能比存储器712更适合于储存字尾阵列，因为数据库易于储存比存储器更多的数据。

用户接口设备730使用户能够通过输入设备732向计算机730输入命令。输入设备732可以为任意合适的装置，诸如常用的键盘、无线键盘、鼠标、触摸式垫、轨迹球、语音激活控制台或这类装置的任意组合。例如，输入设备732可以使用户输入命令以执行特定字的字计数或执行潜在探针的统计分析。用户可以在显示设备734上监视在系统700上操作的过程。显示设备734可以为计算机监视器、电视、平板显示器、液晶显示器、阴极射线管(CRT)或任意其它合适的显示设备。

通信路径790可以为任意合适的通信路径，诸如电缆连接、硬线连接、光纤连接、红外连接、带线连接、蓝牙连接、模拟通信连接、数字通信连接或这类连接的任意组合。通信路径790被配置成能够使数据在计算机710、用户接口设备730和因特网40之间进行传送。

可以将实验室设备安装在系统700中，以便使用所述搜索引擎获得的结果可以直接应用于实验，反之亦然。

搜索引擎的优点在于用于计数正确字匹配的技术可以完全在计算机的存储器(例如存储器716)中进行。这提供了关于正确字匹配的基因组的极其快速和有效的查询。不需要访问数据库(例如硬盘驱动器)。这类需要实质上可以阻碍搜索引擎的性能。用于计数正确字匹配的技术100％正确。

B.字尾阵列、BURROWS-WHEELER变换和ALPHABOUNDS

现在参照附图8，解释性流程图800示出按照本发明原理制备用于搜索引擎的基因组的步骤。流程图800使用了构建字尾阵列数据结构的技术，所述的字尾阵列数据结构提供了产生特定基因组变换的基础。这种变换提供了用于本发明搜索引擎的基础，其中搜索引擎可以快速计数特定字(例如具有15、21、70或80个字符长度的字)出现的次数。在步骤810，提供了核苷酸序列，诸如基因组或基因组的部分。基因组可以排列为具有N个核苷酸长度的字符串，其中N表示代表该基因组的字符串中的核苷酸总数。

在步骤810提供的基因组可以来源于任意生物体或它可以随机产生。例如，可以提供完整的已知人类基因组或可以提供人类基因组的部分(例如代表染色体或染色体区的基因组部分)。如果需要，可以提供非人类基因组数据，诸如病毒、细菌、单细胞或多细胞生物体的基因组，包括酵母、植物和动物，诸如蜥蜴、鱼和哺乳动物(例如小鼠、大鼠和非人的灵长类)。

在步骤820，使基因组经历变换过程，该过程按照预定的词典编纂顺序重组了基因组的核苷酸排列。这种变换维持了出现在基因组中的相同成分字母(例如A、C、G和T)，但这些字母按照不同顺序排列。在本发明的一个实施方案中，使基因组进行称作Burrows-Wheeler变换的已知变换。Burrows-Wheeler变换可以获自字尾阵列。按照本发明，字尾阵列可以为代表基因组的所有周期性变换的N×N矩阵，其中所述的变换按照预定标准排列(例如依字母顺序、数字等)。有利的情况是，Burrows-Wheeler变换代表了周期性变换的分类的N×N矩阵。因此，当本发明的搜索引擎通过Burrows-Wheeler变换搜索时，它通过扩展经字尾阵列进行搜索，通过进一步扩展，通过代表基因组的原始字符串进行搜索。

基因组序列组件除包括A、C、G和T外，还可以包括不确定字符，由此将基因组的字母表扩展到5个字符。一般在核酸序列特定位置上的核苷酸未知时使用这一不确定字符，通常称作N。

因为Burrows-Wheeler变换代表了分类的字尾阵列，所以在搜索特定的字符串时，不需要访问字尾阵列。优选将这种变换储存在存储器中，在此执行搜索功能可以远比在将这种变换储存在硬盘上时快。此外，因为字尾阵列中包含的数据量可以很大，所以字尾阵列必须储存在硬盘驱动器中而不是在较快速操作的存储器(例如计算机的随机存取存储器)中。例如，用于人类基因组的字尾阵列的大小约为12千兆字节。如果将这类阵列储存在存储器中，那么具有12千兆字节存储器的机器的成本在昂贵程度上将远高于例如具有3千兆存储器的机器。因此，搜索引擎的一个优点在于它不需要昂贵和存储容量大的机器，因为所述的变换代表了分类的字尾阵列的压缩形式。

尽管字尾阵列对执行本发明的字搜索而言并不一定必要，但是描述如何获得这类阵列以便表示变换与阵列之间的关系是有用的。可以通过首先获得核苷酸序列的周期性变换来构建字尾阵列。例如，表1中解释了基因组″AGACAGTCAT$″的周期性变换，其中提供″$″是为了标记基因组字符串的结束。

AGACAGTCAT$

GACAGTCAT$A

ACAGTCAT$AG

CAGTCAT$AGA

AGTCAT$AGAC

GTCAT$AGACA

TCAT$AGACAG

CAT$AGACGTC

AT$AGACAGTC

T$AGACAGTCA

$AGACAGTCAT

表1

在获得周期性变换后，按照预定标准分类各行以获得特定的词典编纂顺序(例如依字母顺序的词典编纂顺序)。例如，表2在标题“分类的阵列”中解释了表1中所示变换的依字母顺序的排列。

行	分类的阵列		变换
行	分类的阵列		变换	012345678910	$AGACAGTCATACAGTCAT$AGAGACAGTCAT$AGTCAT$AGACAT$AGACAGTCCAGTCAT$AGACAT$AGACAGTGACAGTCAT$AGTCAT$AGACAT$AGACAGTCATCAT$AGACAG	->->->->->->->->->->->	TG$CCATAAAG

TABLE2

一旦周期性变换得到分类，则可以通过取分类阵列中每一行的最后字母获得基因组变换。这些字母在列标题″变换″中再现，表明基因组″AGACAGTCAT$″的变换为″TG$CCATAAAG″。

在一个实施方案中，可以使用应用16-节组的并行基数分类构建基因组，诸如人类基因组的字尾阵列。使用这种手段，将基因组分成X数目(例如100个)的大小等同的子串，它们各自被7个核苷酸重叠，其中X为预定的数。各子串中进入基因组的偏移(即″基因组″坐标)在每一偏移按照7-mer(7个核苷酸)被指定为57″字首″箱中之一。基于7-mer字首后的序列分类各字首箱内的偏移，由此生成字尾阵列。

在步骤830，计算各种计数量以生成辅助数据结构，它可以包括alphabounds数据结构、K-区间数据结构和字典计数数据结构。Alphabounds表示在变换中有多少腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶核苷酸。例如，使用表1和2的基因组，A、C、G和T的alphabounds分别为4、2、2和2。

Alphabounds可以用于给变换中相当于在分类的字尾阵列的每行的前部存在的特定字符的范围分界。例如，核苷酸A的分界范围包括从A开始的字尾阵列的每一行。参照表2，它表示分类阵列的1-4行从A开始。因此，该4行相当于对A计算的alphabounds。表2示出5-6行从C开始，相当于对C计算的alphabounds。同样，G块相当于变换的7和8行且T块相当于变换的9和10行。

步骤830还可以生成变换中每K个字符的K-区间，其中K为预定的数字。K-区间在它们出现在变换中时可以用于保持每一核苷酸的运行总数。可以通过本发明的搜索引擎使用这些K-区间以加快计数过程，该过程在下文中结合附图3和4讨论。特别地，K-区间的应用能够使搜索引擎的运行能力优于常规的字计数技术且使用比其少的空间，尤其是在应用于长度大于4百万个字符的核苷酸序列时更是如此。

下列实例进一步解释了如何使用K-区间对变换制表。假设变换具有10个字符ACGTCAGTCA且每5个字符储存K-区间。在第一个区间处，K-区间包括1个A、2个C、1个G、1个T。在第2个区间(例如第10个字符)处，K-区间包括到此为止已经在变换中出现的所有核苷酸的列表。第2个K-区间包括3个A、3个C、2个G和2个T。

在步骤840，按照预定压缩比压缩Burrows-Wheeler字符串。优选使用3-1压缩比压缩字符串。即对于每3个字符，将该字符串压缩成1个字符(例如将3000个字符缩减至1000个字符)。本领域技术人员理解可以使用其它压缩比。例如，可以使用4-1或5-1压缩比。可以使用基于字典的压缩方案压缩字符串，其中125个不同单字节代码之一代表每53个可能的3-字母子串之一(例如AAA、AAC、...、TTT)。更具体的说，将变换分成3个字符子串且按照基于字典的压缩方案压缩各子串。例如，如果3字符子串为AAA，那么它可以等同于字典压缩方案中的字节0。类似地，如果子串为TTT，那么它等同于字典压缩方案中的字节124。

可以生成字典计数数据结构以便在计数过程中通过提供快速访问查找表辅助搜索引擎，从而快速识别特定字母在压缩字节中出现的次数。这种情况是有利的，因为尽管为压缩状态，但是它能够使搜索引擎在变换时进行计数操作。然而，应注意，字节必须被解压缩以便搜索引擎完成对特定字母在搜索区内出现的次数的计数。平均而言，已经发现压缩变换的字节在由搜索引擎执行的字符计数步骤过程中的三分之二时间被解压缩。

一旦变换被压缩，则其准备就绪可用于本发明的搜索引擎。特别地，可以查询压缩的Burrows-Wheeler变换以便对基因组中包含的特定字的每次出现进行定位和计数。

C.字计数算法

附图9表示用于按照mer引擎原理计数特定字存在于指定基因组中的次数的解释性步骤的简化流程图。从步骤910开始，提供了基因组的压缩变换和辅助数据结构。例如，压缩变换和辅助数据结构可以获自附图8中解释的流程图。在步骤914，提供了特定长度的查询模式(例如ACG...G)。该模式优选地是搜索引擎在基因组变换中寻找的核苷酸字符串。

在提供查询模式后，搜索引擎开始反复搜索过程以便确定该模式是否存在。如果该模式确实存在，那么搜索引擎快速而准确地输出它出现的次数。在步骤918，所述的反复过程通过定义(或重新定义)搜索区开始，其为变换中字符位置的范围进行了分界。搜索区描绘了压缩变换的在X位置开始和在Y位置终止的字符区。该搜索区(或块)可能含有查询模式的所有出现。使用预定的标准定义搜索区，诸如查询模式的特定字符、alphabounds和其它数据。结合描述性附图10讨论如何定义搜索区的更具体的解释。

在步骤920，该过程确定了查询模式的最后一个在前字符有多少次出现在搜索区。在步骤922，如果在前字符计数为0，那么查询模式不存在且过程终止(步骤924)。如果在分界的范围内发现了至少一个字符，那么过程进行至步骤926。在步骤926，确定该在前字符是否为查询模式中的第一个字符。如果是，那么过程进行至步骤928，其中输出在步骤920中获得的计数且过程终止。如果该在前字符并非查询模式中的第一个字符，那么过程循环回到步骤918，因为它尚未确定查询模式是否存在于基因组中。在步骤918，使用预定的标准重新定义搜索区。

更具体的说，使用下列等式1和2重新定义搜索区：

开始位置＝A+Z (1)

终止位置＝开始位置+M-1 (2)

其中A为根据alphabounds的在前字符的开始位置，Z表示在当前定义的搜索区之前在前字符出现在变换中的次数，且M表示当前定义的搜索区中在前字符出现的次数。

重新定义的搜索区也可能含有查询模式的所有出现，但新近定义的搜索区进一步限定了需要在步骤920中搜索的字符位置。在定义了新搜索区后，过程继续进行至步骤920，其中在新近定义的搜索区内计数查询模式的下一个在前字符(即，从上述步骤920中使用的最后一个字符开始的字符)。该循环可以根据需要重复多次，直到找到查询模式的第一个字符且由此得到字计数数量。如果在搜索区未找到在前字符之一，那么推断无这类模式存在于基因组中。

附图10A-B解释了上述字计数算法的实例。该实例使用了与表1和2相关的上述解释性基因组(AGACAGTCAT$)、字尾阵列、Burrows-Wheeler变换(TG$CCATAAAG)和alphabounds。在该实例中，假设用户要求确定字″CAG″有多少次出现在基因组中。

在附图10A中，过程通过分界G块开始，因为G为字″CAG″的最后一个字母。正如解释的，G块在Burrow-Wheeler变换中的位置7开始并在位置8终止。这些位置获自alphabounds。一旦G块被分界，那么引擎就会搜索并计数存在于G块内的A(即″CAG″的下一个在前字符)的数量。附图10A示出有2个A出现在G块内，由此表明基因组含有″AG″的两次出现。

如果需要，K-区间可以用于促进计数特定字母出现在搜索区内的次数的步骤(例如计数G块中A的数量)，且还可以用于计数特定字母在搜索区之前出现的次数。为了进行这类计数步骤，从预定位置(例如开始位置)开始并逐步进行至为K的倍数的最近位置计数特定字符。与搜索引擎相接合使用的K-区间的一个优点在于：确定特定字有多少次出现在基因组中所需的时间相对于K-区间、被搜索字的大小和访问不同存储器地址所需的时间呈线性关系。因此，除非压缩变换的大小和K-区间数据结构过大而无法装载在存储器(例如随机存取存储器)中，否则，基因组的大小并非确定字计数的因素。在一个实施方案中，可以将K设定为300个字符或相当于100个压缩的字节。使用这类配置，需要执行的计数的最大数不超过K/2。

如果需要，各K-区间内的大小为K^的子区域间可以用于维持每一字符出现在特定K-区间内的运行总数。例如，如果将K的大小限于小于28，那么可以使用单字节记录每一K-区间上每个字母的计数。这使计数指数的密度增加到K/K^倍，而K-区间计数的空间需求仅增加到[(K/K^)/4]倍。这类子区域间和大小限制已经被与这种算法接合使用的辅助数据结构所采用。取决于K和K^的选择，在查询执行速度上已经获得了3-5倍增加，同时维持用于人类基因组的低于2千兆字节的存储器要求。

为了进一步加速计数过程，可以使用字典计数数据结构。注意，所用的压缩方案为3∶1的压缩方案，其中字节0-124分别被解压缩至″AAA″-″TTT″。字典计数结构为可以考虑为具有125行与5列的矩阵的二维阵列。每行相当于压缩字典条目之一，且每列相当于基因组字母从A到T中的每个字母。下面借助于实例解释字典计数结构和K-区间如何可以用于执行计数操作。

例如，假设搜索引擎被用于确定A在搜索区之前出现的次数的过程。使用上述K-区间计数结构，所述引擎可以在单次查找中″跳″至搜索区的当前开始位置的至少50个字节内。进一步假设开始位置指向为区间第49字节的压缩″ATT″(一个字节)中的第3个″T″。对于48个在前字节中的每一个而言，字节自身可以用作字典计数数据结构中的行数，而所关注的字母″A″表示列数。使用这一信息作为访问字典计数阵列的坐标，字典计数数据结构提供了″A″出现在该压缩字节中的次数。因此，为了确定在搜索区开始前有多少A出现，字典计数结构需要被访问48次。此外，第49字节可能需要解压缩以便检验字节″ATT″中的前两个字母″AT″。

因此，当将字典计数数据结构与K-区间数据结构结合时，计数任意数字字符的步骤仅需要K/6+1次查表，在最不利情况中再加上2次字符的比较。

返回到附图10，搜索引擎随后会分界变换内的AG块，以便了解在哪里搜索下一个在前字符。通过将变换中A位于G块前的次数加入到A块在变换中开始的第一个位置找到AG块的边界。在该实例中，仅1个A在G块前出现。因此，使用上述等式1，其中A为1且Z为1，获得AG块的开始位置为2。使用上述等式2获得AG的终止位置，其中M为2(在G块中找到的A的数量)。等式2产生了AG块的终止位置3，如附图10B中所示。

一旦找到了AG块，则搜索引擎对其中C出现的次数计数。该计数产生出现在基因组中的CAG的数量，因为C为字″CAG″中的第一个字符。因此，搜索引擎产生字计数“1”。

附图11示出解释性基因组，它具有坐标位置和具有相应于该基因组坐标位置的坐标位置的分类字尾阵列。即，字尾阵列的每行中的第一个字符相应于基因组中的字符之一。例如，阵列的第2行具有的坐标位置为2，它相应于基因组的位置2。因此，字尾阵列的坐标位置与基因组的坐标位置相关。

如果需要，字尾阵列可以用于对特定字的坐标位置进行定位。例如，如果要搜索″CAG″的坐标位置，那么可以访问附图11的字尾阵列且它会显示CAG在位置3开始。然而，如上所述，访问字尾阵列是一个耗时过程，因为它需要访问硬盘驱动器。因此，理想的情况是仅通过访问存储器获得字坐标。可以通过下列步骤获得这一结果：将预选的字尾阵列坐标指定给变换，由此使坐标位置算法可使用该变换来定位特定字的起始坐标。

借助于实例解释这类坐标定位算法。假设字尾阵列的循环部分为基因组的变换且仅坐标3和7从字尾阵列转入了变换。进一步假设需要找到TC的坐标。(注意，如果变换具有与附属于TC的G相关的坐标，那么不必借助于使用坐标定位算法就可以得到TC的坐标)。已知TC与变换中的最后一个G相关。从这个G开始，该算法确定了有多少在前的G′存在。在这种情况中，有1个在前的G。

alphabounds数据结构和开始的G的数量用于确定哪个字母在该特定G前。使用alphabounds得知G块从位置7开始。由于有一个在前的G，所以该算法将该数加入到7中而得到8。因此，相应于从GT开始的字尾阵列串的A为在上述G前的字母。这一过程完成了坐标定位算法的一次反复。一般来说，这一反复被重复直至达到变换上的坐标(例如3或7)。一旦达到坐标，则将反复次数加入到该坐标中且所得总数为所需字的实际起始坐标位置(例如TC)。

持续进行所述的反复过程，得知2个A位于与从GT开始的字尾阵列字符串相关的A之前。使用alphabounds和在前的A的数量，该算法停留在与从AGT开始的字尾阵列相关的C上。由于在该特定的G之前不存在C，所以该算法停留在与从CAG开始的字尾阵列字符串相关的A上。因为这一A具有坐标位置(例如3)，所以可以通过将3(这一A的坐标位置)加入到反复次数(在本实例中为3)中来确定字TC的实际位置，得到坐标位置6。因此，TC在原始基因组中从坐标位置6开始。

D.搜索引擎的应用

既然已经描述了搜索引擎的操作特征，那么可以讨论该引擎的实际应用。该搜索引擎的一种应用在于可以用于注解基因组(或任意其它类型的核苷酸序列)。特别地，可以使用存在于基因组中特定长度的子串注解基因组。搜索引擎然后可以对在基因组中出现的特定长度的子串的次数进行计数。这些计数提供了特定子串唯一性的标记，其中较低的计数表示唯一性的程度高于较高计数的唯一性的程度。

如果需要，基因组的任意区或完整基因组可以基于其成分″mer″频率得到注解。″mer″是特定长度的字或子串的另一种术语。因此，当注解基因组或其部分时，基于特定长度(例如15、18、21和24的mer长)的mer进行注解。无论注解的mer长如何，均可以对存在于基因组中的该长度的每一mer进行计数。例如，如果mer长为15，那么搜索引擎会对第一个15-mer和此后出现的每一个15-mer确定字计数。每一在后的15-mer与在先的15-mer字重叠一个字符。即，字符1-15构成15-mer，字符2-16构成另一个15-mer，字符3-17构成又一个15-mer，依此类推。这确保了将每一注解的15-mer被指定一个字计数，使得字计数代表了特定15-mer在整个基因组中出现的次数。

通过使用该搜索引擎有利于探针设计。快速计数特定字出现在基因组中的次数的引擎能力用于设计探针，这些探针是唯一的且以最低限度的交叉杂交与DNA特异性区杂交。通过使用所述的搜索引擎，可以通过选择由较小mer组成的候选探针将可能的交叉杂交减少到最低限度，所述的较小mer是唯一的且满足一定的严格条件，诸如具有整个基因组中的低字计数或无字计数。唯一的字可以在基因组或其部分内具有低于预定字计数(例如低于2、5、10、25、50或100个字计数)或不存在字计数(例如0字计数)的特定核苷酸串。

更具体地说，基于一组预定标准获得候选探针，该预定标准为诸如需要候选者具有长度L1且还需要候选者具有预定的字计数(例如候选探针具有的字计数为1)。此外，预定标准还可以要求候选者的反向补码具有预定的字计数(例如1)。一旦获得了候选者，则用附加的预定标准处理它们以确定哪一候选者适合于用作探针。这些附加的标准用于基于候选者的成分子区域(即候选探针中包含的长度的mer)过滤它们。例如，过滤标准可以要求长度为L2的mer，其中L2小于L1，以便具有与其它探针候选者相比为最少的字计数。因此，在用于发现探针的标准中存在有关系-″硬″限制(例如，其中每一候选者相对于基因组而言是唯一的)与″软″限制(例如，其中成分mer的计数被最小化)之间的关系。

满足″硬″限制的一种方式在于基于上述进行的注解的结果获得候选者。使用字计数信息，候选者可以选自具有低浓度字计数的基因组区(例如优选的是获得具有如下特征的候选者：预定长度的字计数的最小平均值；预定长度的字计数的几何平均值；预定长度的字计数的模式值；预定长度的字计数的最小化的最大值；预定长度的字计数的总计值；预定长度的字计数的乘积值；最大长度的特定核苷酸字符串；或其组合。

为了满足″软″限制，可以按照预定的标准，诸如15-mer计数、17-mer计数等注解候选者。分析获自这种注解的数据以便确定候选者是否唯一足以用作探针。例如，如果候选者在所有候选者中具有15mer计数的最低总数，那么可以将它选作探针。其它标准，诸如组成偏移出现最少(例如特定核苷酸的长字符串)可以用于确定哪一探针为最佳。在将该标准应用于每一候选者后，可以将一个或多个候选者选作合适的探针。

搜索引擎的另一个应用在于检测基因组的彼此改变。例如，随着人类基因组计划的进行，对基因组的新片段作图并对公众发表。使用所述的搜索引擎和基于相同基因组的另一种形式设计的探针，可以确定那些探针中有多少可以应用于该基因组的新形式。

可以使用所述搜索引擎的又一种应用在于验证特定字是否存在于基因组中。理想的情况是找到基因组中未出现的字，使得该字几乎没有与基因组的部分杂交的机会。可以按照预定的一组标准随机生成这些字。当找到一个字时，其补码也被提交给搜索引擎以确定它是否出现在基因组中。如果该字及其补码未出现在基因组中，那么该字及其补码与基因组杂交的机会最少。这类非杂交探针可以作为可读的条形码用于杂交并用于杂交阵列控制，且可以加入到核酸探针中，目的在于增强通过网状结构的杂交信号。

将杂交机会减至最少的一种方式在于将特定字成分mer的频率减少到最低限度。即优选获得同样多的具有字计数为0的成分mer长度的探针。例如，假设产生几个20-mer寡核苷酸，目的在于不与人类基因组杂交。然后，进一步假设对每一20-mer注解其成分重叠19-mer、18-mer、17-mer、16-mer，例如下至6-mer中的每一个。从理论上讲，最理想的20-mer将优选对每一长度mer均具有0字计数。实际上，具有最少杂交机会的探针优选具有的0mer计数尽可能地与mer长度中最低值同样多(例如理想的探针具有mer长度为19、18、17、16、15、14和13的0字计数)。因此，如果一个探针具有其成分15和14-mers的0计数，那么它与基因组杂交的可能性低于具有其成分15-mers的0计数的探针，但具有其成分14-mers的一个或多个计数。因此，前一个探针具有的杂交机会少于后一个探针，因为它不具有任何与基因组的部分匹配的14-mers。

可以使用具有0或低字计数的特定mer的成分mer构建非杂交的寡核苷酸。例如，如果特定20-mer具有字计数为0的13-mer，那么这种13-mer可以用于构建可能不存在于基因组中的寡核苷酸(例如这些13-mer中的2个可以彼此连接以产生唯一的26-mer)。

例如，在实验室环境中，0字计数及其0计数补码(非杂交的寡核苷酸)可以与探针或靶字结合(杂交)。从概括的意义上讲，字为与″体″连接的″臂″(即探针)。当杂交开始时，字(″臂″)仅彼此杂交，而探针与基因组杂交。因为字(″臂″)一般携带可检测的物质(例如荧光标记)，所以自我杂交有助于在与背景的杂交中区分探针在基因组内的位置。因此，臂的自我杂交用于放大与基因组杂交的探针的可见度。

非杂交的寡核苷酸还可以用作唯一地识别大量其它序列群体中的特定序列的标记。非杂交的寡核苷酸可以与已知序列连接，由此标记或标注特定序列。

在另一个实例中，可以将几个不同的DNA序列连接成单一基因组(例如在附图8的步骤810提供的)。例如，如果需要设计检测人血样品中在特定病原体(例如病毒)存在的探针，那么这类成串的基因组是有用的。需要成串的基因组，因为提取自人血的DNA不仅含有人DNA，而且含有其它来源，诸如病原体的DNA。因此，为使探针可以有效检测人血中的病原体，它不应与人类基因组交叉杂交。

在病原体探针相对于在组织样品中的其它基因组(例如患者的基因组和在患者中发现的其它微生物的基因组)并非完全唯一的情况中，有必要将该探针在病原体基因组中的字计数与该探针在其它基因组中的字计数进行比较。这种手段可能需要两个搜索引擎-一个用于所关注的病原体，而另一个用于其它基因组的组合。注意在应用这种双搜索引擎手段时，有利的是设计在病原体基因组内具有高mer计数的探针，只要在组织样品中的其它基因组中的探针计数不成比例地低。

VII.实施例

提供下列实施例的目的仅在于解释。它们不用来限定本文公开的本发明的范围。

实施例1-与代表互补的寡核苷酸的选择

本实施例证实鉴定了与人类基因组中BglII-衍生的代表互补的寡核苷酸探针。类似的途径可以用于设计与序列已知或可预测的任意核酸群体互补的寡核苷酸。使用人类基因组序列中公布的草图组合，我们通过使所有BglII限制位点在该草图组合中定位，对人类基因组进行了计算机芯片上的(in silico)BglII消化。我们进一步选择了长度在200-1,200个碱基对的BglII片段的所有序列。我们然后使用本文所述的算法分析了这些片段的序列。这种算法(也称作″mer-引擎″)可以用于确定任意得到的寡核苷酸序列在任意经测序的基因组中的拷贝数。这种拷贝数也称作寡核苷酸序列在基因组中的″字计数″。

我们使用人类基因组中相同的草图组合注解了每一BglII-消化的片段，它们各自带有其成分的字计数，相互重叠的15-和21-mer(即带有15或21个核苷酸的寡核苷酸)。为了做到这一点。我们对每一片段计算机芯片上的生成了每一成分，相互重叠的70-mer寡核苷酸(例如，100个碱基对片段可以带有31个这类70-mer)。如下所述对每一这类70-mer片段测定下列属性：最大21-mer计数(或最大18-mer计数)；15-mer计数的算术平均值；G/C含量百分比；和各碱基的量；以及任意单碱基的最长段。

为了确定最大21-mer计数，我们将每一70-mer分成重叠的21-mer并将这些21-mer中的每一个与基因组中所有21-mer的序列进行比较。我们排除了最大21-mer计数大于1的所有70-mer，即那些具有100％与基因组中一个以上21-mer序列互补的21-mer序列的70-mer。这就是我们最初的70-mer探针组。

我们进一步使70-mer探针组最优化，通过下列步骤进行：除去那些具有的GC含量小于30％或大于70％、A/T段大于6个碱基或G/C段大于4个碱基的70-mer探针。我们从剩余的70-mer中选择了用于各BglII片段的一个(或多个)70-mer，它们具有的GC/AT成比例地与基因组中GC/AT总体上最接近。我们通过确定70-mer成分，即重叠的15-mer中各自的基因组字计数而进一步分析了由此选择的70-mer中的每一种。我们选择了具有最低平均15-mer计数的70-mer。

作为对总体唯一性的最终检验，使用BLAST软件程序将各BglII片段的最佳70-mer探针与整个基因组进行比较。使用默认参数，除了没有进行低复杂性序列的过滤。与除自身外的任意序列具有任意50％或50％以上长度同源性的程度的70-mer探针被排除。

mer-引擎算法为探针设计方法提供了严格性、灵活性和简单性。快速确定所有大小的字的字计数的能力使得以与实际杂交结果类似的方式定量构建了设计标准。可以将字计数看做序列属于两组或多组多核苷酸程度的定量测量标准。例如，可以将小探针″AGT″考虑为含有6个不同字的组，即″A″、″G，″、″T″、″AG″、″GT″和″AGT″。如果用所有大小的所有字的字计数注解该探针，那么可以发现每个字在第一组，即探针″AGT″中出现的次数会与它们在第二组，即30亿个核苷酸的基因组中出现的次数显著重叠。

可以将这种关系表示为X/Y比，其中X为与所述探针相关的所有探针成分的字计数总和，且Y为基因组内所有相同的字的计数的总和。当选择以最低限度的交叉杂交与靶序列杂交的70-mer探针时，可以使X/Y比达到最大值，其中来源于基因组序列的探针的X/Y的最大值为1。选择使用仅2个字长度注解的技术是主要达到该目的的许多可能捷径之一。

在所关注的基因组区中未发现唯一的探针的情况中，能够利用非唯一的探针提供相对拷贝数差别或单纯的物质量的明确测定结果。然后问题扩展至三组字之间的比较：探针、所关注的包括区和基因组。让Z表示与包括区相关的所有探针字计数的总和。推断X和Y仍然分别表示与探针和基因组相关的所有探针字计数总和。然后的目的在于使表达式(X/Y)/(X/Z)或，单纯的，Z/Y的值最大化。换句话说，可以找到与总拷贝数无关的属于区特异性的探针。可以将这一具体情况概括为包括选择用于识别脱离许多连续杂交的一种特定实体的探针任意情况。另一个实例为在接触许多其它生物体的DNA时识别一种生物体的DNA。

这一范例的另一种应用在于将组成员减少到最低限度。我们已经设计了在微阵列实验中作为杂交对照的探针。这些探针在它们旨在仅与那些任意其它探针具有等同识别机会的DNA片段杂交的意义上为对照品。在这种情况中的目的只是设计其中Y尽可能与0接近的探针。例如，这类探针也是有用的，例如用作杂交-可读的唯一标识符，或用作对通过网络化增强杂交信号的其它核酸序列的补充。

除字计数的总和与算术平均值外，还可以使用许多其它统计，例如，包括用于特定大小的字的探针字计数的方差。这种非常可以起到为选择必须以特定拷贝数存在的探针而进行快速预筛选的作用。可以将特定字大小的最大字计数考虑为用于其它独特探针的最不利的可能杂交结果。这些定量测定结果对与其它候选者相比快速确定杂交探针的适合性而言是理想的。mer-引擎算法实际上可以将探针选择过程缩短至在所关注的序列中的单程扫描。

我们设计的探针组之一由85,000个70-mer组成，与人类基因组相比，具有平均18-mer计数为1.2且标准偏差为0.8。在合并的所有探针的所有18-mers组内计算平均值。与现有技术特别是一组公布的23,000个70-mer阵列探针表达式相比，合并的所有探针的18-mer计数的平均值为1.9，且标准偏差为14.8。因此，该组探针为两者中较大的，因子为4，且更始终独特的是因子18。我们基于如上所述的唯一21-mer限制和最小集合15-mer计数的组合选择了本实施例中的85,000个探针的组。优点包括置信度显著增加，即证实充分根据经验执行的探针并非简单地与DNA片段的大异源群体杂交且由此增加其信号。这一结果进一步解释了使用可以设计满足严格定义的标准的探针组的精确性，诸如有关字计数目标平均值的极小标准偏差。

实施例2-阵列的制备

我们使用两种格式构建含有按照实施例1设计的寡核苷酸探针的微阵列。在它们中的第一种格式，即″印刷″格式中，我们购买了约10,000个使用固相化学制备的寡核苷酸并在玻璃表面上用刺印刷它们。特别地，我们使用Cartesian PixSys 5500(Genetic Microsystems)使用4×4针构造(pin configuration)将我们的探针收集物排列在的载玻片上。各印刷阵列的尺寸约为2cm²。将我们的阵列印刷在商业化制备的硅烷化载玻片(Corning^ultraGAPSTM^TM#40015)上。用于阵列仪的针(Pins)来自Majer Precision。

在第二种格式，即″影印″格式中，使用激光定向的光化学，用NimbleGen^TM Systems，Inc.在二氧化硅表面上直接合成寡核苷酸。首先筛选约700,000个唯一70-mer的寡核苷酸的″性能″，通过将它们在8个芯片上排列成阵列并使它们与来自正常男性J.Doe的基因组DNA的BglII和EcoR1-缺失的BglII代表杂交来进行。我们选择了产生最强信号的85,000个寡核苷酸并将它们在单芯片上排列成阵列。

在两种格式中，我们按照随机顺序将寡核苷酸排列成阵列以便将可能把阵列杂交过程中的几何人为产物错误地解释为基因组损害的可能性减小到最低限度。在随后的实施例中，我们描述了使用10K印刷阵列和85K影印阵列的结果。

实施例3-测试代表的制备和标记

就本文所述的某些实验而言，我们选择BglII以便制备所述的代表。BglII具有用于这些特定实验的特征：它是一种强力酶；其切割位点不受CpG甲基化影响；它保留了4碱基突出端；且其切割位点具有在人类基因组中的合理均匀分布。BglII代表由一般小于1,200bp的短片段构成。我们估计有它们中的约200,000个，约占人类基因组中的2.5％，其中平均间距为17kb。

在本文所述的所有实验中，我们对平行制备的代表使用了比较杂交。使用相同方案、试剂和循环变温加热器同时制备来自比较的两种样品的DNA和由相同浓度的模板制备的代表。这会减少PCR扩增时因可变产率产生的可能″噪声″。

我们如上文Lucito等，1998所述制备了人类基因组DNA的BglII代表。简单的说，我们在供应商建议的条件下使用BglII消化了3-10ng人类基因组DNA。我们在有10μg tRNA存在下通过苯酚提取和乙醇沉淀纯化了消化物。我们将沉淀重新悬浮于含有444pmo l各适配子的30μl 1X T4 DNA连接酶缓冲液(RBg124和RBlg12；Lucito，R.和M.Wigler.2003。″靶DNA的制备″-《基于微阵列的DNA拷贝数的有代表性的分析》(Microarray-based Representational Analysis of DNACopy Number)(编辑D.Bowtell & J.Sambrook)，386-393页。ColdSpring Harbor Press，Cold Spring Harbor，NY)。我们将反应混合物置于预加热的55℃加热块内并将该加热块放在冰上约1小时，直到温度降至15℃。我们然后加入400个单位的T4DNA连接酶并在15℃下将该反应混合物保温12-18小时。

我们加入1/40的连接物质、20μl 5XPCR缓冲液[335mM Tris HCl，pH8.8；20mM MgCl₂；80mM(NH₄)₂SO₄；50mM β-巯基乙醇；和0.5mg/mlBSA]、2′-双脱氧核苷5′-三磷酸至终浓度为0.32mM、RBg124适配子至终浓度为0.6μM、1.25U Taq聚合物和水至250μl试管中以使体积达到100μl。将试管放入在72℃下预加热的MJ Research TETRAD^TM热循环仪。我们然后如下进行扩增：在72℃下一个1循环5分钟，然后在95℃下1分钟，在72℃下3分钟的20个循环；随后在72℃下10分钟延伸时间。我们通过苯酚：氯仿提取和乙醇沉淀净化了代表(即PCR产物)，此后悬浮于TE(pH8)并测定DNA浓度。

就某些实验而言，我们通过再用限制性内切核酸酶消化以切割其限制位点中包含的那些片段制备了缺失的代表。在这些情况中，我们恰在扩增步骤前用第二种限制性内切核酸酶消化了连接混合物。在下述实验中，使用HindIII产生了缺失的BglII代表。

我们通过将DNA放入0.2ml PCR管标记了代表中的片段。我们加入了10μl来自Amersham-Pharmacia Megaprime^TM标记试剂盒的引物并将它们与DNA充分混合。我们用水使体积达到100μl。我们将试管放入100℃下的MJ Research TETRAD^TM机5分钟、将其放在冰上5分钟并加入来自Amersham-Pharmacia Megaprime^TM标记试剂盒的20μl标记缓冲液、10μl标记(Cy3^TM-dCTP或Cy5^TM-dCTP)和1μl NewEngland BioLabs^Klenow片段。我们将试管在37℃下保温2小时，将标记的样品(Cy3^TM和Cy5^TM)合并入一支Eppendorf^管且然后加入50μl 1μg/μl人Cot 1 DNA、10μl 10mg/ml储备酵母tRNA和80μlLow TE(3mM Tris pH7.4，0.2mM EDTA)。我们将样品上CentriconFilter并以12,600rcf离心10分钟。我们弃去了滤过物并用450μlLow TE洗涤滤器。我们反复进行离心并用TE洗涤两次。我们通过Centricon^柱倒置入新试管并以12,600rcf离心2分钟收集并标记样品。我们将标记的样品转入200μl PCR试管并用Low TE将体积调节至10μl。

此外，就某些实验而言，我们使用McrBC和连接的接头消化了分离自初期卵巢癌细胞和正常参比物的DNA并如上所述扩增。

实施例4-测试代表与阵列杂交

我们使用设定在300mJ的Stratagene Stratalinker^使寡核苷酸探针与载玻片进行UV-交联，将载玻片旋转180度，保持载玻片在交联剂中的同一点并重复该处理。我们将载玻片在0.1％SDS中洗涤2分钟，在Milli-Q^水中洗涤2分钟，在煮沸的Milli-Q2^水中洗涤5分钟且最终在冰冷的95％不含苯的乙醇中洗涤。我们通过将载玻片放入金属支架并将它们以75rcf旋转5分钟来干燥这些载玻片。我们通过下列步骤使将印刷的微阵列预杂交：将它们放入玻片染色缸或其它载玻片处理室，加入预杂交缓冲液(25％去离子的甲酰胺、5X SSC和0.1％SDS)并将该室预加热至61℃下2小时，然后在Milli-Q^水中洗涤10秒。我们通过将载玻片放入金属支架并将它们以75rcf旋转5分钟来再次干燥这些载玻片。NimbleGen^TM影印阵列不需要UV-交联或预杂交。

我们将25μl杂交溶液加入到如实施例3中制备的10μl标记样品中并混合。就印刷的载玻片而言，杂交溶液为25％甲酰胺、5X SSC和0.1％SDS。就NimbleGen^TM影印阵列而言，杂交溶液为50％甲酰胺、5X SSC和0.1％SDS。我们使样品在95℃的MJ Research^TM TETRAD^TM中变性5分钟且然后在37℃下保温30分钟。我们使样品的旋转速度下降并用移液管将它们移至用升降式滑道准备的载玻片上并将其在杂交恒温箱内保温(诸如Boekel InSlide Out^TM恒温箱)14-16小时，其中对印刷阵列而言，将杂交恒温箱设定在58℃，或对NimbleGen^TM影印阵列而言，将杂交恒温箱设定在42℃。

杂交后，我们如下洗涤载玻片：在0.2％SDS/0.2X SSC中简单洗涤以除去盖玻片；在0.2％SDS/0.2X SSC中1分钟、在0.2X SSC中30秒；和在0.05X SSC中30秒。我们如上所述通过将载玻片放入支架并将它们以75rcf旋转5分钟来再次干燥这些载玻片。然后我们立即扫描这些载玻片。

我们使用对印刷阵列设定至10微米像素大小且对影印阵列设定至5微米像素大小的Axon GenePix8^4000B扫描仪扫描这些载玻片。我们使用GenePix^TM Pro 4.0软件对所述阵列的强度进行定量并将数据输入S-PLUS用于进一步分析。我们在不进行本底扣除的情况下使用测定的强度计算了实验中两种信号之比。我们使用与Yang等在《核酸研究》(Nucl.Acids Res.)30：e15-15(2002)中所述类似的基于强度的最低(lowess)曲线配合算法校准了数据。我们取获自颜色逆转实验的数据的平均值并将其如附图中所述展示。

实施例5-阵列的性能和验证

如上述实施例1中所述，我们应能够基于公布的人类基因组序列预测，其中寡核苷酸探针可以与公布的人类基因组序列的代表杂交。为了证实这一点，我们测试了我们的10K印刷阵列，通过使它们与用一种荧光染料标记的正常人类基因组DNA的BglII代表和与用另一种荧光染料标记的相同DNA的HindIII-缺失的BglII代表杂交来进行。

附图1解释了使用HindIII缺失的BglII代表获得的结果。在附图1A中，我们沿Y-轴绘制了各探针杂交强度的比值的图。各实验在颜色扭转中进行并将来自单独实验的比值的几何平均值绘图。预测可检测完整和缺失代表中的片段之探针确实与它们两者杂交(附图1A；左)。这些探针中有约8,000个。预测无法在缺失代表中检测的探针未杂交(附图1A；右)。这些探针中有约1,800个。这些结果验证了：(1)有代表性的片段的限制特性得到正确预测；(2)寡核苷酸正确地被排成阵列；和(3)寡核苷酸检测到带有可接受信号强度的探针。在附图1B中，绘制了颜色扭转实验的比值之间一致性的图。这些数据证实了我们的阵列的可再现性。

极小量寡核苷酸探针无法如预测的与代表中的靶片段杂交。例如，在预测与未被HindIII切割的片段杂交的8000个探针中，有约16个发生与实际上被切割的BglII片段杂交。这一结果可能是因我们的样品与可以因多态性或测序误差产生的公布的人序列之间的多样性所致。然而，本文的数据表明公布的人序列对设计用于有代表性的寡核苷酸微阵列的探针而言是足够可靠的。

实施例6-肿瘤基因组的总体分析

本发明的寡核苷酸阵列易于检测大规模的基因组损害，无论它们是缺失还是扩增。附图2A1-A3、2B1-B3和3C1-3C3表示三种基因组比较的阵列杂交设计：附图2A1-A3比较了来自同一活检(CHTN159)的非整倍体乳腺癌细胞与正常二倍体细胞(由约100ng DNA制备两种样品代表，所述的DNA各自分离自通过流式细胞计量术分离的来自非整倍体和二倍体部分的核)；附图2B1-B3比较了来源于未知种族的乳腺癌细胞系(SK-BR-3)与不相关的正常男性J.Doe(欧洲与非洲的混血；参见实施例2)；且附图2C1-C3比较了来自另一正常男性(非洲矮小者)与同一J.Doe的细胞。在每种情况中，使用颜色扭转使样品杂交两次并将几何平均比值(对数尺度)对寡核苷酸探针的基因组次序绘图。将增加的拷贝数(扩增)表示为比值大于1，将减少的拷贝数(缺失)表示为比值小于1。使用10K印刷阵列获得附图2A1、2B1和2C1中所示的数据。使用85K影印阵列获得附图2A2、2B2和2C2中所示的数据。

对癌症基因组而言存在清楚的分布。两种乳腺癌细胞系的分布不同，但它们各自显示出了在基因组中扩增和缺失的较大区(附图2A1-A2和2B1-B2)。相反，正常-正常的分布基本上是平坦的，表明在这些基因组之间没有大规模的扩增或缺失(附图2C1-C2)。这些数据证实本发明的寡核苷酸阵列检测大规模的基因组改变。

这些结果还表明存在许多检测所有三种基因组(两种癌症基因组和非洲男性基因组)中的最小丢失和增加的寡核苷酸探针。这些丢失和增加如附图2A1-A2、2B1-B2和3C1-C2中独立的点所示且显示在附图2C2(正常-正常比较)中为整个基因组内接近0.5和2.0的比值的探针″壳″或区。这些丢失和增加可能是取样的个体之间杂合BglII多态性的结果。

此外，10K印刷格式与85K影印格式之间的比较清楚地显示，尽管它们具有不同的分辨率，但是均可以捕捉到大规模基因组特征的相似影像。如果探针共有与相同BglII片段的互补性，那么我们将其称作″兄弟″。兄弟不一定具有重叠序列，不过，它们可以将其长度重叠至一半或可以互补通过其整个长度。在附图2A3、2B3和2C3中，我们来自10K格式的兄弟寡核苷酸比值(Y-轴)与来自85K格式(X-轴)的兄弟寡核苷酸的比值的图。存在超过7,000个的兄弟探针。尽管格式之间的探针序列不同、其排列阵列的模式不同、杂交条件不同且阵列表面不同，但是对所有三个实验而言，两种格式中的兄弟探针比值之间存在显著的一致性。这些数据证实了使用包括本发明寡核苷酸的阵列获得的结果的再现性。

此外，对通过用McrBC切割产生的MOMA代表的分析显示出了癌细胞与正常细胞基因组之间具有改变的甲基化状态的基因组区。使用BglII代表对这些区中的拷贝数差别校准证实在这些位点上观察到的差别是因甲基化状态而并非拷贝数上的差别所致。

实施例7-自动化分段和整体基因组分析

我们还分析了来自基因组的较小区的数据以便对实施例6中观察到的变化形式作图。例如，我们每次使用统计分段算法分析了来自1条染色体的数据，所述的统计分段算法分析了取方差后进入相似平均值的部分的探针比值数据(称作循环二元分段(CBS)；参见Olshen和Venkatraman，《基于阵列的比较基因组杂交数据的变-点分析》(Change-Point Analysis of Array-Based Comparative GenomicHybridization Data)，Alexandria，VA，American StatisticalAssociation，2002)。该算法循环地鉴定了来自每条染色体的最可能的分段，从而基于偶然产生的平均值差异的可能性排除或接受每一提出的分裂。通过随机化反复确定这种可能性。这种算法因其非测试性而可以防止我们鉴定少于三个探针识别的异常。

附图3A-D解释了使用85K阵列对癌细胞系SK-BR-3的4条染色体(分别为附图3A-D中的染色体5、8、17和X)进行这种分析的输出。当我们使用来自10K阵列的数据时，我们观察到了相似的分段分布和分段平均值。对数据的进一步分析能够使它们确定细胞的倍性水平。

一旦分段，我们就对每一寡核苷酸指定它所属的分段的平均比值并按照排序顺序将平均比值绘图。将CHTN159(附图4A)和SK-BR-3(附图4C)的癌症基因组的这些数据绘图。附图显示每一基因组内的分段平均比值得到量化与相似值的较大和较小的坪值。我们基于计数推断了这些区的拷贝数并通过流式分析获得的知识推断CHTN159为亚-三倍体且SK-BR-3为四倍体。如果每一样品近似为单克隆，那么CHTN159中的两个较大坪值可以为每个细胞2个和3个拷贝且SK-BR-3的较大坪值可以为每个细胞3个和4个拷贝。

我们使用了对较大坪值计算的拷贝数对每次实验解答了倍性和SN。我们使用等式：

R_M＝(R_T×S_N+1)/(S_N+1)

其中R_M为平均测定的比值，R_T为真实的比值，且S_N为通过实验衍生的确定″特异性-非特异性″噪声的特征。我们将R_M选作坪值中的分段的探针平均值并将R_T设定至C_N/P，其中C_N为从坪值中得知的拷贝数且P为肿瘤基因组的倍性。这种组合提供了两个等式和两个未知的P和S_N。就CHTN159实验(附图4A)而言，我们计算的倍性P为2.60且S_N为1.13。就SK-BR-3实验(附图4C)而言，我们计算的P为3.93且S_N为1.21。

我们还使用了用于计算何种平均比值可以预测较高和较低拷贝数的等式。我们在相应的图上标记了这些预测值，从0到12的拷贝数，其中水平线形成″拷贝数方格″。在附图4B和4D中，按照嵌入了预计的拷贝数方格的基因组次序展示对探针指定的平均分段值。拷贝数方格显然与数据的较小坪值符合，尤其是对较高拷贝数而言。

实施例8精细-等级基因组损害的分析

我们还分析了用于测定具有扩增或缺失的个体染色体中的精确断裂点的数据。我们的分析证实本发明的阵列可以用于在解析个体基因时鉴定基因组损害。因此，获自该阵列的数据可以用于预测正常细胞向癌细胞转化时特定基因中的异常的影响。

我们首先分析了在附图3D中观察到的X染色体中的断裂区。将来源于女性的SK-BR-3细胞与不相关男性细胞进行比较。我们预计探针在X染色体中可以具有升高的比值。这就是X染色体长臂符号自始至终很多的情况。但是在Xq13.3中间，横跨27kb的区内的拷贝数中存在急剧断裂且对染色体的剩余部分观察到了接近1的比值(附图5A)。因此，能够通过分段按照阵列数据绘出基因组损害的边界。我们已经观察到了必须打断基因的急剧拷贝数跃迁的其它实例。

在各自含有两个或两个以下基因的SK-BR-3基因组中存在3-4个狭窄的扩增，其中有跨膜受体。

我们然后分析了来自染色体8的数据(附图3B)，该染色体具有异常的边界，包括扩增的宽的不同区(附图5B)。最右侧的峰近似为1-兆碱基段，它由37个探针组成(探针坐标45099-45138，June基因组坐标126815070-128207342)。它仍然含有单一充分表征的基因c-myc。

在SK-BR-3中存在第二个宽峰，上升至c-myc峰的左侧和图外(附图5B)。这一宽峰在其右侧具有宽凸出部(探针坐标44994-45051，June基因组坐标123976563-125564705)，在其中部有极狭窄的峰。我们将来自肿瘤基因组CHTN159的分段数据叠加在其上，所述的肿瘤基因组CHTN159具有包括c-myc的均匀的较宽的峰(探针坐标44996-45131，June基因组坐标124073565-127828283)。CHTN159中的峰也包括第二个SK-BR-3峰的凸出部(附图5B)。因此，该凸出部可以含有值得注意价值的候选癌基因。在该区内，在狭窄的峰处，我们发现了TRC8，即遗传性肾癌中涉及的易位的靶物(Gemmill等《美国国家科学院学报》(Proc.Natl.Acad.Sci.USA)95：9572-7(1998))。这些结果解释了来自多个基因组的坐标化数据值和对用于分析多数据组的自动方法的需求。

我们还分析了染色体5上的狭窄缺失。附图5C表示在拷贝数方格上叠加的合并的10K(空心圆圈)和85K(实心圆圈)分析结果。在10K和85K分辨率下缺失均显而易见(探针坐标29496-29540，June基因组坐标14231414-15591226)，但边界在85K分辨得显然更为清楚。该区含有：TRI0，即一种带有GEF结构域、SH3结构域和丝氨酸苏氨酸激酶结构域的蛋白质(Lin和Greenberg，《细胞》(Cell)101：230-42(2000))；ANKH，即一种跨膜蛋白(Nurnberg等，《天然遗传学》(Nat.Genet.)28：37-41(2001))；和FBXL，即一种遍在蛋白质连接酶介导的蛋白降解途径的成分(Ilyin等，《基因组学》(Genomics)67：40-47(2000))。

最后，我们分析了影响锌指蛋白簇的染色体19上的纯合性丢失的区(附图5D；探针坐标77142-77198，June基因组坐标21893948-24955961)。这些基因中的某些编码转录因子，其缺失可能在肿瘤发生中具有作用。我们观察到了大量狭窄的半合和纯合损害，它们中的某些可能归因于正常的变化。参见实施例9。

实施例9-检验″正常″基因组变化

我们还使用本发明的寡核苷酸阵列和方法分析了两个正常基因组之间的拷贝数变化和观察到的因多态变化产生的差异。这种分析是重要的，例如在肿瘤DNA样品胞内与正常DNA相匹配且不相关的正常DNA用作参比物的情况中，因为观察到的差异可能是多态变化的结果。这种变化可能具有两类中，即产生或破坏BglII片段类的点序列变化，例如SNP或存在于人基因库中的实际拷贝数变动。前者对使用本发明阵列的分析具有有限的影响，因为它会产生可以通过统计学方式大量过滤的分散的″噪声″。

在附图6A(获自10K和85K数据组的合并数据)中，我们证实适度过滤算法(如果比值为在4左右的最偏离标准，那么我们用其两个相邻的较接近的比值取代它)可以将点序列变化的影响减少到最低限度并检测存在实际拷贝数变化的情况。存在于未过滤样品中分散的多态性的云团(例如附图C2)在这一揭示偏离标准的探针比值的非随机簇的数据显示中增加，表明在正常个体之间存在大规模基因组差异。

还可以通过连续实验比较过滤分散的种类的多态性变化。例如，附图6B表示来自SK-BR-3与正常供体J.Doe比较的数据，在实心圆圈内展示的是85K比值，且在空心圆圈内为10K。在同一图中，我们在绿色三角形中展示了J.Doe与来自非洲矮小者的另一正常DNA相比的比值。我们观察到在SK-BR-3-正常杂交中的极端比值的三个探针，其中可以通过与两个正常个体之间杂交的比较将所述的SK-BR-3-正常杂交鉴定为多态性。对这些数据最简单的解释在于J.Doeis+/+、矮小者+/-和SK-BR-3-/-，其中+表明存在小BglII片段(最可能的是在BglII位点上的SNP)。一般来说，三个基因组的配对比较使得提供了等位基因状态的解释性理由。因此，当恶性基因组不能相配的正常基因组配对时，这些类型的数据尤其有用。

然而，拷贝数的多态性存在不同类问题。附图6A显示了正常-正常比较中拷贝数的较大区域性差异。我们对这些数据应用了分段分析并鉴定了在两个正常个体之间证实出改变的拷贝数的多个区。我们在任意正常-正常比较中均观察到了12个可变区。它们在长度上展开了100个千碱基到大于1个兆碱基，可以出现在任意位置，但更频繁地在接近端粒(telemeres)和着丝粒出观察到且通常包括已知的基因。

对这类区的紧密相关的检查展示在附图6C和附图6D中，其中比值为连接的圆圈且分段值为方格。在附图6C中，异常区为染色体6p21上的135kb(探针坐标32518-32524，June基因组坐标35669083-35804705)且包括三个已知的基因。在附图6D中，该区为来自染色体2p11的含有许多重链可变区的620kb区(探针坐标9927-9952，June基因组坐标88787694-89385815)。

我们分析了在解释癌症-正常数据时对正常-正常变化的影响。在附图6C和附图6D中，我们分别将来自阴影斜线和阴影垂线中对SK-BR-3的分析的分段值进行了叠加。将SK-BR-3的拷贝数方格绘制成方格。附图6C解释了在SK-BR-3可以称作与正常比较缺失的区。在SK-BR-3中，侧翼区在我们判断每个相比两个拷贝的拷贝数上和拷贝数减至1的区内出现。但相同区出现在矮小者DNA与正常DNA的比较中。在附图6D中，我们观察到在染色体2p11上的类似条件。在附图6D中，我们还绘制了来自肿瘤的分段数据。该区显然也存在异常。

实施例10-基因组或其部分的注解

下列实施例的含义是用于解释搜索引擎的应用。对所述条件和参数的适当修改和适应一般是本领域技术人员在本领域中所面对的问题，它们属于本发明的实质和范围。

本发明的搜索引擎可以用于进行对基因组或基因组的亚组(例如染色体)的计算。在进行执行计算中，找到了通过检索工具，诸如Repeat Masker未检测到的具有高字计数的几个区。已经证实RepeatMasker所使用的重复数据库不包括区特异性或染色体特异性重复。使用上述VII部分中的搜索引擎易于找到这类重复，因为完全匹配的计数可以形成基因组的组代数的基础。特别地，基因组的亚组可以构成变换字符串，检验这些字符串可以找到染色体特异性重复。

来自染色体1的变换字符串可以用其自身内和整个基因组内的字计数注解。进行搜索以寻找染色体1的长度的邻近区，它具有高18-mer的计数，其中发现完全匹配主要来源于染色体1。这类区易于发现，长度范围在100bp-35kb。由于集中在一个这类区，所以观察到其mer范围近似为阶跃函数，由各自具有标记众数频率和长度的较短序列组成。采集含有这些标记区之一的染色体特异性区并快速鉴定染色体1特异性序列族。通过鉴定18mer选择染色体1特异性区，所述的18mer的染色体计数超过了其整个基因组计数的90％，这些18mer彼此排成行而产生染色体特异性重复。此外，不使排成行的18mer之间的间距超过100个碱基对。至少一次发现这种重复被解释为RefSeq基因(登记号NM＿015383)与彼此编码与肌球蛋白具有低同源性的较大预测蛋白序列的许多外显子重叠。

鉴定染色体特异性重复的相同方法可以应用于在整个基因组中发现重复DNA，包括那些由Repeat Masker或其它程序识别的DNA。

实施例11-使用Mer引擎的探针设计

上述搜索引擎可以用于探针设计。探针因其能力而一般用于与互补DNA特异性杂交，由此探针设计的主要目的之一在于将交叉杂交减少到最低限度。设计应用的上述探针已经使用了从考虑中排除重复区的重复掩蔽。解决这类问题是疑难问题，即无法防止重复的，诸如染色体特异性重复出现且排除了属于唯一的″重复″区。

尽管不完全匹配的序列之间的杂交的规则尚未得到充分了解，但是本领域中已知应优选消除与基因组的多个区基因完全″小″匹配的探针。上述探针应用已经选择了将合计的完全12-mer匹配计数减少到最低限度的探针，而对基因组探针而言，这些方法是不充分的。首先，并不清楚12-mer的完全匹配在一般严格退火条件下对杂交具有任何作用。12-mer计数也无法预测同源性，更不必说基因组中的唯一性。实际上，15-mer计数与来自其成分12-mers的计数的几何平均值的比较产生的基本上唯一的两个序列之间的相关性极低。

如下描述使用mer-引擎的探针设计一般方案。首先，按照特定长度mer注解基因组，以便找到具有唯一性的足够长的序列段(即候选探针)。其次，使用至少一种预定长度的mer，优选比用于发现候选探针的mer长度短的长度注解这些候选探针。基于预定较短长度的最低集合mer-计数将候选探针之一选作探针。

按照上述方案，使用获自21-mer计数的唯一数据从小BglII片段中选择70-mer候选探针。在这些候选探针中，使用15-mer计数的最低总和与约为900的截断值选择70-mer。消除单一核苷酸的运行和严重甲基组成偏移的其它标准也应用于辅助确定选择的候选探针。合成选择的探针并将其印刷在玻璃上以测试其在微阵列杂交条件中的性能。发现基本上所有的探针均可以在或高于具体性能标准下进行工作。更具体的说，使用应用上述方案设计的探针获得了约70％-约98％的成功率，其中将成功定义为具有显著的(例如较大)信/噪比。

BLAST用于测试选择的探针是否在具体公布的基因组序列中是唯一的。使用MegaBLAST所用的空位参数测试30,000个这类探针(停止过滤简单序列)。发现在基因组内超过99％的选择的探针是唯一的。

实施例12-算法的伪码表示

为了进一步解释该算法如何用于执行字计数功能，参见附图12A和12B。附图12A以图示定义了该算法使用的变量和数据结构且附图12B表示该算法的伪码表示。如上述VII部分中所述，可以将变换用作″虚拟″基因组字典或字尾阵列的导航工具。在最简单的情况中，假设需要确定子串是否出现在基因组中，如果是，它出现在多少拷贝中。在这种情况中，假设子串是单字符″X″。X的所有出现可以被看作该字典中的块(例如搜索区)，其中Fx和Lx为X首次和最后一次出现的索引。Fx和Lx可以来源于alphabounds数据结构。该块(例如搜索区)的大小为kx＝Lx-Fx+1，也为X出现的次数。注意，可以通过对X在变换中出现的次数进行计数来确定这一数字。

在更困难的情况中，诸如当计数两个或多个字符的字时，要求确定基因组中每个字符X的Fx、Lx和kx。换句话说，将每个字符X的Fx和Lx储存在称作alphabounds的数据结构中。一旦构建了alphabounds数据结构，则该算法可以对特定字Z出现在基因组中的次数进行计数。假设W为Z的字尾，W存在于基因组中，且W的alphabounds(例如，如附图12A中所示的Fw和Lw)是已知的。接下来要求对XW是否作为子串存在进行确定，其中X为Z中在W之前的字符。此外，要求确定XW块的开始和终止索引(例如Fxw和Lxw)。

如果且只有如果X出现在Fw与Lw之间的变换中，那XW才作为子串存在于基因组中。此外，表示为kxw的变换的″W块″中X的数量为子串XW在基因组中的字计数。使用下式完成XW的开始和终止索引：1)Fxw＝Fx+bxw；和2)Lxw＝Fxw+kxw-1，其中bxw为基因组字典中在XW前出现的从X开始的字数。可以通过对变换的W块前出现的X数量进行计数确定bxw。

重复该程序，每次延长字尾1个字符，如果字尾不存在于基因组字典中，则终止。如果字尾W包括整个字Z，那kw为Z在基因组字符串中Z出现的次数。将该程序的概要以伪码概括，如附图12B中所示。参照附图12B，Z为长度N的字符串，包括基因组字母的各字符，且alphabounds数据结构含有基因组字母中每个字符在基因组字典中首次和最后一次出现的索引。

除非另有定义，本文所用的所有技术和科学术语具有与本发明所属领域普通技术人员通常理解相同的含义。将本文所述的所有公开文献和其它参考文献的全部内容引入作为参考。在有矛盾的情况中，本说明书，包括定义会加以控制。所述的物质、方法和实施例仅为解释性的且不用来起限定作用。在本说明书的上下文中，将用词″包括(comprise)″或变化形式，诸如″包括(comprises)″或″包括(comprising)″理解为指包含所述的整体或整体组，但不排除任何其它整体或整体组。

Claims

1.多个核酸分子，其中：

(a)所述的多个由N个核酸分子组成；

(b)所述的多个核酸分子各自具有与Z个碱基对的基因组中的序列特异性杂交的核苷酸序列；和

(c)所述多个核酸分子中至少P％具有：

(i)K个核苷酸长度；

(ii)与存在于或预计存在于来源于所述基因组的代表中的至少一种核酸分子特异性杂交，所述代表具有不超过R％的所述基因组的复杂性；和

(iii)不大于X的与所述基因组的L₁核苷酸的完全匹配和不小于Y的与所述基因组的L₁核苷酸的完全匹配；且其中：

(A)N≥500；

(B)Z≥1×10⁸；

(C)300≥K≥30；

(D)70≥R≥0.001；

(E)P＝(N×R+(3×σ))/N；

(F)σ为(N×R×(1-R))的平方根；

(G)与(log₄(Z)+2)最接近的整数≥L₁≥与log₄(Z)最接近的整数；

(H)X为与D₁×(K-L₁+1)最接近的整数；

(I)Y为与D₂×(K-L₁+1)最接近的整数；

(J)1.5≥D₁≥1；和

(K)1≥D₂≥0.5。

2.权利要求1所述的多个核酸分子，其中N选自至少500、至少1,000、至少2,500、至少5,000、至少10,000、至少25,000、至少50,000、至少85,000、至少190,000、至少350,000和至少550,000个核酸分子组成的组。

3.权利要求1所述的多个核酸分子，其中Z选自至少3×10⁸、至少1×10⁹、至少1×10¹⁰和至少1×10¹¹组成的组。

4.权利要求1所述的多个核酸分子，其中所述的基因组为哺乳动物基因组。

5.权利要求4所述的多个核酸分子，其中所述的基因组为人类基因组。

6.权利要求1所述的多个核酸分子，其中R选自0.001、1、2、4、10、15、20、30、40、50和70组成的组。

7.权利要求1所述的多个核酸分子，其中P选自至少70、至少80、至少90、至少95、至少97和至少99组成的组。

8.权利要求1所述的多个核酸分子，其中D₁为1。

9.权利要求1所述的多个核酸分子，其中D₂为1。

10.权利要求1所述的多个核酸分子，其中L₁选自15、16、17、18、19、20、21、22、23和24组成的组。

11.权利要求1所述的多个核酸分子，其中所述多个核酸分子中的所述P％各自进一步具有不大于A的与所述基因组的L₂核苷酸的完全匹配，和不小于B的与所述基因组的L₂核苷酸的完全匹配；且其中：

(a)L₁＞L₂≥与log₄(Z)-3最接近的整数；

(b)A为与D₃×((K-L₂+1)×(Z/4^L ₂))最接近的整数；

(c)B为与D₄×((K-L₂+1)×(Z/4^L ₂))最接近的整数；

(d)4≥D₃≥1；和

(e)1＞D₄≥0.5。

12.权利要求11所述的多个核酸分子，其中D₃≤3、2或1.5。

13.权利要求1所述的多个核酸分子，其中所述多个核酸分子中的所述P％与存在于或预计存在于所述代表中的至少一个核酸分子具有至少91、92、93、94、95、96、97、98、99或100％的序列同一性。

14.权利要求1所述的多个核酸分子，其中K选自40、50、60、70、80、90、100、110、120、140、160、180、200和250组成的组。

15.多个核酸分子，其中：

(a)所述的多个由100个核酸分子组成；

(b)所述的多个核酸分子各自具有至少90％与至少Z个碱基对的基因组中的序列相同的核苷酸序列；和

(c)所述多个核酸分子中至少P％具有：

(i)K个核苷酸长度；

(ii)与存在于或预计存在于来源于所述基因组的代表中的至少一个核酸分子至少90％的序列同一性，所述代表具有不超过R％的所述基因组的复杂性；和

(iii)不大于X的与所述代表的L₁核苷酸的完全匹配和不小于Y的与所述代表的L₁核苷酸的完全匹配；且其中：

(A)Z≥1×10⁸；

(B)300≥K≥30；

(C)70≥R≥0.001；

(D)P≥90-R；

(E)与(log4((Z×R)/100)+2)最接近的整数≥L₁≥与log₄((Z×R)/100)最接近的整数；

(F)X为与D₁×(K-L₁+1)最接近的整数；

(I)Y为与D₂×(K-L₁+1)最接近的整数；

(J)1.5≥D₁≥1；和

(K)1＞D₂≥0.5。

16.权利要求15所述的多个核酸分子，包括至少500、至少1,000、至少2,500、至少5,000、至少10,000、至少25,000、至少50,000、至少85,000、至少190,000、至少350,000或至少550,000个核酸分子。

17.权利要求15所述的多个核酸分子，其中Z选自至少3×10⁸、至少1×10⁹、至少1×10¹⁰和至少1×10¹¹组成的组。

18.权利要求15所述的多个核酸分子，其中所述的基因组为哺乳动物基因组。

19.权利要求18所述的多个核酸分子，其中所述的基因组为人类基因组。

20.权利要求15所述的多个核酸分子，其中R选自0.001、1、2、4、10、15、20、30、40、50和70组成的组。

21.权利要求15所述的多个核酸分子，其中P选自至少70、至少80、至少90、至少95、至少97和至少99组成的组。

22.权利要求15所述的多个核酸分子，其中D₁为1。

23.权利要求15所述的多个核酸分子，其中D₂为1。

24.权利要求15所述的多个核酸分子，其中L₁选自15、16、17、18、19、20、21、22、23和24组成的组。

25.权利要求15所述的多个核酸分子，其中所述多个核酸分子中的所述P％各自进一步具有不大于A的与所述基因组的L₂核苷酸的完全匹配和不小于B的与所述基因组的L₂核苷酸的完全匹配；且其中：

(a)L₁＞L₂≥与log₄(Z)-3最接近的整数；

(b)A为与D₃×((K-L₂+1)×(Z/4^L ₂))最接近的整数；

(c)B为与D₄×((K-L₂+1)×(Z/4^L ₂))最接近的整数；

(d)4≥D₃≥1；和

(e)1＞D₄≥0.5。

26.权利要求15所述的多个核酸分子，其中所述多个核酸分子中的所述P％与存在于或预计存在于所述代表中的至少一个核酸分子具有至少91、92、93、94、95、96、97、98、99或100％的序列同一性。

27.权利要求15所述的多个核酸分子，其中K选自40、50、60、70、80、90、100、110、120、140、160、180、200和250组成的组。

28.权利要求1所述的多个核酸分子，其中通过对所述基因组进行序列特异性切割产生所述代表。

29.权利要求28所述的多个核酸分子，其中使用限制性内切核酸酶进行序列特异性切割。

30.权利要求1所述的多个核酸分子，其中所述代表为化合物代表。

31.权利要求1所述的多个核酸分子，其中将所述多个核酸分子固定在固相表面上。

32.权利要求31所述的多个核酸分子，其中所述固相选自尼龙膜、硝酸纤维素膜、载玻片和微球组成的组。

33.权利要求31所述的多个核酸分子，其中所述多个核酸分子在所述固相上的位置是已知的。

34.权利要求33所述的多个核酸分子，其中所述多个核酸分子在微阵列上。

35.权利要求33所述的多个核酸分子，其中将所述多个核酸分子固定在微球上。

36.分析核酸样品的方法，所述方法包括：

(a)使样品与权利要求1所述的多个核酸分子杂交；和

(b)确定所述样品与所述多个核酸分子中的哪一个杂交。

37.权利要求36所述的方法，其中所述样品为代表。

38.权利要求36所述的方法，其中将所述多个核酸分子固定在固相表面上。

39.权利要求38所述的方法，其中所述固相选自尼龙膜、硝酸纤维素膜、载玻片和微球组成的组。

40.权利要求38所述的方法，其中所述多个核酸分子在所述固相上的位置是已知的。

41.权利要求40所述的方法，其中所述多个核酸分子在微阵列上。

42.权利要求38所述的方法，其中将所述多个核酸分子固定在微球上。

43.分析两个基因组之间的基因组序列的拷贝数变化的方法，所述方法包括：

(a)提供第一个基因组和第二个基因组；

(b)使用至少一种相同的限制酶制备各基因组的可检测标记的代表；

(c)使所述代表与权利要求1或31所述的多个核酸分子接触以使所述代表与所述多个核酸分子杂交；和

(d)比较所述代表的杂交水平，其中所述水平的差别表示两个基因组之间在由所述成员靶向的基因组序列方面的拷贝数变化。

44.权利要求43所述的方法，其中以可区分方式标记两个代表。

45.权利要求44所述的方法，其中使所述代表同时与所述多个核酸分子接触。

46.比较两个基因组之间的基因组序列的甲基化状态的方法，所述方法包括：

(a)提供第一个基因组和第二个基因组；

(b)使用至少一种相同的酶制备各基因组的可检测标记的代表，其中通过甲基化敏感性方法制备所述代表；

(d)比较所述代表的杂交水平，其中所述水平的差别表示两个基因组之间在由所述成员靶向的基因组序列方面的甲基化状态差别。

47.权利要求46所述的方法，其中所述甲基化敏感性方法包括使用第一种限制酶制备第一个代表，使用第二种限制酶制备第二个代表，其中所述第一种和第二种限制酶识别相同的限制位点，但一种为甲基化敏感性的，而另一种不是。

48.权利要求46所述的方法，其中所述甲基化敏感性方法包括在使用非甲基化敏感性限制酶制备代表后，对甲基-C序列进行化学裂解，使得来源于甲基化基因组的代表与来源于非甲基化基因组的代表区别开来。

49.鉴定如下寡核苷酸的方法，所述的寡核苷酸具有：

(a)K个核苷酸长度；

(b)与存在于或预计存在于来源于至少Z个碱基对的基因组的代表中的至少一个核酸分子的至少90％序列同一性；和

(c)不大于X的与所述基因组的L₁核苷酸的完全匹配和不小于Y的与所述基因组的L₁核苷酸的完全匹配；其中：

(i)Z≥1×10⁸；

(ii)300≥K≥30；

(iii)与(log₄(Z)+2)最接近的整数≥L₁≥与log₄(Z)最接近的整数；

(iv)X为与D₁×(K-L₁+1)最接近的整数；

(v)Y为与D₂×(K-L₁+1)最接近的整数；

(vi)1.5≥D₁≥1；和

(vii)1＞D₂≥0.5；

该方法包括：

(A)在计算机芯片上用限制酶切割所述基因组以产生多个预计的核酸分子；

(B)通过鉴定各自具有包括200-1,200个碱基对在内的长度的预计的核酸分子产生所述基因组的虚拟代表；

(C)选择具有包括30-300个核苷酸在内的长度和与(B)中预计的核酸分子具有至少90％序列同一性的寡核苷酸；

(D)鉴定在所述寡核苷酸中出现的所有L₁核苷酸的序列段；和

(E)证实所述序列段各自在所述基因组中出现的次数满足(c)的要求。

50.权利要求49所述的方法，其中步骤(E)包括：

提供所述基因组的压缩变换；

提供包括涉及所述基因组的信息的辅助数据结构；和

使用压缩变换和辅助数据结构确定L₁核苷酸的字计数。

51.权利要求49所述的方法，其中步骤(E)包括：

提供所述基因组的压缩变换；

反复通过所述L₁核苷酸的序列段中的各核苷酸，从最后一个核苷酸开始并以每次反复一个字符前进至第一个核苷酸，其中将相当于特定反复的核苷酸储存为指数核苷酸，所述反复进一步包括：

定义描述所述变换内的连续范围的核苷酸的搜索区；

对在所述指数核苷酸之前的核苷酸出现在所述搜索范围中的次数进行计数；且

其中如果在所述指数核苷酸之前的核苷酸在所述搜索范围中没有出现，那么停止所述反复；和

输出对L₁核苷酸的所述序列段的第一个核苷酸计数的次数，该次数等于L₁核苷酸的所述序列段出现在所述基因组中的次数。

52.权利要求51所述的方法，进一步包括：

提供辅助数据结构，所述的辅助数据结构包括：

维持出现在所述变换中达最高且包括所述压缩变换中特别预定位置的每一核苷酸的运行总数的K-区间数据结构；和

提供压缩变换的快速查找入口的字典-计数数据结构；且

其中使用所述辅助数据结构和所述压缩变换进行所述计数和所述定义。

53.权利要求52所述的方法，其中所述变换保持压缩状态，同时进行所述计数。

54.权利要求52所述的方法，其中压缩所述压缩变换，使得未压缩变换中每3个字符被压缩成1个字节且其中所述计数在所述反复之一过程中解压缩至多一个这类字节。

55.权利要求51所述的方法，其中所述基因组包括至少30亿个字符。

56.权利要求51所述的方法，其中所述压缩变换为基因组的Burrows-Wheeler变换。

57.权利要求51所述的方法，进一步包括提供基于所述变换的数据，其中所述定义包括使用所述数据和所述指数核苷酸定义所述搜索区。

58.权利要求51所述的方法，进一步包括：

提供基于所述变换的数据；和

确定此前的核苷酸计数，所述此前的核苷酸计数为在指数核苷酸之前的核苷酸在所述搜索区开始前的所述变换中出现的次数；

其中所述定义包括使用所述数据、所述指数核苷酸和所述此前的核苷酸计数定义所述搜索区。

59.权利要求58所述的方法，其中使用K-区间获得所述此前的核苷酸计数，将所述K-区间沿所述变换储存在预定位置上并维持出现在所述变换巾达最高且包括特别预定位置的每一核苷酸的运行总数。

60.各自通过权利要求49所述方法生产的多个寡核苷酸，所述的多个包括至少500个寡核苷酸。

61.各自通过权利要求49所述方法生产的多个寡核苷酸，所述的多个包括至少1,000、至少2,500、至少5,000、至少10,000、至少25,000、至少50,000、至少85,000、至少190,000、至少350,000或至少550,000个寡核苷酸。

62.用于注解核苷酸序列的方法，所述核苷酸序列包括字符串，所述方法包括：

将所述核苷酸序列分割成预定长度的多个字，每个字为具有所述预定长度的所述核苷酸序列的子区域；和

通过对每个字出现在所述核苷酸序列中的次数进行计数确定每个字的字计数。

63.权利要求62所述的方法，其中所述的字重叠。

64.权利要求62所述的方法，其中所述确定包括使用应用所述核苷酸序列压缩变换的字计数算法对每个字在所述核苷酸序列中出现多少次进行计数。

65.权利要求64所述的方法，其中所述字计数算法包括：

反复通过所述字之一的每个字符，从最后一个字符开始并以每次反复一个字符前进至第一个字符，其中将相当于特定反复的字符储存为指数字符，所述的反复进一步包括：

定义描述所述变换内连续范围的字符的搜索区；

对在所述指数字符之前的字符出现在所述搜索范围中的次数进行计数；且

其中如果在所述指数字符前的字符在所述搜索范围中没有出现，那么停止所述反复；和

输出对第一个字符计数的次数，该次数等于特定字在所述核苷酸序列中出现的次数。

66.权利要求62所述的方法，进一步包括对每个字获得的字计数进行统计分析。

67.权利要求62所述的方法，进一步包括：

将所述核苷酸序列分割成第二个预定长度的第二种多个字，所述第二种多个字各自为具有所述第二个预定长度的核苷酸序列的子区域；和

通过对所述第二种多个字各自出现在所述核苷酸序列中的次数进行计数确定所述第二种多个字各自的字计数。

68.权利要求62所述的方法，其中所述的核苷酸序列为基因组。

69.用于注解核苷酸序列的系统，所述的核苷酸序列包括字符串，所述系统包括构造如下用户设备，用于：

70.权利要求69所述的系统，其中所述的字重叠。

71.权利要求69所述的方法，其中构造所述用户设备以使用字计数算法，该算法应用所述核苷酸序列的压缩变换对每个字在所述核苷酸序列中出现多少次进行计数。

72.权利要求71所述的系统，其中所述用户设备进一步构造用于：

反复通过所述字之一的每个字符，从最后一个字符开始并以每次反复一个字符前进至第一个字符，其中将相当于特定反复的字符储存为指数字符，所述用户设备进一步构造用于通过重复如下步骤进行反复：

定义描述所述变换内连续范围的字符的搜索区；

其中如果在所述指数字符之前的字符在所述搜索范围中没有出现，那么停止所述反复；和

73.权利要求69所述的系统，其中构造所述用户设备用于对每个字获得的字计数进行统计分析。

74.权利要求69所述的系统，其中构造所述用户设备用于：

75.权利要求69所述的系统，其中所述的核苷酸序列为基因组。

76.用于筛选具有与核苷酸序列中不需要的区进行交叉杂交的最低潜能的多核苷酸的方法，所述方法包括：

选择存在于所述核苷酸序列内的预定长度的多个多核苷酸；

对每一多核苷酸生成统计数据；和

确定所述多核苷酸中的哪一个具有最佳满足预定标准的统计数据。

77.权利要求76所述的方法，其中所述的生成包括：

将每个多核苷酸分割成预定长度的多个字，每个字为具有所述预定长度的多核苷酸的子区域；和

78.权利要求76所述的方法，其中所述统计数据表示每个多核苷酸的组成字出现在所述核苷酸序列中的次数。

79.权利要求76所述的方法，其中所述的预定标准包括预定长度的字计数的最小平均值、预定长度的字计数的几何平均值、预定长度的字计数的模式值、预定长度的字计数的最小化的最大值、预定长度的字计数的总计值、预定长度的字计数的乘积值、特定核苷酸的最长字符串，或其组合。

80.权利要求76所述的方法，其中所述的选择包括：

生成具有特定长度的出现在所述核苷酸序列中的特定字的字计数；和

从所述核苷酸序列的区中获得多核苷酸，使得所述区内的子串的字计数不超过预定的字计数。

81.用于筛选具有与核苷酸序列中不需要的区进行交叉杂交的最低潜能的多核苷酸的系统，所述方法包括构造用户设备用于：

选择存在于所述核苷酸序列内的预定长度的多个多核苷酸；

对每一多核苷酸生成统计数据；和

确定所述多核苷酸中哪一个具有最佳满足预定标准的统计数据。

82.权利要求81所述的系统，其中构造所述用户设备用于：

83.权利要求81所述的系统，其中所述统计数据表示每个多核苷酸的组成字出现在所述核苷酸序列中的次数。

84.权利要求81所述的系统，其中所述的预定标准包括预定长度的字计数的最小平均值、预定长度的字计数的几何平均值、预定长度的字计数的模式值、预定长度的字计数的最小化的最大值、预定长度的字计数的总计值、预定长度的字计数的乘积值、特定核苷酸的最长字符串，或其组合。

85.权利要求81所述的系统，其中构造所述用户设备用于：

86.用于对字出现在基因组中的次数进行计数的方法，其中所述的字包括字符串，所述方法包括：

提供所述基因组的压缩变换；

反复通过所述字的每个字符，从最后一个字符开始并以每次反复一个字符前进至第一个字符，其中将相当于特定反复的字符储存为指数字符，所述反复进一步包括：

定义描述所述变换内连续范围的字符的搜索区；

输出对所述字的第一个字符计数的次数，该次数等于特定字在所述基因组中出现的次数。

87.权利要求86所述的方法，进一步包括：

提供辅助数据结构，所述的辅助数据结构包括：

提供压缩变换的快速查找入口的字典-计数数据结构；且

其中使用至少所述K-区间数据结构和所述字典-计数数据结构进行所述计数。

88.权利要求87所述的方法，其中所述变换保持压缩状态，同时进行所述计数。

89.权利要求87所述的方法，其中压缩所述压缩变换，使得未压缩变换中每3个字符被压缩成1个字节且其中所述计数在所述反复之一过程中解压缩至多一个这类字节。

90.权利要求86所述的方法，其中使用3比1的压缩比衍生所述基因组的所述压缩变换。

91.权利要求86所述的方法，其中所述的基因组包括至少1百万个字符。

92.权利要求86所述的方法，其中所述的基因组包括至少4百万个字符。

93.权利要求86所述的方法，其中所述的基因组包括至少1亿个字符。

94.权利要求86所述的方法，其中所述的基因组包括至少30亿个字符。

95.权利要求86所述的方法，其中所述的字包括至少15个字符。

96.权利要求86所述的方法，其中所述的压缩变换为基因组的Burrows-Wheeler变换。

97.权利要求86所述的方法，进一步包括提供基于所述变换的数据，其中所述定义包括使用所述数据和所述指数字符定义所述搜索区。

98.权利要求86所述的方法，进一步包括：

提供基于所述变换的数据；和

确定此前的字符计数，所述此前的字符计数为在指数字符前的字符出现在所述搜索区开始前的所述变换中的次数；

其中所述定义包括使用所述数据、所述指数字符和所述此前的字符计数定义所述搜索区。

99.权利要求98所述的方法，其中使用K-区间获得所述此前的字符计数，将所述K-区间沿所述变换储存在预定位置上并维持在所述变换中出现达最高且包括特别预定位置的每个字符的运行总数。

100.包括配置用于执行权利要求86-99的方法的用户设备的系统。