CN101027409A

CN101027409A - 基于代表基因组的阵列对生物进行的分类

Info

Publication number: CN101027409A
Application number: CNA2005800217366A
Authority: CN
Inventors: 弗兰克·亨利·约翰·许伦; 马丁努斯·彼得鲁斯·马里亚·卡斯普尔斯; 比安卡·约翰娜·凯瑟里娜·范德韦夫-范德瓦特; 罗伊·克里斯蒂安·蒙泰因
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Priority date: 2004-04-29
Filing date: 2005-04-29
Publication date: 2007-08-29
Anticipated expiration: 2025-04-29
Also published as: EP1740724A1; EP1591535A1; JP2007534334A; WO2005106033A1; US20080113872A1; CN101018872A; CN101027409B

Abstract

本发明涉及制备样品核酸的参考杂交模式集群的方法，包括提供包括多个核酸分子的阵列，其中所述多个核酸分子来自至少两个不同来源，通过将所述阵列与至少两种不同的参考核酸杂交而提供至少两种不同的参考杂交模式，其中所述至少两种不同的参考核酸的来源可基于至少一个表型参数的值被分为至少两组，以及通过无监督的多变量分析(unsupervised multivariate analysis)对所述参考杂交模式进行群集。所述方法进一步提供一种用于对样品核酸进行分型(typing)的方法，包括通过使用本发明的方法提供样品核酸的至少两种不同的参考杂交模式集群，将与用来制备所述参考杂交模式的阵列相同的阵列与样品核酸杂交以制备样品杂交模式，以及将所述样品杂交模式归于(assign to)所述至少两种不同的参考杂交模式集群中的一种。

Description

基于代表基因组的阵列对生物进行的分类

技术领域

本发明涉及阵列技术(array technology)、诊断学以及分子生物学领域。更特别的，本发明涉及利用核酸阵列对样品核酸进行分型(typing)的方法。

发明背景

阵列技术在与生物学和医学相关的各个领域中已成为重要工具。这些年来已开发了几种类型的阵列。随着小型化和自动化的到来，越来越多的信息已经进入阵列。阵列技术的目前趋势是产生更大的阵列，在它们之上携带越来越多的信息。

在基于阵列的诊断学中，杂交模式或者阵列上各种点与样品核酸杂交的强度模式含有待与另一种样品核酸的数据进行对比的数据。在传统阵列中，为了经济和精确性的原因，每个点的核苷酸数目保持在尽可能低。

阵列上所含的更高水平信息主要用于提供核酸样品的更详细的分析，即使得进行对比的两个这种样品之间的最小的差异变得可见或者被揭示。例如，在人类诊断学中，阵列被用于对具有相同疾病但不同预后的患者组进行分类，并由此揭示导致这种预后差异的基因。这些实验大多数基于表达阵列进行，因为只有特定基因的表达水平被认为提供区分两组患者必需的解决方案，即提供足够的区分它们的能力。

在这些已知为表达谱分析(expression profiling)的诊断方法中，用于探查阵列的核酸(即表达的mRNA)提供了复杂的核酸(complex nucleic acid)。在阵列中导入较大数量的核苷酸导致另一难题，特别是当复合核酸被用于探查阵列时。在表达谱分析的情况下，大量的点具有值为0和1之间的信号，表明不是点中的所有核酸均与探针核酸杂交，而这是用于确定或量化所涉及的基因的表达水平的一个特征。

最终，当对比不同的杂交模式时，需要决定阵列中的哪些信号包括在分析中，哪些不使用。通常这基于截断值(cut-off value)进行，截断值的引入使得分析偏向包括特定点的强度的最显著或最大改变。参考模式在这一过程中起重要作用，该模式是用来与测试材料或样品核酸所产生的模式进行对比的模式。现有技术方法的一个问题是核酸的表达代表了生物体所处的状态，即根据环境不同，同一生物体可有不同的表达模式。现有技术方法由此不太适合在不考虑其代谢状态的情况下对生物体进行分型。

发明概述

本发明目的在于通过提供一种制备用于对比阵列杂交实验的参考杂交模式的方法而克服上述问题。

本发明人现已发现一种制备参考杂交模式的方法，其提供了高分辨能力，使得能对样品核酸在令人惊讶地详细的水平上进行分型。例如，本发明人现发现了一种制备参考杂交模式的方法，其使得不同细菌菌株的样品核酸在如抗生素抗性这样详细的表型参数的水平上进行分型，而分型本身基于全基因组阵列差异杂交(whole-genome-array differentialhybridization)而发生。在这些全基因组阵列差异杂交方法中，阵列上的核酸分子和样品核酸均由(随机)基因组DNA片段组成。获得这一详细水平是令人惊奇的，因为人们不会预期可以基于基因组DNA的组成而区分细菌菌株的抗生素抗性的和敏感的亚型。

本发明的一个方面提供了一种制备用于样品核酸的参考杂交模式集群的方法，所述方法包括：

-提供包含多个核酸分子的阵列，其中所述多个核酸分子衍生自至少两个不同来源；

-通过将所述阵列与至少两种不同的参考核酸杂交而提供至少两种不同的参考杂交模式，其中所述至少两种不同的参考核酸的来源基于至少一个表型参数的值可分成至少两组；以及

-通过无监督的多变量分析(unsupervised multivariate analysis)群集(clustering)参考杂交模式。

因此，本发明制备参考杂交模式的方法使用多个来源用于阵列核酸，也使用多个来源用于参考核酸。这些来源可以是相同的或不同的。优选地，参考杂交模式也通过衍生自用于阵列核酸的来源的核酸获得，从而各种来源可以具有多个功能。因此，所述多个阵列核酸分子的所述至少两个来源的至少一个也是所述至少两个不同参考核酸的至少一个的来源。

在一个优选的实施方案中，本发明的方法支持全基因组阵列差异杂交方法。因此，优选地所述阵列由基因组DNA片段组成，优选地由随机选自来自所述至少两个不同来源的基因组DNA片段的混和物的基因组DNA片段组成。同时，所述样品核酸优选地由基因组DNA组成，更优选地由基因组DNA片段组成。

在一个优选的实施方案中，用于多个阵列核酸分子的至少两个不同来源是(至少猜想其是)(在分类学上)与样品核酸的来源密切相关，即它们属于相同的目，优选相同的科，更优选相同的属，更优选相同的物种，更优选相同的遗传学亚种。

在另一个优选的实施方案中，所述阵列中分子的平均大小在大约200至5000个核苷酸之间。

在另一个优选的实施方案中，所述阵列包括随机选自所述至少两个不同来源的大约1500至5000个核酸分子。

在另一个优选的实施方案中，所述多个阵列核酸分子衍生自天然来源，更优选来源于病毒、微生物、动物或植物，更优选来源于原核生物。

在另一个优选的实施方案中，用于所述多个阵列核酸分子的至少两个不同来源是(在分类学上)密切相关的。

在另一个优选的实施方案中，所述多个阵列核酸分子衍生自原核生物的至少两个不同物种。

在另一个优选的实施方案中，所述多个阵列核酸分子衍生自属于相同的属的至少两个不同的原核菌株。

在另一个优选的实施方案中，所述多个阵列核酸分子衍生自属于相同物种的至少两个不同的原核菌株。

在另一个优选的实施方案中，所述多个阵列核酸分子衍生自一种原核生物的纯培养物。

在另一个优选的实施方案中，所述多个阵列核酸分子衍生自真核DNA。

在另一个优选的实施方案中，所述多个阵列核酸分子衍生自至少3个，优选至少5个，更优选至少8个不同来源。

在另一个优选的实施方案中，所述方法进一步包括基于主成分分析(Principal Component Analysis，PCA)对代表模式进行群集。

在另一方面，本发明提供了对样品核酸进行分型的方法，包括：

-通过使用本发明的制备样品核酸的参考杂交模式集群的方法提供样品核酸的至少两种不同的参考杂交模式的集群；

-将与用来制备所述参考杂交模式的阵列相同的阵列与样品核酸杂交以获得样品杂交模式，以及

-将所述样品杂交模式归于(assigning to)所述参考杂交模式的至少两种不同的集群中的一种。

在一个优选的实施方案中，所述样品核酸由基因组DNA，优选基因组DNA片段组成。

在另一个优选的实施方案中，所述样品核酸中片段的平均大小在大约50至5000个核苷酸之间。

在另一个优选的实施方案中，所述方法包括将所述样品杂交模式与包括至少3个、优选至少5个、更优选至少50个不同参考杂交模式的参考杂交模式集群进行对比。

在另一个优选的实施方案中，所述对比包括参考杂交模式与样品杂交模式一起的无监督的多变量分析，优选地还进一步包括基于主成分分析(PCA)对代表模式进行群集。

在另一优选的实施方案中，所述归于包括参考杂交模式与样品杂交模式的偏最小二乘法判别分析(Partial Least Square-Discriminant Analysis，PLS-DA)，其中至少一个其值对于参考杂交模式是已知的(并且其信息被用于监督所述PLS-DA分析)的表型参数被针对样品核酸或其衍生来源而额外确定或估计。

在另一优选的实施方案中，所述方法进一步包括基于有监督的PLS-DA分析对代表模式进行群集。

在另一优选的实施方案中，所述方法进一步包括基于集群的存在与否对所述样品核酸进行分型。

在另一个优选的实施方案中，所述集群代表了共享一个针对一种感兴趣的表型参数的值的模式。

在另一个优选的实施方案中，所述用于多个阵列核酸分子的至少两个不同来源(在分类学上)与样品核酸的来源密切相关。

在另一个优选的实施方案中，所述参数是抗生素抗性。

在另一个优选的实施方案中，所述参数是流行性特征、病原性、毒力、共栖、热抗性、pH耐受力、持续性和/或细胞死亡。

在另一方面，本发明提供了一种试剂盒，所述试剂盒包括如前文所述的阵列的组合，以及至少两个不同的如前文所述的参考杂交模式或参考核酸。

附图说明

图1示出了在研究中用到的31个金黄色葡萄球菌(Staphylococcusaureus)菌株的RiboPrint^TM分类。所有的菌株除了一个来自典型菌株保藏机构(strain-type collection)(TTC 03.151)的参考菌株外都是金黄色葡萄球菌临床分离株。本图显示了每一菌株的特定RiboPrint^TM模式(中间的条带模式)，以及表示RiboPrint^TM模式之间的(Pearson-)相关系数程度的系统树图(左)。在右侧给出了每一个菌株的TTC编号(TNO Type Collection，TNO，Zeist，The Netherlands)(详细信息参见图3)。在最右边的符号(▲，□，

，●，◇)表示基于图2的PCA集群的菌株分类。

图2示出了由全基因组阵列差异杂交数据的无监督的PCA分析得到的金黄色葡萄球菌菌株的集群。31个不同金黄色葡萄球菌菌株的Cy标记的基因组DNA与含有金黄色葡萄球菌基因组的代表的35个阵列杂交(4个菌株in duplo)。代表高度复杂的n维数据集的所述金黄色葡萄球菌菌株的定量的荧光杂交模式用主成分分析(PCA)分析。下面的PCA作图显示了每一个单一菌株复杂杂交模式在一个2维平面中的单点投影(小圈，其中文字表明菌株TTC.03编号，详细信息参见图3)。Duplo杂交的菌株用实心小圈和粗体文字表示。为了清楚，投影靠近在一起的菌株通过椭圆被手工群集。每一个集群用一个符号表示(▲，□，，●，◇)，所述符号在图1中也被表示在每一个RiboPrint^TM分类的菌株的右侧。注：Cy5/Cy3-比例通过截断值0.5而被转化为0和1数据集；平均中心化(meancentering)用于测量(scaling)。

图3示出了金黄色葡萄球菌菌株及其抗性特征的概况。抗生素抗性通过常规琼脂扩散测试确定(2-3栏：U＝未知，S＝敏感，I＝中等，R＝有抗性)。被研究的金黄色葡萄球菌菌株通过TNO Type Collection编号(TTC nr)表示。所有列出的菌株都是医院分离株，除了最后一个是得自一个培养物保藏机构的模式株。

图4显示了通过全基因组阵列差异杂交数据的有监督的PLS-DA分析对金黄色葡萄球菌菌株的抗生素抗性进行群集。将31种不同金黄色葡萄球菌菌株的Cy标记的基因组DNA与含有金黄色葡萄球菌基因组的代表的阵列杂交。用偏最小二乘法判别分析(PLS-DA)基于每一金黄色葡萄球菌菌株的抗生素敏感性(S)或抗性(R)分析金黄色葡萄球菌菌株的量化的荧光杂交模式，这些模式代表了高度复杂的n维数据集。下方的PLS-DA图显示了每一单菌株复杂杂交模式在一2维平面的单点投影(小圈，文字表示菌株TTC.03编号)。In duplo杂交的菌株用粗体字表示。基于数据集的一个特异部分，PLS-DA分析能够根据其已知的对2种不同抗生素的抗生素抗性在两个单独的集群中的菌株进行群集(手工椭圆，表示S和R)(图4a-b)。注：PLS-DA测量(scaling)是平均中心化(mean centering)。图4a：金黄色葡萄球菌庆大霉素抗性菌株和敏感菌株基于其通过PLS-DA分析的基因组组成进行群集。图4b：金黄色葡萄球菌苯唑西林抗性菌株和敏感菌株基于其通过PLS-DA分析的基因组组成进行群集。数据集编号是指图3所示菌株编号。

图5显示了金黄色葡萄球菌菌株及其流行性特征的概况。每一MRSA菌株由一独特的TNO TYpe Collection编号(TTC nr，第1列)代表。每一菌株通过Riboprint^TM分类被鉴定为金黄色葡萄球菌(第2列)。流行性特征通过日常医院实践确定(第3列)。

图6显示了通过全基因组阵列差异杂交数据的有监督的PLS-DA分析对MRSA菌株的流行性进行群集。将19种不同MRSA菌株的Cy标记的基因组DNA与含有金黄色葡萄球菌基因组的代表的阵列杂交。用偏最小二乘法判别分析(PLS-DA)基于每一MRSA菌株的已知流行性特征分析金黄色葡萄球菌菌株的量化的荧光杂交模式，这些模式代表了高度复杂的n维数据集。下方的PLS-DA图显示了每一单菌株复杂杂交模式在一2维平面的单点投影(小圈，文字表示图5所提到的菌株TTC.03编号)。Induplo杂交的菌株用粗体字表示。基于数据集的一个特异部分，PLS-DA分析能够根据其已知的流行性对在两个单独的集群中的菌株进行群集(手工椭圆，E＝流行性，N＝非流行性)。注：Cy5/Cy3比例通过截断值0.5而转化为0和1数据集。PLS-DA通过平均中心化(mean centering)进行测量(scaling)。非流行性菌株“236”通过PLS-DA定位于E-集群和N-集群之间。数据集编号是指图5所示菌株编号。

图7显示了金黄色葡萄球菌菌株及其侵染性(invasiveness)特征的概况。每一MRSA菌株由一独特的TNO Type Collection编号(TTC nr，第1列)代表。每一菌株通过Riboprint^TM分类被鉴定为金黄色葡萄球菌(第2列)。流行性特征通过日常医院实践确定(第3列)。

图8显示了通过全基因组阵列差异杂交数据的有监督的PLS-DA分析对金黄色葡萄球菌菌株的侵染性进行群集。将27种不同金黄色葡萄球菌菌株的Cy标记的基因组DNA与含有金黄色葡萄球菌基因组的代表的阵列杂交。用偏最小二乘法判别分析(PLS-DA)基于每一金黄色葡萄球菌菌株的已知侵染性特征分析金黄色葡萄球菌菌株的量化的荧光杂交模式，这些模式代表了高度复杂的n维数据集。下方的PLS-DA图显示了每一单菌株复杂杂交模式在一2维平面的单点投影。基于数据集的一个特异部分，PLS-DA分析能够根据其已知的侵染性特征对在两个单独的集群中的菌株进行群集(o：非侵染性，+：侵染性)。数据集编号是指图7所示菌株编号。

图9显示了阴沟肠杆菌(Enterobacter cloacae)菌株及其感染性特征的概况(I＝感染性，NI＝非感染性)。每一阴沟肠杆菌菌株由一独特的TNOType Collection编号(TTC nr，第1列)代表。每一菌株通过Riboprint^TM分类被鉴定为阴沟肠杆菌(第2列)。感染性特征通过日常医院实践确定(第3列)。

图10显示了通过全基因组阵列差异杂交数据的有监督的PLS-DA分析对阴沟肠杆菌菌株的感染性进行群集。将18种不同阴沟肠杆菌菌株的Cy标记的基因组DNA与含有阴沟肠杆菌基因组的代表的阵列杂交。用偏最小二乘法判别分析(PLS-DA)基于每一阴沟肠杆菌菌株的已知侵染性特征分析阴沟肠杆菌菌株的量化的荧光杂交模式，这些模式代表了高度复杂的n维数据集。下方的PLS-DA图显示了每一单菌株复杂杂交模式在一2维平面的单点投影。基于数据集的一个特异部分，PLS-DA分析能够根据其已知的感染特征对在两个单独的集群中的菌株进行群集(o：感染性，+：非感染性)。数据集编号是指图9所示菌株编号。

图11显示了嗜肺军团菌(Legionella pneumophila)菌株及其病原性特征的概况。每一嗜肺军团菌菌株由一独特的TNO Type Collection编号(TTC nr，第1列)和一实验ID(第2列)代表。每一菌株通过Riboprint^TM分类被鉴定为嗜肺军团菌(第3列)。病原性特征通过日常医院实践确定(第4列)。

图12显示了通过全基因组阵列差异杂交数据的有监督的PLS-DA分析对嗜肺军团菌菌株的病原性进行群集。将30种不同嗜肺军团菌菌株的Cy标记的基因组DNA与含有嗜肺军团菌基因组的代表的阵列杂交。用偏最小二乘法判别分析(PLS-DA)基于每一嗜肺军团菌菌株的已知病原性特征分析嗜肺军团菌菌株的量化的荧光杂交模式，这些模式代表了高度复杂的n维数据集。下方的PLS-DA图显示了每一单菌株复杂杂交模式在一2维平面的单点投影。上方的图包含如图11所描述的实验命名，下方的图是描述性命名。基于数据集的一个特异部分，PLS-DA分析能够根据其已知的病原性特征对在两个单独的集群中的菌株进行群集(pat＝衍生自患者，omg＝源自环境)。数据集编号是指图11所示菌株编号。

图13显示了DA的规则，所述DA的目的是发现并鉴定在组平均值中显示巨大差异的原始数据中的结构。这种方法涉及关于众多样品具有的相似特征的预先的知识，所述方法并因此称为有监督的分析技术。本图的详细解释在本文下面给出。

发明详述

本发明跟随阵列技术的潮流，产生比现有阵列更大的阵列，在其上携带了越来越多的信息。因此，本发明的阵列包含多个核酸分子，其中所述多个核酸分子衍生自至少两个不同来源的核酸。本发明的阵列可包含其特征(来源、数量、长度)被如此选择的核酸分子，所述选择使得通过一个单一分析获得的信息最大化。

典型地，本发明的阵列上包含至少500000个核苷酸。优选地所述阵列上携带更多核苷酸。在一个优选得实施方案中，所述阵列包含至少1兆碱基(10⁶核苷酸)。优选地，它们包含至少2兆碱基。与常规阵列不同的是，每个点的碱基数是很高的，即在200至5000个核苷酸之间。

上述情况的一个缺点是在阵列上使用大量的核苷酸提高了寡核苷酸的成本，并且同时引发更高的相对于所希望的序列产生错误的倾向。所述缺点被本发明通过优选地使用得自或衍生自天然来源的核酸而至少部分克服，其中所述天然来源优选地是活体材料。

本发明的一个特征是，与样品核酸和参考核酸之间的遗传对比一起(例如，同时、之前或之后)，对于参考核酸的每一来源确定至少一个非基于核酸的参数(本文也称为表型参数或表型特征)，例如形态学特征、生理学特征、血清学或病原学，然后使用该表型参数以促进杂交模式的统计学分类和/或预期所述表型参数属于所述样品核酸的所述来源。

在本发明中，形态学特征是指在外部可以观察到的特征例如生物体的形式；具有特异的生物化学物质如膜肽、色素、(糖)蛋白、脂类或细胞壁成分如分枝菌酸；具有或缺乏特异受体；产生芽孢或孢囊；具有鞭毛；以链状或丝状生长，或另一种外部特征例如细胞或菌落形态；或着色特征，例如细菌的革兰氏反应。

在本发明中，生理学特征是指特异的分解代谢特征例如蛋白裂解或能够在特异底物例如多糖、蛋白质、脂肪或核酸上生长；特异的营养素需求；具有特异的代谢途径；对氧敏感或抗生素易感性；温度或酸度依赖性；产生特异的代谢终产物；分泌细菌素或抗生素；产生气体；所述生物体的能量供给方式；所述细胞中蛋白质的集合(蛋白质组)的大小、组成或另一种特征；或所述细胞中小分子量有机物质的集合(代谢组)的特征。

在本发明中，血清学特征是指能够与特异抗体或单克隆抗体反应；具有或缺乏特异表面抗原或表位例如糖脂或糖蛋白。

在本发明中，病原学特征是指一种生物体感染细胞的能力；分泌毒素；感染发展的方式；所述生物体是否是流行的或非流行的；溶血性特征或其他病原性特征，例如被所述生物体影响的天然生活环境或组织或细胞类型。

本发明一般地利用差异杂交来进行样品核酸分类并特别利用全基因组差异杂交来对生物体进行分类和分型。本发明在一个实施方案中涉及采用来自不同细菌菌株的集合的随机基因组DNA片段的阵列来根据临床相关特征(如抗生素抗性、流行性、毒力、致病性等)对“新的”细菌进行分类的方法。

由此，当本发明规定至少两个不同的参考核酸的来源必须是基于感兴趣的至少一个表型参数的值而可分成至少两组时，本发明的方法在一个优选的实施方案中使得可以区分抗性和敏感亚型、流行性和非流行性亚型、侵染性和非侵染性亚型、感染性和非感染性亚型、和/或环境和临床亚型。

在本发明的一个方面，提供有关参考核酸的来源的至少一种表型特征的信息的额外步骤提供了一种方法，其使用来自由不同生物体组成的组的例如基因组DNA片段的非特异性集合对用例如所述组内或组外的未知成员的gDNA获得的杂交模式进行群集和分类，并且该方法能基于至少一种表型特征进一步区分或分离那些集群。

术语非特异性(a-specific)是有意使用的，因为本发明的阵列提供了一种分析工具，其不是必须仅适合分析与点在阵列上的核酸相关的核酸，而是提供了原则上足够的判别能力以分析与阵列上的核酸在分类学上远离的或不相关的基因组。然而，最佳结果和最高判别能力是当选择用于阵列的多个核酸分子的核酸以及用于参考杂交模式的参考核酸从而使样品核酸是与其高度相关的(即其杂交模式在参考模式之间群集或与参考模式群集)时获得的。

阵列上的多个核酸分子衍生自至少两种不同的核酸来源，优选地，所述多个核酸分子衍生自至少3种、更优选地至少5种、更优选地至少8种不同的来源。这是为了提供阵列核酸分子的足够的多样性。对阵列核酸分子没有其他必需的要求。

阵列核酸分子典型地是一种生物体的(通常单链的)基因组DNA片段，并且从而所述阵列核酸的来源典型地是一种生物体的基因组。

核酸的另一个来源是用于产生参考杂交模式的参考核酸的来源。在本发明的一个方法中，用于制备参考杂交模式的参考核酸来源基于表型特征或参数可分成至少两组，在本文中也称为至少一个感兴趣的表型参数的值。术语“值(value)”包括定量和定性的值。因此，例如，阵列包含来自流行性细菌菌株的基因组DNA片段和来自非流行性细菌菌株的基因组DNA片段。已发现本方法可例如非常适合于对微生物特别是细菌进行快速和精确分型。例如，在二甲氧基苯青霉素抗性金黄色葡萄球菌(MRSA)的情况下，甚至能区分流行性菌株和非流行性菌株。

因此，在本发明的一个特别优选的方面，得自或衍生自至少两个原核菌株的(参考)核酸被用于产生参考杂交模式。优选地，通过得自或衍生自不同原核菌株的核酸产生至少5个、更优选至少50个参考杂交模式，并且所述参考杂交模式可被群集。在一个特别优选的实施方案中，基本上全部参考杂交模式通过原核菌株的核酸产生。优选地，所述不同的原核菌株属于相同的原核生物属。通过这种方式，可以对样品中是否存在衍生自特定原核生物属的核酸进行分型。更优选地，所述不同的原核菌株属于相同的原核生物物种。通过这种方式，可以对样品中是否存在衍生自特定原核生物物种的核酸进行分型。

这一特别优选的实施方案优选地与统计学分析组合以对比参考和样品杂交模式。以这种方式可以确定样品中的一种原核生物包含一特定原核生物物种的一些但不是全部菌株的特定表型特征或基因型相关性的几率。所述原核核酸可以衍生自RNA但优选地衍生自或得自原核DNA，即衍生自基因组。因此，在本发明的一个优选实施方案中，核酸分子衍生自原核DNA。

参考杂交模式典型地通过将本发明的阵列与参考生物体杂交而衍生，其中典型地一个生物体给出一个参考杂交模式。优选地，为了确定相同物种的生物体之间的关系，所述至少两种不同参考核酸和样品核酸衍生自相同物种的不同菌株。在一个实施方案中，本发明涉及对一个生物体(即测试生物体)的基因组DNA进行分类的方法，包括将所述生物体的DNA与本发明的DNA阵列杂交，所述DNA阵列包含大量随机选择的基因组DNA片段，所述基因组DNA片段衍生自至少2种、优选地至少3种、更优选地至少4种、更优选至少8种不同的参考生物体，以在所述参考生物体中对所述生物体的基因组DNA进行分类。

本文所用的术语“生物体(organism)”包括微生物、植物和动物(包括人)。用于本发明的方法的优选的生物体是微生物和人。在植物或动物的情况下，所述方法可以在所述植物或动物的体液或组织上非常适合地进行。在微生物的情况下，所述方法可以在所述微生物的一或多个细胞上非常适合地进行。本文上下文中所提到的微生物包括病毒、细菌、酵母、真菌和寄生虫，特别是原核生物，优选是细菌，最优选是引起感染性疾病的细菌。

在一个优选的实施方案中，所述DNA阵列包含约1000至约10000个、优选约1500至约5000个、最优选约1800至约2400个、更优选约1900至约2200个随机选择的基因组DNA片段。

在一个优选的实施方案中，所述随机选择的基因组DNA片段长度为约500至约5000、更优选约1000至约2000、更优选约1300至约1800、更优选约1400至约1600个核苷酸。因此，在最优选的实施方案中，本发明方法采用的DNA阵列包含约3兆碱基。

在另一个实施方案中，本发明涉及一种对微生物进行分型的方法。

本发明的方法采用DNA阵列，所述阵列包含大量(约1000至约10000、优选约1500至约5000、最优选约1800至约2400、更优选约1900至约2200个)随机选择的基因组DNA片段(优选地长度为约500至约5000、更优选约1000至约2000、更优选约1300至约1800、更优选约1400至约1600个核苷酸)，所述基因组DNA片段衍生自至少2种、优选地至少3种、更优选地至少4种、例如5、6或7种、更优选至少8种不同微生物的混和物，以对一种微生物的基因组DNA进行分类。所述混和物可以合适地代表微生物的各种菌株的gDNA库，所述菌株优选地是一种微生物(优选细菌)的一个和相同物种的不同菌株。

本发明的方法优选地使用全基因组阵列以通过杂交研究或确定在其它生物体中是否存在相对的(即互补的)DNA区域。与现有技术方法不同，本发明优选地不采用所谓的开放读框(ORF)-探针作为阵列上的核酸分子。这些探针衍生自并且仅检测特异基因的片段或一个单一生物体或单一的一组生物体的gDNA片段。相反，本发明优选地采用消化的基因组DNA以获得双链gDNA片段，所述片段然后优选地被变性以作为单链随机gDNA探针，其可以被组合以在适于构建本发明的阵列的多个核酸分子中形成。在本发明的用于对原核DNA进行分型的方法的另一优选的实施方案中，对现有技术方法的进一步改进通过提供衍生自各种不同菌株的gDNA库的随机基因组DNA片段的阵列而实现。这具有这样的优点：用一个单一实验或分析，可以建立测试生物体与一组具有限定的分类学范围和/或具有限定的表型特征的参考生物体之间的关系。

本发明现在最终使得可以研究生物体中的多基因特征。本文描述的方法因此支持或允许掺入生物体表型特征的分类，例如测试生物体的抗生素抗性，而无论其遗传基础如何。因此，当将本发明方法用于对微生物进行分类并包括所述微生物的至少一个临床相关参数(例如抗生素抗性或流行性)时，不仅基因型特征用于对物种进行分类，而且该物种的组合的基因型和表型特征也可用于对物种进行分类，而无论这两者之间是否有因果关系。

不需要存在于阵列上的序列的详细知识。在本发明中，模式之间互相对比。

为了构建含有至少两种不同来源(生物体)的基因组范围的代表性阵列，可以通过混和所述至少两种生物体(例如特定物种的细菌菌株)的gDNA构建所述至少两种生物体的混和基因组文库。任选但不是必需地，选择针对一个表型参数每一个生物体显示不同值的多个生物体，例如在细菌的情况中，对一组广泛的抗生素有不同的抗性谱，优选地总体覆盖大多数类型的抗生素抗性。优选地，所述生物体在其分离的gDNA的琼脂糖凝胶分析中不含显著的质粒条带。然后，所述gDNA混和物可被片段化(例如通过超声剪切)，片段可在例如琼脂糖凝胶中分离。合适大小的DNA片段(优选约1-3kb)可随后被分离(例如通过从凝胶中切下并结合于固体载体如玻璃乳而分离)。合适数量的gDNA片段随机回收自所述gDNA混和物，因此数量可以是约1000至约10000，优选约1500至约5000，最优选约1800至约2400，更优选约1900至约2200个随机选择的基因组DNA片段。多个生物体的gDNA混和物的作用是在从其中分离DNA片段时，获得来自各种生物体的片段的随机库，其用于构建阵列。

随机选择的分离的片段优选地进一步倍增以提供合适的原料储备。所述片段的倍增例如可以通过下述实施例1所述的克隆和核酸扩增技术的组合而进行。双链gDNA片段随后可末端修饰以使它们固定在阵列表面上，例如通过进行PCR扩增反应修饰，其中一个引物或两个引物都含有经一C6接头与引物的5’末端偶联的游离NH2基团。

随机选择的、分离的、以及任选地扩增的gDNA片段然后可以被点印(spotting)在表面上以提供DNA微阵列。为了促进片段的偶联，所述阵列的表面(例如玻片，其表面可以是玻璃、金等)可以被改性(modified)。所述点印可以通过任何已知方法进行，例如通过使用ElectroSprayIonization(ESI)微阵列印刷进行。点印片段后，可以封闭玻片表面以防止核酸的进一步附着，例如，在甲醛改性的玻片表面情况下用硼酸酐处理。

各个生物体的原始gDNA材料的一部分被用于提供可与阵列杂交的材料，即提供参考核酸。为了促进检测成功的杂交，将gDNA适当地标记，优选地荧光标记(例如使用Cy^TM标记[Amersham Pharmacia Biotech])。荧光标记试剂盒可商购自多个厂商。

样品核酸的平均大小对阵列上信号分布有作用。较大的样品分子包含更多的信息并因此更易于在更多个点中发现合适的杂交配体。降低样品核酸的平均大小可降低这一现象。另一方面，当样品核酸太小时，样品中的核酸片段含有太少遗传信息并且也在许多点中发现合适的杂交配体。样品核酸中片段的平均大小优选地在50至5000个核苷酸之间。更优选地，样品核酸中片段的平均大小包含约50至1000个核苷酸、更优选地约50至500个核苷酸的大小。

样品核酸优选地代表完整样品基因组。用阵列上的样品核酸获得的杂交模式与参考杂交模式对比。所述参考杂交模式可以人工产生，例如通过用参考样品的核酸组成的知识产生，所述核酸组成是例如基因组序列已知的生物体的基因组序列。但是，在一个优选的实施方案中，所述参考杂交模式通过参考核酸与阵列杂交产生。样品杂交模式与参考的对比可至少被用于确定样品核酸是否与参考核酸相同或相似。当需要确定例如样品核酸是否含有特定的原核生物时这是有用的。在这一情况下，用该特定原核生物的核酸产生参考杂交模式，并且当样品杂交模式基本上与参考杂交模式相同时，该样品被鉴定为含有该特定原核生物。在一个优选的实施方案中，本发明方法进一步包括对比样品杂交模式和至少一种另外的参考杂交模式。以此方式，所述样品可以与至少两种不同的参考核酸对比。当然，通过持续使用该阵列，越来越多的模式被产生，所有这些均可用于与样品核酸对比。因此，当用样品核酸产生一种模式时，这一模式可以在随后实验中用作参考杂交模式。因此，在一个优选的实施方案中，本发明的方法进一步包括将杂交模式与至少2个、优选地至少5个参考杂交模式对比。更优选地与至少10个、更优选地至少100个参考杂交模式对比。

尽管本发明的阵列可以用于鉴别探针核酸中的特异序列，并且可因此基于一个或几个点上的信号对所述探针核酸进行分型，但是所述阵列的完整潜力在于解释在所述点中获得的全部信号。这种解释可以由人完成，但是典型地通过使用统计学软件由计算机完成。样品杂交模式和参考杂交模式可以是得自阵列的信号的一个亚集合。杂交模式可以由一个信号组成，优选地，所述杂交模式由与阵列杂交后获得的信号的20％组成。更优选地，所述杂交模式由来自阵列的信号的至少50％组成。在一个特别优选的实施方案中，所述杂交模式包括阵列信号的至少80％。

本发明的方法不仅可用于确定一个生物体样品核酸是否与一特定的参考核酸相同。特别地，当使用原核核酸作为样品核酸时，如果发生样品杂交模式，其可以与任何参考杂交模式不同。本发明的方法和阵列的一个特别有用的特征是在这种情况下本发明的方法可以提供有用的信息。与衍生或获得样品核酸的生物体相关的表型特征通常是大量不同序列和/或基因相互影响的结果。在这些情况下，不可能基于得自一或多个点的信号对一特定样品进行分型。相反，非常多的不同点的信号需要被对比。本发明的方法和阵列特别适于对这一分析类型进行分型。为此参考杂交模式和样品杂交模式用统计学软件进行分析。在一个实施方案中，本发明方法进一步包括参考杂交模式与由样品核酸产生的模式的无监督的多变量分析(PCA)。基于这一分析，一个模式被赋予一个n维值(n代表分析中包括的数据点总数)，其可以被减少至其主要成分，优选的2个主要成分。这些成分可在多维显像(multi-dimensional visualization)中显现，优选地在二维显像中显现。成分的维量值(dimensional value)可以相对分析中包括的所有模式作图，其中所述模式的优选的二维值的编组(grouping)或群集可被仔细观察。在一个优选的实施方案中，样品杂交模式的二维值与参考杂交模式的所有二维值进行对比。以此方式可以提供用于衍生或获得样品核酸的生物体与所包括的参考相对比的相关性(relatedness)的统计学估计。

术语“群集(clustering)”是指将具有相同或相似特征的事件(item)收集、组装或统一成一个或多个集群(cluster)的行为，“集群(cluster)”是指一组或一些聚集在一起的或紧密地在一起发生的相同或相似事件。“被群集的(clustered)”是指一个事件已被进行群集。本发明方法所用的群集方法可以用手、眼或任何已知的用于对比事件之间的特征、属性、性质、质量、作用等的相似性的(数学)方法通过来自可测量的参数的数据进行。可以使用统计学分析。

本发明的一个特征是杂交模式用有关用于获得或衍生参考和/或样品核酸的生物体的进一步信息扩展。例如，模式可以用经不同于核酸杂交的方式确定的参数扩展。例如，当所研究的对象是原核生物时，通常重要的是知道所述原核生物的抗生素抗性表型。这一抗性参数可以被加入到统计学分析中。这一参数的值(抗性或敏感，或进一步微调)可以被加入到模式或模式的统计学分析中。随后可基于这一附加参数进行群集。因此根据本发明，对于是参考杂交模式的来源的生物体，确定至少一种不是基于核酸(即表型)的参数。随后可使用统计学分析确定或估计作为样品核酸来源的生物体的这一参数的值。在一个优选的实施方案中，本发明的方法进一步包括参考杂交模式与由样品核酸产生的模式的偏最小二乘法判别分析(Partial Least Square-Discriminant Analysis，PLS-DA)，其中使用至少一个其值对于参考杂交模式是已知的的参数监督所述PLS-DA分析。

偏最小二乘法(Partial Least Squares，PLS)

偏最小二乘法(PLS)已经在文献中广泛描述(P. Geladi and B.R.Kowalski，Partial Least Squares Regression：A Tutorial，Analytica ChimicaActa，185，1986，1-17.H.Martens andT.Naes，Multivariate Calibration，JohnWiley&Sons，Chichester，1989.)。尽管主成分分析(PCA)模型具有描述性质，但是PLS模型具有预测性质。在PLS中，计算数值^*加载对(loadingpairs)(也称为潜变量(LV))不仅是为了在预测数据组(predicting data set)中使解释方差(explained variance)最大化，也是为了使待预测数据的协方差(covariance)最大化。PLS模型可通过方程(1)和方程(2)而数学概括。

X＝TP^T+E (1)

Y＝TBQ^T+F (2)

矩阵X(也称为X-块(block))代表自变量的n^*p矩阵(例如，n个色谱图，每个色谱图p保留时间)，Y(也称为Y-块)是含有因变量(例如浓度)的n^*q矩阵；P^T和Q^T是转置S^*p和S^*q矩阵，分别含有因变量和自变量加载(loadings)；T是S潜在值(latent scores)的n^*S矩阵，B是S^*S矩阵，代表X矩阵的值在Y-数据的值上的回归；E和F是n^*p和n^*q矩阵，分别含有自变量和因变量的残差。

提取A对潜变量后的验证标准误差(SEV)由方程(3)计算。

SEV = \sqrt{\frac{Σ_{I = 1}^{I_{c}} {(Y_{i, j} - y_{i, j})}^{2}}{I_{c}}} - - - (3)

其中I_c是校准样品数目，y_i，j是组分j在物体i中的浓度的真值；Y_i，j是y_i，j的PLS预测值；q是Y变量数目。只要SEV显著改善则持续提取LV。

所选择的LV数必须获得感兴趣的变量的最佳预测。但是，在方差和偏倚(bias)(或匹配(fit))之间有一个平衡(pay-off)：一种太复杂的模型匹配良好，但是可能预测不好。这导致了最佳模型复杂度(optimal modelcomplexity)这一概念：获得匹配和方差之间的最佳平衡，即所述模型的增加的复杂度通常能够匹配数据中的更多特征，但是估计的参数的方差升高并且总体结果在最佳模型复杂度中得到最小值。

X和Y之间的纯线性关系将产生通常具有2至5对LV的简单模型。复杂的非线性关系也可以被建模。但是，这需要取显著更多的LV以将Y与X相关联。

偏最小二乘法判别分析(Partial Least Squares-Discriminant Analysis，PLS-DA)

在PLS-DA中，类别(classes)(预先确定的组(predefined groups))被用作因变量。Y-块Y是n^*类别数的矩阵。Y-块由0和1填充。

例如：

类别＝[1221]

Y = [\begin{matrix} 1 & 0 \\ 0 & 1 \\ 0 & 1 \\ 1 & 0 \end{matrix}]

使用PLS中的依赖于每一样品所属类别的由0和1填充的Y-块将PLS转变成判别分析。作为PLS-DA的替代分析，可以使用任何一种最近开发的用于数据集分类的分析工具，例如nearest shrunken centroid(NSC)、Support Vector Machines(SVM)或Penalized Logistic regression(PLR)方法。

主成分判别分析(Principal Component-Discriminant Analysis，PC-DA)

如果兴趣集中于各样品组之间差异，施用判别分析(DA)[D.L.Massart，B.G.M.Vandeginste，L.M.C.Buydens，S.De Jong，P.J.Lewi and J.Smeyers-Verbeke，Handbook of Chemometrics and Qualimetrics：Part A，Elsevier，Amsterdam，1997；B.G.M.Vandeginste，D.L.Massart，L.M.C.Buydens，S.De Jong，P.J.Lewi and J.Smeyers-Verbeke，Handbook ofChemometrics and Qualimetrics：Part B，Elsevier，Amsterdam，1998]。该技术基于同组样品与其它组样品相比更相似这一假设。DA的目的是发现和鉴别原始数据的结构，其显示组平均值中的大的差异。这一方法涉及预先了解哪些样品是相似的。因此，DA被称为有监督的(supervised)分析技术。这使得其与其它无监督的技术如主成分分析(PCA)区分开来，后者不需要对样品的预先知识。

DA中的第一个步骤是将原始变量组合成一组相互独立的新变量，所述组合使得在由最小数目的这些新变量跨越的空间中原始样品的投影使组平均值之间的差异最大化。这一原则示于图13。测量两组样品的两个变量X₁和X₂。使用主成分(PC)最大方差标准，这些样品应被投影在由图13的线P所示的穿过样品的线上。为了区分不同样品集群，这不是一个最佳方案。但是样品在线D上的投影显示了两个集群之间的完全分离。计算出的因子被称判别子(discriminant)或D-轴。所有其它投影给出亚最佳方案。这在图13中通过对比样品在D线上的投影与在X₁或X₂轴上的投影而示出。

DA最有效地描述样品组之间的差异。但是，变量数相比于样品数经常是大的。这可能导致简并的方案。例如，三个样品可以总是被两个变量分开，而不论它们的相似性如何。如果包括更多的样品，这一简并作用会消失。通用经验法则是样品数应至少是变量数的4倍。这一法则可以导致例如核磁共振(NMR)谱检查中的问题。在天然产物分析中每NMR谱的峰(变量)数通常是几百个的量级。在正常情况下这意味着应当测量至少400-800个样品。在实践中这从未发生。基于这一点，不可能在天然产物的NMR谱上进行DA。但是这一问题有一个解决方案。Hoogerbrugge etal.[R.Hoogerbrugge，S.J.Willig and P.G.Kistemaker，Discriminant Analysisby Double Stage Principal Component Analysis，Analytical Chemistry，55，1983，1710-1712.]开发了一个方案，其中变量数首先被在第一PC轴上的样品分值的PCA、随后被DA减少。这一技术被称为主成分判别分析(PC-DA)。确定所包括的PC的精确数目是困难的。数目应该不太小，因为仅包括前几个可导致许多组之间信息(between-group information)的丢失。数目也不应太大，因为这会超出样品数除以4的法则(number-of-samples-divided-by-four rule)。因此，看起来可推荐的是包括所有PC，其解释了高达样品数除以4这一最大值的显著量的方差(例如高于原始方差的1％)。如果由这些PC解释的方差总量非常低，则数目总是可以增加。但是，如果解释的方差非常低，则原始变量之间的相关性也低。结果，DA将产生与原始问题一样复杂的结果。

PLS-DA分析中所用的参数优选地是表型参数。术语“表型参数”用于本文是为了定义任何描述由生物体或其功能部分展现或表达的任何性质的参数。基于这一分析，一种模式被被赋予一个n维值(n代表分析中包括的数据点总数)，其可以被减少至其(优选的2个)主要成分，以与在一个(优选为二维)显像中的表型参数最佳相关。这一优选的二维值可针对所有杂交模式作图，由此所述杂交模式的优选的二维值的分组或集群可被细察。在一个优选的实施方案中，所述样品杂交模式的二维值与参考杂交模式的所有二维值相对比。以此方式，可以提供对用于获得或衍生样品核酸的生物体包含或不包含特定表型特征的概率的统计学估计。这当然需要这种表型特征对于用于获得或衍生参考核酸的生物体是已知的。在一个优选的实施方案中，所述参考杂交模式的二维值基于有监督的PLS-DA分析被群集。

群集优选地基于表型特征进行，针对该表型特征，样品杂交模式被细察。群集优选地产生两个集群，其中一个集群具有特定的表型，而另一个没有，由于这种差异性，所述两种不同的参考核酸的来源基于一个表型参数的值可分成两个集群。样品杂交模式可因此被容易地鉴别为具有或不具有该特定表型。本发明的方法优选地进一步包括基于是否存在在一个集群中对所述样品核酸进行分型。这一分型典型地与分类的统计学误差幅度相关，所述分类的误差幅度即样品核酸被错误地分类为具有或不具有该特定表型特征的统计学概率。集群的边界可以被设定为容纳误差的较小或较大的统计学概率。在一个优选的实施方案中，所述参数包括抗生素抗性、流行性特征、病原性、毒力、共栖、热抗性、pH耐受力、持续性、细胞死亡以及其他潜在的感兴趣的特征。

对于大范围的各种核酸，可以使用相似的方法。如上所述，阵列优选地从得自或衍生自天然来源的核酸产生。这一来源可以是病毒、微生物、动物或植物。在真核生物来源的情况下，优选地所述得自生物体的核酸首先经过某些类型的选择系统，从而重复的核酸在产生阵列之前被至少部分地去除。通过这种方式阻止阵列包含大量重复信息。实现这个目的的一种途径是选择在所述真核生物内编码功能性RNA的序列。这种所谓的编码核酸典型地几乎不包括重复核酸。或者，选择可以基于其他方法。所述富集独特序列的其他方法中的一种是在重复核酸优选地杂交的条件下使得自真核生物的核酸杂交(使用Cot曲线)。杂交的核酸可以从单链核酸分离，从而所述单链核酸可以被扩增和/或克隆。在一个优选的实施方案中，所述来源是简单的真核生物，优选地是单细胞真核生物。这些来源包括简单的基因组以及因此所产生的较不冗余的核酸。在一个特别优选的实施方案中，所述来源是原核生物。原核生物基本上不包含冗余核酸，因此对于产生高效阵列来说不需要进行特别的选择步骤。在一个原核生物的特别的实施方案中，使用包含被认为是衍生自原核祖先的核酸的真核细胞细胞器作为用于阵列构建和/或样品核酸的核酸的来源。

本发明方法的一个重要优点是无需首先在分类学上对菌株进行分类(例如鉴别)，然后由此属于所鉴别的菌株的临床相关参数可以被例如基于与已知参考菌株的数据列表对比而确定。因此，本发明的一个优点是无需确定物种就可以确定测试生物对特定抗生素的例如敏感性(或抗性)的存在，或任何其它临床相关参数。这通过如下事实实现：这些信息现在可以在阵列的多个核酸分子“内”提供。

本发明的方法特别适于作为人类医学诊断过程中的辅助手段。本发明的方法例如使得可以考虑个体间的差异以及特别可以考虑临床相关参数例如易患癌症的体质和/或在诊断过程中产生的抑郁。

在本发明的方法中，样品核酸优选地包括衍生自与用于产生参考杂交模式的生物体、属、物种或菌株相同的生物体、属、物种或菌株的核酸。用于产生模式的样品和/或参考核酸可含有其所衍生自或得自的生物体、属、物种或菌株的核酸的亚集合。但是，优选地除了前面所述的对真核来源进行选择外，不进行其他选择。在任何情况下，样品和参考核酸的选择优选地是相同或相似的。这使得可以容易地对比参考和样品杂交模式。

术语“得自或衍生自……的核酸”是指用于在阵列上杂交的核酸不一定是直接得自所述来源的。在用于杂交之前，其可经历克隆、选择和其它操作。样品和参考核酸可例如得自克隆的文库，如表达或基因组文库。或者，样品和参考核酸可以基于数据库中的核酸信息而从最开始产生，所述数据库例如是发展中的基因组学的努力的结果。

但是，优选地样品和参考核酸直接从天然来源获得或通过从其扩增获得。样品可以包含生物体的混和物，例如，在样品得自包含多种微生物的菌群的情况下。在这种情况下，产生自各种微生物菌群的参考杂交模式可用于相对于样品杂交模式进行对比，或与样品杂交模式一起进行对比。如上所述，天然来源优选地是原核来源。优选地，所述样品和参考杂交模式从原核生物的单培养物起始产生。以此方式，保证了在阵列上仅有一个生物体被分析，并且同时产生的模式是从一个原核菌株产生的杂交模式。

在一个优选的实施方案中，本发明在其各个方面提供了一种阵列，其包含多个核酸分子，其中所述核酸分子包含约200-5000个核苷酸的平均大小。优选地，所述核酸分子包含约200-5000个核苷酸的平均大小。本发明的阵列优选地包含至少500,000个核苷酸。优选地，所述阵列携带甚至更多的核苷酸。在一个优选的实施方案中，所述阵列包含至少1百万个碱基(10⁶个核苷酸)。优选地，它们包含至少2百万碱基。与传统阵列不同，每个点的碱基数是高的，即多于200个核苷酸，优选地，所述碱基数目200-5000个核苷酸之间。优选地，所述多个核酸分子衍生自天然来源。优选地，所述多个核酸分子衍生自原核DNA。已发现不同的原核菌株尽管属于相同物种，但是其携带的DNA的种类可以有很大的变化。

因此，在一个优选的实施方案中，本发明的阵列包含衍生自至少两种不同原核菌株的多个核酸分子，所述原核菌株优选地是相同物种。以此方式，所述阵列更代表一种原核物种的完整遗传多样性。在一个特别优选的实施方案中，阵列包含衍生自至少三种不同原核菌株的多个核酸分子，所述原核菌株优选地是相同物种。通过增加原核物种菌株的数目以产生阵列中的多个核酸，阵列越来越模拟原核物种的完整遗传潜力并因此分型变得提供越来越多的信息。这不意味着用携带数量少的不同原核菌株的阵列进行分型不是一个有效的方法；它仅意味着预测和估计变得更精确和完整。

上述更详细地描述的阵列其自身即作为本发明的一个方面。

本发明的另一方面是一种试剂盒，所述试剂盒包括上述阵列的组合以及亦在本文上面描述的至少两种不同的参考杂交模式，所述杂交模式也可以例如以计算机可读形式提供，从而使得更容易地分析样品核酸。

现在通过下面的非限制性实施例举例说明本发明。

实施例

实施例1

通过全基因组阵列差异杂交数据的无监督的PCA分析对金黄色葡萄球菌菌株进行群集

一组31种不同金黄色葡萄球菌菌株的荧光标记的基因组DNA(gDNA)分别与用随机选择的8种不同金黄色葡萄球菌菌株的混和物的gDNA片段包被的阵列杂交(约2100个片段/阵列，约1500bp/片段)。对荧光杂交模式进行定量产生对于每种测试菌株的每个基因组DNA片段的杂交信号列表。为了更特异，将每个阵列同时与2种标记的gDNA杂交：一种涉及进行调查的特异金黄色葡萄球菌菌株(用Cy5标记)，另一种涉及用于制备阵列的8种金黄色葡萄球菌菌株的标准混和物，用作参考物以使在所有独立的玻片上进行的杂交归一化(用Cy3标记)。

接下来的数据分析包括数据的过滤、归一化和截断处理，然后进行主成分分析(Principal Component Analysis，PCA)。这导致相似金黄色葡萄球菌的基于全基因组差异杂交的群集。一些菌株的重复性通过完全相同的杂交示出。

不同细菌菌株的组

一组31种金黄色葡萄球菌菌株用于实施例1(图1)。该组由30种医院分离株和1种来自典型菌株保藏机构(strain-type collection)(图1，菌株TTC.03.151)的参考菌株组成。该组中不同菌株核糖体DNA(DuPontQualicon，3531 Silverside Rd，Bedford Building，Wilmington，DE 19810)的一部分的RiboPrint^TM(DuPont Qualicon，Wihmington，Del.，USA)分析表示它们之间的各种相关程度(图1)。

金黄色葡萄球菌菌株的生长和gDNA分离

金黄色葡萄球菌分离株(经单菌落)生长在TSA琼脂平板和/或TSA培养基上(过夜，37℃)并作为甘油培养物储存(-80℃)。为分离gDNA，将平板生长的细菌(例如10-20个菌落的量)重悬于在2ml小瓶中的400μl TE缓冲液(10mM Tris-HCl，1mM EDTA，pH7.5)中。加入400μl水洗的0.1mm锆玻璃珠悬浮液(Biospec Products，Inc.，Bartlesville，OK，USA)而裂解细胞，在冰上预冷，在细胞破坏仪(minibeadbeater 8，Biospec Products，Inc.)中中度振荡120秒，并在冰上冷却。离心后(5min，14krpm，4℃)，gDNA根据标准程序(Sambrook，J.，Fritsch，E.F.&Maniatis，T.(1989).MolecularCloning-A Laboratory Manual，2nd Edition.Cold Spring Habour LaboratoryPress，New York)经用酚/氯仿/异戊醇提取(室温)、用氯仿/异戊醇提取(室温)、用乙醇/醋酸钠沉淀(-20℃，在4℃离心)、用70％乙醇(-20℃，4℃离心)洗涤、干燥(真空)、沉淀溶解于含有RNAseA(1-100μg/ml)的100μl TE缓冲液中、以及在0.6％琼脂糖溴化乙锭染色的凝胶中对gDNA的量进行半定量(例如1-5μl制备物/槽)而从澄清的裂解物中分离。

构建金黄色葡萄球菌gDNA阵列(玻片)

为了制备含有金黄色葡萄球菌物种的基因组范围的代表的阵列，通过混和8种金黄色葡萄球菌菌株的gDNA制备该生物体混和的基因组文库(菌株选择见图3)。选择这样的菌株：(a)对一广泛组的抗生素各显示一不同的抗性谱(总体上覆盖大多数类型的抗生素抗性)，和(b)在其分离的gDNA的琼脂糖凝胶分析中不含显著的质粒条带。gDNA混和物用超声剪切(Branson sonifier 450，Branson，Danbury，C T，USA)并在0.8％琼脂糖凝胶中几条泳道中分离。切下DNA片段(约1-3kb)并经与玻璃乳(Bio101-kit，Qbiogene，Irvine，CA，USA)结合而分离。分离的片段用DNA-terminatorEnd-repair试剂盒(Lucigen Corp.，Middleton，WI，USA)预处理以促进有效(平端)克隆进细菌质粒中(pSmartHCkan vector，CloneSmart Blunt CloningKit，Lucigen Corp.)。部分连接混和物(1μl)经电穿孔(0，lcm-gap cuvets[Eurogentec Ltd.，Southampton，United Kingdom]，使用BioRad Gene Pulser[BioRad Laboratories，Hercules，CA，USA]，在25μF，200ohms，1,6kV)转化至25μl E.coli细胞(E.kloni 10G supreme electrocompetent cells，LucigenCorp.)并在TB培养基中再生并铺板在含有30μg/ml卡那霉素的TY平板上，在37℃过夜生长。用牙签将菌落转移至96孔微滴板(32个板，150μl/孔含30μg/ml卡那霉素的TY培养基)。37℃过夜生长后，加入甘油(终浓度15％)并将甘油原液储存在-80℃。

来自孔板中每一克隆的基因组插入物通过PCR扩增在96孔PCR平板中倍增(22个平板)。PCR反应含有50μl反应混和物/孔，其含有1×SuperTaq缓冲液，0.2mM每种dNTP(Roche Diagnostics GmbH，Mannheim，Germany)，0.4 M引物L1(5′-cag tcc agt tac gct gga gtc-3′)和0.4 M引物R1(5′-ctt tct gct atg gag gtc agg tat g-3′)，1.5 U SuperTaq-DNA-聚合酶和1μl来自gDNA库相应孔的甘油原液溶液。两种引物均含有游离的NH2-基团，其经C6接头与引物的5’末端偶联。使用下述PCR程序：4min 94℃，30×(30sec 94℃，30sec 50℃，3min 72℃)，10min 72℃和浸在4℃。扩增后，将50μl PCR产物转移至96孔圆底板并通过加入150μl NaAc/异丙醇混和物(每一个0.2M NaAc，67％异丙醇终浓度)沉淀，在-80℃温育1小时，离心(1hr，2.5krpm，4℃)，除去上清并用100μl 70％乙醇洗涤。DNA沉淀重悬于5μl水/孔中，转移至384孔平板，干燥(speed vac)并重悬于10μl3×SSC-缓冲液/孔。6个所得的384孔平板含有约2100个PCR产物，被用于点印微阵列。用ElectroSpray Ionization(ESI)微阵列printer组合24TeleChem Stealth micro spotting quill-pins(约100μm直径)(TeleChemInternational，Inc.，Sunnyvale，CA，USA)将PCR产物点在一系列最多75个“醛”包被玻片(Cell Associates，Inc.，The Sea Ranch，CA，USA)上。点印后，玻片表面通过在室温用硼酸酐处理而封闭：2×5min于0.2％SDS中，2×5min于水中，10min于硼酸酐缓冲液中(1.7g NaBH4于510ml PBS缓冲液和170ml 100％乙醇中)，3×5min于0.2％SDS中，3×5min于水中，2sec于100℃水中，用N₂流干燥。PBS(磷酸盐缓冲盐水)是6.75mM Na2HPO4，1.5mM K2HPO4，140mM NaCl，和2.7mM KCl pH7.0.(1.2g Na2HPO4，0.2g K2HPO4，8.0g NaCl，0.2g KCl/升，pH7.0)。

gDNA标记

gDNA的荧光标记在基于BioPrime^DNA Labeling System (Invitrogen，Carlsbad，CA，USA；Cat.No.：18094-011)的25μl反应中在0.5-2μg分离的金黄色葡萄球菌gDNA上在37℃进行1.5小时。反应含有(终浓度)：1×RandomPrimer溶液(50mM Tris-HCl PH6.8，5mM MgCl2，30μg/ml随机八聚物，Bioprime^)，1×lowT dNTP-混和物(0.25mM dATP，0.25mM dGTP，0.25mM dCTP，0.1mM dTTP)，0.06mM Cy-dUTP(Cy＝Cy5或Cy3，1μl1mM原液，Amersham Biosciences)和20单位DNA-聚合酶(Klenow片段；0.5μl 40U/μl原液，Bioprime^)。反应后，通过在Autoseq G50柱(AmershamBiosciences)上纯化除去盐、未掺入的(标记的)核苷酸和引物。纯化后，1/10部分的标记材料用于分光光度分析以确定DNA(A^260nm)和Cy5(A^649nm)或Cy5(A^550nm)的量。剩余的标记材料用于阵列杂交。

阵列的(预)杂交

在杂交准备中，将玻片置于Petri皿中的20ml预杂交溶液(1％BSA，，5×SSC，0.1％SDS，经0.45μm滤器过滤，42℃)中并在42℃轻摇(温和旋转)45分钟。接着玻片在40ml水中洗2次(在40ml加盖试管中)并用N₂枪迅速干燥。

用Cy5-dUTP和Cy3-dUTP标记的合适的gDNA样品与4μl酵母tRNA(25μg/μl)组合，干燥(用SpeedVac，TeleChem International，Inc.)，重溶于40μl EasyHyb溶液(Roche Applied Science，Roche DiagnosticsNederland B.V.，Almere，The Netherlands)，变性(1.5min，95℃)，短暂旋转沉淀(1sec，10krpm)，置于预保温(42℃金属板)的干的预杂交阵列上，用塑料纸覆盖(Hybrislip，Molecular Probes)，插入到水蒸气饱和的预加热的(42℃)杂交室(Coming Life Sciences B.V.，Schiphol-Rijk，The Netherlands)中并在42℃水浴中杂交过夜。对于每一杂交，来自测试菌株的gDNA用Cy5-dUTP标记，而参考库(来自用于阵列构建的菌株的gDNA混和物)用Cy3-dUTP标记。杂交后，通过在加盖的40ml试管中的40ml(不同)缓冲液中摇动玻片4次而洗涤阵列(洗涤缓冲液1：1×SSC，0.2％SDS，37℃，5-10sec；洗涤缓冲液2：0.5×SSC，37℃，5-10sec；洗涤缓冲液3和4：0.2×SSC，20℃，各10min)。

扫描和图像分析

洗涤后，玻片储存在黑暗中(以防止Cy荧光衰减)或直接用于用扫描装置(来自PerkinEhmer(PerkinElmer，Wellesley，MA，USA)的ScanArray4000，带有ScanAlyse软件(Michael Eisen′s实验室，University of Californiaat Berkeley(UCB)，由Packard Bioscience，PerkinElmer Life And AnalyticalSciences，Inc.，Boston，MA，USA发布))扫描荧光Cy染料。进行快速扫描(分辨率30μm/像素)以选择最佳激光(强度)和检测(光电倍增管)设置以防止低信号或饱和信号的过量。玻片被扫描两次：针对Cy5和Cy3荧光。用ImaGene软件(version4.2，BioDiscovery，Inc.El Segundo，CA，USA)量化数字扫描图，产生针对阵列上每一点的点身份(spot identity)以及针对Cy5和Cy3的信号(S)和背景(B)值。数据储存在电子文件中并用于进一步数据加工。

数据预加工

通过使用空白表格软件(Excel，Microsoft)对于每一点进行下列运算：Cy3和Cy5的S-B值、Cy5/Cy3比率[R＝Cy5(S-B)]/[(Cy3(S-B)]。去除低质量数据(例如具有S＜2B的Cy3数据的点)。然后，对于每一玻片，基于玻片上的所有点的平均Cy5-和Cy3-信号计算归一化因数N(N＝[平均Cy5(S-B)]/[平均Cy3(S-B)]。接着，对于在所有阵列上的每一点计算归一化比率(R_n)(R_n＝R/N)。许多玻片(与金黄色葡萄球菌菌株相关的玻片)的每一点的归一化比率的矩阵(＝数据集)被用于进一步数据预加工。

由于Cy3信号通常存在于大多数点(8个菌株的Cy3标记的参考gDNA库与所有玻片杂交)，并且Cy5信号可以变化(不同菌株的Cy5标记的gDNA各自与单个玻片杂交)，所以如果一个gDNA片段分别存在或不存在于Cy5测试的菌株中，则Cy5/Cy3比率在理论上可以有两个值。但是在实践中，这些值围绕1和0变化。因此，在许多分析中在进一步分析之前对比率数据集施加0和1的截断值(例如R_n＜0.5和R_n＞0.5分别由0和1代替，或者R_n＜0.3和R_n＞0.7分别由0和1代替，同时保持R_n值在0.3和0.5之间)。这些“截断值数据集”用于最终数据分析。

PCA数据分析

数据集用主成分分析(PCA)进行分析，其中使用平均中心化(Mean-Centering)作为选择的测量方法。可以不用测量方法或用可替换的测量方法(例如自测量(autoscaling))或可替换的多变量统计学方法获得相似的结果。

结果

一组31种金黄色葡萄球菌菌株被加工以用于已建立的RiboPrint^TM分类方法(图1)和基于来自在全基因组微阵列上的差异杂交的数据的PCA分析的本发明的分类方法(图2)。图1和图2的对比显示本发明的方法(图2)产生与现有技术方法(即图1的RiboPrint^TM分类方法)显著不同的菌株群集。由于所述阵列/PCA方法基于全基因组差异杂交，因此对于对紧密相关的生物体进行分类来说，其比仅基于特异DNA序列(例如核糖体DNA序列多态性，图1)或仅基于有限的表型信息(例如生长条件、细菌菌株等等)的传统分类方法具有更大的潜力。

实施例2

通过全基因组阵列差异杂交数据的有监督的PLS-DA分析，基于金黄色葡萄球菌菌株对特异抗生素的抗性进行群集

具有已知的对2种不同抗生素的抗性/敏感性的一组31种不同金黄色葡萄球菌菌株的荧光标记的基因组DNA(gDNA)分别与用随机选择的8种不同金黄色葡萄球菌菌株的混和物的基因组DNA片段包被的阵列杂交(约2100个片段/阵列，约1500bp/片段)。对荧光杂交模式进行定量产生对于每种测试菌株的每个基因组DNA片段的杂交信号列表。为了更特异，将每个阵列同时与2种标记的gDNA杂交：一种涉及进行调查的特异金黄色葡萄球菌菌株(用Cy5标记)，另一种涉及用于阵列构建的8种金黄色葡萄球菌菌株的标准混和物，用作参考物以使在所有独立的玻片上进行的杂交归一化(用Cy3标记)。

接下来的数据分析包括数据的过滤、归一化和截断处理，然后基于所述菌株已知的对2种抗生素的抗性/敏感性进行偏最小二乘法判别分析(Partial Least Square-Discriminant Analysis，PLS-DA)(每个分析使用一种抗生素)。同一数据集的2个独立的PLS-DA分析(仅在分析的菌株数量上有微小差别：只选择其抗性谱是清楚的的菌株进行进一步分析)导致所述金黄色葡萄球菌菌株组内部基于其对所述2种抗生素的每一种的已知敏感性/抗性的2个显著的分离群。对于每一种抗生素，所述敏感的和抗性集群基于其已知的抗生素抗性/敏感性而包含不同的菌株亚集合。这表示对于每一种抗生素，总的差异杂交数据集的不同部分包含抗生素抗性的特异信息。

不同细菌菌株的组

一组31种金黄色葡萄球菌菌株用于实施例2(图3)。该组由30种医院分离株和1种来自典型菌株保藏机构(图3，菌株TTC.03.151)的参考菌株组成。对于几乎所有菌株，其对于2种不同抗生素(庆大霉素和苯唑西林)的抗生素抗性/敏感性通过琼脂扩散测试(根据NCCLS方案)确定。所有实验程序如实施例1中所描述的进行。

PLS-DA数据分析

数据集用偏最小二乘法判别分析(PLS-DA)基于菌株对单一抗生素的已知敏感性/抗性进行分析。可以不用测量方法或用可替换的测量方法(例如自测量(autoscaling))或可替换的多变量统计学方法获得相似的结果。

结果

一组31种金黄色葡萄球菌分离株被加工以用于来自在全基因组微阵列上的差异杂交的数据的PLS-DA分析(图4)。

同一数据集的2个独立的PLS-DA分析(仅在分析的菌株数量上有微小差别)导致所述金黄色葡萄球菌菌株组内部基于其对所述2种抗生素的每一种的已知敏感性/抗性的2个显著的分离群。对于每一种抗生素，所述敏感的和抗性集群基于其已知的抗生素抗性/敏感性而包含不同的菌株亚集合。这表示对于每一种抗生素，总的差异杂交数据集的不同部分包含抗生素抗性的特异信息。抗生素特异性全基因组杂交数据可用于对未知金黄色葡萄球菌菌株的抗生素抗性/敏感性进行预期。

实施例3

通过全基因组阵列差异杂交数据的有监督的PLS-DA分析，基于流行性和非流行性金黄色葡萄球菌菌株之间的区别进行群集

不同细菌菌株的组

一组19种多抗性金黄色葡萄球菌菌株用于实施例3(图5)。该组由19种医院分离株组成。对于所有菌株从日常医院实践中获得其流行性特征(图5)。所有用于产生这些菌株的微阵列结果的实验程序均参照实施例1的描述。

结果

一组19种不同的金黄色葡萄球菌分离株被加工以用于来自在全基因组微阵列上的差异杂交的数据的PLS-DA分析(图6)。

所述PLS-DA分析根据其已知的流行性特征产生金黄色葡萄球菌菌株的显著群集(图6，E＝流行性，N＝非流行性)。

这表明总差异杂交数据集的一部分含有可用于预测未知金黄色葡萄球菌菌株的流行性的预测性信息。

实施例4

通过全基因组阵列差异杂交数据的有监督的PLS-DA分析，基于侵染性和非侵染性金黄色葡萄球菌菌株之间的区别进行群集

不同细菌菌株的组

一组27种分离自医院的金黄色葡萄球菌菌株用于实施例4(图7)。对于所有菌株从日常医院实践中获得其侵染性特征(invasive character)(图7)。所有用于产生这些菌株的微阵列结果的实验程序均参照实施例1的描述，除了：使用ImaGene version 5.6分析扫描的图像并根据Kim et al.(Genome Biology 3：research0065.1-research0065.17，Epub，Oct 29，2002)进行数据预处理。使用他们的EPP方法确定0％和100％EPP值(预期存在概率)，数据点分为3组：低于0％EPP的数据赋值为-0.5，高于100％EPP的数据赋值为0.5，介于0％和100％EPP之间的数据在-0.5和0.5之间被线性按比例测量。对于每一个独立数据集(阵列)进行这种预处理。转化的数据用于进一步分析。

结果

一组27种不同的金黄色葡萄球菌分离株被加工以用于来自在全基因组微阵列上的差异杂交的数据的PLS-DA分析(图8)。

所述PLS-DA分析根据其已知的侵染性特征产生金黄色葡萄球菌菌株的显著群集(图8，I＝侵染性，NI＝非侵染性)。

这表明总差异杂交数据集的一部分含有可用于预测未知金黄色葡萄球菌菌株的侵染潜力的预测性信息。

实施例5

通过全基因组阵列差异杂交数据的有监督的PLS-DA分析，基于感染性和非感染性阴沟肠杆菌菌株之间的区别进行群集

实验的详细情况

所有用于产生这些菌株的微阵列结果的实验程序均参照实施例1的描述，除了：使用图9所示的8种阴沟肠杆菌菌株进行阵列构建，并且在所述阵列上设置3000个点。使用ImaGene version 5.6分析扫描的图像并根据Kim et al.(Genome Biology 3：research0065.1-research0065.17，Epub，Oct 29，2002)进行数据预处理。使用他们的EPP方法确定0％和100％EPP值(预期存在概率)，数据点分为3组：低于0％EPP的数据赋值为-0.5，高于100％EPP的数据赋值为0.5，介于0％和100％EPP之间的数据在-0.5和0.5之间被线性按比例测量。对于每一个独立数据集(阵列)进行这种预处理。转化的数据用于进一步分析。

不同细菌菌株的组

一组18种分离自医院的阴沟肠杆菌菌株用于实施例5(图9)。对于所有菌株从日常医院实践中获得其侵染性特征(图9)。

结果

一组18种不同的阴沟肠杆菌分离株被加工以用于来自在全基因组微阵列上的差异杂交的数据的PLS-DA分析(图10)。

所述PLS-DA分析根据其已知的感染性特征产生阴沟肠杆菌菌株的显著群集(图10，I＝感染性，NI＝非感染性)。

这表明总差异杂交数据集的一部分含有可用于预测未知阴沟肠杆菌菌株的感染潜力的预测性信息。

实施例6

通过全基因组阵列差异杂交数据的有监督的PLS-DA分析，基于源自环境的和源自患者的嗜肺军团菌菌株之间的区别进行群集

实验的详细情况

所有用于产生这些菌株的微阵列结果的实验程序均参照实施例1的描述，除了：使用图11所示的8种嗜肺军团菌菌株进行阵列构建，并且在所述阵列上设置4000个点。使用ImaGene version 5.6分析扫描的图像并根据Kim et al.(Genome Biology 3：research0065.1-research0065.17，Epub，Oct 29，2002)进行数据预处理。使用他们的EPP方法确定0％和100％EPP值(预期存在概率)，数据点分为3组：低于0％EPP的数据赋值为-0.5，高于100％EPP的数据赋值为0.5，介于0％和100％EPP之间的数据在-0.5和0.5之间被线性按比例测量。对于每一个独立数据集(阵列)进行这种预处理。转化的数据用于进一步分析。

不同细菌菌株的组

一组30种分离自患者和环境(主要是水源)的嗜肺军团菌菌株用于实施例6(图11)。对于所有患者菌株从日常医院实践中获得其病原性特征(图11)。

结果

一组30种不同的嗜肺军团菌分离株被加工以用于来自在全基因组微阵列上的差异杂交的数据的PLS-DA分析(图12)。

所述PLS-DA分析根据其已知的病原性特征产生嗜肺军团菌菌株的显著群集(图12，pat＝源自患者，omg＝源自环境)。

这表明总差异杂交数据集的一部分含有可用于预测未知嗜肺军团菌菌株的病原性潜力的预测性信息。

Claims

1.一种制备用于样品核酸的参考杂交模式集群的方法，包括：

-通过无监督的多变量分析群集所述参考杂交模式。

2.权利要求1的方法，其中所述阵列由基因组DNA片段组成，优选地由随机选自来自所述至少两个不同来源的基因组DNA片段的混和物的基因组DNA片段组成。

3.权利要求1或2的方法，其中所述多个阵列核酸分子的所述至少两个来源的至少一个也是所述至少两种不同的参考核酸的至少一种的来源。

4.前述任一权利要求的方法，其中所述阵列中分子的平均大小在大约200至5000个核苷酸之间。

5.前述任一权利要求的方法，其中所述阵列包括随机选自所述至少两个不同来源的大约1500至5000个核酸分子。

6.前述任一权利要求的方法，其中所述多个阵列核酸分子衍生自天然来源，更优选来源于病毒、微生物、动物或植物，更优选来源于原核生物。

7.前述任一权利要求的方法，其中用于所述多个阵列核酸分子的至少两个不同来源是(在分类学上)密切相关的。

8.前述任一权利要求的方法，其中所述多个阵列核酸分子衍生自原核生物的至少两个不同物种。

9.前述任一权利要求的方法，其中所述多个阵列核酸分子衍生自属于相同的属的至少两个不同的原核菌株。

10.前述任一权利要求的方法，其中所述多个阵列核酸分子衍生自属于相同物种的至少两个不同的原核菌株。

11.前述任一权利要求的方法，其中所述多个阵列核酸分子衍生自一种原核生物的纯培养物。

12.前述任一权利要求的方法，其中所述多个阵列核酸分子衍生自真核DNA。

13.前述任一权利要求的方法，其中所述多个阵列核酸分子衍生自至少3个，优选至少5个，更优选至少8个不同来源。

14.前述任一权利要求的方法，进一步包括基于主成分分析(PrincipalComponent Analysis，PCA)对代表模式进行群集。

15.一种对样品核酸进行分型的方法，包括：

-通过使用权利要求1-14任一项的方法提供样品核酸的至少两种不同的参考杂交模式的集群；

- 将与用来制备所述参考杂交模式的阵列相同的阵列与样品核酸杂交以获得样品杂交模式，以及

-将所述样品杂交模式归于所述参考杂交模式的至少两种不同的集群中的一种。

16.权利要求15的方法，其中所述样品核酸由基因组DNA，优选基因组DNA片段组成。

17.权利要求15或16的方法，其中所述样品核酸中片段的平均大小在大约50至5000个核苷酸之间。

18.权利要求15-17任一项的方法，其中所述方法包括将所述样品杂交模式与包括至少3个、优选至少5个、更优选至少50个不同参考杂交模式的参考杂交模式集群进行对比。

19.权利要求18的方法，其中所述对比包括参考杂交模式与样品杂交模式一起的无监督的多变量分析。

20.权利要求19的方法，进一步包括基于主成分分析(PCA)对代表模式进行群集。

21.权利要求15的方法，其中所述归于包括参考杂交模式与样品杂交模式的偏最小二乘法判别分析(PLS-DA)，其中至少一个其值对于参考杂交模式是已知的(并且其信息被用于监督所述PLS-DA分析)的表型参数被针对样品核酸或其衍生来源而额外确定或估计。

22.权利要求21的方法，进一步包括基于有监督的PLS-DA分析对代表模式进行群集。

23.权利要求15-22任一项的方法，其中所述集群代表共享一个针对一种感兴趣的表型参数的值的模式。

24.权利要求15-23任一项的方法，其中所述用于多个阵列核酸分子的至少两个不同来源(在分类学上)与样品核酸的来源密切相关。