CN1309722A

CN1309722A - 定量分析基因表达的方法、系统及设备

Info

Publication number: CN1309722A
Application number: CN99808552A
Authority: CN
Inventors: S·舍雷尔
Original assignee: Rosetta Inpharmatics LLC
Current assignee: Rosetta Inpharmatics LLC
Priority date: 1998-05-12
Filing date: 1999-05-11
Publication date: 2001-08-22
Also published as: JP2002514804A; AU750975B2; AU4075199A; IL139567A0; CA2331510A1; KR20010052341A; WO1999058720A1; EP1076722A1

Abstract

本发明提供了用于定量第一和第二基因表达谱相关程度的方法,以及用于对多个基因表达谱与一单个预选基因表达谱相关程度进行排序的方法。本发明表明这些方法可以用于定量施加于细胞上的环境条件的相关程度,例如施加给细胞的药物效果的相关程度。这些方法还可用于定量一预选环境条件与细胞特定遗传突变间的相关程度,以及用于定量多种遗传突变间的相关程度。另外,本发明还提供了用于执行上述方法的系统和设备。本发明进一步还提供了筛选用于基因表达分析的基因信息子集的定量化的方法、系统及设备。

Description

定量分析基因表达的方法、系统及设备

发明领域

本发明涉及适于药物开发的生物信息学方法。更具体地说，本发明涉及定量分析、对比、存储及显示基因表达谱(profile)的方法、系统及设备。本发明进一步还涉及用于从基因中选择可用于表达分析的信息子集的定量方法、系统及设备。

发明背景

在传统的药物开发中，首先选择一个特定的药物目标，例如已知生化途径中的一种酶。接着，必须进行一种或多种特定于所选定目标的体外或体内分析。只有目标选定并且特定试验进行后，才可以对化学化合物进行期望活性的筛选。一旦鉴定出化合物在特定分析中具有针对选定目标的期望活性，那么就可以用这些起初的引导化合物作为结构基准来开发具有更好治疗、

药动及临床性能的衍生物。通常，使用与鉴定前导化合物相同的特定试验来测定上述这些衍生物的生物活性。

上述的传统药物开发中的每一个步骤都可能导致下述缺陷：临床前试验中符合要求的药物在临床试验中却令人失望。

首先，上述药物目标的选择是以对与该药物所针对的疾病或病理过程临床上相关的生物学途径的认识为先决条件的。一旦临床试验开始后，就有可能发现选定的目标从生理学角度看是不合适的。例如，所述目标可能参与大量相关或不相关的生物途径。特定的体外试验无法鉴定出这些候选药物在这些平行或交叉生物途径上的作用。因此，体外能够令人满意地影响所述目标活性的药物当体内使用时可能会带来无法接收的毒性或呈现意料之外的副作用。

其次，体外试验方法本身也可以证明不具有足够的敏感度，或特异性不够强，或者二者兼而有之。使用同一种试验方法来开发前导化合物的衍生物会将这些弊端一并带来。

因此，在制药领域中需要改进药物开发的策略。具体地说就是，需要一种几乎不依赖合适目标初始选择的药物开发方案。另外，还需要这样一种药物开发策略，即在临床前药物开发过程中无需将选择目标从其所在的生物途径中分离出来。进一步还需要这样一种能够鉴定生物途径以及与所感兴趣的病理状态、疾病或病症有关的新目标。

近来在测量基因表达方面的技术进展使得能够对原核或真核细胞中的多个，如果不是全部，基因的表达进行同时测量。这类基因表达谱的制备提供了原料，一种利用这些原料的新型药物开发策略目前已成形。Ashby et al.，美国专利No.5,549,588。

迄今为止，大多数基因表达谱都是通过下述操作来制备：从宿主细胞中分离核酸表达产物，标记该产物(例如，使用荧光或放射性标记物)，让所述的标记后的核酸与包含表面固定有离散序列DNA的单元的空间可寻址基质杂交。参见，例如，Lashkari et al.，美国国家科学院院报，94,pp.13057-62(1997)；DeRisi et al.,Science,278,pp.680-86(1997)；Wodicka et al.,NatureBiotechnology,15,pp.1359-67(1997)；以及Pietu et al.,Genome Research,6,pp 492-503(1996)。

选择所述基质中的单元来展现可被宿主表达的基因的全貌，上述的固定DNA基质就是从该宿主中制备而来的。与基质中各种DNA单元的特异性杂交通过，例如，扫描仪、扫描共焦荧光显微镜或磷光成像仪(phosphorimager)记录下来，这些特异性杂交代表着各个基因的表达。各个基因的身份用基质中单元的空间位置来编码。获取这些数据、将其数字化并电子化存储。总之，这些数据代表了选定细胞培养物表达的基因的子集。

Ashby et al.，美国专利No.5,549,588(在此引入作为参考)中公开了一种制备基因表达谱的替代方法。Ashby公开了一种“基因组报道基质”，其中所述的可空间寻址基质的每个单元都由一个或多个同样的细胞(或细胞克隆)组成，而并非特异性的核酸序列。每个基质位置上的细胞都包含有一种重组构建体，该构建体能够指导来自一独特转录调控单元的共同报道基因的表达。这些转录调控单元可以出自任一数目的潜在的原核或真核有机体。将足够数目的基质单元，以及随之而来的转录调控单元纳入其中，为所选有机体的基因表达所有组成成分提供一具有代表意义的样本。

为了测量基因表达，Ashby et al通过用适于报道物或为报道者专门设计的检测仪器扫描来直接阅读所述基质。在一个实施方案中，所述报道物编码一种能产生一种荧光信号的蛋白质，例如绿色荧光蛋白，因而可用一荧光探测器来扫描；另一个实施方案中，所述报道物编码能产生光度学可检测的信号的酶，因而可用光度计来扫描。扫描仪记录的信号表明了被各个转录调控单元任意任意控制的表达，这些单元的身份用基质中单元的空间位置来编码。

上述所有用于制备基因表达谱的技术平台，在本发明中一并称为“表达基质”，这些技术平台能够提供与特定条件下细胞中基因并行表达有关的大量信息。从其总体而言，这样的基因表达谱能够捕获到在一套选定环境条件下细胞的全部基因表达状态。

本领域已经重视了这类基因表达谱的定性比较，例如鉴定出了在不同条件下表现出不同表达水平的基因子集。替代地，本领域也已重视了不能用于大型、多维数据集的定量比较的数据处理。参见，例如，Ashby et al.(见上述)；Lashkari et al.(见上述)；De-isi etal.(supr,a)；～ine et al.,WO 98/06874；以及Seilhamer et al.,WO 95/20681(所有文献在此引入作为参考)

上述这些定性分析方法无一能实现完整基因表达谱相关程度的可重复计算。因此，制备可定量的基因表达谱对于不同环境条件下(例如，用不同的化合物处理)选定细胞中基因表达相关程度的定量比较具有重要的意义。

因此，需要一种能够将第一和第二基因表达谱的相关程度定量的方法。进一步还需要一种方法能够将多个基因表达谱按照与单个预先选定的基因表达谱的相关程度排序。另外还需要能够存储数据集(即来自在先试验的基因表达谱数据)的方法和设备，这些数据集用于新的相关程度比较中的查询和分析。

尽管近来在测量基因表达方面的技术进展使得能够对原核或真核细胞中的多个，如果不是全部，基因的表达进行同时测量，但是技术方面的原因往往使得并非所有的可表达的基因都能被分析。例如，药物候选物样本供应量受到限制，具体地说当用合成化学方法小量制备时；可能单单由于药物量太少而无法测试其对给定类型细胞中所有可能基因的影响。还可能，或替代地，由于经费原因而无法对每个候选药物对细胞中每个可表达基因进行一一配对性的测试。

当待测基因组复杂时，这些问题就会一并出现。因此，为了测试一种药物或其他环境因素对酵母细胞中，例如酿酒酵母(酿酒酵母)，每个可表达基因的作用，将需要测量约6000个基因的表达；为了对线虫，例如C.elegans的基因表达进行类似分析，则需要对近20,000个基因的表达进行测量；为了测试一种药物或其他环境因素对人细胞中每个可表达基因的作用，需要测量约100,000个基因的表达。

另外，并非所有基因都具有同等的信息意义。一些基因无论环境条件如何其表达的动力学范围都不足以提供重要的信息。其他基因可能在表达上协同变化，从而提供了冗余的信息。

一种从基因中选择信息子集用于表达分析的方法是通过已知或假定的功能单个地选择基因。因此，Farr等人的美国专利No.5811231和欧洲专利EP0680517B1中公开了，以及其他文献中(inter alia)，选择“应力基因(stress gene)”对对于细胞具有毒性作用的化合物进行鉴定和定性。

但是，这样的方法需要提前了解该基因的功能。而且，这种定向选择带来的误差可能会减小鉴定预先未知相关程度的可能性；在用于鉴定这类未知相关程度的方法中，例如本发明提供的方法中，这种定向预选可能特别令人失望。

另一种方法是完全随机地选择子集，以期让所选子集能够代表整个基因组。显然，随之而来的弊端是所选子集可能实际上对于描述一种或多种环境条件下的细胞状态毫无意义。

还有另一种方法是，选择并非通过共有功能鉴定的基因，而是这些基因对一种预选的环境条件具有同样的反应性。Whitney et al.,Nat.Biotechnol.,16:1329-33(1998)。如果在上述完全定向方法和完全随机方法之间权衡的话，后一种方法一定程度上同时具有二者的弊端。

因此，本领域需要一种能够选择出可用于基因分析的信息子集的方法。

发明概述

本发明克服了本领域现有的用于定量分析基因表达谱的方法、系统及设备中的上述这些以及其他弊端。本发明的实验实施例表明，这类分析可以对各种不同药物治疗的相关程度进行定量和排序，从而鉴定出与参照药物作用于同种分子目标上的化学药物；从而鉴定出作用于参照药物所作用的同一生理途径其他位置的化学药物；从而阐明参照药物的作用机制；以及阐明所述化学药物与参照药物相比的作用机制一所有这些都无需预先鉴定参照药物的分子目标或者设计专门的试验方法。所述的分析方法同样地可用于比较其他的细胞表型，其中包括由其他环境条件以及由基因型微扰导致的细胞表型，包括突变。

第一个方面，本发明提供了一种对第一和第二基因表达谱之间相关程度进行定量的方法。所述的第一种方法包括下述步骤：(a)为第一和第二基因表达谱中共有的每个基因分别建立一个第一和第二基因表达信号；(b)为每对第一和第二基因表达谱用公式表示出一个相对的表达数值；以及然后(c)从这些对偶设立的相对表达数值中计算出一个复合分值(composite score)，该复合分值可定量所述两基因表达谱的相关程度。

另一方面，本发明提供了第二种定量第一和第二基因表达谱的方法。所述第二种方法特别适用于比较温和条件下获得的基因表达谱。所述的第二种方法包括下述步骤：(a)为第一和第二基因表达谱中共有的每个基因分别建立一个第一和第二基因表达信号；以及然后(b)对共有基因的对偶的第一和第二基因表达信号进行线性分析；其中所述的这种回归的相关系数可定量这两基因表达谱的相关程度。

第三方面，本发明提供了一种对多个基因表达谱与一单个预选基因表达谱相关程度进行排序的方法，该方法包括下述步骤：(a)对偶地定量上述多个基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及(b)对所述的对偶测量的定量数值进行排序。本发明这一方面的一个实施方案中，对偶定量相关程度是按照本发明中新近描述的两种方法来进行的。

在上述方法的一系列实施方案中，本发明提供了一种定量施加在细胞上的第一和第二环境条件相关程度的方法，该方法包括下述步骤：(a)在所述的每一种第一和第二环境条件下，从细胞或者从基因型相同的细胞中获得一种基因表达谱；以及然后(b)对所述第一和第二基因表达谱进行定量。在一个优选的实施方案中，所述的第一和第二环境条件中的每一种都包括暴露于一化合物，例如药用试剂。

本发明进一步还提供了对作用于一细胞的多种环境条件与单个预选环境条件相关程度排序的方法，所述方法包括下述步骤：(a)从该细胞或者从基因型相同的细胞中获得针对于所述多种环境条件中每一种和预选环境条件的基因表达谱；(b)对偶地定量上述多个基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及然后(c)对所述的对偶测量的定量数值进行排序。优选实施方案中，所述环境条件包括暴露于一化合物。

在另一套实施方案中，本发明提供了对一预选环境条件与细胞的一种特定遗传突变间相关程度定量的方法，该方法包括下述步骤：(a)在预选的环境条件下，从具有所述特定突变的细胞中获得第一基因表达谱以及从一野生型细胞中获得第二基因表达谱；以及然后(b)对所述第一和第二基因表达谱的相关程度定量。

本发明进一步还提供对多元化环境条件中每一种与细胞的某一特定遗传突变间相关程度进行排序的方法，该方法包括下述步骤：(a)在上述的多每一种环境条件下从野生型细胞中获得第一基因表达谱，以及从具有特定突变的细胞中获得第二基因表达谱；(b)对偶地定量每个上述第一基因表达谱与所述第二基因表达谱间的相关程度；以及然后(c)将所述的对偶测量的定量数值进行排序。优选实施方案中，所述环境条件包括暴露于一化合物，以及所述的对偶定量是按照本发明中新近描述的两种方法来进行的。

在另外的一系列实施方案中，本发明提供了对一细胞的第一遗传突变与一细胞的第二遗传突变间相关程度进行定量的方法，该方法包括下述步骤：(a)从具有所述第一种遗传突变的细胞中获得第一基因表达谱，以及从具有所述第二种遗传突变的细胞中获得第二基因表达谱；以及(b)对所述第一和第二基因表达谱的相关程度定量。本发明进一步还提供了对多种遗传突变中每个与一细胞的预选遗传突变间的相关程度进行排序的方法：(a)从具有所述多种遗传突变其中之一的细胞中获得一套第一基因表达谱，以及从具有所述第二种遗传突变的细胞中获得第二基因表达谱；以及(b)对所述每个第一基因表达谱与第二基因表达谱的相关程度进行定量以及；(c)将所述的对偶测量的定量数值排序。优选实施方案中，所述环境条件包括将细胞暴露于一化合物，所述细胞为酵母细胞，优选为酿酒酵母，所述的基因表达谱取自基因组报道基质。但是，上述可以扩大范围应用到任一环境条件，原核及真核细胞，包括人细胞，以及应用于从其他类型表达基质中获得的基因表达谱。

另一方面，本发明提供了用于实施上述定量方法的系统，包括电脑系统。

因此，在这样一个方面，本发明提供了一种对第一和第二基因表达谱之间相关程度进行定量的系统，该系统包括：(a)用来为第一和第二基因表达谱中共有的每个基因分别建立第一和第二基因表达信号的仪器；(b)用来为每对第一和第二基因表达谱用公式表示出一个相对的表达数值所使用的仪器；以及(c)用来从对偶设立的相对表达数值中计算出一个复合分值所使用的仪器，该复合分值可定量所述两基因表达谱的相关程度。

在一相关方面，本发明提供了一种用于定量第一和第二基因表达谱相关程度的系统，其中包括：(a)为第一和第二基因表达谱中共有的每个基因分别建立一个第一和第二基因表达信号所使用的仪器；(b)对共有基因的对偶的第一和第二基因表达信号进行线性分析所使用的仪器；其中所述的这种回归分析的相关系数可定量这两基因表达谱的相关程度。

在另外的一相关方面，本发明提供了一种用来将多个基因表达谱与一单个预选基因表达谱间的相关程度排序使用的系统，其中包括(a)对上述多种基因表达谱中每一个与所述预选基因表达谱间的相关程度进行对偶定量所使用的仪器；以及(b)将所述的对偶测量的定量数值排序所使用的仪器。

本发明还提供了用于定量第一和第二基因表达谱间相关程度的电脑系统，其中包括一处理器，例如数字化微处理器，该处理器用来执行下述程序：(a)为第一和第二基因表达谱中共有的每个基因分另建立一个第一和第二基因表达信号；(b)为每对第一和第二基因表达谱用公式表示出一个相对的表达数值；以及然后(c)从这些对偶设立的相对表达数值中计算出一个复合分值(composite score)，该复合分值可定量所述两基因表达谱的相关程度。

类似地，本发明提供了用于定量第一和第二基因表达谱间相关程度的电脑系统，其中包括一处理器，例如数字化微处理器，该处理器用来执行下述程序：(a)为第一和第二基因表达谱中共有的每个基因分别建立一个第一和第二基因表达信号；以及然后(b)对共有基因的对偶的第一和第二基因表达信号进行线性分析；其中所述回归分析的相关系数可定量这两基因表达谱的相关程度。

另外，本发明还提供了一种用于将对多个基因表达谱与一单个预选基因表达谱间相关程度进行排序的电脑系统，其中包括一处理器，例如数字化微处理器，该处理器用来执行下述程序：(a)对偶地定量上述多个基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及(b)将所述对偶测量的定量数值排序。本发明还提供了其中包含一可程序化的数字化电脑的设备，带有输入及显示仪器，能够执行上述的输入表达数据然后在相连显示仪器上报道定量化结果的电脑化方法。

在另外一个方面，本发明还提供了存储有指令的电脑可读介质，当通过电脑执行时，该指令可以使得该电脑执行本发明所述的每一种新方法，其中包括用于对第一和第二基因表达谱之间相关程度进行定量的方法，用于将多个基因表达谱与一单个预选基因表达谱间的相关程度排序的方法。

在另外的一个方面，本发明提供了电脑可读存储介质，其中包含适合本发明所述方法使用的数据结构(data structures)。在这样的一个方面，本发明提供了一种电脑可读存储介质，其中包括能使将第一和第二基因表达谱定量联系的存储数据成形的数据结构，该数据结构包括一针对每一表达谱的标识符(identifier)和一个标量(scalar)，该标量可将第一和第二基因表达谱定量地联系起来。本发明进一步还提供了一种包括数据结构的电脑可读存储介质，该数据结构能使将多个基因表达谱与一单个预选基因表达谱间相关程度排序的存储数据成形，其中包括：(a)顺序排列的一系列标量，每个标量对偶地定量了上述多个基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及(b)将每个标量与其各自所对应的基因表达谱联系起来的标识符。

尽管近来在测量基因表达方面的技术进展使得能够对原核或真核细胞中的多个，如果不是全部，基因的表达进行同时测量，但是技术方面的原因往往使得并非所有的基因都能被分析。例如，药物候选物样本供应量受到限制，具体地说当用合成化学方法小量制备时；可能单单由于药物量太少而无法测试其对给定类型细胞中所有可能基因的影响。还可能，或替代地，由于经费原因而无法对每个候选药物对细胞中每个可表达基因进行一一配对性的测试。

因此，另一方面，本发明提供了选择用于表达分析的基因信息子集的方法。本发明提供了细胞表型的方法，其中包括选择仅仅20％的细胞可表达基因用于表达分析，其中所述基因的并行表达可以充分定义细胞表型，从而将该细胞表型与另一细胞的表型定量联系起来，这些方法中，优选地选择仅仅约20％的细胞潜在可表达基因，更优选仅仅约15％的细胞潜在可表达基因，甚至更优选仅仅约10％的细胞潜在可表达基因，最佳为仅仅约5％的细胞潜在可表达基因，以及在最优选实施方案中，约1％～5％，甚至1％～2％的细胞潜在可表达基因。本发明还提供了执行这些选择的算法，以及电脑、网络和执行所述方法的其他设备。

在一个实施方案中，本发明这一方面的方法包括从其表达相互关联的每组基因中选择出具有最大表达限度的基因。在优选实施方案中，所述选择是从多个基因表达谱中共有的成套基因中完成的，所述的每一限度以及每一相互关联都是从多种基因表达谱中的表达数据计算而来的。

在相关的一个方面，本发明提供了用来选择用于表达分析的基因信息子集的系统，其中包括：用于从表达相互关联的每组基因中选择出具有最大表达限度的基因的仪器。在优选实施方案中，所述选择是从多个基因表达谱中共有的成套基因中完成的，所述的每一限度以及每一相互关联都是从多种基因表达谱中的表达数据计算而来的。

本发明还提供了用来选择用于表达分析的基因子集的电脑系统，其中包括一个处理器，例如数字化微处理器，该处理器用来执行下述操作：从表达相互关联的每组基因中选择出具有最大表达限度的基因；一个存储有指令的电脑可读存储介质，当通过电脑执行时，该指令可以使得该电脑执行选择用于表达分析的基因子集的方法，所述方法包括从表达相互关联的每组基因中选择出具有最大表达限度的基因；以及一种包含一数据结构的电脑可读存储介质，该所述结构能使代表用于表达分析的基因信息子集成形，所述数据结构包括一套基因标识符，任选地包括一种基因功能的描述。

附图简述

结合附图阅读对本发明的详细描述考虑时，本发明的上述及其他目的和优点将显而易见。

图1是一个描述过程的流程图。其中，适于定量分析基因表达谱的基因表达信号，来源于从基因表达体系获得的初始信号。图1A表示初始信号的加工，而图1B则描述了按照与环境匹配的对照进行任选的后续校正；

图2为按照图1处理后的基因表达信号的散点，这些信号来源于用两种已知在结构和功能上密切相关的化疗药物其中之一单独处理后的基因组报道介质：50μg/ml柔红霉素和0.08μg/ml阿霉素(参见实施例2)

图3图示出的是基因表达信号，这些信号来源于用两种具有全异结构和全异功能药物其中之一单独处理后的基因组报道介质：50μg/ml阿霉素和0.08μg/ml双氯苯咪唑；

图4图示出的是基因表达信号，这些信号来源于用两种结构全异但功能类似药物其中之一单独处理后的基因组报道介质：9μg/ml霉酚酸和50μg/ml柔红霉素；

图5给出的流程图描述了将用图1概括的方法制备的单个基因表达信号集减小到可用来对基因表达谱定量排序的数目的第一过程。

图6给出的流程图描述了将用图1概括的方法制备的单个基因表达信号集减小到可用来对基因表达谱定量排序的数目的第一过程。

图7为按照图1处理后的基因表达信号的分散图，这些信号来源于包含1532个独立基因表达报道物的基因组报道介质，每一介质单独用两种已知在结构和功能上密切相关的化疗药物其中之一单独处理：10μg/ml洛伐他汀(X轴)和20μg/ml(Y轴)；米法斯丁

图8绘出的是来自图7中1532个基因表达信号的96基因子集的基因表达信号的分散图，所述子集是根据图9和10中图示出的算法筛选而来的；

图9是概括算法两主要步骤中第一步的流程图，该算法可以用来筛选用于基因表达谱数据定量分析的基因信息子集；以及

图10概括的是算法的两主要步骤中第二步的两个完整重复过程，该算法可以用来筛选用于基因表达谱数据定量分析的信息子集。

发明详述

为了对本发明进行全面地理解，下面提出一些详细的说明，在说明中使用了如下的词汇：

在此，“基因表达模型”一词是指用来获取一组复合基因共表达情况的数据的一个设计。正如Lashkari等(1997年)在《美国国家科学院院报》第94卷13057-13062页；DeRisi等(1997)在《科学》第278卷680-686页；Wodicka等(1997)在《自然生物工程》第15卷1359-1367页；Pietu等在《基因组研究》第6卷492-503页；Ashby等在美国专利号第5,549,588中的描述一样。而“基因组报告体系”则特指Ashby等发明的基因表达体系。

“基因表达谱”一词指一组数据，不管该数据是如何得到的，也不论他们是以电子媒体或其他方式永久或临时地存储，其每一个数据都代表细胞中一个清析和可识别的开放阅读框共表达的测定结果，典型地是指那些从“基因表达谱”中获得的数据。

第一方面，本发明提供了一种对第一和第二基因表达谱之间相关程度进行定量的方法，该方法包括下述步骤：

(a)为所述第一和第二基因表达谱中共有的每个基因建立一个第一和第二基因表达信号；

(b)为每对第一和第二基因表达谱用公式表示出一个相对的表达数值；以及

(c)从所述对偶的相对表达数值中计算出一个复合分值，其中所述的复合分值可定量所述两基因表达谱的相关程度。本发明还提供了一种对第一和第二基因表达谱之间相关程度进行定量的第二种方法，该方法包括下述步骤：(a)为第一和第二基因表达谱中共有的每个基因分别建立一个第一和第二基因表达信号；以及然后对共有基因的对偶的第一和第二基因表达信号进行线性分析；其中所述的这种回归的相关系数可定量这两基因表达谱的相关程度。

本发明提供了一种对多个基因表达谱与一单个预选基因表达谱相关程度进行排序的方法，该方法包括下述步骤：(a)对偶地定量上述多个基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及(b)对所述的对偶测量的定量数值进行排序。本发明这一方面的一个优选实施方案中，对偶定量相关程度是按照本发明中新近描述的两种方法来进行的。

每种方法可以通过参考图表来更深入地理解，下面将做进一步详细的描述。

从初始表达数据获得单个基因的表达信号

图1是一个描述过程的流程图。其中，适于定量分析基因表达谱的基因表达信号，来源于从基因表达体系获得的初始信号。图1A表示初始信号的加工，而图1B则描述了按照与环境匹配的对照进行任选的后续校正。

获得初始数据的步骤，位于116框中，可以按图中所示连续进行，也可以同时进行。数字化的101可以根据信号获得的设备本身进行，也可以用单独的类似数字的转换设备；或直接以数字形式获得的表达数据而回避这一步。

以后的每一步数据操作(包括图1A、1B、5和6)均可按程序数字计算机中众所周知的计算机技术来完成，某些步骤可以按类似线路图的另一种方式来进行。这些步骤可以在单一或系列计算设备中完成，而且只要有临时的步骤程序，就可以其平行地分发到多个计算设备中。如图所示，该过程可以连续执行，但也可以分别执行，例如利用储存于之后进行处理的已知步骤中的各个中间值。关于数字计算机的程序，如图1、5、6、9和10中所示，可以按照比较熟悉的计算机高级语言来编写，包括FORTRAN、BASIC、Paseal、C、C⁺、C⁺⁺、Java^TM、或类似的语言，而且不限于这些语言。图中所示结果和在此列举的例子来自以C语言编程的数字计算机。另一种方法是，图1、5、6、9和10所示步骤可以用汇编语言直接编程。许多步骤也可以用子程序、宏或其他商业提供的统计分析程序完成，如JMP(SAS研究所)或UNISTAT统计包(Unistat有限公司)，或用具有计算功能的程序如Mahtematica^TM(Wolfram研究公司)。编程语言的选择和编撰结果的好坏决定于技术人员的技能。

如图1所示，100是以初始表达信号的一种形式和适于特殊基因表达体系的方式获得的表达数据，例如对于Ashby等的表达体系，可以用激光扫描来获得荧光数据。对于每一个表达体系的物理位点或称表达体系元件，可以分别获得其表达初始信号。这些初始表达信号，代表在某个确定的环境条件下，表达体系中分别被测试的各个基因的表达水平。

从一个或多个基因表达体系的对照位点，可以获得具有代表性的，而且常常是同时产生的初始背景信号。例如，那些测定荧光标记或放射性标记的核酸杂交体系，作为对照，可能包括某个体系中一个或多个位点的测定结果，而该结果或者来自毫无核酸体系；或者来自具有核酸但不与已知的开放阅读框架(ORF)互补的体系；也或者是上述两种情况都有。类似地，在转化细胞中测定重组报告基因的表达体系(见前Ashby等的例子)，作为对照，可能包括某个体系中一个或多个位点的测定结果，而该结果或者来自缺乏报告基因的细胞体系；或者来自具有重组构建体但不能表达报告基因的细胞体系；或者来自具有报告基因构建体，但缺乏必须底物的细胞体系；或者是类似的体系。

尽管在每个体系中可以测定具有代表性的背景对照元件，但是背景的测量可以用不同的物理体系完成，甚至可以参用已储存的、来自相似体系的数值。对照的类型和数量的选择质量取决于熟练技工的能力。

然后将获得的具有代表性的初始表达信号和初始背景信号，如类似代表荧光强度的信号，在101被数字化，并以电子方式分别作为初始信号值和初始背景值储存。任何方便的表格、矩阵、电子制表软件格式都可用于储存这些数据，而这些数据可以总称为一个基因表达的轮廓。这些数据可以作为可变数据，如以任意可以存取的数值来保存，另一种办法就是将数据比较永久性的储存于磁盘、光盘或磁光储存媒体，或其它类似物。

要正确评价的是，表达体系中每个不同元件的初始信号值是单独和用不同的方法来测定，不管测定方法是用对应于多维数据系统中的位置、还是将标题信息附加于数据本身的每个成分，或者是用技术人员所熟悉的其他可用之方法。如，多区域的单一记录可代表一个单一物理体系元件的荧光强度。而一个或多个区域识别信号的物理起源、获得数据的日期和时间、进行实验的标识符、和/或其他类似的东西。

还要正确评价的是，由表达体系的格式强加的物理界限来建立初始表达信号的动态分布情况，特别是用表达报告基因的动态分布和获得数据的设备的敏感程度建立的初始表达信号动态分布图。值得了解的是类似信号可能会作为初始信号值以不同深度的数字化数据出现，如8比特、16比特、32比特等等，数据的深度越大，可能编译的强度差异越好，但是储存数据的要求也越大，因此，数据深度的选择应基于熟练技工完全了解的经验要求。值得了解的还有初始的数字化可以用一个数字深度完成，随后并可用深度较小的数据进行分析。在后一种情形中，可以用一个简单的线性转化方式降低数据的深度。

其中首选浮点计数法。

由于来自许多矩阵位点的初始表达信号可能低(如在于或低于背景的情况下)可选用118来校正背景，但不一定是必须的。进行校正的几个方法是成熟的技术。一种方法是不管输入的原始值，把现测的(或以前测定的)背景值添加到每个初始信号值中。另一种方法是将测得的一半背景值加到每个输入值中。

尽管这些已知的方法或其他适当的方法都可使用，但首选的是下面的方法。将每个初始信号值与初始背景值在102进行比较，假如信号值等于或超过背景值，就无须校正，可变信号就可分配到106的初始信号值中。此外，假如初始信号值小于背景值，就将信号分配到104背景值中。

对背景校正的该首选的方法要比前面的任一个方法更加保守。假如第一个信号值A是零，第二个信号值B等于背景值(BKG)，那么在第一种方法中，可把BKG加到每个信号值中，A值就等于BKG，而B值成为两倍的BKG，因而B人为地成为A值的两倍。在第二种方法中，把一半BKG加入到每个信号值中，A变成BKG的一半，B成为BKG的1.5倍，因而B值人为地成为A值的3倍。在优选的方法中，A单独用BKG校正，B仍为BKG。这样校正之后，B值就不会大于A值。

使用这一保守的途径对背景进行校正，促进了本发明使用尽可能多获得的基因表达信号，来形成一个与定量一个或多个基因表达谱相关的综合评价。

前述的方法已经在一个基因对基因的基础上，用报告基因表达水平的变化，来典型地估算细胞中基因表达的变化情况。甚至当许多这样的基因被同时测定时，就可以作为多维数据报告这些变化。然而，在检查任何一个基因的表达变化时，或者甚至在检查一组单个基因的表达变化时，现用的测定错误会妨碍使用信号变化较小的表达比较。

例如，那些在表达水平中的变化，并未超过选择的多项错误标准，但却常常被当作典型而忽视了。再例如，对不到两倍，五倍甚至十倍的单个基因表达变化的典型地忽视。

可是，本发明认为许多这种被忽略的数据却真正揭示了基因表达的变化，因而能够对基因表达谱的比较提供有用的信息。例如：图2、3和4是散点图，每个斑点报告了在两个已知条件下某个特定基因的相对表达水平。下面对这些图表作进一步描述。为了临时说明，应当注意标在这些图表横轴和竖轴上的刻度是对数，间隔为一个自然对数(e¹、e²、e³等等)。如图所示，大多数数据处于由两个轴上每个方向的第一个刻度所限定的正方形之中。那就是说，所有在这一正方形中的数据将被删去而不用于分析，原因是不到一个自然对数(近2.7倍)的变化，不能从标准测量错误中鉴别而被忽略。而由于小于两个自然对数的变化(e²,7.4倍)的忽略，所有在每个方向的第二个刻度限定的正方形中的数据被删除，而无法用于分析。正如图中所示的那样，大多数有用的数据结果丢掉了。

本发明可以使这些数据使用起来。尽管任何基因在表达时的轻微变化的意义由于标准错误的大小而无法检测，但是变化的总体意义却实际上常常可以测定。以前测定标准错误的方法可作为一种有意义的测量方法，本发明代替了标准错误的测定方法。一般地说，在两个不同环境条件下，正如下面所做的进一步说明，基因表达的总体变化是密切相关的。

那样，通过背景校正步骤可以保持尽可能多的数据，141，优选地如上面提出的一样对背景使用一种保守的校正。

每种模型元件的信号，优选地根据背景进行调整，随后标准化108来控制其它相同实验间的差异，也就是，单个表达模型获得的数据之间或从复制模型获得的数据之间。

在使用基因表达模型可能高度平行地测量基因表达的进展之前，标准表达信号的作用在本领域中很好地认识到。这样，例如，单个基因表达测定，通过Northern杂交分析，通过比较表达那些组成型管家基因而不断地标准化，例如肌动蛋白，在相同的杂交要么并行地要么连续地探测。用这种方式，通过不等的凝胶载样量引入了变异性，mRNA纯化的差异及其它，能够被控制。

以前方法的限制是选择单个基因作为推荐标准可能自己在表达中变化的可能性。这个问题在本发明中通过要求测定细胞基因表达的完整性而完美解决，包括“看家基因”的表达，和通过要求测定在药物存在情况下基因表达，它的作用是不能预计的priori。

许多方法来标准化信号以便控制实验中存在的差异性。一种方法假定全部基因交叉的中间信号是固定的，另一个标准化，信号的平均平方根和另一个信号值的平均对数。近来的方法，标准化平均对数，有效地减弱异常值，它是那些信号更进一步增大从平均信号值的大小。

这里优选的方法是假设交叉的所有基因的平均值为恒定；标准化通过每个信号除以所有信号的总和而实现，如108所示(图1A)。

然而，当细胞表达的基因只有一小部分被估定时的平均基因表达信号应当恒定的假设可能是不正确。这样，当选定一小部分的基因时--为了最初产生的基因表达谱，为了随后的定量分析，或为了最初获得和随后的分析--可以有选择地省略标准化步骤。

因此，标准化步骤108在实例5中报道的定量分析中可以从96个基因的子集的分析里省略；标准化步骤省略的原因是由于恒定平均表达的假设可能证明是不合理的。

至于最后的步骤110为定量基因表达谱分析而准备单个信号值，取每个信号值的对数，也就是，信号指定为信号值的对数。自然对数是优选的，尽管log₁₀也被使用。

使用信号值的对数进行比较分析有3个优点。第一，对数值的转换允许表达水平相等倍数的改变得到公平地分析，无论这样的改变在表达上是否升高或下降。

例如，从1这个起始值增长或下降十倍。下降十倍，即到0.1单位，是绝对值减少了0.9单位。增长10倍，即到10单位，是绝对值增长了9单位，显得在基因表达上变化得比下降10倍减少0.9单位的变化大得多。相反，取它们的log₁₀，分别得到-1,0,+1三个值，增加和减少显示出相同的程度。

用对数值计算的另一个尽管是次要的优点是表达数据可直接分析。所有基因的对数比率可以计算，当两个复制图进行比较时，以正常分布为0进行分布，可以避免随机测定误差。标准统计测定允许不同实验一定程度量的测定差异。

用对数值的第三个优点是用对数值作图在表现数据上有助于视觉上一目了然，如图2-4(见下面)所示。

FIG.1A中的信号包括步骤110适合用于基因表达图的定性分析，如FIGS.5和6进一步说明。但是，其他一系列的步骤，如FIG.1B阐明，能更好地应用。

药物存在于包括有机溶剂在内的各种溶剂中，而溶剂会不同程度地影响基因表达。因此，基因表达的变化是药物引入细胞培养基的结果。变化包括(1)药物引起的细微变化，和(2)溶剂引起的变化。培养基本身引起的变化如下面例4和表7所示。另外，菌株和细胞类型的差异象所分析的细胞间的差异一样是存在的

为了控制这些环境因素的影响，集中于供试药物对基因表达的影响的图形比较。来源于溶剂、培养基、菌株等相应对照的信号要减去，详细见FIG.1B

首先，起始表达信号和背景信号来源于相应的对照表达介质是必要的。例如，作为放线菌素D溶液中甲醇对基因表达的影响的对照(见下面表1和2)，相同的表达介质(如基因组报告基因介质)，单独用相同浓度的甲醇处理，起始表达信号和背景信号由此而得。

相应的环境因素的对照的校正对于每一个基因如FIG.1B所阐明。

首先，基因信号来源于于实验介质基因信号130减去相应对照介质(Signal_mc132)134基因的信号。

其次，早期背景校正118人为界定，然后标准化，必须由决定查询136和140说明。查询以任意顺序依次进行，或较经典的一起按单线规则进行。

当校正信号134小于0-即，当Signal_mc132超过实验信号130-就有一种可能Signal_mc在背景矫正104时人为的升高了，然后标准化，实际上Signal_mc的真实值小于或等于信号130。因此，初始决定查询136询问是否校正的信号134小于0并且是否Signal_mc在步骤102时小于其背景。初始决定查询136返回正值，校正信号设为0，即138。也就是说，因为不可能确定校正信号是否为真，该值设为0，所以该信号值在随后的分析中去掉。

同样的，当校正过的信号134大于0-即实验信号130超过相应的对照Signal_mc132--就有一种可能信号130在背景矫正104时人为的升高了，然后标准化，实际上信号130的真实值小于或等于Signal_mc132。因此第二决定查询140回返回正值，校正信号设为0142。

FIGS.2,3，和4表示的是按上述描述的基因表达数据的散点图，包括在FIG.1A和FIG.1B所阐明的步骤。

FIG.2-4的数据来自基因组介质所产生的起始表达信号(详情见下面例子)。FIG.2图形数据分别来自两种化学治疗药品处理的介质，柔红霉素和阿霉素这两种药品在结构和功能上关系密切。FIG.3图形数据分别来自两种结构和功能均不一样化学治疗药品处理的介质：阿霉素，一种化学治疗药品和一种抗真菌药。FIG.4图形数据分别来自两种结构但功能相关的药品处理的介质，霉酚酸和柔红霉素均为阻断DNA合成的药品。

FIGS.2,3，和4图上的每一点代表一个特定基因的表达：X对应的值是在一种药物存在的情况下(FIG.2中的阿霉素，FIG.3中的柔红霉素，FIG.4中的柔红霉素)所得信号计算结果。Y对应的值是在第二种药物存在的情况下(FIG.2中的FIG.3中的硝酸咪康唑，FIG.4中的霉酚酸)所得信号计算结果。

FIGS.2,3，和4的视觉观察表明表达图谱分析的益处是有利于药物的发现，还表明这些图中所呈现的有关(无关)的极点，甚至偶然性定性分析象上面提供的数据都证明是有用的。

例如，在FIGS.2中偶然性分析很明显即两种药物影响大部分酵母基因的表达是相似的，如果不相同：每个基因由柔红霉素引起的表达增加量与由柔红霉素引起的表达增加量相等。每个基因由柔红霉素引起的表达下降量与由柔红霉素引起的表达下降量相等。每个基因不受二者影响的程度也相似。大部分数据点位于过原点的直线上。

相反，不相关的两种药品阿霉素和硝酸咪康唑所产生的基因表达的相似数据得到差别很大的图形(FIG.3)，如FIG.3所示，两种药品都能提高一些基因的表达(这些点位于右上象限)，而对另一些基因的表达两种药品的作用是相反的(这些点位于左上和右下象限)。

FIG.4代表的是中间情况，药物通过不同的机制影响DNA的合成。

因此，定性分析药物的关系变得可能。药物(或环境条件)产生的散点分布图类似于FIG.2所示的药物(或环境条件)在作用上密切相关；产生分布图类似于FIG.3所示的药物(或环境条件)在作用上是不相关的；和那些有类似于图4显示的有些关联但不同作用机制。

假定一种已知效能的重要化合物，以便可能筛选那些有相似活性的衍生物和类似物，而不依赖费力的生物化学实验。实际上，甚至连重要化合物的作用机制也不必知道。然而，这样分析的潜力是受识别这种相关方式的能力所限制的。图2和图3显示的最小值，如图4显示的那样，问题在中间事件中逐渐明显。这个发明通过提供再生的、定量的评价基因表达谱的相关性；发明还允许分析多于两种化合物，允许基因表达谱相关产生的列举顺序。

通过产生复合分数来定量基因表达谱相关性的方法

本发明提供了一种方法来定量第一和第二个基因表达谱的相关性，包括的步骤有：(a)为每个基因共同地体现在第一和第二基因表达谱里的基因，产生第一和第二个基因表达的信号；(b)形对偶应上述的每对第一和第二个基因表达信号的相对表达分数；和随后(c)从上述对偶的相对表达分数来计算复合分数，其中复合分数定量两个基因表达谱的相关性。

这个方法的第一个步骤在前面已经进行了叙述，如相应的图S1A和1B。第二和第三步对应图5进行了描述。

总体上，相对表达分数524形成了在两个基因表达谱中都表现的的各自的528。因此，复合分数是从收集的所有这样单个基因对应表达分数来计算的，复合分数用于定量两个基因表达谱的相关性。

图5进行了详细介绍，在第一种情况下基因的信号，信号1,500,被输入。这个信号按照图1的程序进行了处理；正如上面所提到的，信号优选地但并不必须地按照图1B减去环境匹配的对照进行矫正。同一个基因在第二种情况下的信号，信号2,502，按照图1相似的程序进行了处理，减去提供的相应表达分数，504。既然输入的信号值是对数值，110，差异代表了表达的比率。

然而，以前采用的背景矫正118的人工制品在这里应当说明，及在减去上述的对应对照信号之后进行标准化。

用两种决策疑问506和510来进行人工制品的矫正。疑问可以按任何顺序逐个进行，或可以更典型地按一个规定的流程来完成。

当相应表达分数，分数504，不小于零-也就是说，当信号2超过信号1-这里存在信号2在背景矫正中人为地提高104的可能性，通过随后的标准化，和信号2的真正值小于或等于信号1。这样，第一个决策疑问506如果相应表达分数504不少于零和如果信号2在步骤102小于它的背景。如果第一个决定疑问506变成真的，相应的表达分数设为零，508。即，因为不可能来确定响应分数是真的，值设为零以便分数不归因于复合分数526。

相似地，如果相应表达分数504是大于零的-也就是说，当信号1超过信号2-这里存在信号1在背景矫正过程中被人为地提高的可能性，通过随后的标准化和信号1的真正值不小于后等于信号2。这样，如果地二个决定疑问510成为正确的，相应表达分数也设为518以便这个相应分数不归因于复合分数。

接着，进行了基因-对-基因的阈值的比较522。每个表达模型技术有其自己检测阈值，低于它信号不能真实地检测到。例如，L:ashkari等的寡核苷酸杂交平台，见上述，与Ashby等从细胞基因组报告模型检测阈值，见上述，不同。

这种阈值是由经验确定的。在一个简单的方法里，要两次重复同样的实验，不但获得未处理的图谱而且得到用同样药物同样处理的细胞的图谱。计算所有基因的对数比率，当两个重复图谱进行比较时，显示根据正态分布(假设这里有合理的信号-对-噪音比率-如果信号低，背景矫正会干扰分布)来在零的周围进行分布，由于随机测量误差。这种分布的标准偏差提供了设计一个恰当阈值的指引。

这样，如果相应表达分数的绝对值，矫正514对背景人为因素，是小于经验设定的阈值，516，分数指定值为零，518，和将不归功于复合分数，526。目前，从Ashby等的基因组报道模型获得数据的优选的阈值是0.7。技术熟练的人员将能用上述的统计学方法建立这样的经验阈值。而且，当方法改变和/或那些得到数据成为更熟练于已知的数据获得技术，这个经验阈值将可能改变。在实验实例中1-4中，使用以前收集的数据，使用的阈值为1.0。

也应当注意到，通过盒子522划定界限的步骤522也从进一步考虑基因表达在第一个和第二个基因表达谱之间变化的方向。这当然必须为不超过使用者定义的阈值的分数而设定为零518。至于剩余的分数，方向性通过任何非阴性分数对分数的绝对值的来分配。在测定两种处理的相关性中，一个基因抑制的信息容量是与基因激活进行相同的处理-仅使用相应的变化强度。

这样，可以看到在算法中有两个步骤，其中相应表达分数设定为零和从归功于复合表达图谱分数中排除的数据。在步骤506,508,510和512中，通过盒子514一起排除，由于背景校正和标准化，当分数不能准确叙述时无论相关分数的方向是否是真的，分数设定为零。在步骤516,518和520，通过盒子522一起排除，尽管不是人为的，但当分数不能系统地与零区分时，分数设定为零。

在连续的基因-对-基因的基础上，通过有机体的各种基因表现的基因表达的各种动态范围最后的操作524进行校正。例如，某些基因可能只能在基因表达中变化两倍，无论条件变化多么剧烈；其他的基因可能在基因表达中变化200倍。为了防止那些有较广阔动态范围的基因的过度倾斜的比较分析，每种相关表达分数通过所有以前实验中观察到的历史最高表达的平方根的对数值而分开。如524所显示的，每种相关表达分数通过步骤108历史输出的最大信号的平方根的对数值来分开；也就是，每种表达分数同观察哪个基因的最大的标准信号的平方根(一半对数)的对数而分开。正如本领域那些技术熟练的人员所理解的，每个基因的值将依赖于表达模型技术(如阵列大小)和以前收集的数据，偶然，将按进一步的实验来改变。

选择存在于步骤524的叙述中多种基因的各自动态范围。

在一种这样的选择中，每种相关表达分数通过从步骤108输出的最大信号的平方根的对数来分开-也就是，通过最大的标准化信号-与用来完成标准化的数值的第一个方法不同(步骤108中的∑信号)。这种方法将在实例5中进一步讨论和举例。

在仍另一个选择中，每个相对表达分数通过输入到步骤108的最大信号的平方根的对数而分配；即，每个相对表达分数通过基因历史上观察到的最大的非标准信号的平方根的对数而分配。这可能在环境中特别优选，其中标准化证明是不适合的

可选择地，可以通过最大对数信号的大小分配-或者标准化或者不标准化-而不是通过它的平方根的对数来分配。本发明方法中选择最大信号平方根的理论基础是特定类型的误差随信号平方根而变化。已发现用平方根校正的对数可以实现更具信息意义的表达谱对比。

一种进一步的替代方法是不用进行任何校正，假定那些表达变化最大的基因是生物学上比较重要的基因，或至少在评价环境条件相关性上更具有意义。

而另一种替代方法则视基因不同而异，依赖于已经进行分析的实际重要性。例如，大部分基因可以按照上述的方法对待，对以前所有实验所观察到的历史最高表达值取对数。而事先测定的特定基因子集在这一步骤的处理不同，可以增加或减少它们在随后分析中的意义。

上述的步骤，所共同代表的第一和第二基因表达谱共同遵循在框528中的全部界定。对于一些表达介质，如测定在原核或小的真核生物如酵母中的基因表达全部或基本上全部开放阅读框架可以这样进行比较。对于其它使用哺乳动物细胞的平台，要对大量的，可能全部数目的基因进行评估。很明显，只有那些在第一和第二环境条件下都测定的基因，才可用于产生相对的基因表达分值。

一最终、标量的测定，也称为复合分值，可通过步骤526的加和来计算，该分值以标量值表示基因在两种环境条件下的表达谱。得到的数值越低，表明基因表达在两种比较环境下的表达谱越相关，完全一致的表达给出的值为0。

尽管不需要进一步的校正，可选择的、并优选将步骤526的加和校正为对此分值有贡献的基因百分率。

对那些不可用的基因的百分率，也就是说，在框514中界定步骤要去除，使相对的分值为0,508和512对复合分值有影响。因此，对于步骤526不可用基因的选择性校正中，可对相对表达分值的简单加和进一步用基因数同可用基因的比率相乘。

在下述实施例1-4中进行的分析是根据从用步骤864报道物介质获得的表达谱来进行。尽管在图5没有对此说明，从步骤526获得的分值可选择性的进行标准化，用每千个基因中的相对表达分值表示，从而允许比较来自不同大小的介质。为了完成这种标准化，步骤526中相对表达谱分值可进一步用1000和所用介质中基因的总数目的比率相乘。

上述的方法可以允许定量的排列两种基因表达谱的相关性：得到的复合分值越低，表达谱越接近；表达谱越接近，在获得表达谱的两种不同条件下，细胞的所有基因表达状态越接近。

因此，可以根据一个细胞所有基因的表达谱来定量评估两种环境条件的相关关系。环境条件，例如在不同培养基中培养，在下述实施例4中有进一步证明。可选择的，两种不同的环境条件包括用两种不同的化学试剂处理，例如用药物学上的候选药物，基因表达谱的相关性表示为复合分值，表明药物作用的相关性。本发明的这一方面在实施例1-3中有证明。

该方法也可用于定量一预先选定的环境同遗传突变细胞的相关性，包括下述步骤：(a)在预先选定的环境下，从产生突变的细胞获得第一个基因表达谱，从野生型的细胞获得第二个表达谱；然后(b)定量第一和第二基因表达谱的相关性。

在本发明这一方面的一优选实施方案中，从野生型细胞获得表达谱的环境条件包括暴露于一选定的化合物。首先用一确定的突变，该方法可以定量鉴定模仿遗传突变效应的候选药物。相反的，首先用一重要的药物制剂的表达谱，通过对药物存在时基因表达谱的相关性的定量，可以鉴定模仿药物效应的突变。结果是，通过鉴定药物的直接或间接影响的所有靶位，可以阐明药物作用的机制。此外，通过测定在一种突变存在，而另一种突变不存在时获得的两种不同表达谱的相关性，可以测定两种突变的相关性。

在本发明定量方法用于遗传突变的应用中，优选酵母细胞，更优选酿酒酵母。酵母是用于此种目的的特别优选，以及用于评估遗传突变的相关性，因为(1)已经对酿酒酵母的整个基因组进行了测序，(2)可通过同源重组很容易定向缺失和插入，以及(3)酵母和人的许多基本代谢途径高度保守。参照例如，Lashkari等的讨论。该方法可广泛的用于其它原核或真核有机体的突变鉴定上。

尽管上述描述特定的指一种用于定量第一和第二种基因表达谱相关性的方法，本发明也提供了对多个基因表达谱的相关性排序的方法。

为了完成多个基因表达谱的排序，要获得一系列的复合分值，测定每一个值同一共用指数或参考谱的相关性。随后，对复合分值排序，低的分值表明同指数表达谱更大相关性。这样的排序列于下述表中。

因此，本发明提供了各种对环境条件对同一细胞在事先选定环境条件相关性排序的方法，包括下述步骤：(a)在每一多元化的环境条件和事先选定的环境条件下，获得细胞或基因型一致细胞的表达谱；(b)配对定量每一多元化环境和事先选定环境下表达谱的相关性；并(c)对这些配对数量排序。在一优选实施方案中，一个或多个环境条件包括细胞暴露于一化合物。

相似的，本发明也提供了对多种环境中的每一种和一限定细胞遗传突变相关性排序，包括下述步骤：(a)从每一环境下获得野生型细胞的一系列基因表达谱，从含有该指定突变的细胞获得第二基因表达谱；(b)对第一基因表达谱和第二表达谱进行定量配对；然后(c)对配对测定量排序。

用相同的方式，本发明也提供了一种对多种突变的每一个同事先选定突变细胞相关性的排序方法，包括下述步骤：(a)从多个遗传突变细胞中的每一个获得一系列基因表达谱，从含有事先指定突变的细胞获得第二基因表达谱；(b)对第一基因表达谱和第二表达谱进行定量配对；然后(c)对配对测定量排序。用线性回归定量基因表达谱相关性的方法

通过异常值，也就是根据两种测定条件下基因表达的基本变化，可以基本加权复合分值，以及由此得到的图5的程序提供的相关排序。其中用一需要数据inclusion的阈值来减轻在两种测定条件下变化较小的基因的贡献，即使对步骤524各种基因，表达的动力范围，以及图5中框522界定的从步骤516、518和520得到的结果进行校正也是正确的。这种偏差的优势在于，它集中了对表型变化贡献大的基因的排名。

图6提供了定量相关基因表达谱的一种替代方法，相反的，使相关性排名更趋向于单一表达基因变化方向的共同方面，而不是这些变化的量。图6的方法提供了同图5方法相比的一些优势，尤其是精确的对从小浓度药物制剂获得的基因表达谱相关性测定的能力，现在优选为对在温和处理条件下表达谱相关性定量的方法，例如低浓度的药物。但是，图5的方法仍然优选为在剧烈条件下测定表达谱相关性定量的方法，例如用高浓度药物处理。在图5和图6两种算法的选择依赖于对结果比较后根据经验进行选择；这样的选择在本领域技术范围之内。

在讨论这一替代方法的细节之前，最好通过考虑图2散布图来观察这两种方法在概念上的差异。如上述所提到的，图2作为一散布图，代表了酵母细胞用相近的两种抗肿瘤的化学治疗剂分别处理细胞后获得的相对基因表达。如上述所讨论，这些处理被认为密切相关，每一种都等价的对单一基因表达的方向和量有影响：作为结果，大部分的点都位于通过原点线的附近。需要明白，一致的条件、无背景、无噪音、和无其它变化可以在理论上产生一系列表达点，都精确的位于穿过原点的线上。

在图5步骤516、518和520(在框522中所界定)中应用的阈值可理解为，在图2中，有一致斜率的两条平行线，同数据中的回归线等距离，有些同置信区间相近。在步骤516中应用的阈值越低，所观察到的阈值线同数据回归线越接近，则位于线外的点的数目越多；应用的阈值越高，所观察到的阈值线同数据回归线越远，则位于线外的点的数目越少。因为只有位于阈值线外的点对表达谱值有贡献(比较步骤518和520)，图5的方法受这些点同回归线距离的影响很大。

相反，图6的方法，使数据点同理论回归线集中的程度更好，回归线代表了处理的一致性。那些点直接落在回归线上对于分析并非只有很小的意义，而是对分值的贡献很大。并非要求基因表达变化的大小，相反的，该方法集中在基因表达变化的方向上。该方法对各种药物处理的浓度不敏感，如下述实施例3所示。

图6为第二种方法对定量两种基因表达谱的模式图。

在第一(Signal1 600)和第二(Signal2 601)基因表达谱代表的每一基因表达信号根据图1处理，进行输入。根据图1B中的算法通过匹配的对照对信号进行校正。

然后，步骤610和611操作--同图5中前述算法步骤524中完成的相似--对不同有机体各种基因表达的不同动力范围进行校正。

上述步骤524中提出的方法可作为校正动力范围的相同替代方法。因此，可以对从步骤108中输出的历史最大(标准化d)信号的平方根取对数值；可以对步骤108中输入的历史最大(标准化d)信号的平方根取对数值；可以对从步骤108中输入的历史最大(un标准化d)信号的平方根取对数值；可以对最大信号值取对数--标准化d或un标准化d--而不是平方根的对数；可以不做任何改变，不校正动力范围；或用经验选定的值单一调整。一种进一步的替代，如下述实施例5中进一步的讨论，通过对最大标准化d值平方根取对数，调整所有基因的动力范围，但用从更大群体基因选定的标准化值。

然后，第一(Signal1 600)和第二(Signal2 601)表达信号同步骤620提供的信号结合，对每一基因，进行二维坐标。在步骤625中配对数据的线性回归--代表了所有基因在两个基因表达谱中的表达--然后提供626的Score，后者提供了定量测定两种基因表达谱的相关性，较高的数字表明更接近的相关性。相关系数可用做分数值，也可由此进行任何相乘。在下述实施例中提供的分值来自进一步对相关系数乘以100。

因此，对每一基因第一和第二表达信号纵弯曲(collapses)的第一种算法(图5)进入到步骤504的单一标量值(代表第一和第二表达的比率)，然后对这些值加和，获得复合分值，当前的算法保留数值为分开的坐标s，直至最后一步。

需要明白，可以应用任何数据结构，只要该结构允许每一普遍代表的基因能同线性回归的目的相联系，例如单一的二维介质，一系列载体，或相似物。要进一步明白，根据本发明在步骤625和626对相关谱分值的计算，可以使用任何通过二维数据使数据同最适好的理论线相配关系密切的统计方法。本领域的技术人员可以鉴定这样的数据结构和统计方法，并将这种计算用数字计算机编码；这种匹配的密切程度可以使此处新描述的基因表达谱的相关定量可靠、可重复并易于定量。

另一在图6中没有描述的步骤，可以选择性的加入到本方法。

Signal1 600和Signal2 601可以接受同506和510步骤相同的询问。也就是说，如果早期的背景校正和标准化潜在的阻止对两种条件表达变化方向的明确测定，可以使用该问题。如果这样，也就是说，如果506或510的询问被提出，基因的Signal可能会选择性的从线性回归中被去除。

在图6中描述的方法可以同图5中提出的方法一样，用于定量评估一细胞在两种环境条件下全部基因表达的相关性；用于定量评估事先选定环境条件同一细胞确定遗传突变的相关性；可以定量两种不同突变的相关性。此外，在图6中提出的方法和算法可以同图5中提出的一样，用于对多种基因表达谱相关性的排序，无论是从两种不同的环境条件获得，从产生各种突变的细胞获得，还是从二者的组合获得的表达谱。

如上述所提出的，无论是应用图5或图6中给出的算法，在第一和第二基因表达谱中普遍代表的每一基因同基因表达谱中其它基因的处理方法一致。但是，对事先选定的一个或多个基因的表达，可能--而且常推荐--要不同weigh其变化，来增加或降低它们在分析中的意义。可以进行这样的加权，例如通过调整步骤524或在步骤610、611的Signal。

数据存储

对于本发明的任一实施方案，无论是用图5或图6描述的方法，可以对图1、5或6中描述的在任何或全部中间点的任何单一基因表达谱数据进行存储。从任何单一表达介质获得的数据都可存为如步骤101获得的原始数字化数据、步骤108获得的背景经过调整并标准化d的信号、步骤110获得的背景经过调整并标准化d后取对数的信号、或步骤112获得的同匹配对照经过完全校正的信号。

需要明白，新的相关性比较--也就是说，根据图5算法得到的复合值的新算法或根据图6算法对相关谱的计算--可以用早期获得和存贮的数据来进行。因此，在运行额外的实验以及从此处描述的各种介质平台获得表达谱数据，对从上述的分析中获得更多的数据。特别的，在检测多种药物对全身基因表达的影响时，从这种比较中可以建立一日益增加的全面数据库。

每一基因表达谱的存储代表了一种不同的细胞状态，可以对文献同其进行重复比较，类似于编纂无生命物质不同状态所鉴定出来的谱系--NMR谱、IR谱、质谱以及类似的谱系--同标准的比较可鉴定出未知的化学结构。对基因表达谱的比较可用相同的方式。不同的，对本方法提供的相关性定量评估以及此处描述的装置，可以用于这些不同的谱系，其中的改动对本领域技术人员所熟知。

药物发现以及在基因表达谱定量分析中的其它应用

此处描述的定量方法、系统和装置可用作新药发现的方法。通过定量比较基因表达谱的相关性，可以检测化合物同已知机制的药物、已知功效药物的相似性，或同特定突变、条件、疾病或疾病状态的相似性。

对一靶细胞用药物处理，无论该化学物质怎样干扰基本的生物过程，最后可以导致靶细胞基因表达谱的变化。作用相似的药物可产生相似的变化谱。作用的相似性越大，基因表达谱变化的相似性也越大。结果，对基因表达谱相关性的定量可以鉴定出对细胞表达具有相似效应的药物；可推断该药物具有相似的作用机制。

当已知第一种药物的作用机制，在鉴定对靶细胞基因表达谱变化具有相似效应化合物时，可鉴定出其它具有相似生物学机制的化合物。当不知第一种药物的机制，但已知可对某一疾病有效时，尽管不知药物的作用机制，可鉴定出其它对靶细胞病理状态具有相似疗效的药物。

因此，对基因表达谱相关性分析可以偏离鉴定单一靶向药物的需要，从而建立一专门分析，然后在专门分析中根据活性来筛选化合物。

此外，对基因表达谱相关性分析可以加速药物开发后期阶段的收缩，集中在有前景侯选药物的作用特异性上。例如，一铅化合物的药物上有效的衍生物可以基于上述同一侯选铅的基因表达谱相关性分析，鉴定出一铅化合物。

下面的实验实施例证明了本发明定量方法的这些应用。

在实施例1，通过定量比较放线菌素D处理得到的基因表达谱同暴露于其它药物制剂获得的多种基因表达谱，可以分析药物同放线菌素D的相关性。用上述的任何一种算法，可鉴定出不同浓度的柔红霉素、5-FUDR、阿霉素、5-FU、羟基脲和霉酚酸可导致细胞，此处为酿酒酵母细胞，具有相似的表达效果。所有这些制剂同放线菌素D一样，已知可影响核酸合成。

因此，如果单独知道放线菌素D的作用机制，该数据可清晰把表明柔红霉素、5-FUDR、阿霉素、5-FU、羟基脲和霉酚酸的作用机制同已知的放线菌素D的作用机制相似。因为知道放线菌素D可以干扰核酸合成，该数据表明柔红霉素、5-FUDR、阿霉素、5-FU、羟基脲和霉酚酸也影响核酸的合成，并因此可能用做治疗癌的化学制剂，或用于打破病原的生活周期，尤其是病毒性病原。

相反的，如果知道这些制剂的作用机制，这些数据表明放线菌素D干扰核酸合成，从而提供研究其机制的有价值信息。

应该注意这些信息并不需要一专门核酸合成抑制分析，也不需要事先鉴定药物作用的分子靶位。因此，可鉴定出具有相似效果但具有不同分子靶位的药物。

通过测定一多元化药物同两种浓度柔红霉素对细胞全部基因表达的变化，实施例2和3评估了其相关性，进一步证实，不用预先知道参考药物的结构和机制，来测定作用的相关性。实施例4证明，此处提出的方法可更广泛的用于定量细胞在不同环境条件下的相关性。筛选用于基因表达谱系化的基因信息子集的方法

在实施例1-4中定量比较的基因表达谱均包含了同时期超过800个不同酿酒酵母基因的表达。这800个基因代表了有机体可表达基因的一子集，有机体可表达基因估计略高于6000。该百分率结果因此证明，此处所描述方法的成功应用只需要检测一部分基因的表达。尽管随着评价基因的日益增多，定量分析日益可靠并具有信息意义，很明显在该分析中可以使用少于全部基因表达。

在获得基因表达数据时，出于技术考虑，常常分析的基因少于所有可表达的基因。例如，提供的侯选药物有限，尤其是通过组合化学少量生产的药物；可能仅仅由于制剂太少而不能允许检测其对一给定细胞类型所有可能基因的影响。另外可能因为太昂贵而不能一一分析每一候选制剂对细胞的每一可表达基因的作用。

当分析的基因组更复杂时，这些问题就同时并存。因此，为了评估一药物或其它环境制剂对线虫如C.elegans，每一可表达基因的影响时，需要测定大约20000个基因；为了评估一药物或其它环境制剂对人每一可表达基因的影响时，需要测定大约100000个基因。

此外，并不是所有的基因都提供一样的信息。无论在任何环境条件下，一些基因在表达上具有不足的动力范围，因而不能提供有意义的信息。另一些基因可能在表达上协同变化，因此提供了多余信息。

筛选用于表达分析的基因信息子集的一个方法是通过已知的或假定的功能分别选择基因。因此，Farr et al.,U.S.Patent No.5811231和欧洲专利No.EP 0680517 B1除了别的以外，还公开了筛选“应激基因”，特定的用于鉴定对细胞毒性的化合物。

但是，该方法需要预先知道基因的功能。此外，这种定向筛选的偏差减少了鉴定出以前未知相关性的可能；在对鉴定未知关系有用的方法中，例如此处提出的方法，尤其不倾向这种定向预筛选。

另一筛选子集的方法是完全随机的，希望这样筛选到的子集可以代表整体。很明显，问题是这样筛选的子集在描述细胞在一或多种环境条件状态时并不提供信息。

而另一筛选基因的方法并不靠共同功能来鉴定，而是通过对一预先选定的环境条件的同样反应性来进行。Whitney et al.，自然生物工程，16:1329-33(1998)。介于纯粹定向筛选和完全随机筛选之间，后一种程序在某种程度上具备前两者的缺点。

图7和8定量证明了一新的替代方法，来筛选用于基因表达分析的基因信息子集的结果，更详细描述如下。该新方法根据基因表达的多样性来筛选用于表达分析的基因，而非表达的大小、方向或共同性。

图7为根据图1处理而来的基因表达信号的散布图，来源于包含1532个独立酿酒酵母基因表达报道物的基因组报道物介质，每一介质用已知功能和结构密切相关的两种制剂中的一种分别处理：10μg/ml洛伐他汀(X轴)和20μg/ml米法斯丁(Y轴)。如前面同图2相关的讨论，很明显从图中的看出，两种制剂对酵母大部分基因表达的影响相似，如果不一致：每一个因洛伐他汀而增加表达的基因对米法斯丁也等同增加；每一个因洛伐他汀而减少表达的基因对米法斯丁也等同减少；而每一个因洛伐他汀而表达不受影响的基因对米法斯丁也等同的未受影响。结果是大部分数据点位于通过原点的线上。

图8绘出的是来自图7中1532个基因表达信号的96基因子集的基因表达信号的分散图。尽管只有图7的1/16的基因在图8中显示，仍然可以看出两种药物处理的正相关。所筛选的96个基因子集列于表9，在下述实施例5中列出。尽管在筛选时不知功能，在子集中的基因被认为具有不同的功能(列于表中的基因功能引自斯坦福大学酵母基因组数据库http://genome-www.stanford.edu/酵母)。

图8中所列基因子集从图7中的筛选过程包含两个基本算法步骤：第一步，根据其表达的最大历史动力范围对图7所列基因进行分类；第二步，在各分类中保留第一个各基因组中表达非常相关的基因而去除其它全部。结果是在原始子集中所看到的基因多样性应答在所选子集中保留，而每一组中相关的基因，在保留子集中被具有最大动力应答的基因来代表。

从以前获得的表达数据的大量基因中筛选一子集的原理尽管在图8进行了实例说明，可以发现该方法在指导从基因表达模型中前瞻性获得较小数量但提供信息的基因表达信号具有最大的用途。

实施例1-4表明对酿酒酵母潜在表达的6000个基因中864个基因的表达测量—也就是说，大约细胞潜在表达基因总数的14.4％--允许定量检测细胞表型，并因此定量测定细胞状态的相关性。实施例5表明甚至可筛选更加小子集的潜在表达基因--6000中的96个，或1.6％细胞潜在表达的基因—在定量检测细胞表型，并因此定量测定细胞状态的相关性上已足够提供信息。

因此，本发明的一个重要的方面是提供了细胞表型化的方法，包括筛选一个细胞仅仅20％可表达基因用于表达分析，所筛选基因的一致表达允许将细胞表型同另一细胞的表型定量相关。在这些方法中，优选筛选不超过20％的细胞潜在表达基因，更优选筛选不超过15％的细胞潜在表达基因，甚至更优选筛选不超过10％的细胞潜在表达基因，在最优选实施方案中，筛选大约1-5％，甚至1-2％的细胞潜在表达基因。使这些筛选起作用的算法、计算机、系统、网络，以及其它对筛选起作用的装置也被提出。

通过参考图9和10，可以更好的理解筛选用于表达分析提供信息子集可表达基因算法的两个基本步骤。

算法中两个主要步骤的第一个是根据基因表达的动力范围来排序基因。优选的，使用历史数据：对每一基因，通过步骤900中合适的程序查询(或系列查询)来测定电子储存基因表达谱库中的最大和最小Signal 108值。

如上述所提到，在图1、5、6中描述过程的任一或全部介质点来存储基因表达数据。对于图9中提出的算法步骤的目的，应用从步骤108中输出的Signal。如果在数据库中没有从步骤108中输出的Signal，在某些情况下该数值可以重建—例如，如果存储了从步骤110中输出的Signal，本应该从步骤108输出的Signal通过求幂返回到步骤110进行计算。

步骤902计算的表达范围表示为最大和最小信号的比率(使极限=Signal_max/Signal_min)。尽管可以使用其它测定动力范围的方法--例如Signal_max-Signal_mi--当前优选使用比率。

然后，通过比较步骤902中获得的极限值同已建立的经验值，对步骤904应用一阈值。如果极限超过阈值，基因保留到随后的应用；如果极限不超过阈值，不再保留基因做进一步分析。如步骤906所示，通过将、极限设置为一无效值，可丢弃该数值。对于在图8所示的筛选和实施例5中的实例，设置阈值为10。也就是说，在数据库中存储的历史基因表达谱中，只有在基因表达变化水平至少有10倍变化的基因保留在选定的子集。

在算法中选择阈值的这一步可以根据实际需要测定，在本领域技术范围之内。典型的，10倍的阈值将提供合适大小的提供信息子集。

但是，也可能设置阈值低至1；也就是说，整个消除截止(点)。因为所有因素保持不变，结果是筛选大量的子集基因。此外，要明白在此步骤设置的阈值并不限定为整数字。

因此，阈值可以设为低至1或，优选大于1。通常阈值设为2或更大，更优选3或更大，更优选在4、5、6、7、8、9、或更大，按照此次序，最优选到至少10。

阈值也可大于10，可以高至100，优选不超过50，更优选不超过25，最优选10-20。

根据表达极限，对表达范围超过实际阈值的基因分类。

图10为算法第二基本步骤重复过程的模式图。

从左到右，图10概括了算法第二步骤的重复过程。在左边显示了从步骤908输出的基因列表，按动力范围的从大到小排序。在步骤906因动力范围不足而丢弃的基因没有显示。

在该过程的第一重复中，列表中的第一个基因(“基因1”)作为标准或参照基因。逐个考虑保留在列表中每个基因，计算出基因表达与从所述的成套存储基因表达谱中逐个确定的标准基因表达的相关程度。如果相关程度(r²)超过了一经验设定数值，那么就将该基因从所述成套基因中去除。

这步骤的结果是除去了所有在表达上与标准基因″基因1″高度相关的基因；所述的高度相关是指这些去除基因提供的信息大量冗于标准基因表达数值中固有的信息。如图10底部所示，所述的标准基因(“基因1”)保留在基因信息子集中；如图10中部例示，与此高度相关的基因(“基因3”和“基因4”)被去除。由于列表是由最大到最小表达程度排序的，从相关组中保留的单个基因是具有最大动态表达范围的基因。

在该方法的第二次重复中，位于基因1之后的第一个基因(图10中例示的“基因2”)变为标准或参照基因。它也将保留，如该图的底部所示。

接着，逐个考虑保留在列表中每个基因，计算出基因表达与从所述的成套存储基因表达谱中逐个确定的标准基因(此时为“基因2”)表达的相关程度。如果相关程度超过了经验设定值，那么从成套基因中去除该基因。然后，将下一个保留(不相关)基因，本发明用“基因6”例示，作为下一次重复的标准基因。

重复该方法直至将该列表试尽。

在执行上述去除表达上与标准基因相关的基因的重复步骤中，优选地在如步骤140输出结果(即，来自方框141的输出结果)所示的基因表达信号上进行相关分析。最终子集中保留的基因的数目用下列因素来确定：为基因表达数据库提供数据的基因的总数、步骤904中使用的极限阈值、以及图10概括的重复程序中使用的相关阈值。可以根据经验调整这两个阈值从而制备出含有任一选定数目的信息子集。

因此，在下列实施例5给出的分析中，根据经验调整极限阈值和相关阈值，制备出含有96个基因的信息子集-与标准微量滴定板的孔数目相等-极限阈值设定为10，相关阈值设定为0.675。

一旦根据图9和图10所示的算法鉴定到了预期大小的之后，那么就可以仅使用该基因子集，按照图5和6中给出的算法来进行定量分析。也可以如实施例5所示，通过从更大范围的基因表达谱中选择来实施分析，或者更有用地，只使用报道基质中鉴定出的基因子集，通过有目的地获得基因表达谱来实施分析。

实施例5显示的是从由我们的存储基因表达谱数据库中获得的1532个基因中选择出一96个基因的子集。对比表8和表10中的数据-表8对1532个基因的相关程度排序，表10仅对用上述方法选择出的96个基因的同一表达谱进行排序-表明所述的96基因子集充分保留了多样性，从而确保可对基因表达谱的相关程度进行定量性的排序：两表中的数据都鉴定出HMG-CoA还原酶抑制剂与洛伐他汀最相关，效果上相关程度紧随其后的是能够影响固醇生物合成途径其他步骤的药物。

尽管实施例5是用图6(即图1A、1B和6)中的算法对所述96基因子集进行定量分析，但是也可以使用图5(即图1A、1B和5)中给出的算法。另外，图8-把96个基因的来自标准表达谱(显示次序0)数据相对于来自显示为次序2(20μg/ml米法斯丁溶于1％乙醇)的表达谱的数据绘制的曲线-表明这样选定的子集也可以用于基因表达谱的定量分析。

提供下列实施例目的是为了说明而并非限制本发明

实施例1

药物相对于80μg/ml放线菌素D的相关程度

按照Ashby et al的方法制备复制基因组报道基质，该文献在此引入作为参考。简而言之，就每个这样的基质重组构建体而言，将从独一无二酵母启动子中驱动荧光报道物的构建体单独转化入具有同一菌株背景的酵母的离散培养物中。对转化后的培养物进行筛选以保持报道物以及防止遭受未转化细胞的污染。将每一种所述转化后酵母培养物分置，保留在彼此分隔且空间可寻址的基质孔内。

所用基质中包含有864个分隔的构建体，以确保可对800多个基质的表达水平进行同时测量。向每一基质上施加一特定的环境条件，具体参见表1和表2栏目中所示。如前文中提及的Ashby et al中所示，从每个这样的基质中获得一基质表达谱，数字化，并且电子化存储。

此后，对每个基因表达谱与存在80μg/ml放线菌素D时产生的基因表达谱之间的相关程度进行对偶定量，基本上按照图1A、1B和5(表1)或者图1A、1B和6(表2)中所示的方法来进行。然后对对偶相关对偶的测量结果排序，结果如下：

表1

次序处理 - 复合分值

(药物浓度μg/ml)

0 80线菌素D溶于1％甲醇 0

(标准或者参照条件)

次序处理复合分值

(药物浓度μg/ml) Score～.

1 60放线菌素D溶于1％ 2.9

甲醇

2 40放线菌素D溶于1％ 10.0

甲醇

3

50放线菌素D溶于1％ 11.7

甲醇

4 25柔红霉素 14.2

5 50柔红霉素 15:6

6 40 5-FUDR 15.8

7 25阿霉素 16.0

8 12.5阿霉素 16.0

9 25阿霉素 17.7

10 30FUDR 18.0

11 12.5阿霉素 21.2

12 0.30 FUDR 21.9

13 5000羟基脲 22.3

14 20 5-FUDR 22.4

15 5-氟尿嘧啶 22.5

16 12.5柔红霉素 22.9

17 0.25 5-FU 23.0

18 6.25阿霉素 23.0

19 30放线菌素D溶于1％ 23.5

甲醇

20 9霉酚酸溶于1.5％ 25.1

乙醇

21 40放线菌素D溶于1％ 26.8

甲醇

22 0.250 5 FU 27.7

23 15霉酚酸溶于1.5％ 28.1

乙醇

24 2氟胞嘧啶(15 hr) 28.1

25 0.15 5-FU 28.4

26 5α因子 32.1

27 10α因子 32.2

28 50米法斯丁溶于2％DMSO 38.2

29 75米法斯丁溶于2％DMSO 38.4

30 20α因子 40.6

31 无药物溶于1％的甲醇 41.1

32 0.04氯苯咪唑溶于1％DMSO 46.3

33 100米法斯丁溶于2％DMSO 55.5

34 250灰黄霉素溶于1％ 56.5

甲醇

35 15α因子 66.7

36 4000戊脉安 92.0

37 3500戊脉安 113.1

38 4500戊脉安 141.1

39 0.08氯苯咪唑溶于1％DMSO 158.8

40 0.156硫康唑溶于1％DMSO 169.7

表2

次序处理相对谱分值(relative

profile score)

(药物浓度μg/ml)

0 80线菌素D溶于1％ 100

甲醇

(索引，或参考文献，条件)

1 60线菌素D溶于1％ 86

甲醇

2 50防线菌素D溶于1％ 74

甲醇

3 40防线菌素D溶于1％ 72

4 25阿霉素 68

5 40 5-FUDR 67

6 25柔红霉素 65

7 12.5柔红霉素 65

8 50柔红霉素 65

9 0.3 5-FU 64

10 30 5-FUDR 63

11 0.25 5-Fu(除去641) 62

12 0.25 5-Fu(除去351) 62

13 0.35 5-FU 60

14 25阿霉素 59

15 50阿霉素 59

16 0.2 5-FU 59

17 6.25阿霉素 58

18 0.1 5-FU 58

19 12.5阿霉素 53

20 12霉酚酸溶于1.5％ 53

乙醇

21 5000羟基脲 52

22 9霉酚酸溶于1.5％ 51

乙醇

23 12.5柔红霉素 49

24 10000羟基脲 49

25 15霉酚酸溶于1.5％ 49

乙醇

26 2氟胞嘧啶 48

27 4氟胞嘧啶(除去167) 48

28 4氟胞嘧啶(除去97) 48

29 5000羟基脲 46

30 2氟胞嘧啶(15小时) 45

31 无药物溶于10％甲醇 42

32 7.5α因子 36

33 10α因子 36

34 4500戊脉安 36

35 3500戊脉安 35

36 20α因子 35

37 3000戊脉安 34

38 4000戊脉安 33

39 4α因子 31

40 1259羟基脲 30

41 5米法斯丁溶于1％DMSO 28

42 2500戊脉安 28

43 2霉酚酸溶于乙醇 28

表1和表2表明本发明所述的每一种方法都可将基因表达谱的相关程度定量化，并由此而鉴定药物处理的相关程度。

因此，如表1所示，图1A、1B及5中的算法表明用60μg/ml放线菌素D处理与暴露于80μg/ml放线菌素D的参照或标准条件最相关。用40μg/ml放线菌素D和50μg/ml放线菌素D处理次之。

随后使用不同浓度的柔红霉素、5-F～DR、阿霉素、5-FU、羟基脲和霉酚酸。已知这些试剂与放线菌素D一样都能影响核酸合成。用毫不相关活性试剂处理时相关程度则差得多：次序为26和27的用酵母α因子处理，随后为米法斯丁，后者为HMG-COA还原酶的一种抑制剂。在次序为31位上可以发现用根本不合药物处理得到的基因谱，环境匹配的控制，随后，用抗真菌剂双氯苯咪唑和灰黄霉素处理，以及用钙通道阻断剂戊脉安处理。

因此，假如单单已知放线菌素D的作用机制，那么上列数据则清楚地显示出柔红霉素、阿霉素、核苷酸类似物5-FUDR和5-FU以及霉酚酸作为药物时的作用机制与已知的放线菌素D的作用机制类似。如果已知放线菌素D能够干扰核酸合成，那么这些数据表明柔红霉素、阿霉素、核苷酸类似物5-FUDR和5-FU、以及霉酚酸也可影响核酸的合成，因而可以用作治疗癌症的化疗药物，或者可以用来破坏病原体的生命循环，尤其是病毒病原体。

相反，假如除参照药物外的其他所有这些药物的机制都已知，那么这些数据表明放线菌素D可干扰核酸的合成，为其作用机制提供有价值的见解。

值得注意的是，这些见解不需要专门的核酸合成抑制试验，也无需提前确定该药物针对的分子目标。因此，已经鉴定出了具有类似普遍作用但具不同分子目标的药物。

表2给出的是用图T1A、1B和6的方法和算法制备的基因表达谱的相关程度的具有定量意义的排序，当将其应用于同样一套电子化存储的基因表达谱数据。

可以看到，当与用80μg/ml放线菌素D处理最密切相关时，将能够影响核酸合成的药物再次排序。值得注意的是对递减浓度放线菌素D排定的次序。

实施例2

药物与50μg/ml 柔红霉素的相关程度

按照实施例1和Ashby et al所列的方法获得并存储基因表达谱。

然后，对每个基因表达谱与存在50μg/ml放线菌素D时产生的基因表达谱之间的相关程度进行对偶定量，基本上按照图1A、1B和5(表3)或者图1A、1B和6(表4)中所示的方法来进行。然后对对偶相关对偶的测量结果排序，结果如下：

表3次序处理复合分值

(药物浓度μg/ml)0 50柔红霉素 0.0

(标准或参照条件)1 25阿霉素(除去336) 2.32 50阿霉素 9.73 25柔红霉素 12.44 80线菌素D溶于1％ 15.6

甲醇5 12.5阿霉素(除去335) 17.66 60放线菌素D溶于1％ 19.5

甲醇7 0.2 5-FU 24.38 0.35 5-FU 24.39 40 5-FUDR 25.710 6.25阿霉素 26.411 0.25 5-FU 26.412 12.5柔红霉素 26.513 0.15 5-FU 26.614 40放线菌素D溶于1％ 28.9

甲醇(除去491)15 10α因子 30.816 5α因子 30.817 5000羟基脲 32.618 40放线菌素D溶于1％ 33.7

甲醇(除去456)19 2氟胞嘧啶 35.920 20α因子 39.921 10000羟基脲 40.722 无任何药物 43.723 75米法斯丁溶于2％DMSO 43.9

(除去1202)24 1000戊脉安 44.025 20α因子 44.126 50米法斯丁溶于1％DMSO 44.527 75米法斯丁溶于2％DMSO 47.6

(除去1099)

表4次序处理相对谱分值(relative

profile score)

(药物浓度μg/ml)0 50柔红霉素

(标准或参照条件)1 25阿霉素(除去336) 912 50阿霉素(除去337) 903 25柔红霉素 774 12.5阿霉素(除去335) 755 6.25阿霉素 626 0.35 5-FU 597 0.2 5-FU 588 4500戊脉安 579 60放线菌素D溶于1％ 57

甲醇10 12.5柔红霉素 5711 0.3 5-FU 5712 0.25 5-FU(除去351) 5613 0.25 5-FU(除去641) 5614 0.15 5-FU 5515 50 5-FUDR 5316 12霉酚酸溶于1.5％ 52

乙醇17 10000羟基脲(除去205) 5118 4000戊脉安 5019 3500戊脉安 5020 10000羟基脲(231) 4921 15霉酚酸溶于1.5％ 49

乙醇22 无药物溶于10％甲醇 4423 150丝裂霉素C 4324 30 5-FUDR 4325 7.5α因子 4026 3000戊脉安 4027 5α因子 3428 15α因子 3229 2500羟基脲 3030 2000戊脉安 2431 750灰黄霉素溶于7.5％ 15

甲醇

表3中所列数据是使用图5所示方法得到的，这些数据表明下述药物在作用方面与柔红霉素密切相关：阿霉素、放线菌素D、5-FU、和5-FUDR，这与这些药物已知的活性一致。但是，使用图6所示方法得到的表4所列数据很不明确，钙通道阻断剂戊脉安似乎是密切相关的。

因此，可以看出：在较强烈的条件下，本发明中表现为较高浓度的药物，图5中给出的方法比图6给出的方法更优选。下列的实施例3，表明：图6给出的方法优选使用在较低浓度的药物下使用。

从该实施例的数据中还应该注意到复制的基因表达谱，即在相同条件下彼此独立的试验中所获得的基因表达谱给出的数据彼此密切排序，表明该分析的可重复性。

实施例3

药物与12.5μg/ml柔红霉素的相关程度

按照实施例1和Ashby et al所列的方法获得并存储基因表达谱。

然后，对每个基因表达谱与存在12.5μg/ml放线菌素D时产生的基因表达谱之间的相关程度进行对偶定量，基本上按照图1A、1B和5(表5)或者图1A、1B和6(表6)中所示的方法来进行。然后对对偶相关对偶的测量结果排序，结果如下：

表5

次序处理复合分值

(药物浓度μg/ml)

0 12.5柔红霉素 0.0

(标准或参照条件)

1 5％盐水 1.0

2 1000硫氮酮 1～3

3 0.25 5-FU 1.9

4 0～0.25-FU 1.9

5 厌氧培养 1.9

6 1000戊脉安 2.0

7 2霉酚酸溶于乙醇 2.0

8 1187.5 乙酰水杨酸溶于 2.1

1.25％乙醇

9 1000酰水杨酸溶于 2.1

1.25％乙醇

10 1250 乙酰水杨酸溶于 2.2

1.25％乙醇

11 5米法斯丁溶于1％DMSO 2.5

12 10阿莫西林溶于2％乙醇 2.6

13 0.04衣霉素溶于0.1％DMSO 2.6

Tris

14 无任何药物 2.9

15 750酰水杨酸溶于3％ 3.0

乙醇

16 500硫氮酮 3.1

17 12.5阿霉素 3.6

18 750灰黄霉素溶于7.5％ 3.9

甲醇

19 7.5α因子 4.1

20 5α因子 4.2

21 10α因子 4.4

22 25阿霉素 13.7

23 20α因子 13.8

24 50柔红霉素 26.5

25 50阿霉素 62.3

表6

次序处理相对谱分值

(药物浓度μg/ml)

0 12.5柔红霉素

(标准或参照条件)

1 25阿霉素(除去336) 67

4 6.25阿霉素 63

5 12.5阿霉素 58

6 50柔红霉素 57

7 60放线菌素D溶于1％ 52

甲醇

8 80放线菌素D溶于1％ 49

甲醇

9 50放线菌素D溶于1％ 48

甲醇

10 40放线菌素D溶于1％ 46

甲醇

11 50阿霉素 44

12 9霉酚酸溶于1.5％ 43

乙醇

13 30 5-FUDR 41

14 5霉酚酸溶于0.9％ 36

乙醇

15 1125乙酰水杨酸溶于 34

2％乙醇

16 30放线菌素D溶于1％ 33

甲醇

17 无任何药物溶于的10％甲醇 27

18 750乙酰水杨酸溶于3％ 25

乙醇，

表5和表6列出的结果表明了在低药物浓度条件下用第二中方法来定量基因表达谱相关程度的基本优势。

如表5所示，图5给出的第一种方法不能将基因表达谱与只存在12.5μg/ml柔红霉素时制备的基因表达谱相关程度确切地定量，5％盐水和1000μg/ml硫氮酮(一种钙通道阻断剂)位于5-FU之前，在排序上5-FU本身仅仅位于厌氧培养和戊脉安之前。

明显相反，现在将用图6(表6)所示方法分析的同一基因表达谱数据排序，结果发现与用12.5μg/ml柔红霉素处理密切相关的是用各种不同浓度阿霉素处理，已知阿霉素在结构和功能上与柔红霉素密切相关。

实施例4

普遍环境条件的相关程度

按照实施例1和Ashby et al所列的方法制备复制的基因组报道物介质，使用864个独一无二的单元来报道864个不同酵母开放阅读框的同时表达。在下面给出的条件下，获得每一介质的基因表达谱数据，将其数字化并存储。然后，对每个基因表达谱与将细胞温育于酵母极限培养基时制备的基因表达谱之间的相关程度进行对偶定量，基本上按照图1A、1B和5所示的方法来进行。然后对对偶相关对偶的测量结果排序，结果如下列于表7：

表7处理复合分值无任何药物，酵母极限培养基 0.0(None/NM)无任何药物，酵母极限培养基外加 37.6酪蛋白氨基酸(None/NM+CAA)7.5酵母α因子、酵母 41.7极限培养基外加酪蛋白氨基酸(7.5α/NM+CAA)5酵母α因子，酵母极限 41.8培养基外加酪蛋白氨基酸(5α/NM+CAA)无任何药物，酵母极限培养基外加 45.2酪蛋白氨基酸(None/NM+CAA)无任何药物，酵母极限培养基外加 45.9酪蛋白氨基酸(None/NM+CAA)10酵母α因子，酵母极限 46.4培养基外加酪蛋白氨基酸(10α/NM+CAA)12.5酵母α因子，酵母 59.4极限培养基外加～酪蛋白氨基酸(12.5α/NM+CAA)无任何药物，酵母极限培养基外加 63.5酪蛋白氨基酸、二倍体(a/a)菌株(None/NM+CAA/diploid)15酵母α因子，酵母极限 71.1培养基外加酪蛋白氨基酸(15α/NM+CAA)无任何药物，YPD培养基 81.6(None/YPD)

如表7所示，本发明提供的定量方法可以使得将普遍环境条件的相关程度排序，本发明表现为营养培养基的变化，正如可用单个药物进行离散处理。

此外，这些数据证实了培养基的变化基本上能影响普遍的基因表达，这就证明了包括一个条件-匹配对照的校正的重要性，参见图1B

实施例5

筛选用于定量分析基因表达谱的基因信息子集

按照Ashby et al中的方法制备复制基因组报道基质，该文献在此引入作为参考。本实施例给出的用于所述分析的基因基质中包含有1532个分隔的构建体，以确保可对1500多个基质的表达水平进行同时测量，这些基因中约1/4可被酿酒酵母表达。向每一基质上施加一特定的环境条件，具体参见表8和表10栏目中所示。如前文中提及的Ashby et al中所示，从每个这样的基质中获得一基质表达谱，数字化，并且电子化存储。

然后，对每个基因表达谱与存在10μg/ml洛伐他汀时产生的基因表达谱之间的相关程度进行对偶定量，基本上按照图1A、1B和6所示的方法来进行，仅作如下两个小小的变动。

第一，从对96个基因子集的分析中省去标准化步骤108，因为将其应用于如此小百分比的细胞基因时无法证明恒定平均表达(constant mean expression)的假想是正确的。

第二，通过将每一基因除以最大标准化信号的对数平方根，在步骤610和611中完对偶报道物的全异动态范围的校正；但是，每种情况下用来影响标准化的数值是与所述1532基因子集近似的数值。

对对偶相关对偶的测量结果排序，结果如下：

表8

次序处理相对谱分值

(药物浓度μg/ml)

0 10洛伐他汀溶于1％乙醇 100

(标准或参照条件；实验1538)

1 5洛伐他汀溶于1％乙醇 91

2 20米法斯丁溶于1％乙醇 88

3 4氟伐地汀 84

4 20洛伐他汀溶于1％乙醇 63

5 10西伐他汀溶于1％乙醇 80

6 2氟伐地汀 79

7 15西伐他汀溶于1.5％乙醇 79

8 5西伐他汀溶于1％乙醇 74

9 10米法斯丁溶于1％乙醇 72

10 20阿伐他汀溶于1％乙醇 71

11 5米法斯丁溶于1％乙醇 66

12 0.015氯苯甲氧咪唑或益康唑溶于 65

1％甲醇

13 0.15氯三苯甲咪唑或克霉唑溶于1％ 64

甲醇

14 0.02氯苯甲氧咪唑溶于1％甲醇 64

15 1氟康唑溶于0.09 mg/ml NaCl 62

16 0.125氯三苯甲咪唑溶于1％甲醇 60

17 0.1氯三苯甲咪唑溶于1％甲醇 58

18 2氟康唑溶于0.09 mg/ml NaCi 52

19 0.03氯苯甲氧咪唑溶于1％甲醇 51

20 15阿伐他汀溶于1％乙醇 51

21 3氟康唑溶于0.09 mg/ml NaCi 50

22 50硝苯地平或硝苯吡啶溶于1％DMSO 39

23 50孕酮溶于1％DM50 36

24 10孕酮溶于1％DMSO 36

23 40硝苯地平溶于1％DMSO 33

26 1.5衣霉素溶于1％DMSO 32

表8表明-与上述实施例1-4给出的结果一致-将图1A、1B和6中的算法应用到含1532个独一无二基因报道物的基因表达谱可以允许对药物与10μg/ml HMG-CoA还原酶抑制剂洛伐他汀之间的相关程度进行定量。

因此，同类的其他药物-米法斯丁、氟伐他汀、西伐他汀和Atorvastatin-表现出与洛伐他汀很密切相关。接着在排定的序列中出现的是影响固醇生物合成途径其他步骤的药物，例如氯苯甲氧咪唑、氯三苯甲咪唑和氟康唑。随后是结构或作用模式基本上不同的药物，例如孕酮、硝基地平及衣霉素。多种多样的具有甚至更低相关谱范围的其他药物未显示。

然后，查询用于制备表8的基因表达谱数据，并用图9和10中概括出的公式进行处理。设计该公式的目的是从基因表达内1532个基因中鉴定出一个子集，无论其数目减少多少，只要其能够充分代表基因表达的所有组成成分，从而实现对基因表达谱相关程度的定量。为了获得一96个基因的子集-与标准微量滴定板孔数目相等-根据经验将极限阈值设定为10，相关阈值设定为0.675。使用编码于C中的算法步骤，在数字电脑上运行该公式。

如此鉴定得到的基因子集列于下表9中。根据本发明，表中列出的基因功能是那些在斯坦福大学的酵母(酵母)基因组数据库(http://genome-www.stanford.edu/酵母)中已经报道的功能。

表9基因功能PDR12 多药物抗性的转运蛋白；类似于

pdr5pSUC2 转化酶ADH2 醇脱氢酶2Fμgi 蛋白二硫异构同系物YJL105wAGA1 α-凝集素的锚定亚单位HXT11 葡萄糖通透酶；高亲和力的己醣

转运蛋白YEL0 65wERG10 乙酰辅酶A硫解酶RPL39 核糖体蛋白rp146(rat 139)YG？1 应答营养低限合成的gp37糖蛋白NUT2 核酸内切酶启动子

ho中2个urs的负调控SNQ2 推定的ATP-依赖性通透酶ECM1 细胞外突变体YER166wMET16 3’磷酸腺苷硫酸还原酶

(phosphoadenylylsulfate reductase)B103 7,8-二氨基-壬酸转氨酶ZE01 抗zeocin的抗性TIF2 翻译启动因子THI4 硫胺生物合成酶GLN1 谷氨酸盐合成酶ECM2 细胞外突变体IDI1 异戊烯基二磷酸：二甲基烯丙基二磷酸异构酶

(dimethylallyl diphosphate isomerase)PAI3 蛋白酶pep4p的胞质抑制剂ACH1 乙酰基辅酶A水解酶YEL047cPDR5 多药物抗性的转运蛋白MFalpha 交配因子1CHA1 分解代谢的丝氨酸(苏氨酸)脱水酶CPA2 氨基甲酰磷酸盐合成酶YERi 50wYJR070cHST3 sir2的同系物GZF3 与dal80同源的GATA锌指蛋白3SpS100 孢子形成-特异性的壁成熟蛋白SW14 转录因子MFA2 交配的α信息素前体SAPiSS 155 Da sit4蛋白磷酸酶-相关蛋白TKL2 转酮醇酶，与tkll同源YER07 3wTJL107cSEDi 推定的细胞表面糖蛋白TKL071wYBR105eFAT2 脂肪酸转运蛋白，非常类似于fat1HXT10 高亲和力的己糖转运蛋白CCT7 含有t-复合亚单位7的伴侣蛋白SVS1 钒酸盐抗性BUD7 发芽位点选择(bud site selection)YER064cPIG2 与对应于yer054蛋白质具有30％的同一性；与gsy2p

相互作用YJL181wBAR1 在a因子上的a-细胞屏障活性MPT5COX6 细胞色素C氧化酶的亚单位viFOX2 过氧化物酶的多功能β-氧化蛋白

甘氨酸脱羧酶复合物GCV2 (P-亚单位)，甘氨酸合成酶

(P-亚单位)，甘氨酸切割系统

(P-亚单位)MIR1 线粒体输入蛋白受体(p32)；还纯化为线粒体磷酸盐

转运蛋白YBR147wPH03 酸磷酸酶，结构型的JL212cRPL12A 核糖体蛋白rp115(y115)(大肠杆菌111)(rat 1 12b)YJL017wSHA1 Hsp90 (九十)关联共-伴侣NIF3YHR140wYJR1 05wYDR4 52wFET4 低亲和力的铁(ⅱ)转运蛋白；

推定的转膜低亲和力铁(ⅱ)转运蛋白HXT2 高亲和力己糖转运蛋白-2PCL1 与pho85相连的G(sub)1细胞周期蛋白HOM3 天冬氨酸激酶TRP2 (邻)氨基苯甲酸盐合成酶组分ISKI3 含有8个拷贝的tpr结构域；

抗病毒蛋白PH084 无机磷酸盐转运蛋白，

转膜蛋白PPQ1 蛋白磷酸化酶q；可能在翻译调节中起作用YER072wUTR2SBH1 同源于sbh2pYER096wILV3 二氢酸脱氢酶YKL078wSKT5 原生质体再生及致死毒素

抗性基因，可能是几丁质合成酶ⅲ活性调控的翻译

后调控剂，与

chs3p相互作用YKL187cTDH1 甘油醛-3-磷酸盐脱氢酶1YJR096wHIS4 组氨酸生物合成-3酶alpha2 存在于单倍体细胞内，与mcml作用阻抑a-特异基

因。二倍体细胞中与al作用阻抑单倍体特异性基因。SER1 磷酸丝氨酸转氨酶SIR2 沉默交配座位的调节剂OYE3 Nad(p)h脱氢酶；old yellow enzymeFIG1 膜内在蛋白质TRP1 n-(5’-磷酸核糖)-(邻)氨基苯甲酸盐异构酶CHS6 参与几丁质生物合成以及/或者其调控CDC8 胸苷酸激酶MRS6 Rab香叶基转移酶香叶基转移酶

可以看出，无论功能如何该子集包括了大量具有全异功能的基因。

对数据库中每个基因表达谱与存在10μg/ml洛伐他汀时产生的基因表达谱之间的相关程度进行对偶定量，基本上按照图1A、1B和6所示方法来进行，只使用来自表9中列出的96个基因的表达数据。然后对对偶相关对偶的测量结果排序，结果如下：

表10

次序处理相对谱分值

(药物浓度μg/ml)

0 10洛伐他汀溶于1％乙醇 100

(标准或参照条件；实验1538)

1 5洛伐他汀溶于1％乙醇 92

2 20米法斯丁溶于1％乙醇 92

3 20洛伐他汀溶于1％乙醇 89

4 10西伐他汀溶于1％乙醇 84

5 4氟伐他汀 83

6 2氟伐他汀 80

7 5西伐他汀in 1％乙醇 79

8 10米法斯丁溶于1％乙醇 79

9 15西伐他汀溶于1.5％乙醇 79

10 5米法斯丁溶于1％乙醇 79

11 20 Atorvastatin溶于1％乙醇 76

12 15 Atorvastatin溶于1％乙醇 63

13 0.015氯苯甲氧咪唑溶于1％甲醇 62

14 0.15氯三苯甲咪唑溶于1％甲醇 61

15 0.125 Clotrimazole溶于1％甲醇 59

16 50硝苯地平溶于1％DMSO 58

17 0.02氯苯甲氧咪唑溶于1％甲醇 58

18 0.03氯苯甲氧咪唑溶于1％甲醇 55

19 1氟康唑溶于0.09 mg/ml NaCl 54

20 0.1氯三苯甲咪唑溶于1％甲醇 51

21 40硝苯地平溶于1％DMSO 46

22 1衣霉素溶于1％DMSO 44

23 1.5衣霉素溶于1％DMSO 42

24 2衣霉素溶于1％DMSO 41

25 100盐酸溶于 40

1％DMSO

26 2环己吡酮乙醇胺 40

表10证实了可以选择基因信息子集来实现对基因表达谱的定量分析。表8给出的分析中使用了来自1532个可获得基因的数据，表10中列出的分析只使用了表9中列出的96个基因，该分析鉴定出HMG-CoA还原酶药物与洛伐他汀最相关，相关程度次之的是作用在同一生物合成途径其他部位的药物，而在目标和效果上毫不相关的药物表现出几乎不相关。

尽管这种说明是通过从上述1532个基因中选出的96个基因实施的，这些基因的表达数据可从数据库中获得，但是该信息子集的鉴定可确保从只用于鉴定报道物的数据中实现信息基因表达数据的后续且预期的获得，而且可以保证这样获得数据使得可以定量分析基因表达谱。

本发明提及的所有专利、专利公开文本以及其他公开的文献在此引入仅作参考，如同每一文献都是通过本发明引用而单独并特别地引入。

尽管本发明对优选的说明性实施方案进行了描述，但是显而易见的是本领域技术人员可以作出不脱离本发明范围的各种变动和改进，本发明所附权利要求的目的就是为了完全覆盖所有这些落入本发明实质和范围之内的变动和改进。

Claims

1．一种对第一和第二基因表达谱之间相关程度进行定量的方法，该方法包括下述步骤：

(b)为每对第一和第二基因表达信号用公式表示出一个相对的表达数值；以及

(c)从所述对偶的相对表达数值中计算出一个复合分值，

其中所述的复合分值可定量所述两基因表达谱的相关程度。

2．权利要求1中的方法，其中所述的基因表达信号建立步骤包括下述步骤：

(a1)将从每个所述基因获得的初始表达信号的大小与从其各自基因表达谱获得的初始背景信号的大小进行比较；以及

(a2)对每一所述小于各自对应初始背景信号的初始表达信号的大小进行调整。

3．权利要求2中的方法，其中所述的基因表达信号建立步骤进一步还包括下述一后续步骤：

(a3)将所述的初始表达信号和所述调整后的初始表达信号的大小针对对应各自基因表达谱的所有所述信号进行标准化。

4．权利要求3中的方法，其中所述的基因表达信号建立步骤进一步还包括下述一后续步骤：

(a4)将所述标准化后的信号的对数指定为每一所述基因表达信号的数值。

5．权利要求4中的方法，其中所述的基因表达信号建立步骤进一步还包括下述一后续步骤：

(a5)对于每一所述标准化后的对数信号而言，从条件-匹配的对照中减去同样处理后的基因表达信号作为每个基因获得的信号。

6．权利要求1中的方法，其中所述的相对表达数值公式化步骤包括下述步骤：

(b1)计算出每对所述第一及第二基因表达信号之间的比值；

(b2)从进一步处理中消去每一所述计算得到的比值，为此所述较早的背景信号调整及标准化步骤可能会改变该比值的方向。

7．权利要求6中的方法，其中所述的相对表达数值公式化步骤进一步还包括下述的后续步骤：

(b3)将所述计算得到的比值绝对数值大小与恒定阈值的大小进行比较；以及

(b4)从对每一所述计算得到的比值的进一步处理中消去未超过所述恒定阈值的绝对数值。

8．权利要求7中的方法，其中所述的相对表达数值公式化步骤进一步还包括下述的后续步骤：

(b5)将每一所述相对表达数值针对于该表达数值的基因观察到的历史最大表达信号单个地进行标准化。

9．权利要求6中的方法，其中所述的相对表达数值公式化步骤进一步还包括下述的后续步骤：

(b3)将每一所述相对表达数值针对于该表达数值的基因观察到的历史最大表达信号单个地进行标准化。

10．权利要求1-9中任一项所述的方法，其中所述的复合分值计算步骤包括下述步骤：

(c1)将此前未消去的所有所述相对表达数值累积；以及

(c2)调整预先消除的基因的百分比。

11．一种对第一和第二基因表达谱之间相关程度进行定量的方法，该方法包括下述步骤：

(a)为第一和第二基因表达谱中共有的每个基因分别建立一个第一和第二基因表达信号；

(b)对共有基因的对偶的第一和第二基因表达信号进行线性回归；

其中所述的这种回归的相关系数可定量这两基因表达谱的相关程度。

12．权利要求11中的方法，其中所述的基因表达信号建立步骤包括下述步骤：

(a2)对小于各有对应初始背景信号的所述初始表达信号的大小进行调整。

13．权利要求12中的方法，其中所述的基因表达信号建立步骤进一步还包括下述一后续步骤：

(a3)将所述初始表达信号和所述调整后的初始表达信号的大小针对对应各自基因表达谱的所有信号进行标准化。

14．权利要求13中的方法，其中所述的基因表达信号建立步骤进一步还包括下述一后续步骤：

15．权利要求14中的方法，其中所述的基因表达信号建立步骤进一步还包括下述一后续步骤：

16．权利要求11中的方法，其中所述的第一及第二基因表达信号包括大小小于2个自然对数的信号。

17．权利要求16中的方法，其中所述的第一及第二基因表达信号包括大小小于1个自然对数的信号。

18．一种对多个基因表达谱与一单个预选基因表达谱相关程度进行排序的方法，该方法包括下述步骤：

(a)对偶地定量上述多个基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及

(b)对所述的对偶测量的定量数值进行排序。

19．一种对施加在细胞上的第一和第二环境条件的相关程度进行定量的方法，该方法包括下述步骤：

(a)在所述的每一种第一和第二环境条件下，从细胞或者从基因型相同的细胞中获得一种基因表达谱；以及

(b)对所述第一和第二基因表达谱的相关程度进行定量。

20．权利要求19中的方法，其中所述对基因表达谱的相关程度进行定量的步骤是按照权利要求1-9任一项中所述方法进行的。

21．权利要求19中的方法，其中所述对基因表达谱的相关程度进行定量的步骤是按照权利要求11-17任一项中所述方法进行的。

22．权利要求19中的方法，其中所述的第一和第二环境条件包括将所述细胞暴露于第一和第二化合物。

23．一种对作用于一细胞的多种环境条件和单个预选环境条件的相关程度进行排序的方法，所述方法包括下述步骤：(a)从该细胞或者从基因型相同的细胞中获得针对于所述多种环境条件中每一种和预选环境条件的基因表达谱；(b)对偶地定量上述多种基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及然后(c)对所述的对偶测量的定量数值进行排序。

24．权利要求23中的方法，其中所述的定量基因表达谱相关程度的步骤是按照权利要求1中所述的方法进行的。

25．权利要求23中的方法，其中所述的定量基因表达谱相关程度的步骤是按照权利要求11中所述的方法进行的。

26．权利要求23中的方法，其中所述的环境条件包括将细胞暴露于一化合物。

27．一种对一预选环境条件与细胞的一种特定遗传突变间相关程度定量的方法，该方法包括下述步骤：

(a)在预选的环境条件下，从具有所述特定突变的细胞中获得第一基因表达谱以及从一野生型细胞中获得第二基因表达谱；以及

(b)对所述第一和第二基因表达谱的相关程度定量。

28．权利要求27中的方法，其中所述的定量基因表达谱相关程度的步骤是按照权利要求1中所述的方法进行的。

29．权利要求27中的方法，其中所述的定量基因表达谱相关程度的步骤是按照权利要求11中所述的方法进行的。

30．权利要求27中的方法，其中所述的环境条件包括将细胞暴露于一化合物。

31．一种将多种环境条件中每一种与细胞的某一特定遗传突变间相关程度进行排序的方法，该方法包括下述步骤：(a)在上述的每一种环境条件下从野生型细胞中获得第一基因表达谱，以及从具有特定突变的细胞中获得第二基因表达谱；(b)对偶地定量每个上述第一基因表达谱与所述第二基因表达谱间的相关程度；以及然后(c)将所述的对偶测量的定量数值进行排序。

32．权利要求31中的方法，其中所述的定量基因表达谱相关程度的步骤是按照权利要求1中所述的方法进行的。

33．权利要求31中的方法，其中所述的定量基因表达谱相关程度的步骤是按照权利要求11中所述的方法进行的。

34．权利要求31中的方法，其中所述的环境条件包括将细胞暴露于一化合物。

35．一种对一细胞的第一遗传突变与一细胞的第二遗传突变间相关程度进行定量的方法，该方法包括下述步骤：(a)从具有所述第一种遗传突变的细胞中获得第一基因表达谱，以及从具有所述第二种遗传突变的细胞中获得第二基因表达谱；以及(b)对所述第一和第二基因表达谱的相关程度定量。

36．权利要求35中的方法，其中所述的定量基因表达谱相关程度的步骤是按照权利要求1中所述的方法进行的。

37．权利要求35中的方法，其中所述的定量基因表达谱相关程度的步骤是按照权利要求11中所述的方法进行的。

38．一种对多种遗传突变中每一个与一细胞的预选遗传突变间的相关程度进行排序的方法，该方法包括下述步骤：

(a)从具有所述多种遗传突变其中之一的细胞中获得一套第一基因表达谱，以及从具有所述第二种遗传突变的细胞中获得第二基因表达谱；

(b)对所述每个第一基因表达谱与第二基因表达谱的相关程度进行定量；以及

(c)将所述的对偶测量的定量数值排序。

39．一种对第一和第二基因表达谱之间相关程度进行定量的系统，该系统包括：

(a)用来为第一和第二基因表达谱中共有的每个基因分别建立第一和第二基因表达信号的仪器；

(b)用来为每对第一和第二基因表达谱用公式表示出一个相对的表达数值所使用的仪器；以及

(c)用来从对偶设立的相对表达数值中计算出一个复合分值所使用的仪器，其中所述的复合分值可定量所述两基因表达谱的相关程度。

40．一种用于定量第一和第二基因表达谱相关程度的系统，其中色括：

(a)为第一和第二基因表达谱中共有的每个基因分别建立一个第一和第二基因表达信号所使用的仪器；

(b)对共有基因的对偶的第一和第二基因表达信号进行线性分析所使用的仪器；

其中所述的这种回归分析的相关系数可定量这两基因表达谱的相关程度。

41．一种用来将多种基因表达谱与一单个预选基因表达谱间的相关程度排序使用的系统，其中包括(a)对上述多种基因表达谱中每一个与所述预选基因表达谱间的相关程度进行对偶定量所使用的仪器；以及(b)将所述的对偶测量的定量数值排序所使用的仪器。

42．一种用于定量第一和第二基因表达谱间相关程度的电脑系统，其中包括一处理器，所述处理器用来执行下述程序：

(b)为每对第一和第二基因表达谱用公式表示出一个相对的表达数值；以及(c)从这些对偶设立的相对表达数值中计算出一个复合分值，

其中所述的复合分值可定量所述两基因表达谱的相关程度。

43．一种用于定量第一和第二基因表达谱间相关程度的电脑系统，其中包括一处理器，该处理器用来执行下述程序：(a)为第一和第二基因表达谱中共有的每个基因分别建立一个第一和第二基因表达信号；

其中所述回归分析的相关系数可定量这两基因表达谱的相关程度。

44．一种用于将对多种基因表达谱与一单个预选基因表达谱间相关程度进行排序的电脑系统，其中包括一处理器，该处理器用来执行下述程序：

(b)将所述对偶测量的定量数值排序。

45．一种存储有指令的电脑可读存储介质，当通过电脑执行时，可以使得该电脑执行一种对第一和第二基因表达谱之间相关程度进行定量的方法，该方法包括下述步骤：

(c)从所述对偶的相对表达数值中计算出一个复合分值，

其中所述的复合分值可定量所述两基因表达谱的相关程度。

46．一种存储有指令的电脑可读存储介质，当通过电脑执行时，可以使得该电脑执行一种对第一和第二基因表达谱之间相关程度进行定量的方法，该方法包括下述步骤：

47．一种存储有指令的电脑可读存储介质，当通过电脑执行时，可以使得该电脑执行一种将多个基因表达谱与一单个预选基因表达谱相关程度进行排序的方法，该方法包括下述步骤：

(a)对偶地定量上述多种基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及

(b)对所述的对偶测量的定量数值进行排序。

48．一种电脑可读存储介质，其中包括能使将第一和第二基因表达谱定量联系的存储数据成形的数据结构，该数据结构包括一针对每一表达谱的标识符和一个标量，该标量可将第一和第二基因表达谱定量地联系起来。

49．一种包括数据结构的电脑可读存储介质，该数据结构能使将多种基因表达谱与一单个预选基因表达谱间相关程度排序的存储数据成形，其中包括：

(a)顺序排列的一系列标量，每个标量对偶地定量了上述多种基因表达谱中每一个与所述预选基因表达谱间的相关程度；以及

(b)将每个标量与其各自所对应的基因表达谱联系起来的标识符。

50．一种筛选用于表达分析的基因信息子集的方法，该方法包括：

从表达相互关联的每组基因中选择出具有最大表达范围的基因。

51．权利要求50中的方法，所述选择是从多种基因表达谱中共有的成套基因中完成的。

52．权利要求50中的方法，所述的每一限度以及每一相互关联都是从多种基因表达谱中的表达数据计算而来的。

53．权利要求52中的方法，其中所述的筛选步骤包括下述分步骤：

(a)将所述多种基因表达谱中共有的成套基因，按照表达程度由最大到最小排序；以及然后

(b)从所述多种基因表达谱中表达上相互关联的每组基因中选择出具有最大表达限度的基因。

55．权利要求53中的方法，其中所述的选择分步骤包括连续的重复：

(b1)为所述子集选择第一基因，该基因保留在还未经选择的顺序集中；

(b2)从所述多种基因表达谱中，计算所述顺序集中每一基因表达与所选基因表达的相关程度。

(b3)从所述顺序集中去除所有相关程度超过阈值的基因。

56．权利要求53中的方法，其中所述的排序步骤进一步还包括下述前导步骤：除去所有范围小于阈值的基因。

57．一种筛选用于表达分析的基因信息子集的系统，该系统包括：

从表达相关的每组基因中选择出具有最大表达限度基因所使用的仪器。

58．一种筛选用于表达分析的基因信息子集的电脑系统，该系统包括一用于执行下述操作的处理器：从表达相关的每组基因中选择出具有最大表达限度的基因。

59．一种存储有指令的电脑可读存储介质，当通过电脑执行时，该指令可以使得该电脑执行一种筛选用于表达分析的基因信息子集的方法，该方法包括从表达相关的每组基因中选择出具有最大表达限度的基因。

60．一种包含数据结构的电脑可读存储介质，该数据结构能使代表用于表达分析的基因信息子集成形，所述数据结构包括一套基因标识符，任选地包括一种基因功能的描述。

61．一种细胞表型的方法，该方法包括：

选择不超过20％的细胞可表达基因用于表达分析；

其中所述基因的并行表达可以充分定义细胞表型，从而将该细胞表型与另一细胞的表型定量联系起来。

62．权利要求61中的方法，其中选择的所述细胞可表达基因不超过10％。

63．权利要求62中的方法，其中选择的所述细胞可表达基因不超过5％。

64．权利要求63中的方法，其中选择的所述细胞可表达基因不超过2％。

65．权利要求64中的方法，其中选择的所述细胞可表达基因不超过1％。