CN101601042A

CN101601042A - 通过血液白细胞微阵列分析诊断转移性黑色素瘤和监测免疫抑制的指示物

Info

Publication number: CN101601042A
Application number: CNA2007800491961A
Authority: CN
Inventors: A·K·帕露卡; J·F·班彻罗; D·肖萨贝尔
Original assignee: Baylor Research Institute
Current assignee: Baylor Research Institute
Priority date: 2006-11-03
Filing date: 2007-11-03
Publication date: 2009-12-09
Also published as: AU2007347118A1; EP2579174A1; NZ576428A; CA2704288A1; NZ588574A; EP2506172A1; JP2010508826A; IL198360A0; AU2007347118B2; NZ598954A; EP2570951A1; EP2080140A4; EP2080140A2; US20100076691A1; ZA200903018B; KR20090078365A; EP2080140B1; HK1131833A1; WO2008100352A2; WO2008100352A3

Abstract

本发明包括使用微阵列通过计算来自一种或多种基因表达的一种或多种表达载体用于早期检测和一致确定转移性黑色素瘤和/或免疫抑制的组合物、系统和方法。

Description

通过血液白细胞微阵列分析诊断转移性黑色素瘤和监测免疫抑制的指示物

发明的技术领域

总的来说，本发明涉及用于监测转移性黑色素瘤和/或免疫抑制的指示物的诊断领域，并且更具体而言，涉及用于转移性黑色素瘤的诊断、预后和追踪以及监测与移植接受者(例如，肝)相关的免疫抑制的指示物的系统、方法和设备。

长表格

本专利申请包含长表格部分。表格的副本可以以电子形式从USPTO网站(http://seqdata.uspto.gov/)获得。根据37 CFR 1.19(b)(3)中所述的请求和支付费用后也可以从USPTO获得表格的电子副本。

发明背景

本申请要求于2005年12月9日提交的美国临时专利申请序列号60/748,884的优先权，所述专利申请的全部内容引入本文作为参考。不限制本发明的范围，其背景与诊断方法相关进行描述。

药理学免疫抑制已在移植中起作用，将最后依靠的实验操作方法转化成常规成功的操作。环孢素和他克莫司(tacrolimus)/FK506目前构成了用于移植接受者的主要支持。活化T细胞已被视为用于免疫抑制治疗的主要细胞靶，但近期报告还注意到这些药物对抗原呈递细胞的显著作用，可能进一步促成免疫无应答的一般状态的建立(Lee等人，2005b；Woltman等人，2003)。尽管由药理学治疗产生的严重的免疫抑制对于移植物存活和功能的维持是必需的，但它也使接受者暴露于威胁生命的感染和恶性肿瘤。皮肤癌是器官移植接受者中充分确定的并发症(Gerlini等人，2005)。近期的流行病学研究显示在欧洲1115个肾移植患者中，接近20％发生皮肤恶性肿瘤(Bordea等人，2004)，其中在较不温和的气候中观察到高得多的发生率，例如在澳大利亚高达28％(Carroll等人，2003)。除更经常发生外，皮肤恶性肿瘤在移植患者中趋于采取更具侵略性的临床过程，具有远距离转移和导致致命性后果的更高倾向(Barrett等人，1993)。

肿瘤通过损害免疫系统来维持其存活。已确定了不同的机制，包括分泌免疫抑制因子例如细胞因子(例如，IL-10、TGF-β)、激素(例如，前列腺素E2)及其他(例如，MIA：黑色素瘤抑制活性、腱生蛋白C)(Jachimczak等人，2005；Puente Navazo等人，2001)。此外，肿瘤可能促进抑制性T细胞的发展(Liyanage等人，2002；Viguier等人，2004)，其可能通过调节树突状细胞(Gabrilovich，2004；Lee等人，2005a；Monti等人，2004)来进行。

因此，无论是来自肿瘤还是药理学治疗的免疫抑制已与癌症进程关联。因此，常见的分子标记物可以通过描绘出外周血单核细胞(“PBMC”)样本中的基因组-范围的转录活性谱来进行鉴定，所述样本从具有转移性黑色素瘤或肝异体移植的免疫抑制患者获得。在本研究中产生的白细胞转录谱的分析支持此观念，并鉴定了免疫抑制的血液标记物。

发明概述

基因组研究正面临转录数据分析的重大挑战，所述转录数据具有极高噪声、难以解释且在实验室和平台之间可比性差。本发明人已开发了着重在早期分析阶段选择生物学相关基因的分析策略，其合并入克服微阵列平台之间不一致性的分析模块中。所开发的转录模块可以用于分析大型基因表达数据集。如在商业微阵列平台之间观察到的高度可重复性所证实的，来源于这种分析的结果易于解释且特别稳健。

通过挖掘大组PBMC转录谱来阐明所述分析方法的应用。鉴定了重组4,742个基因形成的28个转录模块。使用本发明可能证实疾病通过在模块水平上测量的例如血液白细胞中的转录变化的组合来独特表征。事实上，血液白细胞转录水平在模块水平的变化构成疾病或样本的分子指纹。

本发明具有广泛的应用。它可以用于表征任意生物系统(例如外周血单核细胞(PBMC)、血细胞、粪便细胞、腹膜细胞、实体器官活检物、切除的肿瘤、原代细胞、细胞系、细胞克隆等)的模块转录成分。通过这种方法产生的模块化PBMC转录数据可以用于分子诊断、预后、疾病严重程度的评估、对药物治疗的反应、药物毒性等。使用这种方法处理其他数据，可以用于例如机理研究或药物化合物的筛选。事实上，数据分析策略和挖掘算法可以在普通基因表达数据分析软件中执行，并且甚至可以用于发现、开发和测试新的疾病或病症特异性模块。本发明还可以与药物基因组学、分子诊断、生物信息学等结合使用，其中深入表达数据可以用于完善在临床试验中获得的结果(例如通过完善样本群或从样本群中亚选择)。

更具体而言，本发明包括通过下述用于诊断疾病或病症的阵列、设备、系统和方法：获得患者的转录组；基于指示疾病或病症的一个或多个转录模块来分析转录组；和基于一个或多个转录模块中转录组内的基因的存在、缺失或表达水平来确定患者的疾病或病症。转录模块可以通过下述获得：通过下述迭代选择一个或多个转录模块的基因表达值：所述迭代选择通过从与各种疾病或病症相匹配的各集群中选择基因模块；分析排除选择的基因；和对集群于疾病或病症的亚部分的基因进行重复基因表达值选择的过程；以及对每一集群迭代重复模块的生成，直至用完所有的基因集群。

被选择用于本发明的集群的实例包括但不限于：表达值集群、关键词集群、代谢集群、疾病集群、感染集群、移植集群、信号集群、转录集群、复制集群、细胞周期集群、siRNA集群、miRNA集群、线粒体集群、T细胞集群、B细胞集群、细胞因子集群、淋巴因子集群、热休克集群及其组合。使用本发明来分析的疾病或病症的实例包括：例如自身免疫疾病、病毒感染、细菌感染、癌症和移植排斥反应。更特别地，用于分析的疾病可以选自下述病症的一种或多种：全身性幼年特发性关节炎，系统性红斑狼疮，I型糖尿病，肝移植接受者，黑色素瘤患者和患者细菌例如大肠杆菌(Escherichia coli)、金黄色葡萄球菌(Staphylococcus aureus)感染，病毒例如流感病毒A感染及其组合。甚至还可以制备检测与生物恐怖试剂(bioterroragent)相关的特定疾病或病症的特异性阵列。

可以使用本发明分析的细胞包括：例如外周血单核细胞(PBMC)、血细胞、粪便细胞、腹膜细胞、实体器官活检物、切除的肿瘤、原代细胞、细胞系、细胞克隆及其组合。细胞可以是单个细胞、细胞的集合、组织、细胞培养物、体液例如血液中的细胞。细胞可以获得自：组织活检物、一种或多种分选细胞群、细胞培养物、细胞克隆、经转化的细胞、活检物或单个细胞。细胞的类型可以是：例如脑、肝脏、心脏、肾、肺、脾、视网膜、骨、神经元、淋巴结、内分泌腺、生殖器官、血液、神经、血管组织和嗅上皮细胞。在细胞分离后，获得来自于这些细胞的这些mRNA，并且使用例如探针阵列、PCR、定量PCR、微珠试验及其组合来进行个体基因表达水平的分析。甚至可以使用在固体支持物上的核酸杂交来进行个体基因表达水平分析，所述杂交使用由从细胞中收集的mRNA作为逆转录酶的模板制得的cDNA。

药理学免疫抑制促进移植物在移植接受者中的存活。内源性免疫抑制促进肿瘤在癌症患者中的存活。来自转移性黑色素瘤患者的白细胞显示与在药理学免疫抑制下的肝移植接受者共同的内源性免疫抑制标记物。血液微阵列分析在25名健康志愿者、35名转移性黑色素瘤患者和39名肝移植接受者中进行。与健康对照比较，在独立的数据集中鉴定并证实了疾病标记物。对与六种其他疾病相比在黑色素瘤和移植组中优先过表达的一组69个转录本的分析揭示显著的功能趋同(Functional convergence)，包括白介素-2转录的几种阻遏物、NF-κB和MAPK途径的有力抑制物以及抗增殖分子。因此，转移性黑色素瘤患者显示免疫抑制的内源性转录标记物。这种标记物目前可以用于鉴定具有转移性黑色素瘤进展高风险的患者。

本发明包括使用多重可变基因表达分析来分析样本的系统和方法，其用于转移性黑色素瘤的预后和诊断和/或监控与移植接受者(例如肝)相关的免疫抑制指示物。保留的基因表达差异可以以高度可信性归于未匹配的变异。因此鉴定的基因表达差异可以用于例如诊断疾病、鉴定生理学状态、设计药物和监测治疗。

样本可以通过定量表达载体的mRNA、蛋白质或者mRNA和蛋白质二者的水平进行筛选。当筛选关于mRNA水平时，它可以通过选自下述的方法进行定量：聚合酶链式反应、实时聚合酶链式反应、逆转录酶聚合酶链式反应、杂交、探针杂交和基因表达阵列。筛选方法还可以包括生物标志物中的多态性检测。供选择地，筛选步骤可以使用选自下述的至少一种技术来完成：聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、基因组比较杂交、DNA印迹、RNA印迹、蛋白质印迹、酶联免疫吸附测定、荧光共振能量转移和测序。对于本发明使用，样本可以是许多免疫细胞中的任何一种，例如白细胞或其亚组分。

在一个实施方案中，本发明包括鉴定具有黑色素瘤的受试者的方法，该方法通过检查选自表2、8、9、12及其组合的6、7、8、10、15、20、25或更多基因的组合的样本的表型进行。

在一个实施方案中，本发明包括鉴定响应移植接受者中的药理学免疫抑制的基因表达的方法，该方法通过检查选自表10、11、13及其组合的6、7、8、10、15、20、25或更多基因的组合的样本的表型进行。

样本可以通过定量表达载体的mRNA、蛋白质或者mRNA和蛋白质二者的水平进行筛选。当检查mRNA水平时，它可以通过选自下述的方法进行定量：聚合酶链式反应、实时聚合酶链式反应、逆转录聚合酶链式反应、杂交、探针杂交和基因表达阵列。筛选方法还可以包括生物标志物中的多态性检测。供选择地，筛选步骤可以使用选自下述的至少一种技术来完成：聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、基因组比较杂交、DNA印迹、RNA印迹、蛋白质印迹、酶联免疫吸附测定、荧光共振能量转移和测序。对于与本发明一起使用，样本可以是许多免疫细胞中的任何一种，例如白细胞或其亚组分。

表达载体可以通过定量表达载体的mRNA、蛋白质或者mRNA和蛋白质二者水平进行筛选。当表达载体是mRNA水平时，它可以通过选自下述的方法进行定量：聚合酶链式反应、实时聚合酶链式反应、逆转录聚合酶链式反应、杂交、探针杂交和基因表达阵列。筛选方法还可以包括生物标记物中的多态性的检测。供选择地，筛选步骤可以使用选自下述的至少一种技术来完成：聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、比较基因组杂交、DNA印迹、RNA印迹、蛋白质印迹、酶联免疫吸附测定、荧光共振能量转移和测序。对于本发明使用，样本可以是许多免疫细胞中的任何一种，例如白细胞或其亚组分。

例如，通过确定包括一种或多种转移性黑色素瘤表达载体的表达水平的数据库来鉴定具有黑色素瘤的受试者的方法。本发明的另一个实施方案包括通过获得多个样本探针强度用于确定样本基因型的计算机实施方法。基于样本探针强度以及计算样本探针强度与参比探针强度之间的线性相关系数来诊断转移性黑色素瘤。

本发明还包括计算机可读介质，其包括用于执行确定样本基因型的方法的计算机可执行指令。确定表型的方法包括获得多个样本探针强度，和基于选自表2、3、8、9、12及其组合中列出到数据集内的那些中的两种或更多种转移性黑色素瘤表达载体的样本探针强度来诊断黑色素瘤；以及计算样本探针强度和参比探针强度之间的线性相关系数。如果线性相关系数大于阈值，则接受暂定表型作为样本的表型。此外，本发明包括用于鉴定具有黑色素瘤的人受试者的微阵列。微阵列包括表2、8、9、12及其组合中列出到数据集内的两种或更多种转移性黑色素瘤基因表达的检测。本发明提供了通过测定一种或多种基因的表达水平，并计算一种或多种基因表达载体来区分转移性黑色素瘤和与移植相关的免疫抑制的方法。黑色素瘤特异性转录组-表达载体可以包括表2、3、8、9、12及其组合中列出的六种或更多种基因的上调或下调的值。本发明提供了通过测定一种或多种免疫抑制相关的表达载体的表达水平来鉴定具有与移植相关的免疫抑制的受试者的方法。免疫抑制特异性转录组-表达载体可以包括表10、11和13及其组合列出的六种或更多种基因的上调或下调的值。

本发明还包括用于确定样本中免疫抑制倾向的计算机实施方法，其包括获得多个样本探针强度和基于样本探针强度来诊断免疫抑制。计算多个样本探针强度与参比探针强度之间的线性相关系数。如果线性相关系数大于阈值，则接受暂定基因型作为样本的基因型。黑色素瘤特异性转录组-表达载体可以包括表2、8、9、12及其组合中列出的六种或更多种基因的上调或下调的值。免疫抑制特异性转录组-表达载体可以包括表10、11和13及其组合中列出的六种或更多种基因的上调或下调的值。

还包括计算机可读介质，其具有用于执行确定样本表型的方法的计算机可执行指令。用于确定样本表型的方法包括获得多个样本探针强度，以及基于两种或更多种免疫抑制相关的表达载体的样本探针强度来诊断免疫抑制。计算样本探针强度和参考探针强度之间的线性相关系数，并且如果线性相关系数大于阈值，则接受暂定表型作为样本的表型。本发明还包括用于诊断免疫抑制的系统，其包括用于确定选自1、2、3、4、5、6、8、10、15、20、25或更多种基因的两种或更多种免疫抑制表达载体的表达水平的表达水平检测器。黑色素瘤特异性转录组-表达载体和用于产生保存到数据集内的各个基因的表达数据的那些，可以包括表2、8、9、12及其组合中列出的六种或更多种基因的上调或下调的值。免疫抑制特异性转录组-表达载体可以包括在包括表10、11和13及其组合中列出的六种或更多种基因的上调或下调的数据集中的值。

本发明的阵列、方法和系统甚至可以用于选择用于临床试验的患者，其通过以下进行：获得有希望的患者的转录组；比较转录组与指示要在临床试验中治疗的疾病或病症的一个或多个转录模块；以及基于在与临床试验成功相关的一个或多个转录模块内的患者的转录组中一种或多种表达基因的存在、缺失或水平，测定患者是用于临床试验的较好候选者的可能性。一般地，对于各个模块，可以使用与样本中的转录本比例的总和相关的载体，例如当各个模块包括载体和其中一种或多种与一种或多种载体相关的疾病或病症时。因此，各个模块可以包括与各个模块内的一种或多种基因的表达水平相关的载体。

本发明还包括阵列，例如定制微阵列，其包括固定在固体支持物上的核酸探针，所述固体支持物包括来自一种或多种表达载体的足够探针，以提供足够比例的差异表达的基因来区分一种或多种疾病。例如，固定在固体支持物上的核酸探针的阵列，其中阵列包括至少2组探针模块，其中第一探针组中的探针具有分别对应一种或多种疾病的一个或多个询问位置。阵列可以具有100-100,000种探针，并且每种探针可以例如长9-21个核苷酸。当分成组织的探针组时，这些可以独立询问。

本发明还包括固定在固体支持物上的一种或多种核酸探针，以构成模块阵列，所述模块阵列包括至少一对第一和第二探针组，每个组具有由表1限定的一种或多种探针。选择探针组以提供在在微阵列平台之间一致的复合转录标记载体。事实上，探针组甚至可以用于提供复合转录标记载体，其在微阵列平台之间是一致的，且显示用于监管部门要求的概述。技术人员应当理解，使用本发明的模块可以快速开发一个或多个疾病特异性阵列，其可以用于快速诊断或区分不同疾病和/或病症。

本发明还包括用于显示转录组载体数据的方法，通过使一种或多种基因分到一个或多个模块内，以视觉显示各个模块的合计基因表达载体值；和显示各个模块中用于该合计基因表达载体值的过表达、低表达或相等表达的合计基因表达载体值。在一个实例中，过表达用第一标识符标识，而低表达用第二标识符标识。标识符的实例包括颜色、形状、图案、光/暗、开/关、符号及其组合。例如，过表达用第一标识符标识，而低表达用第二标识符标识，其中第一标识符是第一种颜色，而第二标识符是第二种颜色，其中第一和第二标识符重叠以提供组合颜色。

附图简述

为更完全的理解本发明的特征和优点，现在参考本发明的详述以及附图，并且其中：

图1A至1C显示基本微阵列数据挖掘策略步骤，涉及公认的基因水平微阵列数据分析(图1A)，本发明的模块挖掘策略-图1B，以及模块提取算法的实际大小表示-图1C，以产生用于产生表达载体的一个或多个数据集；

图2是代表显示独立样本组中的模块基因表达谱水平的转录谱的曲线图；

图3是对4组协调表达基因获得的文献中关键词出现的分布；

图4例示用于表征转录系统的模块微阵列分析策略；

图5是患者血液白细胞转录谱的分析；

图6例示由疾病引起的转录变化的模块图；

图7例示鉴定转移性黑色素瘤患者中的血液白细胞转录标记物；

图8例示独立的样本组中微阵列结果的验证；

图9例示鉴定免疫抑制药物治疗的移植接受者中的血液白细胞转录标记物；

图10-13例示模块-水平分析的详细结果；

图14例示来自转移性黑色素瘤患者和来自肝移植接受者的血液中的特征性转录标记物的模块-水平分析；

图15例示患者血液白细胞中模块水平上的图谱转录变化；

图16例示来自转移性黑色素瘤患者和来自肝移植接受者的血液中的共同转录标记物的模块-水平分析；

图17例示与健康志愿者相比，在黑色素瘤和肝移植患者中具有更高水平表达的基因的显著性模式分析；

图18例示黑色素瘤和移植组共同的普遍且特异的基因标记物的模块分布；

图19例示免疫抑制的转录标记物；

图20显示在患者与其各自的对照之间的统计学组间比较；

图21显示关于在SLE患者中过表达但在急性A型流感感染的患者中没有过表达的基因的显著性模式的分析；

图22显示A型流感和SLE共同的基因的显著性模式；以及

图23是由根据显著性模式分组的流感感染和狼疮患者共有的基因的功能分析。

发明详述

尽管下文详细讨论了本发明的各种实施方案的制备和使用，但应当理解本发明提供了许多可应用的发明构思，其可以在广泛多样的具体情况中体现。本文讨论的具体实施方案仅是制备和使用本发明的具体方法的举例说明，并不限制本发明的范围。

为了便于理解本发明，下文定义了许多术语。本文定义的术语的含义与本发明相关领域的普通技术人员通常理解一致。术语例如“一个”、“一种”和“这”并不是仅指单个实体，而且包括可以用于例示的一类具体实例。本文的术语用于描述本发明的具体实施方案，但它们的使用不限制本发明，除如权利要求中概述的外。除非另有定义，本文使用的所有技术和科学术语具有由本发明所属领域的技术人员通常理解的含义。下述参考文献为技术人员提供本发明中使用的许多术语的一般定义：Singleton等，DictionaryOf Microbiology And Molecular Biology(第2版1994)；The CambridgeDictionary Of Science And Technology(Walker编辑，1988)；The Glossary OfGenetics，第5版，R.Rieger等(编辑)，Springer Verlag(1991)；以及Hale & Marham，The Harper Collins Dictionary Of Biology(1991)。

各种生化和分子生物学方法是本领域众所周知的。例如，分离和纯化核酸的方法在下述中详细描述：WO 97/10365，WO 97/27317，LaboratoryTechniques in Biochemistry and Molecular Biology的第3章：HybridizationWith Nucleic Acid Probes第I部分。Theory and Nucleic Acid Preparation(P.Tijssen，编辑)Elsevier，N.Y.(1993)；Laboratory Techniques in Biochemistryand Molecular Biology的第3章：Hybridization With Nucleic Acid Probes，第1部分。Theory and Nucleic Acid Preparation(P.Tijssen，编辑)Elsevier，N.Y.(1993)；以及Sambrook等，Molecular Cloning：A Laboratory Manual，Cold Spring Harbor Press，N.Y.，(1989)；和Current Protocols in MolecularBiology，(Ausubel，F.M.等编辑)John Wiley & Sons，Inc.，New York(1987-1999)，包括增刊，例如增刊46(1999年4月)。

生物信息学定义

本文所使用的“对象”，是指任何感兴趣的项目或信息(全文通用，包括名词、动词、形容词、副词、短语、句子、符号、数字字符等)。因此，“对象”一词是可以形成特定关系的任意事物以及可从来源获得、确认和/或检索到的任何事物。“对象”包括但不限于感兴趣的实体例如基因、蛋白、疾病、表型、机制、药物等。在某些方面，“对象”可以是数据，如下文进一步所描述的。

本文所使用的“关系”，是指在同样的单元(如短语、句子、文本的两个或两个以上行、段落、网页部分、页、杂志、论文、书籍等)内同时出现的对象。可以是文本、符号、数字及其组合。

本文所使用的“元数据内容”，是指在数据源中关于文本组织的信息。元数据可以包括标准元数据如都柏林核心元数据(Dublin Core metadata)或可以是特异性的集合。元数据格式的实例包括但不限于用于图书馆目录的机器可读目录(Machine Readable Catalog，MARC)记录、资源描述格式(ResourceDescription Format，RDF)以及可扩展标记语言(Extensible Markup Language，XML)。可以手动生成或是通过自动化信息提取算法产生元对象。

本文所使用的“引擎”，是指执行用于其他程序的核心功能或必要功能的程序。例如，引擎可以是操作系统的核心程序或是与其他操作程序的整体操作相互协调的应用程序。术语“引擎”还可以指包含可改变的算法的程序，例如，可以设计一种知识发现引擎，从而使得可以改变其确定关系的方法以反映确定和排序关系的新规则。

本文所使用的“语义分析”，是指例如通过后缀去除或词干或利用类属词典确定代表相似概念的词之间的关系。“统计学分析”是指基于计算各术语(词、词根、词干、n-元文法、短语等)出现数量的技术。在关于主题无限制的集合中，用于不同背景的相同短语可以代表不同的概念。同时出现短语的统计分析能够帮助解决词义的歧义。“语义分析”可用于进一步通过词类分析来减少歧义。本文所使用的一个或更多个这样的分析，是指更通常所说的“词法分析”。“人工智能(AI)”，是指通过非人力的设备如计算机，来执行人类认为值得注意的或是“智能”的任务的方法。实例包括鉴定图像、理解口语或书面语言以及解决问题。

本文所使用的术语“数据库”或″数据集″是指原始数据或编辑数据的储存库，即使在数据字段中可以发现不同的信息面。通常对数据库进行组织，使其内容能够被访问、管理和更新(例如，数据是动态的)。术语“数据库”和“源”在本发明中也可以互换使用，因为数据和信息的基本来源是数据库。然而，“源数据库”和“源数据”通常是指数据，例如非结构化文本和/或结构化数据，它们被输入识别对象和确定关系的系统中。源数据库可以是或不是关系数据库。然而，系统数据库通常包括关系数据库或者储存涉及对象间关系的数值的一些等同类型数据库。

本文所使用的“系统数据库”和“关系数据库”可以互换使用，是指一种或多种被组织成表格集合的数据集合，这些表格包含适合于预定义分类的数据。例如，数据库表格可以包括一种或多种由列(例如属性)定义的分类，而数据库的行可以包含对应于由列定义的分类的唯一对象。这样，对象例如基因的鉴定可以具有对应于基因的存在、缺失和/或表达水平的列。关系数据库的行也可以被称之为“集”，并通常由其所在列的数值定义。关系数据库上下文中的“域(domain)”是字段(field)，如列可以包括的有效值的范围。

本文所使用的“知识域”，是指所述系统在其上可以操作的研究的范围，如，所有的生物医学数据。应当指出的是，合并来自于若干领域的数据，如生物医学数据和工程数据，对于一个仅熟悉某范围或研究/学科(一个领域)的普通人员来说，其优点在于，多样化的数据有时能够将不能放在一起的事物联系起来。“分布的数据库”，是指可以在网络中的不同点分散或复制的数据库。

术语例如“数据”和“信息”经常互换使用，就像“信息”和“知识”。本文所使用的“数据”，是指最基本的单元，其是一种经验测量值或一组测量值。将数据汇编以促成信息，但数据基本上又是独立于信息的。相反地，信息来源于兴趣，例如，为发现与心血管疾病风险相关变量的目的，可以汇集关于种族、性别、身高、体重及饮食的数据(单元)。不过，可以使用相同的数据制定出公式或创作关于饮食偏好的“信息”，如超市中的某种产品是否有较高售出的可能性。

本文所使用的“信息”，是指数据组，其可以包括数字、文字、数字组、文字组或者导致或源于一组数据的结论。然后“数据”是测量值或统计值以及信息的基本单元。“信息”还可以包括其他类型的数据，如词语、符号、文本，例如非结构化自由文本、代码等。将“知识”宽松地定义为对于模型的原因及效果的给出充分系统理解的信息组。为扩充原先的实例，人口统计学数据、性别以及优先购买的信息可以用于开发区域性的食品销售市场策略，而购买者可利用民族信息作为产品进口的指南。重要的是要注意到，在数据、信息及知识之间没有严格的界限；有时这三个术语可以看作是等价的。通常地，数据来自于调查可获得，信息来自于相关性，并且知识来自于建模。

本文所使用的“程序”或“计算机程序”，通常是指符合特定程序语言规则的句法单元，其由声明和陈述或指示组成，为解决或执行特定功能、任务或问题，可分为”代码段”。程序语言一般是一种表达程序的人工语言。

本文所使用的“系统”或“计算机系统”，通常是指一台或更多台计算机、周边设备以及执行数据处理的软件。“使用者”或“系统操作者”通常包括：为达到数据处理和信息交换的目的，通过“用户设备”(如计算机、无线设备等)使用计算机网络来进行存取的人。“计算机”通常是能够执行基本运算包括在无人干涉的情况下进行大量计算操作和逻辑操作的功能单元。

本文所使用的“应用软件”或“应用程序”，通常指专门用于解决应用问题的软件或程序。“应用问题”通常是指由终端使用者提出并且对于其解决需要进行信息处理的问题。

本文所使用的“自然语言”，是指其规则是基于目前的使用而不作特别规定的语言，如英语、西班牙语或汉语。本文所使用的“人工语言”，是指在使用前就已经明确制定了其规则的语言，例如，计算机程序语言，如C、C++、Java、BASIC、FORTRAN或COBOL。

本文所使用的“统计相关性”，是指使用一个或更多个排序方案(O/E比、强度等)，如果某个关系的发生频率显著高于预期的随机频率，该关系被确定为统计学相关的。

本文所使用的术语“协同调节基因”或“转录模块”可以互换使用，是指分组的特定基因的基因表达谱(如与特定基因序列相关的信号值)。每一转录模块使两个关键数据组相关，所述两个关键数据组为文献检索部分和从基因微阵列获得的实际经验基因表达值数据。基于基因表达数据的分析(使用上述的模块提取算法)，将该基因集选择到转录模块中。其他步骤由以下文献教导：Chaussabel，D.和Sher，A.，Mining microarray expression data by literatureprofiling，Genome Biol3，RESEARCH0055(2002)，(http://genomebiology.eom/2002/3/10/research/0055)，其相关部分引入本文作为参考，并且从感兴趣的疾病或病症(如系统性红斑性狼疮、关节炎、淋巴瘤、癌、黑色素瘤、急性感染、自身免疫性疾病、自体炎性障碍等)获得表达数据。

下表列出了被用于开发文献检索部分或贡献转录模块的关键词的实例。本领域技术人员将会认识到，可以容易地选择其他术语用于其他病症，例如，特定的肿瘤、特定的传染病、移植等。例如，将与T-细胞活化有关的基因和信号在下文中描述为模块ID“M2.8”，其中某些关键词(例如，淋巴瘤、T-细胞、CD4、CD8、TCR、胸腺、淋巴、IL2)用于识别关键的T-细胞相关基因，例如，T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)；由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7；以及T-细胞分化蛋白mal、GATA3、STAT5B)。接下来，通过使来自于患者群的这些基因的数据相关以产生所述转录模块，从而开发出完整的模块(不考虑平台、存在/缺失和/或上调或下调)。在某些情况下，基因谱(在此时)与所述疾病病症及数据的任意特定基因集群并不相匹配，但是，某些生理途径(如cAMP信号、锌指蛋白、细胞表面标记物等)在“不确定组”模块中发现。事实上，在与关键词检索匹配前，可使用基因表达数据组提取协同表达的基因，即，每一数据组可以在与第二数据组交叉参考前相关联。

表1.在不同模块内的基因实例

模块I.D. 探针组关键词选择评估

数目

M 1.1 76 Ig、免疫球蛋白、浆细胞。包括编码免疫球蛋白链

骨、骨髓、前B、 (如IGHM、IGJ、IGLL1、IGKC、

IgM、μ IGHD)和浆细胞标志物CD38的

基因。

M 1.2 130 血小板、粘连、血小板。包括编码血小板糖蛋白

聚集、内皮、血 (ITGA2B、ITGB3、GP6、

管 GP1A/B)和血小板衍生的免疫介

质如PPPB(前血小板碱性蛋白)

及PF4(血小板因子4)的基因。

M 1.3 80 免疫受体、BCR、 B细胞。包括编码B-细胞表面标

B细胞、IgG 志物(CD72、CD79A/B、CD19、

CD22)和其他B-细胞相关分子：

早期B细胞因子(EBF)、B细胞

接头(BLNK)和B-淋巴细胞酪氨

酸激酶(BLK)的基因。

M 1.4 132 复制、阻遏、修未确定组。该组包括cAMP信号

复、CREB、淋巴、途径的调节物和靶点(JUND、

TNF-α ATF4、CREM、PDE4、NR4A2、

VIL2)以及TNF-α介导NF-KB活

化阻遏物(CYLD、ASK、

TNFAIP3)。

M 1.5 142 单核细胞、树突、髓系。包括由髓系细胞表达的分

MHC、共刺激、子(CD86、CD163、FCGR2A)，

TLR4、MYD88 其中一些涉及病原体的识别

(CD14、TLR2、MYD88)。该组

还包括TNF家族成员(TNFR2、

BAFF)。

M 1.6 141 锌、指、P53、RAS 未确定组。该组包括编码信号转

导分子例如含锌指的活化的STAT

的抑制物(PIAS1和PIAS2)或活

化T-细胞的核因子NFATC3的基

因。

M 1.7 129 核糖体、翻译、 MHC/核糖体蛋白。几乎由编码

40S、60S、HLA MHC I类分子(HLA-A、B、C、

G、E)+β2-微球蛋白(B2M)或

核糖体蛋白(RPL、RPS)的基因

排他的构成。

M 1.8 154 代谢、生物合成、未确定组。包括编码代谢酶(GLS、

复制、解旋酶 NSF1、NAT1)和涉及DNA复制

的因子(PURA、TERF2、EIF2S1)

的基因。

M 2.1 95 NK、杀伤细胞、细胞毒性细胞。包括细胞毒性T-

溶细胞、CD8、细胞和NK-细胞表面标志物

细胞介导、T细 (CD8A、CD2、CD160、NKG7、

胞、CTL、IFN-g KLRs)、溶细胞分子(颗粒酶、穿

孔素、颗粒溶解素)、趋化因子

(CCL5、XCL1)和CTL/NK-细

胞相关分子(CTSW)。

M 2.2 49 粒细胞、中性粒中性粒细胞。该组包括在中性粒

细胞、防御、髓细胞颗粒中发现的固有分子(乳

系、骨髓转铁蛋白：LTF、防御素：DEAF1、

细菌通透性增加蛋白：BPI、抗菌

肽抗微生物蛋白：CAMP...)。

M 2.3 148 红细胞、红、贫红细胞。包括血红蛋白基因

血、球蛋白、血 (HGB)及其他红细胞相关基因

红蛋白 (红细胞alkirin：ANK1、血型糖

蛋白C：GYPC，羟甲基胆素合成

酶：HMBS、红细胞相关因子：

ERAF)。

M 2.4 133 核糖核蛋白、核糖体蛋白。包括编码核糖体蛋

60S、核仁、集群、白(RPL、RPS)、真核翻译延长

延长因子家族成员(EEF)和核仁蛋白

质(NPM1、NOAL2、NAP1L1)

的基因。

M 2.5 315 腺瘤、间隙、间未确定组。该模块包括编码免疫

叶细胞、树突、相关(CD40、CD80、CXCL12、

动力 FINA5、IL4R)以及细胞骨架相关

分子(肌球蛋白、胞质分裂提呈

因子细胞激酶、多配体聚糖2、

Plexin C1、Distrobevin)的基因。

M 2.6 165 粒细胞、单核细髓系。包括在髓系细胞

胞、髓系、ERK、 (IGTB2/CD18、淋巴毒素β受体、

坏死髓系相关蛋白8/14甲酰肽受体1)

例如单核细胞和嗜中性粒细胞中

表达的基因。

M 2.7 71 未提取关键字未确定组。该模块大部分由具有

未知功能的转录本组成。仅20种

基因与文献相关，包括趋化素样

因子超家族的成员(CKLFSF8)。

M 2.8 141 淋巴瘤、T-细胞、 T细胞。包括T细胞表面标志物

CD4、CD8、TCR、 (CD5、CD6、CD7、CD26、CD28、

胸腺、淋巴、IL-2 CD96)和由淋巴系细胞表达的分

子(淋巴毒素-β、IL-2诱导的T-

细胞激酶、TCF7、T-细胞分化蛋

白质mal、GATA3、STAT5B)。

M 2.9 159 ERK、反式激活、未确定组。包括编码与细胞骨架

细胞骨架、相关的分子(肌动蛋白相关蛋白

MARK、JNK 2/3、MAPK1、MAP3K1、RAB5A)

的基因。还有T-细胞表达基因

(FAS、ITGA4/CD49D、

ZNF1A1)。

M 2.10 106 髓系、巨噬细胞、未确定组。包括编码免疫相关的

树突、炎症、白细胞表面分子(CD36、CD86、

介素 LILRB)、细胞因子(IL15)和涉

及信号途径的分子(FYB、

TICAM2-Toll样受体途径)的基

因。

M 2.11 176 复制、阻遏、未确定组。包括激酶(UHMK1、

RAS、自磷酸化、 CSNK1G1、CDK6、WNK1、

致癌 TAOK1、CALM2、PRKCI、ITPKB、

SRPK2、STK17B、DYRK2、

PIK3R1、STK4、CLK4、PKN2)

和RAS家族成员(G3BP、RAB14、

RASA2、RAP2A、KRAS)。

M 3.1 122 ISRE、流感、抗干扰素诱导的。该组包括干扰素

病毒、IFN-γ、诱导基因：抗病毒分子

IFN-α、干扰素 (OAS1/2/3/L、GBP1、G1P2、

EIF2AK2/PKR、MX1、PML)、趋

化因子(CXCL10/IP-10)、信号转

导分子(STAT1、STAt2、IRF7、

ISGF3G)。

M 3.2 322 TGF-β、TNF、炎炎症I。包括编码涉及炎症过程的

症、凋亡、脂多分子(例如IL8、IACM1、C5R1、

糖 CD44、PLAUR、IL1A、CXCL16)，

和凋亡调节物(MCL1、FOXO3A、

RARA、BCL3/6/2A1、GADD45B)

的基因。

M 3.3 276 炎症、防御、溶炎症II。包括通过炎症诱导或可诱

酶体、使氧化、导的分子(IL18、ALOX5、ANPEP、

LPS AOAH、HMOX1、SERPINB1)

以及溶酶体酶(PPT1、CTSB/S、

NEU1、ASAH1、LAMP2、CAST)。

M 3.4 325 连接酶、激酶、未确定组。包括蛋白磷酸酶

KIP1、泛素、伴 (PPP1R12A、PTPRC、PPP1CB、

侣蛋白 PPM1B)和磷酸肌醇3-激酶

(PI3K)家族成员(PK3CA、

PIK32A、PIP5K3)。

M 3.5 22 未提取关键字未确定组。仅由少数转录本组成，

包括血红蛋白基因(HBA1、

HBA2、HBB)。

M 3.6 288 核糖体的、T-细未确定组。该组包括线粒体核糖

胞、β-连环素体蛋白(MRPL、MPR)、线粒体

延长因子(GFM1/2)，Sortin Nexin

(SN1/6/14)以及溶酶体ATP酶

(ATP6V1C/D)。

M 3.7 301 剪接体、甲基化、未确定组。包括编码蛋白酶体亚

泛素单位(PSMA2/5、PSMB5/8)；泛

素蛋白连接酶HIP2、STUB1以及

泛素连接酶复合体组分(SUGT1)

的基因。

M 3.8 284 CDC、 TCR、未确定组。包括编码下述酶的基

CREB、糖基化酶因：氨甲基转移酶、精氨酰转移

酶、天冬酰胺合成酶、甘油二酯

激酶、肌醇磷酸酶、甲基转移酶、

解旋酶

M 3.9 260 染色质、检查点、未确定组。包括编码激酶(IBTK、

复制、反式激活 PRKRIR、PRKDC、PRKCI)和磷

酸酶(例如PTPLB、PPP2CB/3CB、

PTPRC、MTM1、MTMR2)的基

因。

本文所使用的术语“阵列”，是指固体支持物或基质，其具有与所述支持物连接的一个或更多个肽或者核酸探针。阵列通常具有一个或更多个不同的核酸或肽探针，所述探针与基质表面的不同的已知位点结合。这些阵列，又称为“微阵列”、“基因芯片””或DNA芯片，可以具有10,000、20,000、30,000或40,000个基于已知基因组如人类基因组的可识别的不同基因。将这些平板阵列(pan-array)用于检测在样本中表达或存在的整个基因“转录组”或转录池，所述基因例如表达为RNA、mRNA等可通过RT和/或RT-PCR技术来制备互补的DNA复制子组的核酸。可以使用机械合成法、光导合成法等结合非平版印刷和/或照相平版印刷法和固相合成法的组合制造阵列。可以使用包括与3种微米珠粒附着的50-mer寡核苷酸探针的微珠阵列，其例如容纳在载玻片表面上的微孔内或是液相悬浮阵列(例如Luminex或Illumina)的一部分，所述液相悬浮阵列是在液相中的数字化微珠阵列且使用“条形码”玻璃杆用于检测和鉴定。

已经描述了合成这些核酸阵列的各种技术，如在几乎是任意表面形状或甚至是在多重表面上制备核酸阵列。阵列可以为在珠粒、凝胶、聚合物表面、纤维如光学纤维、玻璃或其他合适基质上的肽或核酸。阵列可以以这样的方式包装，该方式使得允许诊断或其他所涉及设备的操纵，参见例如第6,955,788号美国专利，其相关部分纳入本文作为参考。

生物学定义

本文所使用的术语“疾病”，是指具有任何异常细胞生物学状态的有机体的生理学状态。疾病包括但不限于：细胞、组织、身体机能、系统或器官的中断、停止或紊乱，所述中断、停止或紊乱可以是内在的、遗传的、由于感染引起的、由于细胞功能异常、异常的细胞分裂等引起的。疾病导致通常对于生物系统即疾病患者来说是有害的“疾病状态”。对于本发明来说，任何与疾病或紊乱有关的生物学状态，如感染(例如病毒、细菌、真菌、蠕虫等)、炎症、自发炎症、自身免疫性、过敏性反应、敏感症、癌前病变、恶性肿瘤、外科手术、移植、生理学等，都被视为是疾病状态。病理状态通常等同于疾病状态。

还可按照疾病状态的不同水平来对其进行分类。本文所使用的疾病或疾病状态的水平，是在治疗期间或之后，反映疾病病程或疾病状态及生理应答的任意度量。一般地，疾病或疾病状态将随着水平或阶段发展的，其中疾病的影响会变得越来越严重。疾病状态的水平可能受样本中细胞生理学状态的影响。

本文所使用的术语“治疗”或“治疗方案”，是指那些用于减轻或改变疾病状态的医疗步骤，例如旨在减少或消除疾病的影响或症状而采取的药理学的、手术的、饮食的和/或其他技术的治疗过程。治疗方案可以包括处方剂量的一种或多种药物或外科手术。治疗大多有益并且减轻疾病状态，但是很多情况下，治疗效果将具有非期望的或副的作用。治疗效果也将受到该宿主的生理状态如年龄、性别、遗传、体重及其他疾病症状等的影响。

本文所使用的术语“药理学状态”或“药理学状况”，是指那些将要，或正在和/或已经接受了一种或多种药物、外科手术等治疗的样本，可能会影响到样本中一种或多种核酸的药理学状态，例如，由于药理学干预而导致核酸的新转录、稳定和/或不稳定。样本的药理学状态，涉及在药物治疗前、治疗中和/治疗后的生物学状态变化，可以用于诊断或预后，如本文所示。药物治疗或手术后带来的一些变化，可能与疾病状态有关和/或产生与治疗无关的副作用。药理学状态的变化，有可能是治疗持续时间、类型和处方药物剂量、依照特定治疗过程的顺应程度，和/或服用非处方药的结果。

本文所使用的术语“生物学状态”，是指为了分析表达变化而分离和纯化的细胞样本转录组(即全部RNA转录本的集合)的状态。生物学状态反映的是样本中细胞的生理状态，根据形态学表型特征或结合检测转录本的方法来测量细胞成分的丰度和/或活性。

本文所使用的术语“表达谱”，是指RNA、DNA的相对丰度或者蛋白质的丰度或活性水平。表达谱可以是例如转录状态或翻译状态的测量，可以通过多种方法以及使用任意一种基因芯片、基因阵列、珠粒、多重PCR、定量PCR、run-on阵列、RNA印迹分析、蛋白质印迹分析、蛋白表达、荧光激活细胞分选术(FACS)、酶联免疫吸附测定(ELISA)、化学发光研究、酶法、增殖研究或其他任何商业上可利用的测定和/或分析基因表达的方法、设备和系统进行。

本文所使用的术语样本的“转录状态”，包括确认样本中存在的RNA种类尤其是mRNA及其相对丰度。样本的整体转录状态，即确认RNA及其相对丰度的组合，在本文中还被称为转录组。一般地，测量样本中全部RNA种类组的所有相关成分中的基本部分。

本文所使用的术语“转录载体”、“表达载体”、“基因组载体”(可互换使用)，是指反映“差异表达基因的比例”的转录表达数据。例如，在至少两组(健康受试者与患者)之间各个模块差异表达的转录本比例。该载体来自于进行比较的两组样本。首先使用分析步骤在每个模块中选择转录本的特定疾病组，接着是“表达水平”。某种特定疾病的组间比较，提供了各个模块差异表达的转录本列表。发现不同的疾病产生不同的模块化转录本子集。在表达水平上，可以通过特定疾病的已确定的差异表达基因的平均表达值，估计各单个样本的各模块的载体。该方法会产生单个样本的模块化表达载体图，例如，那些在本文中所公开的模块图。这些载体模块图表示出来自每个样本的各个模块的平均表达水平(代替差异表达基因比例)。这些复合“表达载体”通过连续多轮的以下选择形成：1)在研究组之间显著改变的模块，和2)在研究组之间这些模块内显著改变的基因(图2，步骤II)。随后通过将形成各载体的转录本的子集获得的值求平均值获得表达水平(图2，步骤III)。患者谱随后可以通过在曲线图上(例如在雷达点上)描绘从这些载体中的每一个获得的表达水平来表示。因此一组载体由两轮选择产生，第一轮在模块水平上，而后在基因水平上。载体表达值是构建的成分，因为它们来自形成载体的转录本的平均表达值。

使用本发明可以确认和区分疾病，不仅可以在模块水平，还可以在基因水平，即，两种疾病可以具有相同载体(转录本差异表达比例相同，“极性”相同)，但是表达载体的基因组成仍是疾病特异性的。这种疾病特异性定制允许使用者通过增加其特异性而优化给定标志物组的表现。

使用模块作为包含最低限度量噪声的相关功能和转录单位的基础场地表达载体。此外，本发明利用复合转录标记物。本发明所使用的术语“复合转录标志物”，是指相对于使用个体基因作为标志物来说，多种基因(模块子集)的平均表达值(且这些标志物的复合是疾病特异性的)。由于使用者能使用多元微阵列值，来对患者疾病如SLE的严重程度进行评估，或得到本文所公开的表达载体，因此复合转录标记物方法是独特的。表达载体是复合的(即通过转录本的组合形成)这一事实进一步促成这些标志物的稳定性。更重要的是，已发现使用本发明的复合模块化转录标志物，在本文中发现的结果在微阵列平台之间具有可重复性，从而为满足监管部门要求提供了更大的可靠性。实际上，载体表达值证明是相当稳健的，如通过在微阵列平台之间获得的极佳可重复性；以及在独立的儿科狼疮患者组中获得的验证结果所表明。这些结果具有重要性，因为提高微阵列数据的可靠性是这种技术在临床实践中广泛使用的先决条件。

本发明中使用的基因表达监测系统，可以包括具有对一种或多种目标疾病的特异的和/或定制的有限的和/或基本数量的基因的定制基因阵列。与通常使用的普通平板基因组阵列(pan-genome array)不同，本发明不仅无需建立特定平台，便可使用这些普通平板阵列对基因和基因组进行回顾性分析，而且更重要地的是，本发明能够改进定制阵列，使其能够提供用于分析的最优化基因集而无需其他数千种无关基因。与现有技术相比，本发明优化阵列和模块的最显著优势在于，节约了经济开支(如各个阵列、材料、设备、时间、人员、培训等方面的费用)，更重要的是，避免了制造用于获得大量无关数据的平板阵列对环境的影响。本发明的模块首次允许设计简单使得定制阵列设计简单化，该阵列以最少量探针提供最佳的数据，同时使信号噪声比最大化。通过减少用于分析的基因总量，可能如减少为制造提供大量无关数据的平板基因芯片而生产的数千用于光刻法的昂贵铂掩膜的需要。如果本发明的有限探针组与例如下述的方法结合使用，使用本发明可能完全避免微阵列的需要：数字光化学阵列、球珠粒阵列、珠粒(如Luminex)、多重PCR、定量PCR、run-on阵列、RNA印迹分析，或甚至是蛋白表达，如蛋白质印迹分析、2-D和3-D凝胶蛋白表达、MALDI、MALDI-TOF、免疫荧光激活细胞分选术(FACS，细胞表面或细胞内)、酶联免疫吸附测定法(ELISA)、化学发光研究、酶法、增殖研究或其他任何商业上可利用的测定和/或分析基因表达的方法、设备和系统。

本发明所使用的“分子指纹系统”，可以用于促进和实施相对于其他疾病和/或正常细胞对照，在不同的细胞或组织、相同细胞或组织的不同亚群、相同细胞或组织的不同生理学状态、相同细胞和组织的不同发育阶段、或者相同组织的不同细胞群之间表达的比较分析。在某些情况下，可以对来自样本的正常或野生型的表达数据同时或基本同时进行分析，或从已存在的基因阵列表达数据库，例如公共数据库，如NCBI基因表达综合数据库(NCBI GeneExpression Omnibus database)中，获得或选取表达数据。

本文所使用的术语“差异表达的”，是指测量两个或多个样本如患病样本和正常样本中细胞组分(如核酸、蛋白、酶活性等)的变化。细胞组分可能存在或缺失，相对于参比上调或相对于参比下调。使用基因芯片或基因阵列，核酸如mRNA或其他RNA(miRNA、siRNA、hnRNA、rRNA、tRNA等)的差异基因表达可以用于区别细胞类型或核酸。最常见的是，细胞转录状态的测量是通过以下方法完成的：定量逆转录酶(RT)和/或定量逆转录酶-多聚酶链式反应(RT-PCR)、基因组表达分析、翻译后分析、基因组DNA修饰、易位、原位杂交技术等。

对于一些疾病状态，尤其是在疾病状态早期，可以鉴定细胞或形态差别。本发明通过检查细胞自身基因的模块，或更重要地，通过检查来自在它们正常生理环境中，即在免疫激活、免疫耐受或甚至是免疫无能中起作用的免疫效应细胞基因的细胞RNA表达的模块，从而避免了识别那些特定突变体或者一个或多个基因的需要。尽管基因突变可能会导致一组基因表达水平的急剧变化，但生物系统通常会通过改变其他基因的表达来补偿变化。这些内部补偿反应的结果是，许多微扰对可观察的系统表型具有最小的影响，但是对细胞组分的组成会产生深刻影响。同样地，基因转录本的实际拷贝数不会增加或减少，但是可能会影响转录本的寿命或半衰期，导致极大地增加蛋白产量。本发明去除了检测实际信息的需要，在一个具体实施例中，通过检测效应细胞(如白细胞、淋巴细胞和/或其亚群)而不是单个信息和/或突变体来去除该需要。

本领域的技术人员应当容易地理解，可以从各种来源获得样本，包括单个细胞、细胞集合、组织、细胞培养物等。在某些情况下，甚至可能从如尿、血液、唾液、组织或组织活检样本等中存在的细胞分离到足量RNA。在某些情况下，可以从以下来源获得足量细胞和/或RNA：粘膜分泌物、粪便、泪水、血浆、腹水、间隙液、硬膜下积液、脑脊液、汗液、或其他体液。核酸来源，如来自组织或细胞来源，可以包括组织活检样本、一种或多种分选细胞群、细胞培养物、细胞克隆、转化的细胞、活组织切片或单细胞。组织来源，可以包括如大脑、肝脏、心脏、肾脏、肺、脾、视网膜、骨、神经、淋巴结、内分泌腺、生殖器官、血液、神经、血管组织、嗅上皮。

本发明包括以下可单独或组合使用的基本组成，即，一个或更多个数据挖掘算法；一个或更多个模块水平分析步骤；表征血液白血细胞的转录模块；使用合计模块化数据对人类疾病进行分子诊断/预后的多元分析；和/或可视化模块水平数据和结果。使用本发明，还可以开发和分析复合转录标志物，其可更进一步汇总为单一多元评分。

本发明的发明人意识到，当前基于微阵列的研究正面临着臭名昭著的“噪声”数据分析的重大挑战，所述“噪声”数据即难以解释且在实验室或平台之间不能很好比较的数据。普遍接受的分析微阵列数据的方法，始于对研究小组间基因差异表达子集的鉴定。接着，使用者之后试图使用模式发现算法和现有的科学知识将所得到的基因列表解释清楚。

没有处理平台之间的大的变异，本发明人开发出一种着重在分析的早期阶段选择生物相关基因的策略。简而言之，该方法包括鉴定表征给定生物系统的转录组分，为此开发出改进的数据挖掘算法用于分析和从大数据集合提取协同表达基因或转录模块组。

本文描述的生物标志物发现策略特别适合于在总体规模上获得的微阵列数据的开发。从～44,000个转录本开始，确定了由近5000个转录本组成的一组28个模块。随后获得疾病特异性复合表达载体组。载体表达值(表达载体)证明是相当稳健的，如通过在微阵列平台之间获得的极佳可重复性所表明。该发现是值得注意的，因为提高微阵列数据的可靠性是在临床实践中的广泛使用该技术的先决条件。最后，可以将表达载体进一步组合以获得独特的多元评分，因此以与主流临床实践相容的形式递送结果。有趣的是，多元评分概括变化的总体模式而不是个体标志物中的变化。此种“总体生物标志物”的开发可以用于诊断和药物基因组学领域。

在一个实例中，从239个血液白细胞转录谱中获得了重组4742个探针组的二十八个转录模块。通过文献谱证明了形成这些模块的基因间的功能趋同。第二步由在模块基础上研究转录系统微扰所组成。为阐明此概念，获得健康志愿者和患者的白细胞转录谱，并对其进行比较和分析。通过分析公开发表的微阵列数据集，获得对该基因指纹策略的进一步验证。值得注意的是，使用预存数据的本发明的模块化转录设备、系统和方法在两个商业微阵列平台之间显示出高的重复性。

本发明包括为进行转录系统的模块化分析而设计的广泛适用的两步微阵列数据挖掘策略的执行。该新方法用于表征血液白细胞的转录标记物，其组成临床相关信息最方便的来源。

如本文所证实，有可能基于两种载体而测定、区分和/或区别两种疾病，即使该载体对两种疾病是相同的(+/+)，例如对于SLE和FLU，M1.3＝53％下降，因为各载体的组成仍可以用于区别它们。例如，在两种M1.3疾病之间，虽然转录本差异表达的比例和极性都是一致的，但是基因组成仍然是疾病特异性的。基因水平和模块水平分析的结合显著提高了分辨率。此外，可以使用2、3、4、5、10、15、20、25、28或更多模块来区别疾病。

术语“基因”是指核酸(例如DNA)序列，其包括对于生成多肽(如)、前体或RNA(如mRNA)所必需的编码序列。多肽可以由全长编码序列或由编码序列的保留全长或片段期望的活性或功能性特征(例如，酶活、配体结合、信号转导、免疫原性等)的任意部分进行编码。该术语还包含结构基因的编码区以及位于邻接编码区上5′和3′端距离约2kb或更多的序列，从而使得基因对应于影响基因的转录特性的全长mRNA和5′调节序列的长度。位于编码区的5′且出现在mRNA上的序列是指5′-非翻译序列。5′-非翻译序列通常包含调节序列。位于编码区的3′或下游且出现在mRNA上的序列称为3′-非翻译序列。术语“基因”包含基因的cDNA和基因组形式。基因的基因组形式或克隆包含由称为“内含子”或“间插区”或“间插序列”的非编码序列间断的编码区。内含子是转录成核RNA(hnRNA)的基因的片段；内含子可以包含调节元件例如增强子。内含子从核或初始转录本中被去除或“剪切掉”；因此在信使RNA(mRNA)转录本中不存在内含子。mRNA在翻译过程中起作用以确定新生多肽中氨基酸的序列或顺序。

本文所使用的术语“核酸”，是指任何含有核酸的分子，包括但不限于DNA、cDNA和RNA。特别地，术语“在表X中的基因”是指具体表中列出的至少部分或全长序列，如下文所发现的。甚至可以发现或检测出基因组形式的基因，即它包括一个或多个内含子。基因的基因组形式还可以包括出现在RNA转录本上的位于编码序列5′和3′端的序列。这些序列被称为“侧翼”序列或区域。5′侧翼区可以包含调节序列如控制或影响基因转录的启动子和增强子。3′侧翼区可以包含影响转录终止、转录后切割、mRNA稳定性和多腺苷酸化的序列。

本文所使用的术语“野生型”，是指从天然存在的来源中分离的基因或基因产物。野生型基因是在群体中最经常观察到的且因此任意指定为“正常”或“野生型”形式的基因。相反，术语“修饰的”或“突变体”是指与野生型基因或基因产物相比，显示出序列和/或功能性质修饰(即改变的特征)的基因或基因产物。应当指出可以分离出天然存在的突变体；这些通过与野生型基因或基因产物相比它们具有改变的特征(包括改变的核酸序列)的事实来鉴定。

本文所使用的术语“多态性”，是指基因的两个或更多个等位基因在单个杂交群中常规且同时出现，其中该较罕见的等位基因的频率大于由单独的复发突变所能解释的(一般大于1％)。

本文所使用的术语“编码核酸分子”、“编码DNA序列”和“编码DNA)，是指脱氧核糖核苷酸沿着脱氧核糖核酸链的顺序或序列。这些脱氧核糖核苷酸的顺序决定氨基酸沿着多肽蛋白)链的顺序。因此DNA序列编码氨基酸序列。

本文所使用的术语“互补”或“互补性”，用于指通过碱基配对原则相关的多核苷酸(即核苷酸序列)。例如，序列“A-G-T”与序列“T-C-A”互补。互补性可以是“部分的”，其中仅某些核酸的碱基按照碱基配对原则进行配对。或者，在核酸之间可以有“完全”或“全部”互补性。核酸链之间互补性程度对核酸链之间的杂交效率和强度具有显著作用。这在依赖核酸之间键合的扩增反应以及检测方法中尤为重要。

本文所使用的术语“杂交”，用于指互补核酸的配对。杂交和杂交的强度(即核酸之间的结合强度)受例如下述因素影响：核酸之间的互补性程度、涉及条件的严格性、形成杂交物的T_m以及核酸内的G∶C比率。在其结构内包含互补核酸配对的单个分子被称为“自我杂交”。

本文所使用的术语“严格性”，用于指进行核酸杂交的温度、离子强度和存在的其他化合物例如有机溶剂的条件。在“低严格性条件”下，目的核酸序列将与其精确互补物、具有单个碱基错配的序列、紧密相关的序列(如具有90％或更大同源性的序列)和仅具有部分同源性的序列(如具有50-90％同源性的序列)杂交。在“中等严格性条件”下，目的核酸序列将仅与其精确互补物、具有单个碱基错配的序列和紧密相关的序列(如90％或更大同源性)杂交。在“高严格性条件”下，目的核酸序列将仅与其精确互补物和(依赖诸如温度的条件)具有单个碱基错配的序列杂交。换而言之，在高严格性条件下，可以升高温度以便排除与具有单个碱基错配的序列杂交。

本文所使用的术语“探针”，是指无论是在纯化的限制性消化中天然存在的或者是合成的、重组的或通过PCR扩增生成的寡核苷酸(即核苷酸序列)，其能够与另一种目的寡核苷酸杂交。探针可以是单链或双链的。探针可以用于特定基因序列的检测、鉴定和分离。在本发明中使用的任何一种探针都可以用任意“ 报道分子”标记，从而使得它在任何检测系统中可检测，该检查系统包括但不限于酶(如ELISA以及基于酶的组织化学测定)、荧光、放射性、发光系统等。本发明并不限制于任何具体检测系统或标记物。

本文所使用的术语“靶”，是指由引物结合的核酸区域。因此，寻求将“靶”从其他核酸序列中分类出来。“片段”定义为在靶序列内的核酸区域。

本文所使用的术语“DNA印迹”，是指在琼脂糖或丙烯酰胺凝胶上使DNA根据大小分级，随后将DNA从凝胶转移到固体支持物例如硝化纤维素或尼龙膜的DNA分析。固定的DNA随后用经标记的探针进行探测，以检测与所使用探针互补的DNA种类。DNA可以在电泳前用限制酶进行切割。电泳后，DNA可以在转移到固体支持物之前或之时进行部分脱嘌呤和变性。DNA印迹是分子生物学工作者的标准工具(Sambrook等，Molecular Cloning：A Laboratory Manual，Cold Spring Harbor Press，NY，9.31-9.58页，1989)。

本文所使用的术语“RNA印迹”，指通过在琼脂糖凝胶上电泳RNA使RNA根据大小分级，随后将RNA从凝胶转移到固体支持物例如硝化纤维素或尼龙膜的RNA分析。固定的RNA随后用经标记的探针进行探测，以检测与所使用探针互补的RNA种类。RNA印迹是分子生物学工作者的标准工具(Sambrook等，同上，7.39-7.52页，1989)。

本文所使用的术语“蛋白质印迹”，是指固定在载体例如硝化纤维素或膜上的蛋白质(或多肽)分析。蛋白质在丙烯酰胺凝胶上电泳，以使蛋白质分离，随后将蛋白质从凝胶转移到固体支持物例如硝化纤维素或尼龙膜。固定的蛋白质随后暴露于具有对目的抗原反应的抗体。抗体的结合可以通过各种方法进行检测，包括使用经放射性标记的抗体。

本文所使用的术语“聚合酶链式反应”(“PCR”)，是指K.B.Mullis的方法(美国专利第4,683,195、4,683,202和4,965,188号，在此引入作为参考)，其描述了无需克隆或纯化用于增加基因组DNA的混合物中靶序列片段浓度的方法。用于扩增靶序列的这一程序包括：将大量过量的两种寡核苷酸引物引入包含期望靶序列的DNA混合物中，随后在DNA聚合酶存在下进行精确顺序的热循环。这两种引物与它们各自的双链靶序列链互补。为了实现扩增，将混合物变性，然后将引物与在靶分子内它们的互补序列退火。退火后，引物用聚合酶进行延伸，以便形成新的互补链对。变性、引物退火和聚合酶延伸的步骤可以重复多次(即变性、退火和延伸构成一个“循环”，可以存在多次“循环”)，以获得高浓度的期望靶序列的扩增片段。期望靶序列的扩增片段长度通过引物彼此相对位置而确定，并因此该长度是可控制的参数。由于该程序的重复方面，该方法被称为“聚合酶链式反应”(下文称为“PCR”)。因为靶序列的期望扩增片段成为混合物中的主导序列(就浓度而言)，所以它们被称为“PCR扩增的”。

本文所使用的术语“PCR产物”、“PCR片段”和“扩增产物”，是指在变性、退火和延伸的PCR步骤的两个或更多个循环后所得到的化合物的混合物。这些术语包含在其中存在一种或多种靶序列的一个或多个片段扩增的情况。

本文所使用的术语“实时PCR”，是指与反应完成后测量扩增相对的，PCR扩增在反应期间进行测量的各种PCR应用。在本发明的实时PCR实施方案中适合使用的试剂包括但不限于TaqMan探针、分子指示标、蝎子(Scorpion)引物或双链DNA结合染料。

本文所使用的术语“转录上调”，是指通过RNA聚合酶使用DNA模板RNA合成的增加。例如，用于本发明的方法时，术语“转录上调”是指与来自不易患SLE的个体的样本中的检测相比，从来自易患SLE的个体的样本中检测出的目的基因mRNA量相对增加至少1-2倍、2-3倍、3-10倍和甚至大于10倍。然而，系统和评估足够特异到要求待检测的表达中小于2倍的变化。此外，表达中的变化可以在细胞水平上(单细胞或细胞群内表达的变化)或甚至可以在组织水平上进行评估，其中存在表达基因的细胞数量的变化。特别有用的差异是那些统计上显著的差异。

相反地，术语“转录下调”是指通过RNA聚合酶使用DNA模板RNA合成的减少。例如，用于本发明的方法时，术语“转录下调”是指与来自不易患此种病症的个体的样本中的检测相比，或者与野生型和/或正常对照如纤维肌痛的信息数据库相比，从来自易患SLE的个体的样本中检测出的目的基因mRNA量相对减少1-2倍、2-3倍、3-10倍和甚至大于10倍。再次，系统和评估足够特异到要求待检测的表达中小于2倍的变化。特别有用的差异是统计上显著的那些。

转录“上调”/过表达和转录“下调”/低表达还可以通过测量相应于目的基因的翻译产物或蛋白质水平进行间接监测。本发明不限于与转录的上调或下调相关的任何给定机制。

本文所使用的术语“真核细胞”，是指具有膜结合的、结构上不连续的核和其他发育良好的亚细胞区室的细胞或有机体。真核生物包括除病毒、细菌和蓝绿藻以外的所有有机体。

本文所使用的术语“体外转录”，指在活细胞或有机体外进行的转录反应，其包括纯化的含启动子的DNA模板、核糖核苷三磷酸、包含还原剂和阳离子如DTT和镁离子的缓冲液系统以及合适的RNA聚合酶。

本文所使用的术语“扩增试剂”，是指除引物、核酸模板和扩增酶外的那些扩增所需的试剂(脱氧核糖核苷三磷酸、缓冲液等)。一般地，扩增试剂连同其他反应组分被置于且包含在反应容器(试管、微孔等)中。

本文所使用的术语“诊断”，是指确定疾病情况的性质。在本发明的一些实施方案中，提供了用于进行诊断的允许确定SLE的方法。

本发明可以单独或与疾病治疗组合使用，以监测疾病进程和/或患者管理。例如，患者可以被测试一次或多次以确定最佳治疗过程、确定治疗是否具有预期医学效果、患者是否为用于特定治疗及其组合的候选者。技术人员将认识到，一种或多种表达载体可以指示一种或多种疾病，并且可以受其他其可以是急性或慢性的病症的影响。

本文所使用的术语“药物基因学测试”，是指旨在研究与例如药物吸收和处置(药代动力学)或药物作用(药效学)相关的DNA序列的个体间变化的测定，其可以包括编码例如转运蛋白、代谢酶、受体及其他蛋白质的功能的一种或多种基因中的多态性变化。

本文所使用的术语“药物基因组学测试”，是指用于研究全基因组或候选基因中的个体间变化的测定，例如单核苷酸多态性(SNP)图或单体型标志物，以及可能与药理学功能和治疗应答相关的基因表达的改变或失活。

本文所使用的“表达谱”，是指多种细胞组分的相对丰度的测量。此种测量可以包括如RNA或蛋白质丰度或活性水平。表达谱可以是例如转录状态或翻译状态的测量。参见美国专利第6,040,138、5,800,992、6,020135、6,033,860号，相关部分引入本文作为参考。基因表达监测系统包括核酸探针阵列、膜印迹(例如在杂交分析中使用的如RNA、DNA、斑点等)、或微孔、样品管、凝胶、微珠或纤维(或包含结合核酸的任何固体支持物)。参见，例如美国专利第5,770,722、5,874,219、5,744,305、5,677,195和5,445,934号，相关部分引入本文作为参考。基因表达监测系统还可以包含在溶液中的核酸探针。根据本发明的基因表达监测系统可以用于促进在不同细胞或组织、相同细胞或组织中的不同亚群、相同细胞或组织的不同生理学状态、相同细胞或组织的不同发育阶段、或相同组织的不同细胞群中表达的比较分析。

本文所使用的术语“差异表达的”，是指在两个或更多个样本中细胞组分变化的测量。细胞组分可以是相对于参比在测试样本中上调的，或相对于一种或多种参比在测试样本中下调的。还可以使用差异基因表达区分细胞类型或核酸。参见美国专利第5,800,992号，相关部分引入本文作为参考。

治疗或治疗方案：为了减轻或改变疾病状态，通常采取治疗或治疗方案。本文所使用的治疗或治疗方案，是指旨在减少或消除疾病的影响或症状的治疗过程。治疗方案将一般包括但不限于，指定剂量的一种或多种药物或手术。理想的治疗是有益的且减轻疾病状态，但在许多情况下治疗的作用还将具有不期望的作用。治疗的作用还将受样本的生理学状态影响。

模块显示不同的“转录行为”。普遍假定共表达的基因在功能上连锁。这种“牵连犯罪”的概念在基因在许多样本间遵从复杂表达模式的情况下是特别引人注意的。本发明的发明人发现转录模块形成一致的生物学单位，并因此预测在初始数据集中鉴定的共表达特性在独立样本组中将被保留。从二十一名健康志愿者血液中分离PBMC获得数据。这些样本不用于上文描述的模块选择方法中。

没有处理平台之间的大的变异，本发明人开发出一种强调在分析的早期阶段选择生物相关基因的策略。简而言之，该方法包括鉴定表征给定生物系统的转录组分，为此开发出改进的数据挖掘算法用于分析和从大数据集合中提取协同表达基因或转录模块组。

我们所开发出的生物标志物发现策略特别适合于在总体规模上获得的微阵列数据的开发。从～44,000个转录本开始，本发明的发明人确定了由近5000个转录本组成的28个模块。随后获得疾病特异性复合表达载体组。载体表达值证明是相当稳健的，如通过在微阵列平台之间获得的极佳可重复性所表明。该发现是值得注意的，因为提高微阵列数据的可靠性是在临床实践中的广泛使用该技术的先决条件。最后，可以将表达载体进一步组合以获得独特的多元评分，因此以与主流临床实践相容的形式递送结果。有趣的是，多元评分概括变化的总体模式而不是个体标志物中的变化。此种“总体生物标志物”的开发可以用于诊断和药物基因组学领域。

在一个实例中，从239个血液白细胞转录谱中获得了重组4742个探针组的二十八个转录模块。通过文献谱证明了形成这些模块的基因间的功能趋同。第二步由在模块基础上研究转录系统微扰所组成。为阐明此概念，分别获得健康志愿者和患者的白细胞转录谱，并对其进行比较和分析。通过分析公开发表的微阵列数据集，获得对该基因指纹策略的进一步验证。值得注意的是，使用预存数据的本发明的模块化转录设备、系统和方法在两个商业微阵列平台之间显示出高的重复性。

如本文所证实，有可能基于两种载体而测定、区分和/或区别两种疾病，即使该载体对两种疾病是相同的(+/+)，如对于SLE和FLU，M1.3＝53％下降，因为各载体的组成仍可以用于区别它们。例如，在两种M1.3疾病之间，虽然转录本差异表达的比例和极性都是一致的，但是基因组成仍然是疾病特异性的。基因水平和模块水平分析的结合显著提高了分辨率。此外，可以使用2、3、4、5、10、15、20、25、28或更多个模块来区别疾病。

材料和方法。处理血样。将所有血样收集于酸性柠檬酸盐葡萄糖管(BD真空采血管(BD Vacutainer))中，立即在室温下转送到Baylor Institute forImmunology Research，Dallas，TX进行处理。通过Ficoll密度梯度离心法从3-4ml血液中分离出外周血单核细胞(PBMC)，立即在含有β-巯基乙醇(BME)的RLT试剂(Qiagen公司)中溶解细胞，在提取RNA步骤之前储存于-80℃。

微阵列分析。使用RNeasy试剂盒(Qiagen公司)，根据制造商产品说明书分离出总RNA，并使用Agilent 2100生物分析仪(Agilent 2100Bioanalyzer，Agilent公司)来评估RNA完整性。

Affymetrix基因芯片：这些微阵列包括在石英晶片上原位合成的短链寡核苷酸探针组。根据制造商(Affymetrix公司，Santa Clara，CA)的标准方案进行目标物标记。纯化生物素化的cRNA靶序列，并将其与AffymetrixHG-U133A & U133B基因芯片(＞44,000探针组)进行杂交。使用Affymetrix共聚焦激光扫描仪(Affymetrix confocal laser scanner)扫描阵列。采用微阵列套件，5.0版分析软件(MAS 5.0；Affymetrix公司)评估荧光杂交信号、标准化信号及评价检测信号。使用MAS 5.0整体标定方法将每个芯片的信号值归一化为每个基因芯片的目标密度值为500。采用基因表达分析软件程序GeneSpring 7.1(Agilent公司)进行统计学分析和分层聚类。

Illumina微珠芯片：这些微阵列包括位于玻片表面的微孔内的附着于3μm珠粒的50mer寡核苷酸探针。样本由Illumina公司(San Diego，CA)基于服务合同处理和采集。使用Illumina RNA扩增试剂盒(Ambion，Austin，TX)制备靶序列。cRNA靶序列与Sentrix HumanRef8微珠芯片(＞25,000探针)进行杂交。使用Illumina BeadStation 500进行扫描。采用IlluminaBeadstudio软件评估杂交荧光信号。

文献谱。本研究采用的文献谱算法在之前已进行过详细描述(Chaussabel，D.& Sher，A.Mining microarray expression data by literatureprofiling.Genome Biol 3，RESEARCH0055(2002)，相关部分引入本文作为参考)。该方法将有相似关键词的基因联系起来。采用流行的非监督模式发现算法——分层聚类，来分析文献摘要中术语出现的模式。步骤1：基因：产生确认各个基因的相关出版物的文献索引。步骤2：使用文本处理器计算术语出现频率。步骤3：使用严格筛选标准选择出相关的关键词(即排除在所有基因中高或低频率的术语，并保留以仅对少数基因高出现模式为特征的少数区别术语)。步骤4：基于出现模式的基因及相关关键词的双向分层聚类组，提供存在于一组基因中的功能关系的视觉表示。

模块化数据挖掘算法。首先，鉴定允许表征超越个体基因水平的生物系统的一个或更多个转录组分。使用新的挖掘算法，提取协同调节的基因组或转录模块，该算法应用于大组血液白细胞微阵列谱(图1)。使用AffymetrixU133A&B基因芯片(＞44,000探针组)做出来自总共239个外周血单核细胞(PBMC)样本的基因表达谱。获得的转录数据用于八个实验组(全身型幼年特发性关节炎，系统性红斑狼疮，I型糖尿病，肝移植接受者，黑色素瘤患者以及具有急性感染包括大肠杆菌、金黄色葡萄球菌、A型流感的患者)。排除各组中在所有病症之间缺乏标记的转录本。剩余基因通过分层聚类分成30个集(从集群C1到集群C30)。将各基因的集群分配记录于表格中，并比较所有基因的分配模式。使用迭代程序来选择模块，从所有研究组中属于相同集群的最大基因集开始(即在8个实验组的8个中的相同集群中发现的基因)。选择随后从核心参照模式中扩展到包括具有7/8、6/8和5/8匹配的基因。该得到的基因集形成转录模块，并从选择库中撤回。然后从第二大的基因集开始重复该过程，逐渐降低严格水平。通过该分析鉴定了5348个分配于28个模块中的转录本(提供完整列表作为辅助材料)。分别给各模块指定一个唯一标识符，以表明轮数和选择顺序(即M3.1是在第三轮选择中鉴定的第一个模块)。

使用标准操作程序，使用在相同的Affymetrix系统上运行的AffymetrixHG-U133A GeneChips对从患者和健康志愿者获得的PBMC产生的基因表达数据进行“显著性模式”的分析。通过比较7组患者与它们各自的健康对照组(曼-惠特尼(Mann-Whitney)秩和检验)获得P值。所述组由下述儿科患者组成：1)系统性红斑狼疮(SLE，16个样本)，2)A型流感(16个样本)，3)金黄色葡萄球菌(16个样本)，4)大肠杆菌(16个样本)和5)肺炎链球菌(Streptococcus pneumoniae)(1 4个样本)；以及成人移植接受者：6)已接受移植物经历免疫抑制治疗的肝移植患者(16个样本)和7)经历移植物抗宿主病的骨髓移植接受者(GVHD，12个样本)。形成对照组时还考虑年龄、性别和项目(每个组中10个样本)。将“研究组”(A型流感和/或SLE)中显著改变的基因(p＜0.01)分成两个集：过表达对对照和低表达对对照。对于“参照组”(具有大肠杆菌、金黄色葡萄球菌、肺炎链球菌感染，肝移植接受者和移植物抗宿主病)获得形成过表达集基因的p值。当基因低表达时，参照组的p值设为1。在研究组中低表达的基因集中使用相同的步骤，只是这次当基因过表达时，参照组的p值设为1。p值数据用基因表达分析软件程序GeneSpring，7.1版(Agilent)进行处理，基于显著性模式用于执行分层聚类和基因分组。

模块显示不同的“转录行为”。普遍假定共表达的基因在功能上连锁。这种“牵连犯罪”的概念在基因在许多样本间遵循复杂表达模式的情况下是特别引人注意的。本发明的发明人发现转录模块形式一致的生物学单位，并因此预测在初始数据集中鉴定的共表达特性在独立样本组中将被保留。从21名健康志愿者血液中分离PBMC获得数据。这些样本不用于上文描述的模块选择过程。

图2显示4个不同模块的基因表达谱(图2：M1.2、M1.7、M2.11及M2.1)。在图2的曲线图中，每条线代表多个样本(在x-轴上21个样本)之间的单个基因的表达水平(y-轴)。在本实例中，基因表达差异代表“健康”个体之间的个体间差异。发现在各个模块内基因显示出一致的“转录行为”。事实上，在所有样本之间基因表达的差异看起来都是一致的(对某些样本来说，所有基因的表达都提高且形成峰，而在其他样本中所有基因的水平都低形成谷)。重要的是，个体间的差异看起来是模块特异性的，因为对于M1.2、M2.11及M2.1中的不同样本形成峰和谷。此外，变异幅度也是各模块特征性的，M1.2和M2.11的表达水平变化比M2.1，尤其是M1.7更大。因而，我们发现转录模块组成独立的生物学变量。

转录模块的功能表征。接着，在功能水平上表征模块。利用文本挖掘方法从为各基因收集的生物医学文献中提取关键词(在¹⁸中描述)。与分析的4个模块有关的关键词分布明显不同(图3)。以下为可能与某种模块有关的关键词列表。

·对M1.2高度特异性的关键词，包括血小板、聚集或血栓症，与基因如ITGA2B(整合素α2b、血小板糖蛋白IIb)，PF4(血小板因子4)，SELP(选择素P)和GP6(血小板糖蛋白6)有关。

·对M1.3高度特异性的关键词，包括B-细胞、免疫球蛋白或IgG，与基因如CD19、CD22、CD72A、BLNK(B细胞接头蛋白)、BLK(B淋巴细胞酪氨酸激酶)和PAX5(配对盒基因5，一种B-细胞系特异性激活剂)有关。

·对M1.5高度特异性的关键词，包括单核细胞、树突状、CD14或Toll样，与基因如MYD88(髓样分化初次应答基因88)、CD86、TLR2(Toll样受体2)、LILRB2(白细胞免疫球蛋白样受体B2)和CD163有关。

·对M3.1高度特异性的关键词，包括干扰素、IFN-α、抗病毒或ISRE，与基因如STAT1(信号转导与转录激活子1)、CXCL10(CXC趋化因子配体10、IP-10)、OAS2(寡腺苷酸合成酶2)和MX2(粘病毒抗性2)有关。

术语出现的对照模式，指示各模块功能显著一致。从文献中提取出的所有已鉴定的模块信息，允许在转录水平对PBMC系统进行全面的功能表征。

表2提供了可以用于区别对如黑色素瘤和肝移植的免疫应答的基因实例。

表2：在模块1.4中用于区分免疫应答的基因。

模块ID Entrez ID 基因符号基因名称

1.4 55544 RNPC1 含RNA-结合区域(RNP1，RRM)1

1.4 5930 RBBP6 视网膜母细胞瘤结合蛋白6

1.4 80273 GRPEL1 GrpE样1，线粒体(大肠杆菌)

1.4 571 62 PELI1 pellino同系物1(果蝇)

1.4 9921 RNF10 环指蛋白10///环指蛋白10

1.4 90637 LOC90637 假定蛋白LOC90637

1.4 80314 EPC1 多梳增强子同系物1(果蝇)(Enhancer of

polycomb homolog 1(Drosophila))

1.4 --- --- 全长插入cDNA克隆ZB81B12

1.4 5756 PTK9 PTK9蛋白酪氨酸激酶9

1.4 55038 CDCA4 细胞分裂周期相关4

1.4 5187 PER1 周期同系物1(果蝇)

1.4 9205 ZNF237 锌指蛋白237

1.4 25976 TIPARP 可TCDD-诱导的聚(ADP-核糖)聚合酶

1.4 57018 CCNL1 细胞周期蛋白L1

1.4 64061 TSPYL2 TSPY样2

谷氨酸受体，离子能，N-甲基D-天冬氨酸

样

1.4 81488 GRINL1A 1A

1.4 22850 KIAA0863 KIAA0863蛋白

v-maf肌腱膜纤维肉瘤癌基因同系物

1.4 23764 MAFF F(禽类)

1.4 29035 PRO0149 PRO0149蛋白

1.4 7803 PTP4A1 蛋白酪氨酸磷酸酶IVA型，成员1

1.4 11171 STRAP 丝氨酸/苏氨酸激酶受体相关蛋白

1.4 5814 PURB 富含嘌呤元件结合蛋白B

磷酸二酯酶4B，cAMP-特异性(磷酸二酯

酶

1.4 5142 PDE4B E4愚人同系物，果蝇)

1.4 30836 ERBP 雌激素受体结合蛋白

1.4 6782 STCH 应激70蛋白伴侣，微粒体-相关的，60kDa

1.4 10950 BTG3 BTG家族，成员3

1.4 7037 TFRC 转铁蛋白受体(p90，CD71)

1.4 54934 FLJ20436 假定蛋白FLJ20436

磷酸二酯酶4D，cAMP-特异性(磷酸二酯

酶

1.4 5144 PDE4D E3愚人同系物，果蝇)

1.4 9929 KIAA0063 KIAA0063基因产物

通过与t-SNARE相互作用的囊泡转运

1.4 143187 VTI1A 同系物1A(酵母)

1.4 440309 --- LOC440309

1.4 150094 SNF1LK SNF1样激酶///SNF1样激酶

1.4 1850 DUSP8 双重特异性磷酸酶8

1.4 9584 RNPC2 含RNA-结合区域(RNP1，RRM)2

1.4 140735 Dlc2 动力蛋白轻链2

1.4 54542 MNAB 膜相关DNA结合蛋白

1.4 9262 STK17B 丝氨酸/苏氨酸激酶17b(诱导凋亡)

1.4 7128 TNFAIP3 肿瘤坏死因子，α-诱导的蛋白3

1.4 3183 HNRPC 核内不均一核糖核蛋白C(C1/C2)

磷酸二酯酶4D，cAMP-特异性(磷酸二酯

酶

1.4 5144 PDE4D E3愚人同系物，果蝇)

1.4 80311 KLHL15 kelch样15(果蝇)

1.4 22850 KIAA0863 KIAA0863蛋白

1.4 5996 RGS1 ---

1.4 468 ATF4 转录激活因子4(tax-应答增强子元件B67)

1.4 --- --- ---

1.4 7430 VIL2 绒毛蛋白2(埃兹蛋白)

1.4 6627 SNRPA1 核内小核糖核蛋白多肽A′

1.4 7750 ZNF198 锌指蛋白198

1.4 1390 CREM cAMP应答元件调节物

1.4 10291 SF3A1 剪接因子3a，亚单位1，120kDa

CD83抗原(活化B淋巴细胞，免疫球蛋

白

1.4 9308 CD83 超家族)

1.4 63935 C20orf67 ---

1.4 10049 DNAJB6 DnaJ(Hsp40)同系物，亚家族B，成员6

1.4 51526 C20orf111 染色体20开放阅读框111

1.4 55500 ETNK1 乙醇胺激酶1///乙醇胺激酶1

1.4 79441 C4orf15 染色体4开放阅读框15

1.4 11236 RNF139 环指蛋白139

1.4 246243 RNASEH1 核糖核酸酶H1

1.4 3727 JUND jun D原癌基因

1.4 6500 SKP1A S-期激酶相关蛋白1A(p19A)

1.4 4204 MECP2 甲基CpG结合蛋白2(雷特综合征)

1.4 3189 HNRPH3 核内不均一核糖核蛋白H3(2H9)

1.4 222161 DKFZp586I 假定蛋白DKFZp586I1420

1420

1.4 266812 NAP1L5 核小体装配蛋白1样5

Ras-GTP酶活化蛋白SH3结构域-结合蛋

白

1.4 9908 G3BP2 2

1.4 10425 ARIH2 ---

1.4 55422 ZNF331 锌指蛋白331

1.4 8454 CUL1 清选蛋白1

1.4 51119 SBDS 舒-戴二氏综合征

(Shwachman-Bodian-Diamond syndrome)

固醇-C5-去饱和酶(ERG3δ-5-去饱和酶同

系物，真菌的)样

1.4 6309 SC5DL 磷脂酰肌醇聚糖，A类(阵发性睡眠性血

红蛋白尿)///磷脂酰肌醇聚糖，A类

1.4 5277 PIGA (阵发性睡眠性血红蛋白尿)

1.4 3422 IDI1 异戊烯基-二磷酸δ异构酶

1.4 63935 C20orf67 染色体20开放阅读框67

v-maf肌腱膜纤维肉瘤癌基因同系物

1.4 7975 MAFK K(禽类)

1.4 7456 WASPIP 威-奥二氏(Wiskott-Aldrich)综合征蛋白

相互作用蛋白

1.4 55975 KLHL7 kelch样7(果蝇)

1.4 7128 TNFAIP3 肿瘤坏死因子，α-诱导的蛋白3

1.4 388796 LOC388796 假定LOC388796

1.4 25852 ARMC8 含犰狳蛋白重复区8

1.4 54542 MNAB 膜相关DNA结合蛋白

1.4 55422 ZNF331 锌指蛋白331

1.4 1390 CREM cAMP应答元件调节物

1.4 10209 SUI1 推定的翻译起始因子

1.4 10049 DNAJB6 DnaJ(Hsp40)同系物，亚家族B，成员6

1.4 4929 NR4A2 核受体亚家族4，A组，成员2

1.4 1540 CYLD 圆柱瘤病(头帕肿瘤综合征)

1.4 4929 NR4A2 核受体亚家族4，A组，成员2

1.4 5805 PTS 6-丙酮酰四氢蝶呤合成酶

1.4 10926 ASK S期激酶的激活物

活化RNA聚合酶II转录辅助因子4///(类

似于活化的RNA聚合酶II转录

1.4 10923 PC4 辅激活因子p15(正辅助因子4)(PC4)

(p14)

1.4 388796 RNU71A 假定LOC388796

1.4 133746 JMY 连接介导调节蛋白

1.4 90634 CG018 假定基因CG018

1.4 10209 SUI1 推定的翻译起始因子

1.4 1847 DUSP5 双重特异性磷酸酶5

转导素样断裂增强子1(E(sp1)同系物

1.4 7088 TLE1 果蝇)(Transducin-like enhancer of split 1

(E(sp1)homolog，Drosophila))

1.4 84275 MGC4399 线粒体载体蛋白

1.4 --- --- ---

1.4 7803 PTP4A1 蛋白酪氨酸磷酸酶IVA型，成员1

1.4 55422 ZNF331 锌指蛋白331

1.4 --- --- CDNA克隆IMAGE：30332316，部分编码

序列区(cds)

1.4 3609 ILF3 白介素增强子结合因子3，90kDa

1.4 --- --- 智人，克隆IMAGE：4753714，mRNA

1.4 6651 SON SON DNA结合蛋白

1.4 11276 AP1GBP1 AP1γ亚单位结合蛋白1

1.4 84124 ZNF394 锌指蛋白394

1.4 63935 C20orf67 ---

1.4 1983 EIF5 真核翻译起始因子5

1.4 80063 ATF7IP2 转录激活因子7相互作用蛋白2

1.4 285831 LOC285831 假定蛋白LOC285831

1.4 81873 ARPC5L 肌动蛋白相关蛋白2/3复合物，亚单位5

样

1.4 144438 LOC144438 假定蛋白LOC144438

1.4 10209 SUI1 推定的翻译起始因子

1.4 3021 H3F3B H3组蛋白，家族3B(H3.3B)

1.4 25948 KBTBD2 含kelch重复区和BTB(POZ)结构域2

CDNA FLJ40725 fis，克隆TKIDN

1000001，

1.4 --- --- 与线粒体内膜转位酶23(Translocase of

inner mitochondrial membrane 23)高度相似

1.4 1540 CYLD 圆柱瘤病(头帕肿瘤综合征)

磷酸二酯酶4D，cAMP-特异性(磷酸二酯

酶

1.4 5144 PDE4D E3愚人同系物，果蝇)

1.4 51182 HSPA14 热休克70kDa蛋白14

1.4 29080 HSPC128 HSPC128蛋白

1.4 8731 RNMT RNA(鸟嘌呤-7-)甲基转移酶

1.4 3423 IDS 艾杜糖醛酸2-硫酸酯酶(亨特综合征)

1.4 283991 MGC29814 假定蛋白MGC29814

1.4 1454 CSNK1E 酪蛋白激酶1，ε

1.4 26051 PPP1R16B 蛋白磷酸酶1，调节(抑制因子)亚单位

16B

1.4 3422 IDI1 异戊烯基-二磷酸δ异构酶

1.4 5887 RAD23B RAD23同系物B(酿酒酵母)

磷酸二酯酶4D，cAMP-特异性(磷酸二酯

酶

1.4 5144 PDE4D E3愚人同系物，果蝇)

1.4 49854 ZNF295 锌指蛋白295

1.4 60493 FLJ13149 假定蛋白FLJ13149

1.4 10950 BTG3 BTG家族，成员3

可以单独或与列于补充表中的基因组合使用的另一个组包括图17命名为P2中所示的数据，并且其可以包括过表达的下述基因中的一种或多种，例如：WARS；IFI53；IFP53；GAMMA-2；FAM46C；FLJ20202；H3F3B；H3.3B；FOXK2；ILF；ILF1；ILF-1；DUSP5；HVH3；ARF6；DKFZp762C186；BRD2；NAT；RNF3；FSRG1；RTNG3；D6S113E；KIAA9001；RORA；ROR1；ROR2；ROR3；RZRA；NR1F1；DKFZp762C186；DNAJB1；SUI1；CXCR4；HM89；LAP3；NPYR；WHIM；LESTR；NPY3R；HSY3RR；NPYY3R；D2S201E；GRINL1A；CTSB；TRIP-Br2；PDE4B；DPDE4；PDEIVB；PMAIP1；APR；NOXA；BTG2；PC3；TIS21；ASAHL；SON；SUI1；A121；ISO1；HERPUD1；SUP；Mif1；KIAA0025；DUSP2；PAC1；PAC-1；RNF139；RCA1；TRC8；HRCA1；MGC31961；TNFAIP3；A20；TNFA1P2；ARS2；HNRPL；hnRNP-L；P/OKcl.14；C20orf67；C20orf111；HSPC207；dJ1183I21.1；ZNF331；RITA；ZNF361；ZNF463；C20orf67；IER5；SBBI48；；SUI1；JUN；AP1；CD69；TOB1；H3F3B；H3.3B；FOLR1；TNFAIP3；TCF8；BZP；ZEB；ZEB1；AREB6；ZFHEP；NIL-2A；ZFHX1A；NIL-2-A；DUSP10；MKP5；MKP-5；GGTLA4；MGC50550；dJ831C21.2；PMAIP1；ZC3HAV1；ZAP；FLB6421；ZC3HDC2；FLJ13288；MGC48898；DSIPI；DIP；GILZ；hDIP；TSC-22R；MCL1；TM；EAT；MCL1L；MCL1S；MGC1839；SH3TC1；FLJ20356；CIAS1；FCU；MWS；FCAS；NALP3；C1orf7；PYPAF1；AII/AVP；AGTAVPRL；SLC15A3；PHT2；PTR3；hPTR3；PTDSR；PSR；PTDSR1；KIAA0585；BHLHB2；DEC1；STRA13；Stra14；HMGE；KIAA0063；NR4A2；NOT；RNR1；HZF-3；NURR1；TINUR；NR4A2；NOT；RNR1；HZF-3；NURR1；TINUR；PTS；PTPS；HEAB；CLP1；hClp1；AREG；SDGF；CRDGF；MGC13647；EDG4；LPA2；EDG-4；LPAR2；CREM；ICER；MGC17881；MGC41893；CD83；BL11；HB15；ZNF394；FLJ12298及其组合。

基于模块的微阵列数据挖掘策略。来自“传统的”微阵列分析的结果有着声明狼籍的噪声且很难解释。普遍接受的微阵列数据分析方法，包括三个基本步骤：1)使用统计检验以选择在研究组间差异表达的基因；2)应用模式发现算法以在所得到的基因列表中鉴定标记物；以及3)使用从文献或本体数据库中获取的知识来解释数据。

本发明使用新的微阵列数据挖掘策略，强调在早期分析阶段选择与生物学相关的转录本。第一步可以使用如上所述的模块挖掘算法结合用于深入表征各个转录模块的功能挖掘工具(图4：顶栏，步骤1)来进行。该分析并没有考虑各组间的基因表达水平差异。相反地，本发明集中于因生物学变异而产生的复杂基因表达模式(如患者群体中的个体间差异)。在定义与给定生物学系统相关的转录组分后，分析的第二步包括通过比较不同的研究组来分析基因表达变化(图4：底栏，步骤2)。独立进行各个模块的组间比较分析。在模块水平上的变化表达为满足显著性标准的基因比例(由图5中的饼分图或图6中的点表示)。值得注意地，在对“随机”的基因集进行数千次测试时，在模块水平上进行比较允许避免产生噪声。

模块化PBMC转录谱在人类疾病中的微扰。为阐明上述微阵列数据挖掘策略的第二步(图4)，获得PBMC样本的基因表达数据，并进行比较和分析，该PBMC样本从由18名患系统性红斑狼疮(SLE)的儿童和16名急性流感病毒A感染的儿童组成的两个儿科患者群体获得。各患者群都与各自的对照组相比较(健康志愿者：11名和10名分别与SLE组和流感组匹配)。如图4所示的分析图示，在患者组和健康组间对各个体模块进行统计学组间比较，并测量各模块中发生显著变化的基因比例(图5)。统计学组间比较方法允许使用者集中分析良好定义的含有最小限度噪声和携带可鉴定的生物学意义的基因组。图4提供了图解代表这些结果的关键。

得到下述发现：(1)在M3.1(“干扰素相关”)中，Flu组和SLE组大比例的基因都达到显著性水平(分别为84％和94％)。该观察证实了对SLE患者的早期研究¹⁹，并鉴定了在急性流感患者中存在干扰素标记物。(2)在M1.3(“B-细胞相关”)中，相等比例的基因在两组中都有显著变化(53％)，两个列表间的重叠超过50％。此时，与健康组相比，基因在患者中一致地低表达。(3)还发现区分该两种疾病的模块。在模块1.1中，在SLE患者中发生显著变化的基因比例达到了39％，而在FIu患者中仅为7％，其在0.05的显著性水平上非常接近于预期仅偶然差异表达的基因比例。有趣的是，该模块基本上排他地由编码免疫球蛋白链的基因组成，并与浆细胞有关。然而，该模块在基因表达水平和模式(未示出)方面，与B-细胞相关的模块(M1.3)明显不同。(4)如模块M1.5所例示，单个模块的基因水平分析能够用于进一步区别这两种疾病。对于M1.3来说也一样，尽管在模块水平没有差异(图4：53％低表达的转录本)，但是在Flu与SLE组间存在的差异能够在基因水平鉴定(在M1.3中仅有51％低表达的转录本是该两疾病组共同的)。这些实例例示使用模块构架简化微阵列结果的分析和解释。

绘出在模块水平上基因表达的变化。数据可视化对于复杂数据集的解释极为重要，并且本发明包括全面图解说明在模块水平上发生的变化。表示由不同疾病引起的基因表达水平的变化用于28个PBMC转录模块(图6)。每个疾病组与它们各自的由匹配年龄和性别的健康志愿者组成的对照组进行比较(18名SLE患者、16名急性流感感染患者、16名转移性黑色素瘤患者以及16名接受免疫抑制药物治疗的肝移植接受者，与由10-11名健康受试者组成的对照组进行比较)。模块水平数据通过排列于网格中的点示出，其中每个位置对应不同的模块(各模块的功能注释参见表1)。

点的亮度指示各模块中发生显著变化的基因比例。点的颜色指示变化的极性(红色：过表达的基因比例；蓝色：低表达的基因比例；含有显著比例的过表达和低表达基因的模块将是紫色的，但是未观察到紫色)。这种表示允许对PBMC转录系统的微扰进行快速评估。每种疾病都生成这种“模块图”。比较四幅图，我们发现疾病由唯一的模块组合所表征。实际上，单独用M1.1和M1.2的结果，就足以区分所有四种疾病(M1.1/M1.2：SLE＝+/+；FLU＝0/0；黑色素瘤＝-/+；移植＝-/-)。M3.2(“炎症”)中的大量基因在所有疾病中(尤其是在移植组中)都过表达，而M3.1(干扰素)中的基因在SLE患者、流感感染患者、某种程度上移植受者中为过表达。“核糖体蛋白”模块基因(M1.7和M2.4)在SLE和Flu组中都低表达。最近发现在SLE患者中，这些基因的表达水平与疾病活性为负相关(Bennett等人，已提交)。M2.8包括T-细胞转录本，其在SLE患者和接受免疫抑制药物靶向T-细胞治疗的移植受者的淋巴细胞中低表达。

有趣的是，各模块中差异表达的基因主要是低表达或是过表达(图5和图6)。然而，模块的选择完全基于基因表达谱的相似性，而不是组间的表达水平的变化。基因表达变化在各模块内看起来高度极化的事实，指示模块化数据的功能相关性。因此，本发明通过模块化分析患者血液白细胞转录谱使疾病指纹识别成为可能。

在公开的数据集中验证PBMC模块。接着，在“第三方”数据集中测试上述PBMC转录模块的有效性。对来自Connolly等的研究进行测试，Connolly等研究了运动对人PBMC中基因表达的作用²⁰。

血样从35名参与设计测试树突状细胞治疗疫苗的功效的3个I/II期临床试验的转移性黑色素瘤患者获得，患者如下表中所示。基因表达标记物从疫苗治疗开始前收集的以及若患者已接受全身治疗则最后一次全身治疗后至少4周收集的血样获得。

表3：35名转移性黑色素瘤患者的临床和人口统计学特征

诊断到抽抽血到死

ID 性别年龄分期诊断血的时间抽血状态亡的时间

(月) (月)

MEL 23 F 61 M1a 02/14/00 16 06/28/01 死亡 28

MEL 24 M 53 M1c 09/01/99 22 07/05/01 死亡 5

MEL 26 F 52 M1c 10/01/97 45 07/18/01 死亡 2

MEL 27 F 54 M1a 07/10/93 98 09/14/01 死亡 5

MEL 29 M 41 M1c 10/26/94 83 09/26/01 死亡 14

MEL 30 F 58 M1c 10/04/99 23 09/25/01 死亡 11

MEL 32 M 56 M1b 01/17/94 95 12/17/01 死亡 24

MEL 34 F 28 M1b 04/01/01 10 02/05/02 死亡 42

MEL 35 M 29 M1a 08/25/98 43 03/12/02 死亡 12

MEL 36 F 69 M1b 01/01/85 205 02/19/02 死亡 7

MEL 40 F 43 M1c 07/02/91 132 07/19/02 死亡 19

存活

MEL 43 M 60 M1a 08/14/94 100 12/04/02 05/16 *

/05

MEL 44 F 68 M1c 05/01/99 44 01/28/03 死亡 12

存活

MEL 45 F 53 M1a 02/01/02 10 12/17/02 5/5/0 *

5

MEL 46 F 47 M1c 11/18/97 61 12/27/02 死亡 22

MEL 47 F 35 M1c 03/02/02 10 01/09/03 死亡 2

存活

MEL 48 M 68 M1b *1992 ＞120 03/12/03 05/10 *

/05

存活

MEL 49 M 71 M1b 12/05/97 64 04/10/03 07/05 *

/05

MEL 50 M 52 M1c 07/08/97 69 04/11/03 死亡 18

存活

MEL 51 M 56 M1c 10/01/01 18 04/16/03 05/17 *

/05

MEL 52 M 42 M1c 03/01/02 13 04/17/03 死亡 9

存活

MEL 54 M 50 M1b 07/20/90 153 04/25/03 04/08 *

/05

MEL 56 M 71 M1c 03/01/01 26 05/29/03 死亡 9

MEL 57 F 36 M1b 07/01/02 11 06/05/03 死亡 20

MEL 58 M 67 M1c 10/01/99 45 07/18/03 死亡 10

存活

MEL 59 M 61 M1c 未知 * 07/25/03 06/22 *

/05

MEL 60 M 41 M1c 11/01/02 9 08/14/03 死亡 7

存活

MEL 61 F 54 M1a 03/03/99 54 09/10/03 05/18 *

/05

MEL 62 M 46 M1b 12/01/01 22 10/09/03 死亡 5

存活

MEL 63 M 75 M1b 12/01/00 34 10/29/03 03/16 *

/05

存活

MEL 64 F 53 M1b 04/01/00 42 10/30/03 03/05 *

/04

存活

MEL 65 M 62 M1b 08/14/94 111 11/14/03 05/16 *

/05

MEL 68 M 74 M1b 06/09/04 1 07/29/04 死亡 9

存活

MEL 70 M 67 M1b 04/06/04 5 09/23/04 8/18/ *

2005

MEL 72 M 50 M1c 09/2 3/04 2 11/10/04 死亡 *

该表提供了35名转移性黑色素瘤患者的临床和人口统计学特征。

第二组患者包括39名在药理学免疫抑制治疗下维持他们的移植物的肝移植接受者，移植的时间中位数为729天，且范围为338到1905天之间。来做常规检查的门诊患者被召募用于此研究。所有患者接受使用钙神经素抑制剂的标准治疗方案(例如，他克莫司：n＝25；环孢素A：n＝13)。肝移植的主要适应症是丙型肝炎(n＝19)和雷奈克肝硬化(n＝7)。下表提供了39名肝移植接受者的临床和人口统计学特征。

表4：39名肝移植接受者的临床和人口学特征

患者ID 年龄性别移植到抽 TAC CsA 最初诊断

血(天)

R1292 47 M 1854 是丙型肝炎

R1297 48 M 1868 是丙型肝炎

R1308 66 F 1905 是原发性胆汁性肝硬变

R1322 32 F 1821 是丙型肝炎

R1323 45 M 1828 是丙型肝炎

R1325 50 M 1801 是丙型肝炎

R1329 51 F 1781 是雷奈克肝硬化

R1340 50 M 1829 是雷奈克肝硬化

R1348 64 F 1802 是暴发性肝功能衰竭

R1355 61 M 1780 是隐原性

R1364 42 M 1756 是丙型肝炎

R1413 52 M 1856 是雷奈克肝硬化

R1673 60 F 756 是乙型肝炎

R1674 45 M 729 是丙型肝炎

R1684 65 F 721 是 Mx.类癌

R1686 59 M 704 是乙型肝炎

R1689 43 M 692 是丙型肝炎

R1700 53 M 732 是丙型肝炎

R1701 45 M 737 是丙型肝炎

R1702 48 M 726 是丙型肝炎

R1706 57 M 721 是雷奈克肝硬化

R1710 50 F 736 是隐原性

R1714 63 F 718 是非酒精性脂肪性肝炎

R1718 53 F 707 是丙型肝炎

R1754 51 F 589 是原发性胆汁性肝硬变

R1771 42 F 812 丙型肝炎

R1787 60 F 794 是雷奈克肝硬化

R1805 42 M 735 是雷奈克肝硬化&坏死后肝硬化C型

R1814 45 M 427 是丙型肝炎

R1838 66 F 360 是自身免疫性肝炎

R1839 56 M 354 是隐原性

R1841 52 M 363 是 PSC-UC

R1843 48 M 361 是丙型肝炎

R1845 44 F 338 是原发性胆汁性肝硬变

R1846 41 F 338 是丙型肝炎

R1847 53 M 358 是雷奈克肝硬化

R1854 50 M 350 是丙型肝炎

R1971 46 M 367 是丙型肝炎；伴随肝硬化的肝细胞癌

R1974 54 M 341 是丙型肝炎

还从组成对照组的25名健康供体获得血样。下表提供了25名健康供体的人口统计学学特征。

表5：25个健康供体的人口学特征

健康志愿者性别年龄

D-001 M 41

D-002 F 53

D-005 F 40

D-007 F 44

D-008 M 40

D-010 M 46

D-011 F 43

D-013 M 58

D-014 F 47

D-015 M 42

D-016 F 40

D-017 M 25

D-018 M 46

D-019 F 40

D-020 M 39

D-021 M 45

D-022 M 50

D-024 F 44

D-025 F 48

D-027 F 43

D-028 F 43

D-029 M 43

D-031 M 35

D-032 F 43

D-033 F 43

疾病相关的血液白细胞转录标记物的鉴定。血液白细胞基因表达标记物在转移性黑色素瘤患者和肝移植接受者中进行鉴定。各患者组与健康志愿者对照组进行比较。将患者样本分成用于鉴定疾病相关和预测表达标记物的训练集，以及独立的测试集。这种逐步分析允许验证不用于确定疾病标记物的样本中的结果。采用严格标准选择组成训练集的样本，以便避免因生物学和/或技术因素混淆该分析。下表说明考虑年龄、性别和样本处理方法的样本集的组成，用于鉴定(训练)和验证(测试)与转移性黑色素瘤相关的表达标记物。

表6：与转移性黑色素瘤相关的样本集的组成。

类似地，下表提供了考虑年龄、性别和样本处理方法的样本集的组成，用于鉴定(训练)和验证(测试)与经历免疫抑制药物治疗的肝移植接受者相关的表达标记物。

表7：与经历免疫抑制药物治疗的肝移植接受者相关的样本集的组成。

表8列出了与健康志愿者相比，在转移性黑色素瘤患者中差异表达的基因。22名转移性黑色素瘤患者组对23名健康志愿者训练集的统计学比较，鉴定了899种差异表达的基因(p＜0.01，非参数曼-惠特尼秩和检验，且＞1.25倍变化；218种过表达和681种低表达的基因)。表8至表14以计算机可读格式(CRF)作为长表格的部分提供且引入本文作为参考。所述表格提供了由此模块被鉴定、它们的表达水平、用于它们的个体鉴定的各种命名法的相关性。

图7A-7D是基因的分层聚类图像。图7A例示产生相反表达模式的基因的分层聚类；其在图7B所示的独立测试集中被证实。图7B显示来自13名健康志愿者对16名患者的结果。接着，分类预测算法被应用于最初的训练集。基于它们如图7C和表9)所示的差异表达，这些算法产生了具有分类健康志愿者和患者最佳能力的81种基因。表9例示区分黑色素瘤患者和健康志愿者的转录物集的表达水平。使用这81种基因，独立的训练集以90％的准确度被分类；如图7D所示，仅三种的类别是不确定的。

图8A和8B是在独立样本集中的微阵列结果图，其通过使从训练和测试集获得的表达水平相关来证实结果的可靠性。在训练集中，使用分类预测算法(k-近邻法)鉴定具有区分患者和健康志愿者的最佳能力的基因。测量健康对照和患者之间的倍数变化表达水平，用于区分训练集和独立测试集中的基因。在训练集和测试集中获得的倍数变化值有相关性：图8A例示了关于转移性黑色素瘤的结果以及产生的81种基因具有r²＝0.83的皮尔森相关性和p＜0.0001，以及图8B例示了关于肝移植接受者的结果以及产生的65种基因具有r²＝0.94的皮尔森相关性和p＜0.0001。

图9A-9D是用于鉴定经历免疫抑制药物治疗的移植接受者中血液白细胞转录标记物的基因的分层聚类图像。将样本分成用于鉴定在肝移植接受者对健康志愿者中差异表达基因的训练集(27名健康者，22名患者)，分别如图9A和图9C所示。9名健康者和21名患者的测试集被用于独立地验证这种标记物，如图9B和图9D所示。分类比较鉴定了2,589种差异表达的基因(曼-惠特尼检验p＜0.01，倍数变化＞1.25)。图9A例示测试集中的相似标记物，而图9B例示鉴定81种基因的分类预测。图9C显示以90％准确度区分的独立测试集。图9D例示30份中的2份样本不能鉴定类别；1份样本被不正确预测(即移植接受者分类为健康者)。

对肝移植接受者应用相同的分析策略。22名移植接受者对27名健康志愿者组的统计学比较鉴定出2,589种差异表达的基因(p＜0.01，非参数曼-惠特尼秩和检验和＞1.25倍数变化；938种过表达和1651种低表达的基因；表10)。表10例示与健康志愿者相比，在经历免疫抑制药物治疗的肝移植接受者中差异表达的基因。基因的分层聚类产生了在如图9A中所示的训练集和如图9B中所示的独立测试集中观察到的相反表达模式。在训练集中确定了65种分类器基因，并在图9C和表11中例示。表11例示区分经历免疫抑制药物治疗的肝移植接受者与健康志愿者的转录本集的表达水平。将65种分类器基因应用于9名健康供体和21名患者的独立测试集。此时样本90％分类正确：在2个病例中无法确定类别，并且一个样本被错误分类，如图9D所示。从这些集中得到的结果高度相关，例如皮尔森相关性r²＝0.94，p＜0.0001，如图8B所示。因此，与转移性黑色素瘤患者和肝移植接受者相关的血液白细胞转录标记物已得到鉴定和验证。

进行患者PBMC转录谱的模块-水平分析。定制的微阵列数据挖掘策略被用于进一步表征与疾病相关的基因表达模式。对239个血液白细胞转录标记物集的分析鉴定了重组4,742个探针组的28个转录模块。这些“转录模块”是在多个研究中的大量样本中遵循相似表达模式的基因集，通过共表达多元分析来鉴定。各个模块与指示选择轮和顺序的独特标识符相关(例如，M2.8指示第二轮选择的第8个模块)。提取各转录模块借助于文献谱算法进行功能表征(Chaussabel和Sher，2002)。

图10-13例示健康和患病组之间模块-水平分析的详细统计比较。例如，28个协同表达的基因集或转录模块通过分析239个PBMC微阵列谱进行鉴定。对于这些模块中的每一个，测试在健康志愿者和转移性黑色素瘤患者或移植接受者组之间表达水平的变化。饼分图显示在各模块中显著变化的基因比例，其中红色指示过表达基因，而蓝色表明低表达基因，曼-惠特尼检验p＜0.05。对于每个模块，从文献中提取的关键词连同对基因中存在的关系的功能性评价以绿色列出。

图14是由转录谱表示的少数代表性模块中观察到的变化图。每种差异表达的基因由指示健康志愿者和患者样本表达的相对水平的线表示。峰和谷分别指示在给定患者中相对较高和较低的基因表达。没有表示无显著不同的基因。与血小板标记物相关的基因表达水平以相反方向改变：形成该标记物(M1.2)的基因的28％在黑色素瘤患者中过表达，而27％在移植接受者中低表达。此外，属于模块M2.1(细胞毒性细胞标记物)的一半基因在移植接受者中低表达。这种趋势在黑色素瘤患者中未观察到(7％过表达的具有p＜0.05，5％的变化仅预期是偶然的)。类似地，在移植接受者中观察到与T细胞相关的大量基因下调(M2.8中74％的基因)。该发现最有可能反映药理学免疫抑制。在黑色素瘤患者中，29％的这些T细胞相关基因下调。此外，形成模块M3.1的44％干扰素诱导基因在移植接受者中过表达，而26％在黑色素瘤患者中低表达。在各模块中差异表达的基因的列表在表12和13中可获得。

在模块水平上，转移性黑色素瘤患者和移植接受者显示共同的转录谱。这种分析鉴定了转移性黑色素瘤患者和肝移植接受者的血液白细胞转录标记物的相似性以及差异。

图15是在两个患者组对其各自的健康供体组中观察到的模块变化图。各模块差异表达的基因比例由可变亮度的点指示。例如，在重叠图中，移植中的变化由黄色表示，而黑色素瘤中的变化由蓝色指示，以及二者中的变化由绿色指示。低表达和过表达转录本的比例在独立网格中表示。两个患者组之间共同的模块包括M1.4(cAMP和NF-kB信号途径的调节物)、M2.6(包括在髓系细胞中表达的基因)、M3.2和M3.3(M3.2和M3.3都包括涉及炎症的因子；如图10-13中所示)。

图16是例示本发明模块-水平分析的图像。在来自转移性黑色素瘤患者和来自肝移植接受者的血液中共同的转录标记物。基因表达谱属于血液白细胞转录模块M1.1、M1.3、M1.4和M3.2的。对于各模块(U133A)指示探针的总数连同简短的功能性解释。以绿色指示通过文献谱分析提取的关键词。根据各模块中的总数目，与合适的健康对照组相比，在患者中显著变化(曼-惠特尼检验，p＜0.05)的基因比例在饼分图中示出，其中过表达基因以红色表示，而低表达基因以蓝色表示。曲线图代表显著变化基因的转录谱，其中每条线表示在多种条件(样本，x轴)中单个转录本在y轴上的表达水平。

转移性黑色素瘤和肝移植表型之间的相关性对于M1.4和M3.2最强，如图16所示。有趣的是，对于黑色素瘤和移植组大多数低表达的模块是共同的，在M1.1(包括浆细胞相关的基因)、M1.3(包括B-细胞相关的基因)和M1.8(包括编码代谢酶的基因和涉及DNA复制的因子)的情况下具有最惊人的相似性。

鉴定对于转移性黑色素瘤和肝移植患者独特的共同转录标记物。检查对于转移性黑色素瘤患者和肝移植接受者这两个患者组特异性的相似性程度。对患者和健康对照之间的所有样本(例如38名黑色素瘤、43名移植、36名健康)进行统计学组间比较。简而言之，鉴定在肝移植接受者和转移性黑色素瘤患者中显著过表达的323个转录本和显著低表达的918个转录本(曼-惠特尼检验，p＜0.01，过滤＞1.25倍数变化)。接着，与相关的健康对照相比，使用来自系统性红斑狼疮(“SLE”)、急性感染(肺炎链球菌、金黄色葡萄球菌、大肠杆菌和A型流感)和移植物抗宿主病(“GVHD”)患者的样本对这些转录本进行组间比较。该分析产生p值，其的分层聚类鉴定了黑色素瘤和移植组共同的转录本中不同的显著性模式。该分析鉴定了在所有疾病中改变的基因集，如图17所示，其中P1是普遍过表达的；P3是普遍低表达的，而其他与黑色素瘤和移植组更特异地相关，如图18所示，其中P2是过表达的；而P4是低表达的。表14例示8种疾病中形成模式P1、P2、P3和P4的基因的显著性水平。

图17是显著性模式的分析图像。选择与健康志愿者相比，在IV阶段黑色素瘤或肝移植患者中以更高水平表达的基因。p值类似地从其他疾病模型中：从系统性红斑狼疮(SLE)，移植物抗宿主病(GVHD)，或流感病毒(A型流感)、大肠杆菌、肺炎链球菌或金黄色葡萄球菌急性感染患者获得的PBMC中产生的基因表达谱中获得。这些中的每一个与在这些研究中产生的合适的健康志愿者对照组进行比较。从黑色素瘤患者和肝移植接受者获得的PBMC中显著更高或更低水平表达的基因(分别为过表达和低表达)通过对上文列出的所有病症产生的p值的分层聚类进行排序。p值根据色标来表示：绿色表示低p值/显著，而白色表示高p值/不显著。鉴定不同的显著模式，其中对于黑色素瘤和肝移植组P1和P3是普遍存在的，而P2和P4是最特异性的。

图18是黑色素瘤和移植组共同的普遍存在和特异性的基因标记物的模块分布图。对于形成黑色素瘤和移植组共同的普遍存在(P1)和特异性的(P2)转录标记物的基因测定在28个PBMC转录模块中的分布。各个模块的基因列表依次与形成P1和P2的109和69个转录本进行比较。对于各模块，记录P1或P2共有的基因比例。这些结果通过图18的柱形图表示。

因此，形成黑色素瘤和移植组共同的转录标记物的基因可以根据以下两种性质分成不同集：(1)协同表达，如图13的转录模块中所示；和(2)疾病间的表达变化，如图17的显著性模式所示。这两种不同挖掘策略所得到的结果是通过检查普遍存在(P1)和特异性的(P2)PBMC转录标记物的模块分布而补偿。图18清楚地显示目前为止已鉴定的28个PBMC转录模块中P1和P2的分布是非随机的。事实上，P1转录本在M3.2(通过与炎症相关的转录本表征)中优先发现，而M1.4转录本几乎排他地属于P2，其包括在黑色素瘤患者和肝移植接受者中更特异性地过表达的基因。

图19例示免疫抑制的转录标记物。在黑色素瘤患者和移植接受者中最特异性地过表达的转录本(P1)包括免疫应答的阻遏物，其抑制：1)NF-kB易位；2)白介素2生成和信号转导；3)MAPK途径和4)细胞增殖。这些因子中的一些是充分表征的抗炎分子，而其他在无能T-细胞中表达。

免疫抑制的分子标记物。检查了在黑色素瘤和移植组中最特异性地过表达的基因(P1)。从69个探针组中鉴定了55个独特的基因标识符。已开发了针对通过基因索引的文献数据库的询问，以帮助解释微阵列基因表达数据，鉴定了与47种基因相关的6527篇出版物，其中30种基因与超过10篇出版物相关。图19例示在形成这种标记物的基因中显著的功能趋同，并且包括编码具有免疫调节功能的分子的基因(例如抗增殖基因：BTG2、TOB1、AREG、SUI1或RNF139；抗炎基因：TNFAIP3)；转录抑制物：(SON、ZC3HAV1、ZNF394)；应激诱导分子(HERPUD1)；而其他分子具有充分确定的免疫抑制性质。例如，双重特异性磷酸酶2、5和10(DUSP2、5、10)干扰MAP激酶ERK1/2，其是钙神经素抑制剂例如他克莫司/FK506的已知靶点。DUSP10选择性地使应激活化激酶脱磷酸(Theodosiou等，1999)。有趣的是，发现DUSP5在T-细胞IL2信号转导中具有负反馈作用(Kovanen等，2003)。CREM、FOXK2和TCF8直接结合IL2启动子，并且可能有助于在T细胞无能中阻遏IL-2的产生(Powell等，1999)。BHLHB2(Stral3)在体内负调节淋巴细胞发育和功能(Seimiya等人，2004)。CIAS1编码调节NF-κB活化和促炎细胞因子生成的蛋白Cryopyrin。这种基因的突变已在几种炎症性病症中鉴定(Agostini等，2004)。亮氨酸拉链蛋白DSIPI已知通过干扰广泛范围的信号途径(NF-κB、NFAT/AP-1、MEK、ERK1/2)介导糖皮质激素和IL10的免疫抑制作用，导致在巨噬细胞中免疫应答的普遍抑制和在T细胞中IL2受体的下调。值得注意的是，发现在药物治疗(地塞米松)(D′Adamio等，1997)或长期暴露于肿瘤细胞(伯基特淋巴瘤)(Berrebi等，2003)后，DSIPI在免疫细胞中的表达增强。

还发现不属于P1的其他免疫抑制分子在黑色素瘤和移植组中过表达。值得注意的是，近期发现另一种地塞米松诱导的基因DDIT4抑制哺乳动物的雷帕霉素靶点mTOR(Corradetti等，2005)。因此，这种内源性因子看起来能够再现有效的免疫抑制药物作用。细胞保护分子HMOX1也表现抗炎性质。最近，发现HMOX1的表达由FOXP3诱导并且介导CD4+CD25+调节T细胞的免疫抑制作用(Choi等，2005)。因此，HMOX1的转录活性的提高与在实验移植模型中的有利结果相关(Soares等，1998)。DDIT4和HMOX1基因还在急性大肠杆菌或金黄色葡萄球菌感染患者中过表达。FK506结合蛋白家族成员亲免素FKBP1A(FKBP12)，是经由药物FK506(他克莫司)和雷帕霉素的T-细胞免疫抑制的关键介质(Xu等，2002)。与健康供体相比，这种基因的表达在所有患者组中提高。

血液是易获得的组织并且其本身适于在多种疾病中进行比较分析。药理学和肿瘤介导的免疫抑制会在血液白细胞中产生共同的转录标记物。在患者的血液中鉴定了转移性黑色素瘤和移植接受者疾病相关的转录标记物。这些标记物通过几种分析方法进行鉴定和证实。转录模块的分析鉴定了在血液白细胞转录组分中与细胞类型(例如浆细胞、B-细胞、T-细胞、细胞毒性细胞)和免疫应答(例如炎症、干扰素)相关的改变。此外，使用转录模块和基因表达水平，鉴定了转移性黑色素瘤患者和肝移植接受者在血液转录标记物之间的相似性。然而，这种共同的转录标记物无法完全归因于免疫抑制。例如，B-细胞相关基因(M1.3)的表达水平不仅在黑色素瘤和移植组中减少，在急性流感感染和系统性红斑狼疮(SLE)患者中也减少(与健康对照相比，53％的基因低表达；Chaussabel等)。相反地，与浆细胞相关的基因(M1.1)接近40％在SLE患者中低表达，并且在急性流感感染患者中没有变化(7％的基因在p＜0.05的水平过表达)，而表达水平在黑色素瘤患者和移植接受者中显著减少(在M1.1中分别61％和62％的基因)。为了选择黑色素瘤和移植标记物之间共同的最特异性的转录本，在总共8个患者组中进行基因-水平分析。这导致鉴定了在免疫抑制患者中最特异性地过表达的转录本集。鉴定的基因集表现出显著的功能趋同，并且包括编码白介素-2转录的阻遏物、NF-κB或MAPK途径的抑制物和抗增殖分子的基因。有趣地，这些标记物与用于药理学免疫抑制的药物作用机制一致，该药物抑制钙依赖性丝氨酸苏氨酸蛋白磷酸酶钙神经素的活性，所述钙神经素基于T-细胞活性负责NF-AT和NF-κB的核易位。指示在晚期黑色素瘤患者和药理学治疗的移植接受者中起作用的免疫抑制机制之间的功能趋同。在免疫抑制患者中更特异性地诱导的转录本包括糖皮质激素诱导的基因(例如DSIPI、CXCR4、JUN)和激素核受体(NR4A2和RORA)的事实(Winoto和Littman，2002)表明类固醇激素在肿瘤介导的免疫抑制中可能的作用。

转移性黑色素瘤患者显示内源性免疫抑制转录标记物，该标记物类似于在肝移植患者中由药理学治疗诱导的那种。本发明提供了鉴定具有黑色素瘤进展高风险的患者的方法和设备。此外，本发明还提供了用于监测免疫抑制指示物的方法和设备，可以帮助调整免疫抑制药物的剂量，并且平衡肝移植接受者排斥和副作用的风险。

患者信息和血样处理的实例包括如下。由机构IRB批准知情同意(肝移植接受者：002-1570199-017；黑色素瘤患者：000-048，002-094；003-187)后获得血液。在位于Dallas，TX的贝勒大学医学中心将获得的血样置于酸性柠檬酸盐葡萄糖黄色顶部管(BD真空采血管)中。样本立即在室温下转送到贝勒免疫研究院(Baylor Institute for Immunology Research，Dallas，TX)进行处理。通过Ficoll梯度离心法分离的新鲜PBMC贮存于液氮中(例如活冷冻)，或立即在包含β-巯基乙醇的RLT缓冲液(Qiagen，Valencia，CA)中进行裂解。使用

微型试剂盒根据制造商推荐的方案(Qiagen，Valencia，CA)，从之前液氮冷冻的细胞(“冷冻的”)或从立即在分离后裂解的细胞(“新鲜的”)中提取总RNA。该参数在实验设计中加以考虑，该实验设计考虑年龄、性别和样本处理方法，用于鉴定(训练)和验证(测试)与转移性黑色素瘤和经历免疫抑制药物治疗的肝移植接受者相关的表达标记物。

微阵列测定。使用

试剂盒(Qiagen，Valencia，CA)根据产品说明书分离总RNA，并使用Agilent 2100生物分析仪(Agilent，PaloAlto，CA)评估RNA的完整性。不过本领域技术人员将认识到也可以使用其他分离方法。从2-5微克总RNA产生含有T7-dT(24)启动子序列(Operon Biotechnologies，Huntsville，AL)的双链cDNA。该cDNA随后用作模板用于使用生物素标记物的体外转录单轮扩增(购自AffymetrixInc，Santa Clara，CA的Enzo BioArray HighYield RNA Transcript Labeling试剂盒)。使用Sample Cleanup Module纯化生物素化的cRNA靶点，随后根据制造商的标准方案与人U133 A GeneChips(Affymetrix Inc，SantaClara，CA)杂交。Affymetrix U133A GeneChips包含22,283个探针组，由10-20个独特的探针对(完全匹配及其相应的错配)代表，其允许检测14,500种不同的基因和表达序列标签(EST)。使用激光共聚焦扫描仪(Agilent)扫描阵列。样本由相同小组用相同的核心设施进行处理，并且在各个阵列运行之间随机化。原始数据存放于GEO(www.ncbi.nlm.nih.gov/geo/)。

数据分析。将各Affymetrix U133A GENE

原始强度数据归一化为在此阵列上的所有测量的平均强度，并且在Affymetrix Mieroarray Suite5.0中标定至500目标强度值(TGT)。借助于GeneSpring软件，7.2版，将每个患者样本阵列的各基因测量除以该基因来自健康志愿者群测量的中位值。基于Affymetrix标记呼叫应用过滤器：如果在任意组(健康对照或患者)中在至少75％的样本中“存在”，则选择探针组。该步骤确保基因更可靠的强度测量用于下游分析中。使用非参数秩和统计分析检验(曼-惠特尼)对所选择的基因集进行分类比较。在垂直方向上，使用Genespring的标准相关测量-皮尔森相关性约0(Pearson correlation around zero)来产生基因的分层聚类。归一化的基因表达数据用非参数单变量分析(fisher’s精确检验)进行检查，以鉴定可能区分两个不同组的基因。应用监督学习算法——K-近邻法，在3个步骤中将样本分配至预定分类：1)鉴定与待区分的分类具有强相关性的基因(观察)；2)证实经鉴定基因区分预定分类；和3)用“未知样本”验证。

转录模块的鉴定。使用Affymetrix U133A&B GENECHIPS(＞44K个探针组)产生总共239个血液白细胞基因表达谱。获得8个组的转录数据，该8个组包括全身型幼年特发性关节炎，SLE，肝移植接受者，黑色素瘤患者，以及具有急性感染：大肠杆菌、金黄色葡萄球菌和A型流感的患者。对于每个组，将在所有病症的至少50％中存在的转录本分到30个集群(k-法聚类：集群C1到C30)内。将用于各基因的集群分配记录在表中，并在所有基因中比较分布模式。使用迭代方法选择模块，从在所有研究组中属于相同集群的最大基因集开始(即在8个组的8个中的相同集群中发现的基因)。选择随后从该核心参照模式扩展至包括具有7/8、6/8和5/8匹配的基因。所得到的基因集形成转录模块，并从选择库中撤回。随后从第二大的基因集开始重复该过程，逐渐降低严格水平。通过该分析鉴定了4742个分配于28个模块中的转录本。分别给各模块指定一个唯一标识符，以指示出轮数和选择顺序(如M3.1是在第三轮选择中鉴定的第一个模块)。

显著性模式分析。使用Affymetrix HG-U133A GeneChips对从患者和健康志愿者获得的PBMC生成基因表达数据。通过比较患者组与他们各自的健康对照组(曼-惠特尼秩和检验)获得6个参照数据集的p值。所述组由下述患者组成：1)系统性红斑狼疮(SLE，16个样本)，2)A型流感(16个样本)，3)大肠杆菌(16个样本)，4)金黄色葡萄球菌(16个样本)，和5)肺炎链球菌(14个样本)；以及7)经历移植物抗宿主病的骨髓移植接受者(GVHD，12个样本)。形成对照组时还考虑年龄、性别和项目(每个组中10个样本)。将在“研究组”(黑色素瘤和移植)中显著变化的基因(p＜0.01)分成两个集：过表达对对照和低表达对对照。对于“参照组”(SLE、GVHD和流感病毒、大肠杆菌、金黄色葡萄球菌、肺炎链球菌感染)获得形成过表达集基因的p值。p值数据用基因表达分析软件程序GeneSpring，7.2版(Agilent)进行处理，该软件程序基于显著性模式用于执行分层聚类和基因分组。

实施例2.使用显著性模式的确定和分析鉴定在患者外周血白细胞中普遍存在的和疾病特异性的基因表达标记物。

基因表达微阵列在基于患者的研究中的使用为发现诊断生物标志物和鉴定与发病机理相关的基因或途径创造了新前景。从超过100名具有存在强免疫组分的病症的患者(具有自身免疫、移植物抗宿主和传染病的患者，以及免疫抑制的移植接受者)中分离的外周血单核细胞产生基因表达标记物。该数据集允许在更广泛的背景中执行比较分析和定义疾病标记物的机会。在系统性红斑狼疮(SLE)患者和急性流感感染患者中与健康对照相比显著改变的基因列表之间发现接近20％的重叠。通过对于7种疾病对其各自的健康对照组系统性地进行统计学组间比较，评估了22,283个探针组的转录变化。通过p值的分层聚类产生显著性模式。这种“显著性模式”方法导致鉴定SLE-特异性“诊断标记物”，由在其他六种疾病中与健康相比未变化的基因组成。相反地，表征了对于所有7种疾病共同的“哨兵(sentinel)标记物”。这些发现允许使用血液白细胞表达标记物用于诊断和早期疾病检测。

简而言之，血液是免疫细胞暴露于感染物质、过敏原、肿瘤、移植物或自身免疫反应物的储库和迁移区。从患者的外周血中分离的白细胞构成临床上相关信息的易获得来源，并且可以通过微阵列分析获得这些细胞的综合分子表型。基因表达微阵列已广泛用于癌症研究，并且作为研究分析从系统性红斑狼疮(SLE)患者中分离的外周血单核细胞(PBMC)样本原理的证据，致使更好了解疾病发作和对治疗响应的机制。已发现基因表达微阵列在基于患者的研究中的两种主要应用：(1)生物标记物的发现和诊断/预后标记物的确定(例如，预测乳腺癌患者的生存)(2)涉及发病机理的基因/途径的鉴定，致使例如发现白介素-1在全身型幼年特发性关节炎的发病机理中的作用。然而，微阵列数据的分析仍构成相当大的挑战。在单次测试中同时获得成千上万个特征数据的能力是微阵列最吸引人的特征之一，但它也可能是主要缺点7。这种‘维数灾”被分析样本品数量通常很小的事实所加重。分析的基因和病症的数量之间的不平衡相当大地弱化了数据解释能力。产生了微阵列基因表达数据库，其构成从具有强免疫组分的疾病患者获得的样本。本发明的多元分析策略允许鉴定普遍存在的以及疾病特异性的标记物。

血样的处理。通过静脉穿刺收集血样，并且立即在室温下转送到贝勒免疫研究院进行处理。通过Ficoll密度梯度离心法从3-4ml血液中分离出外周血单核细胞(PBMC)，立即在含有β-巯基乙醇(BME)的RLT试剂(Qiagen公司)中裂解，在用于RNA提取步骤之前储存于-80℃。

微阵列分析。使用RNeasy试剂盒(Qiagen，Valencia，CA)根据制造商产品说明书分离出总RNA，并使用Agilent 2100生物分析仪来评估RNA完整性。根据制造商的标准方案(Affymetrix Inc.，Santa Clara，CA)进行靶点标记。纯化生物素化的cRNA靶点，并随后与Affymetrix HG-U133AGeneChips(22,283个探针组)杂交。阵列使用Affymetrix共聚焦激光扫描仪进行扫描。用Microarray Suite，5.0版(MAS 5.0；Affymetrix)软件评估荧光杂交信号，以使信号归一化，并且评估信号检测呼叫。每个芯片的信号值的归一化使用MAS 5.0总体方法标定到每个基因芯片500的目标强度值来实现。使用基因表达分析软件程序GeneSpring，7.1版(Agilent)进行统计分析、分层聚类和样本的分类。

显著性模式的开发和分析。使用标准操作程序，使用在相同的Affymetrix系统上运行的Affymetrix HG-U133A GeneChips对从患者和健康志愿者获得的PBMC生成基因表达数据。通过比较7组患者与它们各自的健康对照组(曼-惠特尼秩和检验)获得P值。所述组由下述儿科患者组成：1)系统性红斑狼疮(SLE，16个样本)，2)A型流感(16个样本)，3)金黄色葡萄球菌(16个样本)，4)大肠杆菌(16个样本)，和5)肺炎链球菌(14个样本)；以及成人移植接受者：6)已接受移植物经历免疫抑制治疗的肝移植患者(16个样本)，和7)经历移植物抗宿主病的骨髓移植接受者(GVHD，12个样本)。形成对照组时还考虑年龄、性别和项目(每个组中10个样本)。将在“研究组”(A型流感和/或SLE)中显著变化的基因(p＜0.01)分成两个集：过表达对对照和低表达对对照。对于“参照组”(具有大肠杆菌、金黄色葡萄球菌、肺炎链球菌感染，肝移植接受者和移植物抗宿主病)获得形成过表达集基因的p值。当基因低表达时，参照组的p值设为1。在研究组中低表达的基因集中使用相同的操作，只是这次当基因过表达时，参照组的p值设为1。p值数据用基因表达分析软件程序GeneSpring，7.1版(Agilent)进行处理，基于显著性模式用于执行分层聚类和基因分组。

与急性A型流感感染和SLE相关的血液白细胞转录标记物的鉴定。使用从SLE或急性A型流感感染的儿科患者获得的微阵列基因表达数据鉴定这两种疾病特征的转录标记物(图20)。鉴定了相似数量的患者(18个样本)与它们各自的对照组(10个样本)的统计学比较：(1)形成流感标记物的1826种差异表达的基因(其中703种相对于对照是过表达的(红色)，而1123种是低表达的(蓝色)，参见图(20A)；(2)形成SLE标记物的3382种差异表达的基因(其中1019种相对于对照是过表达的，而2363种是低表达的，参见图20B)。

图20显示在患者及它们各自的对照之间的统计学组间比较。图20A。比较了从急性A型流感感染(FLU)的16名儿童和10名健康志愿者(HV)中分离的PBMC获得的微阵列表达(曼-惠特尼秩和检验，p＜0.01)。在1826种差异表达的基因中，在患者中703种过表达，而1123种低表达。图20B。比较了相等数量的系统性红斑狼疮(SLE)儿童与它们各自的10名健康志愿者(HV)组(曼-惠特尼秩和检验，p＜0.01)。在3382种差异表达的基因中，在患者中1019种过表达，而2363种低表达。图20C。比较相对于它们各自的对照组(健康志愿者)，从SLE和FLU样本获得的过表达和低表达的基因列表。

经转化的表达水平由色标显示，与各基因在所有供体的中位值表达相比，其中红色代表相对高的表达，而蓝色显示相对低的表达。

显著性模式的分析。接着，测定这些标记物对各种疾病的特异性。在FLU和SLE中差异表达的基因集之间发现大量重叠(图20C)，其中279种过表达和490种低表达的基因是两种疾病共同的(相似性分别为19％和16％)。该观察结果被用于确定是否能够在更广泛的疾病集的背景中获得特异性疾病标记物。

为了解决这个问题，将分析扩展到从由细菌(大肠杆菌、金黄色葡萄球菌和肺炎链球菌)引起的急性感染患者以及移植接受者(已接受异体移植的经历药理学免疫抑制治疗的肝接受者和具有移植物抗宿主病的骨髓接受者)获得的PBMC转录数据集。对与流感相比在SLE中特异性过表达的基因(图1，740种基因)进行显著性模式分析。这种方法允许可视化与它们各自的对照组(年龄和性别匹配的健康志愿者)相比，各疾病在基因表达水平中变化的显著性。经过分层聚类根据显著性模式排列基因。

在鉴定的4个模式中，发现2个在很大程度上对SLE是特异的(图21：P1-98种基因，和P3-193种基因)。总之，该方法用于鉴定与其他六种疾病相比显示对SLE高度特异性的基因集，尤其是在P3中。

图21是在SLE患者中过表达但在急性A型流感感染患者中未过表达的基因的显著性模式分析。与它们各自的对照组相比，用于该分析的基因与他们的各自对照组相比在SLE患者中显著过表达(曼-惠特尼P＜0.05)，而在急性A型流感感染的患者中未过表达，这些基因选择用于该分析(740种基因)。获得另外5个患者组的P值，该5个患者组为：大肠杆菌、金黄色葡萄球菌、肺炎链球菌、肝移植接受者和移植物抗宿主病患者。将所述值输入微阵列数据分析软件包内(关于细节参见方法)。鉴定了4个模式：SLE1-4。显著性水平由色标指示，其中较深的绿色代表较低的P值，而白色指示P值为1。

鉴定共同的疾病标记物。来自图21的大比例的基因被普遍诱导(P2-222种基因和P4-225种基因)。该发现表明这些不同的疾病可能在血液中具有共同的构成“疾病”标记物的转录组分。为了研究这种可能性，分析在流感和SLE标记物之间共有的基因集(图20C：过表达的279种基因，和低表达的490种)。

图22显示A型流感和SLE共同的基因的显著性模式。在其他疾病：大肠杆菌、金黄色葡萄球菌、肺炎链球菌急性感染，肝移植接受者(移植)和具有移植物抗宿主病的骨髓接受者(GVHD)中检查在A型流感(FLU)和SLE患者中都过表达(左栏，过)和低表达(右栏，低)的基因。显著性水平由色标指示，其中深绿色代表较低的P值，而白色指示P值为1。

在如上所述的所有7种疾病中对这些基因产生显著性模式。在A型流感感染的患者和SLE患者中过表达的基因中鉴定了三个子集：一个在大多数疾病中变化，另一个在所有疾病中表现显著差异，而第三个对于流感和SLE更具特异性(图22A，分别为P1、P2和P3)。分析流感和SLE共同的低表达基因集时可以发现相等模式(图22B，P4-7)。有趣的是，具有最类似于流感和SLE的显著性模式的患者组具有移植物抗宿主病。该平行现象对于低表达基因集尤为惊人(图22B)。

显著性模式的功能分析。最后，提取了与在图22上鉴定的模式相关的功能注解。优先在两个模式(在图3和4上的P2-3；fisher’s检验用于该功能分类的超额代表：p＜0.0005)中发现与“防御应答”相关的基因。与健康组相比，这些基因更高水平的表达。列表包括防卫素α3、天青素(azurocidin)1、稳定素(stabilin)1(P2)；肿瘤坏死因子家族成员TRAIL和半乳凝素3结合蛋白(P3)。相反地，属于模式P4-6的低表达基因优先与“核糖体的结构组分”相关(fisher’s检验用于P4-6中该功能分类的超额代表：p＜0.0001)。这些基因包括多个核糖体蛋白家族成员(例如，RPS10、RPL37和RPL13)。属于对流感和SLE最特异性的过表达基因集(P3)的基因优先与“干扰素应答”相关(p＜0.0001，例如粘病毒抗性1、干扰素α诱导蛋白16、双链RNA诱导蛋白质激酶)，而P1中的基因与“重金属结合”唯一地相关(p＜0.0001，反映金属硫蛋白家族成员的过于丰富)。

图23是根据显著性模式分组的流感感染和狼疮患者共有基因的功能性分析。对在图22上显示的形成不同模式的基因集(P1-7)实施功能性分析。直方图显示与每个集特定注解相关的基因百分比。过表达基因＝红色，低表达＝蓝色，P1n＝71种基因；P2n＝118；P3n＝85；P4n＝117；P5n＝184；P6n＝120；P7n＝46。

PBMC转录模式的比较分析鉴定了疾病特异性以及普遍存在的表达标记物。从流感感染和SLE患者获得的PBMC转录谱之间发现的共同的基因中观察到不同程度的疾病特异性。将显著性模式中的差异转化成不同的功能性相关。事实上，相对于其他5种疾病对流感和SLE最特异性的基因与生物主题例如“干扰素诱导”(过表达的基因；图22和23：P3)或“核糖体的结构组分”(低表达基因；图22和24：P4)最强烈地相关。这些观察允许验证该方法的关联性。这种分析通过将疾病标记物置于更广泛的背景中而有助于解释微阵列数据。

除有利于更好的理解疾病过程外，PBMC转录数据集的多元分析具有用于下述临床诊断的重要含义：(1)区分疾病-特异性标记物的鉴定；因为成千上万种潜在标志物的筛选在大多数情况下将允许精确地找到独特地表征疾病的有限数量的转录本；和(2)哨兵标记物的鉴定；因为在广泛范围的健康障碍中表达改变的基因集有可能被用于早期疾病检测的筛选测试中。

转移性黑色素瘤患者显示内源性免疫抑制转录标记物，该标记物类似于在经历肝移植的患者中药理学治疗诱导的那种。本发明提供了鉴定具有黑色素瘤进展高风险的患者的方法和设备。此外，本发明还提供了用于监测免疫抑制指示物的方法和设备，可以帮助调节免疫抑制药物的剂量，并且平衡肝移植接受者排斥和副作用的风险。

应当理解本文所描述的特定实施例以例示的方式显示且不作为对本发明的限制。在不偏离本发明范围的情况下，本发明的主要特征可以应用于各种实施方式中。本领域技术人员将会认识到或能够确定，仅仅使用常规实验，多种等同物适用于本文所描述的具体方法。这些等同物被认为是在本发明的范围内，并且被权利要求书所覆盖。

本说明书中所提到的所有出版物或专利申请都指示了本发明所属领域的技术人员的技术水平。所有出版物或专利申请都引入本文作为参考，其引入程度如同各个单独的出版物或专利申请被具体地和独立地引入作为参考。

根据本发明公开的内容，本文所公开和要求保护的全部组合物和/或方法无需过度实验即可制备和实施。尽管本发明的所述组合物和方法已经以优选实施方式进行了描述，但是本领域技术人员将清楚，在不偏离本发明的构思、精神和范围的情况下，各种变化可以应用于所述组合物和/或方法以及本文所述方法的步骤中或步骤的顺序中。更具体地，显然，在能产生相同或类似的结果时，化学上和生理上相关的某些试剂可以代替本文所描述的试剂。所有这样的对于本领域技术人员是显然的类似的替代物和修改，均被认为是在如所附权利要求所定义的本发明的精神、范围和构思之内。

参考文献

Agostini，L.，Martinon，F.，Burns，K.，McDermott，M.F.，Hawkins，P.N.and Tschopp，J.(2004).NALP3 forms an IL-1beta-processinginflammasome with increased activity in Muckle-Wells autoinflammatorydisorder.Immunity 20，319-325.

Barrett，W.L.，First，M.R.，Aron，B.S.and Penn，I.(1993).Clinicalcourse of malignancies in renal transplant recipients.Cancer 72，2186-2189.

Berrebi，D.，Bruscoli，S.，Cohen，N.，Foussat，A.，Migliorati，G.，Bouchet-Delbos，L.，Maillot，M.C，Portier，A.，Couderc，J.，Galanaud，P.，etal.(2003).Synthesis of glucocorticoid-induced leucine zipper(GILZ)bymacrophages：an anti-inflammatory and immunosuppressive mechanismshared by glucocorticoids and IL-10.Blood 101，729-738.

Bordea，C，Wojnarowska，F.，Millard，P.R.，Doll，H.，Welsh，K.and Morris，P.J.(2004).Skin cancers in renal-transplant recipients occur more frequentlythan previously recognized in a temperate climate.Transplantation 77，574-579.

Carroll，R.P.，Ramsay，H.M.，Fryer，A.A.，Hawley，C.M.，Nicol，D.L.and Harden，P.N.(2003).Incidence and prediction of nonmelanoma skincancer post-renal transplantation：a prospective study in Queensland，Australia.Am J Kidney Dis 41，676-683.

Chaussabel，D.and Sher，A.(2002).Mining microarray expression data byliterature profiling.Genome Biol 3，RESEARCH0055.

Choi，B.M.，Pae，H.O.，Jeong，Y.R.，Kim，Y.M.and Chung，H.T.(2005).Critical role of heme oxygenase-1 in Foxp3-mediated immune suppression.Biochem Biophys Res Commun 327，1066-1071.

Corradetti，M.N.，Inoki，K.and Guan，K.L.(2005).The stress-inductedproteins RTP801 and RTP801L are negative regulators of the mammaliantarget of rapamycin pathway.J Biol Chem 280，9769-9772.

D′Adamio，F.，Zollo，O.，Moraca，R.，Ayroldi，E.，Bruscoli，S.，Bartoli，A.，Cannarile，L.，Migliorati，G.and Riccardi，C.(1997).A newdexamethasone-induced gene of the leucine zipper family protects Tlymphocytes from TCR/CD3-activated cell death.Immunity 7，803-812.

Gabrilovich，D.(2004).Mechanisms and functional significance oftumour-induced dendritic-cell defects.Nat Rev Immunol 4，941-952.

Gerlini，G.，Romagnoli，P.and Pimpinelli，N.(2005).Skin cancer andimmunosuppression.Crit Rev Oncol Hematol 56，127-136.

Jachimczak，P.，Apfel，R.，Bosserhoff，A.K.，Fabel，K.，Hau，P.，Tschertner，L，Wise，P.，Schlingensiepen，K.H.，Schuler-Thurner，B.and Bogdahn，U.(2005).Inhibition of immunosuppressive effects of melanoma-inhibitingactivity(MIA)by antisense techniques.Int J Cancer 113，88-92.

Kovanen，P.E.，Rosenwald，A.，Fu，J.，Hurt，E.M.，Lam，L.T.，Giltnane，J.M.，Wright，G.，Staudt，L.M.and Leonard，W.J.(2003).Analysis of gammac-family cytokine target genes.Identification of dual-specificity phosphatase 5(DUSP5)as a regulator of mitogen-activated protein kinase activity ininterleukin-2 signaling.J Biol Chem 278，5205-5213.

Lee，J.H.，Torisu-Itakara，H.，Cochran，A.J.，Kadison，A.，Huynh，Y.，Morton，D.L.and Essner，R.(2005a).Quantitative analysis ofmelanoma-induced cytokine-mediated immunosuppression in melanomasentinel nodes.Clin Cancer Res 11，107-112.

Lee，Y.R.，Yang，I.H.，Lee，Y.H.，Im，S.A.，Song，S.，Li，H.，Han，K.，Kim，K.，Eo，S.K.and Lee，C.K.(2005b).Cyclosporin A and tacrolimus，butnot rapamycin，inhibit MHC-restricted antigen presentation pathways indendritic cells.Blood.Liyanage，U.K.，Moore，T.T.，Joo，H.G.，Tanaka，Y.，Herrmann，V.，Doherty，G.，Drebin，J.A.，Strasberg，S.M.，Eberlein，T.J.，Goedegebuure，P.S.and Linehan，D.C.(2002).Prevalence of regulatory Tcells is increased in peripheral blood and tumor microenvironment of patientswith pancreas or breast adenocarcinoma.J Immunol 169，2756-2761.

Monti，P.，Leone，B.E.，Zerbi，A.，Balzano，G.，Cainarca，S.，Sordi，V.，Pontillo，M.，Mercalli，A.，Di Carlo，V.，Allavena，P.and Piemonti，L.(2004).Tumor-derived MUCl mucins interact with differentiating monocytes andinduce IL-10highIL-121ow regulatory dendritic cell.J Immunol 172，7341-7349.

Powell，J.D.，Lerner，C.G.，Ewoldt，G.R.and Schwartz，R.H.(1999).The-180 site of the IL-2 promoter is the target of CREB/CREM binding in T cellanergy.J Immunol 163，6631-6639.

Puente Navazo，M.D.，Valmori，D.and Ruegg，C.(2001).Thealternatively spliced domain TnFnIII A1 A2 of the extracellular matrix proteintenascin-C suppresses activation-induced T lymphocyte proliferation andcytokine production.J Immunol 167，6431-6440.

Seimiya，M.，Wada，A.，Kawamura，K.，Sakamoto，A.，Ohkubo，Y.，Okada，S.，Hatano，M.，Tokuhisa，T.，Watanabe，T.，Saisho，H.，et al.(2004).Impairedlymphocyte development and function in Clast5/Stral3/DEC1-transgenic mice.Eur J Immunol 34，1322-1332.

Soares，M.P.，Lin，Y.，Anrather，J.，Csizmadia，E.，Takigami，K.，Sato，K.，Grey，S.T.，Colvin，R.B.，Choi，A.M.，Poss，K.D.and Bach，F.H.(1998).Expression of heme oxygenase-1 ean determine cardiac xenograft survival.NatMed 4，1073-1077.

Theodosiou，A.，Smith，A.，Gillieron，C，Arkinstall，S.and Ashworth，A.(1999).MKP5，a new member of the MAP kinase phosphatase family，whichselectively dephosphorylates stress-activated kinases.Oncogene 18，6981-6988.

Viguier，M.，Lemaitre，F.，Verola，O.，Cho，M.S.，Gorochov，G.，Dubertret，L.，Bachelez，H.，Kourilsky，P.and Ferradini，L.(2004).Foxp3 expressingCD4+CD25(high)regulatory T cells are overrepresented in human metastaticmelanoma lymph nodes and inhibit the function of infiltrating T cells.JImmunol 173，1444-1453.

Winoto，A.and Littman，D.R.(2002).Nuclear hormone receptors in Tlymphocytes.Cell 109 Suppl，S57-66.

Woltman，A.M.，van der Kooij，S.W.，Coffer，P.J.，Offringa，R.，Daha，M.R.and van Kooten，C.(2003).Rapamycin specifically interferes with GM-CSFsignaling in human dendritic cells，leading to apoptosis via increased p27KIP 1expression.Blood 101，1439-1445.

Xu，X.，Su，B.，Barndt，R.J.，Chen，H.，Xin，H.，Yan，G.，Chen，L.，Cheng，D.，Heitman，J.，Zhuang，Y.，et al.(2002).FKBP 12 is the only FK506 bindingprotein mediating T-cell inhibition by the immunosuppressant FK506.Transplantation 73，1835-1838.

Claims

1.一种鉴定患有黑色素瘤的受试者的方法，其包括：

确定包含一种或多种黑色素瘤表达载体的表达水平的数据集；和

显示各个具有独立标识符的黑色素瘤表达载体。

2.权利要求1的方法，其中所述的一种或多种黑色素瘤表达载体包含选自表2、表8、表9、表12或其组合的三种或更多种基因。

3.权利要求1的方法，其中六种或更多种基因排列在微阵列上，所述基因选自：含RNA-结合区域(RNP1，RRM)1；视网膜母细胞瘤结合蛋白6；GrpE样1，线粒体(大肠杆菌(E.coli))；pellino同系物1(果蝇)；环指蛋白10；假定蛋白LOC90637；多梳增强子同系物1(果蝇)；全长插入cDNA克隆ZB81B12；PTK9蛋白酪氨酸激酶9；细胞分裂周期相关4；周期同系物1(果蝇)；锌指蛋白237；可TCDD-诱导的聚(ADP-核糖)聚合酶；细胞周期蛋白L1；TSPY样2；谷氨酸受体，离子能，N-甲基D-天冬氨酸样1A；KIAA0863蛋白；v-maf肌腱膜纤维肉瘤癌基因同系物F(禽类)；PRO0149蛋白；蛋白酪氨酸磷酸酶IVA型，成员1；丝氨酸/苏氨酸激酶受体相关蛋白；富含嘌呤元件结合蛋白B；磷酸二酯酶4B，cAMP-特异性(磷酸二酯酶E4愚人同系物，果蝇)；雌激素受体结合蛋白；应激70蛋白伴侣，微粒体-相关的，60kDa；BTG家族，成员3；转铁蛋白受体(p90，CD71)；假定蛋白FLJ20436；磷酸二酯酶4D，cAMP-特异性(磷酸二酯酶E3愚人同系物，果蝇)；KIAA0063基因产物；通过与t-SNARE同系物1A(酵母)相互作用的囊泡转运；LOC440309；SNF1样激酶；双重特异性磷酸酶8；含RNA-结合区域(RNP1，RRM)2；动力蛋白轻链2；膜相关DNA结合蛋白；丝氨酸/苏氨酸激酶17b(诱导凋亡)；肿瘤坏死因子，α-诱导的蛋白3；核内不均一核糖核蛋白C(C1/C2)；磷酸二酯酶4D，cAMP-特异性(磷酸二酯酶E3愚人同系物，果蝇)；kelch样15(果蝇)；KIAA0863蛋白；转录激活因子4(tax-应答增强子元件B67)；绒毛蛋白2(埃兹蛋白)；核内小核糖核蛋白多肽A′；锌指蛋白198；cAMP应答元件调节物；剪接因子3a，亚单位1，120kDa；CD83抗原(活化B淋巴细胞，免疫球蛋白超家族)；DnaJ(Hsp40)同系物，亚家族B，成员6；染色体20开放阅读框111；乙醇胺激酶1；染色体4开放阅读框15；环指蛋白139；核糖核酸酶H1；jun D原癌基因；S-期激酶相关蛋白1A(p19A)；甲基CpG结合蛋白2(雷特氏综合征)；核内不均一核糖核蛋白H3(2H9)；假定蛋白DKFZp586I1420；核小体装配蛋白1样5；Ras-GTP酶活化蛋白SH3结构域-结合蛋白2；锌指蛋白331；清选蛋白1；舒-戴二氏综合征；固醇-C5-去饱和酶(ERG3δ-5-去饱和酶同系物，真菌的)样；磷脂酰肌醇聚糖，A类(阵发性睡眠性血红蛋白尿)；异戊烯基-二磷酸δ异构酶；染色体20开放阅读框67；v-maf肌腱膜纤维肉瘤癌基因同系物K(禽类)；威-奥二氏综合征蛋白相互作用蛋白；kelch样7(果蝇)；肿瘤坏死因子，α-诱导的蛋白3；假定LOC388796；含犰狳蛋白重复区8；膜相关DNA结合蛋白；锌指蛋白331；cAMP应答元件调节物；推定的翻译起始因子；DnaJ(Hsp40)同系物，亚家族B，成员6；核受体亚家族4，A组，成员2；圆柱瘤病(头帕肿瘤综合征)；核受体亚家族4，A组，成员2；6-丙酮酰四氢蝶呤合成酶；S期激酶的激活物；活化RNA聚合酶II转录辅助因子4(涉及活化RNA聚合酶II转录辅激活因子p15(正辅助因子4)(PC4)(p14))；假定LOC388796；连接介导调节蛋白；假定基因CG018；推定的翻译起始因子；双重特异性磷酸酶5；转导素样断裂增强子1(E(sp1)同系物，果蝇)；线粒体载体蛋白；蛋白酪氨酸磷酸酶IVA型，成员1；锌指蛋白331；CDNA克隆IMAGE：30332316，部分编码序列区；白介素增强子结合因子3，90kDa；智人，克隆IMAGE：4753714，mRNA；SON DNA结合蛋白；AP1γ亚单位结合蛋白1；锌指蛋白394；真核翻译起始因子5；转录激活因子7相互作用蛋白2；假定蛋白LOC285831；肌动蛋白相关蛋白2/3复合物，亚单位5样；假定蛋白LOC144438；推定的翻译起始因子；H3组蛋白，家族3B(H3.3B)；含kelch重复区和BTB(POZ)结构域2；CDNAFLJ40725fis，克隆TKIDN 1000001，与线粒体内膜转位酶23高度相似；圆柱瘤病(头帕肿瘤综合征)；磷酸二酯酶4D，cAMP-特异性(磷酸二酯酶E3愚人同系物，果蝇)；热休克70kDa蛋白14；HSPC128蛋白；RNA(鸟嘌呤-7-)甲基转移酶；艾杜糖醛酸2-硫酸酯酶(亨特综合征)；假定蛋白MGC29814；酪蛋白激酶1，ε；蛋白磷酸酶1，调节(抑制因子)亚单位16B；异戊烯基-二磷酸δ异构酶；RAD23同系物B(酿酒酵母(S.cerevisiae))；磷酸二酯酶4D，cAMP-特异性(磷酸二酯酶E3愚人同系物，果蝇)；锌指蛋白295；假定蛋白FLJ13149；和BTG家族，成员3以及它们的组合。

4.权利要求1的方法，其中六种或更多种基因排列在微阵列上，所述基因选自：WARS；IFI53；IFP53；GAMMA-2；FAM46C；FLJ20202；H3F3B；H3.3B；FOXK2；ILF；ILF1；ILF-1；DUSP5；HVH3；ARF6；DKFZp762C186；BRD2；NAT；RNF3；FSRG1；RTNG3；D6S113E；KIAA9001；RORA；ROR1；ROR2；ROR3；RZRA；NR1F1；DKFZp762C186；DNAJB1；SUI1；CXCR4；HM89；LAP3；NPYR；WHIM；LESTR；NPY3R；HSY3RR；NPYY3R；D2S201E；GRINL1A；CTSB；TRIP-Br2；PDE4B；DPDE4；PDEIVB；PMAIP1；APR；NOXA；BTG2；PC3；TIS21；ASAHL；SON；SUI1；A121；ISO1；HERPUD1；SUP；Mif1；KIAA0025；DUSP2；PAC1；PAC-1；RNF139；RCA1；TRC8；HRCA1；MGC31961；TNFAIP3；A20；TNFA1P2；ARS2；HNRPL；hnRNP-L；P/OKcl.14；C20orf67；C20orf111；HSPC207；dJ1183I21.1；ZNF331；RITA；ZNF361；ZNF463；C20orf67；IER5；SBBI48；；SUI1；JUN；AP1；CD69；TOB1；H3F3B；H3.3B；FOLR1；TNFAIP3；TCF8；BZP；ZEB；ZEB1；AREB6；ZFHEP；NIL-2A；ZFHX1A；NIL-2-A；DUSP10；MKP5；MKP-5；GGTLA4；MGC50550；dJ831C21.2；PMAIP1；ZC3HAV1；ZAP；FLB6421；ZC3HDC2；FLJ13288；MGC48898；DSIPI；DIP；GILZ；hDIP；TSC-22R；MCL1；TM；EAT；MCL1L；MCL1S；MGC1839；SH3TC1；FLJ20356；CIAS1；FCU；MWS；FCAS；NALP3；C1orf7；PYPAF1；AII/AVP；AGTAVPRL；SLC15A3；PHT2；PTR3；hPTR3；PTDSR；PSR；PTDSR1；KIAA0585；BHLHB2；DEC1；STRA13；Stra14；HMGE；KIAA0063；NR4A2；NOT；RNR1；HZF-3；NURR1；TINUR；NR4A2；NOT；RNR1；HZF-3；NURR1；TINUR；PTS；PTPS；HEAB；CLP1；hClp1；AREG；SDGF；CRDGF；MGC13647；EDG4；LPA2；EDG-4；LPAR2；CREM；ICER；MGC17881；MGC41893；CD83；BL11；HB15；ZNF394；FLJ12298及它们的组合。

5.权利要求1的方法，其中所述一种或多种黑色素瘤表达载体包含过表达、低表达或其组合的六种或更多种选自表12的基因。

6.权利要求1的方法，其中所述黑色素瘤表达载体包含与血小板、血小板糖蛋白、血小板衍生的免疫介质、MHC/核糖体蛋白、MHC I类分子、β2-微球蛋白、核糖体蛋白、血红蛋白基因或它们的组合相关的基因。

7.权利要求1的方法，其中所述黑色素瘤表达载体包含与可干扰素诱导的基因、信号转导分子、激酶、RAS家族成员或它们的组合相关的基因。

8.权利要求1的方法，其中所述一种或多种黑色素瘤表达载体的表达水平包含mRNA表达水平、蛋白质表达水平或者mRNA表达水平和蛋白质表达水平二者。

9.权利要求1的方法，其中所述表达水平包含mRNA表达水平，并且通过选自下述的方法定量：聚合酶链式反应、实时聚合酶链式反应、逆转录酶聚合酶链式反应、杂交、探针杂交和基因表达阵列。

10.权利要求1的方法，其还包括在所述一种或多种黑色素瘤表达载体中检测一种或多种多态性的步骤。

11.权利要求1的方法，其中所述表达水平使用选自下述的至少一种技术确定：聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、比较基因组杂交、DNA印迹、RNA印迹、蛋白质印迹、酶联免疫吸附测定、荧光共振能量转移和测序。

12.一种用于确定样本表型的计算机实施方法，其包括：

获得多个样本探针强度；

基于所述多个样本探针强度来诊断黑色素瘤；和

计算所述多个样本探针强度与参比探针强度之间的线性相关系数；和

若所述线性相关系数大于阈值，则接受暂定表型作为所述样本的表型。

13.一种计算机可读介质，其包含用于执行确定样本表型的方法的计算机可执行指令，所述确定样本表型的方法包括：

获得多个样本探针强度；

基于选自表9-14中列出的一种或多种基因的两种或更多种转移性黑色素瘤表达载体的样本探针强度来诊断黑色素瘤；和

计算所述样本探针强度和参比探针强度之间的线性相关系数；和

14.一种鉴定具有与移植相关的免疫抑制的受试者的方法，其包括：

确定一种或多种免疫抑制表达载体的表达水平；和

显示各个具有独立标识符的黑色素瘤表达载体。

15.权利要求14的方法，其中所述一种或多种免疫抑制表达载体包含选自表10、表11、表13或其组合的三种或更多种基因。

16.权利要求14的方法，其中所述一种或多种免疫抑制相关的表达载体的表达水平包含mRNA表达水平、蛋白质表达水平或者mRNA表达水平和蛋白质表达水平二者。

17.权利要求14的方法，其中所述表达水平包含mRNA表达水平，并且通过选自下述的方法定量：聚合酶链式反应、实时聚合酶链式反应、逆转录酶聚合酶链式反应、杂交、探针杂交和基因表达阵列。

18.权利要求14的方法，其还包括在所述一种或多种免疫抑制相关的表达载体中检测一种或多种多态性的步骤。

19.权利要求14的方法，其中所述表达水平使用选自下述的至少一种技术确定：聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、比较基因组杂交、DNA印迹、RNA印迹、蛋白质印迹、酶联免疫吸附测定、荧光共振能量转移和测序。

20.权利要求14的方法，其中所述一种或多种免疫抑制相关的表达载体源自白细胞。

21.一种用于确定样本中的免疫抑制倾向的计算机实施方法，其包括：

获得多个样本探针强度；

基于所述样本探针强度来诊断免疫抑制；和

22.一种用于鉴定患有黑色素瘤的人受试者的微阵列，其包括：

在基质上排列选自六种或更多种基因的四种或更多种基因，所述六种或更多种基因选自表2、表8、表9、表12或其组合。

23.一种用于鉴定倾向于免疫抑制的人受试者的微阵列，其包括：

在基质上排列选自六种或更多种基因的四种或更多种基因，所述六种或更多种基因选自表10、表11、表13或其组合。

24.一种用于显示转录组载体数据的方法，其包括：

使一种或多种基因分到一个或多个模块内，从而视觉显示各个模块的合计基因表达载体值；和

显示各个模块中用于所述合计基因表达载体值的过表达、低表达或相等表达的所述合计基因表达载体值。

25.权利要求23的方法，其中过表达用第一标识符标识，而低表达用第二标识符标识。

26.权利要求23的方法，其中过表达用第一标识符标识，而低表达用第二标识符标识，其中所述第一标识符是第一种颜色，而所述第二标识符是第二种颜色，其中第一和第二标识符重叠以提供组合颜色。