CN101374964A

CN101374964A - 外周血液白细胞转录模式的模块水平分析

Info

Publication number: CN101374964A
Application number: CNA2006800526330A
Authority: CN
Inventors: D·乔萨贝尔; J·F·班切里奥
Original assignee: Baylor Research Institute
Current assignee: Baylor Research Institute
Priority date: 2005-12-09
Filing date: 2006-12-09
Publication date: 2009-02-25
Anticipated expiration: 2026-12-09
Also published as: CN101378764A; US20140179807A1; CN101374964B; US20070231816A1

Abstract

本发明包括一种开发和使用转录模块的设备、系统及方法，通过以下步骤实现：获得来自一名或多名某种疾病或病症患者细胞的个体基因表达水平；在已分集群的表格中记录各基因的表达值；从与各疾病或病症相匹配的各集群中选择基因模块，迭代选择一个或更多转录模块的基因表达值；通过分析排除选择的基因；重复基因表达值选择集群于疾病或病症亚组分的基因的过程；重复迭代程序形成模块。

Description

外周血液白细胞转录模式的模块水平分析

发明的技术领域

本发明一般涉及细胞的转录模式，并且更加特别地，涉及通过白细胞的转录表达模式对疾病进行诊断和预测。

长表格

本发明包括长表格，其所有内容在此并入作为参考。在此一并附上包含Landscape orientation格式的所述文件的CD的两个拷贝。

发明背景

基因表达微阵列的广泛应用为生物医学研究带来巨大的希望。该项技术已经导致在癌症患者中建立起预测标志^1-4，以及确认与发病机制有关的基因或途径(例如，发现白细胞介素-1(IL-I)在全身性幼年先天性关节炎发病机制中的作用)⁵。然而，尽管取得了这些重大进展，基因表达微阵列技术仍然没有实现其出现初期给人们所带来的希望，并且结果导致微阵列技术平台的使用近期遭到了严厉批评⁶。主要焦点在于以下事实：微阵列数据特别容易产生噪声，并且当过度解释时会导致欺骗性结果的产生⁷。此外，对微阵列数据的怀疑还在于不同试验室和交叉平台获得的数据重复性低^8-12。最后，在基因组范围下对实验结果的解释能力有限，构成了限制微阵列研究的另一个瓶颈¹³。

发明概述

基因组研究正面临着分析转录数据的重大挑战：极高噪声、难解释以及实验室和平台的交叉可比性差。本发明提供了一种分析策略，在该分析的早期着重于生物相关基因的选择，所述分析合并于分析模块中，以克服微阵列平台之间的不一致性。所开发的转录模块可用于分析大型基因的表达数据组。通过在交叉商业化微阵列平台中观察到高度的可重复性证实，来源于该分析的结果易于解释，而且特别健全。

通过挖掘大量的PBMC转录模式来阐明所述分析方法的应用。鉴定了重组4742个基因形成的28个转录模块。使用本发明证实，通过在例如血液白细胞中的转录变化的组合来独特表征的疾病，在模块水平测量疾病成为可能。实际上，血液白细胞转录水平在模块水平的变化构成了疾病或样本的分子指纹。

本发明具有广泛的应用。其可用于表征任意生物系统(如外周血单核细胞(PBMCs)、血细胞、胎儿细胞、腹膜细胞、实体器官活检物、切除的肿瘤、原代细胞、细胞系、细胞克隆等)的模块转录成分。通过该方法产生的模块化PBMC转录数据能够应用于分子诊断、预测、疾病严重程度的评估、对药物治疗的反应、药物毒性等。使用本发明方法处理其他数据，能够应用于如机理研究或药物化合物筛选。事实上，数据分析策略和挖掘算法能够在普通基因表达数据分析软件中执行，甚至可以用于发现、开发及测试新的疾病或病症特异性模块。本发明还可与药物基因组学、分子诊断、生物信息学等结合，其中可使用深入表达数据来完善在临床试验中获得的结果(如通过完善或从样本群体中作亚选择)。

更具体地说，本发明包括通过获得患者的转录组来诊断疾病或病症的阵列、设备、系统和方法；基于指示疾病或病症的一个或更多转录模块来分析所述转录组；以及基于所述转录组中的基因在一个或更多转录模块的存在、缺失或表达水平来确定患者的疾病或病症。所述转录模块可以通过以下方式获得：迭代选择一个或更多转录模块的基因表达值，所述迭代选择是通过从与各种疾病或病症相匹配的各集群中选择基因模块，分析排除选择的基因，以及对集群于所述疾病或病症的亚部分的基因重复基因表达值选择的过程；以及对每一集群迭代重复所述模块的生成，直到用完所有的基因簇。

被选择用于本发明的集群(cluster)的实例包括但不限于：表达值集群、关键词集群、代谢集群、疾病集群、感染集群、移植集群、信号集群、转录集群、复制集群、细胞周期集群、siRNA集群、miRNA集群、线粒体集群、T细胞集群、B细胞集群、细胞因子集群、淋巴因子集群、热休克集群及其组合。使用本发明来分析的疾病或病症的实例包括：例如自身免疫疾病、病毒感染细菌感染、癌症以及移植排斥反应。更特别地，用于分析的疾病可以选自以下的一种或更多种病症：全身性幼年特发性关节炎、系统性红斑狼疮、I型糖尿病、肝移植受者、黑色素瘤患者和患者细菌如大肠杆菌、金黄色葡萄球菌感染、患者病毒如流感病毒A感染及其组合。甚至还可以制造出检测与生物恐怖试剂(bioterror agent)相关的特定疾病或病症的特异性阵列。

可以使用本发明分析的细胞包括：例如外周血单核细胞(PBMCs)、血细胞、胎儿细胞、腹膜细胞、实体器官活检物、切除的肿瘤，原代细胞、细胞系、细胞克隆及其组合。细胞可以为单个细胞、细胞的集合、组织、细胞培养物、体液如血液中的细胞。细胞可以获得自：组织活检物、一种或更多种细胞群体、细胞培养物、细胞克隆、转化的细胞、活检物或单个细胞。细胞类型可以是：例如脑、肝脏、心脏、肾、肺、脾、视网膜、骨、神经元(neural)、淋巴结、内分泌腺、生殖器官、血液、神经(nerve)、血管组织以及嗅上皮的细胞。将细胞分离后，获得来自于这些细胞的这些mRNA并进行个体基因表达水平的分析，所述分析使用例如探针阵列、PCR、定量PCR、微珠试验(bead-based assays)及其组合。甚至可以使用在固体支持物上的核酸杂交来进行个体基因表达水平的分析，所述杂交使用从所述细胞中收集的mRNA作为逆转录酶的模板，逆转录制得的cDNA。

在另一个实施方案中，本发明包括一种用于鉴定转录模块的方法，所述方法通过以下方式进行鉴定：获得来自一名或更多名患有疾病或病症的患者的细胞的个体基因表达水平；在划分为集群的表格中记录各个基因的表达值；迭代选择一个或更多转录模块的基因表达值，所述迭代选择是通过从匹配于每种疾病或病症的各个集群中选择用于所述模块的基因，从所述分析中排除所选择的基因；并且对集群于所述疾病或病症亚部分的基因重复基因表达值的选择过程；以及迭代重复对于每一集群的模块形成过程，直到用完所有的基因簇。使用本发明的转录模块的实例可以选自：

转录模块
转录模块	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；
血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPBP(前血小板碱性蛋白)和PF4(血小板因子4)的基因；	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；
	B-细胞：包括编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)、B-细胞接头(BLNK)以及B-淋巴细胞酪氨酸激酶(BLK)的基因；
不确定组：该组包括编码cAMP信号途径调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-kB活化(CYLD、ASK、TNFAIP3)的基因；

髓系：包括编码由髓系细胞表达的分子(CD86、CD163、FCGR2A)的基因，其中有些涉及病原体的识别(CD14、TLR2、MYD88)。该组还包括TNF家族成员(TNFR2、BAFF)的基因；
	不确定组：该组包括编码信号分子例如含有活化STAT抑制物的锌指蛋白(PIAS1和PIAS2)或是活化的T-细胞核因子NFATC3的基因；
MHC/核糖体蛋白：几乎排他地由编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因来形成；
	不确定组：该组包括编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因；
细胞毒性细胞：包括编码细胞毒性T-细胞和NK-细胞表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)的基因；
	中性粒细胞：该组包括编码存在于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP)的基因；
红细胞：包括编码血红蛋白基因(HGBs)及其他红细胞相关基因(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)的基因；
	核糖体蛋白：包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAP1L1)的基因；
不确定组：包括编码免疫相关分子(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子细胞激酶、Syndecan2、Plexin Cl、Distrobrevin)的基因；
	髓系：与M1.5相关，包括编码在髓系细胞如单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)的基因；
不确定组：该模块大部分由未知功能的转录体组成。只有20个有文献记载的基因，包括趋化素样因子超家族中的成员(CKLFSF8)；
	T-细胞：包括编码T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)以及由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因；
不确定组：包括编码与细胞骨架相关联的分子(肌动蛋白相关蛋白2/3、

MAPK1、MAP3K1、RAB5A)的基因。还存在为T-细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)；
	不确定组：包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)以及信号通路相关分子(FYB、TICAM2-Toll样受体途径)的基因；
不确定组：包括编码激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)和RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)的基因；
	干扰素可诱导的：该组包括编码可干扰素诱导基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的基因；
炎症I：包括编码涉及炎症过程的分子(如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；
	炎症II：包括编码由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)的基因；
不确定组：包括编码蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3-激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)的基因；
	不确定组：仅由少数转录体组成，包括编码血红蛋白基因(HBA1、HBA2、HBB)的基因；
不确定组：该非常大的组包括编码T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)的基因；	不确定组：仅由少数转录体组成，包括编码血红蛋白基因(HBA1、HBA2、HBB)的基因；
	不确定组：包括编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体组分(SUGT1)的基因；
不确定组：包括编码几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶；以及
	不确定组：包括编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(如PTPLB、PPP1R8/2CB)的基因，还包括RAS致癌基因家族成员以及NK细

胞受体2B4(CD244)；

及其组合，其中将所述样本中基因的表达水平绘制在所述模块中，从而来确定疾病或病症。

本发明还包括疾病的分析工具，所述分析工具包括选自以下的一个或更多个基因模块，例如：

转录模块
转录模块	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；
血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPBP(前血小板碱性蛋白)和PF4(血小板因子4)的基因；	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；
	B-细胞：包括编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)，B-细胞接头(BLNK)和B-淋巴细胞酪氨酸激酶(BLK)的基因；
不确定组：该组包括编码cAMP信号通道的调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导NF-kB活化阻抑物(CYLD、ASK、TNFAIP3)的基因；
	髓系：包括由髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中有些涉及病原体的识别(CD14、TLR2、MYD88)。该组还包括TNF家族成员(TNFR2、BAFF)的基因；
不确定组：该组包括编码信号分子例如含有活化STAT抑制物的锌指蛋白(PIAS1和PIAS2)，或是活化的T-细胞核因子NFATC3的基因；
	MHC/核糖体蛋白：几乎排他地由编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因所形成；
不确定组：包括编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因；
	细胞毒性细胞：包括编码细胞毒性T-细胞和NK-细胞的表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)的基因；
中性粒细胞：该组包括存在于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP...)的基因；

红细胞：包括血红蛋白基因(HGBs)和其他红细胞相关联的基因(红细胞alkirin(ANK1)、血型糖蛋白C(GYPC)、羟甲基胆素合成酶HMBS、红细胞相关因子ERAF)；
	核糖体蛋白：包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAP1L1)的基因；
不确定组：该模块包括编码免疫相关分子(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子、Syndecan2、Plexin Cl、Distrobrevin)的基因；
	髓系：与M1.5相关，包括编码在髓系细胞如单核细胞和中性粒细胞中表达的(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)的基因；
不确定组：该模块大部分由未知功能的转录体组成。只有20个由文献记载的基因，包括趋化素样因子超家族中的成员(CKLFSF8)；
	T-细胞：包括T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)以及由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因；
不确定组：包括编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因。也存在为T-细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)；
	不确定组：包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)以及涉及信号通路(FYB、TICAM2-Toll样受体途径)的分子的基因；
不确定组：包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)；
	干扰素可诱导的：该组包括干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)；
炎症I：包括编码涉及炎症过程的分子(例如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；
	炎症II：包括由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导

的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)；
	不确定组：包括蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)；
不确定组：仅由少数转录体组成，包括血红蛋白基因(HBA1、HBA2、HBB)；
不确定组：仅由少数转录体组成，包括血红蛋白基因(HBA1、HBA2、HBB)；	不确定组：该非常大的组包括T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)的基因；
不确定组：包括编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体组分(SUGT1)的基因；
	不确定组：包括编码几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶；以及
不确定组：包括编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(例如PTPLB、PPP1R8/2CB)的基因。还包括RAS致癌基因家族成员以及NK细胞受体2B4(CD244)；

所述的一个或更多个基因模块足以用于区分自身免疫疾病、病毒感染、细菌感染、癌症以及移植排斥反应。将所述模块用于区分系统性红斑狼疮、流感病毒感染、黑色素瘤及移植排斥反应。

在一个实施方案中，所选择的模块可以选自：

浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；和

血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)，以及血小板衍生的免疫介体如PPBP(前血小板碱性蛋白)和PF4(血小板因子4)的基因；

并且通过在所述两个模块中含有阳性载体，将所述模块用于鉴定系统性红斑狼疮。

在另一个实施方案中，所选择的模块可以选自：

浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)，以及浆细胞标记物CD38的基因；和

血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPBP(前血小板碱性蛋白)和PF4(血小板因子4)的基因；

并且通过在这两个模块中既不具有阳性也不具有阴性载体，将所述模块用于鉴定流感病毒感染。

在另一个实施方案中，所选择的模块可以选自：

并且通过具有浆细胞标记物的阴性载体和血小板标记物的阳性载体，将所述模块用于鉴定黑色素瘤。

在另一个实施方案中，所选择的模块可以选自：

血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPBP(前血小板碱性蛋白)及PF4(血小板因子4)的基因；

并且通过在这两个模块中具有阴性载体，将所述模块用于鉴定移植排斥反应。

在另一个实施方案中，所选择的模块可以选自：

并且通过在这两个模块中具有阴性载体，将所述模块用于鉴定流感病毒感染。

本发明的另一种实施方式为预测基因阵列，包括定制的基因阵列，所述定制基因阵列具有代表一个或更多转录模块的基因的组合，其中与所述定制基因阵列相接触的患者的转录组为与所述转录模块相匹配的一种或更多种疾病或病症的预测。在一个实施例中，所述患者对所述疾病或病症的免疫反应，是由基于所述转录模块中转录组基因的出现、缺失或表达水平决定，与某种特定疾病或病症相关的。所述阵列能够鉴定自身免疫疾病、病毒感染细菌感染、癌症以及移植排斥反应。所述阵列还可以组织成两个或两个以上转录模块，例如，可以组织成3个转录模块，包括选自下列的一个或更多子模：

子模	探针组数量	关键词选择	评估
子模	探针组数量	关键词选择	评估	M1.1	69	Ig，免疫球蛋白，骨骼，骨髓，前-B，IgM，Mu	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)，以及浆细胞标记物CD38的基因；
M1.2	96	血小板，粘连，聚集，内皮，血管	血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)，以及衍生血小板免疫介体如PPBP(前血小板碱性蛋白)和PF4(血小板因子4)的基因；	M1.1	69	Ig，免疫球蛋白，骨骼，骨髓，前-B，IgM，Mu	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)，以及浆细胞标记物CD38的基因；
M1.2	96	血小板，粘连，聚集，内皮，血管		M1.3	47	免疫受体，BCR，B-细胞，IgG	B-细胞：包括编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)，以及其他B-细胞相关分子的基因，如早期B-细胞因子(EBF)，B-细胞接头(BLNK)及B-淋巴细胞酪氨酸激酶(BLK)；
M1.4	87	复制，阻抑，修复，CREB，淋巴，TNF-α	不确定组：该组包括编码cAMP信号通道调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导NF-kB活化阻抑物(CYLD、ASK、TNFAIP3)的基因；	M1.3	47	免疫受体，BCR，B-细胞，IgG
M1.4	87	复制，阻抑，修复，CREB，淋巴，TNF-α		M1.5	130	单核细胞，树突，MHC，共刺激，TLR4，MYD88	髓系：包括由髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中有些涉及病原体的识别(CD14、TLR2、MYD88)，该组还包括TNF家族成员(TNFR2、BAFF)；
M1.6	28	锌，指，P53，RAS	不确定组：该组包括编码信号分子如含有活化STAT抑制物的锌指蛋白(PIAS1和PIAS2)或活化的T-细胞的核因子NFATC3的基因；	M1.5	130	单核细胞，树突，MHC，共刺激，TLR4，MYD88

M1.7	127	核糖体，翻译，40S，60S，HLA	MHC/核糖体蛋白：几乎排他地由编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因所形成；
M1.7	127	核糖体，翻译，40S，60S，HLA		M1.8	86	代谢，生物合成，复制，解旋酶	不确定组：包括编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因；
M2.1	72	NK，杀伤者，溶细胞，CD8，细胞介导，T-细胞，CTL，IFN-g	细胞毒性细胞：包括细胞毒性T-细胞和NK-细胞表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)；	M1.8	86	代谢，生物合成，复制，解旋酶
M2.1	72	NK，杀伤者，溶细胞，CD8，细胞介导，T-细胞，CTL，IFN-g		M2.2	44	粒细胞，中性粒细胞，防御，髓系，骨髓	中性粒细胞：该组包括存在于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP)；
M2.3	94	红细胞，红，贫血，球蛋白，血红蛋白	红细胞：包括血红蛋白(HGBs)以及其他红细胞相关基因(红细胞alkirin：ANK1)、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)；	M2.2	44	粒细胞，中性粒细胞，防御，髓系，骨髓
M2.3	94	红细胞，红，贫血，球蛋白，血红蛋白		M2.4	118	核蛋白，60S，核仁，集群，延长	核糖体蛋白：包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAP1L1)的基因；
M2.5	242	腺瘤，空隙，间叶细胞，树突，动力	不确定组：该模块包括编码免疫相关分子(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子、Syndecan 2、Plexin Cl、Distrobrevin)的基因；	M2.4	118	核蛋白，60S，核仁，集群，延长
M2.5	242	腺瘤，空隙，间叶细胞，树突，动力		M2.6	110	粒细胞，	髓系：与M1.5相关，包括在髓系细胞如

		单核细胞，髓系，ERK，坏死	单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)；
		单核细胞，髓系，ERK，坏死	单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)；	M2.7	43	未提取关键词	不确定组：该模块主要是由未知功能的转录体组成。只有20个由文献记载的基因，包括趋化素样因子超家族中的成员(CKLFSF8)；
M2.8	104	淋巴瘤，T-细胞，CD4，CD8，TCR，胸腺，淋巴，IL2	T-细胞：包括T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)以及由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因；	M2.7	43	未提取关键词
M2.8	104	淋巴瘤，T-细胞，CD4，CD8，TCR，胸腺，淋巴，IL2		M2.9	122	ERK，反式激活，细胞骨架，MAPK，JNK	不确定组：包括编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因。还存在为T-细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)；
M2.10	44	髓系，巨噬细胞，树突，炎症，白细胞介素	不确定组：包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)以及涉及信号通路的分子(FYB、TICAM2-Toll样受体路径)的基因；	M2.9	122	ERK，反式激活，细胞骨架，MAPK，JNK
M2.10	44	髓系，巨噬细胞，树突，炎症，白细胞介素		M2.11	77	复制，阻抑，RAS，自身磷酸化，致癌	不确定组：包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)；
M3.1	80	ISRE，流感，抗病毒，INF-γ，IFN-α，	干扰素可诱导的：该组包括编码干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信	M2.11	77	复制，阻抑，RAS，自身磷酸化，致癌

		干扰素	号分子(STAT1、STAt2、IRF7、ISGF3G)；
		干扰素	号分子(STAT1、STAt2、IRF7、ISGF3G)；	M3.2	230	TGF-β，TNF，炎症，凋亡，脂多糖，	炎症I：包括编码涉及炎症过程的分子(如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；
M3.3	230	粒细胞，炎症，防御，使氧化，溶酶体	炎症II：包括由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)；	M3.2	230	TGF-β，TNF，炎症，凋亡，脂多糖，
M3.3	230	粒细胞，炎症，防御，使氧化，溶酶体		M3.4	323	未提取关键词	不确定组：包括蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)；
M3.5	19	未提取关键词	不确定组：仅由少数转录体组成，包括血红蛋白(HBA1、HBA2、HBB)的基因；	M3.4	323	未提取关键词
M3.5	19	未提取关键词	不确定组：仅由少数转录体组成，包括血红蛋白(HBA1、HBA2、HBB)的基因；	M3.6	233	补体，宿主，氧化的，细胞骨架，T-细胞	不确定组：该非常大的组包括编码T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)；
M3.7	80	剪接体，甲基化，泛素，β-连环素(β-catenin)	不确定组：包括编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体(SUGT1)组分的基因；	M3.6	233	补体，宿主，氧化的，细胞骨架，T-细胞
M3.7	80	剪接体，甲基化，泛素，β-连环素(β-catenin)		M3.8	182	CDC，TCR，CREB，糖基化酶	不确定组：包括编码几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶；以及
M3.9	261	染色质，	不确定组：包括编码蛋白激酶(PRKPIR、	M3.8	182	CDC，TCR，CREB，糖基化酶

检查点，复制，反式激活

PRKDC、PRKCI)以及磷酸酶(如PTPLB、PPP1R8/2CB)的基因。也包括RAS致癌基因家族成员以及NK细胞受体2B4(CD244)；

其中来自于每一模块的一个或更多个探针特异性地结合所述模块中的一个或更多个基因。

另外一个发明包括一种基因分析工具，所述基因分析工具包括一个或更多个基因模块，所述基因模块选自下列左栏中的一组和右栏中的一组的组合：

关键词选择	转录模块
关键词选择	转录模块	Ig，免疫球蛋白，骨，骨髓，前B，IgM，Mu	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；
血小板，粘连，聚集，内皮，血管	血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPPB(前血小板碱性蛋白)及PF4(血小板因子4)的基因，；	Ig，免疫球蛋白，骨，骨髓，前B，IgM，Mu	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；
血小板，粘连，聚集，内皮，血管		免疫受体，BCR，B-细胞，IgG	B-细胞：包括编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)，B-细胞接头(BLNK)及B-淋巴细胞酪氨酸激酶(BLK)的基因；
复制，阻抑，修复，CREB，淋巴，TNF-α	不确定组：该组包括编码cAMP信号通道调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-kB活化阻抑物(CYLD、ASK、TNFAIP3)；	免疫受体，BCR，B-细胞，IgG
复制，阻抑，修复，CREB，淋巴，TNF-α		单核细胞，树突，MHC，共刺激，TLR4，MYD88	髓系：包括由髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中有些涉及病原体的识别(CD14、TLR2、MYD88)。该组还包括TNF家族成员(TNFR2、BAFF)；
锌，指，P53，RAS	不确定组：该组包括编码信号分子，如含有活化STAT抑制物的锌指蛋白(PIAS1和PIAS2)或是活化的T-细胞核因子NFATC3的基因；	单核细胞，树突，MHC，共刺激，TLR4，MYD88
锌，指，P53，RAS		核糖体，翻译，40S，	MHC/核糖体蛋白：几乎排他地由编码MHC-I类分子

60S，HLA	(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因所形成；
60S，HLA	(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因所形成；	代谢，生物合成，复制，解旋酶	不确定组：包括编码代谢酶(GLS、NSF1、NAT1)，以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因；
NK，杀伤者，溶细胞，CD8，细胞介导，T-细胞，CTL，IFN-g	细胞毒性细胞：包括细胞毒性T-细胞和NK-细胞的表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)；	代谢，生物合成，复制，解旋酶
NK，杀伤者，溶细胞，CD8，细胞介导，T-细胞，CTL，IFN-g		粒细胞，中性粒细胞，防御，髓系，骨髓	中性粒细胞：该组包括存在于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP...)；
红细胞，红，贫血，球蛋白，血红蛋白	红细胞：包括血红蛋白基因(HGBs)及其他红细胞相关基因(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)；	粒细胞，中性粒细胞，防御，髓系，骨髓
红细胞，红，贫血，球蛋白，血红蛋白		核蛋白，60S，核仁，集群，延长	核糖体蛋白：包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAP1L1)的基因；
腺瘤，空隙，间叶细胞，树突，动力	不确定组：该模块包括编码免疫相关分子(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子、Syndecan2、PlexinCl、Distrobrevin)的基因；	核蛋白，60S，核仁，集群，延长
腺瘤，空隙，间叶细胞，树突，动力		粒细胞，单核细胞，髓系，ERK，坏死	髓系：与M1.5相关，包括在髓系细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)例如单核细胞和中性粒细胞的基因；
未提取关键词	不确定组：该模块主要是由未知功能的转录体组成。只有20个有文献记载的基因，包括趋化素样因子超家族成员(CKLFSF8)；	粒细胞，单核细胞，髓系，ERK，坏死
未提取关键词		淋巴瘤，T-细胞，CD4，CD8，TCR，胸腺，淋巴，IL-2	T-细胞：包括T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)以及由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)；

ERK，反式激活，细胞骨架，MAPK，JNK	不确定组：包括编码与细胞骨架有关的分子(肌动蛋白相关蛋白、MAPK1、MAP3K1、RAB5A)的基因。还存在为T-细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)；
ERK，反式激活，细胞骨架，MAPK，JNK		髓系，巨噬细胞，树突，炎症，白细胞介素	不确定组：包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)以及涉及信号通路的分子(FYB、TICAM2-Toll样受体途径)的基因；
复制，阻抑，RAS，自身磷酸化，致癌	不确定组：包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)；	髓系，巨噬细胞，树突，炎症，白细胞介素
复制，阻抑，RAS，自身磷酸化，致癌		ISRE，流感，抗病毒，INF-γ，IFN-α，干扰素	干扰素可诱导的：该组包括干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)；
TGF-β，TNF，炎症，凋亡，脂多糖	炎症I：包括编码涉及炎症过程的分子(如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；	ISRE，流感，抗病毒，INF-γ，IFN-α，干扰素
TGF-β，TNF，炎症，凋亡，脂多糖		粒细胞，炎症，防御，使氧化，溶酶体	炎症II：包括由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)；
未提取关键词	不确定组：包括蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)；	粒细胞，炎症，防御，使氧化，溶酶体
未提取关键词		未提取关键词	不确定组：仅由少数转录体组成。包括血红蛋白基因(HBA1、HBA2、HBB)；
补体，宿主，氧化的，细胞骨架，	不确定组：该非常大的组包括T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛	未提取关键词	不确定组：仅由少数转录体组成。包括血红蛋白基因(HBA1、HBA2、HBB)；

T-细胞	表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)；
T-细胞	表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)；	剪接体，甲基化，泛素，β-连环素(β-catenin)	不确定组：包括编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体组分(SUGT1)的基因；
CDC，TCR，CREB，糖基化酶	不确定组：包括编码几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶；以及	剪接体，甲基化，泛素，β-连环素(β-catenin)
CDC，TCR，CREB，糖基化酶		染色质，检查点，复制，反式激活	不确定组：包括编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(如PTPLB、PPP1R8/2CB)的基因，还包括RAS致癌基因家族成员以及NK细胞受体2B4(CD244)；

及其组合，其中将样本中的基因表达水平绘制在所述模块中来确定疾病或病症。

通过以下方式，甚至可以将本发明的阵列、方法及系统用于选择临床试验中的患者：获得潜在患者的转录组；将所述转录组与指示将在临床试验中治疗的疾病或病症的一个或更多个转录模块进行比较；和基于在患者转录组中表达的一个或更多个基因的存在、缺失或水平来确认患者成为用于临床试验的好的候选者的可能性，所述的一个或更多个模块是与临床试验的成功相关联。通常，对于每一模块而言，可以使用与样本中转录体比例相关的载体，例如，当每一模块均包括载体并且其中的一种或更多种疾病和病症与所述的一个或更多个载体相关。因此，每个模块可以包括与每个模块中的一个或更多个基因的表达水平相关的载体。

本发明还包括阵列，如定制微阵列，所述阵列包括固定于固体支持物上的核酸探针，所述固体支持物包括来自于一个或更多个模块中的足够的探针，以提供用于区分一种或多种疾病的足够比例的差异表达的基因，所述探针选自表3。例如，固定于固体支持物上的核酸探针阵列，其中所述阵列包括至少两组选自如下的探针模块：

模块I.D.	转录模块
模块I.D.	转录模块	M1.1	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；

M1.2	血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPPB(前血小板碱性蛋白)和PF4(血小板因子4)的基因；
M1.2		M1.3	B-细胞：包括编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)、B-细胞接头(BLNK)及B-淋巴细胞酪氨酸激酶(BLK)的基因；
M1.4	不确定组：该组包括编码cAMP信号途径的调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-kB活化阻抑物(CYLD、ASK、TNFAIP3)的基因；	M1.3
M1.4		M1.5	髓系：包括由髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中有些涉及病原体的识别(CD14、TLR2、MYD88)，该组还包括TNF家族成员(TNFR2、BAFF)；
M1.6	不确定组：该组包括编码信号分子例如含有活化STAT阻抑物的锌指蛋白(PIAS1和PIAS2)或是活化T-细胞的核因子NFATC3的基因；	M1.5
M1.6		M1.7	MHC/核糖体蛋白：几乎排他地由编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因所形成；
M1.8	不确定组：包括编码代谢酶(GLS、NSF1、NAT1)，以及涉及DNA复制因子(PURA、TERF2、EIF2S1)的基因；	M1.7
M1.8		M2.1	细胞毒性细胞：包括编码细胞毒性T-细胞和NK-细胞表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)的基因；
M2.2	中性粒细胞：该组包括存在于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP...)的基因；	M2.1
M2.2		M2.3	红细胞：包括编码血红蛋白(HGBs)及其他红细胞相关(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)的基因；
M2.4	核糖体蛋白：包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延	M2.3

	长因子家族成员(EEFs)及核仁蛋白(NPM1、NOAL2、NAP1L1)；
	长因子家族成员(EEFs)及核仁蛋白(NPM1、NOAL2、NAP1L1)；	M2.5	不确定组：该模块包括编码免疫相关(CD40、CD80、CXCL12、IFNA5、IL4R)，以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子、Syndecan2、Plexin Cl、Distrobrevin)的基因；
M2.6	髓系：与M1.5相关，包括在髓系细胞例如单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)；	M2.5
M2.6		M2.7	不确定组：该模块主要由未知功能的转录体组成。只有20个由文献记载的基因，包括趋化素样因子超家族成员(CKLFSF8)；
M2.8	T-细胞：包括编码T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)及淋巴系细胞表达分子(淋巴毒素-β、IL-2诱导T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)；	M2.7	不确定组：该模块主要由未知功能的转录体组成。只有20个由文献记载的基因，包括趋化素样因子超家族成员(CKLFSF8)；
M2.8		M2.9	不确定组：包括编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因。也存在为T-细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)；
M2.10	不确定组：包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)以及涉及信号通路的分子(FYB、TICAM2-Toll样受体途径)的基因；	M2.9
M2.10		M2.11	不确定组：包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)；
M3.1	干扰素可诱导的：该组包括干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)；	M2.11
M3.1		M3.2	炎症I：包括编码涉及炎症过程的分子(如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；
M3.3	炎症II：包括编码由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、	M3.2

	CAST)；
	CAST)；	M3.4	不确定组：包括蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)；
M3.5	不确定组：仅由少数转录体组成，包括血红蛋白基因(HBA1、HBA2、HBB)；	M3.4
M3.5	不确定组：仅由少数转录体组成，包括血红蛋白基因(HBA1、HBA2、HBB)；	M3.6	不确定组：该非常大的组包括T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)；
M3.7	不确定组：包括编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1，还有泛素连接酶复合体(SUGT1)的基因；	M3.6
M3.7		M3.8	不确定组：包括编码几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶...
M3.9	不确定组：包括编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(如PTPLB、PPP1R8/2CB)的基因，还包括RAS致癌基因家族成员以及NK细胞受体2B4(CD244)；	M3.8

其中在第一探针组中的探针具有分别对应于一种或多种疾病的一个或更多个询问位点(interrogation position)。所述阵列可以具有100到100,000个探针，并且每个探针的长度可以为9-21个核苷。分别组织成探针组时，能够单独询问。

本发明还包括一种或更多种核酸探针，所述核酸探针固定于固体支持物以形成模块阵列，所述模块阵列包括第一和第二探针组的至少一对探针，每组有一个或更多个如表3所定义的探针。选择的探针组用于提供复合转录标记物载体，其在微阵列交叉平台中保持一致。事实上，所述探针组甚至可以用于提供一种复合转录标记物载体，其在微阵列交叉平台中保持一致并且总体显示为满足监管部门要求。本领域技术人员将会认识到，使用本发明的模块，对于迅速开发出一种或多种疾病的特异性阵列是可能的，所述特异性阵列可以用于迅速诊断或区分不同的疾病和/或病症。

附图的简要说明

为了更加全面地理解本发明的特征及优点，现在参照所附的附图，来详细描述本发明，并且其中：

图1A至图1C显示基本微阵列数据挖掘策略步骤，所述数据挖掘策略步骤涉及公认的基因水平的微阵列数据分析(图1A)、本发明的模块挖掘策略图1b以及模块化提取算法的完全大小表示图1C。图1C提供模块化提取算法的更详细示意，其中步骤(a)表示在本文所定义的实验系统(如离体PBMCs)中产生的数据的例子；步骤(b)表示几个实验组(如G1-8)所获得的转录分布型；步骤(c)表示在各组中，基因基于表达分布型的相似性而分成x个集群(如x＝30)(使用K-均值聚类算法)；步骤(d)表示贯穿不同实验组中各个基因的集群分类，所述集群分类记录于表格中且分配模式相匹配；并且步骤(e)表示通过迭代程序选择模块，从贯穿所有实验组中相同集群的最大一组基因系(set of gene)开始(在相同集群中建立8个8组)。选择从所述核心参考模式扩展到包括具有7/8，6/8及5/8匹配的基因。一旦模块已经形成，所述基因就从选择池(selection pool)里撤回。然后重复此过程，从第二大组基因开始，逐步降低严格性水平。

图2：贯穿独立样本组的模块化基因表达分布型。通过获得自21名健康志愿者一组样本说明模块间的转录行为差异。所述样本模块在所述选择过程中不使用。图示为转录分布型，各个线条表示在多重条件(样本，x-轴)下，单个转录体的表达水平(y-轴)。所示为模块1.2、1.7、2.1以及2.11的转录分布型。将各基因的表达归一化到所有样本获得的测量中间值。

图3：文献中出现的获得四组协同表达的基因的关键词分类。计算M3.1、M1.5、M1.3以及M1.2中的所有基因在与至少10种出版物有关的摘要中(涉及超过26,000篇摘要)的术语出现水平。从各模块提取关键词分布型(keyword profiles)，并使用选择形成该图。关键词在摘要中的出现水平通过颜色范围显示，黄色代表高出现率。M3.1与干扰素有关，M1.5与病原体识别分子/髓系细胞有关，M1.3与B-细胞有关并且M1.2与血小板有关。

图4：分子微阵列分析策略。所建议的微阵列数据分析策略包括两个基本步骤：1.转录系统的表征：通过一种无监督的“聚类整合分析”(clusteringmeta-analysis)提取转录组分(图1)。形成各个模块(由唯一的ID如M1.1来确定)的基因在一个定义的实验系统中的所有条件下的转录行为具有一致性。将转录模块用两位数字标识(如1.1)来确认。图中显示多重条件下(样本)形成模块的基因的表达分布型。将各模块依次进行功能表征(如通过文献分布型的分析)。结果收集到具有生物学意义的转录决定因素。2.系统微扰(perturbations)的研究：独立地对各个模块进行研究组间比较。该分析能够允许确认不同条件下表达水平的变化(如比较来自患者的样本和来自健康志愿者的对照样本)。各模块获得的结果如图所示。满足显著性标准的基因比例(分类比较)在圈中示出，其中红色为显著的过表达基因的比例，蓝色表示显著的低表达(under-expressed)基因的比例。在该理论实例中，图示出3/4(75％)的基因具有p<0.05。有两种基因过表达(50％-红色)以及一种基因低表达(25％-蓝色)。

图5为患者血液白细胞转录分布型的分析。a)基因水平分析。顶栏显示确认SLE患者或急性流感病毒感染者及其相应对照的差异表达转录体的统计学比较(p<0.001，曼-惠特尼U检验(Mann Whitney U test，即秩和检验)，Benjamini and Hochberg错误发现率：SLE＝733个转录体，FLU＝234个转录体)。基于表达模式对分组基因进行聚类分析，并且结果用热点图(heatmap)表示。底栏为模块水平分析。各模块对从患者(SLE或FLU)及相应健康志愿者PBMCs获得的基因表达水平进行比较(p<0.05，曼-惠特尼秩和检验)。饼形图说明发生显著性变化的基因比例。图示表明发生显著变化的基因转录分布型，各线条显示在多重条件(样本，x-轴)下，单个转录体的表达水平(y-轴)。将各基因的表达归一化到所有样本获得的测量值的中位数。将所得到的28个PBMC转录模块结果显示在网格上。用坐标来表示模块ID(例如M2.8是指第8列第M2行)。点表示各模块中发生显著变化的基因比例。红点：过表达基因的比例，蓝点：低表达基因的比例。将功能性的解释在网格上用颜色代码示出。

图6：由疾病导致的转录变化模块图。对于各个模块比较分离自患者及其相应健康志愿者对照的PBMCs经测量的表达水平(曼-惠特尼秩和检验，在18名SLE患者和11名健康志愿者之间、16名急性流感病毒感染者和10名志愿者之间、16名转移性黑色素瘤患者和10名志愿者之间以及16名肝移植受者和10名志愿者之间，p<0.05)。点表示各个模块中发生显著变化的基因比例。红点：过表达基因的比例，蓝点：低表达基因的比例。获得的28个PBMC转录模块的结果在网格上示出。用坐标来表示模块的ID(如M2.8指示出第8列第M2行)。

图7：第三方数据组的分析。对公开发表的PBMC基因表达数据组进行分子微阵列数据分析。本研究调查运动对基因表达的影响。在运动前(Pre)、运动后(End)及运动结束后60分钟(Re)，对15个受试者中获得血样。形成对3个受试者各自5个池的转录分布型。显示三个转录模块的表达分布型。将各个基因的表达归一化到所有样本获得测量值的中位数。从所述文献中提取的关键词用绿色标示。

图8：交叉平台有效性。在两个不同的微阵列平台(Affymetrix U133A&B基因芯片和Illumina Sentrix Human Ref8微珠芯片)上对来自健康捐献者以及肝移植受者的PBMC样本进行分析。使用同样的总RNA池独立地制备出生物素标记的cRNA靶点。结果所示为在两个平台中(Affymetrix：顶栏；Illumina：中间栏)共有的转录体小组。将各基因的表达归一化为所有样本获得的测量值中位数。底栏所示为Affymetrix和Illumina平台测得的形成各个转录模块的所有基因的平均表达值。

图9：包括三幅微阵列交叉平台的模块级表达数据重复图。在两个不同的微阵列平台(Affymetrix U133A&B基因芯片和Illumina Sentrix HumanRef8微粒芯片)上对来自健康捐赠者及肝移植受者的PBMC样本进行分析。使用相同来源的总RNA独立地制备出生物素标记的cRNA靶点。通过形成各个模块的基因的平均表达值来获得各个样本的标准化“模块表达水平”。由Affymetrix和Illumina平台生成的数据衍生的模块表达水平是高度可比的：M1.2、M3.1和M3.2的Pearson相关系数分别为R2＝0.83、0.98和0.93(p<0.0001)。

发明详述

以下将详细讨论本发明的各种实施方式的制造和使用，应当理解本发明提供了多种可实施的发明构思，上述发明构思可以纳入到各种具体的背景中。本文所讨论的具体实施方式仅仅是对制造和使用本发明的具体说明，并不限制本发明的范围。

为了帮助本发明的理解，以下对若干术语进行了定义。本文所限定的术语的含义与本发明相关领域内的普通技术人员的理解一致。术语如“一个”、“一种”及“所述”并不是仅指单个的特定实体，而是包括了用于说明的一类某种特定实例。本发明中所使用的描述具体实施例的术语除了权利要求中出现的外，并不限制本发明的保护范围。以下文献中涉及的术语定义适用于本发明：Singleton等编的Dictionary of Microbiology and MolecularBiology(第二版，1994)；THE CAMBRIDGE DICTIONARY OF SCIENCEAND TECHNOLOGY(Walker编辑，1988)；THE GLOSSARY OFGENETICS，第五版，R.Rieger等人(编辑)，Springer Verlag(1991)；以及Hale和Marham，THE HARPER COLLINS DICTIONARY OF BIOLOGY(1991)。

各种生化和分子生物学方法都为现有技术，例如详细描述于以下文献中的核酸的分离和纯化方法：WO 97/10365、WO 97/27317、LaboratoryTechniques in Biochemistry and Molecular Biology的第3章：核酸探针杂交，第1部分。Theory and Nucleic Acid Preparation，(P.Tijssen编辑)Elsevier，N.Y.(1993)；以及Sambrook等编的Molecular Cloning：A LaboratoryManual，Cold Spring Harbor Press，N.Y.，(1989)；和Current Protocols inMolecular Biology，(Ausubel，F.M.等人编辑)，John Wiley & Sons，Inc.，New York(1987-1999)，包括增刊部分，如增刊46(1999年4月)。

生物信息学定义

本文所使用的“对象”，涉及任何项目或有意义的信息(全文通用，包括名词、动词、形容词、副词、短语、句子、符号、数字字符等)。因此，“对象”一词是可以形成特定关系的任意事物以及可从来源获得、确认和/或检索到的任何事物。“对象”包括但不限于有意义的实体例如基因、蛋白、疾病、显型、机制、药物等。在某些方面，“对象”表示的是数据，如下文进一步所描述的。

本文所使用的“关系”，是指在同样的单元内同时出现的对象(如短语、句子、两个或两个以上文本行、段落、网页部分、页、杂志、论文、书籍等)。可以是文本、符号、数字及其组合。

本文所使用的“元数据内容”，是指在数据源中作为文本组织的信息。元数据可以包括标准元数据如都柏林核心元数据(Dublin Core metadata)或可以特异性收集的数据。元数据格式的实例包括但不限于用于图书馆目录的机器可读目录(Machine Readable Catalog，MARC)记录、资源描述格式(Resource Description Format，RDF)以及可扩展标记语言(Extensible MarkupLanguage，XML)。可以手动生成或是通过自动化信息提取算法能够产生元对象。

本文所使用的“引擎”，是指执行用于其他程序的核心功能或必要功能的程序。例如，引擎可以是操作系统的核心程序(central program)或是与其他操作程序的整体操作相互协调的应用程序。术语“引擎”还可以指包含可改变的算法的程序，例如，可以设计一种知识搜索引擎，从而其方法通过确认可变化的关系来反映识别和排序关系的新规则。

例如通过后缀去除或词干或利用词表，本文所使用的“语义分析”，是指确定代表相似概念的词之间的关系。“统计学分析”是指基于计算各术语(词、词根、词干、n-元文法、短语等)出现数量的技术。收集不限于主题，用于不同背景的相同短语可以代表不同的概念。同时出现短语的统计分析能够帮助解决词义的歧义。“语义分析”可用于进一步通过词类分析来减少歧义。本文所使用的一个或更多个这样的分析分析，是指通常所说的“词法分析”。“人工智能(AI)”，是指通过非人力的设备如计算机，来执行人类认为值得注意的或是“智能”的任务的方法。实例包括鉴定图像、理解口头语语或书面语言以及解决问题。

本文所使用的术语“数据库”是指原始数据或编辑数据的储存库，即使在数据字段中可以发现不同的信息面(informational facet)。通常对数据库进行组织，使其内容能够被访问、管理和更新(例如，数据是动态的)。术语“数据库”和“源”在本发明中也可以互换使用，因为数据和信息的基本来源是数据库。然而，“源数据库”和“源数据”通常是指数据，例如非结构化文本和/或结构化数据，它们被输入识别对象和确定关系的系统中。源数据库可以是或不是关系数据库。

然而，系统数据库通常包括关系数据库或者储存涉及对象间关系的数值的一些等同类型数据库。

本文所使用的“系统数据库”和“关系数据库”可以互换使用，是指一种或多种被组织成表格集合的数据集合，这些表格包含适合于预定义分类的数据。例如，数据库表格可以包括一种或多种由列定义的分类(例如属性)，而数据库的行可以包含对应于由列定义的分类的唯一对象。这样，如基因的同一性的对象可能具有对应于基因的存在、缺失和/或表达水平的列。关系数据库的行也可以被称之为“集合”，并通常由其所在列的数值定义。关系数据库上下文中的“域(domain)”是字段(field)，如列可以包括的有效值的范围。

本文所使用的“知识域”，是指研究所述系统的操作范围，如，所有的生物医学数据。应当指出的是，合并来自于若干领域的数据，如生物医学数据和工程数据，对于一个仅熟悉某范围或研究/学科(一个领域)的普通人员来说，其优点在于，多样化的数据有时能够将不能放在一起的事物联系起来。“分布的数据库”，是指可以在网络中的不同点分散或复制的数据库。

术语例如“数据”和“信息”经常互换使用，就像“信息”和“知识”。本文所使用的“数据”，是指最基本的单元，一种经证实的测量值或一组测量值。将数据汇编成信息，但数据基本上又是独立于信息的。相反地，源于感兴趣的信息，例如，为实现发现与心血管疾病风险相关变量的目的，可以汇集关于种族、性别、身高、体重及饮食的数据(单元)。因而，能用相同数据制定出公式或创作关于饮食偏好的“信息”，如超市中的某种产品是否有较高售出的可能性。

本文所使用的“信息”，是指可以包括数字、文字、数字组、文字组的数据组或源于数据组或其结论性结果。然后“数据”是测量值或统计值以及信息的基本单元。“信息”还可以包括其他类型的数据，如词语、符号、文本，例如非结构化自由文本、代码等。将“知识”宽松地定义为对于模型的原因及效果的给出充分系统理解的信息组。为扩充原先的实例，人口统计学数据、性别以及优先购买的信息可以用于开发区域性的食品销售市场策略，而购买者可利用民族信息作为产品进口的指南。重要的是要注意到，在数据、信息及知识之间没有严格的界限；有时这三个术语可以看作是等价的。通常地，数据来自于调查可获得，信息来自于相关性，并且知识来自于建模。

本文所使用的“程序”或“计算机程序”，通常是指符合特定程序语言规则的句法单元，其由声明和陈述或指示组成，为解决或执行特定功能、任务或问题，可分为”代码段”。程序语言一般是一种表达程序的人工语言。

本文所使用的“系统”或“计算机系统”，通常是指一台或更多台计算机、周边设备以及执行数据处理的软件。“使用者”或“系统操作者”通常包括：为达到数据处理和信息交换的目的，通过“用户设备”(如计算机、无线设备等)使用计算机网络来进行存取的人。“计算机”通常具有能够执行基本运算的功能单元，包括在无人干涉的情况下，进行大量计算操作和逻辑操作。

本文所使用的“应用软件”或“应用程序”，通常指专门用于解决应用问题的软件或程序。“应用问题”通常是指由终端使用者提出的问题，并且其解决需要进行信息处理。

本文所使用的“自然语言”，是指其规则是基于目前的使用而不作特别规定的语言，如英语、西班牙语或汉语。本文所使用的“人工语言”，是指在使用前就已经明确制定了其规则的语言，例如，计算机程序语言，如C、C++、Java、BASIC、FORTRAN或COBOL。

本文所使用的“统计相关性”，是指一个或更多个排序方案(O/E比、强度等)，如果某个关系的发生频率显著高于预期的随机频率，该关系被确定为统计学相关性的。

本文所使用的术语“协同调节基因”(coordinately regulated genes)或“转录模块”可以互换使用，是指分组的、特定基因的基因表达分布型(如与某种基因序列相关的信号值)中。每一转录模块与两个关键组的数据有关，所述两个关键组的数据为文献检索部分和从基因微阵列获得的实证基因表达值数据。基于基因表达数据(上述的模块提取算法)的分析，将该基因小组选择到转录模块中。其他步骤由以下文献教导：Chaussabel，D.和Sher，A.，Mining microarray expression data by literature profiling，Genome Biol 3，RESEARCH0055(2002)，(http://genomebiology，eom/2002/3/10/research/0055)，其相关部分引入本文作为参考，并且从感兴趣的疾病或病症(如系统性红斑性狼疮、关节炎、淋巴瘤、癌、黑色素瘤、急性感染、自身免疫性疾病、自体炎性障碍等)获得表达数据。

下表列出了被用于开发文献检索部分或转录模块构建的关键词的实例。本领域技术人员将会认识到，可以将其他术语容易的选择用于其他病症，例如，具体的肿瘤、具体的传染病、移植等。例如，将与T-细胞活化有关的基因和信号在下文中描述为模块ID“M2.8”，其中某些关键词(例如，淋巴瘤、T-细胞、CD4、CD8、TCR、胸腺、淋巴、IL2)用于识别关键的T-细胞相关基因，例如，T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)；由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7；以及T-细胞分化蛋白mal、GATA3、STAT5B)。接下来，通过来自于患者群的相关数据将这些基因产生所述转录模块，从而开发出完整的模块(不考虑平台、存在/缺失和/或是上调或下调)。在某些情况下，基因分布型(在此时)与所述疾病病症及数据的任意特定基因簇并不相匹配，但是，在“不确定组”模块中包括有某些生理途径(如cAMP信号、锌指蛋白、细胞表面标记物等)。事实上，基因表达数据小组可用于提取协同表达的基因，优先于提取与关键词检索匹配的基因，即，每一数据小组可以在交叉参考前与第二数据小组相关联。

表1.转录模块的实例

实例的模块ID	实例的关键词选择	评估基因分布型
实例的模块ID	实例的关键词选择	评估基因分布型	M1.1	Ig，免疫球蛋白，骨，骨髓，前B，IgM，Mu	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；

M1.2	血小板，粘连，聚集，内皮，血管	血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPPB(前血小板碱性蛋白)及PF4(血小板因子4)的基因；
M1.2	血小板，粘连，聚集，内皮，血管		M1.3	免疫受体，BCR，B-细胞，IgG	B-细胞：包括编码B-细胞表面标记物(CD72、CD79A/B、CD 19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)、B-细胞接头(BLNK)和B-淋巴细胞酪氨酸激酶(BLK)的基因；
M1.4	复制，阻抑，修复，CREB，淋巴，TNF-α	不确定组：该组包括cAMP信号途径的调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导NF-kB活化阻抑物(CYLD、ASK、TNFAIP3)；	M1.3	免疫受体，BCR，B-细胞，IgG
M1.4	复制，阻抑，修复，CREB，淋巴，TNF-α		M1.5	单核细胞，树突，MHC，共刺激，TLR4，MYD88	髓系：包括在髓系细胞中表达的分子(CD86、CD163、FCGR2A)，其中有些涉及病原体的识别(CD14、TLR2、MYD88)，该组还包括TNF家族成员(TNFR2、BAFF)；
M1.6	锌，指，P53，RAS	不确定组：包括编码信号分子例如含有活化的STAT阻抑物的锌指蛋白(PIAS1和PIAS2)或是活化的T-细胞核因子NFATC3的基因；	M1.5	单核细胞，树突，MHC，共刺激，TLR4，MYD88
M1.6	锌，指，P53，RAS		M1.7	核糖体，翻译，40S，60S，HLA	MHC/核糖体蛋白：几乎由编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因排他地形成；
M1.8	代谢，生物合成，复制，解旋酶	不确定组：包括编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因；	M1.7	核糖体，翻译，40S，60S，HLA
M1.8	代谢，生物合成，复制，解旋酶		M2.1	NK，杀伤者，溶细胞，CD8，	细胞毒性细胞：包括编码细胞毒性T-细胞和NK-细胞的表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒

	细胞介导，T-细胞，CTL，IFN-g	酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)的基因；
	细胞介导，T-细胞，CTL，IFN-g	酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)的基因；	M2.2	粒细胞，中性粒细胞，防御，髓系，骨髓	中性粒细胞：包括编码中性粒细胞颗粒固有分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP)的基因；
M2.3	红细胞，红，贫血，球蛋白，血红蛋白	红细胞：包括血红蛋白基因(HGBs)以及其他红细胞相关基因(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)；	M2.2	粒细胞，中性粒细胞，防御，髓系，骨髓
M2.3	红细胞，红，贫血，球蛋白，血红蛋白		M2.4	核蛋白，60S，核仁，集群，延长	核糖体蛋白：包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)及核仁蛋白(NPM1、NOAL2、NAPIL1)
M2.5	腺瘤，空隙，间叶细胞，树突，动力	不确定组：包括编码免疫相关(CD40、CD80、CXCL12、IFNA5、IL4R)，以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子细胞激酶、Syndecan2、Plexin Cl、Distrobrevin)的基因；	M2.4	核蛋白，60S，核仁，集群，延长
M2.5	腺瘤，空隙，间叶细胞，树突，动力		M2.6	粒细胞，单核细胞，髓系，ERK，坏死	髓系：与M1.5相关，包括编码髓系细胞中基因表达(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)的基因，例如单核细胞和中性粒细胞；
M2.7	未提取关键词	不确定组：该模块大部分由未知功能的转录体组成。只有20个与文献相关的基因，包括趋化素样因子超家族中的成员(CKLFSF8)；	M2.6	粒细胞，单核细胞，髓系，ERK，坏死
M2.7	未提取关键词		M2.8	淋巴瘤，T-细胞，CD4，CD8，TCR，胸腺，	T-细胞：包括编码T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)及淋巴系细胞表达分子(淋巴毒素-β、IL-2诱导T细胞激酶、TCF7、T细胞分化蛋白mal、

	淋巴，IL-2	GATA3、STAT5B)的基因；
	淋巴，IL-2	GATA3、STAT5B)的基因；	M2.9	ERK，反式激活，细胞骨架，MAPK，JNK	不确定组：包括编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因，还有T-细胞表达基因(FAS、ITGA4/CD49D、ZNF1A1)；
M2.10	髓系，巨噬细胞，树突，炎症，	不确定组：包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)以及涉及信号通路的分子(FYB、TICAM2-Toll样受体途径)的基因；	M2.9	ERK，反式激活，细胞骨架，MAPK，JNK
M2.10	髓系，巨噬细胞，树突，炎症，		M2.11	复制，阻抑，RAS，自身磷酸化，致癌	不确定组：包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)；
M3.1	ISRE，流感，抗病毒，INF-γ，IFN-α，干扰素	干扰素可诱导的：该组包括干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)；	M2.11	复制，阻抑，RAS，自身磷酸化，致癌
M3.1	ISRE，流感，抗病毒，INF-γ，IFN-α，干扰素		M3.2	TGF-β，TNF，炎症，凋亡，脂多糖，	炎症I：包括编码炎症过程(如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；
M3.3	粒细胞，炎症，防御，使氧化，溶酶体	炎症II：包括由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)；	M3.2	TGF-β，TNF，炎症，凋亡，脂多糖，
M3.3	粒细胞，炎症，防御，使氧化，溶酶体		M3.4	未提取关键词	不确定组：包括编码蛋白磷酸酶

		(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)；
			M3.5	未提取关键词	不确定组：仅由少数转录体组成，包括血红蛋白基因(HBA1、HBA2、HBB)；
M3.6	补体，宿主，氧化的，细胞骨架，T-细胞	不确定组：包括T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)的大组；	M3.5	未提取关键词	不确定组：仅由少数转录体组成，包括血红蛋白基因(HBA1、HBA2、HBB)；
M3.6	补体，宿主，氧化的，细胞骨架，T-细胞		M3.7	剪接体，甲基化，泛素，β-连环素(β-catenin)	不确定组：包括编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体组分(SUGT1)的基因；
M3.8	CDC，TCR，CREB，糖基化酶	不确定组：包括编码以下几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶...	M3.7	剪接体，甲基化，泛素，β-连环素(β-catenin)
M3.8	CDC，TCR，CREB，糖基化酶		M3.9	染色质，检查点，复制，反式激活	不确定组：包括编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(如PTPLB、PPP1R8/2CB)的基因，还包括RAS致癌基因家族成员以及NK细胞受体2B4(CD244)；

生物学定义

本文所使用的术语“阵列”，是指具有连接结合到所述支持物上的一个或更多个肽或者核酸探针的固体支持物或基质。阵列通常具有一个或更多个可以与不同基质表面(一般称为位点)结合的不同核酸或肽探针。所述的阵列，又称为“微阵列”或“基因芯片”，可以具有10,000、20,000、30,000或40,000个基于已知基因组的可识别的不同基因，如人类基因组。将所述的平板阵列(pan-arrays)用于检测整个“转录组”或在样本中表达或发现的基因转录池(pool)，例如，表达为RNA、mRNA等的核酸可以通过RT和/或RT-PCR技术来制备互补的DNA复制子组。可以使用机械合成法、光导化学合成法等结合非平版印刷和/或照相平版印刷法和固相合成法制造阵列。

已经描述有合成这些核酸阵列的各种技术，如在任意表面形状或甚至是在多重表面上制备核酸阵列。阵列可以为在珠粒、凝胶、聚合物表面、纤维(如光学纤维)、玻璃或其它合适基质上的肽或核酸。阵列依照一定的方式包覆以便于诊断或其他所涉及设备的操纵，如专利号为6,955,788的美国专利，其相关部分纳入本文作为参考。

本文所使用的术语“疾病”，是指有机体的生理学状态，其细胞的生物学状态处于非正常的状态。疾病包括但不限于：细胞、组织、身体机能、系统或器官的中断、停止或紊乱，所述中断、停止或紊乱可以是内在的、遗传的、由于感染引起的、由于细胞功能异常、异常的细胞分裂等引起的。疾病导致通常对于生物系统(疾病患者)来说是有害的“病情”。对于本发明来说，任何生物学状态，如感染(例如病毒、细菌、真菌、蠕虫等的感染)、炎症、自发炎症、自身免疫性、过敏性反应、敏感症、癌前病变、恶性肿瘤、外科手术、移植、生理学等与疾病或紊乱有关的生物学状态，都被看作是病情。病理状态通常等同于病情。

还可按照病情的不同水平来对其进行分类。本文所使用的疾病或病情水平，是在治疗期间或之后，反映疾病发展或病情及生理应答的任意度量。一般。通常地，疾病或病情将是随水平或阶段发展的，疾病的影响会变得越来越严重。病情水平受样本细胞病症的影响。

本文所使用的术语“治疗”或“治疗方案”，是指那些用于减轻或改变病情的医疗步骤，例如意在减少或消除疾病的影响或症状而采取的药理的、手术的、饮食的或其他技术的治疗过程。治疗方案，可以包括处方剂量的一种或多种药物或外科手术。治疗大多有益并且减轻病情，但是很多情况下，治疗效果将是不期望的或是产生副作用的。治疗效果也将受到该宿主的生理状态如年龄、性别、遗传、体重及其他疾病症状等的影响，。

本文所使用的术语“药理学状态”或“药理学状况”，是指那些将要，或正在和/或已经接受了一种或多种药物、外科手术等治疗的样本，可能会影响到样本中一种或更多种核酸的药理学状态，例如，由于药理学干预而导致核酸的新转录、稳定和/或不稳定。样本的药理学状态，涉及在药物治疗前、治疗中和/治疗后的生物学状态变化，可以用于诊断或预后，如本文所示。药物治疗或手术后带来的某些变化，可能与病情有关和/或产生与治疗无关的副作用。药理学状态的变化，有可能是治疗持续、类型和处方药物剂量、依照特定治疗过程的程度和/或服用非处方药的结果。

本文所使用的术语“生物学状态”，是指为了分析表达变化而分离和纯化的细胞样本转录组(即收集的全部RNA转录体)的状态。生物学状态反映的是样本中细胞的生理状态，根据形态学显型特征或结合检测转录体的方法来测量丰度和/或细胞组成活性。

本文所使用的术语“表达分布型”，是指RNA的相对丰度、DNA或蛋白质的丰度或活性水平。表达分布型可用于表示测量例如转录或翻译的状态，可以通过任意一种测量方法，使用任意一种基因芯片、基因阵列、珠粒、多重PCR、定量PCR、run-on阵列、Northern杂交分析、Western杂交分析、蛋白表达、免疫荧光激活细胞分选术(FACS)、酶联免疫吸附测定法(ELISA)、化学发光研究、酶法、增殖研究或其他任何商业上可利用的测定和/或分析基因表达的方法、设备和系统。

本文所使用的术语样本的“转录状态”，包括确认样本中出现的RNA及其相对丰度，尤其是mRNAs。样本的整体转录，即确认RNA及其相对丰度相结合，在本文中还被称为转录组。通常地，所测量的是样本中全部RNA的所有相关组分中的重要部分。

本文所使用的术语“模块化转录载体”，是指反映“差异表达基因比例”的转录表达数据，如每个模块为至少两组(健康个体与患者)的转录差异表达比例。所述的载体来自于进行比较的两组样本。分析步骤的第一步是选择每个模块中的特定疾病的转录体组，接着是“表达水平”，某种特定疾病的组间比较，提供了各个模块的差异表达的转录列表，不同的疾病产生不同的模块化转录体子集。在表达水平上，可以通过特定疾病的已确定的差异表达基因的平均表达值，估计各单个样本的各模块的载体。所述方法会产生单个样本的模块化表达载体图，例如，本文所揭露的模块图。所述载体模块图表示出来自每个样本的各个模块的平均表达水平(代替差异表达基因比例)。

采用本发明的方法确认和区分疾病，不仅可以在模块级，还可以在基因水平，例如，具有相同载体的两种疾病(转录体差异表达比例相同，“极性”相同)，载体的基因组成仍是疾病特异性的。基因水平的表达明显有利于提高分析的分辨率。

更进一步地，本发明利用复合转录标记物。本发明所使用的术语“复合转录标记物”，是指相对于使用个体基因作为标记物来说，多种基因(模块子集)的平均表达值(且所述的标记物是疾病特异性的)。由于使用者能使用多元微阵列值，如SLE或本文所揭露的表达载体，来对患者疾病的严重程度进行评估，复合转录标记物具有唯一性。最重要的是，使用本发明所提出的复合模块转录标记物，其结果在微阵列交叉平台中，具有可重复性。因而为满足监管部门要求提供了更大的可靠性。

本发明中使用的基因表达检测系统，包括定制基因阵列，其具有针对一种或多种目标疾病的特异的和/或定制的有限的和/或基本数量的基因。与通常使用的普通平板基因组阵列(pan-genome arrays)不同，本发明所提供的方法，不仅无需建立特定平台，便可使用所述的普通平板阵列对基因和基因组进行回顾性分析，更重要地是，本发明能够改进定制阵列，使其能够提供用于分析的优化基因小组，不含其他数千的无关基因。与现有技术相比，本发明提供的优化阵列和模块的最显著优势在于，节约了经济开支(如各个阵列、材料、设备、时间、人员、培训等方面的费用)，更重要地是，避免了制造用于获得大量无关数据的平板阵列对环境的影响。本发明的模块，首次使得定制阵列设计简单化，使其在最大化信号到噪声比(noiseratio)时，能够提供含有最少量探针的优化数据。通过减少用于分析的基因总量，可以，如减少为制造获得大量无关数据的平板基因芯片而生产的数千用于这些平版工艺的昂贵铂面具。探针有限的本发明与下述方法结合使用，可以完全避免使用微阵列，例如，数字光化学阵列、球珠粒阵列、珠粒(如Luminex)、多重PCR、定量PCR、run-on阵列、Northern杂交分析、甚至蛋白表达，如Western杂交分析、2-D和3-D凝胶蛋白表达、MALDI、MALDI-TOF、免疫荧光激活细胞分选术(FACS，细胞表面或细胞内)、酶联免疫吸附测定法(ELISA)、化学发光研究、酶法、增殖研究或其他任何商业上可利用的测定和/或分析基因表达的方法、设备和系统。

本发明所使用的术语“分子指纹系统”，是指在不同的细胞或组织、相同细胞或组织的不同亚群体、相同细胞或组织的不同病症、相同细胞和组织的不同发育阶段、或相同组织的不同细胞群体与其他疾病和/或正常细胞对照之间促进和实施表达的比较分析。有时，可以对来自样本的正常或野生型的表达数据同时或基本同时进行分析，或从已存在的基因阵列表达数据库，如公共数据库(NCBI Gene Expression Omnibus database，NCBI基因表达综合数据库)中，获得或选取表达数据。

本文所使用的术语“差异表达”，是指测量两个或多个的样本(如患病样本和正常样本)的细胞组分(如核酸、蛋白、酶活性等)变化。与对照样相比，细胞组分可能是存在或缺失，上调或下降。使用基因芯片或基因阵列，使核酸的差异基因得到表达，如mRNA或其他RNAs(miRNA、siRNA、hnRNA、rRNA、tRNA等)，可用于区别细胞类型或核酸。最常见地是，细胞转录状态的测量是通过以下方法完成的：定量逆转录(RT)和/或定量逆转录多聚酶链式反应(RT-PCR)、基因组表达分析、翻译后分析、基因组DNA修饰、易位、原位杂交技术等。

有些病情可以通过细胞或形态差别进行确认，尤其是在病情早期。本发明无需通过检查细胞自身基因模块，对特定突变体或者一个或更多基因进行识别，或更重要地是，无需识别在正常生理环境中(免疫激活、免疫耐受或甚至是免疫无能时)起作用的免疫效应细胞RNA的基因表达。基因突变可能会导致基因组表达水平的急剧变化，生物系统通常会通过改变其他基因的表达来补偿变化。这些内在补偿反应的结果是，许多微扰对可观察的系统显型影响不明显，但是对细胞组分的组成会产生深刻影响。同样地，基因转录体的实际拷贝数不会增加或减少，但是可能会影响转录体的寿命或半衰期，极大提高蛋白产量。本发明无需检测实际信息，在一个具体实施例中，检测的是效应细胞(如白细胞、淋巴细胞和/或其中的亚群体)，而不是单个信息和/或突变体。

本领域的技术人员可以意识到，样本可以有各种来源，包括单细胞、收集细胞、组织、培养细胞等。在具体的实例中，甚至可能是从尿、血液、唾液、组织或组织活检样本等细胞分离到的足量RNA。在特定环境下，可以从以下来源获得足量细胞和/或RNA：黏膜分泌物、粪便、泪水、血浆、腹水、组织液、硬膜下积液、脑脊液、汗液、或其他体液。核酸的来源，如组织或细胞，可包括组织活检样本、一种或更多种细胞群体、培养细胞、细胞克隆、转化细胞、活组织切片或单细胞。组织来源，包括大脑、肝脏、心脏、肾脏、肺、脾、视网膜、骨、神经中枢、淋巴结、内分泌腺、生殖器官、血液、神经、血管组织、嗅上皮。

本发明包括以下基本组成，可单独或组合使用，即一个或更多数据挖掘算法；一个或更多模块水平分析步骤；表征血液白血细胞的转录模块；使用汇总模块化数据对人类疾病进行分子诊断/预后的多元分析；和/或可视化模块级数据和结果。使用本发明，可以开发和分析复合转录标记物，所述复合转录标记物可更进一步汇总为单一多元评分(multivariate score)。

数据采集速率的迅速提高，促进了利用微阵列数据和生物医学知识的挖掘工具和算法的发展。以揭露模块化组织和转录系统功能为目的的方法，组成了识别疾病分子信号的有潜力的方法^14-16，17。事实上，所述分析能够通过将个体基因或基因列表水平的微阵列数据概念化而转变对大规模转录研究的理解。

本发明的发明人还意识到，当前基于微阵列的研究，分析数据时面临着“臭名昭著的噪声”的重大挑战，也就是说，很难解释数据，交叉实验室或实验平台的数据不能很好的进行比较。普遍接受的分析微阵列数据的方法，始于对不同研究小组的基因差异表达子集的鉴定。其次，使用者试图使用模式发现算法和已有科学知识接着将基因列表的结果解释清楚。

没有处理交叉平台的较大变异，本发明揭露了一种在分析早期着重选择生物相关基因的方法。简而言之，所述方法包括确认表征某个特定生物系统的转录组分，为此开发出改进的数据挖掘算法，用于分析和选取来自大量收集数据中的等同表达基因或转录模块。

在一个实例中，从239个血液白细胞转录分布型中获得了28个转录模块，含有4742个重组探针集。通过文献分布型证明形成所述模块的基因的函数收敛性(Functional convergence)。第二步是基于模块研究转录系统微扰。为阐明此概念，分别获得健康志愿者和患者的白细胞转录分布型，并对其进行比较和分析。通过分析公开发表的微阵列数据集，获得确认的基因指纹策略。值得注意地是，本发明的模块转录设备、系统和方法采用现已存在的数据进行验证时，在两个交叉商业微阵列平台间，显示出较高的重复性。

本发明包括为进行转录系统的模块化分析而执行广泛适用的两步微阵列数据挖掘策略。本新方法用于表征血液白细胞的转录信号，组成临床相关资料最方便的来源。

在此，有可能基于两种载体而确认、区别和/或鉴定两种疾病，甚至是基于相同载体(+/+)的两种疾病，如M1.3＝53％，都低于SLE和FLU，由于各载体的组成都可用于区别所述的两种疾病。例如，两种M1.3疾病，虽然转录体差异表达的比例和极性都是一致的，但是基因组成仍然是疾病特异性的。结合基因水平和模块水平分析，显著提高了分辨率。更进一步地，可以使用2、3、4、5、10、15、20、25、28或更多的模块来区别疾病。

材料和方法。处理血样。将血样收集于酸式柠檬酸盐葡萄糖管中(BD动脉血气针，BD Vacutainer)，立即转送到Baylor Institute for ImmunologyResearch，Dallas，TX进行处理。通过Ficoll密度梯度离心法从3-4ml血液中分离出外周血单核细胞(PBMCs)，立即在含有β-巯基乙醇(BME)的RLT试剂(Qiagen公司)中溶解细胞，在提取RNA步骤之前储存于-80℃。

微阵列分析。使用RNeasy试剂盒(Qiagen公司)，根据产品说明书分离出总RNA，并使用Agilent 2100生物分析仪(Agilent 2100 Bioanalyzer，Agilent公司)来评估RNA完整性。

Affymetrix基因芯片：所述微阵列包括在石英晶片上原位合成的短链寡核苷酸探针集。根据制造商(Affymetrix公司)的标准方案进行目标物标记。纯化生物素化的cRNA靶序列，并将其与Affymetrix HG-U133A& U133B基因芯片(>44,000探针集)进行杂交。使用Affymetrix共聚焦激光扫描仪(Affymetrix confocal laser scanner)扫描阵列。采用微阵列套件，5.0版分析软件(MAS 5.0；Affymetrix公司)评估荧光杂交信号，标准化信号，评价检测信号。使用MAS5.0整体方法统一各基因芯片的目标密度值为500。采用基因表达分析软件程序GeneSpring 7.1(Agilent公司)进行统计学分析和分层聚类。

Illumina微珠芯片：所述微阵列包括固定于3μm珠粒的50mer寡核苷酸探针，且位于玻片表面的微孔内。基于Illumina公司的服务合同处理样本使其符合要求。使用Illumina RNA扩增试剂盒(Ambion，Austin，TX)制备靶序列。cRNA靶序列与Sentrix HumanRef8微珠芯片(>25,000探针)进行杂交。使用Illumina BeadStation 500进行扫描。采用IlluminaBeadstudio软件评估杂交荧光信号。

文献分布型。本研究所采用一种流行的文献分布型的算法之前已进行过详细描述¹⁸。该方法将有相似关键词的基因联系起来。采用非监督模式发现算法——分层聚类，来分析文献摘要中术语出现的模式。步骤1：基因：文献索引，确认相关出版物中的各个基因。步骤2：使用文本处理器计算出术语出现频率。步骤3：通过严格筛选标准，选择出相关关键词(如排除所有基因中频率高或低的术语，仅保留表征少数基因高出现模式的较少鉴定术语)。步骤4：基于出现模式，双向分层聚类基因及相关关键词，形象表示出存在于基因群体中的函数关系。

模块化数据挖掘算法。首先，确认超越个体基因水平，有可能表征生物系统的一个或更多转录组分。使用新的挖掘算法，提取协同调节基因小组，或转录模块，应用于血液白细胞微阵列图谱(图1)。使用AffymetrixU133A&B基因芯片(>44,000探针集)做出来自总共239个外周血单核细胞(PBMCs)样本的基因表达分布型。获得的转录数据分成八个试验组(全身型幼年特发性关节炎、系统性红斑狼疮、I型糖尿病、肝移植、黑色素瘤和急性感染，包括大肠杆菌、金黄色葡萄球菌、流感病毒A)。排除各组中在所有条件下缺乏标记的转录体。剩余基因通过分层聚类分成30个组(从集群C1到集群C30)。将各基因的集群分配记录于表格中，比较所有基因的分配模式。使用迭代程序来选择模块，从所有研究组中属于相同集群的最大的基因小组开始(如，在8个试验组中发现8个相同集群的基因)。从核心对照模式中进行扩增选择，包括7/8，6/8和5/8相匹配的基因。选择基因小组的结果形成了转录模块，并从选择库中撤回。重复开始选择第二大组基因，逐渐降低严格水平。通过所述分析确认了5348个分配于28个模块的转录体(提供完整列表作为辅助材料)。分别给各模块指定一个唯一标识符，以表明轮数和选择顺序(如M3.1是在第三轮选择种确认的第一个模块)。

模块清楚的显示出“转录行为”。一般都假定共表达基因在功能上是相互联系的。“牵连犯罪”的概念，特指在许多样本中，基因强制性服从某种复杂表达模式。本发明人发现了转录模块形式一致的生物单位，因此预测在独立样本组中将会保存初始数据集中确认的共表达特性。从21名健康志愿者血液中分离PBMCs获得数据。所述样本并不用于上述的模块选择过程。

图2所示为4个不同模块的基因表达分布型(图2：M1.2、M1.7、M2.11及M2.1)。如图2所示，每条线代表多个样本(在x-轴上有21个样本)中的个体基因表达水平(y-轴)。在此例中，基因表达的差异表现出“健康”个体间的个体变异。各个模块中基因的“转录行为”显示一致。事实上，在所有的样本中，基因表达的变化都表现为连续的(对某些样本来说，所有基因的表达都提高而形成一个高峰，而其他所有基因的水平都较低形成倾角)。重要地是，个体间的差异随着形成的高峰和倾角在不同样本(M1.2，M2.11及M2.1)中表现为模块特异性。更进一步地，各模块的变化幅度也表征出，M1.2和M2.11的表达水平变化比M2.1，尤其是M1.7更大。因而，我们发现转录模块组成独立于生物学变量。

转录模块的功能表征。接着，在功能水平表征模块。利用文本挖掘的方法从收集各基因的生物医学文献中提取关键词(参见文献18)。与4个分析的模块有关的关键词的分类明显不同(图3)。以下为可能与特定模块有关的关键词列表。

对M1.2具有高度特异性的关键词，包括血小板、聚集或血栓症，与其有关的基因如ITGA2B(整合素α2b、血小板糖蛋白IIb)，PF4(血小板因子4)，SELP(选择素P)和GP6(血小板糖蛋白6)。

对M1.3具有高度特异性的关键词，包括B-细胞、免疫球蛋白或IgG，与其有关的基因如CD19、CD22、CD72A、BLNK(B细胞接头)、BLK(BB淋巴细胞酪氨酸激酶)和PAX5(配对的盒装基因，paired box gene 5，一种B-细胞谱系特异性激活剂)。

对M1.5具有高度特异性的关键词，包括单核细胞、树突状、CD14或Toll样、与其有关的基因如MYD88(髓样分化因子初次应答基因88)、CD86、TLR2(Toll样受体2)、LILRB2(白细胞免疫球蛋白样受体B2)和CD163。

对M3.1具有高度特异性的关键词，包括干扰素(IFN)、IFN-α、抗病毒或ISRE及其有关的基因如STAT1(信号转导和转录激活因子1)、CXCL10(CXC趋化因子配体10、IP-10)、OAS2(寡腺苷酸合成酶2)以及MX2(粘病毒抗性2)。

术语出现的对照模式，指示各模块功能显著一致。从文献中提取出的所有已确定的模块信息，允许在转录水平对PBMC系统进行全面的功能表征。已确认的28个样本PBMC各转录模块的相关功能描述，如表2所示。

表2：28个转录模块的完整功能评估

模块I.D.	探针组的数目	关键词选择	评估
模块I.D.	探针组的数目	关键词选择	评估	M1.1	69	Ig，免疫球蛋白，骨，骨髓，前B，IgM，Mu	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)，以及浆细胞标记物CD38的基因；
M1.2	96	血小板，粘连，聚集，内皮，血管	血小板：包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPPB(前血小板碱性蛋白)和PF4(血小板因子4)的基因；	M1.1	69	Ig，免疫球蛋白，骨，骨髓，前B，IgM，Mu	浆细胞：包括编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)，以及浆细胞标记物CD38的基因；
M1.2	96	血小板，粘连，聚集，内皮，血管		M1.3	47	免疫受体，BCR，B-细胞，IgG	B-细胞：包括编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)，B-细胞接头(BLNK)和B-淋巴细胞酪氨酸激酶(BLK)的基因；
M1.4	87	复制，阻抑，	不确定组：该组包括cAMP信号途径调	M1.3	47	免疫受体，BCR，B-细胞，IgG

		修复，CREB，淋巴，TNF-α	节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-kB活化阻抑物(CYLD、ASK、TNFAIP3)；
		修复，CREB，淋巴，TNF-α		M1.5	130	单核细胞，树突，MHC，共刺激，TLR4，MYD88	髓系：包括由髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中有些涉及病原体的识别(CD14、TLR2、MYD88)，该组还包括TNF家族成员(TNFR2、BAFF)；
M1.6	28	锌，指，P53，RAS	不确定组：该组包括编码信号分子，如含有活化STAT抑制物的锌指蛋白(PIAS1和PIAS2)或是活化的T-细胞核因子NFATC3的基因；	M1.5	130	单核细胞，树突，MHC，共刺激，TLR4，MYD88
M1.6	28	锌，指，P53，RAS		M1.7	127	核糖体，翻译，40S，60S，HLA	MHC/核糖体蛋白：几乎排他地由编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因所形成；
M1.8	86	代谢，生物合成，复制，解旋酶	不确定组：包括编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因；	M1.7	127	核糖体，翻译，40S，60S，HLA
M1.8	86	代谢，生物合成，复制，解旋酶		M2.1	72	NK，杀伤者，溶细胞，CD8，细胞介导，T-细胞，CTL，IFN-g	细胞毒性细胞：包括细胞毒性T-细胞和NK-细胞的表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)；
M2.2	44	粒细胞，中性粒细胞，防御，髓系，骨髓	中性粒细胞：该组包括出现于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP...)；	M2.1	72	NK，杀伤者，溶细胞，CD8，细胞介导，T-细胞，CTL，IFN-g
M2.2	44	粒细胞，中性粒细胞，防御，髓系，骨髓		M2.3	94	红细胞，红，贫血，球蛋白，血红蛋白	红细胞：包括血红蛋白基因(HGBs)以及其他红细胞相关基因(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基

			胆素合成酶：HMBS、红细胞相关因子：ERAF)；
			胆素合成酶：HMBS、红细胞相关因子：ERAF)；	M2.4	118	核蛋白，60S，核仁，集群，延长	核糖体蛋白：包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAPIL1)的基因；
M2.5	242	腺瘤，空隙，间叶细胞，树突，动力	不确定组：该模块包括编码免疫相关分子(CD40、CD80、CXCL12、IFNA5、IL4R)，以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子、Syndecan2、Plexin Cl、Distrobrevin)的基因；	M2.4	118	核蛋白，60S，核仁，集群，延长
M2.5	242	腺瘤，空隙，间叶细胞，树突，动力		M2.6	110	粒细胞，单核细胞，髓系，ERK，坏死	髓系：与M1.5相关，包括在髓系细胞例如单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)的基因；
M2.7	43	未提取关键词	不确定组：该模块大部分由未知功能的转录体组成。只有20个有文献记载的基因，包括趋化素样因子超家族成员(CKLFSF8)；	M2.6	110	粒细胞，单核细胞，髓系，ERK，坏死
M2.7	43	未提取关键词		M2.8	104	淋巴瘤，T-细胞，CD4，CD8，TCR，胸腺，淋巴，IL2	T-细胞：包括T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)和由淋巴系细胞表达的分子(淋巴毒素-β、IL2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)；
M2.9	122	ERK，反式激活，细胞骨架，MAPK，JNK	不确定组：包括编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因，也存在为T-细胞表达基因(FAS、ITGA4/CD49D、ZNF1A1)；	M2.8	104	淋巴瘤，T-细胞，CD4，CD8，TCR，胸腺，淋巴，IL2
M2.9	122	ERK，反式激活，细胞骨架，MAPK，JNK		M2.10	44	髓系，巨噬细胞，树突，炎症，	不确定组：包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL 15)以及涉及信号通路的分子

		白细胞介素	(FYB、TICAM2-Toll样受体途径)的基因；
		白细胞介素	(FYB、TICAM2-Toll样受体途径)的基因；	M2.11	77	复制，阻抑，RAS，自身磷酸化，致癌	不确定组：包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)；
M3.1	80	ISRE，流感，抗病毒，INF-γ，IFN-α，干扰素	干扰素可诱导的：该组包括干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)；	M2.11	77	复制，阻抑，RAS，自身磷酸化，致癌
M3.1	80	ISRE，流感，抗病毒，INF-γ，IFN-α，干扰素		M3.2	230	TGF-β，TNF，炎症，凋亡，脂多糖，	炎症I：包括编码涉及炎症过程的分子(如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；
M3.3	230	粒细胞，炎症，防御，使氧化，溶酶体	炎症II：包括由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)，以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)；	M3.2	230	TGF-β，TNF，炎症，凋亡，脂多糖，
M3.3	230	粒细胞，炎症，防御，使氧化，溶酶体		M3.4	323	未提取关键词	不确定组：包括蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)；
M3.5	19	未提取关键词	不确定组：仅由少数转录体组成，包括血红蛋白基因(HBA1、HBA2、HBB)；	M3.4	323	未提取关键词
M3.5	19	未提取关键词	不确定组：仅由少数转录体组成，包括血红蛋白基因(HBA1、HBA2、HBB)；	M3.6	233	补体，宿主，氧化的，细胞骨架，	不确定组：该非常大的组包括T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子

		T-细胞	(CXRCR1：fraktalkine受体、CD47、P-选择素配体)；
		T-细胞	(CXRCR1：fraktalkine受体、CD47、P-选择素配体)；	M3.7	80	剪接体，甲基化，泛素，β-连环素(β-catenin)	不确定组：包括编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体组分(SUGT1)的基因；
M3.8	182	CDC，TCR，CREB，糖基化酶	不确定组：包括编码以下几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶...	M3.7	80	剪接体，甲基化，泛素，β-连环素(β-catenin)
M3.8	182	CDC，TCR，CREB，糖基化酶		M3.9	261	染色质，检查点，复制，反式激活	不确定组：包括编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(如PTPLB、PPP1R8/2CB)的基因。还包括RAS致癌基因家族成员及NK细胞受体2B4(CD244)；

基于模块的微阵列数据挖掘策略。来自于“传统的”微阵列分析的结果有着“声明狼籍的噪声”并且很难解释。普遍接受的微阵列数据分析方法，包括三个基本步骤：1)使用统计检验在研究组间选择差异表达的基因；2)应用模式发现算法在结果基因列表中识别信号；以及3)使用从文献或本体数据库中获取的知识来解释数据。

本发明所使用的新的微阵列数据挖掘策略，强调在分析初期就选择与生物相关的转录体。第一步实施的是使用以上所述的模块挖掘算法结合深入表征各转录模块的功能挖掘工具(图4：顶栏，步骤1)。分析并没有考虑各组间的基因表达水平的差异，而是将重点放在由于生物学变异而产生的复杂基因表达模式(如患者群体中的个体间差异)。在定义与特定生物学系统相关的转录组分后，分析的第二步，包括通过比较不同的研究组来分析基因表达变化(图4：底栏，步骤2)。独立进行各模块的组间比较分析。基因表达的模块级变化比例满足显著性标准(如图5中的饼图或图6中的点所示)。特别地，在进行数以千计的试验时，在模块级上的比较可以避免“随机”收集基因产生的“噪声”。

在人类疾病中，模块化PBMC转录分布型的微扰。为阐明上述微阵列数据挖掘策略的第二步(图4)，从两个小儿科病人群体(18名患系统性红斑狼疮(SLE)的儿童和16名急性流感病毒A感染的儿童中)获得PBMC样本基因表达数据，并进行比较和分析。各患者群都与各自的对照组(健康志愿者，分别取11份作为SLE组的对照，10份作为流感组的对照)进行比较。如图4所示的分析图解，在患者组和健康组间进行各个体模块的统计学组间比较，并测量各模块中发生显著变化的基因比例(图5)。统计学组间比较方法允许使用者集中分析清楚界定的含有最少量“噪声”的基因组，从而鉴定其生物学意义。图4为表示所述结果的关键图。

所述结果表明：(1)在M3.1(“干扰素相关”)中，较大比例的基因在Flu组和SLE组中都达到了显著水平(分别为84％和94％)。观察证实了对SLE患者的早期治疗¹⁹，并确定了在急性流感感染者中存在干扰素信号。(2)在M1.3(“B-细胞相关”)中，相当比例的基因在两组中都有显著变化(53％)，两个列表中有50％是重叠的。此时，与健康组相比，患者的基因一致低表达。(3)还发现两种疾病的模块差异。在模块1.1中，发生显著变化的基因比例在SLE患者中达到了39％，而在FIu患者中仅为7％，在0.05的显著性水平，与预期仅偶然发生差异表达的基因比例相接近。有趣地是，所述模块基本上专有地由编码与浆细胞有关的免疫球蛋白链的基因组成。然而，所述模块在基因表达水平和模式(未示出)上，都与B-细胞相关的模块(M1.3)明显不同。(4)如模块M1.5所示，单个模块的基因水平分析能够用于进一步区别两种疾病。对于M1.3来说也一样，尽管在模块级没有差异(图4：53％的转录体低表达)，在Flu组与SLE组间存在的差异能够在基因水平识别(在M1.3中，仅有51％的转录本低表达，在两个疾病组中普遍存在)。所述实例表明使用模块结构对微阵列结果进行流线型分析及解释。

基因表达的图在模块级的变化。数据可视化对于解释复杂的数据集来说，极为重要，我们正在探索提供一种对发生在模块级变化的全面图解。28个PBMC转录模块表示的由不同疾病导致的基因表达水平的变化(图6)。每个疾病组与其各自的由相配年龄和性别的健康志愿者组成的对照组进行比较(18名SLE患者、16名急性流感感染者、16名转移性黑色素瘤患者和16名接受免疫抑制药物治疗的肝移植受者与由10到11名健康个体组成的对照组相比较)。模块级数据通过排列于网格中的点示出，每个位置与不同的模块相对应(见表1对各模块功能的注释)。

点的亮度表明各模块中发生显著变化的基因比例。点的颜色表明变化的极性(红色为过表达的基因比例；蓝色为低表达的基因比例；紫色为模块中显著上调和低表达的基因比例，但是尚未观察到紫色)。所述表示允许对PBMC转录系统的微扰进行快速评估。每种疾病都会生成所述的“模块图”。比较4幅图，可发现疾病由唯一的模块组合表征。实际上，单独用M1.1和M1.2的结果，就足够鉴定所有四种疾病(M1.1/M1.2：SLE＝+/+；FLU＝0/O；黑色素瘤＝-/+；移植＝-/-)。M3.2中的大量基因(“炎症”)在所有疾病中都过表达(尤其是在移植组中)，而M3.1中的基因(干扰素)在SLE患者、流感感染者、还有部分移植受者中为过表达。“核糖体蛋白”模块基因(M1.7和M2.4)在SLE和Flu组中都低表达。最近发现，在SLE患者中，所述基因的表达水平与疾病活动为负相关(Bennett等人，已提交)。在SLE患者和接受针对T-细胞免疫抑制药物治疗的移植受者的淋巴细胞中，M2.8包括T-细胞转录体低表达。

有趣地是，各模块的差异表达基因主要都是低表达或是过表达的(图5和图6)。然而，模块的选择完全基于基因表达分布型的相似性，而不是组间的表达水平变化。在各表示模块化数据功能相关性的模块中，基因表达的变化出现高极化现象。因此，本发明通过对患者血液白细胞转录分布型的模块化分析就可进行疾病指纹识别。

在公开的数据集中确认PBMC模块。其次，以“第三方”数据来测试上述的PBMC转录模块的有效性。用Connolly等研究的运动对人PBMCs中基因表达的效应²⁰进行测试。

简而言之，从15名健康人体中分三次取样(在运动前、恒定负荷循环测力运动30分钟后及运动结束后约1小时)。使用Affymetrix U133A基因芯片，测出3类受试者各5个RNA库的转录分布型。从基因表达综合数据库网站上21下载原始数据，并以模块为基础，对基因表达的变化进行分析。图7为模块M1.1(“浆细胞”)、M1.7(“核糖体蛋白质”)及M2.1(“细胞毒性细胞”)的转录分布型。所述各模块的基因转录行为明显不同。有趣地是，发现受试者库(M1.1)、实验条件(M2.1)或无差异(M1.7)之间的差别。这些数据清楚显示，运动后细胞毒性细胞(cytotoxic cell)相关基因(M2.1)的表达量立刻增加，休息后，又接着降低到基线水平。该发现与在惯于久坐的受试者运动后观察到的自然杀伤细胞循环提高现象一致^22，23。Connolly等已将包括在M2.1中的某些基因列入“炎症反应”列，但是并未将其与细胞组分可能发生的变化相联系。在运动后，发现属于“炎症”模块(M3.2，M3.3)的基因很少发生变化，尽管在很多疾病中，组成所述模块的基因表达水平都有所提高(Chaussabel等人，已提交)。然而，有趣地是，在IV期黑色素瘤患者和移植受者中，免疫抑制分子特定过表达(Chaussabel等人，已提交)的现象，仅是在运动后的瞬时增加(未示出，M1.4；如TCF8、CREM、RGS1、TNFAIP3)。

综合分析结果表明，所提出的模块挖掘策略在其他独立研究小组获得的数据中具有效性。使用本发明，模块化转录数据在微阵列交叉平台中具有重复性。

首先，将使用两个商业化微阵列平台获得的模块化转录分布型作比较。从4名健康志愿者和10名肝移植受者提供的14份样本，分离得到PBMCs。起始于相同来源的总RNA，独立地生成靶点，并使用Affymetrix LJ133基因芯片(Baylor免疫研究所)和Illumina Human Ref8微珠芯片(于Illumina服务中心)进行分析。在两种微阵列技术之间存在着根本的区别(参见详细描述的方法)。将各制造商提供的探针IDs转化为一种唯一ID(NCBIEntrez检索系统基因ID)，用于与基因表达分布型相匹配。共享获得的基因小组数据，如图8所示，为模块M1.2(“血小板”)，M3.1(“干扰素”)和M3.2(“炎症”)。由Illumina微珠芯片获得的数据做出的图谱表明，各模块内的基因都有较高水平的共表达。所述观察有重大意义，因为使用Affymetrix基因芯片获得的基于基因表达的数据，对转录模块的选择是专有的。更进一步地，在微阵列交叉平台中，各模块的平均基因表达值具有高度重复性(图8)。

所述结果表明，模块转录信号稳定，并清楚显示，模块级的分析，对在不同位点和不同平台获得的微阵列数据，具有可重复性。

对于生物系统来说，微阵列基因表达数据形成了一幅全面但是却紊乱的画面。基于微阵列的研究，面临着三重挑战：(1)噪声，(2)数据解释，以及(3)重复性。对于噪声来说，本发明已成功的比较了采用现有技术的方法得到的恒定结果中所涉及的成千上万的基因，包括很大比例的噪声24。对于数据解释来说，本发明克服了信息过载的问题。实际上，解释微阵列数据时，通常要求研究人员检查实验数据，在已有的生物医学知识中的基因组范围内¹³。更扰人地是，由于对噪声数据的过度解释而产生欺骗性结果的可能性⁷。最后，对于重复性，在资料中详细记载的已有技术中存在的关键问题是，在不同试验室和交叉平台中获得的微阵列结果重复性较差，至今仍然是一个主要扰人的主要难题^{6，7，10-12}。

由于一些原因，主流微阵列分析策略在解决该三重问题上，仅取得了有限的成功。首先，由于普遍认为统计检验是分析初始步骤的先决条件，其结果是，仅在产生的差异表达基因列表中进行一次生物学考虑。然而，从成千上万的变量测试中得到数据子集，将总是含有噪声，因此非常难解释。本发明提供的系统和方法，在确定模块特征时，就从细胞和分子生物学的角度考虑其中的细胞。本发明的第一步，考虑的是在进行真正的第一步分析时，系统的生物学特性，因而选择在数百个样本中协同表达的功能相关的基因小组。在含有极富生物学意义的基因的模块化数据集中应用统计检验。该方法的另一个有益之处在于，通过使用转录模块作为基本单位，超越了基因水平分析。转录模块组成分析发生在定义的生物系统中的微扰的框架。所述模块化数据格式有利于简单化解释模块研究。然而，要在广泛的生物学变异条件下初步表征各实验系统，如不同的实验条件、个体差异、以及生物材料的成本或获取途径，都可能成为限制。

有趣的是，已证明经模块水平分析的数据极其稳定，正如在两种商业化微阵列平台中表现出的良好重现性。

更进一步地，对PBMC转录模块的多元分析，导致“基因组评分”(genomic score)的建立，可对系统性红斑狼疮患者的疾病严重程度进行准确评估(Bennett等，已提交)。确定可靠的血液白细胞转录标记物，组成了微阵列在临床设置中应用的重要步骤。

处理由多种类型的细胞形成的样本，增加了分析微阵列基因表达数据的复杂水平。实际上，对转录差异基因表达水平的解释，不仅可以从转录活性变化的角度，而且还能从细胞组分变化的角度。获得的分析PBMC样本的模块化信号所反映的事实，允许我们从与活化作用有关的组分(包括与干扰素相关的基因(M3.1)，与炎症相关的基因(M3.2)，或与发信号相关的基因(M2.11))中鉴定细胞组分(包括与血小板相关的基因M1.2，与红血球相关的基因M2.3或与T-细胞相关的基因M2.8)。此类考虑与基于患者的研究有关，因为大量微阵列分析是在涉及多细胞的样本中进行。

通过Affymetrix和Illumina平台获得的模块化表达数据，具有高度可比性(图9；移植组M1.2，M3.1及M3.2的皮尔森相关系数，分别为R2＝0.83、0.98及0.93，p<0.0001)。综合考虑结果表明，模块化转录数据在微阵列交叉平台中能够重复。该发现具有重要意义，因为其表明了“模块化微阵列评分”(modular microarray scores)能够用于评估使用独立的微阵列平台的患者的疾病严重程度。

本发明所描述的模块级挖掘策略，可以广泛应用于生物系统领域，尤其是适用于分析其他临床相关样本，如瘤或实体器官活检。

从表3中所提供的一个或更多个模块和/或一个或更多个基因中可以获得载体的表达水平。此外，对于本领域的普通技术人员来说，依靠疾病表达分布型和使用本发明的方法，可以开发模块并进一步提炼出模块及模块中的基因，是显而易见的。例如，依靠要求的特异性水平、数据集数量、患者数量等，在某种特定疾病中，包括不同差异表达基因比例的一个或更多不同的新模块，可以应用于基于新的数据开发新模块，形成和组织基于新转录体子集的阵列，从而定义代表平均表达水平的新载体。

表1、表2及表3为长表格。本专利申请中包括长表格部分。所述表格副本可以自美国专利商标局网站以电子形式获得。所述表格的电子副本还可以美国专利商标局网站在37CFR1.19(b)(3)所阐述的请求和付费后就可以获得，该电子副本在该EFS递交时附带，并且表1、表2和表3均以其全文引入作为参考。

应当理解本文所描述的特定实施例显示为说明的方式且不作为对本发明的限制。在不偏离本发明范围的情况下，本发明的主要特征可以应用于各种实施方式中。本领域内的技术人员将会认识到或能够确认，仅仅使用常规实验，众多的等同物都能应用于本文所描述的具体方法中。这样的等同物被认为是在本发明的范围内，并且被权利要求所覆盖。

本说明书中所提到的所有出版物或专利申请都指示了本发明适合的本领域技术人员的技术水平。所有出版物或专利申请都在此都纳入参考，其引入程度如同各个单独的出版物或专利申请被具体地和独立地引入作为参考。

在权利要求中，将所有连接短语，如“包含”、“包括”、“负有”、“具有”、“含有”、“涉及”等均理解为开放式，即，意味着包括但不限于。只有连接短语“由......组成”及“基本由......组成”分别为封闭或半封闭式的连接短语。

根据本发明公开的内容，本文所公开和要求保护的全部组合物和/或方法无需过度实验即可制备和实施。由于本发明的所述组合物和方法已经已优选实施方式进行了描述，可以应用于所述组合物和/或方法的各种变化，以及在不偏离本发明的构思、精神和范围的情况下所述方法在步骤上或步骤的顺序上的各种变化，对于所述领域技术人员来说将是显然的。更加具体地，在能产生相同或类似的结果时，化学上和生理上相关的某些试剂可以代替本文所描述的试剂，这是显然的。所有对于所属领域技术人员是显然的这样的类似的替代物和修饰，均被认为是在如所附权利要求所定义的本发明的精神、范围和构思之内。

参考文献

1.Golub，T.R.et al.Molecular classification of cancer：class discovery andclass prediction by gene expression monitoring.Science 286，531-7(1999).

2.Alizadeh，A.A.et al.Distincttypes of diffuse large B-celllymphomaidentified by gene expression profiling.Nature 403，503-11(2000).

3.Garber，K.Genomic medicine.Gene expression tests foretell breastcancer′s future.Science 303，1754-5(2004).

4.van de Vij ver，MJ.et al.A gene-expression signature as a predictor ofsurvivalin breast cancer.N Engl J Med 347，1999-2009(2002).

5.Pascual，V.，Allantaz，F.，Arce，E.，Punaro，M.& Banchereau，J.Role ofnterleukin-1(IL-I)in the pathogenesis of systemic onset juvenile idiopathicarthritis and clinical response to IL-I blockade.J Exp Med 201，1479-86(2005).

6.Michiels，S.，Koscielny，S.& Hill，C.Prediction of cancer outcome withmicroarrays：a multiple random validation strategy.Lancet 365，488-92(2005).

7.Ioannidis，J.P.Microarrays and molecular research：noise discovery？Lancet 365，454-5(2005).

8.Jarvinen，A.K.et al.Are datafrom different gene expression microarrayplatforms comparable？Genomics 83，1164-8(2004).

9.Tan，P.K.et al.Evaluation of gene expression measurements fromcommercial microarray platforms.Nucleic Acids Res 31，5676-84(2003).

10.Bammler，T.et al.Standardizing global gene expression analysisbetween laboratories and across platforms.Nat Methods 2，351-6(2005).

11.Irizarry，R.A.et al.Multiple-laboratory comparison of microarrayplatforms.Nat Me/hods 2，345-50(2005).

12.Larkin，J.E.，Frank，B.C.，Gavras，H.，Sultana，R.& Quackenbush，J.Independence and reproducibility across microarray platforms.NatMethods 2，337-44(2005).

13.Chaussabel，D.Biomedical literature mining：challenges and solutions inthe′omics′era.Am J Pharmacogenomics 4，383-93(2004).

14.Rhodes，D.R.et al.Mining for regulatory programs in the cancertranscriptome.Nat Genet 37，579-83(2005).

15.Segal，E.，Friedman，N.，Koller，D.& Regev，A.A module map showingconditional activity of expression modules in cancer.Nat Genet 36，1090-8(2004).

16.Mootha，V.K.et al.PGC-I alpha-responsive genes involved in oxidativephosphorylation are coordinately downregulated in human diabetes.NatGenet 34，267-73(2003).

17.Segal，E.，Friedman，N.，Kaminski，N.，Regev，A.& Koller，D.Fromsignatures to models：understanding cancer using microarrays.Nat Genet37 Suppl，S38-45(2005).

18.Chaussabel，D.& Sher，A.Mining microarray expression data byliterature profiling.Genome Biol 3，RESEARCH0055(2002).

19.Bennett，L.et al.Interferon and granulopoiesis signatures in systemiclupus erythematosus blood.J Exp Med 197，711-23(2003).

20.Connolly，P.H.et al.Effects of exercise on gene expression in humanperipheral blood mononuclear cells.JAppl Physiol 91，1461-9(2004).

21.Barrett，T.et al.NCBI GEO：mining millions of expression profiles—database and tools.Nlcleic Acids Res 33，D562-6(2005).

22.Ogawa，K.，Oka，J.，Yama kawa，J.& Hignchi，M.A single bout ofexercise influences natural killer cells in elderly women，especially thosewho are habitually active.J Strength Cond Res 19，45-50(2005).

23.Woods，J.A.，Evans，J.K.，Wolters，B.W.，Ceddia，M.A.& McAuley，E.Effects of maximal exercise on natural killer(NK)cell cytotoxicity andresponsiveness to interferon-alpha in the young and old.J Gerontol A BiolSci Med Sci 53，B430-7(1998).

24.Tuma，R.S.Efforts aimed at reducing noise，data overload inmicroarrays.J Natl Cancer Inst 97，1173-5(2005).

Claims

1.一种用于诊断疾病或病症的方法，所述方法包括以下步骤：

获得来自患者的转录组；

基于指示某种疾病或病症的一个或更多转录模块，分析转录组；以及

基于转录组中的基因在一个或更多转录模块中的存在、缺失或表达水平，确认患者的疾病或病症。

2.权利要求1的方法，其中所述的转录模块是通过以下方法获得的：

通过以下方式迭代地选择用于一个或更多转录模块的基因表达值：

从与每一种疾病或病症相匹配的每一集群中选择用于所述模块的基因；

从所述分析中排除所选择的基因；和

重复所述基因表达值的选择过程，所述选择是用于集群于所述疾病或病症的子部分的基因；和

迭代地重复用于每一集群模块的形成，直到用完所有的基因集群。

3.权利要求1的方法，其中所述的集群选自：表达值集群、关键词集群、代谢集群、疾病集群、感染集群、移植集群、信号集群、转录集群、复制集群、细胞周期集群、siRNA集群、miRNA集群、线粒体集群、T细胞集群、B细胞集群、细胞因子集群、淋巴因子集群、热休克集群及其组合。

4.权利要求1的方法，其中所述的一种或多种疾病或病症选自以下的一种或多种病症：系统性幼年特发性关节炎、系统性红斑狼疮、I型糖尿病、肝移植受者、黑色素瘤患者、细菌性感染患者如大肠杆菌、金黄色葡萄球菌感染患者，病毒感染如流感病毒A感染，及其组合。

5.权利要求1的方法，其中所述的一种或多种疾病或病症选自生物恐怖试剂的感染。

6.权利要求1的方法，其中所述的细胞包括外周血单核细胞(PBMCs)、血细胞、胎儿细胞、腹膜细胞、实体器官活检物、切除的肿瘤、初级细胞、细胞系、细胞克隆及其组合。

7.权利要求1的方法，其中所述的细胞包括单个细胞、细胞的集合、组织、细胞培养物、尿液和血液。

8.权利要求1的方法，其中所述的细胞包括组织活检物、一种或多种分选的细胞群体、细胞培养物、细胞克隆、转化细胞、活检组织或单细胞。

9.权利要求1的方法，其中所述的细胞包括脑、肝脏、心脏、肾、肺、脾、视网膜、骨、神经元(neural)、淋巴结、内分泌腺、生殖器官、血液、神经、血管组织以及嗅觉上皮细胞。

10.权利要求1的方法，其中所述的获得个体基因表达水平的步骤是使用探针阵列、PCR、定量PCR、珠粒阵列及其组合来进行的。

11.权利要求1的方法，其中所述的获得个体基因表达水平的步骤是使用核酸在固体支持物上的杂交来进行的。

12.权利要求1的方法，其中所述的获得个体基因表达水平的步骤是使用以从细胞中提取mRNA作为模板的cDNA来进行的。

13.权利要求1的方法，其中所述的模块能够区分自身免疫疾病、病毒感染细菌感染、癌症和移植排斥。

14.一种用于鉴定转录模块的方法，所述方法包括以下步骤：

获得细胞的个体基因表达水平，所述细胞是从患有疾病或病症的一名或多名患者获得的；

记录划分为集群的表格中的每一基因的表达值；

通过以下方式迭代选择一个或更多转录模块的基因表达值：

从与每一疾病或病症相匹配的每一集群中为所述模块选择基因；

从所述分析中排除所选择的基因；和

重复所述基因表达值的选择过程，所述选择是用于集群于所述疾病或病症的子部分的基因；以及

15.权利要求14的方法，其中所述的集群选自：表达值集群、关键词集群、代谢集群、疾病集群、感染集群、移植集群、信号集群、转录集群、复制集群、细胞周期集群、siRNA集群、miRNA集群、线粒体集群、T细胞集群、B细胞集群、细胞因子集群、淋巴因子集群、热休克集群及其组合。

16.权利要求14的方法，其中所述的一种或多种疾病或病症是选自以下的一种或多种病症：系统性幼年特发性关节炎、系统性红斑狼疮、I型糖尿病、肝移植受者、黑色素瘤患者、细菌性感染患者如大肠杆菌、金黄色葡萄球菌感染患者，病毒感染如流感病毒A感染，及其组合。

17.权利要求14的方法，其中所述的一种或多种疾病或病症选自生物恐怖试剂的感染。

18.权利要求14的方法，其中所述的细胞包括外周血单核细胞(PBMCs)、血细胞、胎儿细胞、腹膜细胞、实体器官活检物、切除的肿瘤，初级细胞、细胞系、细胞克隆及其组合。

19.权利要求14的方法，其中所述的细胞包括单个细胞、细胞的集合、组织、细胞培养物、尿液和血液。

20.权利要求14的方法，其中所述的细胞包括组织活检物、一种或多种分选的细胞群体、细胞培养物、细胞克隆、转化细胞、活检组织或单细胞。

21.权利要求14的方法，其中所述的细胞包括脑、肝脏、心脏、肾、肺、脾、视网膜、骨、神经元(neural)、淋巴结、内分泌腺、生殖器官、血液、神经、血管组织以及嗅觉上皮细胞。

22.权利要求14的方法，其中所述的获得个体基因表达水平的步骤是使用寡核苷酸阵列来进行的。

23.权利要求14的方法，其中所述的获得个体基因表达水平的步骤是使用在固体支持物上的核酸的杂交来进行的。

24.权利要求14的方法，其中所述的获得个体基因表达水平的步骤是使用以从细胞中提取的mRNA作为模板的cDNA来进行的。

25.权利要求14的方法，其中所述的一种或多种转录模块选自：

转录模块浆细胞：用于编码免疫球蛋白链(IGHM、IGJ、IGLL1、IGKC、IGHD)，以及浆细胞标记物CD38的基因；血小板：用于编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)和血小板衍生的免疫介体的基因，所述免疫介体是如PPBP(前血小板碱性蛋白)及PF4(血小板因子4)； B-细胞：用于编码B-细胞表面标记物(CD72、CD79A/B、CD 19、CD22)，以及其他B-细胞相关分子的基因，所述的其他B-细胞相关分子为：早期B-细胞因子(EBF)，B-细胞接头(BLNK)及B-淋巴细胞酪氨酸激酶(BLK)；编码cAMP信号途径的调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-KB的活化阻抑物(CYLD、ASK、TNFAIP3)的基因；髓系：编码由髓系细胞表达的分子(CD86、CD163、FCGR2A)的基因，其中有些涉及病原体识别(CD14、TLR2、MYD88)。该组还包括TNF家族成员(TNFR2、BAFF)的基因；编码信号分子、包含活化的STAT阻抑物的锌指蛋白(PIAS1和PIAS2)或是活化T-细胞的核因子NFATC3的基因；

MHC/核糖体蛋白：编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因；编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因；细胞毒性细胞：编码细胞毒性T-细胞和NK-细胞表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)的基因；中性粒细胞：编码出现于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素:DEAF1、细菌通透性增加蛋白:BPI、Cathelicidin抗菌蛋白CAMP...)的基因；红细胞：编码血红蛋白基因(HGBs)的基因以及其他红细胞相关的基因(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)；核糖体蛋白：编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAPIL1)的基因；编码免疫相关分子(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子(胞质分裂提呈因子)、Syndecan2、Plexin Cl、Distrobrevin)的基因。髓系：与M 1.5相关，包括编码在髓系细胞例如单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)；编码趋化素样因子超家族(CKLFSF8)的基因； T-细胞：编码T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)及由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因；编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因。也存在T-细胞表达基因(FAS、ITGA4/CD49D、ZNF1A1)；用于编码免疫相关细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL 15)以及涉及信号通路的分子(FYB，TICAM2-Toll样受体途径)的基因；编码激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)的基因；

干扰素可诱导的：编码干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的基因；炎症I：编码涉及炎症过程的分子(如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；炎症II：编码由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)的基因；编码蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)的基因；编码血红蛋白(HBA1、HBA2、HBB)的基因；编码T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCRl：fraktalkine受体、CD47、P-选择素配体)的基因；编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1，以及泛素连接酶复合体组分(SUGT1)的基因；编码几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶；以及编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(如PTPLB、PPP1R8/2CB)的基因。还包括RAS致癌基因家族成员以及NK细胞受体2B4(CD244)；

及其组合，其中将样本中的基因表达水平绘制在所述模块中，以确定疾病或病症。

26.一种疾病分析工具，所述疾病分析工具包括：一种或多种选自如下的基因模块:

转录模块浆细胞：编码免疫球蛋白链(IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；血小板：编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体的基因，所述血小板衍生的免疫介体如PPBP(前血小板碱性蛋白)及PF4(血小板因子4)； B-细胞：编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)以及

其他与B-细胞有关的分子的基因，所述其他与B-细胞有关的分子为：早期B-细胞因子(EBF)，B-细胞接头(BLNK)及B-淋巴细胞酪氨酸激酶(BLK)；编码cAMP信号途径的调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-KB活化阻抑物(CYLD，ASK，TNFAIP3)的基因；髓系：编码由髓系细胞(CD86、CD163、FCGR2A)表达的分子的基因，其中有些涉及病原体的识别(CD14、TLR2、MYD88)。该组还包括TNF家族成员(TNFR2、BAFF)；编码信号分子、含有活化的STAT阻抑物的锌指蛋白(PIAS1和PIAS2)或活化T-细胞的核因子NFATC3的基因； MHC/核糖体蛋白：编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因；编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因；细胞毒性细胞：编码细胞毒性T-细胞和NK-细胞表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)的基因；中性粒细胞：编码出现于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP)的基因；红细胞：编码血红蛋白基因(HGBs)以及其他红细胞相关基因(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)的基因；核糖体蛋白：编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAP1L1)的基因；编码免疫相关(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子(胞质分裂提呈因子)、Syndecan 2、Plexin Cl、Distrobrevin)的基因；髓系：与M 1.5相关，包括在髓系细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)，所述髓系细胞是例如单核细胞和中性粒细胞；编码趋化素样因子超家族成员(CKLFSF8)的基因；

T-细胞：编码T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)及由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因；编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因。也存在T-细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)；编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)以及涉及信号通路(FYB、TICAM2-Toll样受体途径)的分子的基因；编码激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)的基因；干扰素可诱导的：编码干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的基因；炎症I：编码涉及炎症过程的分子(IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；炎症II：编码由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)的基因；编码蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)的基因；编码血红蛋白基因(HBA1、HBA2、HBB)的基因；编码T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1、fraktalkine受体、CD47、P-选择素配体)的基因；编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体组分(SUGT1)的基因；编码几种酶的基因，所述酶为：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶；以及编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(PTPLB、PPP1R8/2CB)、RAS致癌基因家族成员以及NK细胞受体2B4(CD244)的基因；

并且所述的基因模块足以区分自身免疫疾病、病毒感染细菌感染、癌症以及移植排斥。

27.权利要求26的方法，其中所述的模块用于区分系统性红斑狼疮、流感病毒感染、黑色素瘤以及移植排斥。

28.权利要求26的方法，其中所述被选择的模块是选自：

浆细胞：编码免疫球蛋白链(IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；和

血小板：编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体PPBP(前血小板碱性蛋白)和PF4(血小板因子4)的基因；

并且所述模块通过在这两个模块中具有阳性载体来用于鉴定系统性红斑狼疮。

29.权利要求26的方法，其中所述被选择的模块选自：

并且所述模块通过在这两个模块中既不具有阳性载体也不具有阴性载体来用于鉴定流感病毒感染。

30.权利要求26的方法，其中所述被选择的模块选自：

血小板：编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPBP(前血小板碱性蛋白)和PF4(血小板因子4)的基因；

并且所述模块通过具有浆细胞标记物的阴性载体和血小板标记物的阳性载体来用于鉴定黑色素瘤。

31.权利要求26的方法，其中所述被选择的模块是选自：

并且所述模块是通过在这两个模块中具有阴性载体来用于鉴定移植排斥。

32.权利要求26的方法，其中所述被选择的模块是选自：

并且所述模块是通过在这两个模块中具有阴性载体来用于鉴定流感病毒感染。

33.一种预测基因阵列，所述基因阵列包括：

定制的基因阵列，所述的定制基因阵列包含代表一个或更多转录模块的基因组合，其中与所述定制的基因阵列相接触的患者转录组，是与所述转录模块相匹配的一种或多种疾病或病症的预测。

34.权利要求33的阵列，其中所述患者对所述疾病或病症的免疫反应是基于转录组基因的存在、缺失或表达水平来确定的，且该转录组是基于与特定疾病或病症相关的转录模块。

35.权利要求33的阵列，其中所述的阵列能够区分自身免疫疾病、病毒感染、细菌感染、癌症以及移植排斥。

36.权利要求33的阵列，其中将所述阵列组织成两个或更多的转录模块。

37.权利要求33的阵列，其中将所述阵列组织成三个转录模块，所述的转录模块含有一个或更多选自如下的子模：

子模探针组数量关键词选择评估 M1.1 69 Ig，免疫球蛋白，骨骼，骨髓，前B，IgM，Mu 浆细胞：编码免疫球蛋白链(IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因； M1.2 96 血小板，粘连，聚集，内皮，血小板：编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生

血管的免疫介体的基因，所述免疫介体如PPBP(前血小板碱性蛋白)和PF4(血小板因子4)； M1.3 47 免疫受体，BCR，B-细胞，IgG B-细胞：编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)、B-细胞接头(BLNK)和B-淋巴细胞酪氨酸激酶(BLK)的基因； M1.4 87 复制，阻抑，修复，CREB，淋巴，TNF-α 编码cAMP信号途径调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导NF-kB活化阻抑物(CYLD、ASK、TNFAIP3)的基因； M1.5 130 单核细胞，树突，MHC，共刺激，TLR4，MYD88 髓系：由髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中有些涉及到病原体的识别(CD14、TLR2、MYD88)；该组还包括TNF家族成员(TNFR2、BAFF)； M1.6 28 锌，指，P53，RAS 编码信号分子、包含活化的STAT阻抑物的锌指蛋白(PIAS1和PIAS2)或活化T-细胞核因子NFATC3的基因； M1.7 127 核糖体，翻译，40S，60S，HLA MHC/核糖体蛋白：编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因； M1.8 86 代谢，生物合成，复制，解旋酶编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因； M2.1 72 NK，杀伤者，溶细胞，CD8，细胞介导，T-细胞，CTL，IFN-g 细胞毒性细胞：编码细胞毒性T-细胞和NK-细胞表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关

分子(CTSW)的基因； M2.2 44 粒细胞，中性粒细胞，防御，髓系，骨髓中性粒细胞：编码出现于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP)的基因； M2.3 94 红细胞，红，贫血，球蛋白，血红蛋白红细胞：血红蛋白基因(HGBs)和其他红细胞相关基因(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)； M2.4 118 核蛋白，60S，核仁，集群，延长核糖体蛋白：编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)及核仁蛋白(NPM1、NOAL2、NAPIL1)的基因； M2.5 242 腺瘤，空隙，间叶细胞，树突，动力编码免疫相关分子(CD40、CD80、CXCL12、IFNA5、IL4R)及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子、Syndecan 2、Plexin Cl、Distrobrevin)的基因； M2.6 110 粒细胞，单核细胞，髓系，ERK，坏死编码在髓系细胞(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)、单核细胞和中性粒细胞中表达的分子的基因； M2.7 43 未提取关键词编码趋化素样因子超家族中的一个或更多成员(CKLFSF8)的基因； M2.8 104 淋巴瘤，T-细胞，CD4，CD8，TCR，胸腺，淋巴，IL-2 T-细胞：编码T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)及由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因； M2.9 122 ERK，反式激活，细胞骨架，编码与细胞骨架相关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因。也存在T-细胞表达的基因(FAS、

MAPK，JNK ITGA4/CD49D、ZNF1A1)； M2.10 44 髓系，巨噬细胞，树突，炎症，白细胞介素编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL 15)以及涉及信号通路的分子(FYB，TICAM2-Toll样受体路径)的基因； M2.11 77 复制，阻抑，RAS，自身磷酸化，致癌编码激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)的基因； M3.1 80 ISRE，流感，抗病毒，INF-γ，IFN-α，干扰素干扰素可诱导的：编码干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的基因； M3.2 230 TGF-β，TNF，炎症，凋亡，脂多糖，炎症I：编码涉及炎症过程的分子(IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因； M3.3 230 粒细胞，炎症，防御，氧化，溶酶体炎症II：编码由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)的基因； M3.4 323 未提取关键词编码蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)的基因； M3.5 19 未提取关键词编码血红蛋白基因(HBA1、HBA2、HBB)

的基因； M3.6 233 补体，宿主，氧化的，细胞骨架，T-细胞编码T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)的基因； M3.7 80 剪接体，甲基化，泛素，β-连环素(β-catenin) 编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体(SUGT1)组分的基因； M3.8 182 CDC，TCR，CREB，糖基化酶编码几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶；以及 M3.9 261 染色质，检查点，复制，反式激活编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(PTPLB、PPP1R8/2CB)的基因。还包括RAS致癌基因家族成员以及NK细胞受体2B4(CD244)；

并且包含特异性地结合所述模块中的一个或更多基因的探针。

38.一种基因分析工具，所述工具包括：一个或更多基因模块，所述基因模块选自下列左栏中的一组和右栏中的一组的组合：

关键词选择转录模块 Ig，免疫球蛋白，骨骼，骨髓，前B，IgM，Mu 浆细胞：编码免疫球蛋白链(IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因；血小板，粘连，聚集，内皮，血管血小板：编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介体如PPBP(前血小板碱性蛋白)及PF4(血小板因子4)的基因；免疫受体，BCR，B-细胞，IgG B-细胞：编码B-细胞表面标记物(CD72、CD79A/B、CD19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)、B-细胞接头(BLNK)和B-淋巴细胞酪氨酸激酶(BLK)的基因；

复制，阻抑，修复，CREB，淋巴，TNF-α 编码cAMP信号途径调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-kB活化阻抑物(CYLD、ASK、TNFAIP3)的基因；单核细胞，树突，MHC，共刺激，TLR4，MYD88 髓系：编码由髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中有些涉及病原体的识别(CD14、TLR2、MYD88)以及TNF家族成员(TNFR2、BAFF)的基因；锌，指，P53，RAS 编码信号分子、含有活化STAT抑制物的锌指蛋白(PIAS1和PIAS2)或活化的T-细胞核因子NFATC3的基因；核糖体，翻译，40S，60S，HLA MHC/核糖体蛋白：编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因；代谢，生物合成，复制，解旋酶编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因； NK，杀伤者，溶细胞，CD8，细胞介导，T-细胞，CTL，IFN-g 细胞毒性细胞：细胞毒性T-细胞和NK-细胞表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)以及CTL/NK-细胞相关分子(CTSW)；粒细胞，中性粒细胞，防御，髓系，骨髓中性粒细胞：编码出现于中性粒细胞颗粒中的天然分子(乳转铁蛋白：LTF、防御素：DEAF1、细菌通透性增加蛋白：BPI、Cathelicidin抗菌蛋白：CAMP...)的基因；红细胞，红，贫血，球蛋白，血红蛋白红细胞：编码血红蛋白(HGBs)及其他红细胞相关基因(红细胞alkirin：ANK1、血型糖蛋白C：GYPC、羟甲基胆素合成酶：HMBS、红细胞相关因子：ERAF)的基因；核蛋白，60S，核仁，集群，延长核糖体蛋白：编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAPIL1)的基因；腺瘤，空隙，间叶细胞，编码免疫相关(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因

树突，动力子细胞激酶、Syndecan2、Plexin C1、Distrobrevin)的基因；粒细胞，单核细胞，髓系，ERK，坏死髓系：在髓系细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)的基因，所述髓系细胞例如是单核细胞和中性粒细胞；未提取关键词编码一个或更多个趋化素样因子超家族成员(CKLFSF8)的基因；淋巴瘤，T-细胞，CD4，CD8，TCR，胸腺，淋巴，IL-2 T-细胞：编码T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)以及由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因； ERK，反式激活，细胞骨架，MAPK，JNK 编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因。还存在T-细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)；髓系，巨噬细胞，树突，炎症，白细胞介素编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL 15)以及涉及信号通路的分子(FYB，TICAM2-Toll样受体路径)的基因；复制，阻抑，RAS，自身磷酸化，致癌编码激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)的基因； ISRE，流感，抗病毒，INF-γ，IFN-α，干扰素干扰素可诱导的：编码干扰素可诱导的基因：抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的基因； TGF-β，TNF，炎症，凋亡，脂多糖炎症I：编码涉及炎症过程的分子(IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因；粒细胞，炎症，防炎症II：编码由或可以由粒细胞-巨噬细胞集落刺激因

御，氧化，溶酶体子CSF诱导的分子(SPI1、IL18、ALOX5、ANPEP)，以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)的基因；未提取关键词编码蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)的基因；未提取关键词编码血红蛋白基因(HBA1、HBA2、HBB)的基因；补体，宿主，氧化的，细胞骨架，T-细胞编码T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1：fraktalkine受体、CD47、P-选择素配体)的基因；剪接体，甲基化，泛素，β-连环素(β-catenin) 编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1以及泛素连接酶复合体(SUGT1)组分的基因； CDC，TCR，CREB，糖基化酶编码几种酶的基因：氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶；以及染色质，检查点，复制，反式激活编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(PTPLB、PPP1R8/2CB)的基因。还包括RAS致癌基因家族成员以及NK细胞受体2B4(CD244)；

及其组合，其中将模块中样本的基因的表达水平显示从而诊断疾病或病症。

39.一种用于选择临床试验的患者的方法，所述方法包括以下步骤：

获得预期患者的转录组；

将所述转录组与指示在所述临床试验中被治疗的疾病或病症的一个或更多转录模块相比较；以及

基于在所述患者的转录组中表达的一个或更多基因的存在、缺失或水平，来确定患者是用于所述临床试验的好的候选者的可能性，所述患者的转录组是在与临床试验的成功相关的一个或更多转录模块中。

40.权利要求39的方法，其中每一模块包含与样本中转录体比例总和相关的载体。

41.权利要求39的方法，其中每一模块均包含载体，并且其中一种或多种疾病或病症与所述的一种或多种载体相联系。

42.权利要求39的方法，其中每一模块均包含与每一模块中的一个或更多基因表达水平相关的载体。

43.权利要求39的方法，其中每一模块均包含载体并且所述模块选自：

浆细胞：编码免疫球蛋白链(如IGHM、IGJ、IGLL1、IGKC、IGHD)，以及浆细胞标记物CD38的基因；以及

血小板：编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)，以及衍生血小板免疫介体如PPBP(前血小板碱性蛋白)及PF4(血小板因子4)的基因；

并且所述模块是用于区分：系统性红斑狼疮，通过在这两个模块中具有阳性载体；流感病毒感染，通过在这两个模块中既不具有阳性载体也不具有阴性载体；黑色素瘤，通过具有用于浆细胞标记物的阴性载体和用于血小板标记物的阳性载体；通过在这两个模块中具有阴性载体来识别移植排斥。

44.一种固定于固体支持物的核酸探针阵列，所述核酸探针阵列包括来自于一个或更多模块的足够的探针，以提供足够比例的差异表达的基因，从而区分一种或多种疾病，所述探针选自表1、2、3或其组合。

45.权利要求44的核酸探针阵列，其中数据获得自与固定于固体支持物的核酸探针相接触的样本，该数据由选自如下的模块来分类：

模块ID 转录模块 M1.1 浆细胞：编码免疫球蛋白链(IGHM、IGJ、IGLL1、IGKC、IGHD)以及浆细胞标记物CD38的基因； M1.2 血小板：编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)，以及血小板衍生的免疫介体的基因，所述免疫介体如PPBP(前血小板碱性蛋白)和PF4(血小板因子4)； M1.3 B-细胞：编码B-细胞表面标记物(CD72、CD79A/B、CD 19、CD22)以及其他B-细胞相关分子：早期B-细胞因子(EBF)、B-细胞接头(BLNK)和B-淋巴细胞酪氨酸激酶(BLK)的基因； M1.4 编码cAMP信号途径的调节物和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-kB活化的阻抑物(CYLD、ASK、TNFAIP3)的基因； M1.5 髓系:编码由髓系细胞表达的分子(CD86、CD163、FCGR2A)的基因，其中有些涉及病原体的识别(CD14、TLR2、MYD88)。该组还包括TNF家族成员(TNFR2、BAFF)； M1.6 编码信号分子、含有活化STAT抑制物的锌指蛋白(PIAS1和

PIAS2)或活化T-细胞的核因子NFATC3的基因； M1.7 MHC/核糖体蛋白:编码MHC-I类分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因； M1.8 未确定的，编码代谢酶(GLS、NSF1、NAT1)以及涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因； M2.1 细胞毒性细胞:编码细胞毒性T-细胞和NK-细胞表面标记物(CD8A、CD2、CD160、NKG7、KLRs)、溶细胞分子(粒酶、穿孔素、颗粒溶解素)、趋化因子(CCL5、XCL1)和CTL/NK-细胞相关分子(CTSW)的基因； M2.2 中性粒细胞:编码出现于中性粒细胞颗粒中的天然分子(乳转铁蛋白:LTF、防御素:DEAF1、细菌通透性增加蛋白:BPI、Cathelicidin抗菌蛋白CAMP...)的基因； M2.3 红细胞:编码血红蛋白基因(HGBs)及其他红细胞相关基因(红细胞alkirin:ANK1、血型糖蛋白C:GYPC、羟甲基胆素合成酶:HMBS、红细胞相关因子:ERAF)的基因； M2.4 核糖体蛋白:编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)以及核仁蛋白(NPM1、NOAL2、NAP1L1)的基因； M2.5 编码免疫相关(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关分子(肌球蛋白、胞质分裂提呈因子、Syndecan2、Plexin C1、Distrobrevin)的基因； M2.6 髓系:在髓系细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓系相关蛋白8/14甲酰肽受体1)，所述的髓系细胞例如为单核细胞和中性粒细胞； M2.7 编码趋化素样因子超家族中的一个或更多成员(CKLFSF8)的基因； M2.8 T-细胞:编码T-细胞表面标记物(CD5、CD6、CD7、CD26、CD28、CD96)和由淋巴系细胞表达的分子(淋巴毒素-β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因； M2.9 编码与细胞骨架有关的分子(肌动蛋白相关蛋白2/3、MAPK1、MAP3K1、RAB5A)的基因。也存在T-细胞表达的基因(FAS、

ITGA4/CD49D、ZNF1A1)； M2.10 编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL 15)以及信号通路相关分子(FYB、TICAM2-Toll样受体路径)的基因； M2.11 编码激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)以及RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)； M3.1 干扰素可诱导的:编码干扰素可诱导的基因:抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的基因； M3.2 炎症I:编码涉及炎症过程的分子(IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)以及细胞凋亡调节物(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因； M3.3 炎症II:编码由或可以由粒细胞-巨噬细胞集落刺激因子(GM-CSF)诱导的分子(SPI1、IL18、ALOX5、ANPEP)以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)的基因； M3.4 编码蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)以及磷酸肌醇3激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)的基因； M3.5 编码血红蛋白基因(HBA1、HBA2、HBB)的基因； M3.6 编码T-细胞表面标记物(CD101、CD102、CD103)以及在血液白细胞中广泛表达的分子(CXRCR1:fraktalkine受体、CD47、P-选择素配体)的基因； M3.7 编码蛋白酶体亚单位(PSMA2/5、PSMB5/8)、泛素蛋白连接酶HIP2、STUB1和泛素连接酶复合体(SUGT1)的基因； M3.8 编码几种酶的基因:氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶； M3.9 编码蛋白激酶(PRKPIR、PRKDC、PRKCI)以及磷酸酶(PTPLB、PPP1R8/2CB)、RAS致癌基因和NK细胞受体2B4(CD244)

的基因；

其中在所述第一探针组中的探针具有分别对应于一种或多种疾病的一个或更多询问位点。

46.权利要求44的阵列，其中所述的阵列具有100-100,000个探针。

47.权利要求44的阵列，其中每一探针为9-21个核苷酸。

48.权利要求44的阵列，其中在所述第二、三、四探针组中的探针设置有询问位点。

49.一种固定于固体支持物上的核酸探针阵列，所述的阵列包括至少一对来自于第一探针组和第二探针组的探针，每组均包含有一个或更多个表1、2、3或其组合所定义的探针。

50.权利要求49的阵列，其中所述的探针组提供在微阵列交叉平台中保持一致的复合转录标记物载体。

51.权利要求49的阵列，其中所述的探针组提供在微阵列交叉平台中保持一致的复合转录标记物载体并且总体显示为满足监管部门批准的要求。