CN102362279A

CN102362279A - 复杂疾病的体外诊断方法

Info

Publication number: CN102362279A
Application number: CN2010800136482A
Authority: CN
Inventors: H·迭戈那; M·科尔; M·科勒; T·克尔; K·温伯格
Original assignee: Bioniche Life Sciences Inc
Current assignee: Biocrates Life Sciences AG; Telesta Therapeutics Inc
Priority date: 2009-04-07
Filing date: 2010-03-31
Publication date: 2012-02-22
Also published as: EP2239675A1; EP2942724A3; EP2942724A2; JP2012523000A; WO2010115833A1; AU2010233846A1; EP2417545A1; US20120115138A1; EP2417545B1; CA2754389A1

Abstract

本发明涉及用于在生物样品中体外诊断复杂疾病的方法和试剂盒，所述复杂疾病例如癌症，特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌；短暂性脑缺血发作(TIA)，缺血，特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病；脱髓鞘性病，特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森氏病。对于诊断，测定至少2种不同种类的生物分子并通过适合的分类器算法和其他统计程序将结果分类，从而进行应用。通过本发明，可实现可靠性(例如仅表达曲线的可靠性)的显著进步。换言之，在确定的集合中，可以实现高达100％准确的阳性诊断，从而使本发明的方法优于现有技术。

Description

复杂疾病的体外诊断方法

技术领域

本发明涉及如权利要求1所述的复杂疾病或其亚型的体外诊断方法，和如权利要求18所述的执行所述方法的试剂盒。

在经典患者筛查和诊断中，医务人员利用多种诊断工具对患有某种疾病的患者进行诊断。在这些工具中，对一系列单一常规参数(例如血液样品中的参数)进行测定是常见的诊断实验室方法。这些单一参数包括例如酶活力和酶浓度和/或诸如葡萄糖等代谢指示物的检测。只要涉及到这样的疾病，并且这些疾病可通过临床化学简单地并且毫无疑义地与一种单一参数或若干参数相关联，则这些参数就成为了现代实验室医学和诊断中不可或缺的工具。在能够提供优异的已证实的截断值(cut-off value)的情况下(例如在糖尿病中)，就可以在诊断中可靠地使用临床化学参数例如血糖。

特别是，当研究公知病理生理机制背后内在的病理生理状态并从中得出指导性参数时，诸如血液中高葡萄糖浓度通常反映出胰岛素基因的遗传性缺陷，所述单一参数已证实是“其”疾病的可靠生物标志物。

然而，在诸如癌症或脱髓鞘性病如多发性硬化症等共性为缺乏明确可指定的单一参数或标志物的病理生理情况下，目前还难以进行由血液样品或组织样品的差别化诊断。

在癌症预防、筛查、诊断、治疗和预后治疗中，同时在临床常规上使用一系列均对特定种类癌症在某种程度上有特异性的所谓“肿瘤标志物”来诊断和监测癌病过程的治疗。目前使用的这种肿瘤标志物例如有α-1-胎蛋白、癌抗原125(CA 125)、癌抗原15-3、CA 50、CA 72-4、糖抗原19-9、降钙素、癌胚胎抗原(CEA)、细胞角蛋白片段21-1、粘蛋白样癌相关抗原、神经元特异烯醇化酶、核基质蛋白22、碱性磷酸酶、前列腺特异性抗原(PSA)、鳞状细胞癌抗原、端粒酶、胸腺嘧啶激酶、甲状腺球蛋白、和组织多肽抗原。

虽然，在现有技术中目前已有多种上述肿瘤标志物常规使用，但极常见的是难以由单一测定实现可靠诊断。仅举一例，CEA的截断值对不吸烟者为4.6ng/ml，而25％的吸烟者显示在3.5～10ng/ml的范围的正常值，并且有1％的吸烟者显示大于10ng/ml的正常值。因此，只有大于20ng/ml的值才被解释为“高度疑似恶性过程”，这留下了很大的灰色区域，在这一区域中医生不能依靠在患者样品中测定的CEA值。

EP 540 573 B1公开了对于前列腺特异性抗原(PSA)的相似的截断值问题，其中通常测定总PSA以诊断或排除患者的前列腺癌，如果该值在灰色区域，则目前的方法是除了测定总PSA外还以对游离PSA特异的单克隆抗体测试测定游离PSA，并计算2个参数的比率从而获得对前列腺癌更准确的诊断方法，并与良性前列腺增生相区分。

CEA和PSA检测的上述例子充分表明了所有单一肿瘤标志物共有的情况，即，一方面特异性相对较差，另一方面截断值不确定不可靠，从而难以解读得到的值。

因此，一般的结果是，推荐在重要筛查中考虑使用肿瘤标志物。下述情况并不罕见，肿瘤标志物水平增加而没有进一步的临床相关性，使患者丧失勇气，并且根本不具有任何诊断价值。

此外，在恶性疾病的预后治疗中，需要注意的是每种肿瘤标志物都首选需要“临界量”的癌细胞，直到其在临床测试中有阳性响应。另外，不是所有复发肿瘤都必须涉及肿瘤标志物水平的增加。

总之，大多数情况中只有在结合其他诊断工具如内窥镜和活检以及随后的组织学检验的情况下，单一肿瘤标志物才被证实在临床实践中有用，但在常规癌症筛查中是不可靠的。

对于单一肿瘤标志物的现有技术，一个巨大的进步是使用了利用微阵列技术的多基因表达水平。

例如WO 2004111197A2，公开了用于获得气道上皮细胞RNA的侵袭性最小的样品获取方法，可通过表达谱(例如通过基于阵列的基因表达谱)来对所述RNA进行分析。这些方法可用于鉴定诊断肺病如肺癌的基因表达模式，从而识别有发展肺病的风险的受试者和定制开发用于诊断或预测肺病或肺病易感性的阵列，例如微阵列。出于这一目的，还公开了阵列和有信息的基因。

这种多基因方法比上述单一参数要可靠得多，但受限于复杂的数学和生物信息学程序。尽管如此，这些基因表达标记是有前途的癌症诊断工具，但有时也具有不确定的限制，这些限制由于其内在统计学和受到一种核酸的限制有时也会导致不可靠的结果和确认问题。

发明内容

从上述现有技术出发，本发明的问题是提供一种生物标志物在诊断工具中的应用，上述诊断工具对于早期诊断以确定患病受试者具有最高可能的灵敏度和特异性，上述诊断工具用于患者预选和分组和用于治疗控制是诊断开发中的主要目标，并且还是各种复杂疾病特别是癌症的紧急需要。

上述问题通过如权利要求1所述的方法和如权利要求18所述的试剂盒得以解决。

特别是，本发明提供了在哺乳动物受试者的至少一个组织的至少一个生物样品中的复杂疾病或其亚型的体外诊断方法，所述复杂疾病或其亚型选自：

癌症，特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌；缺血，特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病；脱髓鞘性病，特别是白质病、脑室周围脑白质病、多发性硬化症；

所述方法包括以下步骤：

a)选择至少2个不同种类的生物分子，其中所述种类的生物分子选自：RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物；

b)利用至少2组不同种类的生物分子测定所述样品中的每一种类的多种生物分子的选自是否存在(阳性或阴性)、定性和/或定量分子模式和/或分子标记、水平、量、浓度和表达水平的至少一种参数，并将所获得的值的组作为原始数据存储于数据库中；

c)对所述原始数据进行数学预处理从而减少步骤b)中所用测定程序固有的技术误差；

d)从逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、感知器、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、贝叶斯网络、隐马模型、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、模糊分类器、袋翻、增压、和

Bayes中选择至少一种适合的分类算法；并将所述选择的分类器算法用于步骤c)的所述预处理的数据；

e)将步骤d)的所述分类器算法对至少一个训练数据组进行训练，所述至少一个训练数据组包含来自根据其病理生理、生理、预测、或响应者情况分类的受试者的预处理数据，从而选择一个分类器功能从而将所述预处理数据映射至所述情况；

f)将步骤e)的所述经训练的分类器算法应用于病理生理、生理、预测、或响应者情况未知的受试者的预处理数据组，并使用所述经训练的分类器算法预测所述数据组的类别标签从而诊断所述受试者的病况。

从属权利要求2～18是本发明的优选实施方式。

本发明提供了上述问题的解决方案，并一般性涉及应用“组学”数据(包括但不限于mRNA表达数据、微小RNA表达数据、蛋白质组学数据、和代谢组学数据)，统计学习和机器学习分别用于识别分子标记和生物标志物。其包括经由已知方法测定上述生物分子的浓度，已知方法例如聚合酶链式反应(PCR)、微阵列和其他方法如测序以测定RNA浓度、通过质谱(MS)、特别是MS-技术如MALDI、ESI、大气压化学电离(APCI)和其他方法对蛋白识别和定量，利用MS-技术或替代性方法测定代谢物浓度，后续特征选择和将这些特征与包括至少两个分子水平的分子数据(即，至少2个不同类型内源生物分子，如RNA浓度加代谢组学数据，分别为代谢物浓度或RNA浓度加蛋白质或肽的浓度等)分类器组合并且通过统计方法和数据分类法提取最佳组成标志物组。

从而测定不同分子水平(RNA分子、肽/蛋白质、代谢物等)的各标志物的浓度，并将数据加工至分类器，所述分类器指示与限于一种生物分子的方法和标志物相比以优异的灵敏度和特异性指示疾病状态。

描述了选择和组合生物分子的生物标志物和分子标记的方法，特别是利用生物分子类型mRNA、微小RNA、蛋白质、或肽、小内源化合物(代谢物)中的一种或多种个体分子组合(组合至少两种上述类型的生物分子)由体液或组织获得的生物分子，利用统计方法和来自这些分子组的数据的分类器进行鉴定，以用于诊断和早期诊断，从而将患者分类、选择治疗、治疗监测和治疗诊断复杂疾病。

背景技术-现有技术

系统生物学方法利用各种组学方法如基因组学、蛋白质组学和代谢物组学，其正越来越多地应用于复杂疾病的研究和诊断。这些技术可以提供数据和生物学指示物，所谓的(预测、预计和药代动力学)生物标志物以及潜力从而使诊断的临床实践发生变革。

对于早期癌检测，通常使用单一生物标志物。然而，例如广泛使用的癌抗原125(CA125)仅能检测50％-60％的患有I期卵巢癌的患者。类似的是，单一使用用于早期前列腺癌识别的前列腺特异性抗原(PSA)值的特异性不足以减少假阳性的数量[Petricoin EF 3rd，Ornstein DK，Paweletz CP，Ardekani A，Hackett PS，Hitt BA，Velassco A，Trucco C，Wiegand L，WoodK，Simone CB，Levine PJ，Linehan WM，Emmert-Buck MR，Steinberg SM，Kohn EC，Liotta LA，Serum proteomic patterns for detection of prostatecaner，J Natl Cancer Inst.2002；94(20)：1576-8.]，并且表明利用单一生物标志物对复杂疾病很难表征或诊断和评价治疗效果。

诊断工具例如癌症诊断工具的最近进展通常包括利用同类生物分子的多种生物标志物的多成分测试，所述同类生物分子例如有多种蛋白质、RNA或微小RNA种类，并且多维度数据分析给出对异常信号传导和网络作用的更深入认识，这有潜力识别此前未被发现的标志物候选物。然而，现有技术方法将单一生物分子或单一种类的生物分子的组用于生物标志物组，例如多种RNA、微小RNA或蛋白分子。见Garzon R，Volinia S，Liu CG，Fernandez-Cymering C，Palumbo T，Pichiorri F，Fabbri M，Coombes K，Alder H，Nakamura T，Flomenberg N，Marcucci G，Calin GA，KornblauSM，Kantarjian H，Bloomfield CD，Andreeff M，Croce CM，MicroRNAsignatures associated with cytogenetics and prognosis in acute myeloidleukemia，Blood.2008；111(6)：3183-9 and Ramaswamy S，Tamayo P，RifkinR，Mukherjee S，Yeang CH，Angelo M，Ladd C，Reich M，Latulippe E，Mesirov JP，Poggio T，Gerald W，Loda M，Lander ES，Golub TR.，Multiclass cancer diagnosis using tumor gene expression signatures.ProcNatl Acad Sci USA.2001；98(26)：15149-54。对于癌症中的miRNA，请见WO2008055158。

另外，Oncotype DX是最近的多成分RNA类测试的实例，如同多基因活性测试，可预测他莫昔芬治疗的结节阴性乳腺癌的复发，公开于PaikS，Shak S，Tang G，Kim C，Baker J，Cronin M，Baehner FL，Walker MG，Watson D，Park T，Hiller W，Fisher ER，Wickerham DL，Bryant J，Wolmark N，Engl J Med.2004；351(27)：2817-26。

Habel LA，Shak S，Jacobs MK，Capra A，Alexander C，Pho M，Baker J，Walker M，Watson D，Hackett J，Blick NT，Greenberg D，Fehrenbacher L，Langholz B，Quesenberry CP在Breast Cancer Res.2006；8(3)：R25描述了对肿瘤基因表达的人群研究和淋巴结阴性患者中的乳腺癌死亡风险。

其他最近实例包括乳腺癌基因表达标记—市售用于临床使用)，MammaPrint(Agendia)。

此外，Glas AM，Floore A，Delahaye LJ，Witteveen AT，Pover RC，BakxN，Lahti-Domenici JS，Bruinsma TJ，Warmoes MO，Bernards R，WesselsLF，Van′t Veer LJ.在BMC Genomics.2006；7：278公开了将乳腺癌微阵列标记转为高通量诊断测试的方法。

另一种已知方法作为所谓的H/l测试(AviaraDx)公开，由Nicholas CTurner和Alison L Jones开发，见BMJ.2008 July 19；337(7662)：164-169，该文评估了原发乳腺癌摘除后复发的可能性。

虽然这些产品和原型证明了具体诊断领域的显著进步，但还迫切需要对多种复杂疾病具有高灵敏度和特异性的可靠的早期诊断，所述复杂疾病例如有但不限于：

癌症，特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌；缺血，特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病；脱髓鞘性病，特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森病。这些诊断工具和生物标志物还用于选择患者中的响应者，以评估疾病的复发、选择治疗方式、效率、耐药性和毒性。

发明提供了产生具有优异灵敏度和特异性的诊断复杂疾病的新型诊断工具的原理和方法以解决这些问题。

将各种“组学”数据整合以例如识别由变化的RNA转录物的蛋白浓度的可能变化，是系统生物学和本领域技术人员多年来熟悉的问题。

即便如此，基于统计学应用此处所述各种分类方法，独立于数据整合和对组合诊断标记(组合多种生物分子)的生物化学解读，来自不同类生物分子的生物标志物组的统计学组合对本领域人员也是非显而易见的和未知的，也未在文献中有记载。其明显不同于利用整合多维分析和组合例如基因组学、表观遗传组学和转录组学的方法(见SIGMA2：A system for theintegrative genomic multi-dimensional analysis of cancer genomes，epigenomes，and transcriptomes，Raj Chari等BMC Bioinformatics 2008，9：422)，其试图通过各种方法分析不同组学数据之间的生物学关系。

基本上，本发明的方法在统计学基础上组合了统计学显著的至少两种不同种类生物分子的生物分子参数，完全与任何种类、环节或明显生物学理论的已知或未知的生物学关系无关，从而提供了多种生物分子组成的组合生物标志物。本发明的患者情况表明，在测定分子集合中的最佳描述细胞、组织、器官或生物体的不同状态的至少两种上述生物分子类型和至少两种的这些组合的生物分子组成的诊断方法和疾病状态特异性分类器优于分子或标志物的组合和其描绘的分子标记。其还优于仅一种生物分子的生物分子的分类器，并且如本文所证明在诊断应用中产生了更高的灵敏度和特异性。就此而言，本发明超越了现有技术，并与目前现有技术方法相比，提供了产生具有更高灵敏度和特异性和更低错误发现率的诊断分子标记的方法。所述方法可用于诊断各种复杂和完全无关的复杂疾病，例如癌症和缺血，并且具有一般性诊断用途。

具体实施方式

定义

本文中使用的术语“基因表达”是指通过基因的“转录”(即，经由RNA聚合酶的酶学作用)将基因中编码的遗传信息转化为核糖核酸RNA(例如，mRNA、rRNA、tRNA、或snRNA)和对于蛋白质编码基因通过mRNA的“翻译”转化为蛋白的过程。可以在该过程中多个阶段调节基因表达。“上调”或“激活”是指增加基因表达产物(即RNA或蛋白质)的产生的调节，而“下调”或“抑制”是指降低产生的调节。

多核苷酸：具有多于2个碱基的核酸聚合物。

“肽”是由α-氨基酸以确定顺序连接形成的短杂聚物。一个氨基酸残基与下一个之间的连接已知是酰胺键或肽键。

蛋白质是是多肽分子(或由多个多肽亚基构成)。区别在于肽较短，而多肽/蛋白质较长。有多种不同的规定来确定这些，所有这些规定均有防止误解的说明和细微差别。

在本发明的范围内，“复杂疾病”是属于以下组但不限于以下组的疾病：癌症，特别是，急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌；短暂性脑缺血发作(TIA)、缺血，特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病；脱髓鞘性病，特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森病。

代谢物：本文中所用术语“代谢物”表示细胞、生物体、组织的或存在于体液或获自上述来源的提取物中的分子量通常小于1500道尔顿的内源性有机化合物。代谢物的典型实例是糖、脂类、磷脂、鞘脂和鞘磷脂、氨基酸、胆固醇、类固醇激素和氧化固醇以及其他化合物例如人类代谢物数据库(http://www.hmdb.ca/)和其他数据库和文献中收集的化合物。这包括通过代谢作用或通过代谢过程产生的任何物质和代谢作用中涉及的任何物质。

本发明范围内理解的“代谢组学”为通过但不限于下述方法对多种(2千)代谢物的全面定量测量：例如质谱，质谱与液相色谱、气相色谱和其他分离方法色谱的偶联。

“寡核苷酸阵列”或“寡核苷酸芯片”或“基因芯片”：涉及“微阵列”，也称“芯片”、“生物芯片”、或“生物学芯片”，是具有适合的密度的离散区域的区域阵列，例如为至少100/cm²，优选至少约1000/cm²。微阵列中区域的尺寸例如直径优选为约10-250μm的范围，并与阵列中其他区域以等距离间隔。常用形式包括Agilent、Affymetrix、Illumina的产品，以及其中通过分配器或手动方法将寡核苷酸和cDNA沉积在固体表面的点制造阵列。

本领域技术人员清楚，可以通过各种方法对核酸、蛋白质和肽以及代谢物进行定量，所述方法包括上述阵列系统，以及但不限于：定量测序、定量聚合酶链式反应和定量逆转录聚合酶链式反应(qPCR和RT-PCR)、免疫测定、利用抗体的蛋白质阵列、质谱。

“微小RNA”(miRNA)是19至25个核苷酸的小RNA，是基因表达的负调节物。为确定miRNA是否与急性髓细胞白血病(AML)的细胞发生异常和临床特征有关，利用微阵列平台评估了CD34(+)细胞和122例未经治疗的成人AML病例的miRNA表达。

在此上下文中不同种类或类型或类别的生物分子理解为：RNA、微小RNA、蛋白质和各种长度的肽以及代谢物。

本文中生物标志物是包含至少2个不同种类(RNA、微小RNA、蛋白质和肽、代谢物)的至少2种生物分子的数据的特征，所述特征经测量和评估作为生物过程、病理过程、或对治疗干预的响应的指征。本文所用的组合生物标志物可以选自下述种类的生物分子中的至少2种：正义和反义核酸、信使RNA、小RNA即siRNA和微小RNA、多肽、包括抗体的蛋白质、小内源分子和代谢物。

数据分类是为了最有效和高效利用数据而进行的数据归类。分类器通常确定的功能是将生物测量的多维向量映射至二元(或n元)输出变量，所述输出变量编码临床相关种类、表型、特殊生理状态或特殊疾病状态的有或无。为了实现这一目标，可以使用各种分类方法，例如但不限于逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、感知器、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、贝叶斯网络、隐马模型、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、模糊分类器、袋翻、增压、和

Bayes器以及更多方法。

术语“结合的”、“将结合”、“结合”、“已结合的”或其任意衍生词是指两个或更多个分子间的任何稳定的而非瞬时的化学键，包括但不限于共价键合、离子键合、和氢键键合。因此，除了两个或更多个分子间的其他类型化学键合之外，该术语还包括2个核酸分子之间的杂交。

说明

在本发明的方法中，通过2种不同种类生物分子中的至少2种不同类型生物分子的组合而获得的生物标志物数据和分类器提供了对生理状态的描述并可用作诊断复杂疾病的极好工具，其中所述生物分子的种类选自根据本发明确认的RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物。

对来自健康样本的病理样品或组织的辨别需要根据下表1中示出的方法组合至少2种不同类型的生物分子的数据、测定其浓度和统计学处理以及分类器产生。

如上所述，通过分类方式在生物标志物中组合的分子之间的生物学联系与输出和问题选择完全无关，不必用生物学模型解释。

本发明方法基本包括以下步骤：

第一，获得从受试者或生物体获得的生物样品。

第二，从所述生物样品测定以下类型(RNA、微小RNA、肽或蛋白质、代谢物)的生物分子的量，并作为原始数据储存于数据库中。

第三，对所述数据库的原始数据进行预处理。

第四，将在样品中检测的RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽或蛋白质、代谢物的量与正常细胞或组织中测定的相应生物分子的标准量或数据库中储存的相应生物分子的参考量进行比较。如果样品中感兴趣的生物分子的量不同于标准或对照样品中测定的生物分子的量，则将差异浓度数据进行处理并用于下述的步骤5分类器生成。

在步骤6中验证分类器并在步骤7中使用：根据本发明，分类器利用上述类型中至少2组生物分子的数据，并提供值或分。所述分分配给具有计算概率的血浆、组织或器官的改变的生理状态，并可指示疾病状态、干预(例如治疗、外科手术或药物治疗带来的治疗干预)产生的状态或具有一定概率的中毒状态。所述分可用作诊断工具以指示受试者或生物体被诊断患有疾病，指示患有癌症的中毒。

可以用所述分和该分的时间依赖的变化评估治疗的成功或施用于受试者或生物体的药物的成功或评估受试者或生物体对治疗的个体响应或得出生理状态或疾病的未来过程的预后和结果。预后与具有正常水平或分的平均值的未患有疾病或中毒的受试者或至少2种生物分子组成的分类器相关。

表1

表1：所提出的方法的示意图。具体细节见文字部分。

对于mRNA和微小RNA数据，数据的预处理通常由背景校正和标准化组成。技术人员知晓多种适宜的已知背景校正和标准化策略；对于Affymetrix数据的比较测量分别见L.M.Cope等，A Benchmark forAffymetrix GeneChip Expression Measures，Bioinformatics 2004，20(3)，323-331或R.A.Irizarry等，Comparison of Affymetrix GeneChipExpression Measures，Bioinformatics 2006，22(7)，789-794。

根据手头的数据，其还可以由一些方差稳定变换或至标准的变换例如采用算法或利用Box-Cox幂变换组成[Box，G.E.P.和Cox，D.R.Ananalysis of transformations(with discussion).Journal of the RoyalStatistical Society B 1964，26，211-252]。

通常还可以使用通过例如标准偏差或中位值绝对偏差(MAD)进行的缩放来变换原始数据。然而，此步骤不是所有类型数据所必需的，对应地也不是所有类型的进一步统计分析必需的，因此可以省略。

特征(变量，测定)选择步骤可能也是可选的。然而，如果特征数量大于样品数量，则推荐此步骤。特征选择方法试图发现具有最高分辨力的特征亚组。

由于mRNA和微小RNA数据的高维度，大多分类算法不能直接应用。一个原因是所谓的维度灾难：随着维度的增加，各范例之间的距离同化。噪声和无关特征进一步促进该效应，使得分类算法难以建立判定边界。分类算法不适用于全维度空间的进一步原因是性能极限。最终，在分类之前应用特征变换技术，例如见[J.S.Yu等，Ovarian cancer identification basedon dimensionality reduction for high-throughput mass spectrometry data，Bioinformatics，21(10)：2200-2209，2005]。此外，还由于识别未知标志物候选物的任务，传统方法的使用由于数据的高维度而受到限制。

以最高可能的灵敏度和特异性识别患病受试者是诊断开发的主要目标。对于这一目标，可选择使用例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、和

Bayes等多种分类算法来开发新标志物候选物。这些算法可经含有根据类别(例如健康和患病)标记的例子的至少一个训练数据组训练，然后以含有未用于训练的新例子的至少一个测试数据组进行测试。在训练-测试步骤中，可以使用一轮或多轮交叉验证、自助或一些分离样品法(split-sample approach)来评估预测模型在实践中能进行到什么样的准确程度。最后，将使用分类器来预测新的未标记的例子的类别标签[T.M.Mitchell.Machine Learning.McGraw-Hill，1997]。

分类器通常确定的功能是将生物测量的多维向量映射至二元(或n元)输出变量，所述输出变量编码临床相关种类、表型或特殊疾病状态的有或无。建立分类器或使分类器学习的过程包括两个步骤：(1)选择可以逼近系统响应的家族函数，和使用观察的有限样品(训练数据)来通过使任何给定点的系统响应和函数预测之间的差异或预计损失最小化从所述家族函数中选择最逼近系统响应的函数。

根据所选的特征选择策略，可以在特征选择之前或之后进行不同数据(临床数据、mRNA、微小RNA、代谢物、蛋白质)的组合。然后将组合数据用作输入以训练和验证分类器。然而，还可以分别对不同数据训练多种不同分类器，然后将所述分类器组合用于预测标记。由于数据类型在定性/分类至定量/数值方面可能非常不同，并非所有分类器可用于所述多级数据；例如，一些分类器只接受定量数据。因此，需要根据数据类型选择用于分类的具有合适域的函数种类。

已提出了多种分类的特征选择策略，以全面研究，例如见[M.A.Hall和G.Holmes，Benchmarking Attribute Selection Techniques for DiscreteClass data Mining.IEEE Transactions on Knowledge and DataEngineering，15(6)：1437-1447，2003.]。在常用表征之后，过滤器和包装器方法之间有所区别。

过滤器方法利用评估标准来判断特征的辨别能力。在过滤器方法中，可以进一步区分求秩器和特征亚组评估法。求秩器不考虑各特征对分类的用途而对其进行评估。结果，将秩列表返回用户。求秩器非常有效，但忽略了特征之间的相互作用和关联。特征亚组评估法判断特征的亚集的有用性。特征之间的相互作用的信息主要被储存，但检索空间扩展至O(2<d>)的尺寸。对于高维度数据，由于性能极限而只能应用极简单有效的检索策略，例如前进选择算法。

包装器属性选择法利用分类器来评估属性亚集。交叉验证用于评估分类器对新的未分类目标的准确性。对于所检查的各属性亚集，确定分类准确性。对分类器的特殊特征进行适应性改变后，在大多数情况下，包装器方法识别属性亚集的分类准确性高于过滤器方法，见Pochet，N.，De Smet，F.，Suykens，J.A.，和De Moor，B.L.，Systematic benchmarking ofmicroarray data classification：assessing the role of non-linearity anddimensionality reduction.Bioinformatics，20(17)：3185-95(2004)。作为属性亚集评估方法，包装器方法可以通过任意检索策略使用。在所有特征选择方法中，包装器由于对于所检查的各特征亚组使用了学习算法而是计算最多的方法。

本发明的优选实施方式是下述方法，其中所述复杂疾病是AML，所述哺乳动物受试者是人，所述生物样品血液和/或血液细胞和/或骨髓；

其中所述不同种类的生物分子是微小RNA和蛋白质，特别是非成熟造血干细胞的表面蛋白，优选CD34；

其中微小RNA表达水平和CD34存在用作步骤b)的所述参数；

其中微小RNA表达的原始数据利用方差稳定标准化和将标准化多探针信号(技术平行测定)用中位数求和为单一表达值而进行预处理；

其中将求秩器，特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Mann-Whitney显著性测试用于所述特征选择；

其中将逻辑回归选择作为适合的分类算法，包括预处理的和过滤的微小RNA表达数据和CD34信息(阳性或阴性)的分类算法的训练通过n倍交叉验证进行，所述n倍交叉验证特别是5至10倍、优选5倍交叉验证；

将对所述预处理的微小RNA表达数据组和CD34信息训练的所述逻辑回归分类器用于疑似患有AML的受试者，并将经训练的分类器用于诊断具体AML类型。

本发明的另一优选实施方式是下述方法，其中所述复杂疾病是结肠癌，所述哺乳动物受试者是人，所述生物样品是结肠组织；

其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA对应物；

其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数；

其中微小RNA表达的原始数据利用方差稳定标准化进行预处理；

其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理；

其中将随机森林选择作为适合的分类算法，包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(leave-one-out)(LOO)交叉验证进行；

将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有结肠癌的受试者，并将经训练的分类器用于诊断结肠癌和/或其亚型。

本发明的另一优选实施方式是下述方法，其中所述复杂疾病是肾癌，所述哺乳动物受试者是人，所述生物样品是肾组织；

其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数；

其中将求秩器，特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大平均数的Welch t-测试(显著性测试)用于所述特征选择；

其中将单隐层神经网络选择作为适合的分类算法，包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行；

将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有肾癌的受试者，并将经训练的分类器用于诊断肾癌和/或其亚型。

本发明的另一优选实施方式是下述方法，其中所述复杂疾病是前列腺癌，所述哺乳动物受试者是人，所述生物样品是尿路和/或前列腺组织；

其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数；

其中将求秩器，特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大中位数的Mann-Whitney显著性测试用于所述特征选择；

其中将线性判别分析选择作为适合的分类算法，包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行；

将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有前列腺癌的受试者，并将经训练的分类器用于诊断前列腺癌和/或其亚型。

本发明的另一优选实施方式是下述方法，其中所述复杂疾病是短暂性脑缺血发作(TIA)和/或缺血和/或缺氧，所述哺乳动物受试者是人，所述生物样品是血液和/或血液细胞和/或脑脊液和/或脑组织；

其中所述不同种类的生物分子是mRNA和/或其DNA对应物和脑代谢物，特别是游离的前列腺素、脂加氧酶来源脂肪酸代谢物、谷氨酰胺、谷氨酸、白氨基酸(leucin)、丙氨酸、丝氨酸、二十二碳六烯酸(DHA)、12(S)-羟基二十碳四烯酸(12S-HETE)；

其中mRNA表达水平和定量和/或定性分子代谢物模式(代谢组学数据)用作步骤b)的所述参数；

其中mRNA表达的原始数据利用肌动蛋白-β作为参照基因进行预处理，所述脑代谢物的代谢组学数据通过经由2进制对数(即以2为底)的方差稳定变换进行预处理；

其中求秩器，特别是作为代谢组学数据的过滤器的结合配对差异的最大平均数的Welch t-测试(显著性测试)用于所述特征选择；

其中将支持向量机选择作为适合的分类算法，包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行；

将对所述预处理的mRNA表达数据和所述代谢组学数据组训练的所述支持向量机分类器用于疑似患有缺血和/或缺氧的受试者，并将经训练的分类器用于诊断缺血和/或缺氧和/或其分级。

实施例

实施例1：利用微小RNA和蛋白质数据的方法

作为第一实施例，使用了Garzon R，Garofalo M，Martelli MP，Briesewitz R，Wang L，Fernandez-Cymering C，Volinia S，Liu CG，Schnittger S，Haferlach T，Liso A，Diverio D，Mancini M，Meloni G，Foa R，Martelli MF，Mecucci C，Croce CM，Falini B Distinctive microRNAsignature of acute myeloid leukemia bearing cytoplasmic mutatednucleophosmin.PNAS 2008，105(10)：3945-50的微小RNA和临床数据。

这些数据可在ArrayExpress在线数据库http://www.ebi.ac.uk/arrayexpress中以登录号E-TABM-429获得。总体而言，可获得特征为NPM1和FLT3突变的亚细胞定位/突变状态的85名成年初始AML患者的微小RNA数据。使用OSU-CCC人&小鼠微小RNA11K v2 Microarray Shared Resource，Comprehensive Cancer Center，TheOhio State University(OSU-CCC)完成杂交。

携带NPM1突变和细胞质核磷蛋白(NPMc+AML)的急性髓细胞白血病(AML)约占成人AML的三分之一，并显示出包括独特基因表达模式在内的特殊特征。作者利用微小RNA表达值来区分NPMc+突变(n＝55)与细胞质-阴性(NPMc-，即，NPM1未突变)病案(n＝30)。

分析：

为了开发和验证基于这些数据的分类器，采用了逻辑回归结合5-倍交叉验证，其中在各交叉验证步骤中重复各分析步骤-包括低级分析。并且，将5-倍交叉验证重复了20次。这是一种可能性。当然，还使用了等分样品、自助或不同的k-倍(k不等于5)交叉验证法。并且，可以使用不同类别的分类函数，例如(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、

Bayes等多种分类算法。

低级分析由Huber等(2002)的方差稳定变换[Huber W，vonHeydebreck A，Sueltmann H，Poustka A，Vingron M.Variance StabilizationApplied to Microarray data Calibration and to the Quantification ofDifferential Expression.Bioinformatics 2002，18：96-104](通常称为标准化)和使用中位数的标准化重复值的平均化组成。同样存在大量可用的替代性方法。L.M.Cope等，Bioinformatics 2004，20(3)，323-331或R.A.Irizarry等，Bioinformatics 2006，22(7)，789-794给出了若干实例。在各交叉验证步骤中，选择5个标准化和平均的分类用微小RNA探针，所述探针具有在Mann-Whitney测试中那些p值小于或等于0.01的微小RNA探针之外的最大配对差异的中位数(绝对值)。即，使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略，[M.A.Hall和G.Holmes.IEEETransactions on Knowledge and Data Engineering，15(6)：1437-1447，2003.]给出了一些实例。整体而言，由于5-倍交叉验证的20次重复，对微小RNA探针可以选择达100次。获得了表2所示的预计误差。

表2

分类器vs.真值	NPMc-	NPMc+
			NPMc-	57.0％	7.6％
NPMc+	43.0％	92.4％

表2：经5-倍交叉验证的微小RNA数据、分类误差

利用5-倍交叉验证的预计整体准确性为79.9％。在第二步骤中，现在仅使用其中附加有关CD34信息(即，CD34阴性或CD34阳性)的微小RNA阵列；选择这些样品54个NPMc+，并剩余29个NPMC-样品。仅将CD34用于分类，获得了表3所示结果，其对应于85.5％的整体准确率。

表3

分类器vs.真值	NPMc-	NPMc+
			NPMc-	75.9％	9.3％
NPMc+	24.1％	90.7％

表3：CD34数据、分类误差

现在，如果将最前面的5个微小RNA探针的信息与CD34信息组合，将获得表4所示结果。即，利用交叉验证的预计整体准确率为88.1％。因此，该组合使整体准确率由79.9％、85.5％提高到88.1％。

表4

分类器vs.真值	NPMc-	NPMc+
			NPMc-	80.7％	8.0％
NPMc+	19.3％	92.0％

表4：经5-倍交叉验证的组合微小RNA和CD34，分类误差

表5中给出了交叉验证中选择的探针。

表5

表5：5-倍交叉选择过程中选择的微小RNA探针

表6给出了已知人类微小RNA的桑格尔序列研究的结果(根据Griffiths-Jones S，Saini HK，van Dongen S，Enright AJ.miRBase：tools formicroRNA genomics，NAR 2008 36(Database lssue)：D154-D158)。

表6

表6：对于5-倍交叉选择过程中选择的微小RNA探针的已知人微小RNA的桑格尔序列研究的结果

实施例2.1.：mRNA和微小RNA：结肠癌

使用Ramaswamy等(2001)[Ramaswamy S1 Tamayo P，Rifkin R，Mukherjee S，Yeang CH，Angelo M，Ladd C，Reich M，Latulippe E，Mesirov JP，Poggio T，Gerald W，Loda M，Lander ES，Golub TR.Multiclass cancer diagnosis using tumor gene expression signatures.ProcNatl Acad Sci USA.2001；98(26)：15149-54]和Lu等(2005)[Lu J，Getz G，Miska EA，Alvarez-Saavedra E，Lamb J，Peck D，Sweet-Cordero A1 EbertBL，Mak RH，Ferrando AA，Downing JR，Jacks T，Horvitz HR，Golub TR.MicroRNA expression profiles classify human cancers.Nature.2005；435(7043)：834-8]的结肠癌数据开发利用mRNA和微小RNA数据的多水平分类器。所述数据可在Broad Institute的主页[http://www.broad.mit.edu/publications/broad900和http://www.broad.mit.edu/publications/broad993s]获得。

整体来说，可获得四种正常组织和七种肿瘤组织的mRNA和微小RNA数据。通过含有微小RNA探针的基于珠子的阵列以及通过用于测定mRNA的Affymetrix HU6800和HU35KsubA阵列进行杂交。仅使用了HU6800阵列的mRNA数据。

分析：

为了开发和验证基于这些数据的分类器，使用随机森林[Breiman，L.Random Forests，Machine Learning 2001，45(1)，5-32]结合继以留一法(LOO)交叉验证，其中在各交叉验证步骤中重复各分析步骤-包括低级分析。这是一种可能性。当然，还使用了等分样品、自助或不同的k-倍(k不等于1)交叉验证法。并且，可以使用不同类别的分类函数，例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、Bayes等多种分类算法。

对于微小RNA以及mRNA数据，预处理(也称低级分析)由Huber等(2002)的方差稳定变换(常称为标准化)构成。同样存在大量可用的替代性方法。Cope等(2004)或Irizarry等(2006)给出了若干实例。在各交叉验证步骤中，选择6个标准化微小RNA探针，分别为在Mann-Whitney测试中那些p值小于或等于0.1的探针之外的具有最大配对差异(绝对值)的中位数的用于分类的6个标准化mRNA探针。即，使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略，[M.A.Hall和G.Holmes.IEEETransactions on Knowledge and Data Engineering，15(6)：1437-1447，2003.]中给出了一些实例。整体而言，由于LOO交叉验证，对微小RNA，各自mRNA探针可进行达11次选择。

仅使用微小RNA数据，获得了表7中所示的预计误差。

表7

分类器vs.真值	结肠癌	正常
			结肠癌	85.7％	0.0％
正常	14.3％	100.0％

表7：经继以留一法交叉的微小RNA数据、分类误差

即，观察到85.7％的灵敏度和100.0％的特异性。阳性预测值等于100.0％，阴性预测值等于80％。利用LOO交叉验证的预计整体准确率为90.9％。在第二步骤中，使用HU6800阵列的mRNA数据。结果可从表8读出。利用LOO交叉验证再次获得了72.7％的预计整体准确率。预计灵敏度等于85.7％，预计特异性等于50％，预计阳性预测值等于75.0％，预计阴性预测值等于66.7％。

表8

分类器vs.真值	结肠癌	正常
			结肠癌	85.7％	50.0％
正常	14.3％	50.0％

表8：经继以留一法交叉选择的mRNA数据、分类误差

在最后的步骤中，组合了微小RNA和mRNA数据，并获得了表9所示结果。即，利用交叉验证的预计整体准确率为100.0％。因此，该组合将整体准确率由90.9％、72.7％提高到100.0％。同样，灵敏度、特异性、阳性预测值和阴性预测值提高到100％。

表9

分类器vs.真值	结肠癌	正常
			结肠癌	100.0％	0.0％
正常	0.0％	100.0％

表9：经继以留一法交叉验证的微小RNA和mRNA数据、分类误差

交叉验证过程中选择的微小RNA探针如表10所示。

表10

表10：继以留一法交叉验证过程中选择的微小RNA探针

表11给出了已知人类微小RNA的桑格尔序列研究的结果(见Griffiths-Jones S，Saini HK，van Dongen S，Enright AJ.miRBase：tools formicroRNA genomics，NAR 2008 36(Database lssue)：D154-D158)。

表11.

表11：对于5-倍交叉选择过程中选择的已知人微小RNA或微小RNA探针的桑格尔序列研究的结果

交叉验证过程中选择的mRNA探针如表12所示。探针序列获得自Bioconductor包hu6800probe[Bioconductor计划，www.bioconductor.org(2008).hu6800probe：Probe sequence data for microarray of type hu6800.R package version 2.2.0.]。

表12

错配(MM)探针通过改变中间氨基酸获得，更确切来说将A变为T，T变为A，G变为C并且C变为G。探针序列各具有25的长度，即各自替换了13个氨基酸。

表12：继以留一法交叉验证过程中选择的mRNA探针

所选mRNA探针的注释见表13。这些注释获得自Bioconductor包hu6800.db[Marc Carlson，Seth Falcon，Herve Pages和Nianhua Li(2008).hu6800.db：Affymetrix HuGeneFL Genome Array annotation data(chiphu6800).R package version 2.2.3.]结合通过PubMed[http://www.ncbi.nlm.nih.gov/pubmed/]获取的信息。

表13：LOO交叉验证过程中选择的mRNA探针的注释

实施例2.2：mRNA和微小RNA：肾癌

使用Ramaswamy等(2001)[Ramaswamy S，Tamayo P，Riflin R，Mukherjee S，Yeang CH，Angelo M，Ladd C，Reich M，Latulippe E，Mesirov JP，Poggio T，Gerald W，Loda M，Lander ES，Golub TR.Multiclass cancer diagnosis using tumor gene expression signatures.ProcNatl Acad Sci USA.2001；98(26)：15149-54]和Lu等(2005)[Lu J，Getz G，Miska EA，Alvarez-Saavedra E，Lamb J，Peck D，Sweet-Cordero A，EbertBL，Mak RH，Ferrando AA，Downing JR，Jacks T，Horvitz HR，Golub TR.MicroRNA expression profiles classify human cancers.Nature.2005；435(7043)：834-8]的肾癌数据开发利用mRNA和微小RNA数据的多水平分类器。所述数据可在Broad Institute的主页[见http://www.broad.mit.edu/publications/broad900和http://www.broad.mit.edu/publications/broad993s]获得。整体而言，可获得3种正常组织和4种肿瘤组织的mRNA和微小RNA数据。通过含有微小RNA探针的基于珠子的阵列以及通过用于测定mRNA的AffymetrixHU6800和HU35KsubA阵列进行杂交。仅使用了HU35KsubA阵列的mRNA数据。

分析：

为了开发和验证基于这些数据的分类器，使用单隐层神经网络[Ripley，B.D.(1996)Pattern Recognition and Neural Networks.Cambridge]结合继以留一法(LOO)交叉验证，其中在各交叉验证步骤中重复各分析步骤-包括低级分析。这是一种可能性。当然，还使用了等分样品、自助或不同的k-倍(k不等于1)交叉验证法。并且，可以使用不同类别的分类函数，例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、

Bayes等多种分类算法。

对于微小RNA以及mRNA数据，低级分析(预处理)由Huber等(2002)的方差稳定变换(常称为标准化)构成。同样存在大量可用的替代性方法。Cope等(2004)或Irizarry等(2006)给出了若干实例。在各交叉验证步骤中，选择6个标准化微小RNA探针，分别为在Welch t-测试中那些p值小于或等于0.1的探针之外的具有最大平均值差异(绝对值)的用于分类的6个标准化mRNA探针。即，使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略，Hall等(2003)给出了一些实例。整体而言，由于LOO交叉验证，对微小RNA，各自mRNA探针可进行达7次选择。

仅使用微小RNA数据，获得了表14中所示的预计误差。

表14

分类器vs.真值	肾癌	正常
			肾癌	50.0％	66.7％
正常	50.0％	33.3％

表14：经LOO交叉验证的微小RNA数据、分类误差

利用LOO交叉验证的预计整体准确率为42.9％，灵敏度为50％，特异性为33.3％，阳性预测值为50％并且阴性预测值为33.3％。在第二步骤中，使用HU35KsubA阵列的mRNA数据。结果可从表15读出。利用LOO交叉验证再次获得了42.9％的预计整体准确率。灵敏度、特异性、阳性预测值和阴性预测值的预计值分别为50％、33.3％、50％和33.3％。

表15

分类器vs.真值	肾癌	正常
			肾癌	50.0％	66.7％
正常	50.0％	33.3％

表15：经LOO交叉验证的mRNA数据、分类误差

在最后的步骤中，组合了微小RNA和mRNA数据，并获得了表16所示结果。即，利用交叉验证的预计整体准确率为71.4％。因此，该组合将整体准确率由42.9％提高到71.4％。灵敏度、特异性、阳性预测值和阴性预测值分别提高到75.0％、66.7％、75.0％和66.7％。

表16

分类器vs.真值	肾癌	正常
			肾癌	75.0％	33.3％
正常	25.0％	66.7％

表16：经LOO交叉验证的微小RNA和mRNA数据、分类误差

交叉验证过程中选择的微小RNA探针如表17所示。

表17

*一些探针重复出现

表17：LOO交叉验证过程中选择的微小RNA探针(第1列是SEQ-ID-No)

表18给出了根据Griffiths-Jones等2008的已知人类微小RNA的桑格尔序列研究的结果。

表18

表18：对于LOO交叉验证过程中选择的微小RNA探针的已知人类微小RNA的桑格尔序列研究的结果(第1列是SEQ-ID-No)

交叉验证过程中选择的mRNA探针如表19所示。探针序列获得自Bioconductor包hu35ksubaprobe(见Bioconductor计划，www.bioconductor.org(2008).hu35ksubaprobe：Probe sequence data formicoarray of type hu35ksuba.R package version 2.2.0.)。

表19

表19：LOO交叉验证过程中选择的mRNA探针

所选mRNA探针的注释见表20。这些注释获得自Bioconductor包hu35ksuba.db(Marc Carlson，Seth Falcon，Herve Pages和Nianhua Li(2008).hu35ksuba.db：Affymetrix Human Genome HU35K Set annotationdata(chip hu35ksuba).R package version 2.2.3.)结合通过PubMed[http://www.ncbi.nlm.nih.gov/pubmed/]获取的信息。

表20

表20：LOO交叉验证过程中选择的mRNA探针的注释(第1列是SEQ-ID-No)

实施例2.3：mRNA和微小RNA，前列腺癌

使用Ramaswamy等(2001)[Ramaswamy S，Tamayo P，Rifkin R，Mukherjee S，Yeang CH，Angeio M，Ladd C，Reich M，Latulippe E，Mesirov JP，Poggio T，Gerald W，Loda M，Lander ES，Golub TR.Multiclass cancer diagnosis using tumor gene expression signatures.ProcNatl Acad Sci USA.2001；98(26)：15149-54]和Lu等(2005)[Lu J，Getz G，Miska EA，Alvarez-Saavedra E，Lamb J，Peck D，Sweet-Cordero A，EbertBL，Mak RH，Ferrando AA，Downing JR，Jacks T，Horvitz HR，Golub TR.MicroRNA expression profiles classify human cancers.Nature.2005；435(7043)：834-8]的前列腺癌数据开发利用mRNA和微小RNA数据的多水平分类器。所述数据可在Broad Institute的主页[见http://www.broad.mit.edu/publications/broad900和http://www.broad.mit.edu/publications/broad993s]获得。整体而言，可获得6种正常组织和6种肿瘤组织的整体mRNA和微小RNA数据。通过含有微小RNA探针的基于珠子的阵列以及通过用于测定mRNA的Affymetrix HU6800和HU35KsubA阵列进行杂交。仅使用了HU6800阵列的mRNA数据。

分析：

为了开发和验证基于这些数据的分类器，使用线性判别分析结合继以留一法(LOO)交叉验证，其中在各交叉验证步骤中重复各分析步骤-包括低级分析。这是一种可能性。当然，还使用了等分样品、自助或不同的k-倍(k不等于1)交叉验证法。并且，可以使用不同类别的分类函数，例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、Bayes等多种分类算法。

对于微小RNA以及mRNA数据，低级分析由Huber等(2002)的方差稳定变换(常称为标准化)构成。同样存在大量可用的替代性方法。Cope等(2004)或Irizarry等(2006)给出了若干实例。在各交叉验证步骤中，选择2个标准化微小RNA探针，分别为在Mann-Whitney测试中那些p值小于或等于0.1的微小RNA探针之外的具有最大配对差异(绝对值)的中位数的用于分类的4个标准化mRNA探针。即，使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略，Hall等2003给出了一些实例。整体而言，由于LOO交叉验证，对微小RNA，各自mRNA探针可进行达12次选择。

仅使用微小RNA数据，获得了表21中所示的预计误差。

表21

分类器vs.真值	前列腺癌	正常
			前列腺癌	83.3％	0.0％
正常	16.7％	100.0％

表21：经LOO交叉验证的微小RNA数据、分类误差

利用LOO交叉验证的预计整体准确率为91.7％。灵敏度、特异性、阳性预测值和阴性预测值分别为83.3％、100％、100％和85.7％。在第二步骤中，使用HU6800阵列的mRNA数据。结果可从表22读出。利用LOO交叉验证再次获得了75.0％的预计整体准确率。灵敏度、特异性、阳性预测值和阴性预测值分别为83.3％、66.7％、71.4％和80.0％。

表22

分类器vs.真值	前列腺癌	正常
			前列腺癌	83.3％	33.3％
正常	16.7％	66.7％

表22：经LOO交叉验证的mRNA数据、分类误差

在最后的步骤中，组合了微小RNA和mRNA数据，并获得了表23所示结果。即，利用交叉验证的预计整体准确率为91.7％。灵敏度、特异性、阳性预测值和阴性预测值分别为100.0％、83.3％、85.7％和100.0％。因此，该组合将灵敏度(癌症样品的正确分类)由83.3％提高到100.0％，并且阴性预测值由85.7％、80.0％提高到100.0％。

表23

分类器vs.真值	前列腺癌	正常
			前列腺癌	100.0％	16.7％
正常	0.0％	83.3％

表23：经LOO交叉验证的微小RNA和mRNA数据、分类误差

交叉验证过程中选择的微小RNA探针如表24所示。

表24

表24：LOO交叉验证过程中选择的微小RNA探针(第1列是SEQ-ID-No)

表25给出了根据Griffiths-Jones等(2008)的已知人类微小RNA的桑格尔序列研究的结果。

表25

表25：对于LOO交叉验证过程中选择的微小RNA探针的已知人类微小RNA的桑格尔序列研究1的结果(第1列是SEQ-ID-No)

交叉验证过程中选择的mRNA探针如表26所示。探针序列获得自Bioconductor包hu6800probe[Bioconductor计划，www.bioconductor.org(2008).hu6800probe：Probe sequence data for microarrays of type hu6800.R package version 2.2.0]。

表26

表26：LOO交叉验证过程中选择的mRNA探针

所选mRNA探针的注释见表27。这些注释获得自Bioconductor包hu6800.db[Marc Carlson，Seth Falcon，Herve Pages和Nianhua Li(2008).hu6800.db：Affymetrix HuGeneFL Genome Array annotation data(chiphu6800).R package version 2.2.3.]结合通过PubMed[http://www.ncbi.nlm.nih.gov/pubmed/]获取的信息。

表27

表27：LOO交叉验证过程中选择的mRNA探针的注释(第1列是SEQ-ID-No)

实施例3：代谢物和mRNA：缺血/缺氧

缺血和缺氧

早期诊断将为及时干预和选择适当疗法赢得关键时间，从而防止致命的永久性脑损伤。

对于婴儿，发达国家中早产个体的百分率在过去几十年中有所增长，现在已达到所述活产的12％[Martin JA，Hamilton BE，Sutton PD等Births：final data for 2004.Natl Vital Stat Rep.2006；55：1-101；Martin JA，Hamilton BE，Sutton PD等.Births：final data for 2005.Natl Vital Stat Rep.2007；56：1-103].

然而，进展性脑损伤和后续的神经后遗症对于受累个体及其家庭仍然是重要个人负担，并造成了相当大的社会经济问题。

成人患者和早产婴儿中对人缺血/缺氧或中风状态或围产期脑病损状态的早期检测将使得能够应用成功的治疗方案并控制这些事件的后果。

利用由大鼠缺氧模型获得的缺血数据通过来自脑样品的代谢物数据和来自血浆的qPCR数据开发多级分类器。

动物模型

在出生后第7天(P7)制造根据Rice-Vanucci′s程序的HI脑损伤模型[Rice JE，III，Vannucci RC，Brierley JB.The influence of immaturity onhypoxic-ischemic brain damage in the rat.Ann Neurol.1981；9：131-141]。各性别的幼年Sprague-Dawley大鼠(获自Charles River，Wilmington，MA，U.S.A.)随机指定a)实验组和b)时间。对于手术，使动物通过吸入O2中3％异氟烷而麻醉，通过中线切割达到右颈动脉，并以双缝合和永久缝合制造外科手术结扎。该程序在室温(23-25℃)进行。关闭颈部伤口后，将幼鼠送回母鼠身边2小时。整个外科程序持续不到10分钟。随后将幼鼠暴露于8％氧气的缺氧环境下100分钟。按照实验动物使用的欧洲委员会准则，采取足够措施来使痛苦和不适最小化。该研究方案得到了奥地利动物实验委员会的批准。

假手术动物进行麻醉、颈部切开和血管操作但不结扎或或缺氧。保持对照动物不受任何伤害。动物在i)缺氧后立即(P7)、ii)24小时后(P8)、iii)5天后(P12)接受安乐死，收集脑，以PBS漂洗并立即在液氮中冷冻，储存于-70℃以备进一步制备。

样品制备

将脑样品在冰上融化1小时，并向组织样品中添加3∶1比例(w/v)的PBS-缓冲液(磷酸盐缓冲的盐水，0.1μmol/L；Sigma Aldrich，Vienna，Austria)，然后以Potter S匀化器(Sartorius，Goettingen，Germany)在冰上以9g匀化1分钟，从而制备匀浆。为了将所有样品在1批中进行分析，将样品再次冷冻(-70℃)，并在分析日于冰上融化(1小时)，在2℃以18000g离心5分钟。所有试管以0.001％BHT(丁基化的羟基甲苯；Sigma-Aldrich，Vienna，Austria)制备以防止自动氧化[Morrow，J.D.和L.J.Roberts.Massspectrometry of prostanoids：F2-isoprostanes produced bynon-cyclooxygenase free radical-catalyzed mechanism.Methods Enzymol.233(1994)：163-74]。

总共对获得自9只对照动物和7只缺血动物的样品的数据进行了处理。利用商业试剂盒(Marker IDQ^TM，Biocrates AG，Innsbruck，Austria)以及下述其他基于质谱的方法测定代谢物浓度。

通过新开发的在线固相提取液相色谱串联质谱法(在线SPE-LC-MS/MS)对所提取的样品进行分析。由对实验组为盲的合作者进行所有程序(样品处理、分析)。对于脑匀浆中的游离前列腺素和脂肪氧合酶衍生的脂肪酸代谢物的同时定量，使用Unterwurzacher等所述的用于脑组织的基于LC-MS/MS的方法[Unterwurzacher I，Koal T，Bonn GK等.Rapid sample preparation and simultaneous quantitation of prostaglandinsand lipoxygenase derived fatty acid metabolites by liquidchromatography-mass spectrometry from small sample volumes.ClinChem Lab Med.2008；46：1589-1597]。由于脑样品分析过程中观察到的基体效应，在色谱分离之前利用C18 Oasis HLB柱(2.1x 20mm，25μm粒径；Waters，Vienna，Austria)作为在线SPE柱实施在线固相提取(SPE)步骤。参考适合的内标并使用灵敏度和选择性最高的电喷射电离(ESI)多反应监测(MRM)MS/MS检测模式，实现了对提取的生物样品中代谢物的定量。根据“Guidance for Industry-Bioanalytical Method Validation”，(U.S.Department of Health and Human Services，Food and DrugAdministration，2001)对组织样品匀浆验证了所述方法。对于在线SPE-LC-MS/MS分析，注射了20μL的提取匀浆。

RNA提取和cDNA合成：

将新生RNU大鼠的2个分离的脑半球收集在1ml TRIzol试剂中(Invitrogen Life Technology，Austria)，在液氮中冷冻并存于-80℃以备进一步处理。根据制造商的说明书进行RNA提取。简单来说，利用微振荡器(micropistill)在冰上将脑半球在TRIzol中匀化。完全匀化后，通过氯仿提取步骤得到含有RNA的水相，之后进行通过异丙醇的沉淀。在以75％乙醇进行2个洗涤步骤之后，将快速空气干燥的RNA重悬在DEPC处理的水中，利用UV分光光度计(Ultrospec 3300 pro，Amersham，USA)测定RNA浓度，并将其储存在-80℃以备cDNA合成处理。

在逆转录(RT)之前，将1μg量的总RNA根据制造商的说明书以不含RNase的DNase I(Deoxyribonuclease I，Fermentas，Germany)进行处理，从而去除潜在的污染性DNA。DNase I处理后，利用RevertAid M-MuLV逆转录酶(Fermentas，Germany)对样品进行cDNA合成。各反应由5x RT-反应缓冲液、10mM三磷酸脱氧核糖核苷酸混合物(dNTP)、0,2μg/μl随机六聚体引物、RNase抑制剂和RevertAid M-MuLV-RT(均来自Fermentas，Germany)组成。将样品在25℃温育10分钟，然后42℃水浴60分钟。通过加热至70℃10分钟然后在冰上冷却，终止反应。将cDNA样品储存在-20℃，以备用于以BioRad iCycler iQ进行定量实时PCR。在用作定量实时PCR的模板之前，将cDNA样品1∶10预稀释。

定量实时PCR(q-RT-PCR)：

在覆盖有光学透明的粘性封贴(BioRad Laboratories，Austria)的96孔0.2ml薄壁PCR板中以25μl的总体积进行定量实时PCR。实时PCR反应混合物由1x iQ SYBR Green Supermix(BioRad Laboratories，Austria)、0,4μM的各基因特异性引物和5μl的预稀释cDNA组成。开始将混合物加热至95℃3分钟，以活化iTaq DNA聚合酶，然后为45个循环：95℃变性20秒和60℃退火45秒。扩增后，添加熔融曲线分析以确定PCR产物特异性。在无模板对照中未检测到信号。

利用iCycler iQ5Optical System Software Version 2.0(BioRadLaboratories，Austria)分析结果。手动设定基线，阈值由软件自动设定。

扩增曲线与阈值线的交叉点表示循环阈值(ct)。所有样品重复测定3次，将平均值用于进一步计算。

在优化过程中，将所有基因特异性引物对在梯度PCR中测定从而测定最佳退火温度，将PCR产物加样至含溴化乙锭的2％琼脂糖凝胶以确认扩增产物的特异性和引物二聚体没有形成。

所用的基因特异性引物对的序列如表28所示(第1列是SEQ-ID-No)。

表28

表28：经LOO交叉验证的代谢物数据、分类误差

qPCR和代谢组学数据的分析：

为了开发和验证基于这些数据的分类器，使用支持向量机[Schóllkopf，B.和Smola，A.(2001)Learning with Kernels：Support Vector Machines，Regularization，Optimization，and Beyond.MIT Press，Cambridge]组合继以留一法(LOO)交叉验证，其中在各交叉验证步骤中重复各分析步骤-包括低级分析。这是一种可能性。当然，还使用了等分样品、自助或不同的k-倍(k不等于1)交叉验证法。并且，可以使用不同类别的分类函数，例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、Bayes等多种分类算法。

对于代谢物数据，低级分析由通过2进制对数(即以2为底的对数)的方差稳定变换构成。在各交叉验证步骤中，选择具有在Welch t-测试中那些p值小于或等于0.1的探针之外的具有最大平均值差异(绝对值)的4个标准化代谢物。即，使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略，Hall等2003给出了一些实例。整体而言，由于LOO交叉验证，可以对代谢物进行达16次选择。仅使用代谢组学数据，获得了表29中所示的预计误差。

表29

分类器vs.真值	缺血	正常
			缺血	57.1％	33.3％
正常	42.9％	66.7％

表29：经LOO交叉验证的代谢物数据、分类误差

利用LOO交叉验证的预计整体准确率为62.5％，灵敏度为57.1％，特异性为66.7％，阳性预测值为57.1％并且阴性预测值为66.7％。在第二步骤中，使用对SDF1和VEGF获得的qPCR数据。通过参照基因肌动蛋白-β将PCR数据标准化。分类结果可从表30读出。利用LOO交叉验证再次获得了68.9％的预计整体准确率。灵敏度、特异性、阳性预测值和阴性预测值的预计值分别为57.1％、77.8％、66.7％和70.0％。

表30

分类器vs.真值	缺血	正常
			缺血	57.1％	22.2％
正常	42.9％	77.8％

表30：经LOO交叉验证的qPCR数据、分类误差

在最后的步骤中，组合了代谢物和qPCR数据，并获得了表31所示结果。即，利用交叉验证的预计整体准确率为75.0％。因此，该组合将整体准确率由62.5％、68.9％提高到75.0％。灵敏度、特异性、阳性预测值和阴性预测值分别为71.4％、77.8％、71.4％和77.8％。因此，除整体准确率之外，灵敏度以及阳性预测值和阴性预测值得到增强。

表31

分类器vs.真值	缺血	正常
			缺血	71.4％	22.2％
正常	18.6％	77.8％

表31：经LOO交叉验证的代谢物和qPCR数据、分类误差

交叉验证过程中选择的代谢物如表32所示。

表32

表32：LOO交叉验证过程中选择的代谢物

在表32中，总选择次数必须为64，其中每种个体代谢物可能最多选择16次。

表33

表33：经LOO交叉验证的代谢物数据、分类误差(第1列是SEQ-ID-No)

发明实施方式

在一个实施方式中，首先，获得需要诊断、或响应或存活预后的受试者的生物样品。第二，从生物样品中选择一定量的RNA、微小RNA、肽或蛋白质、代谢物，并进行测定。第三，在样品中检测该量的RNA、微小RNA、肽或蛋白质、代谢物，并与存在于正常细胞或非癌细胞或组织或血浆中的标准量的相应生物分子比较，或与存在于对照样品中的一定量的RNA、微小RNA、肽或蛋白质、代谢物比较。如果该样品中的RNA、微小RNA、肽或蛋白质、代谢物的量不同于标准或对照样品中的RNA、微小RNA、肽或蛋白质、代谢物的量，则对来自至少2组/种包括RNA、微小RNA、肽或蛋白质、代谢物的生物分子的如上(表1)所述的浓度数据的加工和分类和分类器产生以一定概率给出指示病态的值或评分，然后将该受试者诊断为患癌、预后是对癌症治疗的低预期响应、或预后是该受试者的低预计生存率。预后是相对于具有正常水平的RNA、微小RNA、肽或蛋白质、代谢物的患癌受试者，或相对于患有复杂疾病的患者的平均预期响应或生存率。清楚的是，这些复杂疾病状态还可以是由于中毒和药物滥用。

检测或诊断复杂疾病、预测预期响应、或预测预期生存率的方法的另一实施方式包括以下步骤。首先，从受试者获得含有RNA、微小RNA、肽或蛋白质、代谢物的生物样品。使该生物样品与能够结合RNA、微小RNA、肽或蛋白质、代谢物的试剂反应。试剂与微小RNA之间的反应形成可测定的RNA、微小RNA、肽或蛋白质、代谢物产物或复合物。测量该可测定的RNA、微小RNA、肽或蛋白质、代谢物产物或复合物，数据经处理以应用图1所述步骤从而提供评分，随后与标准或对照评分值比较。

上述实例表明，本发明的方法包括对来自一个个体的不同组织获得的上述类型生物分子的定量数据进行分析并产生分类器，并显示其有利于识别与复杂疾病有关的不同状态，这是由于来自受累生物体不同位点的数据有助于生物标志物/分类器描述。

本发明可实施于具有本发明意义上的患复杂疾病风险的任何哺乳动物受试者(包括人)。

可用于本发明的样品可以以技术人员已知的任何方式获得。样品最优可包含确信为癌的组织，例如外科手术摘取肿瘤的一部分，以及含癌细胞的血液。然而，本发明不仅限于确信由于复杂疾病而改变(关于生物分子如RNA、微小RNA、蛋白质、肽、代谢物的浓度)的组织。实际上，样品可来自受试者的包含至少一些组织或细胞的任何部分，所述组织或细胞确信受复杂疾病、特别是癌症的影响和/或暴露于或接触癌组织或细胞或接触分送体内某种生物分子的体液如血液。

定量RNA或微小RNA的方法的另一实施例如下：将RNA或微小RNA的至少一部分与荧光核酸杂交，并将经杂交的RNA或微小RNA与荧光试剂反应，其中经杂交的RNA或微小RNA发射荧光。对样品中RNA或微小RNA定量的另一种方法通过使RNA或微小RNA的至少一部分与放射性标记的互补核酸杂交。在测定步骤中使用能够与RNA或微小RNA杂交的核酸的情况下，对于微小RNA而言所述核酸为至少5个核苷酸、至少10个核苷酸、至少15个核苷酸、至少20个核苷酸、至少25个核苷酸、至少30个核苷酸或至少40个核苷酸；并且长度可以不超过25个核苷酸、不超过35个核苷酸、不超过50个核苷酸、不超过75个核苷酸、不超过100个核苷酸或不超过125个核苷酸。核酸可以是与所述微小RNA的任何互补序列具有至少80％同源性、85％同源性、90％同源性、95％同源性或100％同源性的任何核酸。适合的RNA参数，例如是与存在于正常细胞或非癌细胞中的标准量的RNA或微小RNA相比的RNA或微小RNA的量，或者与对照样品中的RNA或微小RNA量相比的RNA或微小RNA的量。可通过技术人员已知的任何方法完成比较。将样品中RNA或微小RNA的量与标准量相比的实例是将样品中的5S rRNA和RNA或微小RNA之间的比率与公开或已知的正常细胞或非癌细胞中5S rRNA和RNA或微小RNA之间的比率比较。将样品中的微小RNA的量与对照比较的实例是比较样品和对照样品中得到的5S rRNA和RNA或微小RNA之间的比率。在比较RNA或微小RNA与对照的量的情况下，对照样品可获得自已知具有正常细胞或非癌细胞的任何来源。优选的是，对照样品是确信未受相应复杂疾病影响而仅含有正常细胞或非癌细胞的受试者的组织或体液。

可以以本领域技术人员已知的测定样品中RNA、微小RNA、肽或蛋白质的量的任何方式进行RNA、微小RNA、肽或蛋白质、代谢物的量测定。定量RNA或微小RNA的方法的实例是定量逆转录酶聚合酶链式反应、PCR或应用测序或第二代测序的量化和相对量化。

可以利用蛋白质印记、酶联免疫吸附测定(ELISA)、放射免疫测定或利用抗体或其他蛋白结合分子的其他测定、鉴定蛋白质或肽的质谱、利用MALDI、电喷射或其他类型电离的量化或相对量化、利用抗体或其他蛋白结合分子如适体的蛋白质和抗体阵列进行组织或细胞制备物中的蛋白质测定、各蛋白质种类的绝对和相对蛋白质量化、以及代谢物的量化。能够结合RNA、微小RNA、肽或蛋白质和代谢物的化合物可以是技术人员已知能结合RNA、微小RNA、肽或蛋白质并且其结合方式使技术人员能测定所述分子的存在和量的任何化合物。能够结合RNA、微小RNA、肽或蛋白质以及低分子量化合物和代谢物的化合物的实施例是能够与核酸、RNA、微小RNA、蛋白质和肽杂交的核酸或能与核酸、RNA、微小RNA、蛋白质和肽结合的适体。所述核酸优选具有至少5个核苷酸、至少10个核苷酸、至少15个核苷酸、至少20个核苷酸、至少25个核苷酸、至少30个核苷酸、至少40个核苷酸或至少50个核苷酸。所述核酸是与互补于RNA或微小RNA的序列优选具有至少80％同源性、85％同源性、90％同源性、95％同源性或100％同源性的任何核酸，其还可以来自相应的DNA数据，或能够结合RNA、微小RNA、肽或蛋白质或代谢物的适体。能够结合RNA或微小RNA的核酸的一个具体实例是用于逆转录酶聚合酶链式反应的核酸引物。

化合物与RNA、微小RNA、肽或蛋白质和代谢物的至少一部分的结合形成可测定的复合物。根据技术人员已知的方法测定所述可测定的复合物。所述方法的实例包括用于测定上述本发明方法中所用的RNA、微小RNA、肽或蛋白质、代谢物的量的方法。

与正常细胞或非癌细胞中或对照样品中所见RNA、微小RNA、肽或蛋白质的标准量相比，如果可测定的复合物的水平增加或降低，则该样品含有癌前细胞或癌细胞，由此诊断为癌症；预测对癌症治疗的预期响应；或预测受试者的预期生存率。

本发明方法(其实施方式如上所述)中可使用不同类型生物分子的本发明的组合物。本发明组合物的一个实施方式包含能够结合选自RNA、微小RNA、肽或蛋白质、代谢物的RNA、微小RNA、肽、蛋白质或代谢物的至少一部分的化合物。所述组合物包含能够结合选自所述实施例中概述的分子和结合这些内源生物分子的分子和结合探针的列表(但不限于此)的RNA、微小RNA、肽或蛋白质的至少一部分的化合物。上述各实例表明，所述方法通常对于2至4种确定的生物分子的组合起作用，所述确定的生物分子有蛋白质或肽、RNA、微小RNA(即RNA加微小RNA、RNA加蛋白质、蛋白质加微小RNA、RNA加蛋白质加微小RNA、以及这些生物分子的组合和生物分子与代谢物的组合，所述组合通过研究来自患有复杂疾病的受试者的组织的各种实验来选择和组合，其性能优于包含预选生物分子组的测试或诊断或预后工具，所述预选生物分子组由仅一种生物分子(例如RNA、蛋白质、代谢物或微小RNA)组成。

本发明组合物的另一实施方式是包含第二化合物的组合物，所述第二化合物能够结合的RNA、微小RNA、肽或蛋白质和代谢物与第一化合物能够结合的RNA、微小RNA、肽或蛋白质、代谢物不同。本发明组合物的另一实施方式是包含第三化合物的组合物，所述第三化合物能够结合的RNA、微小RNA、肽或蛋白质、代谢物与第一化合物和第二化合物能够结合的RNA、微小RNA、肽或蛋白质、代谢物不同。

本发明还提供了评价候选治疗剂的方法。所述方法可用于识别能调节属于至少2种或更多种上述分子类别(RNA、微小RNA、肽/蛋白质、代谢物)的1至数种上述生物分子的浓度的分子。作为选择，可进行测试来识别能调节基因编码蛋白活性的分子。

本发明的另一方面是用于诊断或预后复杂疾病的试剂盒。在该方面的一个实施方式中，试剂盒用于诊断患有复杂疾病的受试者。该方面的另一实施方式是用于预后复杂疾病的试剂盒，其中所述预后是受试者对复杂疾病治疗的预期响应。在该方面的另一实施方式中，试剂盒用于预后复杂疾病，其中所述预后是患复杂疾病的受试者的预期存活率。试剂盒包含能够结合浓度升高或降低、在癌细胞中过表达或低表达的RNA、微小RNA、肽或蛋白质、代谢物的至少一部分的组合物，其中所述RNA、微小RNA、肽或蛋白质、代谢物选自但不限于下述分子：上述实施例中列出的分子，或与结合探针结合的分子，或通过以上实施例中所述的方法定量测定的分子，并且其中差异表达(RNA、微小RNA、肽或蛋白质、代谢物中的数种分子的过表达或低表达或浓度变化，至少组合来自2种不同生物分子类别的分子(RNA加微小RNA、RNA加蛋白质或肽、微小RNA加蛋白质或肽、RNA加微小RNA加蛋白质或肽，和所有这些与代谢物的组合)(包括但不限于各类别化合物、所述结合探针、上述实施例中明确的试剂和序列)用于诊断复杂疾病，或预后受试者的预期响应或生存率。核酸或适体或抗体与靶RNA、微小RNA、肽或蛋白质和或代谢物的结合用于诊断复杂疾病、预后患复杂疾病的受试者对治疗的预期响应，或预后其预期生存率。

可以将分离的RNA、微小RNA、肽或蛋白质、代谢物与已知的诊断工具关联，所述诊断工具例如蛋白质芯片、抗体芯片、适体芯片、DNA或RNA芯片，结合的各种检测模式包括但不限于利用荧光团检测、电化学检测或将化学信号转化为电流、电阻或电荷的变化、RNA探针、或RNA引物。

本发明的一个方面是用于早期诊断复杂疾病、预后对治疗的预期响应、或预后预期生存率的检测方法。本发明可用于复杂疾病、癌症，在具体实施方式中用于白血病(AML)、前列腺和肾癌，以及短暂性脑缺血发作、缺氧/缺血。然而，从这些不同且不相关的疾病和各种癌症、具有完全不同分子病原学、表型、基因型和遗传情况的疾病已经显而易见的是，该方法通用于复杂疾病。

在具体实施方式中，根据所述方法同时使用和处理了来自生物体(受试者、患者)的不同区域(组织)的不同类型生物分子获得的数据，从而提供了对复杂疾病的分类和诊断的改进。

上述描述是示例性的，并且不具有限制性。应当理解的是，本发明不限于具体的所述方法、实验条件，因此方法和条件可以变化。

本申请所附的包含序列SEQ-ID No 1至SEQ-ID No 908的序列表是本发明公开内容的一部分。

Claims

1.一种哺乳动物受试者的至少一个组织的至少一个生物样品中的复杂疾病或其亚型的体外诊断方法，所述复杂疾病或其亚型选自：

癌症，特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌；短暂性脑缺血发作(TIA)，缺血，特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病；脱髓鞘性病，特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森氏病；

所述方法包括以下步骤：

b)利用至少2组不同种类的生物分子测定所述样品中的每一种类的多个生物分子的选自存在或不存在、定性和/或定量分子模式和/或分子标记、水平、量、浓度和表达水平的至少一种参数，并将所获得的值的组作为原始数据存储于数据库中；

e)将步骤d)的所述分类器算法对至少一个训练数据组进行训练，所述训练数据组包含来自根据其病理生理、生理、预后、或响应者情况分类的受试者的预处理数据，从而选择一个分类器功能从而将所述预处理数据映射至所述情况；

f)将步骤e)的所述经训练的分类器算法应用于病理生理、生理、预后、或响应者情况未知的受试者的预处理数据组，并使用所述经训练的分类器算法预测所述数据组的类别标签从而诊断所述受试者的病况。

2.如权利要求1所述的方法，其特征在于所述组织选自血液和其他体液、脑脊液、骨组织、骨髓组织、肌肉组织、腺体组织、脑组织、神经组织、粘液组织、结缔组织、和皮肤组织，和/或所述样品是活检样品，和/或所述哺乳动物受试者包括人；和/或

其特征还在于还选择临床化学中常用的标准实验室参数，例如低分子量生化化合物的血清和/或血浆水平、酶、酶活性、细胞表面受体和/或细胞计数，特别是红细胞和/或白细胞计数、血小板计数。

3.如权利要求1或2所述的方法，其特征在于步骤b)中获得的所述原始数据的所述数学预处理步骤通过选自以下的统计学方法进行：

对于通过光谱(UV、可见光、IR、荧光)获得的原始数据：背景校正和/或标准化；

对于通过质谱偶联液相色谱或气相色谱、或毛细管电泳、或通过2D凝胶电泳、ELISA或RIA的定量测定或通过免疫印记量化或与适体结合的生物分子的量的量化而对浓度/量的测定获得的代谢组学和/或蛋白质组学的原始数据：平滑、基线校正、峰拾取，可选的是附加的进一步数据变换，例如采用算法以进行方差的稳定化；

对于通过转录组学获得的原始数据：将单像素求和为单强度信号；背景校正；将多探针信号求和为单表达值，特别是完美匹配/错配探针；标准化。

4.如权利要求1至3中任一项所述的方法，其特征在于在预处理步骤c)之后插入进一步的特征选择步骤，从而在类别之间找到具有最高分辨力的更低维度的特征亚组；和

所述特征选择通过过滤器和/或包装器方法进行；其中所述过滤器方法包括求秩器和/或特征亚组评估法。

5.如权利要求1至4中任一项所述的方法，其特征在于所述病理生理情况对应于标记“患病”，并且所述生理情况对应于标记“健康”，或者所述病理生理情况对应于不同的标记“疾病的级别”、“疾病的亚型”、不同值的“确定疾病的评分”；所述预后情况对应于标记“良好”、“中等”、“差”，或“治疗有响应”或“治疗无响应”或“治疗响应差”。

6.如权利要求1至5中任一项所述的方法，其特征在于所述代谢数据是高通量质谱数据。

7.如权利要求1至6中任一项所述的方法，其特征在于所述复杂疾病是AML，所述哺乳动物受试者是人，所述生物样品血液和/或血液细胞和/或骨髓；

其中微小RNA表达水平和CD34存在用作步骤b)的所述参数；

其中将逻辑回归选择作为适合的分类算法，包括预处理的和过滤的微小RNA表达数据和CD34信息的分类算法的训练通过n倍交叉验证进行，所述n倍交叉验证特别是5至10倍、优选5倍交叉验证；

8.如权利要求7所述的方法，其特征在于使用以下DNA探针来靶向所述微小RNA：Seq-ID No.1至Seq-ID No.14；

和/或

使用以下微小RNA-靶序列：Seq-ID No.15至26。

9.如权利要求1至8中任一项所述的方法，其特征在于所述复杂疾病是结肠癌，所述哺乳动物受试者是人，所述生物样品是结肠组织；

其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数；

其中将随机森林选择作为适合的分类算法，包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行；

10.如权利要求9所述的方法，其特征在于使用以下DNA探针来靶向所述微小RNA：Seq-ID No.27至Seq-ID No.34；

如/或

使用以下微小RNA-靶序列：Seq-ID No.35至Seq-ID No.42；

和/或

使用以下DNA探针来靶向所述mRNA：Seq-ID No.43至Seq-ID No.264；

和/或

使用以下靶DNA序列：Seq-ID No.265至276。

11.如权利要求1至6中任一项所述的方法，其特征在于所述复杂疾病是肾癌，所述哺乳动物受试者是人，所述生物样品是肾组织；

其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数；

其中将单隐层神经网络选择作为适合的分类算法，包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行；将对所述预处理的mRNA和微小RNA表达数据组训练的所述单隐层神经网络分类器用于疑似患有肾癌的受试者，并将经训练的分类器用于诊断肾癌和/或其亚型。

12.如权利要求11所述的方法，其特征在于使用以下DNA探针来靶向所述微小RNA：Seq-ID No.33和277至288；

和/或

使用以下微小RNA-靶序列：Seq-ID No.21、41、289至297；

和/或

使用以下DNA探针来靶向所述mRNA：Seq-ID No.298至716；

和/或

使用以下DNA靶序列：Seq-ID No.265、268、717至732。

13.如权利要求1至6中任一项所述的方法，其特征在于所述复杂疾病是前列腺癌，所述哺乳动物受试者是人，所述生物样品是尿路和/或前列腺组织；

其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数；

将对所述预处理的mRNA和微小RNA表达数据组训练的所述线性判别分析分类器用于疑似患有前列腺癌的受试者，并将经训练的分类器用于诊断前列腺癌和/或其亚型。

14.如权利要求13所述的方法，其特征在于使用以下DNA探针来靶向所述微小RNA：Seq-ID No 733至735；

和/或

使用以下微小RNA-靶序列：Seq-ID No 736-738；

和/或

使用以下DNA探针来靶向所述mRNA：Seq-ID No.739至Seq-ID No.892；

和/或

使用以下DNA靶序列：Seq-ID No.893至900。

15.如权利要求1至6中任一项所述的方法，其特征在于所述复杂疾病是短暂性脑缺血发作(TIA)和/或缺血和/或缺氧，所述哺乳动物受试者是人，所述生物样品是血液和/或血液细胞和/或脑脊液和/或脑组织；

其中所述不同种类的生物分子是mRNA和/或其DNA对应物和脑代谢物，特别是游离的前列腺素、脂加氧酶来源脂肪酸代谢物、谷氨酰胺、谷氨酸、白氨基酸、丙氨酸、丝氨酸、二十二碳六烯酸(DHA)、12(S)-羟基二十碳四烯酸(12S-HETE)；

16.如权利要求15所述的方法，其特征在于通过固相提取液相色谱串联质谱法(在线SPE-LC-MS/MS)分析样品，其中优选将C18柱用作固相提取柱；并且其中所述生物组织样品中的测定的代谢物浓度的量化优选通过参考内标并通过使用电喷射电离多反应监测串联质谱检测模式来调校。

17.如权利要求15至17中任一项所述的方法，其特征在于所述mRNA表达数据通过定量实时PCR(q-RT-PCR)获得；

和/或

使用以下引物对：Seq-ID No.901至906；和/或使用以下DNA靶序列：Seq-ID No.265、907和908。

18.一种用于在生物样品中进行如权利要求1至17中任一项所述方法的试剂盒，所述试剂盒包含：

a)用于检测至少2种不同种类的生物分子的检测剂，其中所述种类的生物分子选自：RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物；

b)阳性和/或阴性对照；和

c)用于将以所述检测剂取得的结果进行分类的分类软件。