CN102362279A - 复杂疾病的体外诊断方法 - Google Patents

复杂疾病的体外诊断方法 Download PDF

Info

Publication number
CN102362279A
CN102362279A CN2010800136482A CN201080013648A CN102362279A CN 102362279 A CN102362279 A CN 102362279A CN 2010800136482 A CN2010800136482 A CN 2010800136482A CN 201080013648 A CN201080013648 A CN 201080013648A CN 102362279 A CN102362279 A CN 102362279A
Authority
CN
China
Prior art keywords
microrna
data
mrna
expression
seq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800136482A
Other languages
English (en)
Inventor
H·迭戈那
M·科尔
M·科勒
T·克尔
K·温伯格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biocrates Life Sciences AG
Telesta Therapeutics Inc
Original Assignee
Bioniche Life Sciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bioniche Life Sciences Inc filed Critical Bioniche Life Sciences Inc
Publication of CN102362279A publication Critical patent/CN102362279A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Data Mining & Analysis (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Oncology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Microbiology (AREA)
  • Epidemiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及用于在生物样品中体外诊断复杂疾病的方法和试剂盒,所述复杂疾病例如癌症,特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;短暂性脑缺血发作(TIA),缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森氏病。对于诊断,测定至少2种不同种类的生物分子并通过适合的分类器算法和其他统计程序将结果分类,从而进行应用。通过本发明,可实现可靠性(例如仅表达曲线的可靠性)的显著进步。换言之,在确定的集合中,可以实现高达100%准确的阳性诊断,从而使本发明的方法优于现有技术。

Description

复杂疾病的体外诊断方法
技术领域
本发明涉及如权利要求1所述的复杂疾病或其亚型的体外诊断方法,和如权利要求18所述的执行所述方法的试剂盒。
在经典患者筛查和诊断中,医务人员利用多种诊断工具对患有某种疾病的患者进行诊断。在这些工具中,对一系列单一常规参数(例如血液样品中的参数)进行测定是常见的诊断实验室方法。这些单一参数包括例如酶活力和酶浓度和/或诸如葡萄糖等代谢指示物的检测。只要涉及到这样的疾病,并且这些疾病可通过临床化学简单地并且毫无疑义地与一种单一参数或若干参数相关联,则这些参数就成为了现代实验室医学和诊断中不可或缺的工具。在能够提供优异的已证实的截断值(cut-off value)的情况下(例如在糖尿病中),就可以在诊断中可靠地使用临床化学参数例如血糖。
特别是,当研究公知病理生理机制背后内在的病理生理状态并从中得出指导性参数时,诸如血液中高葡萄糖浓度通常反映出胰岛素基因的遗传性缺陷,所述单一参数已证实是“其”疾病的可靠生物标志物。
然而,在诸如癌症或脱髓鞘性病如多发性硬化症等共性为缺乏明确可指定的单一参数或标志物的病理生理情况下,目前还难以进行由血液样品或组织样品的差别化诊断。
在癌症预防、筛查、诊断、治疗和预后治疗中,同时在临床常规上使用一系列均对特定种类癌症在某种程度上有特异性的所谓“肿瘤标志物”来诊断和监测癌病过程的治疗。目前使用的这种肿瘤标志物例如有α-1-胎蛋白、癌抗原125(CA 125)、癌抗原15-3、CA 50、CA 72-4、糖抗原19-9、降钙素、癌胚胎抗原(CEA)、细胞角蛋白片段21-1、粘蛋白样癌相关抗原、神经元特异烯醇化酶、核基质蛋白22、碱性磷酸酶、前列腺特异性抗原(PSA)、鳞状细胞癌抗原、端粒酶、胸腺嘧啶激酶、甲状腺球蛋白、和组织多肽抗原。
虽然,在现有技术中目前已有多种上述肿瘤标志物常规使用,但极常见的是难以由单一测定实现可靠诊断。仅举一例,CEA的截断值对不吸烟者为4.6ng/ml,而25%的吸烟者显示在3.5~10ng/ml的范围的正常值,并且有1%的吸烟者显示大于10ng/ml的正常值。因此,只有大于20ng/ml的值才被解释为“高度疑似恶性过程”,这留下了很大的灰色区域,在这一区域中医生不能依靠在患者样品中测定的CEA值。
EP 540 573 B1公开了对于前列腺特异性抗原(PSA)的相似的截断值问题,其中通常测定总PSA以诊断或排除患者的前列腺癌,如果该值在灰色区域,则目前的方法是除了测定总PSA外还以对游离PSA特异的单克隆抗体测试测定游离PSA,并计算2个参数的比率从而获得对前列腺癌更准确的诊断方法,并与良性前列腺增生相区分。
CEA和PSA检测的上述例子充分表明了所有单一肿瘤标志物共有的情况,即,一方面特异性相对较差,另一方面截断值不确定不可靠,从而难以解读得到的值。
因此,一般的结果是,推荐在重要筛查中考虑使用肿瘤标志物。下述情况并不罕见,肿瘤标志物水平增加而没有进一步的临床相关性,使患者丧失勇气,并且根本不具有任何诊断价值。
此外,在恶性疾病的预后治疗中,需要注意的是每种肿瘤标志物都首选需要“临界量”的癌细胞,直到其在临床测试中有阳性响应。另外,不是所有复发肿瘤都必须涉及肿瘤标志物水平的增加。
总之,大多数情况中只有在结合其他诊断工具如内窥镜和活检以及随后的组织学检验的情况下,单一肿瘤标志物才被证实在临床实践中有用,但在常规癌症筛查中是不可靠的。
对于单一肿瘤标志物的现有技术,一个巨大的进步是使用了利用微阵列技术的多基因表达水平。
例如WO 2004111197A2,公开了用于获得气道上皮细胞RNA的侵袭性最小的样品获取方法,可通过表达谱(例如通过基于阵列的基因表达谱)来对所述RNA进行分析。这些方法可用于鉴定诊断肺病如肺癌的基因表达模式,从而识别有发展肺病的风险的受试者和定制开发用于诊断或预测肺病或肺病易感性的阵列,例如微阵列。出于这一目的,还公开了阵列和有信息的基因。
这种多基因方法比上述单一参数要可靠得多,但受限于复杂的数学和生物信息学程序。尽管如此,这些基因表达标记是有前途的癌症诊断工具,但有时也具有不确定的限制,这些限制由于其内在统计学和受到一种核酸的限制有时也会导致不可靠的结果和确认问题。
发明内容
从上述现有技术出发,本发明的问题是提供一种生物标志物在诊断工具中的应用,上述诊断工具对于早期诊断以确定患病受试者具有最高可能的灵敏度和特异性,上述诊断工具用于患者预选和分组和用于治疗控制是诊断开发中的主要目标,并且还是各种复杂疾病特别是癌症的紧急需要。
上述问题通过如权利要求1所述的方法和如权利要求18所述的试剂盒得以解决。
特别是,本发明提供了在哺乳动物受试者的至少一个组织的至少一个生物样品中的复杂疾病或其亚型的体外诊断方法,所述复杂疾病或其亚型选自:
癌症,特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症;
所述方法包括以下步骤:
a)选择至少2个不同种类的生物分子,其中所述种类的生物分子选自:RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物;
b)利用至少2组不同种类的生物分子测定所述样品中的每一种类的多种生物分子的选自是否存在(阳性或阴性)、定性和/或定量分子模式和/或分子标记、水平、量、浓度和表达水平的至少一种参数,并将所获得的值的组作为原始数据存储于数据库中;
c)对所述原始数据进行数学预处理从而减少步骤b)中所用测定程序固有的技术误差;
d)从逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、感知器、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、贝叶斯网络、隐马模型、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、模糊分类器、袋翻、增压、和
Figure BPA00001443339200041
Bayes中选择至少一种适合的分类算法;并将所述选择的分类器算法用于步骤c)的所述预处理的数据;
e)将步骤d)的所述分类器算法对至少一个训练数据组进行训练,所述至少一个训练数据组包含来自根据其病理生理、生理、预测、或响应者情况分类的受试者的预处理数据,从而选择一个分类器功能从而将所述预处理数据映射至所述情况;
f)将步骤e)的所述经训练的分类器算法应用于病理生理、生理、预测、或响应者情况未知的受试者的预处理数据组,并使用所述经训练的分类器算法预测所述数据组的类别标签从而诊断所述受试者的病况。
从属权利要求2~18是本发明的优选实施方式。
本发明提供了上述问题的解决方案,并一般性涉及应用“组学”数据(包括但不限于mRNA表达数据、微小RNA表达数据、蛋白质组学数据、和代谢组学数据),统计学习和机器学习分别用于识别分子标记和生物标志物。其包括经由已知方法测定上述生物分子的浓度,已知方法例如聚合酶链式反应(PCR)、微阵列和其他方法如测序以测定RNA浓度、通过质谱(MS)、特别是MS-技术如MALDI、ESI、大气压化学电离(APCI)和其他方法对蛋白识别和定量,利用MS-技术或替代性方法测定代谢物浓度,后续特征选择和将这些特征与包括至少两个分子水平的分子数据(即,至少2个不同类型内源生物分子,如RNA浓度加代谢组学数据,分别为代谢物浓度或RNA浓度加蛋白质或肽的浓度等)分类器组合并且通过统计方法和数据分类法提取最佳组成标志物组。
从而测定不同分子水平(RNA分子、肽/蛋白质、代谢物等)的各标志物的浓度,并将数据加工至分类器,所述分类器指示与限于一种生物分子的方法和标志物相比以优异的灵敏度和特异性指示疾病状态。
描述了选择和组合生物分子的生物标志物和分子标记的方法,特别是利用生物分子类型mRNA、微小RNA、蛋白质、或肽、小内源化合物(代谢物)中的一种或多种个体分子组合(组合至少两种上述类型的生物分子)由体液或组织获得的生物分子,利用统计方法和来自这些分子组的数据的分类器进行鉴定,以用于诊断和早期诊断,从而将患者分类、选择治疗、治疗监测和治疗诊断复杂疾病。
背景技术-现有技术
系统生物学方法利用各种组学方法如基因组学、蛋白质组学和代谢物组学,其正越来越多地应用于复杂疾病的研究和诊断。这些技术可以提供数据和生物学指示物,所谓的(预测、预计和药代动力学)生物标志物以及潜力从而使诊断的临床实践发生变革。
对于早期癌检测,通常使用单一生物标志物。然而,例如广泛使用的癌抗原125(CA125)仅能检测50%-60%的患有I期卵巢癌的患者。类似的是,单一使用用于早期前列腺癌识别的前列腺特异性抗原(PSA)值的特异性不足以减少假阳性的数量[Petricoin EF 3rd,Ornstein DK,Paweletz CP,Ardekani A,Hackett PS,Hitt BA,Velassco A,Trucco C,Wiegand L,WoodK,Simone CB,Levine PJ,Linehan WM,Emmert-Buck MR,Steinberg SM,Kohn EC,Liotta LA,Serum proteomic patterns for detection of prostatecaner,J Natl Cancer Inst.2002;94(20):1576-8.],并且表明利用单一生物标志物对复杂疾病很难表征或诊断和评价治疗效果。
诊断工具例如癌症诊断工具的最近进展通常包括利用同类生物分子的多种生物标志物的多成分测试,所述同类生物分子例如有多种蛋白质、RNA或微小RNA种类,并且多维度数据分析给出对异常信号传导和网络作用的更深入认识,这有潜力识别此前未被发现的标志物候选物。然而,现有技术方法将单一生物分子或单一种类的生物分子的组用于生物标志物组,例如多种RNA、微小RNA或蛋白分子。见Garzon R,Volinia S,Liu CG,Fernandez-Cymering C,Palumbo T,Pichiorri F,Fabbri M,Coombes K,Alder H,Nakamura T,Flomenberg N,Marcucci G,Calin GA,KornblauSM,Kantarjian H,Bloomfield CD,Andreeff M,Croce CM,MicroRNAsignatures associated with cytogenetics and  prognosis in  acute myeloidleukemia,Blood.2008;111(6):3183-9 and Ramaswamy S,Tamayo P,RifkinR,Mukherjee S,Yeang CH,Angelo M,Ladd C,Reich M,Latulippe E,Mesirov JP,Poggio T,Gerald W,Loda M,Lander ES,Golub TR.,Multiclass cancer diagnosis using tumor gene expression signatures.ProcNatl Acad Sci USA.2001;98(26):15149-54。对于癌症中的miRNA,请见WO2008055158。
另外,Oncotype DX是最近的多成分RNA类测试的实例,如同多基因活性测试,可预测他莫昔芬治疗的结节阴性乳腺癌的复发,公开于PaikS,Shak S,Tang G,Kim C,Baker J,Cronin M,Baehner FL,Walker MG,Watson D,Park T,Hiller W,Fisher ER,Wickerham DL,Bryant J,Wolmark N,Engl J Med.2004;351(27):2817-26。
Habel LA,Shak S,Jacobs MK,Capra A,Alexander C,Pho M,Baker J,Walker M,Watson D,Hackett J,Blick NT,Greenberg D,Fehrenbacher L,Langholz B,Quesenberry CP在Breast Cancer Res.2006;8(3):R25描述了对肿瘤基因表达的人群研究和淋巴结阴性患者中的乳腺癌死亡风险。
其他最近实例包括乳腺癌基因表达标记—市售用于临床使用),MammaPrint(Agendia)。
此外,Glas AM,Floore A,Delahaye LJ,Witteveen AT,Pover RC,BakxN,Lahti-Domenici JS,Bruinsma TJ,Warmoes MO,Bernards R,WesselsLF,Van′t Veer LJ.在BMC Genomics.2006;7:278公开了将乳腺癌微阵列标记转为高通量诊断测试的方法。
另一种已知方法作为所谓的H/l测试(AviaraDx)公开,由Nicholas CTurner和Alison L Jones开发,见BMJ.2008 July 19;337(7662):164-169,该文评估了原发乳腺癌摘除后复发的可能性。
虽然这些产品和原型证明了具体诊断领域的显著进步,但还迫切需要对多种复杂疾病具有高灵敏度和特异性的可靠的早期诊断,所述复杂疾病例如有但不限于:
癌症,特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森病。这些诊断工具和生物标志物还用于选择患者中的响应者,以评估疾病的复发、选择治疗方式、效率、耐药性和毒性。
发明提供了产生具有优异灵敏度和特异性的诊断复杂疾病的新型诊断工具的原理和方法以解决这些问题。
将各种“组学”数据整合以例如识别由变化的RNA转录物的蛋白浓度的可能变化,是系统生物学和本领域技术人员多年来熟悉的问题。
即便如此,基于统计学应用此处所述各种分类方法,独立于数据整合和对组合诊断标记(组合多种生物分子)的生物化学解读,来自不同类生物分子的生物标志物组的统计学组合对本领域人员也是非显而易见的和未知的,也未在文献中有记载。其明显不同于利用整合多维分析和组合例如基因组学、表观遗传组学和转录组学的方法(见SIGMA2:A system for theintegrative genomic multi-dimensional analysis of cancer genomes,epigenomes,and transcriptomes,Raj Chari等BMC Bioinformatics 2008,9:422),其试图通过各种方法分析不同组学数据之间的生物学关系。
基本上,本发明的方法在统计学基础上组合了统计学显著的至少两种不同种类生物分子的生物分子参数,完全与任何种类、环节或明显生物学理论的已知或未知的生物学关系无关,从而提供了多种生物分子组成的组合生物标志物。本发明的患者情况表明,在测定分子集合中的最佳描述细胞、组织、器官或生物体的不同状态的至少两种上述生物分子类型和至少两种的这些组合的生物分子组成的诊断方法和疾病状态特异性分类器优于分子或标志物的组合和其描绘的分子标记。其还优于仅一种生物分子的生物分子的分类器,并且如本文所证明在诊断应用中产生了更高的灵敏度和特异性。就此而言,本发明超越了现有技术,并与目前现有技术方法相比,提供了产生具有更高灵敏度和特异性和更低错误发现率的诊断分子标记的方法。所述方法可用于诊断各种复杂和完全无关的复杂疾病,例如癌症和缺血,并且具有一般性诊断用途。
具体实施方式
定义
本文中使用的术语“基因表达”是指通过基因的“转录”(即,经由RNA聚合酶的酶学作用)将基因中编码的遗传信息转化为核糖核酸RNA(例如,mRNA、rRNA、tRNA、或snRNA)和对于蛋白质编码基因通过mRNA的“翻译”转化为蛋白的过程。可以在该过程中多个阶段调节基因表达。“上调”或“激活”是指增加基因表达产物(即RNA或蛋白质)的产生的调节,而“下调”或“抑制”是指降低产生的调节。
多核苷酸:具有多于2个碱基的核酸聚合物。
“肽”是由α-氨基酸以确定顺序连接形成的短杂聚物。一个氨基酸残基与下一个之间的连接已知是酰胺键或肽键。
蛋白质是是多肽分子(或由多个多肽亚基构成)。区别在于肽较短,而多肽/蛋白质较长。有多种不同的规定来确定这些,所有这些规定均有防止误解的说明和细微差别。
在本发明的范围内,“复杂疾病”是属于以下组但不限于以下组的疾病:癌症,特别是,急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;短暂性脑缺血发作(TIA)、缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森病。
代谢物:本文中所用术语“代谢物”表示细胞、生物体、组织的或存在于体液或获自上述来源的提取物中的分子量通常小于1500道尔顿的内源性有机化合物。代谢物的典型实例是糖、脂类、磷脂、鞘脂和鞘磷脂、氨基酸、胆固醇、类固醇激素和氧化固醇以及其他化合物例如人类代谢物数据库(http://www.hmdb.ca/)和其他数据库和文献中收集的化合物。这包括通过代谢作用或通过代谢过程产生的任何物质和代谢作用中涉及的任何物质。
本发明范围内理解的“代谢组学”为通过但不限于下述方法对多种(2千)代谢物的全面定量测量:例如质谱,质谱与液相色谱、气相色谱和其他分离方法色谱的偶联。
“寡核苷酸阵列”或“寡核苷酸芯片”或“基因芯片”:涉及“微阵列”,也称“芯片”、“生物芯片”、或“生物学芯片”,是具有适合的密度的离散区域的区域阵列,例如为至少100/cm2,优选至少约1000/cm2。微阵列中区域的尺寸例如直径优选为约10-250μm的范围,并与阵列中其他区域以等距离间隔。常用形式包括Agilent、Affymetrix、Illumina的产品,以及其中通过分配器或手动方法将寡核苷酸和cDNA沉积在固体表面的点制造阵列。
本领域技术人员清楚,可以通过各种方法对核酸、蛋白质和肽以及代谢物进行定量,所述方法包括上述阵列系统,以及但不限于:定量测序、定量聚合酶链式反应和定量逆转录聚合酶链式反应(qPCR和RT-PCR)、免疫测定、利用抗体的蛋白质阵列、质谱。
“微小RNA”(miRNA)是19至25个核苷酸的小RNA,是基因表达的负调节物。为确定miRNA是否与急性髓细胞白血病(AML)的细胞发生异常和临床特征有关,利用微阵列平台评估了CD34(+)细胞和122例未经治疗的成人AML病例的miRNA表达。
在此上下文中不同种类或类型或类别的生物分子理解为:RNA、微小RNA、蛋白质和各种长度的肽以及代谢物。
本文中生物标志物是包含至少2个不同种类(RNA、微小RNA、蛋白质和肽、代谢物)的至少2种生物分子的数据的特征,所述特征经测量和评估作为生物过程、病理过程、或对治疗干预的响应的指征。本文所用的组合生物标志物可以选自下述种类的生物分子中的至少2种:正义和反义核酸、信使RNA、小RNA即siRNA和微小RNA、多肽、包括抗体的蛋白质、小内源分子和代谢物。
数据分类是为了最有效和高效利用数据而进行的数据归类。分类器通常确定的功能是将生物测量的多维向量映射至二元(或n元)输出变量,所述输出变量编码临床相关种类、表型、特殊生理状态或特殊疾病状态的有或无。为了实现这一目标,可以使用各种分类方法,例如但不限于逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、感知器、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、贝叶斯网络、隐马模型、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、模糊分类器、袋翻、增压、和
Figure BPA00001443339200101
Bayes器以及更多方法。
术语“结合的”、“将结合”、“结合”、“已结合的”或其任意衍生词是指两个或更多个分子间的任何稳定的而非瞬时的化学键,包括但不限于共价键合、离子键合、和氢键键合。因此,除了两个或更多个分子间的其他类型化学键合之外,该术语还包括2个核酸分子之间的杂交。
说明
在本发明的方法中,通过2种不同种类生物分子中的至少2种不同类型生物分子的组合而获得的生物标志物数据和分类器提供了对生理状态的描述并可用作诊断复杂疾病的极好工具,其中所述生物分子的种类选自根据本发明确认的RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物。
对来自健康样本的病理样品或组织的辨别需要根据下表1中示出的方法组合至少2种不同类型的生物分子的数据、测定其浓度和统计学处理以及分类器产生。
如上所述,通过分类方式在生物标志物中组合的分子之间的生物学联系与输出和问题选择完全无关,不必用生物学模型解释。
本发明方法基本包括以下步骤:
第一,获得从受试者或生物体获得的生物样品。
第二,从所述生物样品测定以下类型(RNA、微小RNA、肽或蛋白质、代谢物)的生物分子的量,并作为原始数据储存于数据库中。
第三,对所述数据库的原始数据进行预处理。
第四,将在样品中检测的RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽或蛋白质、代谢物的量与正常细胞或组织中测定的相应生物分子的标准量或数据库中储存的相应生物分子的参考量进行比较。如果样品中感兴趣的生物分子的量不同于标准或对照样品中测定的生物分子的量,则将差异浓度数据进行处理并用于下述的步骤5分类器生成。
在步骤6中验证分类器并在步骤7中使用:根据本发明,分类器利用上述类型中至少2组生物分子的数据,并提供值或分。所述分分配给具有计算概率的血浆、组织或器官的改变的生理状态,并可指示疾病状态、干预(例如治疗、外科手术或药物治疗带来的治疗干预)产生的状态或具有一定概率的中毒状态。所述分可用作诊断工具以指示受试者或生物体被诊断患有疾病,指示患有癌症的中毒。
可以用所述分和该分的时间依赖的变化评估治疗的成功或施用于受试者或生物体的药物的成功或评估受试者或生物体对治疗的个体响应或得出生理状态或疾病的未来过程的预后和结果。预后与具有正常水平或分的平均值的未患有疾病或中毒的受试者或至少2种生物分子组成的分类器相关。
表1
Figure BPA00001443339200111
表1:所提出的方法的示意图。具体细节见文字部分。
对于mRNA和微小RNA数据,数据的预处理通常由背景校正和标准化组成。技术人员知晓多种适宜的已知背景校正和标准化策略;对于Affymetrix数据的比较测量分别见L.M.Cope等,A Benchmark forAffymetrix GeneChip Expression Measures,Bioinformatics 2004,20(3),323-331或R.A.Irizarry等,Comparison of Affymetrix GeneChipExpression Measures,Bioinformatics 2006,22(7),789-794。
根据手头的数据,其还可以由一些方差稳定变换或至标准的变换例如采用算法或利用Box-Cox幂变换组成[Box,G.E.P.和Cox,D.R.Ananalysis of transformations(with discussion).Journal of the RoyalStatistical Society B 1964,26,211-252]。
通常还可以使用通过例如标准偏差或中位值绝对偏差(MAD)进行的缩放来变换原始数据。然而,此步骤不是所有类型数据所必需的,对应地也不是所有类型的进一步统计分析必需的,因此可以省略。
特征(变量,测定)选择步骤可能也是可选的。然而,如果特征数量大于样品数量,则推荐此步骤。特征选择方法试图发现具有最高分辨力的特征亚组。
由于mRNA和微小RNA数据的高维度,大多分类算法不能直接应用。一个原因是所谓的维度灾难:随着维度的增加,各范例之间的距离同化。噪声和无关特征进一步促进该效应,使得分类算法难以建立判定边界。分类算法不适用于全维度空间的进一步原因是性能极限。最终,在分类之前应用特征变换技术,例如见[J.S.Yu等,Ovarian cancer identification basedon dimensionality reduction for high-throughput mass spectrometry data,Bioinformatics,21(10):2200-2209,2005]。此外,还由于识别未知标志物候选物的任务,传统方法的使用由于数据的高维度而受到限制。
以最高可能的灵敏度和特异性识别患病受试者是诊断开发的主要目标。对于这一目标,可选择使用例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、和
Figure BPA00001443339200131
Bayes等多种分类算法来开发新标志物候选物。这些算法可经含有根据类别(例如健康和患病)标记的例子的至少一个训练数据组训练,然后以含有未用于训练的新例子的至少一个测试数据组进行测试。在训练-测试步骤中,可以使用一轮或多轮交叉验证、自助或一些分离样品法(split-sample approach)来评估预测模型在实践中能进行到什么样的准确程度。最后,将使用分类器来预测新的未标记的例子的类别标签[T.M.Mitchell.Machine Learning.McGraw-Hill,1997]。
分类器通常确定的功能是将生物测量的多维向量映射至二元(或n元)输出变量,所述输出变量编码临床相关种类、表型或特殊疾病状态的有或无。建立分类器或使分类器学习的过程包括两个步骤:(1)选择可以逼近系统响应的家族函数,和使用观察的有限样品(训练数据)来通过使任何给定点的系统响应和函数预测之间的差异或预计损失最小化从所述家族函数中选择最逼近系统响应的函数。
根据所选的特征选择策略,可以在特征选择之前或之后进行不同数据(临床数据、mRNA、微小RNA、代谢物、蛋白质)的组合。然后将组合数据用作输入以训练和验证分类器。然而,还可以分别对不同数据训练多种不同分类器,然后将所述分类器组合用于预测标记。由于数据类型在定性/分类至定量/数值方面可能非常不同,并非所有分类器可用于所述多级数据;例如,一些分类器只接受定量数据。因此,需要根据数据类型选择用于分类的具有合适域的函数种类。
已提出了多种分类的特征选择策略,以全面研究,例如见[M.A.Hall和G.Holmes,Benchmarking Attribute Selection Techniques for DiscreteClass data Mining.IEEE Transactions on Knowledge and DataEngineering,15(6):1437-1447,2003.]。在常用表征之后,过滤器和包装器方法之间有所区别。
过滤器方法利用评估标准来判断特征的辨别能力。在过滤器方法中,可以进一步区分求秩器和特征亚组评估法。求秩器不考虑各特征对分类的用途而对其进行评估。结果,将秩列表返回用户。求秩器非常有效,但忽略了特征之间的相互作用和关联。特征亚组评估法判断特征的亚集的有用性。特征之间的相互作用的信息主要被储存,但检索空间扩展至O(2<d>)的尺寸。对于高维度数据,由于性能极限而只能应用极简单有效的检索策略,例如前进选择算法。
包装器属性选择法利用分类器来评估属性亚集。交叉验证用于评估分类器对新的未分类目标的准确性。对于所检查的各属性亚集,确定分类准确性。对分类器的特殊特征进行适应性改变后,在大多数情况下,包装器方法识别属性亚集的分类准确性高于过滤器方法,见Pochet,N.,De Smet,F.,Suykens,J.A.,和De Moor,B.L.,Systematic benchmarking ofmicroarray data classification:assessing the role of non-linearity anddimensionality reduction.Bioinformatics,20(17):3185-95(2004)。作为属性亚集评估方法,包装器方法可以通过任意检索策略使用。在所有特征选择方法中,包装器由于对于所检查的各特征亚组使用了学习算法而是计算最多的方法。
本发明的优选实施方式是下述方法,其中所述复杂疾病是AML,所述哺乳动物受试者是人,所述生物样品血液和/或血液细胞和/或骨髓;
其中所述不同种类的生物分子是微小RNA和蛋白质,特别是非成熟造血干细胞的表面蛋白,优选CD34;
其中微小RNA表达水平和CD34存在用作步骤b)的所述参数;
其中微小RNA表达的原始数据利用方差稳定标准化和将标准化多探针信号(技术平行测定)用中位数求和为单一表达值而进行预处理;
其中将求秩器,特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Mann-Whitney显著性测试用于所述特征选择;
其中将逻辑回归选择作为适合的分类算法,包括预处理的和过滤的微小RNA表达数据和CD34信息(阳性或阴性)的分类算法的训练通过n倍交叉验证进行,所述n倍交叉验证特别是5至10倍、优选5倍交叉验证;
将对所述预处理的微小RNA表达数据组和CD34信息训练的所述逻辑回归分类器用于疑似患有AML的受试者,并将经训练的分类器用于诊断具体AML类型。
本发明的另一优选实施方式是下述方法,其中所述复杂疾病是结肠癌,所述哺乳动物受试者是人,所述生物样品是结肠组织;
其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA对应物;
其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;
其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;
其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;
其中将求秩器,特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Mann-Whitney显著性测试用于所述特征选择;
其中将随机森林选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(leave-one-out)(LOO)交叉验证进行;
将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有结肠癌的受试者,并将经训练的分类器用于诊断结肠癌和/或其亚型。
本发明的另一优选实施方式是下述方法,其中所述复杂疾病是肾癌,所述哺乳动物受试者是人,所述生物样品是肾组织;
其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA对应物;
其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;
其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;
其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;
其中将求秩器,特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大平均数的Welch t-测试(显著性测试)用于所述特征选择;
其中将单隐层神经网络选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;
将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有肾癌的受试者,并将经训练的分类器用于诊断肾癌和/或其亚型。
本发明的另一优选实施方式是下述方法,其中所述复杂疾病是前列腺癌,所述哺乳动物受试者是人,所述生物样品是尿路和/或前列腺组织;
其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA对应物;
其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;
其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;
其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;
其中将求秩器,特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大中位数的Mann-Whitney显著性测试用于所述特征选择;
其中将线性判别分析选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;
将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有前列腺癌的受试者,并将经训练的分类器用于诊断前列腺癌和/或其亚型。
本发明的另一优选实施方式是下述方法,其中所述复杂疾病是短暂性脑缺血发作(TIA)和/或缺血和/或缺氧,所述哺乳动物受试者是人,所述生物样品是血液和/或血液细胞和/或脑脊液和/或脑组织;
其中所述不同种类的生物分子是mRNA和/或其DNA对应物和脑代谢物,特别是游离的前列腺素、脂加氧酶来源脂肪酸代谢物、谷氨酰胺、谷氨酸、白氨基酸(leucin)、丙氨酸、丝氨酸、二十二碳六烯酸(DHA)、12(S)-羟基二十碳四烯酸(12S-HETE);
其中mRNA表达水平和定量和/或定性分子代谢物模式(代谢组学数据)用作步骤b)的所述参数;
其中mRNA表达的原始数据利用肌动蛋白-β作为参照基因进行预处理,所述脑代谢物的代谢组学数据通过经由2进制对数(即以2为底)的方差稳定变换进行预处理;
其中求秩器,特别是作为代谢组学数据的过滤器的结合配对差异的最大平均数的Welch t-测试(显著性测试)用于所述特征选择;
其中将支持向量机选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;
将对所述预处理的mRNA表达数据和所述代谢组学数据组训练的所述支持向量机分类器用于疑似患有缺血和/或缺氧的受试者,并将经训练的分类器用于诊断缺血和/或缺氧和/或其分级。
实施例
实施例1:利用微小RNA和蛋白质数据的方法
作为第一实施例,使用了Garzon R,Garofalo M,Martelli MP,Briesewitz R,Wang L,Fernandez-Cymering C,Volinia S,Liu CG,Schnittger S,Haferlach T,Liso A,Diverio D,Mancini M,Meloni G,Foa R,Martelli MF,Mecucci C,Croce CM,Falini B Distinctive microRNAsignature of acute myeloid leukemia bearing cytoplasmic mutatednucleophosmin.PNAS 2008,105(10):3945-50的微小RNA和临床数据。
这些数据可在ArrayExpress在线数据库http://www.ebi.ac.uk/arrayexpress中以登录号E-TABM-429获得。总体而言,可获得特征为NPM1和FLT3突变的亚细胞定位/突变状态的85名成年初始AML患者的微小RNA数据。使用OSU-CCC人&小鼠微小RNA11K v2 Microarray Shared Resource,Comprehensive Cancer Center,TheOhio State University(OSU-CCC)完成杂交。
携带NPM1突变和细胞质核磷蛋白(NPMc+AML)的急性髓细胞白血病(AML)约占成人AML的三分之一,并显示出包括独特基因表达模式在内的特殊特征。作者利用微小RNA表达值来区分NPMc+突变(n=55)与细胞质-阴性(NPMc-,即,NPM1未突变)病案(n=30)。
分析:
为了开发和验证基于这些数据的分类器,采用了逻辑回归结合5-倍交叉验证,其中在各交叉验证步骤中重复各分析步骤-包括低级分析。并且,将5-倍交叉验证重复了20次。这是一种可能性。当然,还使用了等分样品、自助或不同的k-倍(k不等于5)交叉验证法。并且,可以使用不同类别的分类函数,例如(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、
Figure BPA00001443339200181
Bayes等多种分类算法。
低级分析由Huber等(2002)的方差稳定变换[Huber W,vonHeydebreck A,Sueltmann H,Poustka A,Vingron M.Variance StabilizationApplied to Microarray data Calibration and to the Quantification ofDifferential Expression.Bioinformatics 2002,18:96-104](通常称为标准化)和使用中位数的标准化重复值的平均化组成。同样存在大量可用的替代性方法。L.M.Cope等,Bioinformatics 2004,20(3),323-331或R.A.Irizarry等,Bioinformatics 2006,22(7),789-794给出了若干实例。在各交叉验证步骤中,选择5个标准化和平均的分类用微小RNA探针,所述探针具有在Mann-Whitney测试中那些p值小于或等于0.01的微小RNA探针之外的最大配对差异的中位数(绝对值)。即,使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略,[M.A.Hall和G.Holmes.IEEETransactions on Knowledge and Data Engineering,15(6):1437-1447,2003.]给出了一些实例。整体而言,由于5-倍交叉验证的20次重复,对微小RNA探针可以选择达100次。获得了表2所示的预计误差。
表2
  分类器vs.真值   NPMc-   NPMc+
  NPMc-   57.0%   7.6%
  NPMc+   43.0%   92.4%
表2:经5-倍交叉验证的微小RNA数据、分类误差
利用5-倍交叉验证的预计整体准确性为79.9%。在第二步骤中,现在仅使用其中附加有关CD34信息(即,CD34阴性或CD34阳性)的微小RNA阵列;选择这些样品54个NPMc+,并剩余29个NPMC-样品。仅将CD34用于分类,获得了表3所示结果,其对应于85.5%的整体准确率。
表3
  分类器vs.真值   NPMc-   NPMc+
  NPMc-   75.9%   9.3%
  NPMc+   24.1%   90.7%
表3:CD34数据、分类误差
现在,如果将最前面的5个微小RNA探针的信息与CD34信息组合,将获得表4所示结果。即,利用交叉验证的预计整体准确率为88.1%。因此,该组合使整体准确率由79.9%、85.5%提高到88.1%。
表4
  分类器vs.真值   NPMc-   NPMc+
  NPMc-   80.7%   8.0%
  NPMc+   19.3%   92.0%
表4:经5-倍交叉验证的组合微小RNA和CD34,分类误差
表5中给出了交叉验证中选择的探针。
表5
表5:5-倍交叉选择过程中选择的微小RNA探针
表6给出了已知人类微小RNA的桑格尔序列研究的结果(根据Griffiths-Jones S,Saini HK,van Dongen S,Enright AJ.miRBase:tools formicroRNA genomics,NAR 2008 36(Database lssue):D154-D158)。
表6
Figure BPA00001443339200202
Figure BPA00001443339200211
表6:对于5-倍交叉选择过程中选择的微小RNA探针的已知人微小RNA的桑格尔序列研究的结果
实施例2.1.:mRNA和微小RNA:结肠癌
使用Ramaswamy等(2001)[Ramaswamy S1 Tamayo P,Rifkin R,Mukherjee S,Yeang CH,Angelo M,Ladd C,Reich M,Latulippe E,Mesirov JP,Poggio T,Gerald W,Loda M,Lander ES,Golub TR.Multiclass cancer diagnosis using tumor gene expression signatures.ProcNatl Acad Sci USA.2001;98(26):15149-54]和Lu等(2005)[Lu J,Getz G,Miska EA,Alvarez-Saavedra E,Lamb J,Peck D,Sweet-Cordero A1 EbertBL,Mak RH,Ferrando AA,Downing JR,Jacks T,Horvitz HR,Golub TR.MicroRNA expression profiles classify human cancers.Nature.2005;435(7043):834-8]的结肠癌数据开发利用mRNA和微小RNA数据的多水平分类器。所述数据可在Broad Institute的主页[http://www.broad.mit.edu/publications/broad900和http://www.broad.mit.edu/publications/broad993s]获得。
整体来说,可获得四种正常组织和七种肿瘤组织的mRNA和微小RNA数据。通过含有微小RNA探针的基于珠子的阵列以及通过用于测定mRNA的Affymetrix HU6800和HU35KsubA阵列进行杂交。仅使用了HU6800阵列的mRNA数据。
分析:
为了开发和验证基于这些数据的分类器,使用随机森林[Breiman,L.Random Forests,Machine Learning 2001,45(1),5-32]结合继以留一法(LOO)交叉验证,其中在各交叉验证步骤中重复各分析步骤-包括低级分析。这是一种可能性。当然,还使用了等分样品、自助或不同的k-倍(k不等于1)交叉验证法。并且,可以使用不同类别的分类函数,例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、Bayes等多种分类算法。
对于微小RNA以及mRNA数据,预处理(也称低级分析)由Huber等(2002)的方差稳定变换(常称为标准化)构成。同样存在大量可用的替代性方法。Cope等(2004)或Irizarry等(2006)给出了若干实例。在各交叉验证步骤中,选择6个标准化微小RNA探针,分别为在Mann-Whitney测试中那些p值小于或等于0.1的探针之外的具有最大配对差异(绝对值)的中位数的用于分类的6个标准化mRNA探针。即,使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略,[M.A.Hall和G.Holmes.IEEETransactions on Knowledge and Data Engineering,15(6):1437-1447,2003.]中给出了一些实例。整体而言,由于LOO交叉验证,对微小RNA,各自mRNA探针可进行达11次选择。
仅使用微小RNA数据,获得了表7中所示的预计误差。
表7
  分类器vs.真值   结肠癌   正常
  结肠癌   85.7%   0.0%
  正常   14.3%   100.0%
表7:经继以留一法交叉的微小RNA数据、分类误差
即,观察到85.7%的灵敏度和100.0%的特异性。阳性预测值等于100.0%,阴性预测值等于80%。利用LOO交叉验证的预计整体准确率为90.9%。在第二步骤中,使用HU6800阵列的mRNA数据。结果可从表8读出。利用LOO交叉验证再次获得了72.7%的预计整体准确率。预计灵敏度等于85.7%,预计特异性等于50%,预计阳性预测值等于75.0%,预计阴性预测值等于66.7%。
表8
  分类器vs.真值   结肠癌   正常
  结肠癌   85.7%   50.0%
  正常   14.3%   50.0%
表8:经继以留一法交叉选择的mRNA数据、分类误差
在最后的步骤中,组合了微小RNA和mRNA数据,并获得了表9所示结果。即,利用交叉验证的预计整体准确率为100.0%。因此,该组合将整体准确率由90.9%、72.7%提高到100.0%。同样,灵敏度、特异性、阳性预测值和阴性预测值提高到100%。
表9
  分类器vs.真值   结肠癌   正常
  结肠癌   100.0%   0.0%
  正常   0.0%   100.0%
表9:经继以留一法交叉验证的微小RNA和mRNA数据、分类误差
交叉验证过程中选择的微小RNA探针如表10所示。
表10
Figure BPA00001443339200241
表10:继以留一法交叉验证过程中选择的微小RNA探针
表11给出了已知人类微小RNA的桑格尔序列研究的结果(见Griffiths-Jones S,Saini HK,van Dongen S,Enright AJ.miRBase:tools formicroRNA genomics,NAR 2008 36(Database lssue):D154-D158)。
表11.
Figure BPA00001443339200242
表11:对于5-倍交叉选择过程中选择的已知人微小RNA或微小RNA探针的桑格尔序列研究的结果
交叉验证过程中选择的mRNA探针如表12所示。探针序列获得自Bioconductor包hu6800probe[Bioconductor计划,www.bioconductor.org(2008).hu6800probe:Probe sequence data for microarray of type hu6800.R package version 2.2.0.]。
表12
错配(MM)探针通过改变中间氨基酸获得,更确切来说将A变为T,T变为A,G变为C并且C变为G。探针序列各具有25的长度,即各自替换了13个氨基酸。
Figure BPA00001443339200252
Figure BPA00001443339200261
Figure BPA00001443339200271
Figure BPA00001443339200281
Figure BPA00001443339200291
表12:继以留一法交叉验证过程中选择的mRNA探针
所选mRNA探针的注释见表13。这些注释获得自Bioconductor包hu6800.db[Marc Carlson,Seth Falcon,Herve Pages和Nianhua Li(2008).hu6800.db:Affymetrix HuGeneFL Genome Array annotation data(chiphu6800).R package version 2.2.3.]结合通过PubMed[http://www.ncbi.nlm.nih.gov/pubmed/]获取的信息。
Figure BPA00001443339200301
表13:LOO交叉验证过程中选择的mRNA探针的注释
实施例2.2:mRNA和微小RNA:肾癌
使用Ramaswamy等(2001)[Ramaswamy S,Tamayo P,Riflin R,Mukherjee S,Yeang CH,Angelo M,Ladd C,Reich M,Latulippe E,Mesirov JP,Poggio T,Gerald W,Loda  M,Lander ES,Golub  TR.Multiclass cancer diagnosis using tumor gene expression signatures.ProcNatl Acad Sci USA.2001;98(26):15149-54]和Lu等(2005)[Lu J,Getz G,Miska EA,Alvarez-Saavedra E,Lamb J,Peck D,Sweet-Cordero A,EbertBL,Mak RH,Ferrando AA,Downing JR,Jacks T,Horvitz HR,Golub TR.MicroRNA expression profiles classify human cancers.Nature.2005;435(7043):834-8]的肾癌数据开发利用mRNA和微小RNA数据的多水平分类器。所述数据可在Broad Institute的主页[见http://www.broad.mit.edu/publications/broad900和http://www.broad.mit.edu/publications/broad993s]获得。整体而言,可获得3种正常组织和4种肿瘤组织的mRNA和微小RNA数据。通过含有微小RNA探针的基于珠子的阵列以及通过用于测定mRNA的AffymetrixHU6800和HU35KsubA阵列进行杂交。仅使用了HU35KsubA阵列的mRNA数据。
分析:
为了开发和验证基于这些数据的分类器,使用单隐层神经网络[Ripley,B.D.(1996)Pattern Recognition and Neural Networks.Cambridge]结合继以留一法(LOO)交叉验证,其中在各交叉验证步骤中重复各分析步骤-包括低级分析。这是一种可能性。当然,还使用了等分样品、自助或不同的k-倍(k不等于1)交叉验证法。并且,可以使用不同类别的分类函数,例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、
Figure BPA00001443339200311
Bayes等多种分类算法。
对于微小RNA以及mRNA数据,低级分析(预处理)由Huber等(2002)的方差稳定变换(常称为标准化)构成。同样存在大量可用的替代性方法。Cope等(2004)或Irizarry等(2006)给出了若干实例。在各交叉验证步骤中,选择6个标准化微小RNA探针,分别为在Welch t-测试中那些p值小于或等于0.1的探针之外的具有最大平均值差异(绝对值)的用于分类的6个标准化mRNA探针。即,使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略,Hall等(2003)给出了一些实例。整体而言,由于LOO交叉验证,对微小RNA,各自mRNA探针可进行达7次选择。
仅使用微小RNA数据,获得了表14中所示的预计误差。
表14
  分类器vs.真值   肾癌   正常
  肾癌   50.0%   66.7%
  正常   50.0%   33.3%
表14:经LOO交叉验证的微小RNA数据、分类误差
利用LOO交叉验证的预计整体准确率为42.9%,灵敏度为50%,特异性为33.3%,阳性预测值为50%并且阴性预测值为33.3%。在第二步骤中,使用HU35KsubA阵列的mRNA数据。结果可从表15读出。利用LOO交叉验证再次获得了42.9%的预计整体准确率。灵敏度、特异性、阳性预测值和阴性预测值的预计值分别为50%、33.3%、50%和33.3%。
表15
  分类器vs.真值   肾癌   正常
  肾癌   50.0%   66.7%
  正常   50.0%   33.3%
表15:经LOO交叉验证的mRNA数据、分类误差
在最后的步骤中,组合了微小RNA和mRNA数据,并获得了表16所示结果。即,利用交叉验证的预计整体准确率为71.4%。因此,该组合将整体准确率由42.9%提高到71.4%。灵敏度、特异性、阳性预测值和阴性预测值分别提高到75.0%、66.7%、75.0%和66.7%。
表16
  分类器vs.真值   肾癌   正常
  肾癌   75.0%   33.3%
  正常   25.0%   66.7%
表16:经LOO交叉验证的微小RNA和mRNA数据、分类误差
交叉验证过程中选择的微小RNA探针如表17所示。
表17
Figure BPA00001443339200331
*一些探针重复出现
表17:LOO交叉验证过程中选择的微小RNA探针(第1列是SEQ-ID-No)
表18给出了根据Griffiths-Jones等2008的已知人类微小RNA的桑格尔序列研究的结果。
表18
Figure BPA00001443339200341
表18:对于LOO交叉验证过程中选择的微小RNA探针的已知人类微小RNA的桑格尔序列研究的结果(第1列是SEQ-ID-No)
交叉验证过程中选择的mRNA探针如表19所示。探针序列获得自Bioconductor包hu35ksubaprobe(见Bioconductor计划,www.bioconductor.org(2008).hu35ksubaprobe:Probe sequence data formicoarray of type hu35ksuba.R package version 2.2.0.)。
表19
Figure BPA00001443339200351
Figure BPA00001443339200361
Figure BPA00001443339200371
Figure BPA00001443339200381
Figure BPA00001443339200391
Figure BPA00001443339200401
表19:LOO交叉验证过程中选择的mRNA探针
所选mRNA探针的注释见表20。这些注释获得自Bioconductor包hu35ksuba.db(Marc Carlson,Seth Falcon,Herve Pages和Nianhua Li(2008).hu35ksuba.db:Affymetrix Human Genome HU35K Set annotationdata(chip hu35ksuba).R package version 2.2.3.)结合通过PubMed[http://www.ncbi.nlm.nih.gov/pubmed/]获取的信息。
表20
Figure BPA00001443339200412
表20:LOO交叉验证过程中选择的mRNA探针的注释(第1列是SEQ-ID-No)
实施例2.3:mRNA和微小RNA,前列腺癌
使用Ramaswamy等(2001)[Ramaswamy S,Tamayo P,Rifkin R,Mukherjee S,Yeang CH,Angeio M,Ladd C,Reich M,Latulippe E,Mesirov JP,Poggio T,Gerald W,Loda M,Lander ES,Golub TR.Multiclass cancer diagnosis using tumor gene expression signatures.ProcNatl Acad Sci USA.2001;98(26):15149-54]和Lu等(2005)[Lu J,Getz G,Miska EA,Alvarez-Saavedra E,Lamb J,Peck D,Sweet-Cordero A,EbertBL,Mak RH,Ferrando AA,Downing JR,Jacks T,Horvitz HR,Golub TR.MicroRNA expression profiles classify human cancers.Nature.2005;435(7043):834-8]的前列腺癌数据开发利用mRNA和微小RNA数据的多水平分类器。所述数据可在Broad Institute的主页[见http://www.broad.mit.edu/publications/broad900和http://www.broad.mit.edu/publications/broad993s]获得。整体而言,可获得6种正常组织和6种肿瘤组织的整体mRNA和微小RNA数据。通过含有微小RNA探针的基于珠子的阵列以及通过用于测定mRNA的Affymetrix HU6800和HU35KsubA阵列进行杂交。仅使用了HU6800阵列的mRNA数据。
分析:
为了开发和验证基于这些数据的分类器,使用线性判别分析结合继以留一法(LOO)交叉验证,其中在各交叉验证步骤中重复各分析步骤-包括低级分析。这是一种可能性。当然,还使用了等分样品、自助或不同的k-倍(k不等于1)交叉验证法。并且,可以使用不同类别的分类函数,例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、Bayes等多种分类算法。
对于微小RNA以及mRNA数据,低级分析由Huber等(2002)的方差稳定变换(常称为标准化)构成。同样存在大量可用的替代性方法。Cope等(2004)或Irizarry等(2006)给出了若干实例。在各交叉验证步骤中,选择2个标准化微小RNA探针,分别为在Mann-Whitney测试中那些p值小于或等于0.1的微小RNA探针之外的具有最大配对差异(绝对值)的中位数的用于分类的4个标准化mRNA探针。即,使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略,Hall等2003给出了一些实例。整体而言,由于LOO交叉验证,对微小RNA,各自mRNA探针可进行达12次选择。
仅使用微小RNA数据,获得了表21中所示的预计误差。
表21
  分类器vs.真值   前列腺癌   正常
  前列腺癌   83.3%   0.0%
  正常   16.7%   100.0%
表21:经LOO交叉验证的微小RNA数据、分类误差
利用LOO交叉验证的预计整体准确率为91.7%。灵敏度、特异性、阳性预测值和阴性预测值分别为83.3%、100%、100%和85.7%。在第二步骤中,使用HU6800阵列的mRNA数据。结果可从表22读出。利用LOO交叉验证再次获得了75.0%的预计整体准确率。灵敏度、特异性、阳性预测值和阴性预测值分别为83.3%、66.7%、71.4%和80.0%。
表22
  分类器vs.真值   前列腺癌   正常
  前列腺癌   83.3%   33.3%
  正常   16.7%   66.7%
表22:经LOO交叉验证的mRNA数据、分类误差
在最后的步骤中,组合了微小RNA和mRNA数据,并获得了表23所示结果。即,利用交叉验证的预计整体准确率为91.7%。灵敏度、特异性、阳性预测值和阴性预测值分别为100.0%、83.3%、85.7%和100.0%。因此,该组合将灵敏度(癌症样品的正确分类)由83.3%提高到100.0%,并且阴性预测值由85.7%、80.0%提高到100.0%。
表23
  分类器vs.真值   前列腺癌   正常
  前列腺癌   100.0%   16.7%
  正常   0.0%   83.3%
表23:经LOO交叉验证的微小RNA和mRNA数据、分类误差
交叉验证过程中选择的微小RNA探针如表24所示。
表24
Figure BPA00001443339200441
表24:LOO交叉验证过程中选择的微小RNA探针(第1列是SEQ-ID-No)
表25给出了根据Griffiths-Jones等(2008)的已知人类微小RNA的桑格尔序列研究的结果。
表25
Figure BPA00001443339200442
表25:对于LOO交叉验证过程中选择的微小RNA探针的已知人类微小RNA的桑格尔序列研究1的结果(第1列是SEQ-ID-No)
交叉验证过程中选择的mRNA探针如表26所示。探针序列获得自Bioconductor包hu6800probe[Bioconductor计划,www.bioconductor.org(2008).hu6800probe:Probe sequence data for microarrays of type hu6800.R package version 2.2.0]。
表26
Figure BPA00001443339200451
表26:LOO交叉验证过程中选择的mRNA探针
所选mRNA探针的注释见表27。这些注释获得自Bioconductor包hu6800.db[Marc Carlson,Seth Falcon,Herve Pages和Nianhua Li(2008).hu6800.db:Affymetrix HuGeneFL Genome Array annotation data(chiphu6800).R package version 2.2.3.]结合通过PubMed[http://www.ncbi.nlm.nih.gov/pubmed/]获取的信息。
表27
Figure BPA00001443339200452
表27:LOO交叉验证过程中选择的mRNA探针的注释(第1列是SEQ-ID-No)
实施例3:代谢物和mRNA:缺血/缺氧
缺血和缺氧
早期诊断将为及时干预和选择适当疗法赢得关键时间,从而防止致命的永久性脑损伤。
对于婴儿,发达国家中早产个体的百分率在过去几十年中有所增长,现在已达到所述活产的12%[Martin JA,Hamilton BE,Sutton PD等Births:final data for 2004.Natl Vital Stat Rep.2006;55:1-101;Martin JA,Hamilton BE,Sutton PD等.Births:final data for 2005.Natl Vital Stat Rep.2007;56:1-103].
然而,进展性脑损伤和后续的神经后遗症对于受累个体及其家庭仍然是重要个人负担,并造成了相当大的社会经济问题。
成人患者和早产婴儿中对人缺血/缺氧或中风状态或围产期脑病损状态的早期检测将使得能够应用成功的治疗方案并控制这些事件的后果。
利用由大鼠缺氧模型获得的缺血数据通过来自脑样品的代谢物数据和来自血浆的qPCR数据开发多级分类器。
动物模型
在出生后第7天(P7)制造根据Rice-Vanucci′s程序的HI脑损伤模型[Rice JE,III,Vannucci RC,Brierley JB.The influence of immaturity onhypoxic-ischemic brain damage in the rat.Ann Neurol.1981;9:131-141]。各性别的幼年Sprague-Dawley大鼠(获自Charles River,Wilmington,MA,U.S.A.)随机指定a)实验组和b)时间。对于手术,使动物通过吸入O2中3%异氟烷而麻醉,通过中线切割达到右颈动脉,并以双缝合和永久缝合制造外科手术结扎。该程序在室温(23-25℃)进行。关闭颈部伤口后,将幼鼠送回母鼠身边2小时。整个外科程序持续不到10分钟。随后将幼鼠暴露于8%氧气的缺氧环境下100分钟。按照实验动物使用的欧洲委员会准则,采取足够措施来使痛苦和不适最小化。该研究方案得到了奥地利动物实验委员会的批准。
假手术动物进行麻醉、颈部切开和血管操作但不结扎或或缺氧。保持对照动物不受任何伤害。动物在i)缺氧后立即(P7)、ii)24小时后(P8)、iii)5天后(P12)接受安乐死,收集脑,以PBS漂洗并立即在液氮中冷冻,储存于-70℃以备进一步制备。
样品制备
将脑样品在冰上融化1小时,并向组织样品中添加3∶1比例(w/v)的PBS-缓冲液(磷酸盐缓冲的盐水,0.1μmol/L;Sigma Aldrich,Vienna,Austria),然后以Potter S匀化器(Sartorius,Goettingen,Germany)在冰上以9g匀化1分钟,从而制备匀浆。为了将所有样品在1批中进行分析,将样品再次冷冻(-70℃),并在分析日于冰上融化(1小时),在2℃以18000g离心5分钟。所有试管以0.001%BHT(丁基化的羟基甲苯;Sigma-Aldrich,Vienna,Austria)制备以防止自动氧化[Morrow,J.D.和L.J.Roberts.Massspectrometry of prostanoids:F2-isoprostanes produced bynon-cyclooxygenase free radical-catalyzed mechanism.Methods Enzymol.233(1994):163-74]。
总共对获得自9只对照动物和7只缺血动物的样品的数据进行了处理。利用商业试剂盒(Marker IDQTM,Biocrates AG,Innsbruck,Austria)以及下述其他基于质谱的方法测定代谢物浓度。
通过新开发的在线固相提取液相色谱串联质谱法(在线SPE-LC-MS/MS)对所提取的样品进行分析。由对实验组为盲的合作者进行所有程序(样品处理、分析)。对于脑匀浆中的游离前列腺素和脂肪氧合酶衍生的脂肪酸代谢物的同时定量,使用Unterwurzacher等所述的用于脑组织的基于LC-MS/MS的方法[Unterwurzacher I,Koal T,Bonn GK等.Rapid sample preparation and simultaneous quantitation of prostaglandinsand lipoxygenase derived fatty acid metabolites by liquidchromatography-mass spectrometry from small sample volumes.ClinChem Lab Med.2008;46:1589-1597]。由于脑样品分析过程中观察到的基体效应,在色谱分离之前利用C18 Oasis HLB柱(2.1x 20mm,25μm粒径;Waters,Vienna,Austria)作为在线SPE柱实施在线固相提取(SPE)步骤。参考适合的内标并使用灵敏度和选择性最高的电喷射电离(ESI)多反应监测(MRM)MS/MS检测模式,实现了对提取的生物样品中代谢物的定量。根据“Guidance for Industry-Bioanalytical Method Validation”,(U.S.Department of Health and Human Services,Food and DrugAdministration,2001)对组织样品匀浆验证了所述方法。对于在线SPE-LC-MS/MS分析,注射了20μL的提取匀浆。
RNA提取和cDNA合成:
将新生RNU大鼠的2个分离的脑半球收集在1ml TRIzol试剂中(Invitrogen Life Technology,Austria),在液氮中冷冻并存于-80℃以备进一步处理。根据制造商的说明书进行RNA提取。简单来说,利用微振荡器(micropistill)在冰上将脑半球在TRIzol中匀化。完全匀化后,通过氯仿提取步骤得到含有RNA的水相,之后进行通过异丙醇的沉淀。在以75%乙醇进行2个洗涤步骤之后,将快速空气干燥的RNA重悬在DEPC处理的水中,利用UV分光光度计(Ultrospec 3300 pro,Amersham,USA)测定RNA浓度,并将其储存在-80℃以备cDNA合成处理。
在逆转录(RT)之前,将1μg量的总RNA根据制造商的说明书以不含RNase的DNase I(Deoxyribonuclease I,Fermentas,Germany)进行处理,从而去除潜在的污染性DNA。DNase I处理后,利用RevertAid M-MuLV逆转录酶(Fermentas,Germany)对样品进行cDNA合成。各反应由5x RT-反应缓冲液、10mM三磷酸脱氧核糖核苷酸混合物(dNTP)、0,2μg/μl随机六聚体引物、RNase抑制剂和RevertAid M-MuLV-RT(均来自Fermentas,Germany)组成。将样品在25℃温育10分钟,然后42℃水浴60分钟。通过加热至70℃10分钟然后在冰上冷却,终止反应。将cDNA样品储存在-20℃,以备用于以BioRad iCycler iQ进行定量实时PCR。在用作定量实时PCR的模板之前,将cDNA样品1∶10预稀释。
定量实时PCR(q-RT-PCR):
在覆盖有光学透明的粘性封贴(BioRad Laboratories,Austria)的96孔0.2ml薄壁PCR板中以25μl的总体积进行定量实时PCR。实时PCR反应混合物由1x iQ SYBR Green Supermix(BioRad Laboratories,Austria)、0,4μM的各基因特异性引物和5μl的预稀释cDNA组成。开始将混合物加热至95℃3分钟,以活化iTaq DNA聚合酶,然后为45个循环:95℃变性20秒和60℃退火45秒。扩增后,添加熔融曲线分析以确定PCR产物特异性。在无模板对照中未检测到信号。
利用iCycler iQ5Optical System Software Version 2.0(BioRadLaboratories,Austria)分析结果。手动设定基线,阈值由软件自动设定。
扩增曲线与阈值线的交叉点表示循环阈值(ct)。所有样品重复测定3次,将平均值用于进一步计算。
在优化过程中,将所有基因特异性引物对在梯度PCR中测定从而测定最佳退火温度,将PCR产物加样至含溴化乙锭的2%琼脂糖凝胶以确认扩增产物的特异性和引物二聚体没有形成。
所用的基因特异性引物对的序列如表28所示(第1列是SEQ-ID-No)。
表28
Figure BPA00001443339200491
表28:经LOO交叉验证的代谢物数据、分类误差
qPCR和代谢组学数据的分析:
为了开发和验证基于这些数据的分类器,使用支持向量机[Schóllkopf,B.和Smola,A.(2001)Learning with Kernels:Support Vector Machines,Regularization,Optimization,and Beyond.MIT Press,Cambridge]组合继以留一法(LOO)交叉验证,其中在各交叉验证步骤中重复各分析步骤-包括低级分析。这是一种可能性。当然,还使用了等分样品、自助或不同的k-倍(k不等于1)交叉验证法。并且,可以使用不同类别的分类函数,例如逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、缩小矩心正规判别分析(RDA)、随机森林(RF)、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织图(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、袋翻、增压、Bayes等多种分类算法。
对于代谢物数据,低级分析由通过2进制对数(即以2为底的对数)的方差稳定变换构成。在各交叉验证步骤中,选择具有在Welch t-测试中那些p值小于或等于0.1的探针之外的具有最大平均值差异(绝对值)的4个标准化代谢物。即,使用了所谓的特征选择的求秩器。同样有多种可用的其他特征选择策略,Hall等2003给出了一些实例。整体而言,由于LOO交叉验证,可以对代谢物进行达16次选择。仅使用代谢组学数据,获得了表29中所示的预计误差。
表29
  分类器vs.真值   缺血   正常
  缺血   57.1%   33.3%
  正常   42.9%   66.7%
表29:经LOO交叉验证的代谢物数据、分类误差
利用LOO交叉验证的预计整体准确率为62.5%,灵敏度为57.1%,特异性为66.7%,阳性预测值为57.1%并且阴性预测值为66.7%。在第二步骤中,使用对SDF1和VEGF获得的qPCR数据。通过参照基因肌动蛋白-β将PCR数据标准化。分类结果可从表30读出。利用LOO交叉验证再次获得了68.9%的预计整体准确率。灵敏度、特异性、阳性预测值和阴性预测值的预计值分别为57.1%、77.8%、66.7%和70.0%。
表30
  分类器vs.真值   缺血   正常
  缺血   57.1%   22.2%
  正常   42.9%   77.8%
表30:经LOO交叉验证的qPCR数据、分类误差
在最后的步骤中,组合了代谢物和qPCR数据,并获得了表31所示结果。即,利用交叉验证的预计整体准确率为75.0%。因此,该组合将整体准确率由62.5%、68.9%提高到75.0%。灵敏度、特异性、阳性预测值和阴性预测值分别为71.4%、77.8%、71.4%和77.8%。因此,除整体准确率之外,灵敏度以及阳性预测值和阴性预测值得到增强。
表31
  分类器vs.真值   缺血   正常
  缺血   71.4%   22.2%
  正常   18.6%   77.8%
表31:经LOO交叉验证的代谢物和qPCR数据、分类误差
交叉验证过程中选择的代谢物如表32所示。
表32
Figure BPA00001443339200511
表32:LOO交叉验证过程中选择的代谢物
在表32中,总选择次数必须为64,其中每种个体代谢物可能最多选择16次。
表33
Figure BPA00001443339200522
表33:经LOO交叉验证的代谢物数据、分类误差(第1列是SEQ-ID-No)
发明实施方式
在一个实施方式中,首先,获得需要诊断、或响应或存活预后的受试者的生物样品。第二,从生物样品中选择一定量的RNA、微小RNA、肽或蛋白质、代谢物,并进行测定。第三,在样品中检测该量的RNA、微小RNA、肽或蛋白质、代谢物,并与存在于正常细胞或非癌细胞或组织或血浆中的标准量的相应生物分子比较,或与存在于对照样品中的一定量的RNA、微小RNA、肽或蛋白质、代谢物比较。如果该样品中的RNA、微小RNA、肽或蛋白质、代谢物的量不同于标准或对照样品中的RNA、微小RNA、肽或蛋白质、代谢物的量,则对来自至少2组/种包括RNA、微小RNA、肽或蛋白质、代谢物的生物分子的如上(表1)所述的浓度数据的加工和分类和分类器产生以一定概率给出指示病态的值或评分,然后将该受试者诊断为患癌、预后是对癌症治疗的低预期响应、或预后是该受试者的低预计生存率。预后是相对于具有正常水平的RNA、微小RNA、肽或蛋白质、代谢物的患癌受试者,或相对于患有复杂疾病的患者的平均预期响应或生存率。清楚的是,这些复杂疾病状态还可以是由于中毒和药物滥用。
检测或诊断复杂疾病、预测预期响应、或预测预期生存率的方法的另一实施方式包括以下步骤。首先,从受试者获得含有RNA、微小RNA、肽或蛋白质、代谢物的生物样品。使该生物样品与能够结合RNA、微小RNA、肽或蛋白质、代谢物的试剂反应。试剂与微小RNA之间的反应形成可测定的RNA、微小RNA、肽或蛋白质、代谢物产物或复合物。测量该可测定的RNA、微小RNA、肽或蛋白质、代谢物产物或复合物,数据经处理以应用图1所述步骤从而提供评分,随后与标准或对照评分值比较。
上述实例表明,本发明的方法包括对来自一个个体的不同组织获得的上述类型生物分子的定量数据进行分析并产生分类器,并显示其有利于识别与复杂疾病有关的不同状态,这是由于来自受累生物体不同位点的数据有助于生物标志物/分类器描述。
本发明可实施于具有本发明意义上的患复杂疾病风险的任何哺乳动物受试者(包括人)。
可用于本发明的样品可以以技术人员已知的任何方式获得。样品最优可包含确信为癌的组织,例如外科手术摘取肿瘤的一部分,以及含癌细胞的血液。然而,本发明不仅限于确信由于复杂疾病而改变(关于生物分子如RNA、微小RNA、蛋白质、肽、代谢物的浓度)的组织。实际上,样品可来自受试者的包含至少一些组织或细胞的任何部分,所述组织或细胞确信受复杂疾病、特别是癌症的影响和/或暴露于或接触癌组织或细胞或接触分送体内某种生物分子的体液如血液。
定量RNA或微小RNA的方法的另一实施例如下:将RNA或微小RNA的至少一部分与荧光核酸杂交,并将经杂交的RNA或微小RNA与荧光试剂反应,其中经杂交的RNA或微小RNA发射荧光。对样品中RNA或微小RNA定量的另一种方法通过使RNA或微小RNA的至少一部分与放射性标记的互补核酸杂交。在测定步骤中使用能够与RNA或微小RNA杂交的核酸的情况下,对于微小RNA而言所述核酸为至少5个核苷酸、至少10个核苷酸、至少15个核苷酸、至少20个核苷酸、至少25个核苷酸、至少30个核苷酸或至少40个核苷酸;并且长度可以不超过25个核苷酸、不超过35个核苷酸、不超过50个核苷酸、不超过75个核苷酸、不超过100个核苷酸或不超过125个核苷酸。核酸可以是与所述微小RNA的任何互补序列具有至少80%同源性、85%同源性、90%同源性、95%同源性或100%同源性的任何核酸。适合的RNA参数,例如是与存在于正常细胞或非癌细胞中的标准量的RNA或微小RNA相比的RNA或微小RNA的量,或者与对照样品中的RNA或微小RNA量相比的RNA或微小RNA的量。可通过技术人员已知的任何方法完成比较。将样品中RNA或微小RNA的量与标准量相比的实例是将样品中的5S rRNA和RNA或微小RNA之间的比率与公开或已知的正常细胞或非癌细胞中5S rRNA和RNA或微小RNA之间的比率比较。将样品中的微小RNA的量与对照比较的实例是比较样品和对照样品中得到的5S rRNA和RNA或微小RNA之间的比率。在比较RNA或微小RNA与对照的量的情况下,对照样品可获得自已知具有正常细胞或非癌细胞的任何来源。优选的是,对照样品是确信未受相应复杂疾病影响而仅含有正常细胞或非癌细胞的受试者的组织或体液。
可以以本领域技术人员已知的测定样品中RNA、微小RNA、肽或蛋白质的量的任何方式进行RNA、微小RNA、肽或蛋白质、代谢物的量测定。定量RNA或微小RNA的方法的实例是定量逆转录酶聚合酶链式反应、PCR或应用测序或第二代测序的量化和相对量化。
可以利用蛋白质印记、酶联免疫吸附测定(ELISA)、放射免疫测定或利用抗体或其他蛋白结合分子的其他测定、鉴定蛋白质或肽的质谱、利用MALDI、电喷射或其他类型电离的量化或相对量化、利用抗体或其他蛋白结合分子如适体的蛋白质和抗体阵列进行组织或细胞制备物中的蛋白质测定、各蛋白质种类的绝对和相对蛋白质量化、以及代谢物的量化。能够结合RNA、微小RNA、肽或蛋白质和代谢物的化合物可以是技术人员已知能结合RNA、微小RNA、肽或蛋白质并且其结合方式使技术人员能测定所述分子的存在和量的任何化合物。能够结合RNA、微小RNA、肽或蛋白质以及低分子量化合物和代谢物的化合物的实施例是能够与核酸、RNA、微小RNA、蛋白质和肽杂交的核酸或能与核酸、RNA、微小RNA、蛋白质和肽结合的适体。所述核酸优选具有至少5个核苷酸、至少10个核苷酸、至少15个核苷酸、至少20个核苷酸、至少25个核苷酸、至少30个核苷酸、至少40个核苷酸或至少50个核苷酸。所述核酸是与互补于RNA或微小RNA的序列优选具有至少80%同源性、85%同源性、90%同源性、95%同源性或100%同源性的任何核酸,其还可以来自相应的DNA数据,或能够结合RNA、微小RNA、肽或蛋白质或代谢物的适体。能够结合RNA或微小RNA的核酸的一个具体实例是用于逆转录酶聚合酶链式反应的核酸引物。
化合物与RNA、微小RNA、肽或蛋白质和代谢物的至少一部分的结合形成可测定的复合物。根据技术人员已知的方法测定所述可测定的复合物。所述方法的实例包括用于测定上述本发明方法中所用的RNA、微小RNA、肽或蛋白质、代谢物的量的方法。
与正常细胞或非癌细胞中或对照样品中所见RNA、微小RNA、肽或蛋白质的标准量相比,如果可测定的复合物的水平增加或降低,则该样品含有癌前细胞或癌细胞,由此诊断为癌症;预测对癌症治疗的预期响应;或预测受试者的预期生存率。
本发明方法(其实施方式如上所述)中可使用不同类型生物分子的本发明的组合物。本发明组合物的一个实施方式包含能够结合选自RNA、微小RNA、肽或蛋白质、代谢物的RNA、微小RNA、肽、蛋白质或代谢物的至少一部分的化合物。所述组合物包含能够结合选自所述实施例中概述的分子和结合这些内源生物分子的分子和结合探针的列表(但不限于此)的RNA、微小RNA、肽或蛋白质的至少一部分的化合物。上述各实例表明,所述方法通常对于2至4种确定的生物分子的组合起作用,所述确定的生物分子有蛋白质或肽、RNA、微小RNA(即RNA加微小RNA、RNA加蛋白质、蛋白质加微小RNA、RNA加蛋白质加微小RNA、以及这些生物分子的组合和生物分子与代谢物的组合,所述组合通过研究来自患有复杂疾病的受试者的组织的各种实验来选择和组合,其性能优于包含预选生物分子组的测试或诊断或预后工具,所述预选生物分子组由仅一种生物分子(例如RNA、蛋白质、代谢物或微小RNA)组成。
本发明组合物的另一实施方式是包含第二化合物的组合物,所述第二化合物能够结合的RNA、微小RNA、肽或蛋白质和代谢物与第一化合物能够结合的RNA、微小RNA、肽或蛋白质、代谢物不同。本发明组合物的另一实施方式是包含第三化合物的组合物,所述第三化合物能够结合的RNA、微小RNA、肽或蛋白质、代谢物与第一化合物和第二化合物能够结合的RNA、微小RNA、肽或蛋白质、代谢物不同。
本发明还提供了评价候选治疗剂的方法。所述方法可用于识别能调节属于至少2种或更多种上述分子类别(RNA、微小RNA、肽/蛋白质、代谢物)的1至数种上述生物分子的浓度的分子。作为选择,可进行测试来识别能调节基因编码蛋白活性的分子。
本发明的另一方面是用于诊断或预后复杂疾病的试剂盒。在该方面的一个实施方式中,试剂盒用于诊断患有复杂疾病的受试者。该方面的另一实施方式是用于预后复杂疾病的试剂盒,其中所述预后是受试者对复杂疾病治疗的预期响应。在该方面的另一实施方式中,试剂盒用于预后复杂疾病,其中所述预后是患复杂疾病的受试者的预期存活率。试剂盒包含能够结合浓度升高或降低、在癌细胞中过表达或低表达的RNA、微小RNA、肽或蛋白质、代谢物的至少一部分的组合物,其中所述RNA、微小RNA、肽或蛋白质、代谢物选自但不限于下述分子:上述实施例中列出的分子,或与结合探针结合的分子,或通过以上实施例中所述的方法定量测定的分子,并且其中差异表达(RNA、微小RNA、肽或蛋白质、代谢物中的数种分子的过表达或低表达或浓度变化,至少组合来自2种不同生物分子类别的分子(RNA加微小RNA、RNA加蛋白质或肽、微小RNA加蛋白质或肽、RNA加微小RNA加蛋白质或肽,和所有这些与代谢物的组合)(包括但不限于各类别化合物、所述结合探针、上述实施例中明确的试剂和序列)用于诊断复杂疾病,或预后受试者的预期响应或生存率。核酸或适体或抗体与靶RNA、微小RNA、肽或蛋白质和或代谢物的结合用于诊断复杂疾病、预后患复杂疾病的受试者对治疗的预期响应,或预后其预期生存率。
可以将分离的RNA、微小RNA、肽或蛋白质、代谢物与已知的诊断工具关联,所述诊断工具例如蛋白质芯片、抗体芯片、适体芯片、DNA或RNA芯片,结合的各种检测模式包括但不限于利用荧光团检测、电化学检测或将化学信号转化为电流、电阻或电荷的变化、RNA探针、或RNA引物。
本发明的一个方面是用于早期诊断复杂疾病、预后对治疗的预期响应、或预后预期生存率的检测方法。本发明可用于复杂疾病、癌症,在具体实施方式中用于白血病(AML)、前列腺和肾癌,以及短暂性脑缺血发作、缺氧/缺血。然而,从这些不同且不相关的疾病和各种癌症、具有完全不同分子病原学、表型、基因型和遗传情况的疾病已经显而易见的是,该方法通用于复杂疾病。
在具体实施方式中,根据所述方法同时使用和处理了来自生物体(受试者、患者)的不同区域(组织)的不同类型生物分子获得的数据,从而提供了对复杂疾病的分类和诊断的改进。
上述描述是示例性的,并且不具有限制性。应当理解的是,本发明不限于具体的所述方法、实验条件,因此方法和条件可以变化。
本申请所附的包含序列SEQ-ID No 1至SEQ-ID No 908的序列表是本发明公开内容的一部分。
Figure IPA00001443338800021
Figure IPA00001443338800031
Figure IPA00001443338800041
Figure IPA00001443338800051
Figure IPA00001443338800071
Figure IPA00001443338800081
Figure IPA00001443338800091
Figure IPA00001443338800111
Figure IPA00001443338800121
Figure IPA00001443338800131
Figure IPA00001443338800141
Figure IPA00001443338800161
Figure IPA00001443338800171
Figure IPA00001443338800181
Figure IPA00001443338800201
Figure IPA00001443338800211
Figure IPA00001443338800221
Figure IPA00001443338800231
Figure IPA00001443338800241
Figure IPA00001443338800261
Figure IPA00001443338800271
Figure IPA00001443338800281
Figure IPA00001443338800291
Figure IPA00001443338800301
Figure IPA00001443338800311
Figure IPA00001443338800321
Figure IPA00001443338800331
Figure IPA00001443338800341
Figure IPA00001443338800351
Figure IPA00001443338800371
Figure IPA00001443338800401
Figure IPA00001443338800411
Figure IPA00001443338800421
Figure IPA00001443338800431
Figure IPA00001443338800441
Figure IPA00001443338800451
Figure IPA00001443338800481
Figure IPA00001443338800491
Figure IPA00001443338800501
Figure IPA00001443338800511
Figure IPA00001443338800521
Figure IPA00001443338800541
Figure IPA00001443338800551
Figure IPA00001443338800561
Figure IPA00001443338800581
Figure IPA00001443338800591
Figure IPA00001443338800601
Figure IPA00001443338800611
Figure IPA00001443338800621
Figure IPA00001443338800631
Figure IPA00001443338800641
Figure IPA00001443338800651
Figure IPA00001443338800661
Figure IPA00001443338800681
Figure IPA00001443338800691
Figure IPA00001443338800701
Figure IPA00001443338800711
Figure IPA00001443338800721
Figure IPA00001443338800731
Figure IPA00001443338800741
Figure IPA00001443338800751
Figure IPA00001443338800761
Figure IPA00001443338800771
Figure IPA00001443338800781
Figure IPA00001443338800791
Figure IPA00001443338800801
Figure IPA00001443338800811
Figure IPA00001443338800821
Figure IPA00001443338800831
Figure IPA00001443338800841
Figure IPA00001443338800851
Figure IPA00001443338800861
Figure IPA00001443338800871
Figure IPA00001443338800881
Figure IPA00001443338800891
Figure IPA00001443338800911
Figure IPA00001443338800921
Figure IPA00001443338800931
Figure IPA00001443338800941
Figure IPA00001443338800951
Figure IPA00001443338800961
Figure IPA00001443338800971
Figure IPA00001443338800981
Figure IPA00001443338801001
Figure IPA00001443338801011
Figure IPA00001443338801021
Figure IPA00001443338801051
Figure IPA00001443338801061
Figure IPA00001443338801071
Figure IPA00001443338801081
Figure IPA00001443338801091
Figure IPA00001443338801111
Figure IPA00001443338801121
Figure IPA00001443338801131
Figure IPA00001443338801141
Figure IPA00001443338801151
Figure IPA00001443338801161
Figure IPA00001443338801181
Figure IPA00001443338801191
Figure IPA00001443338801201
Figure IPA00001443338801211
Figure IPA00001443338801231
Figure IPA00001443338801241
Figure IPA00001443338801251
Figure IPA00001443338801271
Figure IPA00001443338801291
Figure IPA00001443338801311
Figure IPA00001443338801321
Figure IPA00001443338801331
Figure IPA00001443338801341
Figure IPA00001443338801351
Figure IPA00001443338801361
Figure IPA00001443338801371
Figure IPA00001443338801391
Figure IPA00001443338801401
Figure IPA00001443338801411
Figure IPA00001443338801421
Figure IPA00001443338801431
Figure IPA00001443338801441
Figure IPA00001443338801451
Figure IPA00001443338801461
Figure IPA00001443338801471
Figure IPA00001443338801481
Figure IPA00001443338801491

Claims (18)

1.一种哺乳动物受试者的至少一个组织的至少一个生物样品中的复杂疾病或其亚型的体外诊断方法,所述复杂疾病或其亚型选自:
癌症,特别是急性髓细胞白血病(AML)、结肠癌、肾癌、前列腺癌;短暂性脑缺血发作(TIA),缺血,特别是中风、缺氧、缺氧缺血脑病、围产期脑损伤、新生儿窒息的缺氧缺血脑病;脱髓鞘性病,特别是白质病、脑室周围脑白质病、多发性硬化症、阿尔茨海默病和帕金森氏病;
所述方法包括以下步骤:
a)选择至少2个不同种类的生物分子,其中所述种类的生物分子选自:RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物;
b)利用至少2组不同种类的生物分子测定所述样品中的每一种类的多个生物分子的选自存在或不存在、定性和/或定量分子模式和/或分子标记、水平、量、浓度和表达水平的至少一种参数,并将所获得的值的组作为原始数据存储于数据库中;
c)对所述原始数据进行数学预处理从而减少步骤b)中所用测定程序固有的技术误差;
d)从逻辑回归、(对角线)线性或二次判别分析(LDA、QDA、DLDA、DQDA)、感知器、缩小矩心正规判别分析(RDA)、随机森林(RF)、神经网络(NN)、贝叶斯网络、隐马模型、支持向量机(SVM)、偏一般最小平方法(GPLS)、围绕中心点划分(PAM)、自组织映射(SOM)、递归拆分和回归树、K-最邻近分类法(K-NN)、模糊分类器、袋翻、增压、和
Figure FPA00001443339100011
Bayes中选择至少一种适合的分类算法;并将所述选择的分类器算法用于步骤c)的所述预处理的数据;
e)将步骤d)的所述分类器算法对至少一个训练数据组进行训练,所述训练数据组包含来自根据其病理生理、生理、预后、或响应者情况分类的受试者的预处理数据,从而选择一个分类器功能从而将所述预处理数据映射至所述情况;
f)将步骤e)的所述经训练的分类器算法应用于病理生理、生理、预后、或响应者情况未知的受试者的预处理数据组,并使用所述经训练的分类器算法预测所述数据组的类别标签从而诊断所述受试者的病况。
2.如权利要求1所述的方法,其特征在于所述组织选自血液和其他体液、脑脊液、骨组织、骨髓组织、肌肉组织、腺体组织、脑组织、神经组织、粘液组织、结缔组织、和皮肤组织,和/或所述样品是活检样品,和/或所述哺乳动物受试者包括人;和/或
其特征还在于还选择临床化学中常用的标准实验室参数,例如低分子量生化化合物的血清和/或血浆水平、酶、酶活性、细胞表面受体和/或细胞计数,特别是红细胞和/或白细胞计数、血小板计数。
3.如权利要求1或2所述的方法,其特征在于步骤b)中获得的所述原始数据的所述数学预处理步骤通过选自以下的统计学方法进行:
对于通过光谱(UV、可见光、IR、荧光)获得的原始数据:背景校正和/或标准化;
对于通过质谱偶联液相色谱或气相色谱、或毛细管电泳、或通过2D凝胶电泳、ELISA或RIA的定量测定或通过免疫印记量化或与适体结合的生物分子的量的量化而对浓度/量的测定获得的代谢组学和/或蛋白质组学的原始数据:平滑、基线校正、峰拾取,可选的是附加的进一步数据变换,例如采用算法以进行方差的稳定化;
对于通过转录组学获得的原始数据:将单像素求和为单强度信号;背景校正;将多探针信号求和为单表达值,特别是完美匹配/错配探针;标准化。
4.如权利要求1至3中任一项所述的方法,其特征在于在预处理步骤c)之后插入进一步的特征选择步骤,从而在类别之间找到具有最高分辨力的更低维度的特征亚组;和
所述特征选择通过过滤器和/或包装器方法进行;其中所述过滤器方法包括求秩器和/或特征亚组评估法。
5.如权利要求1至4中任一项所述的方法,其特征在于所述病理生理情况对应于标记“患病”,并且所述生理情况对应于标记“健康”,或者所述病理生理情况对应于不同的标记“疾病的级别”、“疾病的亚型”、不同值的“确定疾病的评分”;所述预后情况对应于标记“良好”、“中等”、“差”,或“治疗有响应”或“治疗无响应”或“治疗响应差”。
6.如权利要求1至5中任一项所述的方法,其特征在于所述代谢数据是高通量质谱数据。
7.如权利要求1至6中任一项所述的方法,其特征在于所述复杂疾病是AML,所述哺乳动物受试者是人,所述生物样品血液和/或血液细胞和/或骨髓;
其中所述不同种类的生物分子是微小RNA和蛋白质,特别是非成熟造血干细胞的表面蛋白,优选CD34;
其中微小RNA表达水平和CD34存在用作步骤b)的所述参数;
其中微小RNA表达的原始数据利用方差稳定标准化和将标准化多探针信号(技术平行测定)用中位数求和为单一表达值而进行预处理;
其中将求秩器,特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Mann-Whitney显著性测试用于所述特征选择;
其中将逻辑回归选择作为适合的分类算法,包括预处理的和过滤的微小RNA表达数据和CD34信息的分类算法的训练通过n倍交叉验证进行,所述n倍交叉验证特别是5至10倍、优选5倍交叉验证;
将对所述预处理的微小RNA表达数据组和CD34信息训练的所述逻辑回归分类器用于疑似患有AML的受试者,并将经训练的分类器用于诊断具体AML类型。
8.如权利要求7所述的方法,其特征在于使用以下DNA探针来靶向所述微小RNA:Seq-ID No.1至Seq-ID No.14;
和/或
使用以下微小RNA-靶序列:Seq-ID No.15至26。
9.如权利要求1至8中任一项所述的方法,其特征在于所述复杂疾病是结肠癌,所述哺乳动物受试者是人,所述生物样品是结肠组织;
其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA对应物;
其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;
其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;
其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;
其中将求秩器,特别是作为微小RNA表达数据的过滤器的结合配对差异的最大中位数的Mann-Whitney显著性测试用于所述特征选择;
其中将随机森林选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;
将对所述预处理的mRNA和微小RNA表达数据组训练的所述随机森林分类器用于疑似患有结肠癌的受试者,并将经训练的分类器用于诊断结肠癌和/或其亚型。
10.如权利要求9所述的方法,其特征在于使用以下DNA探针来靶向所述微小RNA:Seq-ID No.27至Seq-ID No.34;
如/或
使用以下微小RNA-靶序列:Seq-ID No.35至Seq-ID No.42;
和/或
使用以下DNA探针来靶向所述mRNA:Seq-ID No.43至Seq-ID No.264;
和/或
使用以下靶DNA序列:Seq-ID No.265至276。
11.如权利要求1至6中任一项所述的方法,其特征在于所述复杂疾病是肾癌,所述哺乳动物受试者是人,所述生物样品是肾组织;
其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA对应物;
其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;
其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;
其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;
其中将求秩器,特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大平均数的Welch t-测试(显著性测试)用于所述特征选择;
其中将单隐层神经网络选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;将对所述预处理的mRNA和微小RNA表达数据组训练的所述单隐层神经网络分类器用于疑似患有肾癌的受试者,并将经训练的分类器用于诊断肾癌和/或其亚型。
12.如权利要求11所述的方法,其特征在于使用以下DNA探针来靶向所述微小RNA:Seq-ID No.33和277至288;
和/或
使用以下微小RNA-靶序列:Seq-ID No.21、41、289至297;
和/或
使用以下DNA探针来靶向所述mRNA:Seq-ID No.298至716;
和/或
使用以下DNA靶序列:Seq-ID No.265、268、717至732。
13.如权利要求1至6中任一项所述的方法,其特征在于所述复杂疾病是前列腺癌,所述哺乳动物受试者是人,所述生物样品是尿路和/或前列腺组织;
其中所述不同种类的生物分子是mRNA和/或其DNA对应物和微小RNA和/或其DNA对应物;
其中mRNA表达水平和微小RNA表达水平用作步骤b)的所述参数;
其中微小RNA表达的原始数据利用方差稳定标准化进行预处理;
其中mRNA表达的原始数据利用方差稳定标准化和利用稳健多阵列平均值(RMA)将完美匹配(PM)和错配(MM)探针求和为表达测量值而进行预处理;
其中将求秩器,特别是作为mRNA和微小RNA表达数据的过滤器的结合配对差异的最大中位数的Mann-Whitney显著性测试用于所述特征选择;
其中将线性判别分析选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;
将对所述预处理的mRNA和微小RNA表达数据组训练的所述线性判别分析分类器用于疑似患有前列腺癌的受试者,并将经训练的分类器用于诊断前列腺癌和/或其亚型。
14.如权利要求13所述的方法,其特征在于使用以下DNA探针来靶向所述微小RNA:Seq-ID No 733至735;
和/或
使用以下微小RNA-靶序列:Seq-ID No 736-738;
和/或
使用以下DNA探针来靶向所述mRNA:Seq-ID No.739至Seq-ID No.892;
和/或
使用以下DNA靶序列:Seq-ID No.893至900。
15.如权利要求1至6中任一项所述的方法,其特征在于所述复杂疾病是短暂性脑缺血发作(TIA)和/或缺血和/或缺氧,所述哺乳动物受试者是人,所述生物样品是血液和/或血液细胞和/或脑脊液和/或脑组织;
其中所述不同种类的生物分子是mRNA和/或其DNA对应物和脑代谢物,特别是游离的前列腺素、脂加氧酶来源脂肪酸代谢物、谷氨酰胺、谷氨酸、白氨基酸、丙氨酸、丝氨酸、二十二碳六烯酸(DHA)、12(S)-羟基二十碳四烯酸(12S-HETE);
其中mRNA表达水平和定量和/或定性分子代谢物模式(代谢组学数据)用作步骤b)的所述参数;
其中mRNA表达的原始数据利用肌动蛋白-β作为参照基因进行预处理,所述脑代谢物的代谢组学数据通过经由2进制对数(即以2为底)的方差稳定变换进行预处理;
其中求秩器,特别是作为代谢组学数据的过滤器的结合配对差异的最大平均数的Welch t-测试(显著性测试)用于所述特征选择;
其中将支持向量机选择作为适合的分类算法,包括预处理的和过滤的mRNA与微小RNA表达数据的分类算法的训练通过继以留一法(LOO)交叉验证进行;
将对所述预处理的mRNA表达数据和所述代谢组学数据组训练的所述支持向量机分类器用于疑似患有缺血和/或缺氧的受试者,并将经训练的分类器用于诊断缺血和/或缺氧和/或其分级。
16.如权利要求15所述的方法,其特征在于通过固相提取液相色谱串联质谱法(在线SPE-LC-MS/MS)分析样品,其中优选将C18柱用作固相提取柱;并且其中所述生物组织样品中的测定的代谢物浓度的量化优选通过参考内标并通过使用电喷射电离多反应监测串联质谱检测模式来调校。
17.如权利要求15至17中任一项所述的方法,其特征在于所述mRNA表达数据通过定量实时PCR(q-RT-PCR)获得;
和/或
使用以下引物对:Seq-ID No.901至906;和/或使用以下DNA靶序列:Seq-ID No.265、907和908。
18.一种用于在生物样品中进行如权利要求1至17中任一项所述方法的试剂盒,所述试剂盒包含:
a)用于检测至少2种不同种类的生物分子的检测剂,其中所述种类的生物分子选自:RNA和/或其DNA对应物、微小RNA和/或其DNA对应物、肽、蛋白质、和代谢物;
b)阳性和/或阴性对照;和
c)用于将以所述检测剂取得的结果进行分类的分类软件。
CN2010800136482A 2009-04-07 2010-03-31 复杂疾病的体外诊断方法 Pending CN102362279A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09157517.5 2009-04-07
EP09157517A EP2239675A1 (en) 2009-04-07 2009-04-07 Method for in vitro diagnosing a complex disease
PCT/EP2010/054384 WO2010115833A1 (en) 2009-04-07 2010-03-31 Method for in vitro diagnosing a complex disease

Publications (1)

Publication Number Publication Date
CN102362279A true CN102362279A (zh) 2012-02-22

Family

ID=40941608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800136482A Pending CN102362279A (zh) 2009-04-07 2010-03-31 复杂疾病的体外诊断方法

Country Status (7)

Country Link
US (1) US20120115138A1 (zh)
EP (3) EP2239675A1 (zh)
JP (1) JP2012523000A (zh)
CN (1) CN102362279A (zh)
AU (1) AU2010233846A1 (zh)
CA (1) CA2754389A1 (zh)
WO (1) WO2010115833A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793690A (zh) * 2014-01-27 2014-05-14 天津科技大学 一种基于皮下血流探测的人体生物活体检测方法及应用
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN104838372A (zh) * 2012-10-09 2015-08-12 凡弗3基因组有限公司 用于生物路径中的调控互动的学习和识别的系统和方法
CN105044168A (zh) * 2015-06-03 2015-11-11 福建医科大学 基于氟代核酸探针的双通道传感器检测急早幼粒PML/RARα基因序列的方法
CN105678481A (zh) * 2016-03-25 2016-06-15 清华大学 一种基于随机森林模型的管线健康状态评估方法
CN106339593A (zh) * 2016-08-31 2017-01-18 青岛睿帮信息技术有限公司 基于医疗数据建模的川崎病分类预测方法
CN107679362A (zh) * 2017-09-19 2018-02-09 广东药科大学 化合物‑蛋白质相互作用亲和力识别方法、系统和装置
CN108169184A (zh) * 2017-09-05 2018-06-15 哈尔滨工业大学 一种肿瘤分类鉴别模型的建立方法及其应用
CN108376564A (zh) * 2018-02-06 2018-08-07 天津艾登科技有限公司 基于随机森林算法的疾病诊断并发症识别方法及系统
CN110221011A (zh) * 2019-05-22 2019-09-10 南京鼓楼医院 系统性硬化症诊断的脂肪酸代谢物分析检测方法
CN112080414A (zh) * 2019-06-13 2020-12-15 克雷多生物医学私人有限公司 一种可即时侦测一种以上萤光讯号的聚合酶链式反应装置
WO2022198812A1 (zh) * 2021-03-23 2022-09-29 广州医科大学附属第一医院(广州呼吸中心) 一种用于评估变应原特异性免疫治疗效果的血清学标志物

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140235487A1 (en) * 2010-11-12 2014-08-21 William Marsh Rice University Oral cancer risk scoring
US20140038197A1 (en) * 2011-01-07 2014-02-06 Thomas Jefferson University System for and method of determining cancer prognosis and predicting response to therapy
US8945829B2 (en) 2011-03-22 2015-02-03 Cornell University Distinguishing benign and malignant indeterminate thyroid lesions
AU2012316129B2 (en) 2011-09-28 2017-10-05 Htg Molecular Diagnostics, Inc. Methods of co-detecting mRNA and small non-coding RNA
WO2013067531A2 (en) * 2011-11-03 2013-05-10 Dcb-Usa Llc Methods of using microrna 195 in providing neuroprotection
JP6189587B2 (ja) * 2012-08-27 2017-08-30 株式会社島津製作所 質量分析装置、及び該装置を用いた癌診断装置
EP2943116B1 (en) 2013-01-09 2021-06-23 Siemens Healthcare Diagnostics Inc. Throughput optimizing reagent distribution
RU2540831C2 (ru) * 2013-01-23 2015-02-10 Олег Владимирович Чикало Способ автоматизированной диагностики заболеваний
US20140236025A1 (en) * 2013-02-15 2014-08-21 Michael L. Sheldon Personal Health Monitoring System
CN105190400A (zh) * 2013-03-11 2015-12-23 罗氏血液诊断公司 对血细胞进行成像
WO2015066726A1 (en) * 2013-11-04 2015-05-07 The Research Foundation Of State University Of New York Methods, systems, and devices for determining and visually indicating demyelinated pathways
AU2014357720A1 (en) 2013-12-03 2016-05-26 Children's National Medical Center Method and system for wound assessment and management
JP6715451B2 (ja) * 2015-04-08 2020-07-01 国立大学法人山梨大学 マススペクトル解析システム,方法およびプログラム
US20180142303A1 (en) * 2015-05-19 2018-05-24 The Wistar Institute Of Anatomy And Biology Methods and compositions for diagnosing or detecting lung cancers
JP6628181B2 (ja) * 2015-12-17 2020-01-08 株式会社島津製作所 質量分析を用いた試料解析方法及び試料解析システム
EP3458992B1 (en) * 2016-05-19 2022-03-02 Quartz Bio SA Biomarkers signature discovery and selection
JP6743892B2 (ja) * 2016-07-29 2020-08-19 株式会社島津製作所 質量分析データ解析装置及び解析方法
JP6280997B1 (ja) * 2016-10-31 2018-02-14 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法
US10788484B2 (en) 2017-06-29 2020-09-29 Quanticision Diagnostics Inc. Apparatus and method for absolute quantification of biomarkers for solid tumor diagnosis
US10636512B2 (en) 2017-07-14 2020-04-28 Cofactor Genomics, Inc. Immuno-oncology applications using next generation sequencing
CN109308545B (zh) * 2018-08-21 2023-07-07 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质
CN112748191A (zh) * 2019-10-30 2021-05-04 深圳脉图精准技术有限公司 诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用
CN110853756B (zh) * 2019-11-08 2020-10-30 郑州轻工业学院 基于som神经网络和svm的食管癌风险预测方法
CN111223520B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草尼古丁含量的全基因组选择模型及其应用
CN110782943B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草株高的全基因组选择模型及其应用
CN116738352B (zh) * 2023-08-14 2023-12-22 武汉大学人民医院(湖北省人民医院) 视网膜血管阻塞疾病的视杆细胞异常分类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1357763A (zh) * 2000-12-15 2002-07-10 中国科学院大连化学物理研究所 用多变量分类基于体液中核苷诊断癌症的方法
US20070254295A1 (en) * 2006-03-17 2007-11-01 Prometheus Laboratories Inc. Methods of predicting and monitoring tyrosine kinase inhibitor therapy

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9002480D0 (sv) 1990-07-23 1990-07-23 Hans Lilja Assay of free and complexed prostate-specific antigen
WO2004097368A2 (en) * 2003-04-28 2004-11-11 Ciphergen Biosystems, Inc. Improved immunoassays
WO2004111197A2 (en) 2003-06-10 2004-12-23 Trustees Of Boston University Gene expression signatures, methods and compositions for diagnosing disorders of the lung
EP1900824A1 (en) * 2006-09-14 2008-03-19 Deutsches Krebsforschungszentrum Stiftung Des Öffentlichen Rechts Gene expression signature for the prognosis, diagnosis and therapy of prostate cancer and uses thereof
WO2008055158A2 (en) 2006-10-30 2008-05-08 University Of South Alabama Microrna as biomarker in cancer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1357763A (zh) * 2000-12-15 2002-07-10 中国科学院大连化学物理研究所 用多变量分类基于体液中核苷诊断癌症的方法
US20070254295A1 (en) * 2006-03-17 2007-11-01 Prometheus Laboratories Inc. Methods of predicting and monitoring tyrosine kinase inhibitor therapy

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104838372A (zh) * 2012-10-09 2015-08-12 凡弗3基因组有限公司 用于生物路径中的调控互动的学习和识别的系统和方法
CN103793690B (zh) * 2014-01-27 2017-08-18 天津科技大学 一种基于皮下血流探测的人体生物活体检测方法及应用
CN103793690A (zh) * 2014-01-27 2014-05-14 天津科技大学 一种基于皮下血流探测的人体生物活体检测方法及应用
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN105044168A (zh) * 2015-06-03 2015-11-11 福建医科大学 基于氟代核酸探针的双通道传感器检测急早幼粒PML/RARα基因序列的方法
CN105678481B (zh) * 2016-03-25 2019-02-22 清华大学 一种基于随机森林模型的管线健康状态评估方法
CN105678481A (zh) * 2016-03-25 2016-06-15 清华大学 一种基于随机森林模型的管线健康状态评估方法
CN106339593A (zh) * 2016-08-31 2017-01-18 青岛睿帮信息技术有限公司 基于医疗数据建模的川崎病分类预测方法
CN106339593B (zh) * 2016-08-31 2023-04-18 北京万灵盘古科技有限公司 基于医疗数据建模的川崎病分类预测方法
CN108169184A (zh) * 2017-09-05 2018-06-15 哈尔滨工业大学 一种肿瘤分类鉴别模型的建立方法及其应用
CN107679362B (zh) * 2017-09-19 2020-12-08 广东药科大学 化合物-蛋白质相互作用亲和力识别方法、系统和装置
CN107679362A (zh) * 2017-09-19 2018-02-09 广东药科大学 化合物‑蛋白质相互作用亲和力识别方法、系统和装置
CN108376564A (zh) * 2018-02-06 2018-08-07 天津艾登科技有限公司 基于随机森林算法的疾病诊断并发症识别方法及系统
CN110221011A (zh) * 2019-05-22 2019-09-10 南京鼓楼医院 系统性硬化症诊断的脂肪酸代谢物分析检测方法
CN112080414A (zh) * 2019-06-13 2020-12-15 克雷多生物医学私人有限公司 一种可即时侦测一种以上萤光讯号的聚合酶链式反应装置
WO2022198812A1 (zh) * 2021-03-23 2022-09-29 广州医科大学附属第一医院(广州呼吸中心) 一种用于评估变应原特异性免疫治疗效果的血清学标志物

Also Published As

Publication number Publication date
EP2239675A1 (en) 2010-10-13
EP2942724A3 (en) 2016-01-13
EP2942724A2 (en) 2015-11-11
JP2012523000A (ja) 2012-09-27
WO2010115833A1 (en) 2010-10-14
AU2010233846A1 (en) 2011-09-22
EP2417545A1 (en) 2012-02-15
US20120115138A1 (en) 2012-05-10
EP2417545B1 (en) 2015-05-13
CA2754389A1 (en) 2010-10-14

Similar Documents

Publication Publication Date Title
CN102362279A (zh) 复杂疾病的体外诊断方法
Shen et al. Prognostic meta-signature of breast cancer developed by two-stage mixture modeling of microarray data
Wang et al. Analysis of serum microRNA profile by solexa sequencing in women with endometriosis
AU2015289758B2 (en) Methods for evaluating lung cancer status
Hu et al. Human saliva proteome and transcriptome
EP2215266B1 (en) Diagnostic biomarkers of diabetes
Riedmaier et al. Transcriptional biomarkers–high throughput screening, quantitative verification, and bioinformatical validation methods
CN104903468B (zh) 用于帕金森氏病的新诊断MiRNA标志物
Benayoun et al. Adult ovarian granulosa cell tumor transcriptomics: prevalence of FOXL2 target genes misregulation gives insights into the pathogenic mechanism of the p. Cys134Trp somatic mutation
US20150100242A1 (en) Method, kit and array for biomarker validation and clinical use
WO2013049152A2 (en) Methods for evaluating lung cancer status
EP2406729B1 (en) A method, system and computer program product for the systematic evaluation of the prognostic properties of gene pairs for medical conditions.
JP2023524016A (ja) 結腸細胞増殖性障害を特定するためのrnaマーカと方法
Kaderali et al. CASPAR: a hierarchical bayesian approach to predict survival times in cancer from gene expression data
CN115701286A (zh) 使用无循环mRNA谱分析检测阿尔茨海默病风险的系统和方法
Kohlmann et al. Pattern robustness of diagnostic gene expression signatures in leukemia
US20210262040A1 (en) Algorithms for Disease Diagnostics
CN114360721A (zh) 代谢相关子宫内膜癌的预后模型及构建方法
JP2008538284A (ja) 乳房の腫瘍のレーザーマイクロダイセクションおよびマイクロアレイ解析が、エストロゲン受容体に関係する遺伝子および経路を明らかにする
Buness et al. Classification across gene expression microarray studies
Jørgensen et al. Untangling the intracellular signalling network in cancer—A strategy for data integration in acute myeloid leukaemia
Li et al. Candidate biomarkers of EV-microRNA in detecting REM sleep behavior disorder and Parkinson’s disease
US20240167097A1 (en) Cellular response assays for lung cancer
Ostrowski et al. Three clinical variants of gastroesophageal reflux disease form two distinct gene expression signatures
Zhang et al. An investigation of how normalisation and local modelling techniques confound machine learning performance in a mental health study

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120222