CN111684282A - 结直肠癌生物标志物的稳健小组 - Google Patents

结直肠癌生物标志物的稳健小组 Download PDF

Info

Publication number
CN111684282A
CN111684282A CN201880088625.4A CN201880088625A CN111684282A CN 111684282 A CN111684282 A CN 111684282A CN 201880088625 A CN201880088625 A CN 201880088625A CN 111684282 A CN111684282 A CN 111684282A
Authority
CN
China
Prior art keywords
human
crc
panel
sample
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880088625.4A
Other languages
English (en)
Inventor
布鲁斯·威尔考克斯
莉萨·克罗纳
阿提特·卡欧
尤佳
罗斯林·狄龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Applied Proteomics Inc
Original Assignee
Applied Proteomics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Applied Proteomics Inc filed Critical Applied Proteomics Inc
Publication of CN111684282A publication Critical patent/CN111684282A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57419Specifically defined cancers of colon
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6842Proteomic analysis of subsets of protein mixtures with reduced complexity, e.g. membrane proteins, phosphoproteins, organelle proteins
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y301/00Hydrolases acting on ester bonds (3.1)
    • C12Y301/03Phosphoric monoester hydrolases (3.1.3)
    • C12Y301/03048Protein-tyrosine-phosphatase (3.1.3.48)
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/46Assays involving biological materials from specific organisms or of a specific nature from animals; from humans from vertebrates
    • G01N2333/47Assays involving proteins of known structure or function as defined in the subgroups
    • G01N2333/4701Details
    • G01N2333/4728Details alpha-Glycoproteins
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/46Assays involving biological materials from specific organisms or of a specific nature from animals; from humans from vertebrates
    • G01N2333/47Assays involving proteins of known structure or function as defined in the subgroups
    • G01N2333/4701Details
    • G01N2333/4745Insulin-like growth factor binding protein
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/90Enzymes; Proenzymes
    • G01N2333/914Hydrolases (3)
    • G01N2333/916Hydrolases (3) acting on ester bonds (3.1), e.g. phosphatases (3.1.3), phospholipases C or phospholipases D (3.1.4)

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Cell Biology (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Food Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本文描述了用于开发并利用评估健康状态如结直肠癌的测定的系统和方法。

Description

结直肠癌生物标志物的稳健小组
交叉引用
本申请要求2017年12月5日提交的系列号为62/594,941的美国临时申请的权益,该美国临时申请明确地通过引用整体并入本文。
背景技术
在过去的20年中,质谱法(MS)已成为用于基于蛋白质组学的生物标志物发现的动态工具,其提供的信息多于其他高通量方法所能获得的信息。然而,当无法独立地重现原始研究中有前景的主题时,来自MS研究的已公开的生物标志物候选物通常无法转化为临床应用。
发明内容
本文提供了提供靶向蛋白质组学工作流程的方法和系统,所述蛋白质组学工作流程有效地鉴别与疾病,例如结直肠癌相关的蛋白质生物标志物。本公开认识到,过去的质谱研究的失败可以归因于各种缺点,例如在研究设计、样品质量、测定稳健性、测定再现性和/或质量控制方面的缺点。因此,本文公开的方法和系统的某些方面利用质量和/或过程控制指标和程序来增强预测准确性和一致性。
本文提供了例如使用个体的血液样品评估个体的CRC状态的非侵入性方法。一些这样的方法包括以下步骤:从所述个体获得循环血液样品;获得该样品中包含一系列蛋白质的生物标志物小组(panel)的生物标志物小组水平,所述生物标志物小组包含A2GL、ALS和PTPRJ,并且还包括个体年龄和性别作为生物标志物以构成来自所述个体的小组信息,以及使用所述小组信息进行CRC健康评估。一些途径包括将来自所述个体的所述小组信息与对应于已知结直肠癌状态的参考小组信息集进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述结直肠癌状态。一些途径包括在算法中使用小组水平来获得小组得分,并将所述小组得分与对应于已知结直肠癌状态的至少一个参考小组信息集得分的小组得分进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述结直肠癌状态。一些途径包括在算法中使用所选生物标志物相对于彼此的比率来获得小组得分,并将所述小组得分与对应于已知结直肠癌状态的至少一个参考小组信息集得分的小组得分进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述结直肠癌状态。
一些途径包括将来自所述个体的所述小组信息与对应于已知结直肠癌状态的参考小组信息集进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集显著不同,则将所述个体分类为具有与所述参考小组不同的CRC状态。一些途径包括在算法中使用小组水平来获得小组得分,并将所述小组得分与对应于已知结直肠癌状态的至少一个参考小组信息集得分的小组得分进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集显著不同,则将所述个体分类为具有所述结直肠癌状态。一些途径包括在算法中使用所选生物标志物相对于彼此的比率来获得小组得分,并将所述小组得分与对应于已知结直肠癌状态的至少一个参考小组信息集得分的小组得分进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集显著不同,则将所述个体分类为具有所述结直肠癌状态。
本文公开的一些CRC小组显示出验证曲线下面积(AUC)——小组测试成功的参数——为至少0.80,如0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90,或大于0.90。在一些情况下,观察到CRC AUC为0.82或约0.82,并且验证灵敏度为0.81或约0.81,且验证特异性为0.78或约0.78。
本文还提供了例如使用个体的血液样品评估个体的晚期腺瘤状态的非侵入性方法。一些这样的方法包括以下步骤:从所述个体获得循环血液样品;获得该样品中包含一系列蛋白质的生物标志物小组的生物标志物小组水平,所述生物标志物小组包含A2GL、ALS和PTPRJ,并且获得个体的年龄作为生物标志物以构成来自所述个体的小组信息,以及使用所述小组信息进行CRC健康评估。一些途径包括将来自所述个体的所述小组信息与对应于已知AA状态的参考小组信息集进行比较;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述AA状态。一些途径包括在算法中使用小组水平来获得小组得分,并将所述小组得分与对应于已知AA状态的至少一个参考小组信息集得分的小组得分进行比较;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述AA状态。一些途径包括在算法中使用所选生物标志物相对于彼此的比率来获得小组得分,并将所述小组得分与对应于已知AA状态的至少一个参考小组信息集得分的小组得分进行比较;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述AA状态。
一些途径包括将来自所述个体的所述小组信息与对应于已知AA状态的参考小组信息集进行比较;以及如果所述个体的参考小组信息与所述参考小组信息集显著不同,则将所述个体分类为具有与所述参考小组不同的AA状态。一些途径包括在算法中使用小组水平来获得小组得分,并将所述小组得分与对应于已知AA状态的至少一个参考小组信息集得分的小组得分进行比较;以及如果所述个体的参考小组信息与所述参考小组信息集显著不同,则将所述个体分类为不具有所述AA状态。一些途径包括在算法中使用所选生物标志物相对于彼此的比率来获得小组得分,并将所述小组得分与对应于已知AA状态的至少一个参考小组信息集得分的小组得分进行比较;以及如果所述个体的参考小组信息与所述参考小组信息集显著不同,则将所述个体分类为不具有所述AA状态。
鉴于以上和本文的公开内容,本文提供了用于诊断和/或治疗晚期结直肠腺瘤和结直肠癌中的至少一种的方法、组合物、试剂盒、计算机可读介质和系统。通过本文提供的方法和组合物,从个体获取样品。在一些情况下,所述个体不呈现结直肠癌或晚期腺瘤或结直肠癌和腺瘤两者的症状。作为常规健康观察或监测的一部分,对一些个体进行检测。或者,关于呈现出诸如结直肠癌或晚期腺瘤或结直肠癌和腺瘤两者等结直肠健康问题的至少一种症状,对一些个体进行检测。在一些情况下,所述个体被鉴别为具有结直肠癌或晚期腺瘤或结直肠癌和腺瘤两者的风险。对样品进行测定,以确定诸如蛋白质或者蛋白质和年龄或者蛋白质和性别或者蛋白质和年龄和性别等标志物小组的累积水平,该标志物小组例如是包含本文公开的小组中的标志物或由之组成的标志物小组。在许多情况下,所述小组包含单个已知在表明晚期结直肠腺瘤或结直肠癌的存在中起作用的蛋白质,而在其他情况下,所述小组包含未知与晚期结直肠腺瘤或结直肠癌相关的一种或多种蛋白质。然而,在所有情况下,成小组的标志物的鉴别和累积导致特异性、灵敏度或者特异性和灵敏度水平大大优于单个标志物或者更小或更不准确的标志物集的水平。
另外,本文公开的方法、小组和其他检验大大优于许多商业可用的检验,特别是许多当前可用的基于血液的检验的灵敏度、特异性或者灵敏度和特异性。本文公开的方法、小组和其他检验具有易于执行的进一步益处,使得需要胃肠健康评价检验结果的个体更有可能进行该检验,而不是采集粪便样品或进行侵入性程序,例如结肠镜检查。在多个实施方案中,以多种方式测量小组累积水平,例如通过抗体荧光结合试验或ELISA测定、通过质谱分析、通过检测抗体集的荧光或者通过进行蛋白质累积水平定量的备选途径。
通过与本文公开内容一致的多种途径评估小组累积水平。例如,将小组累积水平与阳性对照或阴性对照标准品进行比较,所述对照标准品包含至少一种和至多10种、100种或超过100种已知结直肠健康状态的标准品,或者与晚期结直肠腺瘤或结直肠癌累积水平或健康累积水平的模型进行比较,以便关于被测个体的健康状态进行预测。备选地或组合地,将小组结果与根据从已知阳性或已知阴性患者样品获得的数据进行训练或建立的机器学习或者其他模型进行比较。在一些情况下,小组测定结果伴随有关于干预或者小组测定结果的备选验证的推荐。
因此,本文提供了对于诊断和/或治疗晚期结直肠腺瘤和结直肠癌中的至少一种有用的生物标志物小组和测定。
本文还提供了试剂盒,其包含本文所述的计算机可读介质和关于该计算机可读介质的使用说明书。
本文涉及多种治疗方案,并且这些治疗方案是本领域技术人员已知的,如化学疗法、施用生物治疗剂以及手术干预,如低位前切除术或经腹会阴直肠切除术或造口术。
本文还提供了确定适合于评估结直肠健康状态如结直肠癌、晚期结直肠腺瘤和/或结直肠癌分期的一组生物标志物的方法。
本文描述了用于鉴定与疾病或健康状态有关的生物标志物的方法的开发和实验步骤。许多途径与本文的公开内容一致,例如大规模的基于dMRM的工作流程。许多途径包括使用至少一个过程控制来评价分析仪器的各个方面。在一些情况下,所述方法使用SIS肽混合物和合并的血浆样品作为参考材料或其任意组合来实施SST。在一些情况下,所评价的途径仪器指标包括响应的一致性、残留、保留时间稳定性、信噪比或其他合适的指标。在某些情况下,以合并的血浆样品的形式使用质量控制来监测并且在需要时校正样品处理和分析过程中的分析变异性。质量控制指标可用来评估样品和/或样品处理。使用QC标志物提供指示工作流程或测定性能的信息与本公开内容一致,并且可以包括与样品一起经历收集、储存、洗脱、处理和分析中的至少一种的标志物。
附图说明
本专利或申请文件包含至少一张以彩色绘制的附图。在请求并支付必要的费用后,专利局将会提供具有彩图的该专利或专利申请公布文本的副本。
本发明的新颖特征在所附权利要求书中具体阐述。通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述以及附图,将会对本发明的特征和优点获得更好的理解,在这些附图中:
图1显示了并行MRM与保留时间。
图2显示了针对重跃迁(heavy transition)的CE优化的示例。
图3显示了标准曲线,其示出观察到的跃迁测定的范围。
图4显示了跨1357个跃迁的指标的频率直方图和概要统计信息。
图5显示了PQC的流通峰AUC的标准偏差。
图6显示了在一台Agilent QQQ上连续运行九天的所有1552个重跃迁的RT偏移。
图7显示了跨数据收集日期的176个QC重跃迁的PQC峰AUC CV通过率。
图8显示了跨数据收集日期的176个QC轻跃迁的PQC峰AUC CV通过率。
图9显示了跃迁AUC的直方图。
图10显示了在手工检查之后被替换的算法选择。
图11显示了通过LC-MS/MS在消耗的流通收集物中检测到的肽。
图12显示了PQC的流通峰AUC的标准偏差,指示随时间推移一致的免疫耗竭。
图13显示了样品板上的分子特征和错误裂解率。
图14显示了针对176个预选的QC跃迁的重峰AUC的5点曲线数据。
图15显示了可用来生成可靠的靶向质谱结果的各个步骤的图示。
图16显示了三个经验证的CRC与非CRC分类器的特性和性能。
图17,58个简单网格版本(grid builds)的特性和验证结果。“dx”、“版本组(buildgroup)”和“版本(build)”列适用于在每个版本中检查的分类器的完整网格,并用来排列表格。其余的列给出了在每个网格中发现的最佳分类器的特性。“noc前中值合并测试auc”是NoC前CRC与NCNF发现集AUC。“符合所有质量指标的跃迁数”是具有完整测量结果、具有良好质量峰并被判断为定量测定的跃迁的数目。蓝色和橙色突出显示指示已对其进行NoC分析的分类器,橙色行指示也尝试对其进行验证的分类器。在“注释”列中,“年龄”表示分类器AUC与验证集中的单变量年龄AUC在统计上不可区分。
图18显示了模型28的验证集ROC。红色1801、橙色1802和绿色1803点分别为灵敏度/特异性0.80/0.80、0.80/0.75和已观察到。
图19显示了模型40的验证集ROC。红色1901、橙色1902和绿色1903点分别为灵敏度/特异性0.80/0.80、0.80/0.75和已观察到。
图20显示了模型52的验证集ROC。红色2001、橙色2002和绿色2003点分别为灵敏度/特异性0.80/0.80、0.80/0.75和已观察到。
具体实施方式
本文提供了使用个体的生物样品评估个体的健康状态如结直肠癌状态的非侵入性方法。一些这样的方法包括以下步骤:从所述个体获得循环血液样品;获得该样品中包含选自表1的一系列蛋白质的生物标志物小组的生物标志物小组水平,以及使用所述小组信息进行CRC健康评估。在一些情况下,还选择个体的年龄和/或性别作为生物标志物,以构成来自所述个体的小组信息。一些途径包括将来自所述个体的所述小组信息与对应于已知结直肠癌状态的参考小组信息集进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述结直肠癌状态。一些途径包括在算法中使用小组水平来获得小组得分,并将所述小组得分与对应于已知结直肠癌状态的至少一个参考小组信息集得分的小组得分进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述结直肠癌状态。一些途径包括在算法中使用所选生物标志物相对于彼此的比率来获得小组得分,并将所述小组得分与对应于已知结直肠癌状态的至少一个参考小组信息集得分的小组得分进行比较,所述已知结直肠癌状态例如是无CRC、I期CRC、II期CRC、III期CRC、IV期CRC以及更笼统的早期CRC、晚期CRC中的至少一种;以及如果所述个体的参考小组信息与所述参考小组信息集没有显著差异,则将所述个体分类为具有所述结直肠癌状态。
如本文所公开的生物标志物小组共有以下性质:单独使用来源于循环血液的蛋白质水平信息,或者将其与其他信息如个体的年龄、性别、健康史或其他特性相组合,作出关于个体的结直肠健康的灵敏的、特异性的结论。本发明生物标志物小组的益处在于它们使用方便地、非侵入性获得的样品提供灵敏的、特异性的结直肠健康评估。不需要依赖于从侵入性腹部测定如结肠镜检查或乙状结肠镜检查或者从粪便样品材料获得的数据。因此,依从率大大提高,并且在其进展的早期更容易认识到结直肠健康问题,从而可以更有效地对其进行治疗。最终,这种益处的效果在挽救的生命中进行衡量,并且是实质性的。
选择如本文所公开的生物标志物小组,使得它们作为小组的预测值大大高于其单个成员的预测值。小组成员通常不会彼此共同变化,使得小组成员为小组的整体健康信号提供独立的贡献。因此,小组能够大大胜过指示个体的结直肠健康状态的任何单个成分的表现,从而获得商业上和医学上相关的置信度(如灵敏度、特异性或者灵敏度和特异性)。因此,在如本文所公开的小组中,指示健康问题的多个小组成员所提供的信号大大强于例如在其中两个或更多个成员严格一致地上升或下降使得由其产生的信号实际上是重复两次的单个信号的小组中发现的信号。因此,如本文公开的小组对于单一成分测量的变化是稳健的。例如,因为小组成员彼此独立地变化,所以本文中的小组通常指示健康风险,尽管该小组的一个或超过一个单独成员在单独测量时将不会指示存在健康风险。在一些情况下,本文中的小组以显著的置信水平指示健康风险,尽管没有单独小组成员自身以显著的置信水平指示健康风险。在一些情况下,本文中的小组以显著的置信水平指示健康风险,尽管至少一个单独成员以显著的置信水平指示不存在健康风险。
与本文中的小组一致的生物标志物包括在个体的血流中循环的生物分子,如蛋白质。在一些情况下,还包括容易获得的信息,包括诸如个体的年龄或性别等人口统计信息。包括体重、身高、身体质量指数在内的生理信息以及其他容易测量或获得的信息也有资格作为标志物。特别是,本文中的一些小组依赖于年龄、性别或者年龄和性别作为生物标志物。
本文中许多生物标志物的共同之处在于它们易于在个体中进行测定。本文中的生物标志物通过从个体的动脉或静脉抽血而容易地获得,或者通过交谈或通过简单的生物计量分析而获得。易于获得本文生物标志物的益处在于诸如结肠镜检查或乙状结肠镜检查等侵入性测定不是生物标志物测量所必需的。类似地,粪便样品不是生物标志物测定所必需的。因此,如本文公开的小组信息通常通过抽血结合拜访医生办公室而容易地获得。因此,依从率大大高于涉及粪便样品或侵入性程序的结直肠健康测定的依从率。
本文公开的示例性小组包含可识别地或独特地映射到其亲本蛋白质的循环蛋白质或其片段,并且在一些情况下包含易于获得的生物标志物,如个体的年龄。
小组成分
一些生物标志物小组包含本文列举的一些或所有蛋白质标志物、其子集或者所列标志物与另外的标志物或生物学参数的组合。与结直肠癌和/或晚期腺瘤评估相关的先导生物标志物小组单独地或与另外的标志物组合地包含至少1、2、3或4种标志物,直至完整列表,所述列表选自以下:A2GL、ACTBM、ALS、APOC4、APOE、APOL1、CHLE、GELS、I10R1、ITIH2、KAIN、PON1、PTPRJ、SPP24、TFR1、TNF15、IBP3、THRB、GUC2A、LYNX1、PREX2、RET4,并且还包含年龄和可选的性别作为生物标志物。在一些情况下,使用蛋白质标志物与年龄之间的比率作为小组中进行CRC评估的特征,例如PTPRJ/年龄和/或ALS/年龄比率。如本文所用的,比率可以包括蛋白质标志物的肽片段与人口统计信息如年龄之间的比率。肽/标志物比率可以包括衍生自A2GL、ACTBM、ALS、APOC4、APOE、APOL1、CHLE、GELS、I10R1、ITIH2、KAIN、PON1、PTPRJ、SPP24、TFR1、TNF15、IBP3、THRB、GUC2A、LYNX1、PREX2和RET4中任一种的至少一种肽与人口统计信息如年龄之间的比率。肽/年龄比率的实例可以在本文所述的工作实施例中找到。与结直肠癌和/或晚期腺瘤评估相关的另一先导生物标志物小组的非限制性实例包含选自以下的标志物:A2GL、ACTBM、ALS、APOC4、APOE、APOL1、CHLE、I10R1、ITIH2、KAIN、PON1、PTPRJ、SPP24、TFR1、TNF15,并且还包含个体的年龄作为生物标志物。具有结直肠癌和晚期腺瘤评估能力的另一先导生物标志物小组或生物标志物小组的组合包含选自以下的标志物:A2GL、ALS、PTPRJ和年龄,或者任选地其至少一种单独标志物被排除或被一种或多种标志物替代的其子集。具有结直肠癌和晚期腺瘤评估能力的另一先导生物标志物小组或生物标志物小组的组合包含选自以下的标志物:A2GL、ALS、GELS、PTPRJ和年龄,或者任选地其至少一种单独标志物被排除或被一种或多种标志物替代的其子集。在一些情况下,CRC生物标志物小组相对于年龄包含一个或多个比例的蛋白质标志物。
通常,将CRC生物标志物小组和晚期腺瘤小组组合成单个试剂盒或单个生物标志物小组是方便或有效的。在这些情况下,可以看出,包含三种生物标志物或者其子集或更大集合——包括A2GL、ALS和PTPRJ(如果包含)——的试剂盒,提供关于结直肠癌状态和晚期腺瘤状态两者的信息,特别是,与关于患者年龄的信息进行组合。以下列出了备选的和变化的结直肠癌生物标志物小组。
与上文讨论的小组非常相似,这些小组或子集或添加物单独使用,或与上述晚期腺瘤小组联合使用,来指示结直肠癌状态和/或晚期腺瘤,其任选地使用诸如A2GL、ACTBM、ALS、APOC4、APOE、APOL1、CHLE、GELS、I10R1、ITIH2、KAIN、PON1、PTPRJ、SPP24、TFR1、TNF15、IBP3、THRB、GUC2A、LYNX1、PREX2、RET4等标志物,并且还与年龄相组合。
因此,本文公开了包含以上提及的生物标志物的结直肠健康评估小组。小组包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21或22种或超过22种本文提及的生物标志物,例如表1中列出的那些。
生物标志物
在一些情况下,本文所述的生物标志物小组包含至少三种生物标志物。生物标志物可选自表1中列出的22种蛋白质生物标志物的可鉴别多肽或片段,任选地与年龄和/或性别组合使用。本文所述的任何生物标志物均可以是蛋白质生物标志物。此外,本实例中的生物标志物小组在一些情况下可另外包含具有表1中所示特性的多肽。在一些情况下,在进行健康状态评估时采用本文所述的一种或多种蛋白质生物标志物(例如,通过质谱法评价的一种或多种蛋白型肽(proteotypic peptide))与另一种生物标志物如年龄的比率。
以下表1中列出了示例性蛋白质生物标志物,以及可得时它们的人氨基酸序列。蛋白质生物标志物包括表1的多肽序列的全长分子,以及表1的多肽序列的独特可鉴别片段。标志物为了提供信息可以是全长的但不需要是全长的。在许多情况下,只要片段独特地可鉴别为衍生自或代表表1的多肽,则其出于本文的目的提供信息。
表1:生物标志物和相应的描述符
Figure BDA0002618685530000121
Figure BDA0002618685530000131
Figure BDA0002618685530000141
Figure BDA0002618685530000151
Figure BDA0002618685530000161
Figure BDA0002618685530000171
Figure BDA0002618685530000181
本文考虑的生物标志物还包括在6个残基、7个残基、8个残基、9个残基、10个残基、20个残基、50个残基或者5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或大于95%的生物标志物序列的跨度上具有与表1中列出的标志物相同的氨基酸序列的多肽。生物标志物的变体形式或备选形式包括例如由编码所公开的生物标志物的转录物的任何剪接变体编码的多肽。在某些情况下,修饰形式、片段或者其相应的RNA或DNA在诊断中可表现出比全长蛋白质更好的辨别能力。
本文考虑的生物标志物还包括本文所述的任何蛋白质的截短形式或多肽片段。蛋白质的截短形式或多肽片段可包括N-末端缺失或截短的形式以及C-末端缺失或截短的形式。蛋白质的截短形式或片段可包括通过任何机制产生的片段,诸如但不限于通过备选的翻译、外切和/或内切蛋白水解和/或降解,例如通过物理、化学和/或酶促的蛋白水解。不受限制地,生物标志物可包含蛋白质的截短或片段,多肽或肽可表现该蛋白质的约1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的氨基酸序列。
不受限制地,截短的蛋白质或蛋白质片段可包含相应的全长蛋白质的约5-20个连续氨基酸、或约10-50个连续氨基酸、或约20-100个连续氨基酸、或约30-150个连续氨基酸、或约50-500个连续氨基酸残基的序列。
在一些情况下,与相应的成熟全长蛋白质或者其可溶或血浆循环形式相比,片段在N-末端和/或C-末端截短1至约20个氨基酸,例如,1至约15个氨基酸,或1至约10个氨基酸,或1至约5个氨基酸。
本公开的任何蛋白质生物标志物如肽、多肽或蛋白质及其片段还可包括所述标志物、肽、多肽或蛋白质和片段的修饰形式,如携带表达后修饰的片段,所述修饰包括但不限于诸如磷酸化、糖基化、脂化、甲基化、硒代胱氨酸修饰、半胱氨酰化、磺化、谷胱甘肽化、乙酰化、甲硫氨酸到甲硫氨酸亚砜或甲硫氨酸砜的氧化等修饰。
在一些情况下,片段化的蛋白质是-N末端和/或C-末端截短的。这样的片段化的蛋白质可包含N-末端(a,b,c-离子)和/或C-末端(x,y,z-离子)截短的蛋白质或肽的一种或多种或所有跃迁(transitional)离子。如本文所教导的示例性人类标志物、核酸、蛋白质或多肽以NCBI Genbank(可在网站ncbi.nlm.nih.gov访问)或Swissprot/Uniprot(可在网站uniprot.org访问)登录号的方式进行注释。在一些情况下,所述序列是如本文所教导的标志物、核酸、蛋白质或多肽的前体(例如,前蛋白质)的序列,并且可包含从成熟分子加工除去的部分。在一些情况下,虽然可能仅公开一种或多种同种型,但旨在涵盖该序列的所有同种型。
用于检测本文列出的生物标志物的抗体是可商购获得的。
对于本文列举的给定生物标志物小组,还考虑一种或多于一种成分不同的变化生物标志物小组。因此,转向先导CRC小组A2GL、ALS、PTPRJ,并且还包括个体年龄,作为实例,公开了多个相关小组。对于本文公开的该小组和其他小组,考虑包含所列举的生物标志物小组的至少3种或至少2种生物标志物成分的变化形式。
本文提供了利用生物标志物小组评估健康状态如结直肠癌健康状态的方法。该方法可提供高AUC信号,该信号由该小组中的标志物的小池产生。在一些情况下,该AUC信号由该小组中不超过20、15、10、9、8、7、6、5或4种标志物产生。该小组可包括一系列标志物,其中较小的标志物子集提供至少0.70、0.75、0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或0.99的AUC信号。例如,生物标志物小组可包括至少一种选自A2GL、ALS和PTPRJ(以及任选地,年龄)的标志物以及至少一种额外的标志物如表1中所列的标志物的小组。在一些情况下,用来评估结直肠健康状态的生物标志物小组包含不超过20、15、10、9、8、7、6、5或4种标志物。生物标志物小组可包含选自表1的标志物。在一些情况下,生物标志物小组由A2GL、ALS、PTPRJ和年龄组成。在一些情况下,生物标志物小组基本由A2GL、ALS、PTPRJ和年龄组成。在一些情况下,结直肠健康状态的评估包括利用A2GL、ALS和PTPRJ中的一种或多种与年龄之间的比率。例如,利用生物标志物小组生成预测或分类(例如,健康状态评估)的分类器可以利用PTPRJ与年龄之间的比率作为作出预测的特征。包含A2GL、ALS、PTPRJ和年龄的生物标志物小组可包含额外的标志物,如表1或本文描述的430种候选标志物的列表中列出的标志物的任何组合。在一些情况下,生物标志物小组包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22或至少23种来自表1的标志物。生物标志物小组可包含表2中列出的任何参考物,与至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19种或至少20种来自表1的额外的标志物(例如,非冗余标志物)组合。在一些情况下,生物标志物小组包含A2GL、ALS、PTPRJ、GELS和TFRC1中的至少1、2、3、4或6种。示例性小组包含A2GL、ACTBM、ALS、APOC4、APOE、APOL1、CHLE、IL10R、ITIH2、KAIN、PON1、PTPRJ、SPP24、TFR1和TNF15。在一些情况下,生物标志物小组包含选自A2GL、ACTBM、ALS、APOC4、APOE、APOL1、CHLE、IL10R、ITIH2、KAIN、PON1、PTPRJ、SPP24、TFR1、TNF15的至少1、2、3、4、5、6、7、8、9、10、11、12、13或14种蛋白质,并任选地包括年龄。另一示例性小组包含A2GL、ALS、PTPRJ、GELS和TFR1。有时,生物标志物小组包含单独的或与年龄组合的A2GL、ALS、PTPRJ、GELS和TFR1中的至少1、2、3或4种。该生物标志物小组可包含生物标志物和年龄的比率,例如PTPRJ/年龄。
表2中列出了与本文公开内容一致的示例性CRC小组。还公开了包含表2的条目中列出的标志物的小组。
表2-CRC生物标志物小组的成分
参考 CRC蛋白质生物标志物 人口统计学 特征
1 A2GL,ALS,PTPRJ 3
2 A2GL,ALS 2
3 A2GL,PTPRJ 2
4 ALS,PTPRJ 2
5 A2GL 1
6 ALS 1
7 PTPRJ 1
8 A2GL,ALS,PTPRJ 年龄 4
9 A2GL,ALS 年龄 3
10 A2GL,PTPRJ 年龄 3
11 ALS,PTPRJ 年龄 3
12 A2GL 年龄 2
13 ALS 年龄 2
14 PTPRJ 年龄 2
在一些情况下,所述小组包含表2的参考1与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表2的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表3的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表4的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表5的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表6的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表7的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表8的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表9的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表10的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表11的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表12的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表13的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该小组包含表14的参考2与来自表1的至少一种额外标志物的组合。在一些情况下,该生物标志物小组包含表2的任何参考与来自表1的GELS的组合。在一些情况下,该生物标志物小组包含表2的任何参考与来自表1的TFR1的组合。
蛋白质组学和其他亲和力测定工作流程
本公开包括利用靶向蛋白质组学工作流程解决各种缺点的方法,该方法能够使用质谱法对靶向肽进行Tier 2测量。在一些情况下,使用动态多反应监测(dMRM)MS获得测量值。本文描述了所采取的各种步骤,包括过程控制,以开发并表征质谱分析,例如高多峰dMRM测定。替代测定也与本文的公开内容一致。例如,使用抗体或抗体模拟物如亲和体(affibody)分子、affitin、atrimer等的亲和力测定可用来检测和/或量化标志物。亲和力测定可包括免疫测定和适体测定。在一些情况下,该测定测量来自与疾病或健康状态相关的蛋白质的蛋白型肽。例如,本文描述了测量来自392种结直肠癌(CRC)相关蛋白质的641个蛋白型肽的测定。本公开包括使用质量和/或过程控制指标和程序来追踪并处理在数据收集时间段(例如,四个月)内的样品处理和仪器变化,在此期间将该测定用于研究来自具有CRC症状的患者的生物样品。该生物样品可以获自各种来源,例如血液样品。在一项研究中分析了1,045名具有CRC症状的患者的样品。数据收集后,可以使用一种或多种信号质量指标对跃迁进行过滤,之后将其用于受试者工作特征(ROC)分析,以评估单变量CRC信号。例如,ROC分析表明,有症状群体中127种CRC相关蛋白质携带基于dMRM的CRC信号。可以将这些dMRM测定开发为Tier 1测定,用于临床检验,以鉴别患CRC风险升高的个体。
在一些情况下,使用至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个或至少十个信号质量指标来过滤跃迁,之后在ROC分析中使用,以供评估单变量CRC信号。
本文公开了dMRM MS方法,其严格性为CPTAC“适合目的的方法”所定义的Tier 2测定。使用质量和过程控制程序,该测定成功地用来量化来自1045名有CRC症状患者的血浆中代表392种CRC相关蛋白质的641个蛋白蛋白型肽。结果显示,在有症状的群体中,所述蛋白质中有127种携带单变量CRC信号。这样大量的单一生物标志物证明了使用所公开的工作流程,多变量分类器在区分有症状群体中的CRC方面的应用。除dMRM MS外,还可以使用其他方法。利用抗体、适体或能够结合或识别特定靶标的其他分子的免疫测定和适体测定与本文所述的方法和工作流程一致。
各种形式的质谱法可用于评价样品中的蛋白质和其他分子。例如,串联MS的片段化方法包括碰撞诱导的解离(CID)、电子捕获解离(ECD)、电子转移解离(ETD)、红外多光子解离(IRMPD)、黑体红外线辐射解离(BIRD)、电子脱附解离(EDD)和表面诱导的解离(SID)。各种分离技术也是可用的,并且包括例如气相色谱法、液相色谱法和毛细管电泳。
本文公开了质量和过程控制程序,其允许生成用于评估结直肠健康状态的生物标志物小组。这类程序包括用于评价用来处理样品的测定和/或仪器的性能的过程控制和/或质量控制步骤。过程控制步骤可包括在样品处理之前进行的系统适用性测试(SST)。例如,可以在质谱仪上进行SST,以评价液相色谱法和/或质谱仪的性能。对照样品可以在该评价中使用,例如生成内标的标准曲线,以评估仪器和工作流程。过程控制步骤的一个示例是确定是否通过质谱仪(或其他亲和力测定,如免疫测定或适体测定)准确量化了10X稀释系列的内标。过程控制步骤还可以确定动态范围是否跨越标准曲线上阈值数目的对数单位。例如,量化准确度的缺乏和/或低动态范围可导致样品被丢弃和/或门控/筛选,以除去被确定为受到性能较差区域影响的数据。评价至少一种QC标志物的过程控制步骤也与本公开一致。在一些情况下,对照样品包括至少一种本文所述的QC标志物。
过程控制步骤可包括各种形式的工作流监测,例如,监测免疫耗竭期间的流通AUC,监测关于样品处理和免疫耗竭效率的TPA结果,或取决于每个单独样品的TPA结果的样品制备定制。过程控制步骤的其他示例包括质量控制检查,其要求重跃迁的RT的置信区间距色谱质谱采集窗口的边界不超过特定百分比。特定百分比的示例包括1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%和20%。本公开还考虑了利用QC标志物来评估各种条件如样品完整性、样品洗脱效率、样品储存条件和内标监测的工作流程监测。
生物标志物或生物学标志物可指生物样本的任何可测量的特征,其可以作为正常生物过程、致病过程或对治疗性干预的药理学反应的指标而被评价。在过去的30年中,对许多癌症的基本生物学知识的进一步了解,再加上技术的进步,对生物标志物发现方面的投资具有贡献,希望能鉴定合适的生物标志物来指导临床医生进行检测、筛查、诊断、治疗和监测癌症治疗。在近年来众多的与生物标志物有关的出版物中,有许多报道是关于发现了用于诊断、预后和预测目的的基于血浆或血清的新型癌症生物标志物及其前景。然而,尽管有丰富的生物标志物的出版物并且基因组学和蛋白质组学技术取得了进步,但很少有生物标志物在临床实践中使用;根据一些估计,生物标志物的临床转化的成功率低至0.1%,只有几十种生物标志物用于临床治疗癌症。尽管一些人推测了导致生物标志物进入临床失败的因素,但普遍认为,这些失败中的许多可以归类为错误发现——无法在后续研究中独立再现的生物标志物。
本公开认识到这些错误发现可归因于分析前、分析和分析后的缺点。分析前的问题可能是由于样品质量差和/或临床文献不完整所致。分析问题可能起因于测定平台和样品测量的不同质量。分析后的问题可能是由于错误的生物信息学方法(与多重检验和过度拟合相关的统计问题)引起的。鉴于生物标志物发现的投资回报率较低,近年来,科学界已开始集中精力鉴定并解决导致生物标志物失败率高的这些问题。
在一些情况下,监测导致错误生物标志物发现的分析变异和地址因素。在多重生物标志物研究中,这些问题尤其棘手,在这些研究中,必须追踪并控制数种测定的变异性以确保成功。根据CPTAC“适合目的的方法”,本文中提出的多标志物分析可被归类为Tier 2测定;它被开发用于测量结直肠癌候选生物标志物蛋白质,目的是向下选择小得多的蛋白质小组,以进行进一步的验证和最终的临床实施。Tier 2测定应当是高通量、精确、可重现和定量的,并且由于这些要求以及其多重化能力,在该研究中选择了靶向dMRM,目的是鉴定新型结直肠生物标志物小组。尽管为临床应用选择最佳技术平台无疑会提高成功交付临床生物标志物的几率,但解决与高度复杂的分析过程相关的变异性也很重要。为此,重要的考虑是实施系统适应性测试(SST)和质量控制,以帮助监测和纠正变异性。最近的出版物还支持日益认识到对SST和质量控制的需求,以此作为解决分析变异性和建立对分析测量的信心的一种手段。
本文描述了用于鉴定与疾病或健康状态有关的生物标志物的基于dMRM的大规模方法的开发和实验步骤。在一些情况下,该方法使用SIS肽混合物和合并的血浆样品作为参考材料实施SST,以评价分析仪器的各个方面,如响应的一致性、残留、保留时间稳定性和信噪比。在某些情况下,以合并的血浆样品的形式使用质量控制来监测并且在需要时校正样品处理和分析过程中的分析变异性。一项或多项系统性质量评估的实施是分析过程的关键组成部分,它使得有信心进行超过一千种样品的测量,这些测量在较长的一段时间内在多种仪器上收集。
本文描述了解决分析变异性的系统和方法,并且影响样品质量的分析前因素也是研究设计中的重要考虑因素。该研究中使用的样品来自先前的生物标志物研究中使用的同一精心挑选的群组,并且在先前的出版物中有更详细的描述。除了本报告中为监测分析变异性而采取的措施外,本文还描述了一种新颖的系统性方法,其用来过滤肽并对肽跃迁进行排名,作为构建稳健的质谱分析方法(例如,基于dMRM的分析方法)的手段,以用于测量代表疾病或健康状况相关蛋白质的蛋白型肽。例如,本文公开了对代表392种CRC相关蛋白质的641个蛋白型肽的测量。最后,采用来自各种患者的可靠分析测量的数据集,并在生物信息学科学家团队的指导下,使用机器学习算法来分析定量测量结果,并建立适合于鉴别应接受结肠镜检查的有风险患者的候选CRC生物标志物小组。本文描述了基于对1045名CRC患者的测量和分析而生成的生物标志物小组。
候选生物标志物
CRC的候选蛋白质生物标志物可以选自各种来源,如以下一种或多种:1)在我们的实验室中进行的先前靶向蛋白质组学研究,2)对可公开获得的与CRC相关的蛋白质组学数据集的分析;以及3)半自动化的文献检索。鉴定出的候选蛋白质生物标志物的非限制性列表如下所示,其中共有430种蛋白质被指定为CRC相关生物标志物候选物,以用于进一步的实验研究。
1433B_HUMAN;CH60_HUMAN;H2BFS_HUMAN;PCKGM_HUMAN;TNF15_HUMAN;1433E_HUMAN;CHK1_HUMAN;HABP2_HUMAN;PDIA3_HUMAN;TNF6B_HUMAN;1433F_HUMAN;CHK2_HUMAN;HEMO_HUMAN;PDIA6_HUMAN;TP4A3_HUMAN;1433G_HUMAN;CHLE_HUMAN;HEP2_HUMAN;PDLI7_HUMAN;TPA_HUMAN;1433T_HUMAN;CLC4D_HUMAN;HGF_HUMAN;PDXK_HUMAN;TPM2_HUMAN;1433Z_HUMAN;CLUS_HUMAN;HMGB1_HUMAN;PEBP1_HUMAN;TR10B_HUMAN;1A68_HUMAN;CNDP1_HUMAN;HNRPF_HUMAN;PEDF_HUMAN;TRAP1_HUMAN;A1AG1_HUMAN;CNN1_HUMAN;HNRPQ_HUMAN;PGFRA_HUMAN;TREM1_HUMAN;A1AG2_HUMAN;CO3_HUMAN;HPT_HUMAN;PIPNA_HUMAN;TRFE_HUMAN;A1AT_HUMAN;CO4A_HUMAN;HRG_HUMAN;PLGF_HUMAN;TRFL_HUMAN;A1BG_HUMAN;CO6A3_HUMAN;HS90B_HUMAN;PLIN2_HUMAN;TRI33_HUMAN;A2AP_HUMAN;CO8G_HUMAN;HSPB1_HUMAN;PLMN_HUMAN;TSG6_HUMAN;A2GL_HUMAN;CO9_HUMAN;I10R1_HUMAN;PO2F1_HUMAN;TSP1_HUMAN;A2MG_HUMAN;COR1C_HUMAN;IBP2_HUMAN;PON1_HUMAN;TTHY_HUMAN;A4_HUMAN;CORIN_HUMAN;IBP3_HUMAN;POTEF_HUMAN;UGDH_HUMAN;AACT_HUMAN;CP1A1_HUMAN;IF4A3_HUMAN;PPIB_HUMAN;UGPA_HUMAN;ABCB5_HUMAN;CRDL2_HUMAN;IFT74_HUMAN;PRD16_HUMAN;UROK_HUMAN;ABCBA_HUMAN;CRP_HUMAN;IGF1_HUMAN;PRDX1_HUMAN;VCAM1_HUMAN;ACINU_HUMAN;CSF1_HUMAN;IGHA2_HUMAN;PRDX2_HUMAN;VEGFA_HUMAN;ACTBL_HUMAN;CSF1R_HUMAN;IGLL5_HUMAN;PREX2_HUMAN;VGFR1_HUMAN;ACTBM_HUMAN;CSPG2_HUMAN;IKKB_HUMAN;PRKN2_HUMAN;VILI_HUMAN;ACTG_HUMAN;CTHR1_HUMAN;IL23R_HUMAN;PRL_HUMAN;VIME_HUMAN;ACTH_HUMAN;CTNA1_HUMAN;IL26_HUMAN;PROC_HUMAN;VNN1_HUMAN;ADIPO_HUMAN;CTNB1_HUMAN;IL2RB_HUMAN;PROS_HUMAN;VP13B_HUMAN;ADT2_HUMAN;CUL1_HUMAN;IL6RA_HUMAN;PSME3_HUMAN;VTNC_HUMAN;AFAM_HUMAN;CYTC_HUMAN;IL8_HUMAN;PTEN_HUMAN;VWF_HUMAN;AGAP2_HUMAN;DAF_HUMAN;IL9_HUMAN;PTGDS_HUMAN;XBP1_HUMAN;AKA12_HUMAN;DEF1_HUMAN;ILEU_HUMAN;PTPRJ_HUMAN;ZA2G_HUMAN;AKT1_HUMAN;DESM_HUMAN;IPSP_HUMAN;PTPRT_HUMAN;ZMIZ1_HUMAN;AL1A1_HUMAN;DHRS2_HUMAN;IPYR_HUMAN;PTPRU_HUMAN;ZPI_HUMAN;AL1B1_HUMAN;DHSA_HUMAN;IRGM_HUMAN;PZP_HUMAN;ALBU_HUMAN;DPP10_HUMAN;ISK1_HUMAN;RAB38_HUMAN;ALDOA_HUMAN;DPP4_HUMAN;ITA6_HUMAN;RASF2_HUMAN;ALDR_HUMAN;DPYL2_HUMAN;ITA9_HUMAN;RASK_HUMAN;ALS_HUMAN;DYHC1_HUMAN;ITIH2_HUMAN;RBX1_HUMAN;AMPD1_HUMAN;ECH1_HUMAN;JAM3_HUMAN;RCAS1_HUMAN;AMPN_HUMAN;EDA_HUMAN;K1C19_HUMAN;REG4_HUMAN;AMY2B_HUMAN;EF2_HUMAN;K2C72_HUMAN;RET4_HUMAN;ANGI_HUMAN;ENOA_HUMAN;K2C73_HUMAN;RHOA_HUMAN;ANGL4_HUMAN;ENOX2_HUMAN;K2C8_HUMAN;RHOB_HUMAN;ANGT_HUMAN;ENPL_HUMAN;KAIN_HUMAN;RHOC_HUMAN;ANT3_HUMAN;ENPP1_HUMAN;KC1D_HUMAN;ROA1_HUMAN;ANXA1_HUMAN;ENPP2_HUMAN;KCRB_HUMAN;ROA2_HUMAN;ANXA3_HUMAN;EZRI_HUMAN;KISS1_HUMAN;RRBP1_HUMAN;ANXA4_HUMAN;FA10_HUMAN;KLK6_HUMAN;RSSA_HUMAN;ANXA5_HUMAN;FA5_HUMAN;KLOT_HUMAN;S100P_HUMAN;APC_HUMAN;FA7_HUMAN;KNG1_HUMAN;S10A8_HUMAN;APCD1_HUMAN;FA9_HUMAN;KPCD1_HUMAN;S10A9_HUMAN;APOA1_HUMAN;FABP5_HUMAN;KPYM_HUMAN;S10AB_HUMAN;APOA2_HUMAN;FAK1_HUMAN;LAMA2_HUMAN;S10AC_HUMAN;APOA4_HUMAN;FAK2_HUMAN;LAT1_HUMAN;S29A1_HUMAN;APOA5_HUMAN;FARP1_HUMAN;LBP_HUMAN;SAA1_HUMAN;APOC1_HUMAN;FBX4_HUMAN;LCAT_HUMAN;SAA2_HUMAN;APOC4_HUMAN;FCGBP_HUMAN;LDHA_HUMAN;SAA4_HUMAN;APOE_HUMAN;FCRL3_HUMAN;LEG2_HUMAN;SAHH_HUMAN;APOH_HUMAN;FCRL5_HUMAN;LEG3_HUMAN;SAMP_HUMAN;APOL1_HUMAN;FETA_HUMAN;LEG4_HUMAN;SBP1_HUMAN;APOM_HUMAN;FETUA_HUMAN;LEG8_HUMAN;SDCG3_HUMAN;ASAP3_HUMAN;FHL1_HUMAN;LEPR_HUMAN;SEGN_HUMAN;ATPB_HUMAN;FHR1_HUMAN;LEUK_HUMAN;SELPL_HUMAN;ATS13_HUMAN;FHR3_HUMAN;LG3BP_HUMAN;SEPP1_HUMAN;B2CL1_HUMAN;FIBA_HUMAN;LMNB1_HUMAN;SEPR_HUMAN;B2LA1_HUMAN;FIBB_HUMAN;LRRC7_HUMAN;SEPT9_HUMAN;B3GT5_HUMAN;FIBG_HUMAN;LUM_HUMAN;SF3B3_HUMAN;BANK1_HUMAN;FINC_HUMAN;LYNX1_HUMAN;SHIP1_HUMAN;BC11A_HUMAN;FLNA_HUMAN;LYSC_HUMAN;SHRPN_HUMAN;BCAR1_HUMAN;FLNB_HUMAN;MACF1_HUMAN;SIA8D_HUMAN;C1QBP_HUMAN;FLNC_HUMAN;MAP1S_HUMAN;SIAL_HUMAN;C4BPA_HUMAN;FND3B_HUMAN;MARE1_HUMAN;SIT1_HUMAN;CA195_HUMAN;FRIH_HUMAN;MASP1_HUMAN;SKP1_HUMAN;CAH1_HUMAN;FRIL_HUMAN;MASP2_HUMAN;SLAF1_HUMAN;CAH2_HUMAN;FRMD3_HUMAN;MBL2_HUMAN;SO1B3_HUMAN;CALR_HUMAN;FST_HUMAN;MCM4_HUMAN;SP110_HUMAN;CAPG_HUMAN;FUCO_HUMAN;MCR_HUMAN;SPB6_HUMAN;CASP9_HUMAN;FUCO2_HUMAN;MCRS1_HUMAN;SPON2_HUMAN;CATD_HUMAN;G3P_HUMAN;MIC1_HUMAN;SPP24_HUMAN;CATS_HUMAN;GAS6_HUMAN;MICA1_HUMAN;SRC_HUMAN;CATZ_HUMAN;GBRA1_HUMAN;MIF_HUMAN;SRPX2_HUMAN;CBG_HUMAN;GDF15_HUMAN;MMP2_HUMAN;STK11_HUMAN;CBPN_HUMAN;GDIR1_HUMAN;MMP7_HUMAN;SYDC_HUMAN;CBPQ_HUMAN;GELS_HUMAN;MMP9_HUMAN;SYG_HUMAN;CCD83_HUMAN;GFI1B_HUMAN;MTG16_HUMAN;SYNE1_HUMAN;CCL14_HUMAN;GGT1_HUMAN;MUC24_HUMAN;SYUG_HUMAN;CCR5_HUMAN;GHRL_HUMAN;MYL6_HUMAN;TACC1_HUMAN;CD109_HUMAN;GPNMB_HUMAN;MYL9_HUMAN;TAL1_HUMAN;CD20_HUMAN;GPX3_HUMAN;MYO9B_HUMAN;TBB1_HUMAN;CD24_HUMAN;GREM1_HUMAN;NDKA_HUMAN;TCTP_HUMAN;CD248_HUMAN;GRM6_HUMAN;NDRG1_HUMAN;TETN_HUMAN;CD28_HUMAN;GRP75_HUMAN;NFAC1_HUMAN;TF7L1_HUMAN;CD63_HUMAN;GSHR_HUMAN;NGAL_HUMAN;TFR1_HUMAN;CDD_HUMAN;GSTP1_HUMAN;NIBL2_HUMAN;THBG_HUMAN;CEA_HUMAN;GUC2A_HUMAN;NIPBL_HUMAN;THIO_HUMAN;CEAM3_HUMAN;H13_HUMAN;NNMT_HUMAN;THRB_HUMAN;CEAM5_HUMAN;H2A1D_HUMAN;NOD2_HUMAN;THTR_HUMAN;CEAM6_HUMAN;H2A2B_HUMAN;NUPR1_HUMAN;TIE2_HUMAN;CERU_HUMAN;H2AX_HUMAN;OSTP_HUMAN;TIMP1_HUMAN;CFAH_HUMAN;H2B1A_HUMAN;P53_HUMAN;TIMP2_HUMAN;CFAI_HUMAN;H2B1L_HUMAN;PAFA_HUMAN;TKT_HUMAN;CGHB_HUMAN;H2B1O_HUMAN;PAI1_HUMAN;TMG4_HUMAN;CH3L1_HUMAN;H2B3B_HUMAN;PALLD_HUMAN;TNF13_HUMAN;
本文描述了用于使用通过dMRM测定获得的靶向MS测量结果进行CRC生物标志物发现的方法。本方法解决了过去几十年来困扰基于MS的生物标志物发现的重大问题——几乎没有发现结果可成功地转化为临床应用。为了确保将结果转化为临床应用的更高成功率,大量工作致力于开发极高质量的dMRM测定。
本文所述的方法允许开发如CPTAC“适合目的的方法”所定义的Tier 2测定。在一些情况下,在整个测定开发、研究运行和研究分析中采用许多过程和质量控制;其中一些控制步骤包括新颖的方法。在测定开发过程中,在早期的计算机肽过滤、LC梯度优化、跃迁过滤、CE优化和用于最终方法版本的跃迁筛选/排名中实施过程控制步骤。跃迁筛选/排名过程使用了自动化方法,该方法在本领域中是新颖的,并且相比于手动方法提供了许多优点。在研究运行期间,在以下过程中实施了过程控制步骤:监测免疫耗竭期间的流通AUC,监测关于样品处理和免疫耗竭效率的TPA结果,以及取决于每个样品的TPA结果的样品制备定制。在研究运行期间,在以下过程中实施了质量控制步骤:用来在每天计划的样品运行之前检查LC和MS性能的SST运行,以及在整个研究日期内追踪PQC的信号和可再现性。在研究分析过程中,将跃迁过滤为具有定量性能和良好峰质量的跃迁,从而确保只有最佳的测量结果才能进入研究分析中。我们使用的峰质量工具在本领域是新颖的;它的高性能允许快速评估峰质量,而无需进行冗长的手动峰检查。另外,我们仅使用在所有研究样品中均具有有效测量结果的跃迁,从而避免了因数值缺失而在数据插补中带来的问题。
本文提出的研究为有CRC症状的群体中127种CRC相关蛋白质单独携带的CRC信号提供了证据。有症状的群体中这样大量的CRC生物标志物,再结合鉴别它们所使用的极高质量的测定,证明了使用我们的工作流程开发新的CRC诊断检验以服务于有CRC症状的群体的潜力。
用于评估健康状态的分类器
本公开描述了与分类器版本有关的工作,其作为被称为靶向蛋白质组学版本2(TPv2)的项目的一部分来执行。分类器旨在使用来自1,045个内窥镜检查II(有CRC症状的)患者的血浆样品的数据来区分结直肠癌(CRC)与非CRC样品。在TPv2中,在质谱(MS)仪器上使用动态多反应监测(MRM)方法获得靶向肽离子的样品浓度(You等人,2018)。在此报道的工作的最初目标是开发这样的CRC分类器,其1)证明CRC信号相比于TPv1中报道的信号(Jones等人,2016)得到改善,和/或2)证明CRC性能至少等同于在SimpliProColon版本1CRC(SPCv1)测试中发现的性能,后者是基于来自本研究中使用的相同1,045名内窥镜检查II患者的ELISA测量结果而开发的。由于TPv1和TPv2中使用的数据集之间存在差异,因此第一个目标被确定为不现实的。第二个目标得以实现。
58个简单网格的概述
58个简单网格的概述在图17中给出。该表首先按照所测试的判别进行排序(dx:CRC与非CRC,或CRC与NCNF),然后按照版本组,再然后按照版本号进行排名。从左到右的其他列包括分类器、分类器特征数、分类器跃迁数、满足所有质量指标的分类器跃迁数、noc前(“无判定前”)中值合并测试AUC、验证结果和注释。该表可以用作了解58个分类器网格的开发和结果的指南。版本组包括:标准、专门化的特征(例如,包括比率)和先前的分类器(例如,AK 2016分类器)。分类器包括:glmnet、C分类、nu分类、随机森林、eps回归、nu回归和glmboost。分类器特征的数目范围是3至102。分类器跃迁的数目范围是3至100。满足所有质量指标的分类器跃迁的数目范围是3至80。noc前中值合并测试AUC的范围是0.730至0.929。显示选择的成功和失败分类器的验证结果由带阴影的行(总共4个带阴影的行)指示。顶部带阴影的行是失败,并且具有40个特征(注释表明它过度拟合),其使用随机森林分类器。从上向下第二个带阴影的行是成功,具有4个特征和3个跃迁,AUC为0.897,其使用nu-分类分类器。从上向下第三个带阴影的行是成功,具有6个特征、5个跃迁和0.894AUC,其使用nu-分类分类器。从上向下第五个带阴影的行是成功,具有19个特征、18个跃迁和0.923AUC,其使用c分类分类器。从上向下第四个和第六个带阴影的行是失败。
“noc前中值合并测试auc”列中列出了在任何NoC分析之前,在每个网格中实现的发现集CRC与NCNF AUC。仅考虑这些AUC,显然对于在该过程早期进行的CRC与非CRC的判别,获得了最低的AUC。这与使用相同患者样品的其他API研究(CRC05E,其引起SPCv1测试)一致。基于此,以后的大多数版本都集中于CRC与NCNF的判别。使用“AK 2016分类器”特征子集,对CRC与NCNF网格获得了最高AUC。虽然AK的扩展网格在过去常常可以提供良好的分类器,但并没有完全预期这种最高AUC的发现——在AK分发给团队的数据矩阵中仅发现了AK2016分类器特征的一个子集,并且用来计算峰面积的算法似乎不同于AK对其2016年版本所使用的算法。尽管存在这些差异,但使用这些分类器却发现了最高的AUC。这是另一个支持重建具有附加特征选择能力的简单网格或补充扩展网格的观点。
图17中以蓝色和橙色突出显示了执行NoC分析的分类器的行。在58个网格的较早版本中,除某些例外,通常将NoC分析应用于AUC接近或高于0.91的分类器。随着网格的发展,三种模式变得清晰起来,并影响后来为NoC分析选择分类器。第一种模式是,尽管基于AK2016分类器特征的分类器具有良好的AUC和良好的NoC性能,但这些模型在验证(模型28和29)中的性能却大幅度下降;在技术上验证了模型28,但灵敏度和特异性低于SPCv1的灵敏度和特异性0.81/0.78。第二种模式是在具有更多特征的分类器过度拟合的趋势。该模式在模型39中进行了明确测试,模型39具有非常强的NoC性能,但由于在统计上低于NoC发现中观察到的性能,因此验证失败。第三种模式是某些比率具有很强的单变量性能。
这些观察结果导致了修订的方法,其侧重于使用专门化的特征子集,并使用较少的特征。这最终产生了模型40,该模型经验证具有与SPCv1匹配的灵敏度/特异性。使用该方法的另一个显著的成果是模型52。
与TPv1的比较
此处描述的工作的最初目标之一是将TPv2结果与TPv1的结果(Jones等人,2016)进行比较。TPv1研究使用分别为138和136名患者的发现和验证集中年龄和性别匹配的患者对的样品检查了CRC与非CRC信号。这些患者来自三个不同的群组,这些群组在对照组组成和所提供的关于共病的信息方面各不相同。至少一个群组的对照组大致相当于TPv2的NCNF(最健康的对照)组。TPv1生成了15跃迁的分类器,发现AUC为0.82,验证AUC为0.91且灵敏度/特异性为0.87/0.81;这高于TPv2对于模型40的验证AUC即0.82和灵敏度/特异性0.81/0.78。
TPv1与TPv2之间存在几个显著差异,使得直接比较具有挑战性。TPv1使用匹配的样品并且不包括人口统计学因素作为CRC预测器,而TPv1则将样品分布随机化,并允许年龄和性别有助于分类器。TPv1使用了共病和症状注释质量不同的三个患者群组,而TPv2使用了共病和症状注释质量较高的一个患者群组。TPv1样品对于某些群组可具有与CRC状态相关的位点偏倚,而TPv2样品显示没有位点偏倚。TPv1使用了偏向于最健康的对照(或可能以其为主)的非CRC组,而TPv2最终分类器使用了代表实际ITT群体中的共病范围的非CRC组。TPv1没有使用任何关于患者CRC症状的信息,而TPv2仅使用了具有CRC症状的患者。
在这些差异中,有两个可以解释针对最终TPv1分类器报告的较大CRC信号:1)TPv1中非CRC组偏向于健康对照,2)TPv1中与CRC状态相关的潜在位点偏倚。第一个建议可以在TPv1信号和TPv2的CRC与NCNF信号之间进行更负责任的比较。考虑TPv2的CRC与NCNF发现分类器(表4)揭示,模型31的NoC前发现AUC为0.929,高于同一分期的TPv1发现AUC,即0.81;将模型31进行验证,并仅使用CRC与NCNF子集,可以作为与TPv1的可接受的比较。如果进一步与TPv1进行比较,则可以考虑将其用于将来的工作。
与SPCv1的比较
此处描述的工作的第二个最初目标是证明CRC性能至少等同于针对SPCv1 CRC测试观察到的性能。引起SPCv1测试的CRC05E研究使用来自与当前TPv2研究完全相同的患者的样品,并将相同的患者分配到发现和验证集。另外,SPCv1分类器版本使用的方法与此处使用的方法相同——发现CRC与NCNF分类器版本,随后是在发现ITT样品中的NoC分析,随后是验证。因此,这两项研究的结果可直接比较。SPCv1的经验证的CRC与非CRC的AUC为0.83,灵敏度/特异性为0.81/0.78;TPv2模型40的经验证的AUC为0.82(与SPCv1的AUC在统计上没有区别),灵敏度/特异性为0.81/0.78;因此,TPv2研究显示出与SPCv1相当的性能,从而实现了目标。
与SPCv1测试中使用的分类器相比,TPv2分类器提供了两个优点。首先,与SPCv1ELISA相比,使用靶向MRM MS测量的测定形式可能更适合成功的质量控制和自动化。其次,两个最佳TPv2分类器中较少数目的特征(在模型40和52中分别具有3个和5个独特的跃迁)可能会基于这些结果改善任何新测试的焦点和质量。
此处描述的工作得到了针对有CRC症状的群体的三个经验证的CRC与非CRC分类器。这些分类器均为SVM,来自版本28、40和52。来自版本40的分类器是最有前景的,因为它使用的预测器最少,并且在验证中性能最强,与SPCv1测试中使用的灵敏度/特异性0.81/0.78相匹配。如果在MS平台上进行商业实施,该测试将提供与SPCv1等同的CRC性能,并且可能更适合自动化和质量控制。
健康状态评估
本文公开了与靶向健康状态评估相关的方法、系统、数据库和组合物。本文公开内容的实践允许监测患者的健康状态,例如通过准确、可重复地测量体外样品(例如,来源于患者)中的生物标志物,如蛋白质。监测可以针对特定的健康状态或状况、一组状况,或者可以是非靶向的,从而监测生物标志物,并且生物标志物水平或来自生物标志物的其他信号的变化表明由生物标志物指示的或与生物标志物相关的健康状态已经改变或需要进一步研究或干预。
本文公开了质谱法用于鉴定和量化从人获得的生物样品中的内源性蛋白质和肽的效用的证明。生物样品的非限制性实例包括干燥的血液或血浆斑点,其可以使用各种采集方法如特殊滤纸或干燥血浆斑点卡来采集。在干燥血浆斑点卡的一些实施方案中,血液样品沉积在过滤层上,该过滤层分离出非血浆血液组分。在指定的时间量之后,去除该过滤层,留下血浆斑点,然后在储存之前使之干燥。
如本文所考虑的生物标志物包括广泛的提供患者健康信息的数据。干燥血液或干燥血浆是生物标志物信息的示例性来源,但是广泛的生物标志物和生物标志物来源与本文的公开内容相兼容。在多个实施方案中,本文考虑的标志物包括患者年龄、性别、葡萄糖水平、血压、睡眠模式、体重测量、卡路里摄取、食物摄取成分、维生素或药物摄入量、处方药使用模式、药物滥用史、运动模式或运动输出量化(例如,依据距离、消耗的卡路里估计值或消耗或施加的能量的其他量度)以及生物分子测量值中的至少一种。
在一些实施方案中使用的额外的标志物包括采集样品的时间和地点,如采集样品的一天中的时间、一周中的时间、日期和季节中的至少一个。类似地,在一些实施方案中还包括与采集样品的位置有关的地理信息,和/或与采集样品的个体有关的地理信息。
可以从任何数目的患者组织中的样品测量用作生物标志物的生物分子,该样品例如是流体,如患者的血液、血清、尿液、唾液、脑脊液、呼吸道渗出物或任何数目的其他组织或流体中的至少一种。在一些情况下,生物分子在例如患者尿液、收集的颗粒或呼吸中或唾液或血液中的液滴中测量。优选的实施方案包括测量来自患者血液的多种生物标志物,如蛋白质生物标志物。
来源于患者样品如患者流体的生物标志物,例如作为患者血液中的循环生物标志物,通过与本文公开内容一致的多种方法进行定量。当针对特定标志物以用于测量时,使用质谱方法或抗体来检测并在一些情况下量化样品中至少一种生物标志物的水平。备选地或组合地,通过质谱方法相对或绝对地量化生物标志物,如血液样品中的循环生物标志物或从呼吸抽吸物获得的生物标志物。
本文所述方法的一些方面包括生成大量生物标志物测量值。在多个实施方案中,进行测量,以便确定样品中的至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、150或200种或更多种生物标志物的水平。
在一些实例中,使用无标记物、有标记物或任何其他质量位移技术来鉴定或量化样品中的分子标志物。例如,无标记物技术包括但不限于稳定同位素标准(SIS)肽响应。有标记物技术包括但不限于肽或蛋白质的化学或酶标记。在一些实例中,样品中的分子标志物包括与特定疾病相关的所有蛋白质。在一些实例中,基于数种性能特征(即峰丰度、CV、精确度等)选择这些蛋白质。
如本文所公开的,可以对生物标志物进行准确且可重复地测量以供分析,如与参考水平进行比较。参考水平包括从多个个体或样品的平均水平确定的生物标志物水平,其至少一种健康状况状态是已知的。备选地或组合地,从在不同时间取自相同个体的样品确定生物标志物的参考水平,使得随着时间的推移观察个体的生物标志物概况的时间变化,并且使得与健康状态或状况相关的至少一个、直至大数目的生物标志物的变化指示该健康状态或状况的变化或即将发生的变化。
在一些情况下,单个生物标志物指示健康状态,使得生物标志物水平的变化提供有关健康状态的变化的信息。备选地或组合地,许多生物标志物,即使单独地没有提供有关健康状态的信息或者提供的信息低于信息可操作时的置信水平,也可展现出一致的变化,以便它们通常涉及的健康状况或状态被鉴定为在将来在保证作用的置信水平下被改变或可能被改变。
生物标志物测量值可从质谱数据或其他来源如蛋白质或肽阵列或免疫学测定生成。在一些情况下,所述测量值是关于对应于以下至少一种的生物标志物:1)已知蛋白质或片段,其映射到具有已知功能且在至少一种健康状态或病症中具有已知作用的已知蛋白质,2)已知蛋白质或已知片段,其映射到具有已知功能但在健康状态或病症中具有未知作用的已知蛋白质,3)未知或未鉴定的蛋白质或片段,如这样的片段:其尚未映射到已知功能的特定蛋白质或用其鉴定,但在一些情况下仍然与健康状态或状况的标志物相关,例如由于它们在已知或假设的健康状态或健康状况方面不同的样品之间可鉴别的水平差异。
因此,在本文的多个实施方案中,标志物数据可用于鉴定样品之间不同的蛋白质或一组蛋白质,如不同健康状态的个体或在不同时间点的单个个体内,使得生物标志物的身份指示个体之间或在一个时间点相比于另一个时间点的个体中的健康状况或健康状态差异。生物标志物提供其信息的健康状况的非限制性列表包括心血管疾病(心脏病)、过度增生性疾病(例如,癌症)、神经疾病(例如,阿尔茨海默病)、自身免疫病(例如,狼疮)、代谢性疾病(如肥胖症)、炎性疾病(例如关节炎)、骨病(如骨质疏松症)、胃肠疾病(如溃疡)、血液疾病(如镰状细胞贫血)、感染(例如,细菌、病毒和真菌感染)和慢性疲劳综合征。过度增生性疾病如癌症的实例包括结直肠癌、皮肤癌、肺癌、喉癌、血癌、脑癌、乳腺癌和前列腺癌。
本文所述的某些方法旨在鉴定结直肠癌、腺瘤或息肉健康状态。例如,晚期结直肠癌可以使用多种技术进行检测,并且通常包括可鉴别的健康症状,如直肠出血或血便、排便习惯改变、虚弱/疲劳、痉挛和体重减轻。然而,早期结直肠癌可能更难以检测。在一些情况下,个体没有发展成结直肠癌,而是患有CRC前腺瘤或息肉。因此,本文所述的一些方法使用本文所述的生物标志物小组(例如,A2GL、ALS、PTPRJ和年龄)来评估早期结直肠癌或CRC前期。
图15中显示的示图示出了用于设计和表征用来鉴定适合用于评估健康状态如结直肠癌状态的生物标志物的研究的方法。显示各种情况下的健康状况的饼图示出了从0到250以下的“其他发现”,由250以下的小片表示的“其他癌症”,恰在250之前开始并延伸到500以下的“无共病-无发现”,由在500之前开始并延伸到超过500的片表示的“共病-无发现”,由在500之后开始并延伸到超过750的片表示的“结直肠癌”,以及在750以后开始并延伸到1000的“腺瘤”。
质量控制指标
本文描述了质量控制(QC)指标,其提供一种或多种对样品分析具有影响的因素的信息。这类因素包括样品采集、样品储存、样品洗脱以及与样品分析相关的其他条件或过程。例如,某些条件对可从样品获得的数据的质量、可靠性或变异性具有不利影响。因此,QC指标指示至少一类信息,如样品完整性、样品洗脱效率或过滤器储存条件。样品完整性包括样品pH、样品稳定性、蛋白水解活性、DNA酶活性、RNA酶活性以及其他提示对样品的可能损害的条件。样品洗脱效率包括与亲/疏水性(hydropathy)相关的洗脱效率、总体样品洗脱效率、样品成分的洗脱效率以及其他用于评估成功洗脱的指标。过滤器储存条件包括样品储存持续时间、最高温度暴露、最低温度暴露、平均温度暴露、时间-温度暴露、光暴露、UV暴露、辐射暴露、湿度以及样品已经暴露的其他条件。QC指标可用来丢弃样品,从进一步的分析或结果(例如,CRC健康状态)分类使用中丢弃或门控从样品获得的至少一部分测定数据。例如,如果QC指标表明阈值百分比的目的标志物未能从采集装置中成功洗脱(例如,超过10%的标志物或相应的内标或QC标志物未能洗脱),则可以将该标志物从结果分类使用中丢弃。或者,可以基于QC指标来调节标志物的定量(例如,重新调节计算出的标志物的量,以考虑洗脱期间损失的预测量)。
可以在提供指示一种或多种信息类别的信息的QC标志物的帮助下评价QC指标。在一些实施方案中,QC标志物指示样品储存持续时间、最高温度暴露、最低温度暴露、平均温度暴露、时间-温度暴露、样品pH、光暴露、UV暴露、辐射暴露、湿度、样品成分的洗脱效率、与亲/疏水性相关的洗脱效率、总体样品洗脱效率、样品稳定性、蛋白水解活性、DNA酶活性或RNA酶活性。QC标志物的非限制性实例包括洗脱标志物、湿度标志物、pH标志物、温度标志物、时间标志物、蛋白水解标志物、核酸酶标志物、稳定性标志物、辐射标志物、UV标志物和光标志物。QC标志物的实例可见国际申请PCT/US2018/049583,该申请通过引用整体并入本文。具体地,至少将PCT/US2018/049583中关于洗脱标志物、湿度标志物、pH标志物、温度标志物、时间标志物、蛋白水解标志物、核酸酶标志物、稳定性标志物、辐射标志物、UV标志物和光标志物的描述并入本文作为参考。
在一些情况下,QC标志物与样品一起采集和/或储存。例如,本文考虑了包含至少一种QC标志物的采集装置,如滤纸或干燥血液斑点过滤器。备选地或组合地,在采集之后但在样品处理或分析之前或期间,将QC标志物添加到样品中。采集装置适合于采集或接收多种样品。合适的样品包括液体样品,如血液、唾液、尿液、泪液、淋巴、胆汁、痰或其他生物流体。过滤器通常包含至少一个层,如颗粒不可透过的多孔层。当使用QC标志物时,在装置组装期间、装置组装之后、样品沉积之前、样品沉积期间、样品沉积之后、样品洗脱之前、样品洗脱期间、样品洗脱之后、样品处理(例如,用于质谱分析或亲和力测定分析)之前、样品处理期间或其任意组合,将至少一个QC标志物设置在诸如过滤器的采集装置上。设置在采集装置上的至少一个QC标志物被定位成使得与沉积在该装置上的样品共迁移,与样品一起从过滤器上共洗脱,与样品一起储存在该装置上,或其任意组合。或者,设置在采集装置上的至少一个QC标志物被定位成避免与样品共洗脱。例如,一些质量控制标志物提供关于样品本身的直接信息,该信息可包括pH、蛋白水解活性或核酸酶活性。
与QC标志物的使用相符合的过滤器是Noviplex Plasma Prep Card(NovilyticLabs),它包含多个层,包括覆盖层(表面层)、扩散层、分离器(用于过滤细胞)、血浆采集储器、隔离卡和基卡。在这些类型的过滤器中,可以在覆盖层、扩散层、分离器、血浆采集储器和血浆采集储器中的至少一个上设置至少一个QC标志物。设想了过滤器结构的变化,并且标志物和方法与广泛范围的过滤器结构兼容。
可以基于标志物旨在提供的信息将QC标志物定位在采集装置上。例如,用于测量样品从覆盖层(表面)迁移至血浆采集储器的效率的标志物位于覆盖层上,使其在样品沉积在过滤器上之后与样品共迁移至该储器。相对于采集储器中的标志物对洗脱的样品中的标志物进行定量,例如,可以提供该装置的洗脱效率。
例如具有已知质谱迁移偏移(例如,由于同位素标记或化学修饰)的相应标志物可以以已知量定位在储器中。在某些情况下,两种标志物都相对于来自样品的内源性分子具有已知的迁移偏移,以允许与该内源性分子区分开。样品洗脱后,可以使用质谱法对这两种标志物进行定量,以确定代表在样品迁移过程中“丢失”的标志物的量或比例的比率。继而,这提供了样品采集过程中的样品或生物标志物损失的估计值。或者,当至少一个QC标志物指示仅数据的子集受损或被破坏时,任选地对样品数据进行门控,以除去受损的子集,同时保留其余数据以供后续分析。例如,QC标志物可指示温度暴露超过阈值,该阈值被预测或已知会导致某些温度敏感性蛋白质的降解。因此,可以从进一步的分析中筛出这些温度敏感性蛋白质或与这些蛋白质相对应的数据,而不丢失整个样品或数据集。
内标可用来评价QC指标。内标可用来生成已知量标志物的多个稀释液的校准曲线。该校准曲线可以用来评价测定性能的灵敏度、动态范围和其他指标。例如,当标志物的量低于某个阈值时,校准曲线可以指示信号丢失。该信息可用来调整如上所述的测定或样品处理,例如,丢弃样品和/或门控或去除落到阈值以下的标志物的数据。
机器学习
一些实施方案涉及作为数据库分析的组件的机器学习,因此一些计算机系统被配置为包含具有机器学习能力的模块。机器学习模块通常包含以下列出的模态(modalities)中的至少一个,以便构成机器学习功能。
构成机器学习的模态不同地展示数据过滤能力,以便能够进行自动质谱数据斑点检测和判定。在一些情况下,通过在质谱分析输出中存在标志物多肽,如重同位素标记的多肽或其他标志物来促进这种模态,使得天然肽易于鉴定并在一些情况下进行定量。在蛋白水解消化之前或在蛋白水解消化之后,任选地将标志物添加至样品中。在一些实施方案中,标志物存在于固体背衬上,在通过质谱法分析之前在其上沉积血液斑点或其他样品以供储存或转移。
构成机器学习的模态不同地展示数据处理或数据加工能力,以便以有助于下游分析的形式呈现所判定的数据斑点。数据处理的实例包括但不一定限于对数转换、分配比例比,或将数据映射到精心设计的特征,以便以有助于下游分析的形式呈现数据。
如本文所公开的机器学习数据分析组件定期加工质谱数据集内的广泛特征,如1至10,000个特征,或2至300,000个特征,或这些范围中的任一个范围内或高于这些范围中的任一个范围的多个特征。在一些情况下,数据分析涉及至少1k、2k、3k、4k、5k、6k、7k、8k、9k、10k、20k、30k、40k、50k、60k、70k、80k、90k、100k、120k、140k、160k、180k、200k、220k、2240k、260k、280k、300k或多于300k个特征。
使用与本文公开内容一致的任何数目的方法来选择特征。在一些情况下,特征选择包括弹性网络、信息增益、随机森林输入或与本文的公开内容一致并且本领域技术人员熟悉的其他特征选择方法。
再次使用与本文公开内容一致的任何数目的方法将所选择的特征组装成分类器。在一些情况下,分类器生成包括逻辑回归、SVM、随机森林、KNN或与本文的公开内容一致并且本领域技术人员熟悉的其他分类器方法。
机器学习方法不同地包括选自ADTree、BFTree、ConjunctiveRule、DecisionStump、Filtered Classifier、J48、J48Graft、JRip、LADTree、NNge、OneR、OrdinalClassClassifier、PART、Ridor、SimpleCart、随机森林和SVM的至少一种方法的实施。
在被配置用于本文公开的分析的计算机上应用机器学习或提供机器学习模块,允许检测用于无症状疾病检测或早期检测的相关小组,作为持续监测程序的一部分,以便在症状发展之前或在干预更容易完成或更有可能带来成功结果时鉴定疾病或病症。监测通常但不一定与遗传评估相结合地或在遗传评估的支持下进行,该遗传评估指示其发病或进展特征受到监测的病症的遗传易感性。类似地,在一些情况下,利用机器学习来促进对治疗方案的治疗功效的监测或评估,使得治疗方案可以随着时间的推移进行修改、继续或解决,如持续的蛋白质组学介导的监测所示。
机器学习方法和具有被配置为执行机器学习算法的模块的计算机系统有助于鉴别不同复杂度的数据集内的分类器或小组。在一些情况下,分类器或小组从包含大量质谱数据的非靶向数据库中鉴别,这些质谱数据例如是在多个时间点从单个个体获得的数据,从取自多个个体(如对于感兴趣的病况或已知的最终治疗结果或反应为已知状态的多个个体)或取自多个时间点和多个个体的样品获得的数据。
或者,在一些情况下,机器学习通过分析针对小组的数据库来促进该小组的细化,例如,当个体的健康状况对于时间点已知时通过在多个时间点从单个个体采集该小组的小组信息,或者对于感兴趣的病况从已知状态的多个个体采集小组信息,或者在多个时间点从多个个体采集小组信息。显而易见的是,在一些情况下,通过使用质量标志物如重标记的或“轻标记的”质量标志物(它们迁移以便鉴别与标记的多肽相对应的附近未标记的斑点)来促进小组信息的采集。因此,单独地或与非靶向质谱数据采集相组合地采集小组信息。例如在如本文所公开的配置的计算机系统上,使小组数据经历机器学习,以便单独地或与通过非靶向方法分析的一个或多个非小组标志物组合地鉴别小组标志物的子集,说明健康状态信号。因此,在一些情况下,机器学习有助于鉴别单独地提供个体健康状态的信息的小组。
干燥血液斑点分析
被配置为接收如本文所公开的质谱数据的方法、数据库和计算机通常涉及加工在空间上、时间上或空间和时间上较大的质谱数据集。也就是说,生成的数据集在一些情况下包含每个采集的样品的大量质谱数据点,由大量采集的样品生成,并且在一些情况下由来源于单个个体的多个样品生成。
在一些情况下,通过将样品如干燥的血液样品(或其他容易获得的样品,如尿液、汗液、唾液或其他流体或组织)沉积到固体框架如固体背衬或固体三维框架上来促进数据采集。将样品如血液样品沉积在固体背衬或框架上,在那里主动或被动地进行干燥,从而有助于储存或从采集点运输到可以进行加工的位置。
如本文所公开的,许多方法可用于从干燥的样品如干燥血液斑点样品中回收蛋白质组学或其他生物标志物信息。在一些情况下,将样品溶解,例如溶解在TFE中,并进行蛋白水解以生成将要通过质谱分析可视化的片段。通过酶促或非酶促处理完成蛋白水解。示例性的蛋白酶包括胰蛋白酶,但还包括单独或组合使用的酶,如蛋白酶K、肠肽酶、弗林蛋白酶、liprotamase、菠萝蛋白酶、沙雷菌肽酶、嗜热菌蛋白酶、胶原酶、纤溶酶或任何数目的丝氨酸蛋白酶、半胱氨酸蛋白酶或其他特异性或非特异性酶促肽酶。非酶促蛋白酶处理,如高温、pH处理、溴化氰和其他处理,也与一些实施方案一致。
当对特定的质谱片段感兴趣或用于分析时,如对于指示健康状况状态的生物标志物小组,通常有益的是包括重标记的或其他标志物作为如本文所述的标准标志物。如所讨论的,标志物在已知位置处并且以相对于感兴趣的样品片段的已知偏移在质谱输出上迁移。包含这些标志物通常导致质谱输出中的“偏移双峰”。通过检测这些双峰,可以个人地或通过自动化数据分析工作流程容易地在全范围的质谱输出数据中以及除此之外鉴别对健康状况状态有意义的特定斑点。当标志物具有已知的质量和量时,并且任选地当加载到样品中的量在标志物之间变化时,所述标志物也可以用作质量标准品,从而有利于标志物相关片段和质谱输出中的剩余片段的定量。
在采集时、在重新溶解期间或之后、在消化之前或在消化之后,将标准标志物引入样品中。也就是说,在一些情况下,“预加载”诸如固体背衬或三维体积的样品采集结构,以便在样品采集之前存在一个或多个标准标志物。或者,在样品采集之后、在样品在该结构上干燥之后、在样品采集期间或之后、在样品重新溶解期间或之后、或在样品的蛋白水解处理期间或之后,将标准标志物添加至采集结构。在优选的实施方案中,在样品采集之前将精确地或大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300个或多于300个标准标志物添加至采集结构,使得样品的标准加工产生在输出中包括标准标志物的质谱输出,而无需对样品进行任何另外的加工。因此,本文公开的一些方法包括提供在样品采集之前已经将样品标志物引入到表面上的采集装置,并且一些装置或计算机系统被配置为接收其中包括标准标志物的质谱数据,并且任选地鉴别质谱标志物及其相应的天然质量片段。
某些定义
除非上下文另有明确规定,否则如本说明书和权利要求书中所使用的,单数形式“一个”、“一种”和“该”包括复数指示物。例如,术语“一个样品”包括多个样品,包括其混合物。
术语“确定”、“测量”、“评价”、“评估”、“测定”和“分析”在本文中通常可互换使用,以指代测量形式,并且包括确定元素是否存在(例如,检测)。这些术语可包括定量、定性或定量和定性测定。评估是相对的或绝对的。“检测……的存在”包括测定某物的存在量以及确定其存在与否。
术语“小组(panel)”、“生物标志物小组”、“蛋白质小组”在本文中可互换使用,以指代一组生物标志物,其中这组生物标志物包含至少两种生物标志物。示例性的生物标志物是独特地或确信地定位于特定蛋白质的蛋白质或蛋白质的多肽片段。然而,也考虑其他生物标志物,例如提供样品的个体的年龄或性别。该生物标志物小组常常预测和/或提供受试者的健康状态、疾病或状况的信息。
生物标志物小组的“水平”是指该小组成分标志物的绝对水平和相对水平,以及该小组成分生物标志物的相对模式。
术语“结直肠癌”和“CRC”在本文中可互换使用。术语“结直肠癌状态”、“CRC状态”可指受试者的疾病的状态。CRC状态的类型的实例包括但不限于受试者患包括结直肠癌在内的癌症的风险、疾病(例如,腺癌)的存在与否、患者的疾病阶段(例如,癌)和疾病治疗的有效性。在一些情况下,健康状态是存在或不存在CRC前的腺瘤或息肉。
术语“质谱仪”可指测量可以转变成气相离子的质-荷(m/z)比的参数的气相离子谱仪。质谱仪通常包括离子源和质量分析器。质谱仪的实例为飞行时间(time-of-flight)、扇形磁场(magnetic sector)、四极滤质器、离子阱、离子回旋共振、静电扇形分析仪以及这些的混合。“质谱法”可指使用质谱仪对气相离子的检测。
术语“生物标志物”和“标志物”在本文中可互换使用,并且可指与取自未患有疾病的对照受试者(例如,具有阴性诊断的或检测不到CRC的人,正常或健康受试者,或者例如在不同时间点来自同一个体)的相应样品或相应数据相比,在取自患有需要诊断的疾病(例如,CRC)的受试者的样品中差异存在的多肽、基因、核酸(例如,DNA和/或RNA),或者从具有或没有样品获取的受试者获得的其他数据,如患者年龄信息或患者性别信息。本文的常见生物标志物包括独特地或确信地映射到特定蛋白质(或者,在诸如上述SAA的情况下,映射到一对或一组紧密相关的蛋白质)的蛋白质或蛋白质片段,氨基酸序列的跃迁离子,或者蛋白质的一种或多种修饰,如磷酸化、糖基化或其他翻译后或共翻译修饰。此外,蛋白质生物标志物可以是蛋白质、蛋白质片段或氨基酸序列跃迁离子的结合配偶体。
术语“多肽”、“肽”和“蛋白质”在本文通常可互换使用,是指氨基酸残基的聚合物。蛋白质通常是指从编码开放阅读框翻译的全长多肽,或加工成其成熟形式,而多肽或肽非正式地指仍然独特地或可鉴别地映射到特定蛋白质的蛋白质的降解片段或加工片段。多肽可以是通过相邻氨基酸残基的羧基与氨基之间的肽键键合在一起的氨基酸的单个线性聚合物链。多肽可以例如通过添加碳水化合物、磷酸化等来修饰。蛋白质可包含一种或多种多肽。
“免疫测定”是使用抗体来特异性地结合抗原(例如,标志物)的测定。免疫测定的特征可在于使用特定抗体的特异性结合性质来分离、靶向和/或量化抗原。
“适体测定”是使用寡核苷酸(例如,DNA、RNA或核酸类似物,如肽核酸、吗啉代、二醇核酸或苏糖核酸)或肽分子特异性结合靶标(例如,蛋白质或肽生物标志物)的测定。适体测定的特征可在于利用特定适体分子的特异性结合性质来分离、靶向和/或量化靶标。
术语“抗体”可指基本由一个或多个免疫球蛋白基因或其片段编码的、特异性结合并识别表位的多肽配体。例如,抗体作为完整的免疫球蛋白存在或作为通过用各种肽酶消化而产生的多个良好表征的片段存在。
术语“肿瘤”可指可由癌细胞或非癌细胞形成的固体或流体填充的病变或结构,如表现出异常细胞生长或分裂的细胞。术语“肿块”和“结节”通常与“肿瘤”同义使用。肿瘤包括恶性肿瘤或良性肿瘤。恶性肿瘤的实例可以是已知包含经转化的细胞的癌。
术语“受试者”、“个体”或“患者”在本文中通常可互换使用。“受试者”可以是含有表达的遗传物质的生物实体。该生物实体可以是植物、动物,或包括例如细菌、病毒、真菌和原生动物在内的微生物。该受试者可以是在体内获得的或在体外培养的生物实体的组织、细胞及其后代。该受试者可以是哺乳动物。该哺乳动物可以是人。该受试者可被诊断出疾病或被怀疑具有患病的高风险。该疾病可以是癌症。该癌症可以是CRC(CRC)。在一些情况下,该受试者不一定被诊断出疾病或被怀疑具有患病的高风险。
术语特异性或真阴性率可指某试验正确地排除某状况的能力。例如,在诊断试验中,试验的特异性是已知未患疾病、将会检测为对该疾病呈阴性的患者的比例。在一些情况下,这通过确定真阴性者(即,检测为阴性且未患该疾病的患者)与群体中健康个体的总数(即,检测为阴性且未患该疾病的患者与检测为阳性却未患该疾病的患者之和)的比例来计算。
术语灵敏度或真阳性率可指某试验正确地鉴别某状况的能力。例如,在诊断试验中,试验的灵敏度是已知患有疾病、将会检测为对该疾病呈阳性的患者的比例。在一些情况下,这通过确定真阳性者(即,检测为阳性且患有该疾病的患者)与群体中具有该状况的个体的总数(即,检测为阳性且具有该状况的患者与检测为阴性却具有该状况的患者之和)的比例来计算。
灵敏度与特异性之间的定量关系可以随着选择不同的诊断截止值而变化。可以使用ROC曲线来表示该变化。ROC曲线的x轴显示测定的假阳性率,其可以计算为(1-特异性)。ROC曲线的y轴报告测定的灵敏度。这允许人们容易地确定对于给定的特异性,测定的灵敏度,反之亦然。
如本文所用的,术语“约”某一数字是指该数字加上或减去该数字的10%。术语“约”某一范围是指该范围减去其最低值的10%至加上其最大值的10%。
如本文所用的,术语“治疗”或“处理”用于指代用于在接受者中获得有益或期望的结果的药物或其他干预方案。有益或期望的结果包括但不限于治疗性益处和/或预防性益处。治疗性益处可指症状或正在被治疗的潜在病症的根除或改善。另外,治疗性益处也能如下实现:根除或改善与潜在病症相关的一种或多种生理学症状,使得在受试者中观察到改善,尽管该受试者可能仍受到该潜在病症的折磨。预防性效果包括延缓、防止或消除疾病或状况的出现,延缓或消除疾病或状况的症状发作,减慢、终止或逆转疾病或状况的进展,或其任意组合。对于预防性益处,具有发生特定疾病的风险的受试者或报告疾病的一种或多种生理学症状的受试者可接受治疗,即使可能尚未作出该疾病的诊断。
数字处理设备
在一些实施方案中,本文所描述的平台、系统、介质和方法包括数字处理设备或其使用。在进一步的实施方案中,数字处理设备包括执行设备功能的一个或多个硬件中央处理单元(CPU)或通用图形处理单元(GPGPU)。在更进一步的实施方案中,数字处理设备进一步包含被配置为执行可执行指令的操作系统。在一些实施方案中,数字处理设备任选地连接计算机网络。在进一步的实施方案中,数字处理设备任选地连接到因特网,使其可访问万维网。在更进一步的实施方案中,数字处理设备任选地连接到云计算基础设施。在其他实施方案中,数字处理设备任选地连接到内联网。在其他实施方案中,数字处理设备任选地连接到数据存储设备。
根据本文的描述,作为非限制性实例,合适的数字处理设备包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、小型笔记本型计算机、上网本计算机、记事本计算机、机顶计算机、媒体流设备、手持式计算机、互联网设备、移动智能电话、平板计算机、个人数字助理、视频游戏控制台和媒介物。本领域技术人员将会认识到,许多智能电话适用于本文所述的系统。本领域技术人员还将认识到,具有可选计算机网络连接的选择电视、视频播放器和数字音乐播放器适用于本文所述的系统。合适的平板计算机包括具有本领域技术人员已知的小册子、平板和可转换配置的平板计算机。
在一些实施方案中,数字处理设备包括被配置用于执行可执行指令的操作系统。该操作系统是例如包含程序和数据的软件,该软件管理设备的硬件并为应用程序的执行提供服务。本领域技术人员将认识到,作为非限制性实例,合适的服务器操作系统包括FreeBSD、OpenBSD、
Figure BDA0002618685530000481
Linux、
Figure BDA0002618685530000482
Mac OS X
Figure BDA0002618685530000483
Windows
Figure BDA0002618685530000484
Figure BDA0002618685530000485
本领域技术人员将认识到,作为非限制性实例,合适的个人计算机操作系统包括
Figure BDA0002618685530000486
Mac OS
Figure BDA0002618685530000487
和类似UNIX的操作系统如
Figure BDA0002618685530000488
在一些实施方案中,操作系统由云计算提供。本领域技术人员还将认识到,作为非限制性实例,合适的移动智能电话操作系统包括
Figure BDA0002618685530000489
OS、
Figure BDA00026186855300004810
Research In
Figure BDA00026186855300004811
BlackBerry
Figure BDA00026186855300004812
Figure BDA00026186855300004813
Windows
Figure BDA00026186855300004814
OS、
Figure BDA00026186855300004815
Windows
Figure BDA00026186855300004816
OS、
Figure BDA00026186855300004817
Figure BDA00026186855300004818
本领域技术人员还将认识到,举非限制性示例而言,合适的媒体流设备操作系统包括Apple
Figure BDA0002618685530000491
Google
Figure BDA0002618685530000492
Google
Figure BDA0002618685530000493
Amazon
Figure BDA0002618685530000494
Figure BDA0002618685530000495
本领域技术人员还将认识到,举非限制性示例而言,合适的视频游戏控制台操作系统包括
Figure BDA0002618685530000496
Xbox
Figure BDA0002618685530000497
Microsoft Xbox One、
Figure BDA0002618685530000498
Wii
Figure BDA0002618685530000499
Figure BDA00026186855300004910
在一些实施方案中,所述设备包括储存和/或存储设备。该存储设备和/或存储器设备是用于临时或永久地存储数据或程序的一个或多个物理设备。在一些实施方案中,该设备是易失性存储器且需要电力来维护存储的信息。在一些实施方案中,该设备是非易失性存储器,并且在数字处理设备未通电时保留存储的信息。在进一步的实施方案中,非易失性存储器包含闪速存储器。在一些实施方案中,非易失性存储器包含动态随机存取存储器(DRAM)。在一些实施方案中,非易失性存储器包含铁电随机存取存储器(FRAM)。在一些实施方案中,非易失性存储器包含相变随机存取存储器(PRAM)。在其他实施方案中,该设备是存储设备,作为非限制性实例,该存储设备包括CD-ROM、DVD、闪速存储器设备、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储器。在进一步的实施方案中,存储和/或存储器设备是诸如本文公开的那些设备的组合。
在一些实施方案中,数字处理设备包括显示器,以向用户发送视觉信息。在一些实施方案中,该显示器是阴极射线管(CRT)。在一些实施方案中,该显示器是液晶显示器(LCD)。在进一步的实施方案中,该显示器是薄膜晶体管液晶显示器(TFT-LCD)。在一些实施方案中,该显示器是有机发光二极管(OLED)显示器。在多个其他实施方案中,在OLED显示器上是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实施方案中,该显示器是等离子体显示器。在其他实施方案中,该显示器是视频投影仪。在更进一步的实施方案中,该显示器是诸如本文公开的那些设备的组合。
在一些实施方式中,数字处理设备包括输入设备以从用户接收信息。在一些实施方案中,该输入设备是键盘。在一些实施方案中,该输入设备是指向设备,作为非限制性实例,该指示设备包括鼠标、跟踪球、跟踪板、操纵杆、游戏控制器或触笔。在一些实施方案中,该输入设备是触摸屏或多点触摸屏。在其他实施方案中,该输入设备是用于捕获语音或其他声音输入的麦克风。在其他实施方案中,该输入设备是用来捕捉运动或视觉输入的视频摄像机或其他传感器。在进一步的实施方案中,该输入设备是Kinect、Leap Motion等。在更进一步的实施方案中,该输入设备是诸如本文公开的那些设备的组合。
非暂时性计算机可读存储介质
在一些实施方案中,本文公开的平台、系统、介质和方法包括用程序编码的一个或多个非暂时性计算机可读存储介质,该程序包括可由可选的联网的数字处理设备的操作系统执行的指令。在进一步的实施方案中,计算机可读存储介质是数字处理设备的有形组件。在更进一步的实施方案中,计算机可读存储介质任选地可从数字处理设备移除。在一些实施方案中,作为非限制性实例,计算机可读存储介质包括CD-ROM、DVD、闪速存储器设备、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务器等。在一些情况下,所述程序和指令在介质上永久地、基本上永久地、半永久地或非暂时地编码。
计算机程序
在一些实施方式中,本文公开的平台、系统、介质和方法包括至少一种计算机程序或其使用。计算机程序包括可在数字处理设备的CPU中执行的指令序列,该指令序列被编写以进行指定的任务。计算机可读指令可以作为执行特定任务或实现特定抽象数据类型的程序模块,如函数、对象、应用编程接口(API)、数据结构等来实现。鉴于本文提供的公开内容,本领域技术人员将认识到,计算机程序可用各种语言的各种版本来编写。
可以根据需要在各种环境中组合或分布计算机可读指令的功能性。在一些实施方案中,计算机程序包含一个指令序列。在一些实施方案中,计算机程序包含多个指令序列。在一些实施方案中,从一个位置提供计算机程序。在其他实施方案中,从多个位置提供计算机程序。在多个实施方案中,计算机程序包括一个或多个软件模块。在多个实施方案中,计算机程序部分或全部包括一个或多个web应用程序、一个或多个移动应用程序、一个或多个独立应用程序、一个或多个web浏览器插件、扩展、加载项或附加项或其组合。
Web应用程序
在一些实施方案中,计算机程序包括web应用程序。鉴于本文提供的公开内容,本领域技术人员将认识到,在多个实施方案中,web应用程序利用一个或多个软件框架和一个或多个数据库系统。在一些实施方案中,基于诸如
Figure BDA0002618685530000511
.NET或Ruby on Rails(RoR)的软件框架创建web应用程序。在一些实施方案中,web应用程序利用一个或多个数据库系统,作为非限制性实例,该数据库系统包括关系数据库系统、非关系数据库系统、面向对象的数据库系统、关联数据库系统和XML数据库系统。在进一步的实施方案中,作为非限制性实例,合适的关系数据库系统包括
Figure BDA0002618685530000512
SQL服务器、mySQLTM
Figure BDA0002618685530000513
本领域技术人员还将认识到,在多个实施方案中,web应用程序以一种或多种语言的一个或多个版本编写。Web应用程序可以用一种或多种标记语言、表示定义语言、客户端脚本语言、服务器端编码语言、数据库查询语言或其组合来编写。在一些实施方案中,web应用程序在某种程度上以诸如超文本标记语言(HTML)、可扩展超文本标记语言(XHTML)或可扩展标记语言(XML)的标记语言编写。在一些实施方案中,web应用程序在某种程度上以诸如级联样式表(CSS)的表示定义语言编写。在一些实施方案中,web应用程序在某种程度上以诸如异步Javascript和XML(AJAX)、
Figure BDA0002618685530000514
Actionscript、Javascript或
Figure BDA0002618685530000515
的客户端脚本语言编写。在一些实施方案中,web应用程序在某种程度上以诸如Active Server Pages(ASP)、
Figure BDA0002618685530000516
Perl、JavaTM、JavaServer Pages(JSP)、超文本预处理器(PHP)、PythonTM、Ruby、Tcl、Smalltalk、
Figure BDA0002618685530000517
或Groovy的服务器端编码语言编写。在一些实施方案中,web应用程序在某种程度上以诸如结构化查询语言(SQL)的数据库查询语言编写。在一些实施方案中,web应用程序集成了诸如
Figure BDA0002618685530000518
Lotus
Figure BDA0002618685530000521
的企业服务器产品。在一些实施方案中,web应用包括媒体播放器元素。在多个进一步的实施方案中,媒体播放器元件利用许多合适的多媒体技术中的一种或多种,作为非限制性实例,该多媒体技术包括
Figure BDA0002618685530000522
HTML 5、
Figure BDA0002618685530000523
JavaTM
Figure BDA0002618685530000524
移动应用程序
在一些实施方案中,计算机程序包括提供给移动数字处理设备的移动应用程序。在一些实施方案中,移动应用程序在其制造时被提供给移动数字处理设备。在其他实施方案中,经由本文所述的计算机网络将移动应用程序提供给移动数字处理设备。
鉴于本文提供的公开内容,使用本领域已知的硬件、语言和开发环境,通过本领域技术人员已知的技术创建移动应用程序。本领域技术人员将认识到,移动应用程序是用几种语言来编写的。作为非限制性实例,合适的编程语言包括C、C++、C#、Objective-C、JavaTM、Javascript、Pascal、Object Pascal、PythonTM、Ruby、VB.NET、WML和具有或不具有CSS的XHTML/HTML,或其组合。
合适的移动应用程序开发环境可从多个来源获得。作为非限制性实例,商业上可用的开发环境包括AirplaySDK、alcheMo、
Figure BDA0002618685530000525
Celsius、Bedrock、FlashLite、.NET Compact Framework、Rhomobile和WorkLight移动平台。其他开发环境可免费获得,作为非限制性实例,该其他开发环境包括Lazarus、MobiFlex、MoSync和Phonegap。此外,移动设备制造商分发软件开发者工具包,作为非限制性实例,该软件开发者工具包包括iPhone和iPad(iOS)SDK、AndroidTM SDK、
Figure BDA0002618685530000526
SDK、BREW SDK、
Figure BDA0002618685530000527
OS SDK、Symbian SDK、webOS SDK和
Figure BDA0002618685530000528
Mobile SDK。
本领域技术人员将认识到,多个商业论坛可用于分发移动应用程序,作为非限制性实例,该商业论坛包括
Figure BDA0002618685530000529
App Store、
Figure BDA00026186855300005210
Play、Chrome WebStore、
Figure BDA00026186855300005211
App World、用于Palm设备的App Store、用于webOS的App Catalog、用于Mobile的
Figure BDA00026186855300005212
Marketplace、用于
Figure BDA0002618685530000531
设备的Ovi Store、
Figure BDA0002618685530000532
Apps和
Figure BDA0002618685530000533
DSi Shop。
独立应用程序
在一些实施方案中,计算机程序包括独立应用程序,该独立应用程序是作为独立计算机进程运行的程序,而不是现有进程的附加项,例如,不是插件。本领域技术人员将认识到经常编译独立应用程序。编译器是将用编程语言编写的源代码转换为二进制目标代码如汇编语言或机器代码的计算机程序。作为非限制性实例,合适的编译编程语言包括C、C++、Objective-C、COBOL、Delphi、Eiffel、JavaTM、Lisp、PythonTM、Visual Basic和VB.NET或其组合。通常至少部分地执行编译以创建可执行程序。在一些实施方案中,计算机程序包括一个或多个可执行编译的应用程序。
Web浏览器插件
在一些实施方案中,所述计算机程序包括web浏览器插件(例如,扩展项等)。在计算中,插件是将特定功能添加至更大的软件应用程序中的一个或多个软件组件。软件应用程序的制造商支持插件,以使第三方开发人员能够创建扩展应用程序的能力,以支持轻松添加新特征,并减小应用程序的大小。当支持时,插件能够自定义软件应用程序的功能。例如,插件通常在web浏览器中使用,以播放视频、生成交互性、扫描病毒以及显示特定文件类型。本领域技术人员熟悉多个web浏览器插件,包括
Figure BDA0002618685530000534
Player、
Figure BDA0002618685530000535
Figure BDA0002618685530000536
在一些实施方案中,工具栏包含一个或多个web浏览器扩展项、加载项或附加件。在一些实施方案中,工具栏包含一个或多个浏览器条、工具带或桌面带。
鉴于本文提供的公开内容,本领域技术人员将认识到,可获得多种插件框架,其能够以各种编程语言开发插件,作为非限制性实例,这些编程语言包括但不限于C++、Delphi、JavaTM、PHP、PythonTM和VB.NET或其组合。
Web浏览器(也称为因特网浏览器)是被设计用于与连接网络的数字处理设备一起用于在万维网上检索、呈现和遍历信息资源的软件应用程序。作为非限制性实例,合适的web浏览器包括
Figure BDA0002618685530000541
Internet
Figure BDA0002618685530000542
Chrome、
Figure BDA0002618685530000543
Opera
Figure BDA0002618685530000544
和KDE Konqueror。在一些实施方案中,该web浏览器是移动web浏览器。移动web浏览器(也称为微浏览器、迷你浏览器和无线浏览器)被设计用于移动数字处理设备,作为非限制性实例,包括手持式计算机、平板计算机、上网本计算机、小型笔记本计算机、智能电话、音乐播放器、个人数字助理(PDA)和手持式视频游戏系统。作为非限制性实例,合适的移动web浏览器包括:
Figure BDA0002618685530000545
浏览器、RIM
Figure BDA0002618685530000546
浏览器、
Figure BDA0002618685530000547
Blazer、浏览器、适用于移动设备的
Figure BDA0002618685530000549
Internet
Figure BDA00026186855300005410
Mobile、
Figure BDA00026186855300005411
Basic Web、
Figure BDA00026186855300005412
浏览器、Opera
Figure BDA00026186855300005413
Mobile和
Figure BDA00026186855300005414
PSPTM浏览器。
软件模块
在一些实施方案中,本文公开的平台、系统、介质和方法包括软件、服务器和/或数据库模块,或其使用。鉴于本文提供的公开内容,使用本领域已知的机器、软件和语言,通过本领域技术人员已知的技术创建软件模块。本文公开的软件模块以多种方式实现。在多个实施方案中,软件模块包含文件、代码段、编程对象、编程结构或其组合。在进一步的多个实施方案中,软件模块包含多个文件、多个代码段、多个编程对象、多个编程结构或其组合。在多个实施方案中,作为非限制性实例,一个或多个软件模块包含web应用程序、移动应用程序和独立应用程序。在一些实施方案中,软件模块在一个计算机程序或应用程序中。在其他实施方案中,软件模块在多于一个计算机程序或应用程序中。在一些实施方案中,软件模块托管在一台机器上。在其他实施方案中,软件模块托管在多于一台机器上。在进一步的实施方案中,软件模块托管在云计算平台上。在一些实施方案中,软件模块托管在一个位置中的一个或多个机器上。在其他实施方案中,软件模块托管在多于一个位置中的一个或多个机器上。
数据库
在一些实施方案中,本文公开的平台、系统、介质和方法包括一个或多个数据库或其使用。鉴于本文提供的公开内容,本领域技术人员将认识到,许多数据库适用于存储和检索生物标志物信息。在多个实施方案中,作为非限制性实例,合适的数据库包括关系数据库、非关系数据库、面向对象的数据库、对象数据库、实体关系模型数据库、关联数据库和XML数据库。进一步的非限制性实例包括SQL、PostgreSQL、MySQL、Oracle、DB2和Sybase。在一些实施方案中,数据库是基于因特网的。在进一步的实施方案中,数据库是基于web的。在更进一步的实施方案中,数据库是基于云计算的。在其他实施方案中,数据库基于一个或多个本地计算机存储设备。
编号的实施方案
以下实施方案列举了本文公开的特征的组合的非限制性排列。还考虑到特征组合的其他排列。1.一种评估个体的结直肠健康风险状态的方法,其包括以下步骤:从所述个体获得循环血液样品;以及获得所述个体的A2GL、ALS、PTPRJ和年龄中的至少一种的生物标志物小组水平,并评估结直肠健康风险状态。2.一种分析生物样品的方法,其包括:针对包含A2GL、ALS和PTPRJ的生物标志物小组的每种蛋白质获得所述生物样品中的蛋白质水平,以确定关于所述生物标志物小组的小组信息;将所述小组信息与参考小组信息进行比较,其中所述参考小组信息对应于已知的结直肠癌状态;以及如果所述小组信息与所述参考小组信息没有显著差异,则将所述生物样品分类为具有阳性结直肠癌风险状态,其中所述生物样品来源于循环血液样品。3.根据实施方案2所述的方法,其中所述生物标志物小组进一步包含个体年龄和个体性别中的至少一种。4.根据实施方案2所述的方法,其中所述已知的结直肠癌状态包含早期CRC和晚期CRC中的至少一种。5.根据实施方案2所述的方法,其中所述已知的结直肠癌状态包含晚期腺瘤、0期CRC、I期CRC、II期CRC、III期CRC和IV期CRC中的至少一种。6.根据实施方案2所述的方法,其中所述生物标志物小组包含不超过20种蛋白质。7.根据实施方案2所述的方法,其中所述生物标志物小组包含不超过10种蛋白质。8.根据实施方案2所述的方法,其中所述分类的灵敏度为至少70%且特异性为至少70%,或者灵敏度为至少81%且特异性为至少78%。9.根据实施方案2所述的方法,其进一步包括响应于所述分类进行治疗方案。10.根据实施方案9所述的方法,其中所述治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。11.根据实施方案2所述的方法,其进一步包括将所述分类的结果的报告传送给健康从业者。12.根据实施方案11所述的方法,其中所述报告指示至少70%或至少81%的灵敏度。13.根据实施方案11所述的方法,其中所述报告指示至少70%或至少78%的特异性。14.根据实施方案11所述的方法,其中所述报告指示推荐治疗方案,该治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。15.根据实施方案11所述的方法,其中所述报告指示推荐结肠镜检查。16.根据实施方案11所述的方法,其中所述报告指示推荐进行独立的癌症测定。17.根据实施方案11所述的方法,其中所述报告指示推荐进行粪便癌症测定。18.根据实施方案2所述的方法,其进一步包括响应于所述分类进行粪便癌症测定。19.根据实施方案2所述的方法,其进一步包括继续监测3个月或更长的时间。20.根据实施方案2所述的方法,其进一步包括继续监测3个月至24个月的时间。21.根据实施方案2所述的方法,其中所述获得所述蛋白质水平包括对所述生物样品进行质谱分析。22.根据实施方案2所述的方法,其中所述获得所述蛋白质水平包括对所述生物样品进行免疫测定分析。23.一种分析生物样品的方法,其包括:针对包含A2GL、ALS和PTPRJ的生物标志物小组的每种蛋白质获得所述生物样品中的蛋白质水平,以确定关于所述生物标志物小组的小组信息;将所述小组信息与参考小组信息进行比较,其中所述参考小组信息对应于已知的晚期腺瘤状态;以及如果所述小组信息与所述参考小组信息没有显著差异,则将所述血液样品分类为具有阳性晚期腺瘤风险状态,其中所述生物样品来源于循环血液样品。24.根据实施方案23所述的方法,其中所述生物标志物小组进一步包含个体年龄和个体性别中的至少一种。25.根据实施方案23所述的方法,其中所述生物标志物小组包含不超过20种蛋白质。26.根据实施方案23所述的方法,其中所述生物标志物小组包含不超过10种蛋白质。27.根据实施方案23所述的方法,其中所述分类的灵敏度为至少44%且特异性为至少80%。28.根据实施方案23所述的方法,其进一步包括响应于所述分类进行治疗方案。29.根据实施方案28所述的方法,其中所述治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。30.根据实施方案23所述的方法,其包括将所述分类的结果的报告传送给健康从业者。31.根据实施方案30所述的方法,其中所述报告指示至少70%或至少81%的灵敏度。32.根据实施方案30所述的方法,其中所述报告指示至少70%或至少87%的特异性。33.根据实施方案30所述的方法,其中所述报告指示推荐治疗方案,该治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。34.根据实施方案30所述的方法,其中所述报告指示推荐结肠镜检查。35.根据实施方案30所述的方法,其中所述报告指示推荐进行独立的癌症测定。36.根据实施方案30所述的方法,其中所述报告指示推荐进行粪便癌症测定。37.根据实施方案23所述的方法,其进一步包括进行粪便癌症测定。38.根据实施方案23所述的方法,其进一步包括继续监测3个月或更长的时间。39.根据实施方案23所述的方法,其进一步包括继续监测3个月至24个月的时间。40.根据实施方案23所述的方法,其中获得所述蛋白质水平包括对所述生物样品进行质谱分析。41.根据实施方案23所述的方法,其中所述获得所述蛋白质水平包括对所述生物样品进行免疫测定分析。42.一种分析体外生成的数据的方法,包括:用处理器存储对应于生物样品的小组信息,其中所述小组信息包含针对包含A2GL、ALS和PTPRJ的生物标志物小组的每种蛋白质的蛋白质水平;用所述处理器将所述小组信息与参考小组信息进行比较,其中所述参考小组信息对应于已知的结直肠癌状态;以及如果所述小组信息与所述参考小组信息没有显著差异,则用所述处理器将所述小组信息分类为具有阳性结直肠癌风险状态。43.根据实施方案42所述的方法,其中所述生物标志物小组进一步包含个体年龄和个体性别中的至少一种。44.根据实施方案42所述的方法,其中所述已知的结直肠癌状态包含早期CRC和晚期CRC中的至少一种。45.根据实施方案42所述的方法,其中所述已知的结直肠癌状态包含晚期腺瘤、0期CRC、I期CRC、II期CRC、III期CRC和IV期CRC中的至少一种。46.根据实施方案42所述的方法,其中所述生物标志物小组包含不超过20种蛋白质。47.根据实施方案42所述的方法,其中所述生物标志物小组包含不超过10种蛋白质。48.根据实施方案42所述的方法,其中所述分类的灵敏度为至少70%且特异性为至少70%,或者灵敏度为至少81%且特异性为至少78%。49.根据实施方案42所述的方法,其中所述处理器进一步被配置为生成指示所述阳性结直肠癌风险状态的报告。50.根据实施方案49所述的方法,其中所述报告进一步指示响应于所述分类推荐治疗方案。51.根据实施方案49所述的方法,其中所述治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。52.根据实施方案49所述的方法,其中所述报告指示至少70%或至少81%的灵敏度。53.根据实施方案49所述的方法,其中所述报告指示至少70%或至少78%的特异性。54.根据实施方案49所述的方法,其中所述报告指示推荐结肠镜检查。55.根据实施方案49所述的方法,其中所述报告指示推荐进行独立的癌症测定。56.根据实施方案49所述的方法,其中所述报告指示推荐进行粪便癌症测定。57.一种分析体外生成的数据的方法,包括:存储包含针对包含A2GL、ALS和PTPRJ的生物标志物小组的每种蛋白质的蛋白质水平的小组信息;将所述小组信息与参考小组信息进行比较,其中所述参考小组信息对应于已知的晚期腺瘤状态;以及如果所述小组信息与所述参考小组信息没有显著差异,则将所述小组信息分类为具有阳性晚期腺瘤风险状态。58.根据实施方案57所述的方法,其中所述生物标志物小组进一步包含个体年龄和个体性别中的至少一种。59.根据实施方案57所述的方法,其中所述生物标志物小组包含不超过20种蛋白质。60.根据实施方案57所述的方法,其中所述生物标志物小组包含不超过10种蛋白质。61.根据实施方案57所述的方法,其中所述分类的灵敏度为至少70%且特异性为至少70%。62.根据实施方案57所述的方法,其进一步包括生成指示所述阳性晚期腺瘤状态的报告。63.根据实施方案62所述的方法,其中所述报告进一步指示响应于所述分类推荐治疗方案。64.根据实施方案63所述的方法,其中所述治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。65.根据实施方案62所述的方法,其中所述报告指示至少70%的灵敏度。66.根据实施方案62所述的方法,其中所述报告指示至少70%的特异性。67.根据实施方案62所述的方法,其中所述报告指示推荐结肠镜检查。68.根据实施方案62所述的方法,其中所述报告指示推荐进行独立的癌症测定。69.根据实施方案62所述的方法,其中所述报告指示推荐进行粪便癌症测定。70.一种用于分析体外生成的数据的计算机系统,其包含:(a)用于接收小组信息的存储器单元,该小组信息包含来自生物样品的生物标志物小组中每种蛋白质的蛋白质水平的测量值,其中所述生物标志物小组包含A2GL、ALS和PTPRJ;(b)用于将所述小组信息与参考小组信息进行比较的计算机可执行指令,其中所述参考小组信息对应于已知的结直肠癌状态;以及(c)用于如果所述小组信息与所述参考小组信息没有显著差异,则将所述小组信息分类为具有阳性结直肠癌状态的计算机可执行指令。71.根据实施方案70所述的计算机系统,其进一步包含计算机可执行指令,以生成所述阳性结直肠癌状态的报告。72.根据实施方案70所述的计算机系统,其中所述生物标志物小组进一步包含个体年龄和个体性别中的至少一种。73.根据实施方案70所述的计算机系统,其中所述已知的结直肠癌状态包含早期CRC和晚期CRC中的至少一种。74.根据实施方案70所述的计算机系统,其中所述已知的结直肠癌状态包含晚期腺瘤、0期CRC、I期CRC、II期CRC、III期CRC和IV期CRC中的至少一种。75.根据实施方案70所述的计算机系统,其中所述生物标志物小组包含不超过20种蛋白质。76.根据实施方案70所述的计算机系统,其中所述生物标志物小组包含不超过10种蛋白质。77.根据实施方案70所述的计算机系统,其中所述分类的灵敏度为至少70%且特异性为至少70%。78.根据实施方案70所述的计算机系统,其进一步包括生成指示所述阳性结直肠癌风险状态的报告。79.根据实施方案78所述的计算机系统,其中所述报告进一步指示响应于所述分类推荐治疗方案。80.根据实施方案79所述的计算机系统,其中所述治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。81.根据实施方案78所述的计算机系统,其中所述报告指示至少70%的灵敏度。82.根据实施方案78所述的计算机系统,其中所述报告指示至少70%的特异性。83.根据实施方案78所述的计算机系统,其中所述报告指示推荐结肠镜检查。84.根据实施方案78所述的计算机系统,其中所述报告指示推荐进行独立的癌症测定。85.根据实施方案79所述的计算机系统,其中所述报告指示推荐进行粪便癌症测定。86.根据实施方案70所述的计算机系统,其进一步包含被配置为向用户传送或显示所述报告的用户界面。87.一种用于分析在体外生成的数据的计算机系统:(a)用于接收小组信息的存储器单元,该小组信息包含来自生物样品的生物标志物小组中每种蛋白质的蛋白质水平的测量值,其中所述生物标志物小组包含A2GL、ALS和PTPRJ;(b)用于将所述小组信息与参考小组信息进行比较的计算机可执行指令,其中所述参考小组信息对应于已知的晚期腺瘤状态;以及(c)用于如果所述小组信息与所述参考小组信息没有显著差异,则将所述小组信息分类为具有阳性晚期腺瘤状态的计算机可执行指令。88.根据实施方案87所述的计算机系统,其中所述生物标志物小组进一步包含个体年龄和个体性别中的至少一种。89.根据实施方案87所述的计算机系统,其中所述生物标志物小组包含不超过20种蛋白质。90.根据实施方案87所述的计算机系统,其中生物标志物小组包含不超过10种蛋白质。91.根据实施方案87所述的计算机系统,其中所述分类的灵敏度为至少70%且特异性为至少70%。92.根据实施方案87所述的计算机系统,其进一步包含计算机可执行指令,以生成所述阳性晚期腺瘤状态的报告。93.根据实施方案92所述的计算机系统,其中所述报告进一步指示响应于所述分类推荐治疗方案。94.根据实施方案93所述的计算机系统,其中所述治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。95.根据实施方案92所述的计算机系统,其中所述报告指示至少70%的灵敏度。96.根据实施方案92所述的计算机系统,其中所述报告指示至少70%的特异性。97.根据实施方案92所述的计算机系统,其中所述报告指示推荐结肠镜检查。98.根据实施方案92所述的计算机系统,其中所述报告指示推荐进行独立的癌症测定。99.根据实施方案92所述的计算机系统,其中所述报告指示推荐进行粪便癌症测定。100.一种评估个体的结直肠健康的方法,其包括:从所述个体获得循环血液样品;以及检测所述样品中针对蛋白质列表的每个成员的蛋白质水平,所述蛋白质列表包含A2GL、ALS和PTPRJ。101.根据实施方案100所述的方法,其进一步包括当来自所述个体的所述蛋白质水平与对应于已知的结直肠癌风险状态的参考小组信息集没有显著差异时,将所述个体诊断为具有结直肠癌状态。102.根据实施方案101所述的方法,其进一步包括对所述个体进行结肠镜检查。103.根据实施方案101所述的方法,其中所述已知的结直肠癌状态包含早期CRC和晚期CRC中的至少一种。104.根据实施方案101所述的方法,其中所述已知的结直肠癌状态包含晚期腺瘤、0期CRC、I期CRC、II期CRC、III期CRC和IV期CRC中的至少一种。105.根据实施方案101所述的方法,其进一步对所述个体进行治疗方案。106.根据实施方案105所述的方法,其中所述治疗方案包含息肉切除术。107.根据实施方案105所述的方法,其中所述治疗方案包含辐射。108.根据实施方案105所述的方法,其中所述治疗方案包含化学疗法。109.根据实施方案100所述的方法,其中所述蛋白质列表进一步包含选自表1的至少一种额外的蛋白质。110.根据实施方案100所述的方法,其中所述蛋白质列表进一步包含选自表1的至少两种额外的蛋白质。111.根据实施方案100所述的方法,其中所述蛋白质列表进一步包含选自表1的至少三种额外的蛋白质。112.根据实施方案100所述的方法,其进一步包括获得所述个体的年龄和性别中的至少一种。113.根据实施方案100所述的方法,其进一步包括将所述检测的结果的报告传送给健康从业者。114.根据实施方案113所述的方法,其中所述报告指示向所述个体推荐结肠镜检查。115.根据实施方案113所述的方法,其中所述报告指示向所述个体推荐息肉切除术。116.根据实施方案113所述的方法,其中所述报告指示向所述个体推荐辐射。117.根据实施方案113所述的方法,其中所述报告指示向所述个体推荐化学疗法。118.根据实施方案113所述的方法,其中所述报告指示推荐进行独立的癌症测定。119.根据实施方案113所述的方法,其中所述报告指示推荐进行粪便癌症测定。120.根据实施方案100所述的方法,其中所述蛋白质列表包含不超过20种蛋白质。121.根据实施方案100所述的方法,其中所述蛋白质列表包含不超过10种蛋白质。122.一种评估个体的结直肠健康的方法,其包括:从所述个体获得循环血液样品;以及检测所述样品中针对蛋白质列表的每个成员的蛋白质水平,所述蛋白质列表包含A2GL和ALS;以及获得所述个体的年龄。123.根据实施方案122所述的方法,其进一步包括当来自所述个体的所述蛋白质水平与对应于已知的结直肠癌风险状态的参考小组信息集没有显著差异时,将所述个体诊断为具有结直肠癌状态。124.根据实施方案123所述的方法,其进一步包括对所述个体进行结肠镜检查。125.根据实施方案123所述的方法,其中所述已知的结直肠癌状态包含早期CRC和晚期CRC中的至少一种。126.根据实施方案123所述的方法,其中所述已知的结直肠癌状态包含晚期腺瘤、0期CRC、I期CRC、II期CRC、III期CRC和IV期CRC中的至少一种。127.根据实施方案123所述的方法,其进一步对所述个体进行治疗方案。128.根据实施方案127所述的方法,其中所述治疗方案包含息肉切除术。129.根据实施方案127所述的方法,其中所述治疗方案包含辐射。130.根据实施方案127所述的方法,其中所述治疗方案包含化学疗法。131.根据实施方案122所述的方法,其中所述蛋白质列表进一步包含PTPRJ。132.根据实施方案122所述的方法,其中所述蛋白质列表进一步包含选自表1的至少一种额外的蛋白质。133.根据实施方案122所述的方法,其中所述蛋白质列表进一步包含选自表1的至少两种额外的蛋白质。134.根据实施方案122所述的方法,其中所述蛋白质列表进一步包含选自表1的每种额外的蛋白质。135.根据实施方案122所述的方法,其进一步包括获得所述个体的性别。136.根据实施方案122所述的方法,其进一步包括将所述检测的结果的报告传送给健康从业者。137.根据实施方案136所述的方法,其中所述报告指示向所述个体推荐结肠镜检查。138.根据实施方案136所述的方法,其中所述报告指示向所述个体推荐息肉切除术。139.根据实施方案136所述的方法,其中所述报告指示向所述个体推荐辐射。140.根据实施方案136所述的方法,其中所述报告指示向所述个体推荐化学疗法。141.根据实施方案136所述的方法,其中所述报告指示推荐进行独立的癌症测定。142.根据实施方案136所述的方法,其中所述报告指示推荐进行粪便癌症测定。143.根据实施方案122所述的方法,其中所述蛋白质列表包含不超过15种蛋白质。144.根据实施方案122所述的方法,其中所述蛋白质列表包含不超过8种蛋白质。145.一种评估个体的结直肠健康的方法,其包括:从所述个体获得循环血液样品;以及检测该样品中针对蛋白质列表的每个成员的蛋白质水平,所述蛋白质列表包含A2GL和ALS。146.根据实施方案145所述的方法,其进一步包括当来自所述个体的所述蛋白质水平与对应于已知的晚期腺瘤风险状态的参考小组信息集没有显著差异时,将所述个体诊断为具有晚期腺瘤状态。147.根据实施方案146所述的方法,其进一步包括对所述个体进行结肠镜检查。148.根据实施方案146所述的方法,其进一步对所述个体进行治疗方案。149.根据实施方案148所述的方法,其中所述治疗方案包含息肉切除术。150.根据实施方案148所述的方法,其中所述治疗方案包含辐射。151.根据实施方案148所述的方法,其中所述治疗方案包含化学疗法。152.根据实施方案145所述的方法,其中所述蛋白质列表进一步包含PTPRJ。153.根据实施方案145所述的方法,其中所述蛋白质列表进一步包含选自表1的至少一种额外的蛋白质。154.根据实施方案145所述的方法,其中所述蛋白质列表进一步包含选自表1的至少两种额外的蛋白质。155.根据实施方案145所述的方法,其中所述蛋白质列表进一步包含选自表1的每种额外的蛋白质。156.根据实施方案145所述的方法,其进一步包括获得所述个体的性别。157.根据实施方案145所述的方法,其进一步包括将所述检测的结果的报告传送给健康从业者。158.根据实施方案157所述的方法,其中所述报告指示向所述个体推荐结肠镜检查。159.根据实施方案157所述的方法,其中所述报告指示向所述个体推荐息肉切除术。160.根据实施方案157所述的方法,其中所述报告指示向所述个体推荐辐射。161.根据实施方案157所述的方法,其中所述报告指示向所述个体推荐化学疗法。162.根据实施方案157所述的方法,其中所述报告指示推荐进行独立的癌症测定。163.根据实施方案157所述的方法,其中所述报告指示推荐进行粪便癌症测定。164.根据实施方案145所述的方法,其中所述蛋白质列表包含不超过15种蛋白质。165.根据实施方案145所述的方法,其中所述蛋白质列表包含不超过8种蛋白质。166.一种评估个体的结直肠健康的方法,其包括:从所述个体获得循环血液样品;检测样品中针对蛋白质列表的每个成员的蛋白质水平,所述蛋白质列表包含A2GL和ALS;以及获得所述个体的年龄。167.根据实施方案166所述的方法,其进一步包括当来自所述个体的所述蛋白质水平与对应于已知的晚期腺瘤风险状态的参考小组信息集没有显著差异时,将所述个体诊断为具有晚期腺瘤状态。168.根据实施方案167所述的方法,其进一步包括对所述个体进行结肠镜检查。169.根据实施方案167所述的方法,其进一步对所述个体进行治疗方案。170.根据实施方案169所述的方法,其中所述治疗方案包含息肉切除术。171.根据实施方案169所述的方法,其中所述治疗方案包含辐射。172.根据实施方案169所述的方法,其中所述治疗方案包含化学疗法。173.根据实施方案166所述的方法,其中所述蛋白质列表进一步包含PTPRJ。174.根据实施方案173所述的方法,其中所述蛋白质列表进一步包含选自表1的至少一种额外的蛋白质。175.根据实施方案166所述的方法,其进一步包括获得所述个体的性别。176.根据实施方案166所述的方法,其进一步包括将所述检测的结果的报告传送给健康从业者。177.根据实施方案176所述的方法,其中所述报告指示向所述个体推荐结肠镜检查。178.根据实施方案176所述的方法,其中所述报告指示向所述个体推荐息肉切除术。179.根据实施方案176所述的方法,其中所述报告指示向所述个体推荐辐射。180.根据实施方案176所述的方法,其中所述报告指示向所述个体推荐化学疗法。181.根据实施方案176所述的方法,其中所述报告指示推荐进行独立的癌症测定。182.根据实施方案176所述的方法,其中所述报告指示推荐进行粪便癌症测定。183.根据实施方案166所述的方法,其中所述蛋白质列表包含不超过20种蛋白质。184.根据实施方案166所述的方法,其中所述蛋白质列表包含不超过10种蛋白质。185.一种评估个体的结直肠健康的方法,其包括:从所述个体获得循环血液样品;检测样品中针对蛋白质列表的每个成员的蛋白质水平,所述蛋白质列表包含A2GL和ALS。186.根据实施方案185所述的方法,其进一步包括当来自所述个体的所述蛋白质水平与对应于已知的结直肠癌风险状态的参考小组信息集没有显著差异时,将所述个体诊断为具有结直肠癌状态。187.根据实施方案185或186所述的方法,其进一步包括对所述个体进行结肠镜检查。188.根据实施方案185至187中任一项所述的方法,其进一步对所述个体进行治疗方案。189.根据实施方案188所述的方法,其中所述治疗方案包含息肉切除术。190.根据实施方案188所述的方法,其中所述治疗方案包含辐射。191.根据实施方案188所述的方法,其中所述治疗方案包含化学疗法。192.根据实施方案185所述的方法,其中所述蛋白质列表进一步包含PTPRJ。193.根据实施方案185所述的方法,其中所述蛋白质列表进一步包含选自表1的至少一种额外的蛋白质。194.根据实施方案185所述的方法,其包括获得所述个体的年龄信息。195.根据实施方案185所述的方法,其包括获得所述个体的性别信息。196.根据实施方案185所述的方法,其包括获得所述个体的年龄信息和性别信息。197.根据实施方案185至196中任一项所述的方法,其进一步包括将所述检测的结果的报告传送给健康从业者。198.根据实施方案195至197中任一项所述的方法,其进一步包括当来自所述个体的所述蛋白质水平、年龄和性别作为整体与对应于已知的结直肠癌风险状态的参考小组信息集没有显著差异时,将所述个体诊断为具有结直肠癌状态。199.根据实施方案185所述的方法,其中所述报告指示向所述个体推荐结肠镜检查。200.根据实施方案197所述的方法,其中所述报告指示向所述个体推荐息肉切除术。201.根据实施方案197所述的方法,其中所述报告指示向所述个体推荐辐射。202.根据实施方案197所述的方法,其中所述报告指示向所述个体推荐化学疗法。203.根据实施方案197所述的方法,其中所述报告指示推荐进行独立的癌症测定。204.根据实施方案197所述的方法,其中所述报告指示推荐进行粪便癌症测定。205.根据实施方案185至204中任一项所述的方法,其中所述蛋白质列表包含不超过20种蛋白质。206.根据实施方案185所述的方法,其中所述蛋白质列表包含不超过10种蛋白质。207.208.一种评估个体的结直肠健康的方法,其包括:从所述个体获得循环血液样品;检测样品中针对蛋白质列表的每个成员的蛋白质水平,所述蛋白质列表包含A2GL和ALS。209.根据实施方案208所述的方法,其进一步包括当来自所述个体的所述蛋白质水平与对应于已知的晚期腺瘤风险状态的参考小组信息集没有显著差异时,将所述个体诊断为具有晚期腺瘤状态。210.根据实施方案208或209所述的方法,其进一步包括对所述个体进行结肠镜检查。211.根据实施方案208至210中任一项所述的方法,其进一步对所述个体进行治疗方案。212.根据实施方案211所述的方法,其中所述治疗方案包含息肉切除术。213.根据实施方案211所述的方法,其中所述治疗方案包含辐射。214.根据实施方案211所述的方法,其中所述治疗方案包含化学疗法。215.根据实施方案208所述的方法,其中所述蛋白质列表进一步包含PTPRJ。216.根据实施方案208所述的方法,其中所述蛋白质列表进一步包含选自表1的至少一种额外的蛋白质。217.根据实施方案208所述的方法,其包括获得所述个体的年龄信息。218.根据实施方案208所述的方法,其包括获得所述个体的性别信息。219.根据实施方案208所述的方法,其包括获得所述个体的年龄信息和性别信息。220.根据实施方案208至219中任一项所述的方法,其进一步包括将所述检测的结果的报告传送给健康从业者。221.根据实施方案208至219中任一项所述的方法,其进一步包括当来自所述个体的所述蛋白质水平和年龄作为整体与对应于已知的晚期腺瘤风险状态的参考小组信息集没有显著差异时,将所述个体诊断为具有晚期腺瘤状态。222.根据实施方案220所述的方法,其中所述报告指示向所述个体推荐结肠镜检查。223.根据实施方案220所述的方法,其中所述报告指示向所述个体推荐息肉切除术。224.根据实施方案220所述的方法,其中所述报告指示向所述个体推荐辐射。225.根据实施方案220所述的方法,其中所述报告指示向所述个体推荐化学疗法。226.根据实施方案220所述的方法,其中所述报告指示推荐进行独立的癌症测定。227.根据实施方案220所述的方法,其中所述报告指示推荐进行粪便癌症测定。228.根据实施方案208至227中任一项所述的方法,其中所述蛋白质列表包含不超过20种蛋白质。229.根据实施方案208至227中任一项所述的方法,其中所述蛋白质列表包含不超过10种蛋白质。230.一种生成用于评估健康状态的生物标志物小组的方法,其包括:a)鉴别与健康状态具有相关性的候选生物标志物;以及b)对衍生自所述候选生物标志物的多种候选生物标志物蛋白质的至少一个片段进行质谱处理,以确定适合于评估健康状态的生物标志物;其中所述处理包括至少一个过程控制步骤。231.根据实施方案230所述的方法,其中所述至少一个过程控制步骤包括在质谱处理之前,使用至少一个系统适用性测试(SST)运行来评估液相色谱法(LC)和质谱法(MS)性能。232.根据实施方案231所述的方法,其中所述SST包括通过在对数系列稀释中运行SIS标准曲线来确定LC-MS性能。233.根据实施方案232所述的方法,其进一步包括进行质量控制检查,所述质量控制检查要求在任何两个相邻浓度水平之间有至少约10倍的MS信号差异,以及跨所述标准曲线有大约四个对数单位的动态范围。234.根据实施方案231所述的方法,其中所述SST包括通过监测内标的重跃迁的RT稳定性来确定LC性能。235.根据实施方案234所述的方法,其中监测重跃迁包括追踪检测到的值与预定的RT之间的RT偏移。236.根据实施方案235所述的方法,其进一步包括进行质量控制检查,所述质量控制检查要求重跃迁的RT的上95%置信区间距LC-MS采集窗口的边界不超过6秒。237.根据实施方案230所述的方法,其中所述至少一个过程控制步骤包括监测免疫耗竭期间的流通AUC,监测关于样品处理和免疫耗竭效率的TPA结果,取决于每个单独样品的TPA结果的样品制备定制,或其任意组合。238.根据实施方案230所述的方法,其进一步包括分析所述质谱处理的结果。239.根据实施方案238所述的方法,其中分析结果的步骤包括基于定量性能和峰质量来过滤跃迁。240.根据实施方案239所述的方法,其中使用峰质量工具来评价峰质量。241.根据实施方案230所述的方法,其中鉴别候选生物标志物包括以下至少一项:从内部生物标志物数据集获得生物标志物,从公共生物标志物数据集获得生物标志物,或进行半自动文献检索以鉴定与健康状况相关的生物标志物。242.根据实施方案241所述的方法,其中分析结果的步骤包括要求跃迁在每个处理的样品中具有经标记的峰。243.根据实施方案230所述的方法,其中所述至少一个过程控制步骤包括评价跃迁的定量性能、峰质量和经标记的峰在每个处理的样品中的存在。244.根据实施方案230所述的方法,其中所述至少一个过程控制步骤包括评价重跃迁和轻跃迁对的至少一个定量指标,包括重跃迁特异性、信噪比、精确度、线性度、轻跃迁特异性或其任意组合。245.根据实施方案230-244中任一项所述的方法,其进一步包括仅评价通过所述至少一个过程控制步骤的跃迁。246.一种生成用于评估健康状态的生物标志物小组的系统,其包含:a)鉴别与健康状态具有相关性的候选生物标志物的模块;以及b)对衍生自所述候选生物标志物的多种候选生物标志物蛋白质的至少一个片段进行质谱处理,以确定适合于评估健康状态的生物标志物的模块;其中所述处理包括至少一个过程控制步骤。247.根据实施方案246所述的系统,其中所述至少一个过程控制步骤包括在质谱处理之前,使用至少一个系统适用性测试(SST)运行来评估液相色谱法(LC)和质谱法(MS)性能。248.根据实施方案247所述的系统,其中所述SST包括通过在对数系列稀释中运行SIS标准曲线来确定LC-MS性能。249.根据权利要求248所述的系统,其进一步包括进行质量控制检查,所述质量控制检查要求在任何两个相邻浓度水平之间有至少约10倍的MS信号差异,以及跨所述标准曲线有大约四个对数单位的动态范围。250.根据实施方案247所述的系统,其中所述SST包括通过监测内标的重跃迁的RT稳定性来确定LC性能。251.根据实施方案250所述的系统,其中监测重跃迁包括追踪检测到的值与预定的RT之间的RT偏移。252.根据实施方案251所述的系统,其进一步包括进行质量控制检查,所述质量控制检查要求重跃迁的RT的上95%置信区间距LC-MS采集窗口的边界不超过6秒。253.根据实施方案246所述的系统,其中所述至少一个过程控制步骤包括监测免疫耗竭期间的流通AUC,监测关于样品处理和免疫耗竭效率的TPA结果,取决于每个单独样品的TPA结果的样品制备定制,或其任意组合。254.根据实施方案246所述的系统,其进一步包括分析所述质谱处理的结果。255.根据实施方案254所述的系统,其中分析结果的步骤包括基于定量性能和峰质量来过滤跃迁。256.根据实施方案255所述的系统,其中使用峰质量工具来评价峰质量。257.根据实施方案246所述的系统,其中鉴别候选生物标志物包括以下至少一项:从内部生物标志物数据集获得生物标志物,从公共生物标志物数据集获得生物标志物,或进行半自动文献检索以鉴定与健康状况相关的生物标志物。258.根据实施方案257所述的系统,其中分析结果的步骤包括要求跃迁在每个处理的样品中具有经标记的峰。259.根据实施方案246所述的系统,其中所述至少一个过程控制步骤包括评价跃迁的定量性能、峰质量和经标记的峰在每个处理的样品中的存在。260.根据实施方案246所述的系统,其中所述至少一个过程控制步骤包括评价重跃迁和轻跃迁对的至少一个定量指标,包括重跃迁特异性、信噪比、精确度、线性度、轻跃迁特异性或其任意组合。261.根据实施方案246-260中任一项所述的系统,其中仅评价通过所述至少一个过程控制步骤的跃迁,以确定适合于评估健康状态的生物标志物。262.一种评估个体的结直肠健康风险状态的方法,其包括以下步骤:a)从所述个体获得循环血液样品;以及b)获得所述循环血液样品中A2GL、ALS和PTPRJ中至少两种的生物标志物小组水平,并评估结直肠健康风险状态。263.根据实施方案262所述的方法,其中所述生物标志物小组进一步包含个体年龄。264.根据实施方案262所述的方法,其中所述结直肠癌状态包含早期CRC和晚期CRC中的至少一种。265.根据实施方案262所述的方法,其中所述结直肠癌状态包含晚期腺瘤、0期CRC、I期CRC、II期CRC、III期CRC和IV期CRC中的至少一种。266.根据实施方案262所述的方法,其中所述生物标志物小组包含不超过20种蛋白质。267.根据实施方案262所述的方法,其中所述生物标志物小组包含不超过10种蛋白质。268.根据实施方案262所述的方法,其中所述分类的灵敏度为至少70%且特异性为至少70%。269.根据实施方案262所述的方法,其进一步包括响应于所述分类进行治疗方案。270.根据实施方案269所述的方法,其中所述治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。271.根据实施方案262所述的方法,其进一步包括将所述分类的结果的报告传送给健康从业者。272.根据实施方案271所述的方法,其中所述报告指示至少70%的灵敏度。273.根据实施方案271所述的方法,其中所述报告指示至少70%的特异性。14.274.根据实施方案271所述的方法,其中所述报告指示推荐治疗方案,该治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。275.根据实施方案271所述的方法,其中所述报告指示推荐结肠镜检查。276.根据实施方案271所述的方法,其中所述报告指示推荐进行独立的癌症测定。277.根据实施方案271所述的方法,其中所述报告指示推荐进行粪便癌症测定。278.根据实施方案262所述的方法,其进一步包括响应于所述分类进行粪便癌症测定。279.根据实施方案262所述的方法,其进一步包括继续监测3个月或更长的时间。280.根据实施方案262所述的方法,其进一步包括继续监测3个月至24个月的时间。281.根据实施方案262所述的方法,其中所述获得所述蛋白质水平包括对所述生物样品进行质谱分析。282.根据实施方案281所述的方法,其中根据至少一个过程控制步骤来评价所述质谱分析。283.根据实施方案282所述的方法,其中所述过程控制步骤包括在质谱处理之前,使用至少一个系统适用性测试(SST)运行来评估液相色谱法(LC)和质谱法(MS)性能。284.根据实施方案262所述的方法,其中所述获得所述蛋白质水平包括对所述生物样品进行亲和力测定。285.根据实施方案284所述的方法,其中所述亲和力测定包括对所述生物样品的免疫测定分析。286.根据实施方案284所述的方法,其中所述亲和力测定包括对所述生物样品的适体分析。287.根据实施方案284所述的方法,其中所述亲和力测定包括根据质量控制(QC)参数评估所述生物样品。288.根据实施方案287所述的方法,其中所述QC参数包括样品完整性、样品洗脱效率、样品储存条件和内标监测中的至少一种。289.一种生成用于评估健康状态的生物标志物小组的方法,其包括:a)鉴别与健康状态具有相关性的候选生物标志物;以及b)对衍生自所述候选生物标志物的多种候选生物标志物蛋白质的至少一个片段进行质谱处理,以确定适合于评估健康状态的生物标志物;其中所述处理包括至少一个过程控制步骤。290.根据实施方案289所述的方法,其中所述至少一个过程控制步骤包括在质谱处理之前,使用至少一个系统适用性测试(SST)运行来评估液相色谱法(LC)和质谱法(MS)性能。291.根据实施方案290所述的方法,其中所述SST包括通过在对数系列稀释中运行SIS标准曲线来确定LC-MS性能。292.根据实施方案291所述的方法,其进一步包括进行质量控制检查,所述质量控制检查要求在任何两个相邻浓度水平之间有至少约10倍的MS信号差异,以及跨所述标准曲线有大约四个对数单位的动态范围。293.根据实施方案289所述的方法,其中所述SST包括通过监测内标的重跃迁的RT稳定性来确定LC性能。294.根据实施方案293所述的方法,其中监测重跃迁包括追踪检测到的值与预定的RT之间的RT偏移。295.根据实施方案292所述的方法,其进一步包括进行质量控制检查,所述质量控制检查要求重跃迁的RT的上95%置信区间距LC-MS采集窗口的边界不超过10%。296.根据实施方案289所述的方法,其中所述至少一个过程控制步骤包括监测免疫耗竭期间的流通AUC,监测关于样品处理和免疫耗竭效率的TPA结果,取决于每个单独样品的TPA结果的样品制备定制,或其任意组合。297.根据实施方案289所述的方法,其中所述至少一个片段包含蛋白型肽。298.根据实施方案289所述的方法,其中所述至少一个片段包含全长蛋白质。
通过参考以下实施方案获得对本文公开内容的进一步理解。
实施例
实施例1
使用如本文公开的小组对具有结直肠癌风险的患者进行检测。从该患者取得血液样品。将血液样品邮寄给设施,在设施中制备血浆,并使用抗体荧光结合试验检测包含A2GL、ALS和PTPRJ的小组的成员,并且还考虑患者年龄的因素,来测定蛋白质积累水平。将该患者的小组结果与已知状态的小组结果进行比较,并以至少81%的灵敏度和至少78%的特异性将该患者分类为患有结肠癌。推荐了结肠镜检查,并在该个体中检测到结直肠癌的证据。
实施例2
为实施例1的患者开出包含手术干预的治疗方案。在手术干预前从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将该患者分类为患有结肠癌。
在手术干预后从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将该患者分类为患有结肠癌。
实施例3
为实施例1的患者开出包含化疗干预的治疗方案,该化疗干预包括5-FU给药。在化疗干预前从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将该患者分类为患有结肠癌。
在化疗治疗期间以每周间隔从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较。该患者随时间推移的小组结果表明,该癌症对该化疗治疗有反应,并且到该治疗方案完成时为止,不再能检测到结直肠癌。
实施例4
为实施例1的患者开出包含化疗干预的治疗方案,该化疗干预包括口服卡培他滨给药。在化疗干预前从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将该患者分类为患有结肠癌。
在化疗治疗期间以每周间隔从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。该患者随时间推移的小组结果表明,该癌症对该化疗治疗有反应,并且到该治疗方案完成时为止,不再能检测到结直肠癌。
实施例5
为实施例1的患者开出包含化疗干预的治疗方案,该化疗干预包括口服奥沙利铂给药。在化疗干预前从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将该患者分类为患有结肠癌。
在化疗治疗期间以每周间隔从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较。该患者随时间推移的小组结果表明,该癌症对该化疗治疗有反应,并且到该治疗方案完成时为止,不再能检测到结直肠癌。
实施例6
为实施例1的患者开出包含化疗干预的治疗方案,该化疗干预包括与贝伐珠单抗联合的口服奥沙利铂给药。在化疗干预前从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将该患者分类为患有结肠癌。
在化疗治疗期间以每周间隔从该患者取得血液样品,并针对包含A2GL、ALS和PTPRJ的小组来测定蛋白质累积水平,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较。该患者随时间推移的小组结果表明,该癌症对该化疗治疗有反应,并且到该治疗方案完成时为止,不再能检测到结直肠癌。
实施例7
使用如本文公开的小组对具有结直肠癌风险的患者进行检测。从该患者取得血液样品,并使用ELISA试剂盒中的试剂来测定蛋白质累积水平以检测包含A2GL、ALS和PTPRJ的小组的成员,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将该患者分类为患有结肠癌。推荐了结肠镜检查,并在该个体中检测到结直肠癌的证据。
实施例8
使用如本文公开的小组对具有结直肠癌风险的患者进行检测。从该患者取得血液样品,并使用质谱法来测定蛋白质累积水平以检测包含A2GL、ALS和PTPRJ的小组的成员,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将该患者分类为患有结肠癌。推荐了结肠镜检查,并在该个体中检测到结直肠癌的证据。
实施例9
使用如本文公开的小组对1000名具有结直肠癌风险的患者进行检测。从该患者取得血液样品,并测定蛋白质累积水平,以检测包含A2GL、ALS和PTPRJ的小组的成员,并且还考虑患者年龄的因素。将这些患者的小组结果与已知状态的小组结果进行比较,并以81%的灵敏度和78%的特异性将这些患者分类为结肠癌类别。向分类为阳性的患者推荐结肠镜检查。在分类为患有结肠癌的患者中,80%的患者被独立地确认为患有结肠癌。在分类为未患结肠癌的患者中,后来通过独立的后续试验发现20%的患者患有结肠癌,经由结肠镜检查确认。
实施例10
使用如本文公开的小组对具有晚期腺瘤风险的患者进行检测。从该患者取得血液样品。将血液样品邮寄给设施,在设施中制备血浆,并使用抗体荧光结合试验来测定蛋白质积累水平,以检测包含A2GL、ALS和PTPRJ的小组的成员,并且还考虑患者年龄的因素。将该患者的小组结果与已知状态的小组结果进行比较,并将该患者分类为具有患晚期腺瘤的风险。
实施例11–鉴别蛋白质生物标志物
候选生物标志物的选择
候选蛋白质生物标志物可以选自各种来源。候选蛋白质生物标志物来源的实例包括可公开获得的蛋白质组学数据库或数据集、内部数据集(例如,来自过去的内部研究)和科学文献。可以基于与疾病或健康状态如CRC的已知或推断的关系来鉴别候选蛋白质生物标志物。在一些情况下,健康状态包括CRC的存在与否。备选地或组合地,健康状态包括CRC的等级或分期。CRC等级的实例包括低等级(例如,肿瘤具有与正常细胞相似并且倾向于较缓慢生长的分化良好的细胞)和高等级(例如,肿瘤具有与正常细胞不相似并且倾向于较快成长的分化较差或未分化的细胞)。在一些情况下,CRC等级包括0级、1级、2级、3级或4级。0级是癌症的最早阶段,并且肿瘤尚未长出结肠的内粘膜层。1-4级是更晚期的阶段。在一些情况下,本文所述的系统和方法能够检测0、1、2、3或4级的CRC。有时,这些系统和方法甚至能够检测0级之前的CRC前期或增加的患CRC的风险。在一些情况下,CRC的候选蛋白质生物标志物选自以下三种来源中的一种或多种:1)在我们的实验室中进行的先前靶向蛋白质组学研究,2)对可公开获得的与CRC相关的蛋白质组学数据集的分析;以及3)半自动化的文献检索。这三种途径产生了总共430种蛋白质,被指定为CRC相关生物标志物候选物,供进一步实验研究。
430种CRC相关生物标志物候选物的Protein UniProt条目列表
1433B_HUMAN;CH60_HUMAN;H2BFS_HUMAN;PCKGM_HUMAN;TNF15_HUMAN;1433E_HUMAN;CHK1_HUMAN;HABP2_HUMAN;PDIA3_HUMAN;TNF6B_HUMAN;1433F_HUMAN;CHK2_HUMAN;HEMO_HUMAN;PDIA6_HUMAN;TP4A3_HUMAN;1433G_HUMAN;CHLE_HUMAN;HEP2_HUMAN;PDLI7_HUMAN;TPA_HUMAN;1433T_HUMAN;CLC4D_HUMAN;HGF_HUMAN;PDXK_HUMAN;TPM2_HUMAN;1433Z_HUMAN;CLUS_HUMAN;HMGB1_HUMAN;PEBP1_HUMAN;TR10B_HUMAN;1A68_HUMAN;CNDP1_HUMAN;HNRPF_HUMAN;PEDF_HUMAN;TRAP1_HUMAN;A1AG1_HUMAN;CNN1_HUMAN;HNRPQ_HUMAN;PGFRA_HUMAN;TREM1_HUMAN;A1AG2_HUMAN;CO3_HUMAN;HPT_HUMAN;PIPNA_HUMAN;TRFE_HUMAN;A1AT_HUMAN;CO4A_HUMAN;HRG_HUMAN;PLGF_HUMAN;TRFL_HUMAN;A1BG_HUMAN;CO6A3_HUMAN;HS90B_HUMAN;PLIN2_HUMAN;TRI33_HUMAN;A2AP_HUMAN;CO8G_HUMAN;HSPB1_HUMAN;PLMN_HUMAN;TSG6_HUMAN;A2GL_HUMAN;CO9_HUMAN;I10R1_HUMAN;PO2F1_HUMAN;TSP1_HUMAN;A2MG_HUMAN;COR1C_HUMAN;IBP2_HUMAN;PON1_HUMAN;TTHY_HUMAN;A4_HUMAN;CORIN_HUMAN;IBP3_HUMAN;POTEF_HUMAN;UGDH_HUMAN;AACT_HUMAN;CP1A1_HUMAN;IF4A3_HUMAN;PPIB_HUMAN;UGPA_HUMAN;ABCB5_HUMAN;CRDL2_HUMAN;IFT74_HUMAN;PRD16_HUMAN;UROK_HUMAN;ABCBA_HUMAN;CRP_HUMAN;IGF1_HUMAN;PRDX1_HUMAN;VCAM1_HUMAN;ACINU_HUMAN;CSF1_HUMAN;IGHA2_HUMAN;PRDX2_HUMAN;VEGFA_HUMAN;ACTBL_HUMAN;CSF1R_HUMAN;IGLL5_HUMAN;PREX2_HUMAN;VGFR1_HUMAN;ACTBM_HUMAN;CSPG2_HUMAN;IKKB_HUMAN;PRKN2_HUMAN;VILI_HUMAN;ACTG_HUMAN;CTHR1_HUMAN;IL23R_HUMAN;PRL_HUMAN;VIME_HUMAN;ACTH_HUMAN;CTNA1_HUMAN;IL26_HUMAN;PROC_HUMAN;VNN1_HUMAN;ADIPO_HUMAN;CTNB1_HUMAN;IL2RB_HUMAN;PROS_HUMAN;VP13B_HUMAN;ADT2_HUMAN;CUL1_HUMAN;IL6RA_HUMAN;PSME3_HUMAN;VTNC_HUMAN;AFAM_HUMAN;CYTC_HUMAN;IL8_HUMAN;PTEN_HUMAN;VWF_HUMAN;AGAP2_HUMAN;DAF_HUMAN;IL9_HUMAN;PTGDS_HUMAN;XBP1_HUMAN;AKA12_HUMAN;DEF1_HUMAN;ILEU_HUMAN;PTPRJ_HUMAN;ZA2G_HUMAN;AKT1_HUMAN;DESM_HUMAN;IPSP_HUMAN;PTPRT_HUMAN;ZMIZ1_HUMAN;AL1A1_HUMAN;DHRS2_HUMAN;IPYR_HUMAN;PTPRU_HUMAN;ZPI_HUMAN;AL1B1_HUMAN;DHSA_HUMAN;IRGM_HUMAN;PZP_HUMAN;ALBU_HUMAN;DPP10_HUMAN;ISK1_HUMAN;RAB38_HUMAN;ALDOA_HUMAN;DPP4_HUMAN;ITA6_HUMAN;RASF2_HUMAN;ALDR_HUMAN;DPYL2_HUMAN;ITA9_HUMAN;RASK_HUMAN;ALS_HUMAN;DYHC1_HUMAN;ITIH2_HUMAN;RBX1_HUMAN;AMPD1_HUMAN;ECH1_HUMAN;JAM3_HUMAN;RCAS1_HUMAN;AMPN_HUMAN;EDA_HUMAN;K1C19_HUMAN;REG4_HUMAN;AMY2B_HUMAN;EF2_HUMAN;K2C72_HUMAN;RET4_HUMAN;ANGI_HUMAN;ENOA_HUMAN;K2C73_HUMAN;RHOA_HUMAN;ANGL4_HUMAN;ENOX2_HUMAN;K2C8_HUMAN;RHOB_HUMAN;ANGT_HUMAN;ENPL_HUMAN;KAIN_HUMAN;RHOC_HUMAN;ANT3_HUMAN;ENPP1_HUMAN;KC1D_HUMAN;ROA1_HUMAN;ANXA1_HUMAN;ENPP2_HUMAN;KCRB_HUMAN;ROA2_HUMAN;ANXA3_HUMAN;EZRI_HUMAN;KISS1_HUMAN;RRBP1_HUMAN;ANXA4_HUMAN;FA10_HUMAN;KLK6_HUMAN;RSSA_HUMAN;ANXA5_HUMAN;FA5_HUMAN;KLOT_HUMAN;S100P_HUMAN;APC_HUMAN;FA7_HUMAN;KNG1_HUMAN;S10A8_HUMAN;APCD1_HUMAN;FA9_HUMAN;KPCD1_HUMAN;S10A9_HUMAN;APOA1_HUMAN;FABP5_HUMAN;KPYM_HUMAN;S10AB_HUMAN;APOA2_HUMAN;FAK1_HUMAN;LAMA2_HUMAN;S10AC_HUMAN;APOA4_HUMAN;FAK2_HUMAN;LAT1_HUMAN;S29A1_HUMAN;APOA5_HUMAN;FARP1_HUMAN;LBP_HUMAN;SAA1_HUMAN;APOC1_HUMAN;FBX4_HUMAN;LCAT_HUMAN;SAA2_HUMAN;APOC4_HUMAN;FCGBP_HUMAN;LDHA_HUMAN;SAA4_HUMAN;APOE_HUMAN;FCRL3_HUMAN;LEG2_HUMAN;SAHH_HUMAN;APOH_HUMAN;FCRL5_HUMAN;LEG3_HUMAN;SAMP_HUMAN;APOL1_HUMAN;FETA_HUMAN;LEG4_HUMAN;SBP1_HUMAN;APOM_HUMAN;FETUA_HUMAN;LEG8_HUMAN;SDCG3_HUMAN;ASAP3_HUMAN;FHL1_HUMAN;LEPR_HUMAN;SEGN_HUMAN;ATPB_HUMAN;FHR1_HUMAN;LEUK_HUMAN;SELPL_HUMAN;ATS13_HUMAN;FHR3_HUMAN;LG3BP_HUMAN;SEPP1_HUMAN;B2CL1_HUMAN;FIBA_HUMAN;LMNB1_HUMAN;SEPR_HUMAN;B2LA1_HUMAN;FIBB_HUMAN;LRRC7_HUMAN;SEPT9_HUMAN;B3GT5_HUMAN;FIBG_HUMAN;LUM_HUMAN;SF3B3_HUMAN;BANK1_HUMAN;FINC_HUMAN;LYNX1_HUMAN;SHIP1_HUMAN;BC11A_HUMAN;FLNA_HUMAN;LYSC_HUMAN;SHRPN_HUMAN;BCAR1_HUMAN;FLNB_HUMAN;MACF1_HUMAN;SIA8D_HUMAN;C1QBP_HUMAN;FLNC_HUMAN;MAP1S_HUMAN;SIAL_HUMAN;C4BPA_HUMAN;FND3B_HUMAN;MARE1_HUMAN;SIT1_HUMAN;CA195_HUMAN;FRIH_HUMAN;MASP1_HUMAN;SKP1_HUMAN;CAH1_HUMAN;FRIL_HUMAN;MASP2_HUMAN;SLAF1_HUMAN;CAH2_HUMAN;FRMD3_HUMAN;MBL2_HUMAN;SO1B3_HUMAN;CALR_HUMAN;FST_HUMAN;MCM4_HUMAN;SP110_HUMAN;CAPG_HUMAN;FUCO_HUMAN;MCR_HUMAN;SPB6_HUMAN;CASP9_HUMAN;FUCO2_HUMAN;MCRS1_HUMAN;SPON2_HUMAN;CATD_HUMAN;G3P_HUMAN;MIC1_HUMAN;SPP24_HUMAN;CATS_HUMAN;GAS6_HUMAN;MICA1_HUMAN;SRC_HUMAN;CATZ_HUMAN;GBRA1_HUMAN;MIF_HUMAN;SRPX2_HUMAN;CBG_HUMAN;GDF15_HUMAN;MMP2_HUMAN;STK11_HUMAN;CBPN_HUMAN;GDIR1_HUMAN;MMP7_HUMAN;SYDC_HUMAN;CBPQ_HUMAN;GELS_HUMAN;MMP9_HUMAN;SYG_HUMAN;CCD83_HUMAN;GFI1B_HUMAN;MTG16_HUMAN;SYNE1_HUMAN;CCL14_HUMAN;GGT1_HUMAN;MUC24_HUMAN;SYUG_HUMAN;CCR5_HUMAN;GHRL_HUMAN;MYL6_HUMAN;TACC1_HUMAN;CD109_HUMAN;GPNMB_HUMAN;MYL9_HUMAN;TAL1_HUMAN;CD20_HUMAN;GPX3_HUMAN;MYO9B_HUMAN;TBB1_HUMAN;CD24_HUMAN;GREM1_HUMAN;NDKA_HUMAN;TCTP_HUMAN;CD248_HUMAN;GRM6_HUMAN;NDRG1_HUMAN;TETN_HUMAN;CD28_HUMAN;GRP75_HUMAN;NFAC1_HUMAN;TF7L1_HUMAN;CD63_HUMAN;GSHR_HUMAN;NGAL_HUMAN;TFR1_HUMAN;CDD_HUMAN;GSTP1_HUMAN;NIBL2_HUMAN;THBG_HUMAN;CEA_HUMAN;GUC2A_HUMAN;NIPBL_HUMAN;THIO_HUMAN;CEAM3_HUMAN;H13_HUMAN;NNMT_HUMAN;THRB_HUMAN;CEAM5_HUMAN;H2A1D_HUMAN;NOD2_HUMAN;THTR_HUMAN;CEAM6_HUMAN;H2A2B_HUMAN;NUPR1_HUMAN;TIE2_HUMAN;CERU_HUMAN;H2AX_HUMAN;OSTP_HUMAN;TIMP1_HUMAN;CFAH_HUMAN;H2B1A_HUMAN;P53_HUMAN;TIMP2_HUMAN;CFAI_HUMAN;H2B1L_HUMAN;PAFA_HUMAN;TKT_HUMAN;CGHB_HUMAN;H2B1O_HUMAN;PAI1_HUMAN;TMG4_HUMAN;CH3L1_HUMAN;H2B3B_HUMAN;PALLD_HUMAN;TNF13_HUMAN;
来自先前研究的蛋白质生物标志物
先前的靶向蛋白质组学研究专注于测量274个样品中的187种CRC相关蛋白质。所有这些蛋白质均已被转化为当前的项目。进行了新的方法开发,以寻找在完整方法中运行良好的跃迁。
来自公共CRC数据集的分析的蛋白质生物标志物
从Clinical Proteomic Tumor Analysis Consortium(CPTAC)(https://cptac-data-portal.georgetown.edu/cptac/public)获得了两个可公开获得的蛋白质组学数据集。其中一个提供了先前由The Cancer Genome Atlas(TCGA)分析的95个CRC肿瘤样品的鸟枪法蛋白质组学测量结果(https://cptac-data-portal.georgetown.edu/cptac/s/S016,2014年8月访问)。第二个提供了从30名CRC患者获得的正常结肠组织的鸟枪法蛋白质组学测量结果(https://cptac-data-portal.georgetown.edu/cptac/s/S019,2014年8月访问)。这两个数据集均来自同一蛋白质组表征中心(Vanderbilt University),并且是使用数据依赖的MS2方法在LTQ Orbitrap Velos质谱仪上获得的。所述数据集包括基于数据库搜索获得的MS2谱注释的前体和肽序列提议的相对丰度计算。在这两个数据集中比较了具有相同肽序列提议的特征,以使用Student’s t检验发现在正常和CRC肿瘤组织之间存在显著差异的特征。然后进一步检查发现显著不同的任何特征,以找到具有将其唯一地连接至单个蛋白质的肽序列的特征。该程序产生了72种新的候选CRC相关蛋白质。
来自半自动化文献检索的蛋白质生物标志物
半自动文献检索在全文PubMed Central(PMC,https://www.ncbi.nlm.nih.gov/pmc/)Open Access Subset和PubMed摘要中查找特定文本术语的同时出现。在PubMed摘要中检索CRC通用术语与UniProt蛋白质名称和符号的同时出现,产生了120种在先前的研究中未用过的CRC相关蛋白质。在PMC开放获取文章中检索“人”、“结肠”、“癌”、“血浆”或“血清”和“蛋白质”的同义词的同时出现。另外,还对具有这些术语的文章进行了研究,以发现任何出现的UniProt蛋白质名称或符号。这些蛋白质按其提及次数进行排名,并且将提及次数最高、覆盖总提及次数的95%的蛋白质选为候选CRC相关蛋白质。该程序产生了172种新的候选CRC相关蛋白质。
蛋白型肽的选择
使用为先前研究开发的算法进行肽选择过程,并遵循在已发布的MS标准中建立的指导原则。在计算机模拟胰蛋白酶消化蛋白质后,通过去除经BLAST序列分析鉴定的同源肽,为每种蛋白质选择了有利于零错误裂解的蛋白型肽。接下来,排除了某些肽,因为它们经计算机模型预测具有较差的LC-MS反应性,或包含易于发生化学修饰的半胱氨酸和甲硫氨酸残基。然后按长度过滤剩余的肽,留下具有6-21个氨基酸的肽,以确保有效的电离和片段化。在这些过滤步骤后,1006个候选蛋白型肽涵盖了431种蛋白质,每种蛋白质至少有两个肽。
LC-dMRM/MS优化
通过在重肽工作溶液的重复运行中探索LC梯度程序来优化LC梯度。该工作溶液是稳定的同位素标记的内标(SIS)(New England Peptide,Gardner,MA)的混合物,由158fmol/μL等摩尔浓度的1006个肽的氮(15N)和碳(13C)标记的形式(纯度>95%)组成。在与6550四极杆飞行时间(Q-TOF)质谱仪(Agilent Technologies)耦接的1290Infinity超高效液相色谱(UHPLC)系统(Agilent Technologies)上测试了多反相色谱条件。在C18柱(Waters ACQUITY UPLC CSH,2.1x 150mm,1.7μm粒径)上进行了色谱分离,流动相A:0.1%甲酸水溶液,流动相B:0.1%甲酸的乙腈溶液。仅对重肽获得MS/MS谱,并使用内部开发的肽鉴别和保留时间指定软件进行搜索。使用42秒的采集窗口和500ms的循环时间建立了最佳LC梯度,最低梯度持续时间少于32分钟,并且肽并发度在任何时间点都大约等于25。最终LC梯度在31.75min的线性梯度上使用450μL/min的流速,并具有以下节段:流动相B在前20分钟内从3%增加到13%,在接下来的7分钟内从13%增加到20%,在接下来的2分钟内从20%增加到40%,在接下来的1.25分钟内从40%增加到80%,然后在接下来的1.25分钟内保持80%,然后在最后0.25分钟内恢复到3%。
使用最终的LC梯度,确定了1006个重肽中的979个(431种初始蛋白质中的430种)的RT。使用Skyline软件(版本3.5)列出979个肽的双电荷前体离子的所有可能的单电荷产物离子跃迁。从这些离子中去除质量差小于等于1Da的共洗脱离子,留下12733个重跃迁。在这12733个跃迁中,由于存在受到干扰的风险,因此排除了小产物离子b1、b2、y1和y2。然后在与6490三重四极杆(QQQ)质谱仪(Agilent Technologies)耦接的1290UHPLC上使用重肽工作溶液,针对8806个跃迁对碰撞能量(CE)进行经验优化。通过Skyline软件计算的CE用作CE优化的中值。将CE优化参数设置为在对每个跃迁通过默认CE方程(CE=0.031m/z+1)预测的值的每一侧使用3阶,这是为Agilent QQQ质谱仪指定的,步长设置为6V。对于每个跃迁,总共考虑了6个碰撞能量电压值。对曲线下峰面积(AUC)进行积分,并使用AppliedProteomics Inc.开发的专有自动化算法进行了分析。选择在3次重复实验中产生最大峰AUC平均值的CE作为最佳CE。选择动态多反应监测(dMRM)方法进行CE优化和进一步的实验,因为它对于具有低水平目的分析物的复杂样品,相比于传统的分段dMRM方法具有若干优势。Agilent 6490QQQ上的dMRM算法基于分析物RT和采集窗口自动在整个LC-MS分析中构建dMRM时间表。这种方法允许仪器仅在特定的RT窗口内采集数据,从而在不影响停留时间和灵敏度的情况下最大化并发离子跃迁。根据我们以前的经验,以下条件得以维持,以确保在每个跃迁的峰上有良好的信噪比和足够的数据点:采集窗口=42秒,停留时间>=2ms,跃迁并发度<=100,循环时间<=500ms。
跃迁筛选
8806个跃迁代表了来自430种蛋白质的901个蛋白型肽。下一步是对它们进行过滤,以达到可接受的LC并发度和质量信号,目标是两个肽/蛋白质和两个跃迁/肽。为此,首先根据与重跃迁特异性、内源性跃迁特异性、信噪比、精确度和线性度相关的五个定量标准对跃迁进行排名和过滤。为了获得这五个指标,使用溶剂和内源基质中的重肽混合物(15.8、50和158fmol/μL)的两条3点曲线进行dMRM运行。对于溶剂曲线,用LC流动相(0.1%甲酸在3%乙腈和97%水中)以半对数标度系列稀释重肽工作溶液。对于基质曲线,将BioRec血浆进行免疫耗竭并消化成内源肽,并在上述三种重肽溶液的每一种中将这些冻干的肽重建为3μg/μL。溶剂和基质中的SIS曲线以三个技术重复运行。
通过使用同一前体(本文中带双电荷的肽)的两个跃迁之间的峰AUC比(称为“分支比”或“相对比”)来评价跃迁特异性。对于每个肽的所有跃迁,均考虑三重的比率。通过比较具有和没有内源基质的重肽混合物(158fmol/μL)中的重跃迁比率的t-检验确定重跃迁特异性。为了评价轻跃迁特异性,在进行t-检验之前的接受要求是重和轻跃迁峰共洗脱,其峰顶点之间的差异<=1秒,然后在以158fmol/μL掺加重肽溶液的内源基质中,在重肽与其相应的轻肽的跃迁比率之间进行比较。多重检验校正后的p值0.05是通过跃迁特异性并接受缺乏干扰的阈值。为了评价8806个重跃迁中每一个的信噪比,对于溶剂中的重肽混合物的3点曲线中的每个浓度水平,将平均峰丰度与仪器的定量限(LOQ,10x溶剂空白信号的标准偏差+平均空白信号)进行比较。跃迁要通过信噪比标准,50fmol/μL时的信号丰度必须高于或等于仪器LOQ。用溶剂中的重肽混合物(15.8、50和158fmol/μL)的三重三点曲线测量精确度。计算每个浓度水平上三个重复之间重跃迁的峰AUC的变异系数(CV)。所有三个稀释步骤均需要三个峰AUC值,CV<=20%时跃迁才能通过精确度指标。通过对三个浓度水平应用线性回归来评估线性度。接受的标准是,斜率的多重检验校正后的p值必须<0.05,斜率必须>0,并且斜率置信区间必须排除0。
在上述测量和计算后,每个跃迁对五个指标中的每个指标都有一个二进制通过/未通过结果,并根据五个二进制结果的组合将其分配给十个层之一,产生重跃迁特异性、信噪比、精确度、线性度和轻跃迁特异性的分层顺序,如表3所示。
表3–用于跃迁排名和过滤的10层系统
Figure BDA0002618685530000841
Figure BDA0002618685530000851
在这个新的10层系统中,对所有8806个跃迁进行自动排名。如果给定肽的多个跃迁分配给同一层,则使用跃迁峰AUC作为决定因素,使得具有较高AUC的跃迁排名更高。然后,通过专有的自动化算法选择跃迁,选择来自第1层和第2层的跃迁作为第一选择,以提高测定质量,然后从其他层进行第二跃迁选择以增加测定数量,同时使最终dMRM测定中的蛋白质数最大化。总体而言,为每种蛋白质选择一个(必需的)至两个(优选的)排名最高的肽,并且为每个肽选择至少两个顶层跃迁。这两个跃迁可以在后续分析中用作定量和定性,符合某些建议的分析程序。从专有算法生成输出报告,以进行手动检查,以确认跃迁性能和选择。对于图10所示的情况,进行了最少的人工替换。最终,总结在表4中的最终dMRM方法包括为代表392种CRC蛋白质的641个肽选择的1552个高质量跃迁(3104个重跃迁和轻跃迁),而跃迁并发度的上限为每42秒LC-MS采集窗口100个跃迁,如图1所示。图1显示了从x轴上的大约0分钟保留时间开始并且在大约30分钟处结束的第一阴影。第二个较浅的阴影开始于大约30分钟,并结束于31分钟之前。
表4-最终MRM方法的总结
Figure BDA0002618685530000852
Figure BDA0002618685530000861
最终dMRM方法的分析性能
接下来,对最终方法中的跃迁分析性能进行了表征。该过程使用了由等摩尔浓度500fmol/μL的最终641个SIS肽组成的新重肽溶液。稀释该混合物以得到浓度为0.0158、0.05、0.158、0.5、1.58、5、15.8、50、158和500fmol/μL的10点半对数连续稀释系列。将每种重肽稀释液的100μL等分试样添加到从BioRec血浆加工得到的300μg冻干内源肽中,得到标准系列。另外,将一种血浆基质制品用溶剂重建以用作空白。标准品和空白样品在一天内在一台仪器(Agilent 1290UHPLC-6490QQQ)上一式三份运行。平板和样品水平上的质量指标如以下针对研究运行所述进行评估;没有遇到质量失败。
灵敏度评估通过确定1552个重跃迁中每一个的空白限(LoB)和检测限(LoD)开始。通过使用三次重复的平均值和标准偏差来估计合理定义LoB和LoD的百分位数,来确定这些值。具体而言,LoB被定义为空白中重跃迁峰面积的第95百分位数的估计值,而LoD则被定义为最低标准浓度,此时重跃迁峰面积的第5百分位数的估计值大于或等于LoB。假定为正态分布,则LoB和LoD如下计算。
LoB=平均空白+(1.645x sd空白)
LoD=以下情况下的最低标准浓度
平均标准-(1.645x sd标准)>=LoB
线性度评估包括找到满足预定标准并且为1552个重跃迁中的每一个支持线性响应范围的最大标准集。线性度评估中包括的标准测量的标准是:1)CV<=30%和2)标称浓度>=LoD。使用这些标准针对每个重跃迁的测量结果,使用稳健的线性模型将跃迁峰面积拟合至标称标准浓度。如果拟合斜率的95%置信区间匹配或扩展到0以下,则降低最低标准浓度,然后再次尝试拟合。重复此过程,直到1)剩余的浓度少于三个(线性拟合失败),或2)拟合斜率的95%置信区间为正并且不包括0(线性拟合成功)。从线性度评估确定了定量下限(LLoQ),这是另一种灵敏度指标。对于成功的线性拟合,LLoQ是拟合中使用的最低标准的标称浓度。
最后,根据从成功线性拟合得出的最大和最小标准浓度之比,计算出每个重跃迁的线性动态范围:
动态范围=log10(标准.最大浓度/标准.最小浓度)
所有具有成功线性拟合的重和轻跃迁对(要求定义的LoB,定义的LoD,至少3个标准浓度>=LoD且CV<=30%,且阳性线性斜率与0可区分)被认为具有定量性能。
生物标志物研究的实施和性能监测
影响基于dMRM的定量实验的精确度和准确度的主要变量通常与该研究的分析前或分析方面有关。在该研究中,通过在内窥镜检查II样本的采集过程中实施标准操作程序(SOP)来控制分析前变量——样品特定的采集、加工、处理和储存程序中的差异。在本公开的一个方面,我们解决了分析变异,并回顾了我们在四个月内使用多种仪器在大规模纵向研究中用来监测分析变异性的程序。我们监测的质量参数针对样品处理、LC性能、MS性能或其任意组合。
患者样品
本研究中使用的患者样品取自先前描述的高质量临床样品集——内窥镜II。简言之,在2010年至2012年之间,在丹麦的7家医院中从由于结直肠瘤形成的症状而被认为具有CRC高风险的患者采集了血浆样品。研究纳入标准包括年龄≥18岁,计划进行初次结肠镜检查,以及结直肠肿瘤形成的任何症状(排便习惯异常、腹痛、直肠出血、原因不明的体重减轻、鼓胀、贫血和/或可触及的肿块)。样品采集后的结肠镜检查揭示了CRC的存在与否,并且根据国际癌症控制联盟(UICC)肿瘤结转移(TNM)系统进行了CRC分期。根据结肠镜检查结果和共病,将每名内窥镜检查II患者归入八个诊断组之一:结肠癌(所有阶段),直肠癌(所有阶段),结肠腺瘤,直肠腺瘤,无共病,无CRC或息肉(“无共病-无发现”组),存在共病且无CRC或息肉(“共病-无发现”组),其他癌症,或其他结肠镜检查发现(“其他发现”)。共病是指与CRC不相关的共存疾病,如克罗恩病、结肠炎、憩室炎、急性慢性炎症、糖尿病、类风湿性关节炎、心血管疾病、肝硬化性肝病、阻塞性肺病或局限性肺病。在该生物标志物发现研究中总共使用了1045个内窥镜检查II血浆样品。表5列出了1045个患者样品在各个诊断组中的分布。
表5-患者样品分布
Figure BDA0002618685530000881
将1045名患者分为独立的发现和验证(测试)集,分别由672名患者和373名患者组成。来自发现集的数据用于提供CRC信号的概述,如通过单变量测量所证明的。来自验证集的数据在本研究未进行分析;保留这些数据,以便将来在多变量分类器开发之后进行验证/测试。LC-MS样品处理和性能监测
目视检查血浆样品以排除血脂过多和溶血样品。然后如前所述将它们加工成冻干的蛋白质消化物。简言之,将来自每个样品的单个25μL血浆等分试样过滤以去除脂质并将其加载在10mm×100mm Human 14MAR柱(Agilent Technologies)上以进行免疫耗竭。收集代表耗竭血浆的流通级分,以与碳酸氢铵进行缓冲液交换,之后在Freedom EVO 200自动液体处理系统(Tecan)上进行蛋白质浓度测定(Quant-iT Protein Assay试剂盒,ThermoFisher Scientific),用作总蛋白测定(TPA)结果。每个样品的TPA结果用来确定蛋白质消化过程中添加的酶的量(胰蛋白酶与蛋白质的质量比=1:34),还用来计算LC-MS样品重建溶液的体积,目标为3μg/μL内源蛋白质浓度,之后进行LC-MS分析。在Freedom EVO150平台(Tecan)上的蛋白质消化开始于采用2,2,2-三氟乙醇(Acros)的变性蛋白质,然后用DL-二硫苏糖醇(Sigma-Aldrich)还原,然后用碘乙酰胺(Arcos)进行烷基化。将适当的胰蛋白酶(Promega)加入每个样品中,之后在37℃下孵育16小时。用10μL纯甲酸(ThermoFisher Scientific)终止反应,然后冻干。在LC-MS进样之前,将每个内源样品在适当体积的重肽溶液(等摩尔浓度100fmol/μL的SIS混合物)中重建,在加载到LC柱上的单次注入液(10μL)中得到30μg内源蛋白质和1,000fmol每种重肽。
为TPA程序、蛋白质消化和LC-MS样品重建部署了实验室自动化,通过消除容易出错的手动程序,而自动化程序所需的技术人员参与最少,从而确保了操作的可重复性。用分别采用和不采用免疫耗竭步骤处理的两个25μL BioRec血浆等分试样对免疫耗竭效率进行预测试。基于TPA结果,消耗了91%(1365μg/1500μg)的蛋白质,并且通过LC-MS/MS,在消耗的流通收集物中仅检测到Human 14蛋白的一个肽(图11)。如图11所示,序列的阴影部分对应于样品中的肽(分别在免疫耗竭之前和之后)。对于一个检测到的肽:补体C3_AGDFLEANYMNLQR,MS1 EIC峰面积是从未耗竭样品的同一肽中测得的峰面积的1%,而两个样品的LC-MS进样量均为30μg。
将1045个患者样品随机化,并分为66批,每批最多16个样品。每批还包括合并的一组血浆样品的四个等分试样(BioReclamationIVT),称为过程质量控制(PQC)。每天运行两批——在与两个LC-MS工作站耦接的两个免疫耗竭系统上各有一个。在四个月的研究期内评价了样品处理的可重复性。每天对每批叠加蛋白质消耗的UV(220nm)色谱图,以检查每个PQC和患者样品,并参考研究第1天和前一天的运行以检查峰形和RT的均一性。追踪PQC在免疫耗竭步骤中的流通峰AUC和TPA结果,并将其与平均值+/-标准偏差的范围进行比较。处理完每批后,通过完全MS和串联MS分析了四个PQC之一,以进一步监测免疫耗竭和胰蛋白酶消化。通过研究排名前14的人类血浆蛋白质的存在或不存在来评估免疫耗竭效率。通过监测完全MS检测到的分子特征计数(在2-4处的z)和MS2数据搜索中错过的裂解率来评估消化的一致性。LC-MS数据采集、缩减和性能监测
该生物标志物研究使用优化的LC梯度和最终dMRM方法在两套与6490QQQ耦接的1290UHPLC(Agilent Technologies)上运行。两个6490QQQ均以正模式运行,电离源条件如下:毛细管电压=3.5kV,喷嘴电压=300V,雾化器压力=20psi,鞘流气流速=11L/min,鞘流气温度=250℃。每个LC-MS工作清单均包含641个重肽在溶剂中的初始5点标准曲线(0.05-500fmol/μL,对数系列稀释),运行开始、中期和结束时有3个PQC,16个患者样品和7个空白样品(LC溶剂)散布在整个工作清单中以评估残留。每个样品单次进样在LC-MS上进行40分钟,以进行数据收集,整个工作清单需要21小时。该研究花费了四个月的时间,使用两个LC-MS工作站完成了数据收集,并且每天进行仪器维护以确保一致的LC-MS性能。
对MS原始数据进行自动提取、缩减和整合,然后使用Applied Proteomics,Inc.开发的实时分析管线进行可视化。访问管线服务器的内部Web客户端允许监测数据缩减,查看每个靶向跃迁的dMRM踪迹,以及下载数据以供进一步分析。另外,还专门创建了R脚本来合并经处理的数据并自动进行LC-MS性能监测。使用参考物质监测数据采集过程中LC-MS系统适用性测试(SST)和LC-MS性能,这些参考物质由处理过的PQC样品和重肽溶液(等摩尔浓度500fmol/μL的最终641个SIS肽的混合物)组成。
在每个样品批次运行之前立即进行SST,以通过以对数系列稀释运行5点SIS标准曲线来确定LC-MS性能。通过监测所有1552个重跃迁(内标)的RT稳定性来检查LC性能。在通过管线处理后,立即为每个数据文件自动生成RT图,追踪检测值与该方法中使用的预定RT之间的RT偏移。为了避免峰被截断,主要的质量控制检查要求1552个重跃迁的RT的上95%置信区间距LC-MS采集窗口的边界<=6秒。如果此检查失败,则在进一步采集数据之前,先进行故障排除,然后进行RT重新分配(如有必要)。使用在测定开发过程中选为充当QC跃迁的176个高性能重跃迁和轻跃迁对进行MS性能检查。在SST中,记录SST 5点标准曲线上五个浓度水平上重QC跃迁的峰AUC。主要的质量控制检查要求任何两个相邻浓度水平之间的MS信号相差约10倍,并且动态范围为整个曲线上大约四个对数单位。如果此检查失败,则在进一步采集数据之前进行故障排除。对于每个标准浓度,在天数之间以及在LC-MS系统之间比较重跃迁峰AUC,以确定在四个月的数据收集期内一致的MS性能。
利用样品批次设置来评价数据采集过程中每个LC-MS系统的性能,并对所采集的样品测量质量建立置信度。这通过在每个工作清单的开始、中间和结尾处分析来自PQC的数据来完成,从而在实验运行期间提供关于每个LC-MS系统的日常性能的信息。PQC使用信号强度和保留时间稳定性实现了LC-MS监测。追踪PQC样品中的176个QC跃迁对的重峰和轻峰AUC,以确认MS性能。计算每批中三个PQC的CV,以评估批内精确度。每天针对QC跃迁的重峰和轻峰生成单独的PQC图,以显示四个月内的峰AUC和CV趋势。此外,还为所有1045个患者数据文件生成了追踪1552个重跃迁的RT偏移的RT图,以确认数据质量。
研究样品数据处理
在本研究的所有1045个患者样品中,针对最终dMRM方法中1552个跃迁对中的每一个,对经标记的峰和轻峰进行了数据编译。在评价CRC信号之前,先沿着三个质量指标评价跃迁对;在本研究中,仅使用通过所有三项检查的跃迁来评估CRC信号。
首先,评价跃迁的定量性能。具体而言,跃迁对的标记峰的标准曲线必须具有成功的线性拟合(要求定义的LoB、定义的LoD、至少3个标准浓度>=LoD且CV<=30%,且为正的线性斜率可与0区分)。
其次,要求跃迁具有高质量的峰。使用内部开发的专有机器学习工具评估峰质量。该内部工具不是直接评估峰形本身,而是集成了关于几个参数的信息,这些参数一起被发现与明显有利(大且易于识别)的峰形紧密相关。这些参数涵盖了与以下参数有关的七个量度:标记峰面积、标记峰面积的一致性、轻峰面积、轻/标记峰比率、标记峰保留时间与预期保留时间之间的差异、标记峰保留时间的一致性以及标记峰保留时间与轻峰保留时间之间的差异的一致性。该工具在预测峰质量的手动评估中经验证具有95%的准确性。
第三,要求跃迁在所有1045个样品中都有测得的经标记的峰。结合其他两个标准,这确保了信号测量在所有样品中都是有效的,从而消除了对插补的任何需要。
对于通过这三个质量检查的跃迁,每个样品中轻峰的内源浓度被计算为轻峰/重峰面积的比值乘以重峰的已知掺加浓度。这些内源浓度用来计算每个跃迁的单变量CRC信号;受试者工作特征(ROC)分析用来计算672个样品的发现集中的CRC与非CRC AUC。使用pROC软件包(1.10.0版)进行了ROC分析。此外,还进行了统计检验(Student’s T检验和Wilcoxon秩和检验),以评估发现集中CRC和非CRC样品之间每个跃迁的浓度是否显著不同。所有分析都使用在Unix和OSX环境中运行的R编程语言进行。
结果与讨论
LC-dMRM/MS的优化
我们以前曾报道过一种LC-dMRM方法,该方法在Agilent 1290UHPLC-6490QQQ的LC-MS系统上以29分钟的梯度测量了来自187种蛋白质的337个肽。在这项研究中,我们开发了一种新的扩展方法,其中LC梯度得到了进一步优化,以在同一LC-MS工作站上在32分钟内分离出1006个肽的新候选列表。在一些情况下,在整个LC方法中,最佳梯度程序的洗脱并发度应等于或小于每42秒采集窗口中25个肽。最终的梯度程序确定了代表430种蛋白质的979个肽的RT,并在整个31.75-min LC梯度的82%中达到了979个肽的63%的并发要求。此外,重肽MS1 EIC峰的全宽半数最大值(FWHM)集中在5-6秒(中值5.5秒)附近——宽度足以使用500ms的循环时间在每个峰上获得15-20个数据点,并且窄度足以适应42秒采集窗口中的RT偏移。
LC优化之后,根据经验确定了8806个重跃迁中的每一个的最佳CE,因为CE产生了最高的平均标记峰AUC。在图2中示出了用于重跃迁SLYLGR→y5的CE优化的示例。箱形图和dMRM曲线均表明,第2步的最佳CE 6.04V产生了最丰富的信号(平均AUC=586.68;参见右侧垂直虚线和顶部水平虚线及其相交处),比通过Skyline预测的CE第3步获得的第二丰富的信号(平均AUC=354.93;参见左侧垂直虚线和底部水平虚线及其相交处)高65%。RT-强度的箱形图对于每个CE步骤在7.22分钟处显示了原始方法的虚线并在7.2分钟处显示了新的中值分配RT的虚线(在原始方法的虚线的稍微左侧)。
跃迁选择以构建最终的多重dMRM分析
在最佳LC-MS条件下,对8806个重和轻跃迁对进行了实验研究,以选择稳健且无干扰的跃迁。按照上面的优先顺序,评估每个跃迁对是否通过5个定量标准。表6总结了8806个跃迁对于五个指标中每一个指标的通过率。
表6–采用五个指标的跃迁过滤的结果
Figure BDA0002618685530000931
使用10层排名系统(表3)和专有算法,对跃迁进行了自动分类和选择,从而选择了1552个表现最佳的跃迁对,以代表来自392种CRC蛋白质的641个肽。详细来说,首先针对代表183种蛋白质的359个肽选择来自第1层和第2层的718个跃迁。为了增加覆盖的蛋白质,对剩余的247种蛋白质进行了第二次跃迁选择。针对代表209种蛋白质的279个肽在所有层中选择了另外558个表现最佳的跃迁。接下来,对于跃迁并发度<90的任何42秒的采集窗口,回填现有392种蛋白质的未选择的跃迁,直到其等于90。在最终测定中,为3个肽添加了排名最高的另外276个跃迁。在自动选择之后,进行了手动检查,并由于干扰而手动替换了1552个跃迁中的117个(占7.5%)。
我们的10层跃迁排名系统并入了五个定量标准,对每个标准都采用严格的截止值,以选择适合包含在最终dMRM方法中的最高质量靶标。与平行进行的小规模手动跃迁选择相比,发现该自动化过程是准确的。另外,该自动化过程的速度和客观性使其优于手动过程。
分析性能
在方法开发之后,通过考虑LoB、LoD、LLoQ和基于使用最终方法运行的10点标准曲线建立的动态范围来表征每个跃迁的分析性能。在1552个总跃迁中,有1357个针对所有这些指标具有有效测量值。示例性标准曲线在图3中示出。这些示例说明了观察到的跃迁测定的范围——LoB、LoD、LLoQ和线性动态范围都大幅变化。这些示例还表明,对于许多跃迁,LoD与LLoQ相匹配;对于少数而言,例如右下角所示,LLoQ高于LoD。每条标准曲线都具有较浅的背景垂直和水平线,和较深的垂直线和水平虚线。为了了解指标在所有1357个跃迁之间如何变化,图4提供了跨所有1357个跃迁的指标的频率直方图和概要统计信息。
可以评估其分析性能的1357个跃迁涵盖了本研究中测量的1552个跃迁中的87.4%。在肽水平上,这1357个跃迁涵盖了本研究中641个肽中的596个或93.0%。在蛋白质水平上,这1357个跃迁涵盖了本研究中392种蛋白质中的373种或95.2%。
监测分析变异性
蛋白质免疫耗竭和消化
样品分析的可重复性取决于数据收集之前样品制备的一致性。在本研究中,我们评价了受样品变化影响的两个处理步骤:免疫耗竭和胰蛋白酶消化。为了评估血浆免疫耗竭的可重复性,使用紫外线检测(220nm)的光电二极管阵列(PDA)检测器监测了流通级分和结合级分的峰AUC和RT。通过叠加运行内和日期之间的样品UV迹线,观察到免疫耗竭的一致性。在四个月的研究期内监测了207个PQC的流通峰AUC(消耗的血浆分数)。图5证明98%的PQC具有在平均值+/-3个标准偏差范围内的流通峰AUC。从LC-MS数据分析中排除了一个PQC,因为其高流通峰AUC远远高于平均值+3SD(被包括在图上所示的最高和最低实线之间),并且是由于PQC与相邻样品之间的样品瓶交换所致。平均值+2SD被包括在实线至+3SD线的内部。比+2或+3SD线更粗的最里面的两条线表示+1SD。重做样品。TPA结果也表明了随时间的一致性免疫耗竭(图12)。从LC-MS数据分析中排除了一个PQC,因为其高流通峰AUC远远高于平均值+3SD(被包括在图上所示的最高和最低实线之间),并且是由于PQC与相邻样品之间的样品瓶交换所致。平均值+2SD被包括在实线至+3SD线的内部。比+2或+3SD线更粗的最里面的两条线表示+1SD。207个PQC中只有3个的耗竭血浆中的蛋白质浓度大于平均值+3SD。还通过TPA结果计算了免疫耗竭效率。免疫耗竭效率=1-耗竭血浆中蛋白质浓度的平均值(0.94μg/μL)除以正常血浆中估计的蛋白质浓度(75μg/μL)=98.7%。
另外,在每个样品批次(16个患者样品)中处理了四个PQC中的一个,以监测免疫耗竭以及胰蛋白酶消化效率。在样品处理之后且在开始生物标志物研究数据收集之前,通过在6550Q-TOF(Agilent Technologies)上进行两次单独的进样来分析来自每个样品批次的单个PQC。全扫描MS1分析提供了关于分子特征丰度(z=2-4)的信息,而MS2数据依赖性采集(DDA)分析提供了关于鉴定免疫耗竭的Human 14蛋白质和错过的裂解率的信息,作为消化效率的度量。在总共47个平板上,PQC的分子特征计数(z=2-4)和错过的裂解速率均显示了免疫耗竭和胰蛋白酶消化的可重复性(图13)。在整个研究过程中,PQC的两个指标均在+/-3SD范围内。每个PQC的MS2分析进一步支持了排名前14的蛋白质的高免疫耗竭效率。对于47个PQC中的22个,未检测到排名前14的蛋白质。对于其余的25批,在PQC中检测到一种或两种排名前14的蛋白质,而MS1 EIC峰AUC约为104,而非排名前14的蛋白质的AUC为103至106。
监测LC-MS性能
生物标志物发现研究的基本要求是对蛋白质组数据集建立置信度。在此处介绍的研究中,两个LC-MS系统在四个月的时间内获取了数据,因此,监测LC-MS系统内部和之间的日内和日间再现性对于维护对结果的信任至关重要。使用PQC、SIS肽混合物和选定的QC跃迁在数据收集之前测试系统的适用性,并在样品批次分析过程中监测每个LC-MS系统的性能。
在每个工作清单的开始,使用溶剂中的SIS肽混合物的5点对数系列稀释液进行SST。这提供了在启动样品数据收集之前关于每个LC-MS系统的状态和性能水平的实时信息。监测每组5次注射的SIS肽混合物(0.05、0.5、5、50和500fmol/μL)的RT偏移和信号强度。每天,观察到的RT的95%在预期的5秒之内,通过了运行样品所需的质量标准。176个预选QC跃迁的重峰ALTC在两个Agilent 6490QQQ上运行33天均保持一致(图14)。各个仪器之间的MS性能也保持一致,对于每个标准浓度水平,两个QQQ之间的重跃迁峰AUC互相在一个对数单位之内(图14)。五个浓度水平上的动态范围约为四个对数单位,两个相邻浓度水平之间的信号强度增加了十倍(图14)。
尽管在数据收集之前确认LC-MS系统的可接受性能至关重要,但对21小时样品批运行期间获得的结果建立信任同样重要。在本研究中,参考材料是掺加有SIS肽混合物的三个PQC,其插在研究样品之间以在每天运行的开始、中间和结束时运行。每个PQC均用于监测LC和MS性能。为了监测LC性能,使用每天每个重跃迁从第一个PQC运行的峰顶洗脱来监测RT偏移;每个峰的接受标准允许最大15秒的峰洗脱偏移。图6显示了在一台Agilent QQQ上连续九天运行的所有1552个重跃迁的RT偏移。1552个重跃迁中有95%的RT偏移<10秒,因此符合质量标准。为了监测MS性能,对来自PQCS的176个QC跃迁对进行了监测。使用每个跃迁的重峰和轻峰AUC及其CV。这些可以在控制图(图7和8)中可视化,该控制图是自动生成的,以监测运行内和日期中PQC中176个重QC和176个轻QC跃迁的峰AUC。评估了每个单天处理运行中的CV,并将其与作为质量参考值的30%进行比较。高于30%CV的任何观察结果都被认为超出了批内再现性的可接受范围。总体而言,在四个月的数据收集期内,在两个LC-MS系统上的67个批次中,176个重跃迁中的约95%和176个轻跃迁中的约70%的CV<=30%。图7和图8显示了几个重跃迁簇,包括左侧的QQQ#1和右侧的QQQ#2。最上面的行表示在数据收集日期中,176个重跃迁中的PQC峰AUC CV通过率,cv<=0.3,并且需要在所有3个PQC中都检测到跃迁。中间行表示在数据收集日期中,176个重跃迁中的PQC峰AUC CV通过率,cv<=0.3。最下面的行表示在数据收集日期中,在176个重跃迁中的3个PQC的log10(峰AUC)。最下面的行以左到右的顺序显示了在每个收集日期具有PQC1、PQC2和PQC3的PQC簇。
在一些实施方案中,通过遵守HPLC、QQQ或两者的每日维护清单来实现重跃迁性能的一致性。176个轻跃迁的高批内CV会触发对仪器性能或样品处理的调查。实际上,在样品处理或系统适用性测试中,在质量控制中未发现任何故障。另外,自动数据处理允许实时监测LC保留时间和MS响应的趋势。如果性能测试的某个组成部分不符合接受标准,则让操作员停止仪器并解决问题。
数据处理:单变量CRC信号的评价
在完成1045个研究样品的数据收集后,针对所有1552个跃迁对在所有样品中编译数据。在研究分析之前,根据三个质量指标对跃迁进行过滤。首先,根据跃迁的定量性能对其进行过滤(参见方法“测定分析性能”)。如上所述,发现1552个跃迁中的1357个具有定量性能。其次,根据峰质量过滤每个跃迁的轻峰和标记峰对,并使用专有的内部机器学习工具进行评估(参见方法“样品数据处理”)。在整个研究中,发现1552个跃迁中的1358个具有良好的轻峰和标记峰质量,其中1290个也通过了第一次针对定量性能的过滤器。最后,对跃迁进行过滤,以排除那些在一个或多个研究患者样品中轻峰或标记峰不明显的跃迁。在通过前两个过滤器的1290个跃迁中,该步骤去除了在一个或多个样品中缺少值的338个跃迁,通过所有三个质量过滤器的总数为952个跃迁。这952个跃迁涵盖了本研究中测量的全部1552个跃迁的61.3%。在肽水平上,这952个跃迁涵盖了529个肽,占本研究中641个肽的82.5%。在蛋白质水平上,这952个跃迁涵盖了345种蛋白质,占本研究中392种蛋白质的88.0%。
对于这952个跃迁中的每一个,将内源浓度计算为轻/标记峰面积乘以标记峰的已知掺加浓度的比率。对数据集中的单变量CRC信号进行了总体评估。为此,评估了672个样品的发现集中每个跃迁的内源浓度所携带的CRC信号。使用ROC分析来确定每个跃迁的单变量CRC信号,以计算672个样品的发现集中的CRC与非CRC AUC及其95%置信区间。
在该分析中考虑的952个跃迁中,发现涵盖127种独特蛋白质的252个跃迁具有置信区间排除0.50的AUC,表明它具有作为单一生物标志物的潜力(图9)。其中,有207个跃迁来自109种蛋白质,这些蛋白质在我们先前的靶向蛋白质组学研究中没有产生信号或未进行评价。由于所有的跃迁都是根据先前的研究(CPTAC或文献综述)选择的,因此可以将这109种蛋白质视为在我们的样品集代表的有症状群体中有效的、新验证的CRC生物标志物。相比之下,应用于我们先前的靶向蛋白质组学研究的相同AUC分析显示涵盖41种独特蛋白质的63个跃迁的单变量CRC信号。当前研究中携带单变量信号的跃迁数的增加可归因于两个因素。首先,我们在当前研究中使用的发现样品集为4.9倍(当前研究中为672个样品,而先前研究中为138个样品),从而缩窄了AUC置信区间并简化了对有效信号的鉴别。其次,我们在当前研究中靶向的蛋白质约为两倍(当前研究中为392,而先期研究中为187)。图9显示出阴影条,其对应于开始于低于0.50AUC并结束于至多0.55AUC的无信号。阴影条的底部区域仅显示了与先前和当前研究中鉴定的跃迁相对应的阴影条,其开始于刚好低于0.55AUC并结束于刚刚超过0.65AUC。阴影条的顶部区域(由分隔顶部和底部区域的每个条中的水平线描绘出)对应于仅在当前研究中检测到的信号/跃迁。仅在当前部分中检测到的这些跃迁开始于刚好低于0.55AUC,延伸到约0.70AUC。因此,在当前研究中检测到许多高AUC跃迁,这些跃迁在先前的研究中是不存在的,如约0.65AUC至约0.70AUC的区间所示,它们具有新的跃迁。
实施例12-结直肠癌状态:蛋白质生物标志物小组
患者样品
血浆样品取自Bluoscopy等人,2016描述的内窥镜检查II收集物。TPv2中使用的特定样品来自用于开发SPCv1 CRC测试的相同的1,045名患者,并由Croner等人(未发表)详细描述。简言之,将1,045个样品分配到672个样品的发现集和373个样品的验证集。该发现集包含其中诊断组的比例代表意向测试(ITT)群体的373个样品,以及另外299个CRC(176)和晚期腺瘤(123)样品。验证集包含373个具有诊断组ITT比例的样品。发现集和验证集中的样品之间没有重叠。
测定
在MS仪器上使用动态MRM方法获得靶向肽离子的样品浓度。在You等人,2018中详细描述了靶标选择、测定开发和初始(预分类器)数据处理。
分类器版本和验证过程
受监督的分类器是使用API的“简单网格”方法构建的,该方法应用于来自672个样品的发现集的数据。对于每个简单的网格过程,使用应用于发现集的10倍交叉验证的十次迭代来构建由一组参数定义的所有可能的分类器;然后,选择十次迭代中合并AUC中值最高的分类器作为该网格的顶级版本。总共运行了58个简单网格。所有网格在每个回合中都使用glmnet特征选择。但是,网格在以下方面变化:所考虑的特征计数范围,是否包括年龄和/或性别作为候选预测器,作为候选预测器而包括的跃迁的子集,跃迁浓度数据是否经过log2转换,是否包括基于跃迁和其他特征的比率作为候选预测器,是否测试了数据缩放,是否使用了分类器算法,是否进行了经监督的判别(CRC与非CRC,或CRC与“无共病-无发现”诊断组[NCNF,最干净的对照]),和/或使用的发现集的部分(完整发现集或ITT子集)。关于简单网格方法的更多详细信息,可见Croner等人,2017和Croner等人,未发表。
来自最有前景的网格版本的最终模型在不确定或“NoCall”(NoC)分析中使用。将NoC分析应用于发现集的ITT子集中的CRC与非CRC判别。NoC分析旨在确定模型得分的连续范围,使得获得该范围内的得分的样品将不会收到基于模型的最终CRC判定,从而增强了该模型的整体性能。关于NoC分析的更多详细信息,可见Croner等人,2017和Croner等人,未发表。
然后,在单独的验证集中测试了六个表现最佳的分类器及其关联的NoC区域。如果1)验证AUC与发现AUC在统计上不可区分,或在统计上可区分于并高于发现AUC,并且2)验证AUC在统计上可区分于并高于验证集中的单变量年龄AUC,则认为验证是成功的。为了成功进行验证,还将验证AUC与SPCv1验证AUC进行了比较;在该比较中,通过发现两个AUC在统计上不可区分,或者在统计学上可区分并且TPv2 AUC具有较高值,可以达到至少与SPCv1性能等同的研究目标。
五组简单网格
尽管简单网格配置之间存在很大差异,但58个网格版本可以分组为以下描述的五种常规途径。这五种途径在特征池方面有所不同,简单网格的glmnet特征选择从特征池中为每个版本的每个回合提取候选预测器。
标准版本
这些版本使用简单化的和预先计划的特征集作为候选预测器池。这些池包括AtetKao(AK)提供的两个主要数据矩阵中的每个矩阵中的跃迁集和人口统计信息(见下文)。它们还包括如You等人,2018所述的252个跃迁的集合,其具有显著的CRC与非CRC信号。
专门化的特征:比率
这些版本包括候选预测器池中的比率——跃迁浓度的比率,以及涉及患者年龄和跃迁浓度的比率。对于这些版本,针对有限的特征集计算了所有可能的比率。具体来说,它们是针对具有CRC与非CRC信号的252个跃迁以及最佳AK2016分类器所涉及的跃迁而计算的(见下文)。
专门化的特征子集:少数强预测器
这些版本旨在使用少量预测器,并且仅从发现集中的23个单一特征和特征比率的列表中提取候选预测器,这些特征和特征比率显示CRC与NCNF单变量AUC>=0.85。这23个特征和比率如下:
# 生物标志物_肽片段
1 A2GL_DLLLPQPDLR_b3
2 A2GL_VAAGAFQGLR_y7
3 A2GL_VAAGAFQGLR_y8
4 ALS_ELDLSR_y3
5 ALS_LFQGLGK_y4
6 ALS_LFQGLGK_y6
7 IBP3_FLNVLSPR_y3
8 IBP3_YGQPLPGYTTK_y6
9 患者_年龄
10 PTPRJ_VALTGVR_y5
11 THRB_IYIHPR_y4
12 A2GL_VAAGAFQGLR_y7/ALS_LFQGLGK_y6
13 A2GL_VAAGAFQGLR_y8/ALS_LFQGLGK_y6"
14 A2GL_VAAGAFQGLR_y7/ALS_LFQGLGK_y4
15 PTPRJ_VALTGVR_y5/患者_年龄
16 A2GL_VAAGAFQGLR_y7/PTPRJ_VALTGVR_y5
17 A2GL_VAAGAFQGLR_y8/ALS_LFQGLGK_y4
18 A2GL_VAAGAFQGLR_y7/IBP3_FLNVLSPR_y3
19 A2GL_VAAGAFQGLR_y7/THRB_IYIHPR_y4
20 A2GL_VAAGAFQGLR_y7/IBP3_YGQPLPGYTTK_y6
21 ALS_LFQGLGK_y4/患者_年龄
22 A2GL_DLLLPQPDLR_b3/ALS_LFQGLGK_y6
23 A2GL_VAAGAFQGLR_y7/ALS_ELDLSR_y3
专门化的特征子集:额外特征选择
这些版本从由十个特征选择算法确定的三个专门化特征子集之一中提取候选预测器,这些特征选择算法与简单网格中使用的glmnet方法不同。
TPv1(Jones等人,2016)和AK2016版本(见下文)都使用了被称为FSelector的R软件包中的多种特征选择方法。为了增加简单网格的能力,将十个FSelector特征选择算法应用于三个有希望的特征子集;然后简单的网格版本仅从通过这些额外算法选择的特征中提取候选预测器。
应用的十种FSelector算法是相关性、一致性、线性相关性、秩相关性、信息增益、增益比、对称不确定性、oneR、随机森林和relief。应用这些算法的三个有希望的跃迁子集是252个具有单变量CRC信号的跃迁(参见You等人,2018)、23个具有单变量CRC AUC的跃迁和比率(CRC与NCNF)>=0.85和974个具有完整测量结果并通过峰质量指标的跃迁(来自以下描述的第二个数据矩阵)。对于每个特征子集,将由十种算法选择的特征总并起来,然后用作单个特征列表,简单的网格版本将从该列表中提取在单独的版本集中的候选预测器。
专门化的特征子集:AK2016分类器
这些版本基于AK 2016分类器版本从23个跃迁的专门化子集中提取预测器。
AK在2016年末使用“扩展网格”方法构建了TPv2分类器。扩展网格与简单网格的不同之处主要在于使用了更宽范围的特征选择方法。过去,API的一些表现最佳的分类器来自AK的扩展网格。因此,此处描述的用于新TPv2分类器的一种策略是将某些新版本中的特征限制为最佳AK版本中使用的特征。为此,对AK的2016分类器文件进行了编译和探索,以鉴定这些特征。
最佳2016TPv2版本是11个特征的glmboost,来自发现交叉验证的合并测试AUC中值为0.92。该版本用于CRC与NCNF判别。对于该特定模型,在11个特征的glmboost模型的各种版本中选择了32个特征(31个跃迁和年龄)作为预测器。理想情况下,将使用AK提供给团队的最终分类器矩阵,使用新的分类器来探索所有这些特征。但是,这31个跃迁中只有23个出现在优选的数据矩阵中(该矩阵具有通过峰质量检查的跃迁的完整测量结果,见下文)。另外,对于在AK版本和2018版本的数据矩阵中都呈现的那些跃迁,两个文件之间的浓度值在数值上有所不同;这可能是由于使用了不同的算法来计算原始峰面积——可能是基于管线的原始峰用于最佳AK版本,而AKRawV1原始峰则用于分发给分类器团队的文件。尽管存在这些问题,一种合理的方法是,在执行旨在探索最佳AK版本的新版本子集时,使用在AK和分类器团队矩阵中均出现的23个特征。这23个特征如下:
# 生物标志物_肽片段
1 A2GL_VAAGAFQGLR_y7
2 A2GL_VAAGAFQGLR_y8
3 ACTBM_SYELPDGQVITIGNER_y12
4 ALS_LFQGLGK_y4
5 ALS_LFQGLGK_y6
6 APOC4_AWFLESK_y3
7 APOE_AQAWGER_y5
8 APOL1_ALDNLAR_y4
9 GUC2A_EPNAQEILQR_y3
10 I10R1_EYEIAIR_y3
11 ITIH2_TAGLVR_y3
12 KAIN_LELHLPK_y6
13 LYNX1_VLSNTEDLPLVTK_y8
14 PON1_SLLHLK_b4
15 PON1_SLLHLK_b5
16 PREX2_AFYLDK_y5
17 PTPRJ_VALTGVR_y5
18 RET4_YWGVASFLQK_b4
19 SPP24_DALSASVVK_y6
20 TFR1_LYWDDLK_y5
21 TFR1_SGVGTALLLK_b3
22 TFR1_SGVGTALLLK_y7
23 TNF15_AHLTVVR_y4
峰图像
为了能够手动检查峰质量,针对在顶级分类器中出现的跃迁构建了峰图像。建立这些图像的过程基于AK在2016年采用的过程,当时努力为所有TPv2跃迁生成图像文件。这项2016年的工作在完成之前就停止了,部分原因是建立图像所需的时间过长。在此,仅针对在2018分类器中起重要作用的跃迁子集,用相同的过程建立图像文件。
分类器输入文件
峰鉴别算法用于计算原始峰面积。一种替代方法是使用API管线算法。(注意:该管线算法可能用于计算AK原始分类器版本中使用的数据的峰面积。)
一些数据文件仅包含在所有1,045个样品中均具有有效测量结果的那些跃迁。有效的测量结果是对于SIS峰具有非NA原始峰面积的那些测量结果。
在建立数据文件时,某些数据文件仅考虑将内源峰和SIS峰分配给峰质量组1或2的跃迁。因此,数据文件仅包含那些被评估为质量良好且在所有1,045个样品中均具有有效测量结果的跃迁。所使用的峰质量工具是随机森林分类器,其将峰分配给三个质量组之一,而组3是最低质量组。
三项内窥镜检查II研究的测量结果的比较
进行了另一项工作,以比较为内窥镜检查II样品生成的各种测量结果API。这些测量结果包括CRC05 ELISA、CRC06 MSD、CRC05 MRM(TPv2)测量结果。
结果
在执行的58个简单网格中,有17个产生了经历NoC分析的分类器。尝试对这17个分类器中的六个进行验证,并成功进行了三个验证。这三个成功的验证来自网格版本号28、40和52。讨论部分中提供了关于这58个网格的更多详细信息。在此,我们提供了图16,其总结了经验证的分类器的特性和发现,表7列出了在这些分类器中使用的预测器,图18-20显示了验证ROC。表现最好的分类器是来自版本40的分类器。这是4个预测器的SVM;预测器包括两个比率(其分母都有年龄)、一个单跃迁和单独的年龄。通过在验证中使用23%NoC,该分类器的CRC与非CRC灵敏度/特异性为0.81/0.78,与SPCv1 CRC测试的灵敏度/特异性相匹配。
表7.三个经验证的分类器中的每一个中的预测器。用于模型40的两个预测器是比率。
Figure BDA0002618685530001041
Figure BDA0002618685530001051

Claims (37)

1.一种评估个体的结直肠健康风险状态的方法,其包括以下步骤:
a)从所述个体获得循环血液样品;以及
b)获得所述循环血液样品中A2GL、ALS和PTPRJ中至少两种的生物标志物小组水平,并评估结直肠健康风险状态。
2.根据权利要求1所述的方法,其中所述生物标志物小组进一步包含个体年龄。
3.根据权利要求1所述的方法,其中所述结直肠癌状态包含早期CRC和晚期CRC中的至少一种。
4.根据权利要求1所述的方法,其中所述结直肠癌状态包含晚期腺瘤、0期CRC、I期CRC、II期CRC、III期CRC和IV期CRC中的至少一种。
5.根据权利要求1所述的方法,其中所述生物标志物小组包含不超过20种蛋白质。
6.根据权利要求1所述的方法,其中所述生物标志物小组包含不超过10种蛋白质。
7.根据权利要求1所述的方法,其中所述分类的灵敏度为至少70%且特异性为至少70%。
8.根据权利要求1所述的方法,其进一步包括响应于所述分类进行治疗方案。
9.根据权利要求8所述的方法,其中所述治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。
10.根据权利要求1所述的方法,其进一步包括将所述分类的结果的报告传送给健康从业者。
11.根据权利要求10所述的方法,其中所述报告指示至少70%的灵敏度。
12.根据权利要求10所述的方法,其中所述报告指示至少70%的特异性。
13.根据权利要求10所述的方法,其中所述报告指示推荐治疗方案,该治疗方案包括化学疗法、辐射、免疫疗法、施用生物治疗剂、息肉切除术、部分结肠切除术、低位前切除术或经腹会阴直肠切除术和结肠造口术中的至少一种。
14.根据权利要求10所述的方法,其中所述报告指示推荐结肠镜检查。
15.根据权利要求10所述的方法,其中所述报告指示推荐进行独立的癌症测定。
16.根据权利要求10所述的方法,其中所述报告指示推荐进行粪便癌症测定。
17.根据权利要求1所述的方法,其进一步包括响应于所述分类进行粪便癌症测定。
18.根据权利要求1所述的方法,其进一步包括继续监测3个月或更长的时间。
19.根据权利要求1所述的方法,其进一步包括继续监测3个月至24个月的时间。
20.根据权利要求1所述的方法,其中所述获得所述蛋白质水平包括对所述生物样品进行质谱分析。
21.根据权利要求20所述的方法,其中根据至少一个过程控制步骤来评价所述质谱分析。
22.根据权利要求21所述的方法,其中所述过程控制步骤包括在质谱处理之前,使用至少一个系统适用性测试(SST)运行来评估液相色谱法(LC)和质谱法(MS)性能。
23.根据权利要求1所述的方法,其中所述获得所述蛋白质水平包括对所述生物样品进行亲和力测定。
24.根据权利要求21所述的方法,其中所述亲和力测定包括对所述生物样品的免疫测定分析。
25.根据权利要求21所述的方法,其中所述亲和力测定包括对所述生物样品的适体分析。
26.根据权利要求21所述的方法,其中所述亲和力测定包括根据质量控制(QC)参数评估所述生物样品。
27.根据权利要求26所述的方法,其中所述QC参数包括样品完整性、样品洗脱效率、样品储存条件和内标监测中的至少一种。
28.一种生成用于评估健康状态的生物标志物小组的方法,其包括:
a)鉴别与健康状态具有相关性的候选生物标志物;以及
b)对衍生自所述候选生物标志物的多种候选生物标志物蛋白质的至少一个片段进行质谱处理,以确定适合于评估健康状态的生物标志物;
其中所述处理包括至少一个过程控制步骤。
29.根据权利要求28所述的方法,其中所述至少一个过程控制步骤包括在质谱处理之前,使用至少一个系统适用性测试(SST)运行来评估液相色谱法(LC)和质谱法(MS)性能。
30.根据权利要求29所述的方法,其中所述SST包括通过在对数系列稀释中运行SIS标准曲线来确定LC-MS性能。
31.根据权利要求30所述的方法,其进一步包括进行质量控制检查,所述质量控制检查要求在任何两个相邻浓度水平之间有至少约10倍的MS信号差异,以及跨所述标准曲线有大约四个对数单位的动态范围。
32.根据权利要求28所述的方法,其中所述SST包括通过监测内标的重跃迁的RT稳定性来确定LC性能。
33.根据权利要求32所述的方法,其中监测重跃迁包括追踪检测到的值与预定的RT之间的RT偏移。
34.根据权利要求31所述的方法,其进一步包括进行质量控制检查,所述质量控制检查要求重跃迁的RT的上95%置信区间距LC-MS采集窗口的边界不超过10%。
35.根据权利要求28所述的方法,其中所述至少一个过程控制步骤包括监测免疫耗竭期间的流通AUC,监测关于样品处理和免疫耗竭效率的TPA结果,取决于每个单独样品的TPA结果的样品制备定制,或其任意组合。
36.根据权利要求28所述的方法,其中所述至少一个片段包含蛋白型肽。
37.根据权利要求28所述的方法,其中所述至少一个片段包含全长蛋白质。
CN201880088625.4A 2017-12-05 2018-12-05 结直肠癌生物标志物的稳健小组 Pending CN111684282A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762594941P 2017-12-05 2017-12-05
US62/594,941 2017-12-05
PCT/US2018/064107 WO2019113239A1 (en) 2017-12-05 2018-12-05 Robust panels of colorectal cancer biomarkers

Publications (1)

Publication Number Publication Date
CN111684282A true CN111684282A (zh) 2020-09-18

Family

ID=64734285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880088625.4A Pending CN111684282A (zh) 2017-12-05 2018-12-05 结直肠癌生物标志物的稳健小组

Country Status (4)

Country Link
US (1) US20200386759A1 (zh)
EP (1) EP3721232A1 (zh)
CN (1) CN111684282A (zh)
WO (1) WO2019113239A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885409A (zh) * 2021-01-18 2021-06-01 吉林大学 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN112881692A (zh) * 2021-01-08 2021-06-01 深圳华大基因股份有限公司 一种用于结直肠癌及腺瘤早期筛查的蛋白定量检测方法
CN117089621A (zh) * 2023-09-28 2023-11-21 上海爱谱蒂康生物科技有限公司 生物标志物组合及其在预测结直肠癌疗效中的应用

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11592448B2 (en) * 2017-06-14 2023-02-28 Discerndx, Inc. Tandem identification engine
US20210057090A1 (en) * 2019-08-20 2021-02-25 Life Technologies Corporation Methods for control of a sequencing device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013152989A2 (en) * 2012-04-10 2013-10-17 Eth Zurich Biomarker assay and uses thereof for diagnosis, therapy selection, and prognosis of cancer
US20140234854A1 (en) * 2012-11-30 2014-08-21 Applied Proteomics, Inc. Method for evaluation of presence of or risk of colon tumors
WO2014183777A1 (en) * 2013-05-13 2014-11-20 Biontech Ag Methods of detecting colorectal polyps or carcinoma and methods of treating colorectal polyps or carcinoma
WO2016094692A1 (en) * 2014-12-11 2016-06-16 Wisconsin Alumni Research Foundation Methods for detection and treatment of colorectal cancer
US20160299144A1 (en) * 2015-04-10 2016-10-13 Applied Proteomics, Inc. Protein biomarker panels for detecting colorectal cancer and advanced adenoma

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10451628B2 (en) * 2014-05-07 2019-10-22 University Of Utah Research Foundation Biomarkers and methods for diagnosis of early stage pancreatic ductal adenocarcinoma

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013152989A2 (en) * 2012-04-10 2013-10-17 Eth Zurich Biomarker assay and uses thereof for diagnosis, therapy selection, and prognosis of cancer
US20140234854A1 (en) * 2012-11-30 2014-08-21 Applied Proteomics, Inc. Method for evaluation of presence of or risk of colon tumors
WO2014183777A1 (en) * 2013-05-13 2014-11-20 Biontech Ag Methods of detecting colorectal polyps or carcinoma and methods of treating colorectal polyps or carcinoma
WO2016094692A1 (en) * 2014-12-11 2016-06-16 Wisconsin Alumni Research Foundation Methods for detection and treatment of colorectal cancer
US20160299144A1 (en) * 2015-04-10 2016-10-13 Applied Proteomics, Inc. Protein biomarker panels for detecting colorectal cancer and advanced adenoma

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李春峰等: "蛋白质组学在大肠癌研究中的应用" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112881692A (zh) * 2021-01-08 2021-06-01 深圳华大基因股份有限公司 一种用于结直肠癌及腺瘤早期筛查的蛋白定量检测方法
CN112885409A (zh) * 2021-01-18 2021-06-01 吉林大学 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN117089621A (zh) * 2023-09-28 2023-11-21 上海爱谱蒂康生物科技有限公司 生物标志物组合及其在预测结直肠癌疗效中的应用

Also Published As

Publication number Publication date
US20200386759A1 (en) 2020-12-10
EP3721232A1 (en) 2020-10-14
WO2019113239A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
US20240201201A1 (en) Biomarker Database Generation and Use
CN111684282A (zh) 结直肠癌生物标志物的稳健小组
US20210063410A1 (en) Automated sample workflow gating and data analysis
US20190130994A1 (en) Mass Spectrometric Data Analysis Workflow
US20170285033A1 (en) Method for evaluation of presence of or risk of colon tumors
Streckfus et al. Breast cancer related proteins are present in saliva and are modulated secondary to ductal carcinoma in situ of the breast
US9689874B2 (en) Protein biomarker panels for detecting colorectal cancer and advanced adenoma
Wen et al. Peptidomic identification of serum peptides diagnosing preeclampsia
US20200188907A1 (en) Marker analysis for quality control and disease detection
US20180100858A1 (en) Protein biomarker panels for detecting colorectal cancer and advanced adenoma
Townsend et al. Serum proteome profiles in stricturing Crohn's disease: a pilot study
CN111788486A (zh) 用于诊断肺癌的组合物、方法和试剂盒
Lemesle et al. Multimarker proteomic profiling for the prediction of cardiovascular mortality in patients with chronic heart failure
Abid et al. Peptidomics analysis reveals changes in small urinary peptides in patients with interstitial cystitis/bladder pain syndrome
US20160018413A1 (en) Methods of Prognosing Preeclampsia
Lundström et al. SpotLight Proteomics—A IgG-Enrichment Phenotype Profiling Approach with Clinical Implications
Watson et al. Quantitative mass spectrometry analysis of cerebrospinal fluid biomarker proteins reveals stage-specific changes in Alzheimer’s disease
CN117396983A (zh) 多组学评估
Acosta-Martin et al. Combining bioinformatics and MS-based proteomics: clinical implications
Coorssen et al. Proteomics—The State of the Field: The Definition and Analysis of Proteomes Should Be Based in Reality, Not Convenience
Ren et al. Evaluation of a large-scale aptamer proteomics platform among patients with kidney failure on dialysis
Végvári et al. Clinical and Biomedical Mass Spectrometry: New Frontiers in Drug Developments and Diagnosis
Faquih Multi-omics in research: epidemiolog, methodolog, and ad anced data anal sis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200918