CN117083525A - 用于结肠细胞增殖性病症的早期检测的标志物 - Google Patents

用于结肠细胞增殖性病症的早期检测的标志物 Download PDF

Info

Publication number
CN117083525A
CN117083525A CN202180094185.5A CN202180094185A CN117083525A CN 117083525 A CN117083525 A CN 117083525A CN 202180094185 A CN202180094185 A CN 202180094185A CN 117083525 A CN117083525 A CN 117083525A
Authority
CN
China
Prior art keywords
subject
panel
protein
flt3l
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180094185.5A
Other languages
English (en)
Inventor
海利·瓦尔辛斯克
A·德拉克
克里希南·坎纳·帕拉尼亚潘
布莱恩·D·奥多诺万
约翰·霍金斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Frinum Holdings
Original Assignee
Frinum Holdings
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Frinum Holdings filed Critical Frinum Holdings
Publication of CN117083525A publication Critical patent/CN117083525A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57419Specifically defined cancers of colon
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/52Assays involving cytokines
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/82Translation products from oncogenes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/60Complex ways of combining multiple protein biomarkers for diagnosis

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Urology & Nephrology (AREA)
  • Chemical & Material Sciences (AREA)
  • Hematology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)

Abstract

本文公开的系统、介质、组合物、方法和试剂盒涉及用于包括结直肠癌在内的结肠细胞增殖性病症的早期检测的蛋白质生物标志物小组。用于本文所描述的蛋白质小组的生物样品中蛋白质的存在和水平可以用于分类器生成,并且用作可用于对群体中的对象进行分类以检测结肠细胞增殖性病症的机器学习模型中的输入。

Description

用于结肠细胞增殖性病症的早期检测的标志物
相关申请的交叉引用
本申请要求2020年12月21日提交的美国临时专利申请号63/128,545的权益,其通过引用以其整体并入本文。
技术领域
本公开涉及用于包括晚期腺瘤和结直肠癌在内的结肠细胞增殖性病症的早期鉴定的生物标志物和方法。
背景技术
结直肠癌(CRC)是西方世界中癌症相关死亡的主要原因。虽然CRC是表征最好的实体瘤之一,但是由于诊断较晚,CRC仍然是发达国家的主要死亡原因之一。除其他原因外,患者的晚期诊断是由于诊断测试如结肠镜检查进行得太晚。由于CRC导致的死亡可以通过有效的早期筛查来预防。
发明内容
本公开提供了涉及与CRC检测和疾病进展相关联的生物样品的蛋白质谱分析的方法和系统。本文所描述的研究能够确定CRC的特定蛋白质特征的存在,表明结肠细胞增殖性病症的特定生物标志物的存在,具有检测结肠细胞增殖性病症、对患者群体进行分层以及使用来自患有结肠细胞增殖性病症的对象的血浆进行群体分类的潜力,具有高特异性和高敏感性。
在一方面,本公开提供了一种结肠细胞增殖性病症所特有的预先确定的蛋白质小组,该预先确定的蛋白质小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII(IL1R2)、HGFR、IL-6ra、OPN、生腱蛋白-C(TNC)、血小板反应蛋白-2(THBS2)、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6RA、ORM或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC或其任何组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC、HGFR、THBS2、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)或其任何组合。
在一些实施方案中,小组包括总PSA。
在一些实施方案中,小组被配置为区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
在一些实施方案中,小组被配置为指示晚期腺瘤,并且包括:1)FLT3L、CEACAM5、IL-6RA和ORM;2)FLT3L、CEACAM5、IL-6RA、CEA、ORM、IL-8、AGP、IL-1RT2、TNC和GDF-15;或者3)FLT3L、CEACAM5、IL-6RA、CEA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF、p00738或其组合。
在一些实施方案中,小组被配置为指示结直肠癌,并且包括:1)FLT3L、CEACAM5和IL-6RA;2)FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2、TNC及其组合;或者3)选自以下的蛋白质:FLT3L、CEACAM5、IL-6RA、IL-8、AFP、IL-1RT2、TNC、MUC-16、EGF及其组合。
在一些实施方案中,结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征(Lynch syndrome)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在另一方面,本公开提供了一种被配置为区分健康对象群体与患有结肠细胞增殖性病症的对象的分类器,其包括:测量值集,测量值集代表来自结肠细胞增殖性病症所特有的预先确定的蛋白质小组的蛋白质,其中测量值集从来自健康对象的样品和患有结肠细胞增殖性病症的对象的样品的蛋白质表达数据获得,其中测量值用于生成与蛋白质表达数据的特性相对应的特征集,其中使用机器学习或统计模型对特征集进行计算机处理,并且其中机器学习或统计模型提供可用作能够区分健康对象群体与患有结肠细胞增殖性病症的对象的分类器的特征向量。
在一些实施方案中,预先确定的蛋白质小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6RA、ORM或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC、HGFR、THBS2、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)或其组合。
在一些实施方案中,小组包括总PSA。
在一些实施方案中,分类器被配置为区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
在一些实施方案中,其中小组被配置为指示晚期腺瘤,并且包括:1)选自以下的蛋白质:FLT3L、CEACAM5、IL-6RA、ORM或其组合;2)选自以下的蛋白质:FLT3L、CEACAM5、IL-6RA、CEA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其组合;或者3)选自以下的蛋白质:FLT3L、CEACAM5、IL-6RA、CEA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF、p00738或其组合。
在一些实施方案中,小组被配置为指示结直肠癌,并且包括:1)FLT3L、CEACAM5、IL-6RA以及其组合;2)FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2、TNC;或者3)选自以下的蛋白质:FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、MUC-16、EGF及其组合。
在一些实施方案中,结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在另一方面,本公开提供了一种用于检测结肠细胞增殖性病症的包括机器学习模型分类器的系统,其包括:包括分类器的计算机可读介质,分类器可操作以基于预先确定的蛋白质小组来将对象分类;以及一个或多个处理器,用于执行存储在计算机可读介质上的指令。
在一些实施方案中,系统包括被配置为区分健康对象群体与患有结肠细胞增殖性病症的对象的分类器,该分类器包括:测量值集,测量值集代表来自结肠细胞增殖性病症所特有的预先确定的蛋白质小组的蛋白质,其中测量值集从来自健康对象的样品和患有结肠细胞增殖性病症的对象的样品的蛋白质表达数据获得,其中测量值用于生成与蛋白质表达数据的特性相对应的特征集,其中使用机器学习或统计模型对特征集进行计算机处理,并且其中机器学习或统计模型提供可用作能够区分健康对象群体与患有结肠细胞增殖性病症的对象的分类器的特征向量。
在一些实施方案中,小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
在一些实施方案中,机器学习模型使用从训练生物样品获得的训练数据来训练,训练生物样品的第一子集被鉴定为对应于患有结肠细胞增殖性病症的对象,并且训练生物样品的第二子集被鉴定为对应于未患有结肠细胞增殖性病症的对象。
在一些实施方案中,分类器在用于检测结肠细胞增殖性病症的系统中提供,该系统包括:a)计算机可读介质,其包括基于蛋白质特征小组可操作地将对象分类的分类器;以及b)一个或多个处理器,用于执行存储在计算机可读介质上的指令。
在一些实施方案中,系统包括分类电路,该分类电路被配置为机器学习分类器,该机器学习分类器选自深度学习分类器、神经网络分类器、线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、K近邻分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器和主成分分析分类器。
在另一方面,本公开提供了一种用于确定来自对象的生物样品的蛋白质谱的方法,其包括:
a)从对象获得含有蛋白质的生物样品;以及
b)测量生物样品中来自预先确定的蛋白质小组的蛋白质的量,从而提供对象的蛋白质谱,该预先确定的蛋白质小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM或其组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC、HGFR、THBS2、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)或其组合。
在一些实施方案中,小组包括总PSA。
在一些实施方案中,蛋白质谱与结肠细胞增殖性病症相关联并且提供将对象分类为患有结肠细胞增殖性病症的分类。
在一些实施方案中,来自对象的生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
在一些实施方案中,结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,方法进一步包括基于对象的蛋白质谱用手术和/或治疗剂来治疗该对象。
在另一方面,本公开提供了用于检测对象中的结肠细胞增殖性病症的方法,其包括:
a)从对象获得含有蛋白质的生物样品;
b)测量生物样品中的来自预先确定的蛋白质小组的蛋白质的量,从而提供对象的蛋白质谱,该预先确定的蛋白质小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;以及
c)将蛋白质谱计算机处理到机器学习模型中,该模型经训练以能够区分健康对象与患有结肠细胞增殖性病症的对象,以提供与结肠细胞增殖性病症的存在或不存在相关联的输出值,从而指示对象中结肠细胞增殖性病症的存在或不存在。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM或其组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC、HGFR、THBS2、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)或其组合。
在一些实施方案中,小组包括总PSA。
在一些实施方案中,蛋白质谱与结肠细胞增殖性病症相关联并且提供将对象分类为患有结肠细胞增殖性病症的分类。
在一些实施方案中,来自对象的生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
在一些实施方案中,结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,方法进一步包括基于检测到的结肠细胞增殖性病症向对象施用治疗。在一些实施方案中,治疗包括化疗、放疗、免疫疗法或手术。
在另一方面,提供了一种用于监测先前针对疾病进行治疗的对象中的微小残留疾病的方法,其包括:
a)使用小组确定来自对象的生物样品的蛋白质谱,从而生成基线蛋白质状态,该小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;
b)在生成基线蛋白质状态之后,在一个或多个时间点处确定从对象获得的生物样品的蛋白质谱,从而生成当前蛋白质状态;以及
c)确定基线蛋白质状态与当前蛋白质状态之间的差异,从而监测对象中微小残留疾病的变化。
在一些实施方案中,微小残留疾病选自治疗应答、肿瘤负荷、术后残留肿瘤、复发、二次筛查、一次筛查和癌症发展。在一些实施方案中,方法进一步包括基于检测到的对象中的微小残留疾病的变化,向该对象施用治疗。在一些实施方案中,治疗包括化疗、放疗、免疫疗法或手术。可以至少部分地基于对象的蛋白质谱和/或该对象的生物学性状集来选择治疗(例如,从多个可能的治疗选项中)并且向该对象施用。生物学性状可以是测量、诊断、预后或预测(例如,使用经训练的机器学习分类器来确定)。
在一些实施方案中,生物学性状包括恶性肿瘤。在一些实施方案中,生物学性状包括癌症类型。在一些实施方案中,生物学性状包括癌症分期。在一些实施方案中,生物学性状包括癌症分类。在一些实施方案中,癌症分类包括癌症分级。在一些实施方案中,癌症分类包括组织学分类。在一些实施方案中,生物学性状包括代谢型。在一些实施方案中,生物学性状包括突变。在一些实施方案中,突变是与疾病相关联的突变。在一些实施方案中,生物学性状包括临床结果。在一些实施方案中,生物学性状包括药物应答。
在另一方面,提供了一种用于确定对象对治疗的应答的方法,其包括:
a)使用小组确定来自对象的生物样品的蛋白质谱,从而生成基线蛋白质状态,该小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;
b)在生成基线蛋白质状态之后,在一个或多个时间点处确定从对象获得的生物样品的蛋白质谱,从而生成当前蛋白质状态;以及
c)确定基线蛋白质状态与当前蛋白质状态之间的差异,从而确定对象对治疗的应答。
在一些实施方案中,方法进一步包括基于所确定的对象对治疗的应答,向该对象施用治疗。在一些实施方案中,治疗包括化疗、放疗、免疫疗法或手术。
在另一方面,提供了一种用于监测对象的肿瘤负荷的方法,其包括:
a)使用小组确定来自对象的生物样品的蛋白质谱,从而生成基线蛋白质状态,该小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;
b)在生成基线蛋白质状态之后,在一个或多个时间点处确定从对象获得的生物样品的蛋白质谱,从而生成当前蛋白质状态;以及
c)确定基线蛋白质状态与当前蛋白质状态之间的差异,从而监测对象的肿瘤负荷。
在一些实施方案中,方法进一步包括基于对象的肿瘤负荷,向该对象施用治疗。在一些实施方案中,治疗包括化疗、放疗、免疫疗法或手术。
在另一方面,提供了一种用于检测对象的术后残留肿瘤的方法,其包括:
a)使用小组确定来自对象的生物样品的蛋白质谱,从而生成基线蛋白质状态,该小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;
b)在生成基线蛋白质状态之后,在一个或多个时间点处确定从对象获得的生物样品的蛋白质谱,从而生成当前蛋白质状态;以及
c)确定基线蛋白质状态与当前蛋白质状态之间的差异,从而检测对象的术后残留肿瘤。
在一些实施方案中,方法进一步包括基于检测到的对象的术后残留肿瘤,向该对象施用治疗。在一些实施方案中,治疗包括化疗、放疗、免疫疗法或手术。
在另一方面,提供了一种用于检测对象的复发的方法,其包括:
a)使用小组确定来自对象的生物样品的蛋白质谱,从而生成基线蛋白质状态,该小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;
b)在生成基线蛋白质状态之后,在一个或多个时间点处确定从对象获得的生物样品的蛋白质谱,从而生成当前蛋白质状态;以及
c)确定基线蛋白质状态与当前蛋白质状态之间的差异,从而检测对象的复发。
在一些实施方案中,方法进一步包括基于检测到的对象的复发,向该对象施用治疗。在一些实施方案中,治疗包括化疗、放疗、免疫疗法或手术。
在另一方面,提供了一种至少部分地基于对象的蛋白质谱执行二次筛查的方法。
在另一方面,提供了一种至少部分地基于对象的蛋白质谱执行一次筛查的方法。
在另一方面,提供了一种用于监测对象的癌症发展的方法,其包括:
a)使用小组确定来自对象的生物样品的蛋白质谱,从而生成基线蛋白质状态,该小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;
b)在生成基线蛋白质状态之后,在一个或多个时间点处确定从对象获得的生物样品的蛋白质谱,从而生成当前蛋白质状态;以及
c)确定基线蛋白质状态与当前蛋白质状态之间的差异,从而监测对象的癌症发展。
在一些实施方案中,方法进一步包括基于监测到的对象的癌症发展,向该对象施用治疗。在一些实施方案中,治疗包括化疗、放疗、免疫疗法或手术。
在一些实施方案中,蛋白质谱以至少约25%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约30%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约35%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约40%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约50%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约60%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约70%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约80%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约90%的敏感性指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约95%的敏感性指示结直肠癌的存在或易感性。
在一些实施方案中,蛋白质谱以至少约5%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约10%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约15%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约20%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约25%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约30%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约40%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约50%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约60%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约70%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约80%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约90%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约95%的阳性预测值(PPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约99%的阳性预测值(PPV)指示结直肠癌的存在或易感性。
在一些实施方案中,蛋白质谱以至少约40%的阴性预测值(NPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约50%的阴性预测值(NPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约60%的阴性预测值(NPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约70%的阴性预测值(NPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约80%的阴性预测值(NPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约90%的阴性预测值(NPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约95%的阴性预测值(NPV)指示结直肠癌的存在或易感性。在一些实施方案中,蛋白质谱以至少约99%的阴性预测值(NPV)指示结直肠癌的存在或易感性。
在一些实施方案中,经训练的算法确定对象的结直肠癌的存在或易感性,其曲线下面积(AUC)是至少约0.50。在一些实施方案中,经训练的算法确定对象的结直肠癌的存在或易感性,其曲线下面积(AUC)是至少约0.60。在一些实施方案中,经训练的算法确定对象的结直肠癌的存在或易感性,其曲线下面积(AUC)是至少约0.70。在一些实施方案中,经训练的算法确定对象的结直肠癌的存在或易感性,其曲线下面积(AUC)是至少约0.80。在一些实施方案中,经训练的算法确定对象的结直肠癌的存在或易感性,其曲线下面积(AUC)是至少约0.90。在一些实施方案中,经训练的算法确定对象的结直肠癌的存在或易感性,其曲线下面积(AUC)是至少约0.95。在一些实施方案中,经训练的算法确定对象的结直肠癌的存在或易感性,其曲线下面积(AUC)是至少约0.99。
在一些实施方案中,方法进一步包括呈现报告或用户的电子装置的图形用户界面。在一些实施方案中,用户是对象、个体或患者。
在一些实施方案中,方法进一步包括确定可能性,该可能性是确定对象、个体或患者中的结直肠癌的存在或易感度的可能性。
在一些实施方案中,经训练的算法(例如,机器学习模型或分类器)包括有监督的或有半监督的机器学习算法。在一些实施方案中,有监督的机器学习算法包括深度学习算法、支持向量机(SVM)、神经网络或随机森林。
在一些实施方案中,方法进一步包括至少部分地基于蛋白质谱或分析,向对象提供治疗性干预或向对象施用治疗,诸如治疗患有结直肠癌的患者的治疗性干预(例如,化疗、放疗、免疫疗法或手术)。
在一些实施方案中,方法进一步包括监测结直肠癌的存在或易感性,其中该监测包括在多个时间点处评估患者的结直肠癌的存在或易感性,其中该评估至少基于在多个时间点中的每个处确定的结直肠癌的存在或易感性。
在一些实施方案中,在多个时间点之间的对象的结直肠癌的存在或易感性的评估的差异指示选自以下的一种或多种临床适应症:(i)对象的结直肠癌的存在或易感性的诊断,(ii)对象的结直肠癌的存在或易感性的预后,和(iii)用于治疗对象的结直肠癌的存在或易感性的治疗过程的有效或无效。
在一些实施方案中,方法进一步包括通过使用经训练的算法以从结直肠癌的多个不同的亚型或分期中确定对象的结直肠癌的亚型,将对象的结直肠癌分层。
本公开的另一方面提供了一种非暂时性计算机可读介质,其包括机器可执行代码,该机器可执行代码通过一个或多个计算机处理器执行时,实现本文上述或其他地方的任何方法。
本公开的另一方面提供了一种系统,其包括一个或多个计算机处理器和与其耦合的计算机存储器。计算机存储器包括机器可执行代码,该机器可执行代码通过一个或多个计算机处理器执行时,实现本文上述或其他地方的任何方法。
本公开的另一方面提供了一种系统,其包括:a)计算机可读介质,其包括分类器,该分类器用于基于蛋白质特征小组使用机器学习模型,区分患有结肠细胞增殖性病症的对象的群体与未患有结肠细胞增殖性病症的对象;以及b)一个或多个处理器,用于执行存储在计算机可读介质上的指令。
根据以下具体实施方式,本公开的另外的方面和优点对于本领域技术人员将容易地变得清楚,在以下具体实施方式中仅示出和描述了本公开的说明性实施方案。如将会理解的,本公开能够具有其他的和不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不脱离本公开。相应地,附图和说明书应当被看作是说明性质的,而不是限制性的。
援引并入
本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文,其并入程度如同每个单独的出版物、专利或专利申请被明确且单独地指示通过引用并入。就通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾而言,本说明书旨在取代和/或优先于任何这种矛盾的材料。
附图说明
现在将仅通过实施例的方式,参照附图来描述本公开的实施例。本发明的新颖特征在随附权利要求中具体阐述。通过参考阐述了利用本发明原理的说明性实施方案的以下详细描述和附图(在本文也称为“图”)将获得对本发明的特征和优点的更好的理解,在附图中:
图1提供了为实现本文所提供的方法而进行编程或以其他方式配置有机器学习模型和分类器的计算机系统的示意图。
图2提供了根据单分析物蛋白质数据为蛋白质标志物数据集中的所有可用靶标计算的每蛋白质百分位数的可视化。
图3提供了来自单测定蛋白质分析(左图)和多测定相加性分析(右图)的指标的可视化。2.1列表由满足两个标准的蛋白质组成。第一标准是满足最大和中位百分位数指标阈值的蛋白质。第二标准是通过可加性定义的使用频率和性能阈值的蛋白质。2.2列表由通过排序前25种蛋白质作为最大和中位百分位数指标时发现的蛋白质的交集组成。
图4提供了ROC曲线,其显示了发现数据上的53个CRC特征与NEG的分类性能,其中所有数据都用于特征选择,但模型权重在交叉验证中定义(在此性能中没有真正的保留)。
图5提供了ROC曲线,其显示了发现数据上的53个AA特征与NEG的分类性能,其中所有数据都用于特征选择,但模型权重在交叉验证中定义(在此性能中没有真正的保留)。
具体实施方式
尽管本文已经示出和描述了本发明的各个实施方案,但对于本领域普通技术人员明显的是,此类实施方案仅以举例的方式提供。在不脱离本发明的情况下,本领域普通技术人员可以想到多种变型、变化和替代方案。应理解,可以采用针对本文所描述的本发明实施方案的各种可替代方案。
CRC是西方世界中癌症相关死亡的主要原因。虽然CRC是表征最好的实体瘤之一,但是由于诊断较晚,CRC仍然是发达国家的主要死亡原因之一。除其他原因外,患者的晚期诊断是由于诊断测试如结肠镜检查进行得太晚。由于CRC导致的死亡可以通过有效筛查来预防。目前,没有帮助直接作出临床决定的通用的特异性筛查测试或小组。癌症筛查和监测改善存活结果,因为早期检测能够在癌症生长和扩散之前消除它。在CRC中,例如,结肠镜检查在改善早期诊断方面起作用。遗憾的是,患者的依从率很低,并且由于程序的侵入性,筛查的进行低于建议的规律性。能够早期检测结直肠肿瘤的非侵入性和更简单的诊断方法的实现可能基于鉴定血清或血浆中可检测的蛋白质。非侵入性方法可能是更依从和早期筛查结直肠肿瘤测试的基础。
最近的研究支持癌症患者中存在肿瘤相关抗原。由于肿瘤发生与肿瘤细胞中自身蛋白的结构或表达的变化有关联,因此这些变化可能作为癌症的潜在免疫标志物。
人类中癌症和肿瘤的存在还与癌症患者血清中蛋白质的存在相关联。蛋白质可以在疾病的早期阶段检测到,甚至在通过其他技术检测到癌症之前检测到,指示这些蛋白质作为疾病生物标志物的潜力。这些蛋白质可以受到表达水平变化、分离突变的影响,可以具有异常折叠、过表达、异常糖基化,可以被截短或经历异常降解。
因此,蛋白质生物标志物可借助于简单、有效和非侵入性的方法,使得能够诊断结肠肿瘤,对不同分期(诸如腺瘤或肿瘤进展)的结肠肿瘤进行分类,预后疾病的进展,评估疾病对治疗的应答,以及检测结肠肿瘤的复发或散播。结肠肿瘤相关联蛋白质的诊断潜力可能有助于结肠肿瘤的早期检测、诊断和预后。
本公开总体上涉及癌症检测和疾病监测。更具体地,本公开涉及结肠细胞增殖性病症,诸如早期结直肠癌中的癌症相关蛋白质监测和疾病监测。具体来说,提供了循环蛋白质特征小组及其用途以用于鉴定患有结肠细胞增殖性病症或有发展结肠细胞增殖性病症诸如结直肠癌(CRC)和/或结直肠腺瘤(CA)(例如,晚期结直肠腺瘤(AA))的风险的人类对象。本文进一步公开了对象中肿瘤相关联蛋白质,该肿瘤相关联蛋白质指示存在结肠细胞增殖性病症,或有发生结肠细胞增殖性病症的高风险,例如,当该对象患有结直肠病变时。
本公开的一些实施方案提供了与不具有结肠细胞增殖性疾病或具有发生结肠细胞增殖性疾病的低风险的对象的对应样品相比,在具有结肠细胞增殖性疾病或具有发生结肠细胞增殖性疾病的高风险的对象的样品中具有差异丰度的蛋白质。在一些实施方案中,具有发生结肠细胞增殖性病症的高风险的对象和具有发生结肠细胞增殖性病症的低风险的对象中的每个在结直肠黏膜内具有非侵入性前期病变(下文中称为结直肠病变)。以不同丰度存在于健康对象和患有结肠细胞增殖性病症的对象的样品中的蛋白质可以被用作用于诊断、治疗和/或预防结肠细胞增殖性病症的生物标志物。
在一些实施方案中,方法进一步包括将对象的生物样品的蛋白质谱与来自健康对象的参考蛋白质谱的数据库进行比较;并且至少部分地基于测量蛋白质谱的蛋白质表达水平相对于参考蛋白质谱的至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%或至少50%的变化,确定该对象具有患有结肠细胞增殖性病症的增加的风险。
机器学习方法可能用于特征化衍生自生物样品的蛋白质数据,以鉴定信息性蛋白质的小组。鉴定的结肠细胞增殖性病症的信息性蛋白质小组可能可用于训练分类器模型,该分类器模型可用于区分来自健康对象和患有结肠细胞增殖性病症的对象的样品。
为了鉴定对于本文所描述的方法和分类器具有信息性的蛋白质,已经检查了来自患有结肠细胞增殖性病症的对象的血浆和来自未患有结肠细胞增殖性病症的对象的血浆(对照血浆或参考血浆),以用于鉴定蛋白质的特征小组的目的,这些蛋白质由患有结肠细胞增殖性病症的患者响应于结肠细胞增殖性病症产生或在这些患者中差异表达。为此,测定了来自患有结肠细胞增殖性病症的患者的血浆和对照血浆的蛋白质表达,以鉴定生物标志物。
本文鉴定的蛋白质可以用于鉴定患有结肠细胞增殖性病症的对象以将其与未患有结肠细胞增殖性病症的对象区分开,鉴定具有发展出结肠细胞增殖性病症的高风险的对象以将其与具有发展出结肠细胞增殖性病症的低风险的对象区分开,或鉴定患有结肠细胞增殖性病症前兆病变的对象。因此,这些蛋白质可以用作辅助工具,以指导与结肠细胞增殖性病症的监测、治疗和管理有关的决定。
本公开的某些其他实施方案提供了一种在本文所描述的蛋白质上训练的机器学习模型分类器,该蛋白质在健康对象的血浆样品和来自患有结肠细胞增殖性病症的对象的血浆样品中表达。训练机器学习模型提供了具有预先确定的蛋白质生物标志物集(“蛋白质小组”或“特征小组”)的分类器,该分类器可用于分类健康对象或患有结肠细胞增殖性病症的对象。在一个实例中,提供了一种用于基于血液的微创性蛋白质测定的方法,其可以用在具有结直肠病变的对象中以评估组织学严重程度。在另一个实施方案中,在来自对象的无细胞样品,来自对象的体液样品诸如全血、血浆或含有无细胞分子诸如蛋白质的血清中检测指示结肠细胞增殖性病症的蛋白质。因此,本文提供了蛋白质,其可以用于鉴别结肠细胞增殖性病症的存在或不存在、需要治疗(诸如手术切除、免疫疗法、放疗或化疗)的高风险或低风险结直肠病变和鉴定可以被监测的低风险结直肠病变。可以例如通过结肠镜检查、超声、MM或CT扫描来监测和确认结肠细胞增殖性病症或病变的存在。
在一些实施方案中,本文公开了一种预先确定的血浆蛋白质生物标志物小组,其用于结直肠增殖病症的早期检测并且与CRC的早期检测相关。预先确定的蛋白质小组可以用于分类器中,其指示细胞增殖病症,诸如晚期腺瘤或结直肠癌。
在其他实施方案中,本文公开了检测、诊断和治疗相关的方法。可以筛查来自患者的血浆以获得预先确定的蛋白质小组,作为结直肠增殖病症的指示。
本文描述了用于基于在患有结肠细胞增殖性病症的对象中上调或过表达的蛋白质的表达谱或丰度来筛查或鉴定患有结肠细胞增殖性病症的对象或具有患结肠细胞增殖性病症的风险的对象的方法。本文还描述了用于获得对诊断对象(例如,人类对象)的结肠细胞增殖性病症有用的数据的方法。
结肠细胞增殖性病症可以是任何肿瘤阶段(例如,TX、T0、Tis、T1、T2、T3、T4);任何区域淋巴结或远处转移期(例如,NX、N0、N1、M0、M1);任何阶段(例如,0期(Tis、N0、M0)、IA期(T1、N0、M0)、IIA期(T3、N0、M0)、IIB期(T1-3、N1、M0)、III期(T4、任何N、M0)或IV期(任何T、任何N、M1));可切除的;局部晚期(无法切除);或转移的。
当前的筛查工具可能由于假阳性和假阴性结果以及特异性和敏感性而面临挑战。理想的癌症筛查工具可以具有高阳性预测值(Positive Predictive Value,PPV),这将最大限度地减少不必要的检查(低假阳性),但可以检测出绝大多数癌症(低假阴性)。另一个关键的受损是“检测敏感性”,不同于测试敏感性,检测敏感性是基于大小检测肿瘤的下限。使肿瘤生长到足够的大小,释放出可检测水平的循环肿瘤标志物,这违背了早期检测和预防癌症进展的目的。因此,本公开解决了高敏感性和有效的基于血液的结直肠癌早期诊断筛查的需要。
循环肿瘤DNA的检测,还被称作“液体活检”,能够以非侵入性的方式对肿瘤进行检测和信息调查。在这些液体活检中对肿瘤特异性突变的鉴定可能用于诊断,例如,结肠癌、乳腺癌和前列腺癌。然而,由于循环中存在高背景的正常(即,非肿瘤来源的)DNA,所以这些技术的敏感性可能受到限制。因此,仍需要更敏感且更具特异性的筛查工具来检测早期或低肿瘤负荷的结直肠癌肿瘤标志物,以便在高危群体中进行复发筛查和一次筛查。针对肿瘤相关联抗原的循环蛋白质提供另一种液体活检样品中信息性生物标志物的来源,其可以在本文所描述的机器学习模型中使用。
本公开提供了涉及对与结肠细胞增殖性病症及其进展(例如,结直肠癌)相关联的循环蛋白质进行谱分析的方法和系统。指示结肠细胞增殖性病症的存在或发展出结肠细胞增殖性病症的高风险的那些蛋白质可以用于尽早诊断、治疗或预防结肠细胞增殖性病症的进展,例如,当对象只有结直肠病变时。本文还提供了用于诊断结肠细胞增殖性病症或评估(特别是当对象具有结直肠病变时)对象发展结肠细胞增殖性病症的风险的试剂盒和方法。
在一方面,本文提供了使用蛋白质小组的方法,该蛋白质小组可用于基于疾病状态区分来自对象的样品。在其他方面,本文提供了涉及使用蛋白质小组来检测、鉴别和区分结肠细胞增殖性病症的方法、测定和试剂盒。结肠细胞增殖性病症的非限制性实例包括腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,方法包括使用被选择作为用于鉴别、检测和区分结肠细胞增殖性病症的标志物的一种或多种蛋白质。
定义
除非上下文另外明确指示,否则如说明书和权利要求中所用,单数形式“一个”、“一种”以及“所述”包括复数个指示物。例如,术语“核酸”包括多个核酸,包括其混合物。
如本文所用,术语“对象”一般是指具有可测试或可检测的遗传信息的实体或媒介。对象可以是个人、个体或患者。对象可以是脊椎动物,例如像哺乳动物。哺乳动物的非限制性实例包括人类、猿猴、农场动物、竞技动物、啮齿动物和宠物。对象可以是患有癌症或疑似患有癌症的人。对象可以表现出指示对象的健康、生理状态或状况,诸如对象的癌症或其他疾病、病症或病状的症状。作为替代,对象可以在这种健康或生理状态或状况方面无症状。
如本文所用,术语“样品”一般是指从一个或多个对象获得或衍生的生物样品。生物样品可以是无细胞生物样品或基本上上无细胞生物样品,或者可以被加工或分级分离以产生无细胞生物样品。例如,无细胞生物样品可以包括无细胞核糖核酸(cfRNA)、无细胞脱氧核糖核酸(cfDNA)、无细胞胎儿DNA(cffDNA)、蛋白质、抗体、血浆、血清、尿液、唾液、羊水及其衍生物。可以使用乙二胺四乙酸(EDTA)收集管、无细胞RNA收集管(例如,RNAComplete/>)或无细胞DNA收集管(例如,/>Cell-Free DNA/>)从对象获得或衍生无细胞生物样品。无细胞生物样品可以通过分级分离(例如,通过差速离心)从全血样品中衍生。生物样品或其衍生物可以含有细胞。例如,生物样品可以是血液样品或其衍生物(例如,通过收集管或血滴收集的血液)。
如本文所用,术语“无细胞样品”一般是指基本上缺乏完整细胞的生物样品。无细胞样品可以衍生自本身基本上缺乏细胞的生物样品,或者可以衍生自细胞已被去除的样品。无细胞样品的非限制性实例包括衍生自血液、血清、血浆、尿液、精液、痰液、粪便、导管渗出液、淋巴和回收灌洗液的那些样品。
如本文所用,术语“结肠细胞增殖性病症”一般是指包括结肠或直肠细胞的紊乱或异常增殖的病症或疾病。结肠细胞增殖性病症的非限制性实例包括腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。如本文所用,缩写“CRC”用于标识来自被诊断患有结直肠癌的对象的生物样品。如本文所用,缩写“AA”用于标识来自被诊断患有至少一种晚期腺瘤的对象的样品。如本文所用,缩写“NAA”用于标识来自被诊断患有良性结直肠肿瘤并且未患晚期腺瘤或结直肠癌的对象的样品。
如本文所用,术语“结直肠癌”是一般以小肠以下(即,大肠(结肠),例如盲肠、升结肠、横结肠、降结肠、乙状结肠和直肠)的肠道细胞癌变为特征的医学病状。
如本文所用,术语“结直肠腺瘤”一般是指结肠腺瘤,也被称为腺瘤性息肉,它是结直肠癌的良性和癌前阶段。结直肠腺瘤可以指示进展为结直肠癌的高风险。
如本文所用,术语“晚期结直肠腺瘤”一般是指腺瘤大小为至少10mm或组织学上有高度异型增生或绒毛成分高于20%。
如本文所用,术语“有发展结肠细胞增殖性病症的风险”“发展结肠细胞增殖性病症的高风险”一般是指与未患结肠细胞增殖性病症的对象或在不久的将来发展结肠细胞增殖性病症的风险较低的对象相比,对象在不久的将来发展结肠细胞增殖性病症的风险增加。如本文所用,术语“不久的将来”是指约1个月至约2年、约6个月至约18个月或约1年的持续时间。
如本文所用,术语癌症“类型”和“亚型”在本文一般是相对使用的,使得一种“类型”的癌症,诸如乳腺癌,可以是基于例如阶段、形态学、组织学、基因表达、受体谱、突变谱、侵袭性、预后和恶性特点的“亚型”。同样,“类型”和“亚型”可以应用在更细的层次上,例如,将一个组织学“类型”鉴别为“亚型”,例如,根据突变谱或基因表达来定义。癌症“阶段”也用来指代基于与疾病进展相关的组织学和病理学特点的癌症类型分类。
术语“赘生物”一般是指任何新的和异常组织生长。因此,赘生物可以是癌前赘生物或恶性赘生物。术语“赘生物特异性标志物”是指可以用于指示赘生物存在的任何生物材料。生物材料的实例包括但不限于核酸、多肽、碳水化合物、脂肪酸、细胞成分(例如,细胞膜和线粒体)和全细胞。术语“结直肠赘生物特异性标志物”是指可以用于指示结直肠赘生物(例如,癌前结直肠赘生物或恶性结直肠赘生物)存在的任何生物材料。
如本文所用,术语“健康”一般是指对象不患有结直肠细胞增殖病症。虽然健康是一种动态状态,但如本文所用,术语指的是在特定陈述中所提及的缺乏疾病状态的对象的病理状态。在一个实例中,当提及能够对结直肠癌对象进行分类的特征小组时,健康个体、健康样品或来自健康个体的样品是指缺乏结直肠癌(CRC)、晚期腺瘤(AA)或良性腺瘤(NAA)的个体。如本文所用,缩写“NAA”用于鉴定来自被评估为结直肠肿瘤阴性的个体的样品,并且因此,在一些实施方案中,被鉴定为NAA的样品被包括在健康样品组中。虽然在此对象中可能存在其他疾病或健康状态,但如本文所用,术语“健康”指示缺乏疾病状态,用于在具有与缺乏所讨论的疾病状态的对象之间缺乏进行比较或分类的目的。
术语“微小残留疾病”或“MRD”一般是指癌症治疗之后对象体内的少量癌细胞。可以进行MRD检测,以确定癌症治疗的有效性,并指导进一步的治疗计划。
如本文所用,术语“筛查”一般是指对有患上结直肠癌或结直肠腺瘤风险的对象群体进行检查或测试,目的是判别健康对象与患有未诊断的结直肠癌或结直肠腺瘤的对象或有患上所述适应症的高风险的对象。
如本文所用,术语“微创性生物样品”或“非侵入性样品”一般是指除用于从对象身上取血的细针外,不需要任何仪器从患者体内采集的任何样品。在一些实施方案中,微创性生物样品包括血液、血清或血浆样品。
如本文所用,术语“上调”或“过表达”一般是指表达水平相对于给定的“阈值”或“截止值”增加了至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少100%、至少110%、至少120%、至少130%、至少140%、至少150%或多于150%。
如本文所用,术语“阈值”或“截止值”,在提及表达水平时,一般是指在给定的敏感性和特异性下,如果对象的表达水平高于所述阈值或截止或参考水平,则指示对象可能患有结直肠癌或结直肠腺瘤的参考表达水平。
如本文所用,术语“试剂盒”不限于任何特定的装置并且包括适用于实现本公开的系统和方法的任何装置,诸如但不限于微阵列、生物阵列、生物芯片、生物芯片阵列或基于珠的阵列。
测定样品
无细胞生物样品可以从人类对象获得或衍生。无细胞生物样品在加工之前可以储存在多种储存条件下,诸如不同温度(例如室温、冷藏或冷冻条件,例如25℃、4℃、-18℃、-20℃或-80℃)或不同悬浮液(例如,EDTA收集管、无细胞RNA收集管或无细胞DNA收集管)。
无细胞生物样品可能来自患有癌症的对象、疑似患有癌症的对象、或未患或未疑似患有癌症的对象。
无细胞生物样品可以在患有癌症的对象的治疗之前和/或之后获得。无细胞生物样品可以来自在治疗或治疗方案期间的对象。可以从对象获得多个无细胞生物样品,以监测随时间推移的治疗效果。无细胞生物样品可以从已知或疑似患有癌症的对象获取,疑似患有癌症的对象无法经由临床测试得到明确的阳性或阴性诊断。样品可以从疑似患有癌症的对象获取。无细胞生物样品可以从出现以下无法解释的症状的对象获取,诸如疲劳、恶心、体重减轻、身体疼痛、虚弱或出血。无细胞生物样品可以从有解释的症状的对象获取。无细胞生物样品可以从因诸如家族史、年龄、高血压或高血压前期、糖尿病或糖尿病前期、超重或肥胖、环境暴露、生活方式风险因素(例如,吸烟、饮酒或吸毒)或存在其他风险因素的因素而有发展癌症的风险的对象获取。
无细胞生物样品可以含有一种或多种能够被测定的分析物,诸如适用于测定以生成转录组数据的无细胞核糖核酸(cfRNA)分子、适用于测定以生成基因组数据的无细胞脱氧核糖核酸(cfDNA)分子、适用于测定以生成蛋白质组数据的蛋白质分子或其混合物或组合。
从对象获得无细胞生物样品之后,可以对无细胞生物样品进行加工,以生成指示对象的结肠细胞增殖性病症的数据集。例如,在蛋白质小组处无细胞生物样品中的蛋白质分子的存在、不存在或定量评估。对来自对象的无细胞生物样品进行加工可能包括:(i)使无细胞生物样品经受足以分离、富集或提取多种蛋白质的条件;以及(ii)测定多种蛋白质分子以生成数据集。
生物样品可能直接用于检测一种或多种蛋白质的测定,以生成样品的蛋白质谱。在一些实施方案中,生物样品可以在测定之前富集蛋白质(例如,使用蛋白质缀合的微珠)。在一些实施方案中,生物样品是血浆样品并且是蛋白质富集的。可以用各种实验室方法对生物样品进行测定,以确定生物样品中一种或多种蛋白质的存在和/或浓度或水平。在一些实施方案中,此类方法可以包括但不限于质谱法、蛋白质微阵列、高密度蛋白质微阵列(例如,CDI蛋白质组阵列)、ELISA、中尺度发现(例如,Pacific Biolabs)、基于珠的免疫测定(例如,基于磁珠的捕获测定)、二级氟-抗体测定、DNA抗体缀合物或抗体金属缀合物(例如,大量细胞计数法,CyTOF)、HD-XTM和SR-XTM超灵敏生物标志物检测系统(例如,)、基于适体的寡杂交MEMS(例如,Somalogic)、流式细胞术、/>颗粒技术(例如,/>)或其组合,以确定来自对象的生物样品的蛋白质谱。
特征小组
本公开提供了分析生物样品的方法和系统,以从样品中鉴定的与结肠细胞增殖性病症发展相关联的蛋白质分子组合获得可测量的特征。本文所描述的已鉴定的蛋白质分子的集合在创建用于检测结肠细胞增殖性病症或其阶段的分类器和模型中具有信息价值。虽然已鉴定的蛋白质分子可以单独地具有信息性且可用,但蛋白质分子可以在本文所描述的组合中使用以形成特征小组,其中特征是结肠细胞增殖性病症或其阶段所特有的。来自特征小组的特征可以使用经训练的算法(例如,机器学习模型)来处理,以创建分类器,分类器被配置为对患有结肠细胞增殖性病症的对象群体进行分层。方法通过使用特征小组中描述的一种或多种蛋白质来表征。在一些实施方案中,至少3种蛋白质的特征小组可用于本文所描述的分类器和方法。
本文所描述的蛋白质特征小组能够对与结肠细胞增殖性病症相关联的特异性蛋白质进行快速和特异性分析。本文方法中描述和使用的特征小组可用于改进结肠细胞增殖性病症的诊断、预后、治疗选择和监测(例如治疗监测)。
与目前的方法相比,特征小组和方法提供了显著的改进,以从诸如全血、血浆或血清的体液样品中检测早期结肠细胞增殖性病症。目前用于检测和诊断结肠细胞增殖性病症的方法包括结肠镜、乙状结肠镜和粪便潜血结肠癌。与这些方法相比,本文提供的方法可以比结肠镜的侵入性小得多,并且至少与乙状结肠镜、粪便免疫化学试验(FIT)和粪便潜血试验(FOBT)同样或更敏感。本文提供的方法可能在敏感性和特异性方面提供显著优势,这是由于使用蛋白质小组与高敏感性测定技术的有利组合。
本公开提供了涉及与结肠细胞增殖性病症检测和疾病进展相关联的蛋白质谱分析的方法和系统。为了鉴定对本文所描述的方法和分类器具有信息性的蛋白质,已经检查了来自患有结肠细胞增殖性病症的患者的血浆和未患结肠细胞增殖性病症的对象的血浆(对照血浆或参考血浆),以鉴定由患有结肠细胞增殖性病症的患者响应于所述结肠细胞增殖性病症及相应的反应性蛋白产生的蛋白质的特征小组。为此,可能使用高密度蛋白质微阵列测试来自患有结肠细胞增殖性病症的患者的血浆和对照血浆。相对于用于鉴定蛋白质的其他方法,抗体微阵列具有一系列优势:i)打印在阵列中的蛋白质是事先已知的,从而避免随后进行鉴定并消除模拟表位的可能选择,以及ii)没有选择任何蛋白质的倾向,因为蛋白质全部以类似的浓度打印。这种因素组合使得鉴定生物标志物具有高敏感性。
本文所鉴定的蛋白质可以用于鉴定患有结肠细胞增殖性病症的对象,以将其与未患结肠细胞增殖性病症的对象区分开;或鉴定具有发展结肠细胞增殖性病症的较高风险的对象,以将其与具有发展结肠细胞增殖性病症的较低风险的对象区分开;或鉴定具有结肠细胞增殖性病症前兆病变的对象。因此,这些蛋白质可以用作辅助工具,以指导与结肠细胞增殖性病症的监测、治疗和管理有关的决定。
在一些实施方案中,本文公开了一种血浆蛋白质生物标志物小组,其可用于结直肠增殖病症的早期检测并且与结直肠癌的早期检测相关。
在其他实施方案中,本文公开了检测、诊断和治疗相关的方法。筛查来自患者的血浆中的肿瘤相关联蛋白质或肿瘤衍生蛋白,作为结直肠增殖病症的指示。
在一方面,本公开提供了结肠细胞增殖性病症所特有的蛋白质小组,其包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
在一些实施方案中,小组可用于指示来自患有结肠细胞增殖性病症的对象的样品并且包括选自以下的至少3种蛋白质:补体成分C2、补体成分C9、D因子、I因子、补体成分C1q、补体成分C3、补体成分C3b、B因子和H因子。
在一些实施方案中,蛋白质小组包括FLT3L、CEACAM5、IL-6RA、CEA、ORM或其任何组合。
在一些实施方案中,蛋白质小组包括FLT3L、CEACAM5、IL-6RA、CEA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其任何组合。
在一些实施方案中,蛋白质小组包括FLT3L、CEACAM5、IL-6RA、CEA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF、p00738或其任何组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC或其任何组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC、HGFR、THBS2、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)或其任何组合。
在一些实施方案中,小组包括总PSA。
在一些实施方案中,蛋白质特征小组可用于区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
在一些实施方案中,小组可用于指示晚期腺瘤并且包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
在一些实施方案中,小组可用于指示来自患有晚期腺瘤的对象的样品并且包括选自以下的至少3种蛋白质:补体成分C2、补体成分C9、D因子、I因子、补体成分C1q、补体成分C3、补体成分C3b、B因子和H因子。
在一些实施方案中,小组可用于指示结直肠癌并且包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
在一些实施方案中,小组可用于指示来自患有结直肠癌的对象的样品并且包括选自以下的至少3种蛋白质:补体成分C2、补体成分C9、D因子、I因子、补体成分C1q、补体成分C3、补体成分C3b、B因子和H因子。
在一些实施方案中,预先确定的蛋白质集含有至少1种、至少2种、至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种、至少11种、至少12种、至少13种、至少14种、至少15种、至少16种、至少17种、至少18种、至少19种、至少20种、至少21种、至少22种、至少23种、至少24种、至少25种、至少26种、至少27种、至少28种、至少29种、至少30种、至少31种、至少32种、至少33种、至少34种、至少35种、至少36种、至少37种、至少38种、至少39种、至少40种、至少41种、至少42种、至少43种、至少44种、至少45种、至少46种、至少47种、至少48种、至少49种、至少50种、至少51种、至少52种、至少53种、至少54种、至少55种、至少56种、至少57种、至少58种、至少59种、至少60种或更多种蛋白质,诸如本文所描述的蛋白质。在一些实施方案中,预先确定的蛋白质集含有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60或更多种蛋白质,诸如本文所描述的蛋白质。在一些实施方案中,预先确定的蛋白质集含有选自以下的蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。在一些实施方案中,预先确定的蛋白质集含有选自表2中所列的蛋白质。
在一些实施方案中,预先确定的小组中的蛋白质包括功能类别中的蛋白质,诸如白细胞介素、补体途径介体、补体蛋白、趋化因子、生长因子、细胞因子、球蛋白、粘蛋白和蛋白酶。
分类器、机器学习模型和系统
机器学习方法用于对来自对象的生物样品衍生的蛋白质数据进行特征化,以鉴定信息性蛋白质小组。已鉴定的结肠细胞增殖性病症的信息性蛋白质小组可用于训练分类器模型,分类器模型可用于区分来自健康对象和患有结肠细胞增殖性病症的对象的样品。
本文还描述了一种在本文所描述的蛋白质上训练的机器学习模型分类器,蛋白质在健康对象的血浆样品和来自患有结肠细胞增殖性病症的对象的血浆样品中表达。训练机器学习模型提供具有预先确定的蛋白质生物标志物集(“蛋白质小组”或“特征小组”)的分类器,分类器可用于对健康对象或患有结肠细胞增殖性病症的对象进行分类。在一个实例中,提供了一种用于基于血液的微创性蛋白质测定的方法,其可以用于评估具有结直肠病变的对象的组织学严重程度。在另一个实施方案中,在来自对象的无细胞样品,例如来自对象的体液样品诸如全血、血浆或血清中检测指示结肠细胞增殖性病症的蛋白质。因此,本文公开的蛋白质可以用于鉴别结肠细胞增殖性病症的存在或不存在、需要治疗(诸如手术切除、免疫疗法、放疗或化疗)的高风险结直肠病变或低风险结直肠病变和低风险结直肠病变的监测。可以例如通过结肠镜检查、超声、MM或CT扫描来监测和确认结肠细胞增殖性病症或病变的存在。
在一些实例中,蛋白质特征被用作经训练的算法(例如,机器学习模型或分类器)的输入数据集,以寻找蛋白质谱与对象组(例如,患者组)之间的相关性。此类患者组的实例包括疾病或病状的存在或不存在、疾病或病状的风险升高或不升高、疾病或病状的阶段、疾病或病状的亚型、治疗的应答者与无应答者,以及进展者与无进展者。在一些实例中,生成特征矩阵以比较来自具有已知病状或特点的对象的样品。在一些实施方案中,样品来自健康对象或不具有任何已知适应症的对象并且样品来自已知患有癌症的患者。
如本文所用,关于机器学习和模式识别,术语“特征”一般是指被观察现象的单个可测量的特性或特点。“特征”的概念与统计技术中使用的解释变量的概念有关,例如但不限于线性回归和逻辑回归。特征可能是数字的或分类的(例如,在句法模式识别中使用结构特征诸如字符串和图表)。
如本文所用,术语“输入特征”(或“特征”)一般是指由经训练的算法(例如,机器学习模型或分类器)用来预测样品的输出分类(标签)的变量,例如条件、蛋白质身份、蛋白质序列内容(例如,突变)、建议的数据收集操作或建议的处理。变量的值可以确定为一个样品,并用于确定分类。
对于多个测定,系统鉴定特征集以输入到经训练的算法(例如,机器学习模型或分类器)中。系统对每一个生物样品进行测定,并从测量值形成特征向量。系统将特征向量输入到机器学习模型中,并得到生物样品是否具有指定特性的输出分类。
在一些实施方案中,机器学习模型输出分类器,分类器能够区分对象的两个或更多个组或类别或对象群体中的特征或群体的特征。在一些实施方案中,分类器是经训练的机器学习分类器。
在一些实施方案中,对癌症组织中生物标志物的信息基因座或特征进行测定,以形成谱。接受者操作特征(ROC)曲线可以通过绘制特定特征(例如,本文所描述的任何生物标志物和/或任何额外生物医学信息项)在区分两个群体(例如,对治疗剂有应答和无应答的对象)时的表现来生成。在一些实施方案中,跨整个群体(例如,病例和对照)的特征数据是基于单个特征值按升序排序的。
在各种实例中,指定的特性选自健康与癌症、疾病的升高与不升高的风险、疾病亚型、疾病阶段、进展者与非进展者,以及应答者与非应答者。
在一些实施方案中,结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
A.数据分析
在一些实例中,本公开提供了一种系统、方法或试剂盒,其中数据分析可以在软件应用、计算硬件或这两者中实现。在一些实例中,分析应用或系统至少包括数据接收模块、数据预处理模块、数据分析模块(其可以对一种或多种类型的蛋白质数据进行操作)、数据解释模块或数据可视化模块。在一些实施方案中,数据接收模块包括将实验室硬件或仪器与处理实验室数据的计算机系统连接起来的计算机系统。在一些实施方案中,数据预处理模块包括硬件系统或计算机软件,其对数据执行操作,以备分析。可以应用于预处理模块中的数据的操作的实例包括仿射转换、去噪操作、数据清理、重新格式化或子采样。数据分析模块可以专门用于分析来自一个或多个基因组材料的基因组数据,例如,可以获取组装的基因组序列并执行概率和统计分析,以鉴定与疾病、病理、状态、风险、条件或表型相关的异常模式。数据解释模块可以使用分析方法,例如,从统计学、数学或生物学中提取的分析方法,以支持理解已鉴定的异常模式与健康状况、功能状态、预后或风险之间的关系。数据可视化模块可以使用数学建模、计算机图形学或渲染的方法来创建数据的可视化表示,以促进对结果的理解或解释。
在一些实例中,应用机器学习方法来区分样品群体中的样品。在一些实施方案中,应用机器学习方法来区分健康与晚期疾病(例如腺瘤)样品。
在一些实施方案中,用于训练预测引擎的一个或多个机器学习操作包括以下中的一个或多个:广义线性模型、广义加性模型、非参数回归操作、随机森林分类器、空间回归操作、贝叶斯回归模型、时间序列分析、贝叶斯网络、高斯网络、决策树学习操作、人工神经网络、循环神经网络、强化学习操作、线性或非线性回归操作、支持向量机、聚类操作和遗传算法操作。
在一些实例中,计算机处理方法选自逻辑回归、多元线性回归(MLR)、降维、偏最小二乘(PLS)回归、主成分回归、自编码器、变分自编码器、奇异值分解、傅立叶基、小波、判别分析、支持向量机、决策树、分类和回归树(CART)、基于树的方法、随机森林、梯度推进树、逻辑回归、矩阵分解、多维标度(MDS)、降维方法、t-分布随机邻域嵌入(t-SNE)、多层感知器(MLP)、网络聚类、神经模糊和人工神经网络。
在一些实例中,本文公开的方法可以包括对来自对象或多个对象的样品的核酸测序数据的计算分析。
B.分类器生成
在一方面,本文公开的系统和方法提供了一种分类器,它是基于从含有蛋白质的生物样品的蛋白质分析衍生的特征信息生成的。分类器形成预测引擎的一部分,用于基于生物样品(诸如蛋白质)中鉴定的特征在群体中区分各组。生物样品中蛋白质信息的集合表示可以被称为蛋白质谱。
在一些实施方案中,通过以下步骤来创建分类器:将蛋白质信息的相似部分格式化为统一的格式和统一的规模来对蛋白质信息进行归一化;将归一化的蛋白质信息存储在列式数据库中;通过对所存储的归一化蛋白质信息应用一个或多个机器学习操作来训练预测引擎,其中预测引擎针对特定群体映射一个或多个特征的组合,以定义至少两个分类组。
在一些实施方案中,通过以下步骤来创建分类器:将蛋白质信息的相似部分格式化为统一的格式和统一的规模来对蛋白质信息进行归一化;将归一化的蛋白质信息存储在列式数据库中;通过对所存储的归一化蛋白质信息特征应用一个或多个机器学习操作来训练预测引擎,以定义至少两个分类组。
在一些实施方案中,预测引擎被应用于从中获得归一化蛋白质特征的对象群体并与群体中的每个对象相关联,其中预测引擎的输出被评估以鉴定与组相关联的对象并将对象分类到分类组中。
如本文所用,特异性一般是指“在没有患病的个体中,检测结果为阴性的概率”。特异性可以用检测结果为阴性的无病人数除以无病对象的总数来计算。
在一些实例中,模型、分类器或预测检验具有以下特异性:至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。
如本文所用,敏感性一般是指“在患病的个体中,检测结果为阳性的概率”。敏感性可以用检测结果为阳性的患病对象数量除以患病对象的总数来计算。
在一些实例中,模型、分类器或预测检验具有以下敏感性:至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。
C.数字处理装置
在一些实施例中,本文描述了一种数字处理装置或其用途。在一些实例中,数字处理装置可以包括一个或多个执行装置功能的硬件中央处理单元(CPU)、图形处理单元(GPU)或张量处理单元(TPU)。在一些实例中,数字处理装置可以包括被配置为执行可执行指令的操作系统。
在一些实例中,数字处理装置可以任选地连接到计算机网络。在一些实例中,数字处理装置可以任选地连接到因特网。在一些实例中,数字处理装置可以任选地连接到云计算设施。在一些实例中,数字处理装置可以任选地连接到内联网。在一些实例中,数字处理装置可以任选地连接到数据存储装置。
合适的数字处理装置的非限制性实例包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、子笔记本计算机、上网本计算机、上网板计算机、机顶盒计算机、手持计算机、因特网电器、移动智能电话和平板计算机。合适的平板计算机可以包括例如具有小册子、笔记板和可转换配置的那些。
在一些实例中,数字处理装置可以包括被配置为执行可执行指令的操作系统。例如,操作系统可以包括软件,包括程序和数据,用于管理装置的硬件并为应用的执行提供服务。操作系统的非限制性实例包括Ubuntu、FreeBSD、OpenBSD、Linux、/>Mac OS X/> Windows/>和/>合适的个人计算机操作系统的非限制性实例包括/> Mac OS 和UNIX样操作系统,诸如GNU//>在一些实例中,操作系统可以由云计算提供,并且云计算资源可以由一个或多个服务提供商提供。
在一些实例中,装置可以包括存储和/或存储器装置。存储和/或存储器装置可以是用于暂时或永久地存储数据或程序的一个或多个物理设备。在一些实例中,装置可以是易失性存储器,并且需要电力来维持存储的信息。在一些实例中,装置是非易失性存储器,并且在数字处理装置不通电时保留所存储的信息。在一些实例中,非易失性存储器可以包括闪速存储器。在一些实例中,非易失性存储器可以包括动态随机存取存储器(DRAM)。在一些实例中,非易失性存储器可以包括铁电随机存取存储器(FRAM)。在一些实例中,非易失性存储器可以包括相变随机存取存储器(PRAM)。
在一些实例中,装置可以是存储装置,包括例如CD-ROM、DVD、闪速存储器装置、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储。在一些实例中,存储和/或存储器装置可以是诸如本文公开的那些装置的组合。在一些实例中,数字处理装置可以包括向用户发送视觉信息的显示器。在一些实例中,显示器可以是阴极射线管(CRT)。在一些实例中,显示器可以是液晶显示器(LCD)。在一些实例中,显示器可以是薄膜晶体管液晶显示器(TFT-LCD)。在一些实例中,显示器可以是有机发光二极管(OLED)显示器。在一些实例中,OLED显示器可以是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实例中,显示器可以是等离子体显示器。在一些实例中,显示器可以是视频投影仪。在一些实例中,显示器可以是诸如本文所公开的那些装置的组合。
在一些实例中,数字处理装置可以包括从用户接收信息的输入装置。在一些实例中,输入装置可以是键盘。在一些实例中,输入装置可以是定点装置,包括例如鼠标、轨迹球、轨迹板、操纵杆、游戏控制器或触控笔。在一些实例中,输入装置可以是触摸屏或多点触摸屏。在一些实例中,输入装置可以是麦克风,用于捕获语音或其他声音输入。在一些实例中,输入装置可以是摄像机,用于捕捉运动或视觉输入。在一些实例中,输入装置可以是诸如本文公开的那些的装置的组合。
D.非暂时性计算机可读存储介质
在一些实例中,本文公开的主题可以包括一种或多种非暂时性计算机可读存储介质,存储介质用包含可由任选的网络数字处理装置的操作系统执行的指令的程序编码。在一些实例中,计算机可读存储介质可以是数字处理装置的有形组件。在一些实例中,计算机可读存储介质可以任选地是可从数字处理装置移除的。在一些实例中,计算机可读存储介质可以包括例如CD-ROM、DVD、闪速存储器装置、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在一些实例中,程序和指令可以永久地、基本上永久地、半永久地或非暂时性地编码在介质上。
E.计算机系统
本公开提供了被编程以实现本文所描述的方法的计算机系统。图1示出了计算机系统101,它被编程或以其他方式配置以存储、处理、鉴定或解释患者数据、生物数据、生物序列、参考序列和蛋白质谱。计算机系统101可以处理本公开的患者数据、生物数据、生物序列、参考序列和蛋白质谱的各个方面。计算机系统101可以是用户的电子装置或位于电子装置远端的计算机系统。电子装置可以是移动电子装置。
计算机系统101包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)105,其可以是单核或多核处理器,或者用于并行处理的多个处理器。计算机系统101还包括存储器或存储器位置110(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元115(例如,硬盘)、用于与一个或多个其他系统通信的通信接口120(例如,网络适配器)以及外围装置125,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器110、存储单元115、接口120和外围装置125通过通信总线(实线)(诸如主板)与CPU 105通信。存储单元115可以是用于存储数据的数据存储单元(或数据储存库)。借助于通信接口120,计算机系统101可以可操作地耦合到计算机网络(“网络”)130。网络130可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些实例中,网络130是电信和/或数据网络。网络130可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些实例中,借助于计算机系统101,网络130可以实现点对点网络,这可以使耦合到计算机系统101的装置表现为客户端或服务器。
CPU 105可以执行一系列机器可读的指令,指令可以体现在程序或软件中。指令可以存储在存储器位置(诸如存储器110)中。指令可以被引导到CPU 105,其可以随后编程或以其他方式配置CPU 105以实施本公开的方法。由CPU 105进行的操作的实例可以包括提取、解码、执行和写回。
CPU 105可以是电路(诸如集成电路)的一部分。系统101的一个或多个其他部件可以包括在电路中。在一些实例中,电路是专用集成电路(ASIC)。
存储单元115可以存储文件,诸如驱动程序、库和保存的程序。存储单元115可以存储用户数据,例如,用户偏好和用户程序。在一些实例中,计算机系统101可以包括计算机系统101外部的一个或多个附加数据存储单元,诸如位于通过内联网或因特网与计算机系统101通信的远程服务器上。
计算机系统101可以通过网络130与一个或多个远程计算机系统通信。例如,计算机系统101可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、平板(slate/tablet)PC(例如,iPad、/>Galaxy Tab)、电话、智能电话(例如,/>iPhone、支持安卓的装置、/>)或个人数字助理。用户可以经由网络130访问计算机系统101。
如本文所描述的方法可以通过存储在计算机系统101的电子存储位置上(例如像,存储在存储器110或电子存储单元115上)的机器(例如,计算机处理器)可执行代码来实现。可以用软件的形式提供机器可执行或机器可读代码。在使用期间,代码可以由处理器105执行。在一些实例中,代码可以从存储单元115中取回并存储在存储器110上以供处理器105访问。在一些实例中,可以排除电子存储单元115,而将机器可执行指令存储在存储器110上。
代码可以被预编译和配置成与具有适于执行代码的处理器的机器一起使用,或者可以在运行时解释或编译。可以用编程语言提供代码,可以选择编程语言以使代码能够以预编译、解释或即时编译(as-compiled)的方式执行。
本文提供的系统和方法的方面,诸如计算机系统101,可以在编程中体现。技术的各个方面可以被认为是“产品”或“制品”,一般是机器(或处理器)可执行代码和/或相关联数据的形式,其被承载或包含在一种类型的机器可读介质中。机器可执行代码可以存储在电子存储单元诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器或其相关联模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以在任何时候为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如,此类通信可以使得能够将软件从一台计算机或处理器加载到另一台计算机或处理器中,例如,从管理服务器或主计算机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一种类型的介质包括光、电和电磁波,诸如通过有线和光学陆线网络以及各种空中链路在本地装置之间的物理接口上使用的。携带此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所用,除非限于非暂时性的、有形的“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质(诸如计算机可执行代码)可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如,光盘或磁盘,诸如任何一个或多个计算机等中的任何存储装置,诸如可以用于实现本文所描述的数据库。易失性存储介质包括动态存储器,诸如本文所描述的计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的电线。载波传输介质可以采取电信号或电磁信号的形式,或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些声波或光波。因此,计算机可读介质的常见形式包括例如:软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带、传输数据或指令的载波、传输这种载波的电缆或链路,或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
计算机系统101可以包括电子显示器135或与其通信,电子显示器135包括用户界面(UI)140,以用于提供例如核酸序列、富集的核酸样品数据、蛋白质谱、表达谱以及RNA表达谱的分析。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开的方法和系统可以通过一种或多种算法来实现。算法可以在由中央处理单元105执行时通过软件来实现。例如,算法可以存储、处理、鉴定或解释患者数据、生物数据、生物序列、参考序列和蛋白质谱。
在一些实例中,本文公开的主题可以包括至少一种计算机程序或其用途。计算机程序可以是在数字处理装置的CPU、GPU或TPU中执行、被编写以执行指定任务的指令序列。计算机可读指令可被实现为执行特定任务或实现特定抽象数据类型的程序模块,诸如函数、对象、应用编程接口(API)、数据结构等。鉴于本文提供的公开内容,计算机程序能够以各种版本的各种语言编写。
在各种环境中,可以根据需要对计算机可读指令的功能进行组合或分配。在一些实例中,计算机程序可以包括一个指令序列。在一些实例中,计算机程序可以包括多个指令序列。在一些实例中,计算机程序可以由一个位置提供。在一些实例中,计算机程序可以由多个位置提供。在一些实例中,计算机程序可以包括一个或多个软件模块。在一些实例中,计算机程序可以部分或整体地包括一个或多个网络应用、一个或多个移动应用、一个或多个独立应用、一个或多个网络浏览器插件、扩展项、加载项或附加项或其组合。
在一些实例中,计算机处理可以是统计学、数学、生物学或其任何组合的方法。在一些实例中,计算机处理方法包括降维方法,例如,包括逻辑回归、降维、主成分分析、自编码器、奇异值分解、傅立叶基、奇异值分解、小波、判别分析、支持向量机、基于树的方法、随机森林、梯度推进树、逻辑回归、矩阵分解、网络聚类和神经网络。
在一些实例中,计算机处理方法是有监督的机器学习方法,包括例如回归、支持向量机、基于树的方法和网络。
在一些实例中,计算机处理方法是无监督的机器学习方法,包括例如聚类、网络、主成分分析和矩阵分解。
F.数据库
在一些实例中,本文公开的主题可以包括一个或多个数据库,或使用数据库存储患者数据、生物数据、生物序列、参考序列或蛋白质谱的用途。参考序列可以从数据库中衍生。鉴于本文提供的公开内容,许多数据库可以适用于存储和检索序列信息。在一些实例中,合适的数据库可以包括例如关系数据库、非关系数据库、面向对象的数据库、对象数据库、实体-关系模型数据库、关联数据库以及XML数据库。在一些实例中,数据库可以是基于互联网的。在一些实例中,数据库可以是基于网络的。在一些实例中,数据库可以是基于云计算的。在一些实例中,数据库可以是基于一个或多个本地计算机存储装置。
在一方面,本公开提供了一种非暂时性计算机可读介质,其包括指导处理器执行本文公开的方法的指令。
在一方面,本公开提供了一种包括计算机可读介质的计算装置。
在另一方面,本公开提供了一种用于对生物样品进行分类的系统,其包括:
a)接收多个训练样品的接收器,多个训练样品中的每个具有多个类别的分子,其中多个训练样品中的每个包含一个或多个已知标记;
b)特征模块,用于鉴定与测定相对应的可操作的特征集,以便为多个训练样品中的每个使用计算机处理的机器学习模型中,其中特征集对应于多个训练样品中的分子特性,其中对于多个训练样品中的每个,系统可操作以使训练样品中的多个类别的分子进行多个不同的测定,以获得测量值集,其中每个测量值集都来自于对训练样品中的一类分子进行的一次测定,其中为多个训练样品获得多个测量值集;
c)分析模块,用于对测量值集进行分析,以获得训练样品的训练向量,其中训练向量包括对应测定的N个特征集的特征值,每个特征值对应于一个特征并包括一个或多个测量值,其中训练向量使用来自与多个不同测定的第一子集相对应的N个特征集中的至少两个的至少一个特征而形成,
d)标记模块,用于使用机器学习模型的参数通知系统关于训练向量的信息,以便为多个训练样品获得输出标记;
e)比较器模块,用于将输出标记与训练样品的已知标记相比较;
f)训练模块,用于基于将输出标记与训练样品的已知标记进行的比较来迭代地搜索参数的最优值作为训练机器学习模型的一部分;以及
g)输出模块,用于提供机器学习模型的参数和机器学习模型的特征集。
对群体中的对象进行分类的方法
所公开的方法涉及经由在对象中所表达的蛋白质的分析来确定与结肠细胞增殖性病症相关联的蛋白质表达的参数。方法用于改进结肠细胞增殖性病症的诊断、治疗和监测,更具体地说,是通过改进所述病症的阶段或亚类与所述病症的遗传易感性之间的鉴定和鉴别。
在一些实施方案中,方法包括分析来自群体中对象的生物样品中的蛋白质的差异表达。
本公开提供了一种用于检测结肠细胞增殖性病症的方法,其可以应用于无细胞样品,例如,以检测有与没有结肠细胞增殖性病症的对象之间或不同结肠细胞增殖性病症之间的蛋白质的存在和特点。方法利用蛋白质的检测作为与没有结肠细胞增殖性病症的健康对象相比的结肠细胞增殖性病症信号的基本“阳性”或“阴性”。
在一些实施方案中,结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一方面,本公开提供了一种用于确定来自对象的生物样品的蛋白质谱的方法,其包括:
a)从对象获得含有蛋白质的生物样品;以及
b)测量生物样品中预先确定的小组的存在和量,以提供对象的蛋白质谱,该预先确定的小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、ApoA1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
在一些实施方案中,蛋白质谱与结肠细胞增殖性病症相关联并且提供将对象分类为患有结肠细胞增殖性病症的分类。
在一些实施方案中,来自对象的生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞及其组合。
在一些实施方案中,结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
在一些实施方案中,晚期腺瘤是管状腺瘤、管状绒毛状腺瘤、绒毛状腺瘤、腺癌或增生性息肉。
在另一方面,本公开提供了一种用于检测对象中的结肠细胞增殖性病症的方法,其包括:
a)从对象获得含有蛋白质的生物样品;
b)测量生物样品中的预先确定的小组的存在和量,以提供对象的蛋白质谱,该预先确定的小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、ApoA1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;以及
c)将蛋白质谱计算机处理到机器学习模型中,该机器学习模型经训练以能够区分健康对象与患有结肠细胞增殖性病症的对象,以提供与结肠细胞增殖性病症的存在或不存在相关联的输出值,从而指示对象中结肠细胞增殖性病症的存在或不存在。
在一些实施方案中,来自对象的生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞,及其组合。
在另一方面,本文公开了一种用于检测蛋白质以生成样品中的蛋白质谱的方法,其包括:
a)从对象获得含有蛋白质的生物样品;以及
b)测量生物样品中预先确定的小组的存在和量,该预先确定的小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA,以提供生物样品的蛋白质谱。
在另一方面,本文公开了一种获得来自对象的生物样品中的数据的方法,其包括检测至少6种蛋白质,其中所述至少6种蛋白质选自:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;并且,如果需要,确定所述样品中所述至少6种蛋白质的水平。
在一些实施方案中,结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
在另一方面,本公开提供了一种用于确定来自对象的生物样品的蛋白质谱的方法,其包括:
a)从对象获得含有蛋白质的生物样品;以及
b)测量生物样品中预先确定的小组的存在和量,该预先确定的小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA,以提供对象的蛋白质谱,从而确定对象的蛋白质谱。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM或其任何组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其任何组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF或其任何组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC、HGFR、THBS2、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)或其组合。
在一些实施方案中,小组包括总PSA。
在另一方面,本公开提供了一种用于检测对象中的结肠细胞增殖性病症的方法,其包括:
a)从对象获得含有蛋白质的生物样品;
b)测量生物样品中预先确定的小组的存在和量,以提供对象的蛋白质谱,该预先确定的小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、ApoA1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;以及
c)将对象的蛋白质谱计算机处理到机器学习模型中,该机器学习模型经训练以区分未患有结肠细胞增殖性病症的对象和患有结肠细胞增殖性病症的对象;以及
d)通过基于蛋白质谱的机器学习模型输出与患有结肠细胞增殖性病症的对象相关联的值,从而检测对象中的结肠细胞增殖性病症。
在另一方面,本公开提供了一种用于监测先前针对疾病进行治疗的对象中的微小残留疾病的方法,其包括:使用预先确定的蛋白质小组确定来自对象的生物样品的蛋白质谱,从而生成基线蛋白质状态,该预先确定的蛋白质小组选自:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;并且在生成基线蛋白质状态后,在一个或多个时间点处确定来自对象的生物样品的蛋白质谱,从而生成当前蛋白质状态,其中基线蛋白质状态与当前蛋白质状态之间的变化指示对象中微小残留疾病的变化。
在一些实施方案中,微小残留疾病选自治疗应答、肿瘤负荷、术后残留肿瘤、复发、二次筛查、一次筛查和癌症发展。
本文所描述的经训练的机器学习方法、模型和判别分类器可以应用于各种医疗应用,包括癌症检测、诊断和治疗应答性。由于模型可以用对象元数据和分析物衍生的特征来训练,所以应用可以进行定制,以对群体中的对象进行分层,并相应地指导治疗决定。
诊断
本文提供的方法和系统可以使用基于人工智能的方法执行预测分析,以分析从对象(患者)获取的数据,从而生成对患有癌症(例如,结直肠癌)的对象的诊断输出。例如,应用可以对所获取的数据应用预测算法,以生成对患癌对象的诊断。预测算法可以包括基于人工智能的预测器,诸如基于机器学习的预测器,其被配置为处理所获取的数据,以生成对患癌对象的诊断。
机器学习预测器可以使用数据集来训练,例如,使用本文的特征小组对来自一个或多个患癌患者队列集的对象生物样品进行蛋白质测定生成的数据集作为输入,和对象的已知诊断(例如,分期和/或肿瘤分数)结果作为机器学习预测器的输出。
训练数据集(例如,使用本文的特征小组对对象生物样品进行测定而生成的数据集)可以从例如具有共同特点(特征)和结果(标记)的一个或多个对象集生成。训练数据集可以包括与诊断相关的特征相对应的特征和标记集。特征可以包括特点,例如像蛋白质测定测量的某些范围或类别,诸如在来自健康对象和患有疾病的对象的生物样品中一种或多种蛋白质的存在或特点。例如,在给定的时间点从给定的对象收集的特征集可以共同充当诊断特征,这可以指示在给定的时间点处对象患有已鉴定的癌症。特点还可以包括指示对象的诊断结果(诸如一种或多种癌症)的标记。
标记可以包括结果,例如像对象的已知诊断(例如,分期和/或肿瘤分数)结果。结果可以包括与对象的癌症相关联的特点。例如,特点可指示对象患有一种或多种癌症。
训练集(例如,训练数据集)可以通过对与一个或多个对象集(例如,患有或未患一种或多种癌症的回顾性和/或前瞻性患者队列)相对应的一个数据集的随机采样来选择。可替代地,训练集(例如,训练数据集)可以通过对与一个或多个对象集(例如,患有或未患一种或多种癌症的回顾性和/或前瞻性患者队列)相对应的一个数据集的比例采样来选择。训练集可以在与一个或多个对象集(例如,来自不同临床地点或试验的患者)相对应的数据集之间进行平衡。可以对机器学习预测器进行训练,直至满足某些预先确定的准确性或性能条件,诸如具有与诊断准确性度量相对应的最小期望值。例如,诊断准确性度量可以对应于对对象的一种或多种癌症的诊断、分期或肿瘤分数的预测。
诊断准确性度量的实例可以包括与检测或预测癌症(例如,结直肠癌)的诊断准确性相对应的敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、准确性以及接受者操作特征(ROC)曲线的曲线下面积(AUC)。
一方面,本公开提供了一种使用能够区分对象群体的分类器的方法,其包括:
a)从对象获得含有蛋白质的生物样品;
b)测量生物样品中预先确定的小组的存在和量,从而提供对象的蛋白质谱,该预先确定的小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、ApoA1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;
c)将对象的蛋白质谱计算机处理到机器学习模型中,该机器学习模型经训练以区分两个或更多个群体;以及
d)通过基于蛋白质谱的机器学习模型输出与群体相关联的值,从而区分对象的群体。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM或其任何组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其任何组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体C2、ORM2、FGF-23、MUC-16、EGF或其任何组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC、HGFR、THBS2、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)或其组合。
在一些实施方案中,小组包括总PSA。
在另一方面,本公开提供了一种用于鉴定对象中的癌症的方法,其包括:
a)从对象获得含有蛋白质的生物样品;
b)测量生物样品中预先确定的小组的存在和量,从而提供对象的蛋白质谱,该预先确定的小组具有选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、ApoA1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;
c)将蛋白质谱计算机处理到机器学习模型中,该机器学习模型经训练以能够区分健康对象和患有结肠细胞增殖性病症的对象,以提供与结肠细胞增殖性病症的存在或不存在相关联的输出值,从而指示对象中的结肠细胞增殖性病症的存在或不存在,
以产生患有所述癌症的所述对象的可能性。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM或其任何组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15或其任何组合。
在一些实施方案中,预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF或其任何组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC或其组合。
在一些实施方案中,小组包括FLT3L、CEACAM5、IL-6、IL-8、MIP-3a、IL-1RT2、TNC、HGFR、THBS2、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)或其组合。
在一些实施方案中,小组包括总PSA。
可以使用多种统计和数学方法来建立表达的阈值或截止水平。可以例如基于来自接受者操作特征(ROC)绘图的数据(如在本文公开的实施例和附图中所描述)来选择特定生物标志物的阈值或截止表达水平。本领域技术人员将理解,这些阈值或截止表达水平可以例如通过沿着特定生物标志物或其组合的ROC绘图移动而变化,以获得不同的敏感性或特异性值,从而影响总体测定性能。例如,如果目标是从临床角度有一个可靠的诊断方法,则高敏感性应该优先考虑。然而,如果目标是有一个具有成本效益的方法,则高特异性应该优先考虑。最佳截止是指从ROC绘图获得的产生最佳敏感性和特异性的特定生物标志物的值。敏感性和特异性值在阈值(截止)范围内计算。因此,可以选择阈值或截止值,使得敏感性和/或特异性在至少60%、至少65%、至少70%、至少75%或至少80%被测定的患者群体中是至少约50%,并且可以是例如至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少100%。
因此,本公开的一些实施方案通过以下步骤进行:确定从待诊断或筛查的对象分离的微创样品中至少先前记载的蛋白质的存在和/或水平,和将蛋白质的存在和/或水平与预先确定的阈值或截止值进行比较,其中预先确定的阈值或截止值对应于所述蛋白质的表达水平,该表达水平在ROC曲线中与所需敏感性下的最高特异性相关,ROC曲线是基于在有患上结直肠癌或结直肠腺瘤风险的患者群体中确定的蛋白质表达水平计算的,其中至少一种所述蛋白质相对于所述预先确定的截止值的过表达以所述所需敏感性指示对象患有结直肠癌或结直肠腺瘤。
作为另一个实例,这种预先确定的条件可以是预测结肠细胞增殖性病症的特异性具有以下值:例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。
作为另一个实例,这种预先确定的条件可以是预测结肠细胞增殖性病症的阳性预测值(PPV)具有以下值:例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。
作为另一个实例,这种预先确定的条件可以是预测结肠细胞增殖性病症的阴性预测值(NPV)具有以下值:例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。
作为另一个实例,这种预先确定的条件可以是预测结肠细胞增殖性病症的接受者操作特征(ROC)曲线的曲线下面积(AUC)具有以下值:至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99。
监测结直肠癌
在使用经训练的算法处理数据集之后,可以在对象中鉴定或监测结直肠癌。鉴定可以至少部分地基于结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量。例如,监测可能包括在两个或更多个不同时间点的每个评估对象的结直肠癌。
在一些实施方案中,本文公开的方法可以应用于监测和/或预测肿瘤负荷。
在一些实施方案中,本文公开的方法可以应用于检测和/或预测术后残留肿瘤。
在一些实施方案中,本文公开的方法可以应用于检测和/或预测治疗后的微小残留疾病。
在一些实施方案中,本文公开的方法可以应用于检测和/或预测复发。
在一方面,本文公开的方法可以用作二次筛查。
在一方面,本文公开的方法可以用作一次筛查。
在一方面,本文公开的方法可以应用于监测癌症发展。
在一方面,本文公开的方法可以应用于监测和/或预测癌症风险。
可以用以下准确性在对象中鉴定结直肠癌:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。通过经训练的算法鉴定结直肠癌的准确性可以计算为独立测试样品(例如,已知患有结直肠癌的对象或结直肠癌临床测试结果为阴性的对象)被正确鉴定或分类为患有或未患结直肠癌的百分比。
可以用以下阳性预测值(PPV)在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。使用经训练的算法鉴定结直肠癌的PPV可以计算为被鉴定或分类为患有结直肠癌的无细胞生物样品与真正患有结直肠癌的对象相对应的百分比。
可以用以下阴性预测值(NPV)在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。使用经训练的算法鉴定结直肠癌的NPV可以计算为被鉴定或分类为未患结直肠癌的无细胞生物样品与真正未患结直肠癌的对象相对应的百分比。
可以用以下临床敏感性在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。使用经训练的算法鉴定结直肠癌的临床敏感性可以计算为与存在结直肠癌相关联的独立测试样品(例如,已知患有结直肠癌的对象)被正确鉴定或分类为患有结直肠癌的百分比。
可以用以下临床特异性在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。使用经训练的算法鉴定结直肠癌的临床特异性可以计算为与不存在结直肠癌相关联的独立测试样品(例如,结直肠癌临床测试结果为阴性的对象)被正确鉴定或分类为未患结直肠癌的百分比。
在一些实施方案中,经训练的算法可以确定对象患上结直肠癌的风险为至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。
经训练的算法可以确定对象有患上结直肠癌的风险,准确性至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。
在鉴定对象患有结直肠癌后,可以为对象任选地提供治疗性干预(例如,为对象开出治疗结直肠癌的适当治疗过程)。治疗性干预可以包括开出有效剂量的药物、对结直肠癌的进一步测试或评估、对结直肠癌的进一步监测或其组合。如果对象目前正在以一个治疗过程接受结直肠癌的治疗,则治疗性干预可以包括后续的不同治疗过程(例如,由于当前治疗过程无效而增加治疗功效)。
治疗性干预可以包括建议对象进行二次临床测试,以确认结直肠癌的诊断。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
通过对治疗对象的结直肠癌的治疗过程的监测,可以监测对象的结直肠癌。监测可以包括在两个或更多个时间点处评估对象的结直肠癌。评估可以至少基于在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量,包括在两个或更多个时间点中的每个处确定的结直肠癌相关联蛋白质小组的定量度量。
在一些实施方案中,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关联蛋白质小组的定量度量)的差异可以指示一个或多个临床指示,诸如:(i)对象的结直肠癌诊断;(ii)对象的结直肠癌预后;(iii)对象患上结直肠癌的风险增加;(iv)对象患上结直肠癌的风险降低;(v)治疗对象的结直肠癌的治疗过程有效;以及(vi)治疗对象的结直肠癌的治疗过程无效。
在一些实施方案中,蛋白质的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关联蛋白质小组的定量度量)的差异可以指示对象的结直肠癌的诊断。例如,如果对象在较早的时间点没有检测到结直肠癌,但在较晚的时间点检测到,则差异指示对象的结直肠癌的诊断。临床行动或决定可以基于对象的结直肠癌诊断的这个指示作出,例如,为对象开出新的治疗性干预。临床行动或决定可以包括建议对象进行二次临床测试,以确认结直肠癌的诊断。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
在一些实施方案中,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关联蛋白质小组的定量度量)的差异可以指示对象的结直肠癌的预后。
在一些实施方案中,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关联蛋白质小组的定量度量)的差异可以指示对象患上结直肠癌的风险增加。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,并且如果差异是正性差异(例如,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量从较早的时间点到较晚的时间点是增加的),则差异可以指示对象患上结直肠癌的风险增加。临床行动或决定可以基于结直肠癌风险增加的这个指示作出,例如,为对象开出新的治疗性干预或转换治疗性干预(例如,结束当前治疗,并开出新的治疗)。临床行动或决定可以包括建议对象进行二次临床测试,以确认患上结直肠癌的风险增加。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
在一些实施方案中,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关联蛋白质小组的定量度量)的差异可以指示对象患上结直肠癌的风险降低。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,并且如果差异是负性差异(例如,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量,包括结直肠癌相关联蛋白质小组的定量度量从较早的时间点到较晚的时间点是降低的),则差异可以指示对象患上结直肠癌的风险降低。临床行动或决定可以基于结直肠癌风险降低的这个指示作出,为对象(例如,继续或结束当前的治疗性干预)。临床行动或决定可以包括建议对象进行二次临床测试,以确认患上结直肠癌的风险降低。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
在一些实施方案中,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关联蛋白质小组的定量度量)的差异可以指示治疗对象的结直肠癌的治疗过程有效。例如,如果对象在较早的时间点检测到结直肠癌,但在较晚的时间点没有检测到,则差异可以指示治疗对象的结直肠癌的治疗过程有效。临床行动或决定可以基于治疗对象的结直肠癌的治疗过程有效的这个指示作出,例如,为对象继续或结束当前的治疗性干预。临床行动或决定可以包括建议对象进行二次临床测试,以确认治疗结直肠癌的治疗过程有效。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
在一些实施方案中,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关联蛋白质小组的定量度量)的差异可以指示治疗对象的结直肠癌的治疗过程无效。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,并且如果差异是正性或零差异(例如,在结直肠癌相关联蛋白质小组上数据集的蛋白质的定量度量,包括结直肠癌相关联蛋白质小组的定量度量,从较早的时间点到较晚的时间点是增加的或保持在恒定水平),并且如果在较早的时间点处指示有效治疗,则差异可以指示治疗对象的结直肠癌的治疗过程无效。临床行动或决定可以基于治疗对象的结直肠癌的治疗过程无效的这个指示作出,例如,为对象结束当前的治疗性干预和/或转换(例如,开出)新的不同的治疗性干预。临床行动或决定可以包括建议对象进行二次临床测试,以确认治疗结直肠癌的治疗过程无效。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
试剂盒
本公开提供了用于鉴定或监测对象癌症的试剂盒。试剂盒可以包括抗体、探针或引物,用于鉴定对象的无细胞生物样品中多个癌症相关联蛋白质中的每个上的蛋白质定量度量(例如,指示存在、不存在或相对量)。无细胞生物样品中蛋白质小组的定量度量(例如,指示存在、不存在或相对量)可以指示一种或多种癌症。探针可以对无细胞生物样品中的蛋白质具有选择性。试剂盒可以包括使用探针处理无细胞生物样品以生成数据集的说明书,数据集指示对象的无细胞生物样品中的蛋白质的定量度量(例如,指示存在、不存在或相对量)。
试剂盒中的探针可以对无细胞生物样品中多个癌症相关联蛋白质上的蛋白质或编码蛋白质的序列具有选择性。试剂盒中的探针可以被配置为选择性富集与多个癌症相关联蛋白质相对应的蛋白质分子。试剂盒中的探针可能是被蛋白质识别的抗体,并且被标记以允许在与生物样品中的蛋白质结合之后进行分离。
试剂盒中的说明书可以包括使用对无细胞生物样品中的癌症相关联蛋白质具有选择性的探针来测定无细胞生物样品的说明书。无细胞生物样品中多个癌症相关联蛋白质中的每个上的蛋白质或编码蛋白质的序列定量度量(例如,指示存在、不存在或相对量)可以指示一种或多种癌症。
试剂盒中的说明书可以包括测量和解释测定读出的说明书,该测定读出可以在多个癌症相关联蛋白质中的一个或多个处量化,以生成数据集,该数据集指示无细胞生物样品中多个癌症相关联蛋白质中的每个上的蛋白质或编码蛋白质的序列的定量度量(例如,指示存在、不存在或相对量)。
实施例
实施例1:患者血浆样品中的蛋白质分析。
在癌症中,蛋白质(无论是癌症新抗原还是典型蛋白质)代表结直肠癌的潜在早期诊断生物标志物的来源。可以通过评估在癌症患者中的蛋白质过表达、缺失或突变来从血浆确定蛋白质特征。已经鉴定出与乳腺癌、前列腺癌、结直肠癌、肺癌和卵巢癌相关联的一些蛋白质。
为了鉴定对本文所描述的方法和分类器具有信息性的蛋白质,已经检查了来自患有结肠细胞增殖性病症的患者的血浆和未患结肠细胞增殖性病症的对象的血浆(对照血浆或参考血浆),以鉴定由患有结肠细胞增殖性病症的患者响应于结肠细胞增殖性病症和相应的反应性蛋白产生的蛋白质的特征小组。为此,使用基于蛋白质组的质谱法和免疫亲和性测定来分析来自患有结肠细胞增殖性病症的患者的血浆和对照血浆,以鉴定并定量循环血浆蛋白质。在表征前,血浆可能已经耗尽或可能没有耗尽高丰度蛋白质(例如,白蛋白、免疫球蛋白)。
通过这种分析鉴定的蛋白质小组允许鉴别来自患有结肠细胞增殖性病症的对象与健康对象的血浆。
方法
样品归类
为了检测血浆样品中的蛋白质,用从随后被鉴定为患有结直肠癌(CRC)、晚期腺瘤(AA)、良性息肉(NAA)或无这些(NEG)的对象抽取的血浆进行免疫测定和质谱测定。
使用标准化血液采集和处理方案获得血浆,并随后储存在-80℃下,直至使用。在机构审查委员会的批准下,获得所有对象的书面同意。
表1提供了研究队列的描述,其显示了分类模型(按性别和年龄)中用于CRC实验的健康和癌症样品的数量。
表1
本研究的主要目标是鉴定血清蛋白质生物标志物,该血清蛋白质生物标志物区分结直肠癌与晚期腺瘤、良性疾病和健康对照,以改善当前生物标志物的敏感性并指导临床决定。
从代表NEG、CRC、AA和NAA对象群体的对象样品分离血浆,并且在蛋白质阵列上进行筛选。在NEG、CRC、AA和NAA对象群体中鉴定了总计1,472个特征,并且查询来自患有结肠细胞增殖性病症的对象的血浆和健康对象血浆中的差异表达。
将所有蛋白质定量数据归一化并且以相对或绝对尺度报告。
过滤特征值:
通过计算用于鉴别三组的指标来评估每种蛋白质区分具有和没有特定病状的患者的能力。鉴别组是:疾病阴性与结直肠癌(NEG与CRC),疾病阴性与晚期腺瘤(NEG与AA),以及疾病阴性与晚期腺瘤和非晚期腺瘤(NEG与AA+NAA)。为此比较进行计算的指标包括Hedges’G效应大小指标、Wasserstein距离指标、具有弹性网络正则化的单测定线性逻辑回归中的特征权重、单测定非线性随机森林中的特征重要性以及多测定逻辑回归模型中的特征权重。
对于每种蛋白质,计算该蛋白质在所有蛋白质上的每指标分布中的百分位数。蛋白质按每指标分布中的百分位数排序。如果蛋白质满足以下标准中的至少一项,则保留蛋白质以供进一步考虑:
A)仅蛋白质分析的最大指标百分位数为95或更高,并且中位数指标百分位数为90或更高;
B)在最大指标百分位数或中位数指标百分位数方面排序前25位;以及
C)在多测定逻辑回归模型中按特征权重排序前25位。
基于广泛的文献检索,还考虑包括了一些文献衍生的特征。针对试剂可用性,进一步探索满足上述标准的特征,包括文献衍生的特征,并从中选择特征。
图2提供了根据单分析物蛋白质数据为蛋白质标志物数据集中的所有可用靶标计算的每蛋白质百分位数的可视化。
图3提供了来自单测定蛋白质分析(左图)和多测定蛋白质分析(右图)的指标的可视化。2.1列表由当最大和中位数指标分布取阈值时发现的蛋白质的交集组成,并将该列表与通过由可加性定义的使用频率和性能阈值的列表相交。2.2列表由当通过排序前25种蛋白质作为最大和中位数百分位数指标时发现的蛋白质的交集组成。
结果
NEG、NAA、AA、CRC
表2提供了用于CRC鉴别的蛋白质生物标志物小组的鉴定的蛋白质的列表。
表2
/>
ROC交叉验证测试折叠平均指标。平均性能指标是在20个发现数据折叠中确定的,其中所有数据都用于特征选择,但模型权重在交叉验证中定义。
对于“靶标0.9特异性”指标,基于预测概率(分数)和标签进行预测。选择了在达到刚高于0.9特异性的同时最大限度地提高敏感性的阈值。对于“实证”指标,预测是通过使用来自分类器的默认预测阈值进行的,不针对任何特定的特异性或基于测试样本。置信区间在方括号中报告,是每折叠置信区间的平均值。
表3提供了发现数据上的53个CRC特征与NEG的分类性能说明,其中所有数据都用于特征选择,但模型权重在交叉验证中定义(在此性能中没有真正的保留)。
表3
表4提供了发现数据上的53个AA特征与NEG的分类性能说明,其中所有数据都用于特征选择,但模型权重在交叉验证中定义(在此性能中没有真正的保留)。
表4
尽管本文已经示出和描述了本发明的各个实施方案,但对于本领域技术人员明显的是,此类实施方案仅通过举例的方式提供。本发明不意在受限于本说明书内提供的具体实施例。虽然已经参考上述具体说明描述了本发明,但是对本文实施方案的描述和示例说明不意在以限制性意义进行解释。在不脱离本发明的情况下,本领域技术人员现将想到多种变型、变化和替代方案。此外,应理解,本发明的所有方面不限于本文阐述的具体的描绘、配置或相对比例,其取决于各种条件和变量。应理解,本文所描述的本发明的实施方案的各种替代方案可以用于实践本发明。因此,设想本发明还应涵盖任何此类替代方案、修改、变型或等同方案。所附权利要求意在界定本发明的范围并且由此涵盖处于这些权利要求的范围内的方法和结构及它们的等同方案。

Claims (37)

1.一种结肠细胞增殖性病症所特有的预先确定的蛋白质小组,所述预先确定的蛋白质小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII(IL1R2)、HGFR、IL-6ra、OPN、生腱蛋白-C(TNC)、血小板反应蛋白-2(THBS2)、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125(MUC-16)、CA19-9、CA15-3(MUC-1)和CEA。
2.如权利要求1所述的小组,其中所述小组包括FLT3L、CEACAM5、IL-6RA或其组合。
3.如权利要求1所述的小组,其中所述小组包括FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2、TNC或其组合。
4.如权利要求1所述的小组,其中所述小组包括FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2、TNC、MUC-16、EGF或其组合。
5.如权利要求1所述的小组,其中所述小组被配置为区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
6.如权利要求1所述的小组,其中所述小组被配置为指示晚期腺瘤,并且包括:1)FLT3L、CEACAM5和IL-6RA;2)FLT3L、CEACAM5、IL-6RA、CEA、IL-8、AGP、IL-1RT2、TNC和GDF-15;或者3)FLT3L、CEACAM5、IL-6RA、CEA、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF和p00738。
7.如权利要求1所述的小组,其中所述小组被配置为指示结直肠癌,并且包括:FLT3L、CEACAM5和IL-6RA;2)选自以下的蛋白质:FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2和TNC;或者3)FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16和EGF。
8.如权利要求1所述的小组,其中所述结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
9.一种被配置为区分健康对象群体与患有结肠细胞增殖性病症的对象的分类器,所述分类器包括:
测量值集,所述测量值集代表来自所述结肠细胞增殖性病症所特有的预先确定的蛋白质小组的蛋白质,
其中所述测量值集从来自健康对象的样品和患有结肠细胞增殖性病症的对象的样品的蛋白质表达数据获得,
其中所述测量值用于生成与所述蛋白质表达数据的特性相对应的特征集,其中使用机器学习或统计模型对所述特征集进行计算机处理,并且
其中所述机器学习或统计模型提供特征向量,所述特征向量可用作能够区分健康对象群体与患有所述结肠细胞增殖性病症的对象的分类器。
10.如权利要求9所述的分类器,其中所述预先确定的蛋白质小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
11.如权利要求9所述的分类器,其中所述小组包括FLT3L、CEACAM5、IL-6RA或其组合。
12.如权利要求9所述的分类器,其中所述小组包括FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2、TNC或其组合。
13.如权利要求9所述的分类器,其中所述小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、MUC-16、EGF或其组合。
14.如权利要求9所述的分类器,其中所述分类器被配置为区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
15.如权利要求9所述的分类器,其中所述小组被配置为指示晚期腺瘤,并且包括:FLT3L、CEACAM5和IL-6RA;2)FLT3L、CEACAM5、IL-6RA、CEA、IL-8、AGP、IL-1RT2、TNC和GDF-15;或者3)FLT3L、CEACAM5、IL-6RA、CEA、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16、EGF和p00738。
16.如权利要求9所述的分类器,其中所述小组被配置为指示结直肠癌,并且包括:1)FLT3L、CEACAM5和IL-6RA;2)FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2和TNC;或者3)FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、GDF-15、AGRP、触珠蛋白、ANGPTL4、FGF-23、补体成分C2、ORM2、FGF-23、MUC-16和EGF。
17.如权利要求9所述的分类器,其中所述结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
18.一种用于检测结肠细胞增殖性病症的包括机器学习模型分类器的系统,其包括:
包括分类器的计算机可读介质,所述分类器可操作以基于预先确定的蛋白质小组来将对象分类;以及
一个或多个处理器,用于执行存储在所述计算机可读介质上的指令。
19.如权利要求18所述的系统,其包括被加载到计算机系统的存储器中的如权利要求9所述的分类器,其中所述机器学习模型使用从训练生物样品获得的训练数据来训练,其中所述训练生物样品的第一子集被鉴定为对应于患有结肠细胞增殖性病症的对象,并且其中所述训练生物样品的第二子集被鉴定为对应于未患有结肠细胞增殖性病症的对象。
20.如权利要求18所述的系统,其中所述小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
21.如权利要求18所述的系统,其中所述系统包括分类电路,所述分类电路被配置为选自以下的机器学习分类器:深度学习分类器、神经网络分类器、线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、K近邻分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器和主成分分析分类器。
22.一种用于确定来自对象的生物样品的蛋白质谱的方法,所述方法包括:
a)从所述对象获得含有蛋白质的所述生物样品;以及
b)测量所述生物样品中来自预先确定的蛋白质小组的蛋白质的量,从而提供所述对象的所述蛋白质谱,所述预先确定的蛋白质小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA。
23.如权利要求22所述的方法,其中所述预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA或其组合。
24.如权利要求22所述的方法,其中所述预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2、TNC或其组合。
25.如权利要求22所述的方法,其中所述预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、MUC-16、EGF或其组合。
26.如权利要求22所述的方法,其中所述蛋白质谱与结肠细胞增殖性病症相关联并且提供将所述对象分类为患有所述结肠细胞增殖性病症的分类。
27.如权利要求22所述的方法,其中来自所述对象的所述生物样品选自:体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
28.如权利要求22所述的方法,其中所述结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
29.如权利要求22所述的方法,其进一步包括:c)基于所述对象的所述蛋白质谱用手术和/或治疗剂来治疗所述对象。
30.一种用于检测对象中的结肠细胞增殖性病症的方法,所述方法包括:
a)从所述对象获得含有蛋白质的生物样品;
b)测量所述生物样品中的来自预先确定的蛋白质小组的蛋白质的量,从而提供所述对象的蛋白质谱,所述预先确定的蛋白质小组包括选自以下的至少6种蛋白质:EGF、FGF-2、FLT3L、Fractalkine、IL-1a、IL-2、IL-6、IL-8、GROa、MIP-3a、补体成分C2、补体成分C9、D因子、I因子、MBL、MMP-2、GDF-15、骨粘连蛋白、骨膜素、ANGPTL4、FGF-21、FGF-23、HGF、血管生成素-2、BMP-9、IL-1RII、HGFR、IL-6ra、OPN、生腱蛋白-C、血小板反应蛋白-2、uPAR、CD44、激肽释放酶-6、间皮素、EpCAM、Apo A1、AGP、A2MB、胎球蛋白A、HP、L-选择蛋白、补体成分C1q、补体成分C3、补体成分C3b、B因子、H因子、备解素、AGRP、MMP-12、CYFRA21-1、HE4、总PSA、MIF、AFP、CA125、CA19-9、CA15-3(MUC-1)和CEA;以及
c)将所述蛋白质谱计算机处理到机器学习模型中,所述机器学习模型经训练以能够区分健康对象与患有所述结肠细胞增殖性病症的对象,以提供与结肠细胞增殖性病症的存在或不存在相关联的输出值,从而指示所述对象中所述结肠细胞增殖性病症的所述存在或不存在。
31.如权利要求30所述的方法,其中所述预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA或其组合。
32.如权利要求30所述的方法,其中所述预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、IL-8、IL-1RT2、TNC或其组合。
33.如权利要求30所述的方法,其中所述预先确定的蛋白质小组包括FLT3L、CEACAM5、IL-6RA、ORM、IL-8、AGP、IL-1RT2、TNC、MUC-16、EGF或其组合。
34.如权利要求30所述的方法,其中所述蛋白质谱与结肠细胞增殖性病症相关联并且提供将所述对象分类为患有所述结肠细胞增殖性病症的分类。
35.如权利要求30所述的方法,其中来自所述对象的所述生物样品选自:体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
36.如权利要求30所述的方法,其中所述结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
37.如权利要求30所述的方法,其进一步包括:d)基于所述对象的所述蛋白质谱用手术和/或治疗剂来治疗所述对象。
CN202180094185.5A 2020-12-21 2021-12-14 用于结肠细胞增殖性病症的早期检测的标志物 Pending CN117083525A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063128545P 2020-12-21 2020-12-21
US63/128,545 2020-12-21
PCT/US2021/063337 WO2022140116A1 (en) 2020-12-21 2021-12-14 Markers for the early detection of colon cell proliferative disorders

Publications (1)

Publication Number Publication Date
CN117083525A true CN117083525A (zh) 2023-11-17

Family

ID=82157028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180094185.5A Pending CN117083525A (zh) 2020-12-21 2021-12-14 用于结肠细胞增殖性病症的早期检测的标志物

Country Status (8)

Country Link
US (1) US20230176058A1 (zh)
EP (1) EP4264270A1 (zh)
JP (1) JP2024505333A (zh)
KR (1) KR20230124038A (zh)
CN (1) CN117083525A (zh)
AU (1) AU2021409465A1 (zh)
CA (1) CA3202255A1 (zh)
WO (1) WO2022140116A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019060716A1 (en) 2017-09-25 2019-03-28 Freenome Holdings, Inc. SAMPLE EXTRACTION METHODS AND SYSTEMS
CN116519954B (zh) * 2023-06-28 2023-10-27 杭州广科安德生物科技有限公司 一种结直肠癌检测模型构建方法、系统及生物标志物

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143805A1 (en) * 2008-09-09 2012-06-07 Somalogic, Inc. Cancer Biomarkers and Uses Thereof
GB201319264D0 (en) * 2013-10-31 2013-12-18 Univ Cape Town The Method for diagnosing sexually transmitted infections and bacterial vaginosis in women
US11014987B2 (en) * 2013-12-24 2021-05-25 Janssen Pharmaceutics Nv Anti-vista antibodies and fragments, uses thereof, and methods of identifying same
EP3481951A4 (en) * 2016-07-06 2020-08-05 Youhealth Biotech, Limited METHYLATION MARKERS FOR COLON CARCINOMA AND USES THEREOF
JP7232476B2 (ja) * 2017-08-07 2023-03-08 ザ ジョンズ ホプキンス ユニバーシティ がんを評価及び治療するための方法及び物質
SG11202009696WA (en) * 2018-04-13 2020-10-29 Freenome Holdings Inc Machine learning implementation for multi-analyte assay of biological samples

Also Published As

Publication number Publication date
AU2021409465A1 (en) 2023-08-03
WO2022140116A1 (en) 2022-06-30
JP2024505333A (ja) 2024-02-06
EP4264270A1 (en) 2023-10-25
CA3202255A1 (en) 2022-06-30
KR20230124038A (ko) 2023-08-24
US20230176058A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
JP7431760B2 (ja) 癌分類子モデル、機械学習システム、および使用方法
Kidd et al. Blood and tissue neuroendocrine tumor gene cluster analysis correlate, define hallmarks and predict disease status
JP7250693B2 (ja) 初期ステージの肺がん診断のための血漿ベースのタンパク質プロファイリング
Zhu et al. Three immunomarker support vector machines–based prognostic classifiers for stage IB non–small-cell lung cancer
US20230243830A1 (en) Markers for the early detection of colon cell proliferative disorders
US20230176058A1 (en) Markers for the early detection of colon cell proliferative disorders
Kugler et al. The impact of sample storage time on estimates of association in biomarker discovery studies
Zhang et al. Artificial intelligence-assisted esophageal cancer management: Now and future
US20230263477A1 (en) Universal pan cancer classifier models, machine learning systems and methods of use
Sountharrajan et al. Automatic classification on bio medical prognosisof invasive breast cancer
Singh et al. Information retrieval using machine learning from breast cancer diagnosis
Garg et al. Artificial intelligence and allied subsets in early detection and preclusion of gynecological cancers
Islam et al. Machine learning models of breast cancer risk prediction
Dinesh et al. Diagnostic ability of deep learning in detection of pancreatic tumour
Ding et al. Improving the efficiency of identifying malignant pulmonary nodules before surgery via a combination of artificial intelligence CT image recognition and serum autoantibodies
US20230223145A1 (en) Methods and software systems to optimize and personalize the frequency of cancer screening blood tests
EP4352745A1 (en) Diagnostic data feedback loop and methods of use thereof
WO2023235878A2 (en) Markers for the early detection of colon cell proliferative disorders
WO2011119967A2 (en) System,method and computer-accessible medium for evaluating a maliganacy status in at-risk populations and during patient treatment management
Firpo et al. Multianalyte serum biomarker panel for early detection of pancreatic adenocarcinoma
Piedimonte et al. Evaluating the use of machine learning in endometrial cancer: A systematic review
WO2024059879A2 (en) Generating electronic tumor marker analogs of carbohydrate antigen 19-9 using machine learning
Lisson et al. Machine Learning Classifiers for Predictive Biomarkers Combining Clinical and Radiomic Data in Testicular Cancer
Goyal et al. Prediction of Breast Cancer Recurrence Risk Using a Multi-Model Approach Integrating Whole Slide Imaging and Clinicopathologic Features
Sy-Janairo et al. Non-endoscopic Applications of Machine Learning in Gastric Cancer: A Systematic Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination